DM Noté
Avant Propos
- Le rendu attendu est un fichier
.Rou.Rmdéventuellement accompagné de documents complémentaires pour les parties écrites (bien le préciser en commentaire dans le fichier R si c’est le cas) - Le code doit fonctionner sans erreurs (pensez à vider l’environnement et relancer le code à intervalles réguliers).
- Le code doit être clair, commenté, avec des noms de variables explicites.
- À rendre par mail à (mailto:paul.gehin@insee.fr)
Contexte
Une mairie souhaite connaître les habitudes de consommation de cinéma.
Pour cela, elle souhaite réaliser un sondage sur l’ensemble de la population de la commune de 100 000 habitants. Compte tenu des coûts de collecte, un échantillon de taille au plus 2 000 peut être tiré.
La base de sondages est connue et disponible dans le fichier bds.csv
Description de l’étude
- Décrire la population, la variable d’intérêt et la fonction d’intérêt
Conception d’un plan de sondage
- Donner un échantillon sous un plan de sondage aléatoire simple sans remise de taille 2000
- À partir des données de la base de sondage, proposer un plan de sondage permettant d’estimer le plus précisément possible le nombre moyen de visites au cinéma dans l’année de la population. Votre proposition de plan de sondage devra être assortie d’analyses statistiques basées sur la base de sondage. Vous pouvez également mobiliser d’autres études sur le lien entre la variable d’intérêt et les variables disponibles dans la base de sondage afin d’appuyer votre réflexion : les études et sources devront être rigoureusement citées (et disponibles)
- Donner un échantillon associé à ce plan de sondage
Dans la suite, on utilisera les résultats de l’enquête à partir des échantillons suivants :
- fichier ech_sas.csv : sondage aléatoire simple sans remise
- fichier ech_strate.csv : sondage aléatoire simple sans remise stratifié.
- fichier allocations.csv ; allocations associées.
Estimations du nombre de visites au cinéma
SAS
- Proposer un estimateur sans biais du nombre de visites au cinéma moyen au sein de la population basé sur le sondage aléatoire simple sans remise
- Donner une estimation associée
- Proposer un estimateur sans biais de la variance de cet estimateur
- Donner une estimation associée
- Donner un intervalle de confiance asymptotique au niveau 80%
Plan stratifié
- Proposer un estimateur sans biais du nombre de visites au cinéma moyen au sein de la population basé sur le plan de sondage stratifié
- Donner une estimation associée
- Proposer un estimateur sans biais de la variance de cet estimateur
- Donner une estimation associée
- Donner un intervalle de confiance asymptotique au niveau 80%
- Comparer avec la question 9
Estimation d’une mesure d’inégalite : l’entropie
Dans cette partie, on se basera uniquement sur l’échantillon sans stratification.
L’entropie d’une variable aléatoire permet de quantifier l’information dont elle dispose. Elle peut être utilisée comme une mesure de l’uniformité d’une variable. Pour une variable prenant \(d\) modalités, on note \(N_i\), le nombre d’individus de la population ayant cette modalité. Par exemple, la variable de sexe est souvent composée de deux modalités et on notera \(N_1\) (resp. \(N_2\)) le nombre d’hommes (resp. de femmes) dans la population.
L’entropie d’une variable à \(d\) modalités est notée \(H(N_1, \dots, N_d)\) et est telle que
\(H(N_1, \dots, N_d) = - \sum_{i=1}^{d} p_i \log(p_i)\) où \(p_i = \frac{N_i}{\sum_{j=1}^{d} N_j}\)
La variable linéarisée associée est
\(u_k = \sum_{i=1}^{d} \mathbb{1}_{k \in i} \frac{p_i H(N_1, \dots, N_d) + p_i \log(p_i)}{N_i}\)
où \(\mathbb{1}_{k \in i}\) est égal à 1 si l’individu k est dans la tanche i et 0 sinon
L’entropie est à valeur dans \([0, \log(N)]\) : lorsque l’entropie est nulle alors la variable est complètement inégalitaire. De même, lorsque l’entropie vaut \(\log(N)\) alors la variable est parfaitement uniforme.
- Proposer des tranches de fréquentations de cinéma
- Proposer des estimateurs sans biais des totaux de ces tranches
- Proposer un estimateur de \(H\) par substitution
- Donner une estimation
- Utiliser une approche par linéarisation pour approximer la variance de cet estimateur
- Donner un intervalle de confiance au niveau 95%
Calage
Dans cette partie, on se basera uniquement sur l’échantillon sans stratification.
Le statisticien aimerait savoir s’il est possible d’assurer la cohérence des estimations avec d’autres sources en utilisant le calage sur marges. Les marges utilisées vont permettre de garantir que la structure de la base de sondages est bien respectée.
Le statisticien utilisera les variables age, revenus, etude et sexe. Cependant, le calage ne pouvant se faire qu’avec des variables quantitatives, il sera nécessaire d’introduire des variables binaires pour représenter les modalités des variables qualitatives.
- Ajouter dans la table
bdsles variables binaires utiles au calage. Par example, la variableetude_1qui vaudra 1 si l’unité à un niveau d’étude égal à 1 et 0 sinon - Donner les marges de calage
- Calculer les poids calés
- Proposer un nouvel estimateur du patrimoine moyen basé sur les poids calés
- Donner une estimation de la variance
- Donner un intervalle de confiance asymptotique au niveau 80% et comparer avec l’estimateur sans calage
Bonus
- Estimer approximativement sans biais le patrimoine médian pour chacun des deux échantillons. On détaillera la construction de ces estimateurs