DM Noté

Auteur·rice

Paul Géhin

Date de publication

24 avr. 2026

Avant Propos

  • Le rendu attendu est un fichier .R ou .Rmd éventuellement accompagné de documents complémentaires pour les parties écrites (bien le préciser en commentaire dans le fichier R si c’est le cas)
  • Le code doit fonctionner sans erreurs (pensez à vider l’environnement et relancer le code à intervalles réguliers).
  • Le code doit être clair, commenté, avec des noms de variables explicites.
  • À rendre par mail à (mailto:paul.gehin@insee.fr)

Contexte

Une mairie souhaite connaître les habitudes de consommation de cinéma.

Pour cela, elle souhaite réaliser un sondage sur l’ensemble de la population de la commune de 100 000 habitants. Compte tenu des coûts de collecte, un échantillon de taille au plus 2 000 peut être tiré.

La base de sondages est connue et disponible dans le fichier bds.csv

Description de l’étude

  1. Décrire la population, la variable d’intérêt et la fonction d’intérêt

Conception d’un plan de sondage

  1. Donner un échantillon sous un plan de sondage aléatoire simple sans remise de taille 2000
  2. À partir des données de la base de sondage, proposer un plan de sondage permettant d’estimer le plus précisément possible le nombre moyen de visites au cinéma dans l’année de la population. Votre proposition de plan de sondage devra être assortie d’analyses statistiques basées sur la base de sondage. Vous pouvez également mobiliser d’autres études sur le lien entre la variable d’intérêt et les variables disponibles dans la base de sondage afin d’appuyer votre réflexion : les études et sources devront être rigoureusement citées (et disponibles)
  3. Donner un échantillon associé à ce plan de sondage

Dans la suite, on utilisera les résultats de l’enquête à partir des échantillons suivants :

Estimations du nombre de visites au cinéma

SAS

  1. Proposer un estimateur sans biais du nombre de visites au cinéma moyen au sein de la population basé sur le sondage aléatoire simple sans remise
  2. Donner une estimation associée
  3. Proposer un estimateur sans biais de la variance de cet estimateur
  4. Donner une estimation associée
  5. Donner un intervalle de confiance asymptotique au niveau 80%

Plan stratifié

  1. Proposer un estimateur sans biais du nombre de visites au cinéma moyen au sein de la population basé sur le plan de sondage stratifié
  2. Donner une estimation associée
  3. Proposer un estimateur sans biais de la variance de cet estimateur
  4. Donner une estimation associée
  5. Donner un intervalle de confiance asymptotique au niveau 80%
  6. Comparer avec la question 9

Estimation d’une mesure d’inégalite : l’entropie

Dans cette partie, on se basera uniquement sur l’échantillon sans stratification.

L’entropie d’une variable aléatoire permet de quantifier l’information dont elle dispose. Elle peut être utilisée comme une mesure de l’uniformité d’une variable. Pour une variable prenant \(d\) modalités, on note \(N_i\), le nombre d’individus de la population ayant cette modalité. Par exemple, la variable de sexe est souvent composée de deux modalités et on notera \(N_1\) (resp. \(N_2\)) le nombre d’hommes (resp. de femmes) dans la population.

L’entropie d’une variable à \(d\) modalités est notée \(H(N_1, \dots, N_d)\) et est telle que

\(H(N_1, \dots, N_d) = - \sum_{i=1}^{d} p_i \log(p_i)\)\(p_i = \frac{N_i}{\sum_{j=1}^{d} N_j}\)

La variable linéarisée associée est

\(u_k = \sum_{i=1}^{d} \mathbb{1}_{k \in i} \frac{p_i H(N_1, \dots, N_d) + p_i \log(p_i)}{N_i}\)

\(\mathbb{1}_{k \in i}\) est égal à 1 si l’individu k est dans la tanche i et 0 sinon

L’entropie est à valeur dans \([0, \log(N)]\) : lorsque l’entropie est nulle alors la variable est complètement inégalitaire. De même, lorsque l’entropie vaut \(\log(N)\) alors la variable est parfaitement uniforme.

  1. Proposer des tranches de fréquentations de cinéma
  2. Proposer des estimateurs sans biais des totaux de ces tranches
  3. Proposer un estimateur de \(H\) par substitution
  4. Donner une estimation
  5. Utiliser une approche par linéarisation pour approximer la variance de cet estimateur
  6. Donner un intervalle de confiance au niveau 95%

Calage

Dans cette partie, on se basera uniquement sur l’échantillon sans stratification.

Le statisticien aimerait savoir s’il est possible d’assurer la cohérence des estimations avec d’autres sources en utilisant le calage sur marges. Les marges utilisées vont permettre de garantir que la structure de la base de sondages est bien respectée.

Le statisticien utilisera les variables age, revenus, etude et sexe. Cependant, le calage ne pouvant se faire qu’avec des variables quantitatives, il sera nécessaire d’introduire des variables binaires pour représenter les modalités des variables qualitatives.

  1. Ajouter dans la table bds les variables binaires utiles au calage. Par example, la variable etude_1 qui vaudra 1 si l’unité à un niveau d’étude égal à 1 et 0 sinon
  2. Donner les marges de calage
  3. Calculer les poids calés
  4. Proposer un nouvel estimateur du patrimoine moyen basé sur les poids calés
  5. Donner une estimation de la variance
  6. Donner un intervalle de confiance asymptotique au niveau 80% et comparer avec l’estimateur sans calage

Bonus

  1. Estimer approximativement sans biais le patrimoine médian pour chacun des deux échantillons. On détaillera la construction de ces estimateurs