TP Noté

Auteur·rice

Paul Géhin

Date de publication

24 avr. 2026

Avant Propos

  • Le rendu attendu est un fichier .R ou .Rmd éventuellement accompagné de documents complémentaires pour les parties écrites (bien le préciser en commentaire dans le fichier R si c’est le cas)
  • Le code doit fonctionner sans erreurs (pensez à vider l’environnement et relancer le code à intervalles réguliers).
  • Le code doit être clair, commenté, avec des noms de variables explicites.
  • À rendre par mail à (mailto:paul.gehin@insee.fr)

Contexte

Des chercheurs souhaitent mieux connaître les niveaux de patrimoine des ménages dans les départements suivants : Paris (75), Hauts-de-Seine (92), Bouches-du-Rhône (13), Gironde (33), Rhône (69), Nord (59), Haute-Garonne (31), Bas-Rhin (67), Hérault (34), Loire-Atlantique (44).

Pour cela, un sondage sera réalisé sur l’ensemble de la population de ces départments. Compte tenu des coûts de collecte, un échantillon de taille au plus 2 000 peut être tiré.

La base de sondages est connue et disponible dans le fichier bds.csv

Estimation du patrimoine moyen

On définit :

\(r = \frac{t_\text{patrimoine}}{N}\)\(t_\text{patrimoine} = \sum_{k \in \mathcal{U}}\)

avec \(\mathcal{U}\) la population et \(N\) sa taille.

Description de l’étude

  1. Décrire la population, la variable d’intérêt et la fonction d’intérêt.
  2. Combien vaut \(N\) ?

Le statisticien souhaite comparer deux approches :

  • Tirage 1
    • tirage aléatoire simple sans remise de taille \(n = 2000\)
    • résultats de l’enquête dans echantillon_sas.csv
  • Tirage 2
    • tirage stratifié par département avec tirage aléatoire simple sans remise dans chaque strate. Les strates sont définies par la variable departement.
    • résultats de l’enquête dans echantillon_stratifie.csv

Tirage 1

  1. Proposer un estimateur sans biais \(\hat{r}_1\) basé sur l’estimateur d’Horvitz-Thompson et la taille de la population.
  2. Donner une estimation associée.
  3. Proposer un estimateur sans biais de la variance de \(\hat{r}_1\).
  4. Donner une estimation associée.
  5. Donner un intervalle de confiance asymptotique au niveau 99%.

Tirage 2

  1. Donner l’allocation. Est-ce que l’allocation est proportionnelle ?
  2. Proposer un estimateur sans biais \(\hat{r}_2\) basé sur le plan stratifié.
  3. Donner une estimation associée.
  4. Proposer un estimateur sans biais de la variance de \(\hat{r}_2\).
  5. Donner un intervalle de confiance asymptotique au niveau 99%.
  6. Comparer les résultats obtenus pour les deux tirages.

Dans la suite du TP noté, on ne considère que l’échantillon non stratifié.

Linéarisation

Les chercheurs souhaitent s’appuyer sur des modèles économétriques pour appuyer leurs analyses. Pour cela, ils ont besoin de deux résultats :

  • \(l_1 = \log{t_\text{revenus}}\)
  • \(l_2 = t_\text{patrimoine} \times \log{t_\text{patrimoine}}\)
  1. Proposer un estimateur sans biais \(\hat{l}_1\) de \(l_1\) basé sur le tirage 1.
  2. Donner une estimation associée.
  3. Proposer un estimateur sans biais de la variance de \(\hat{l}_1\).
  4. Donner un intervalle de confiance asymptotique au niveau 99%.
  5. Comparer avec la valeur exacte obtenue grâce à la base de sondages.
  6. Proposer un estimateur sans biais \(\hat{l}_2\) de \(l_2\) basé sur le tirage 1.
  7. Donner une estimation associée.
  8. Proposer un estimateur sans biais de la variance de \(\hat{l}_2\).
  9. Donner un intervalle de confiance asymptotique au niveau 99%.

Estimation de la proportion de ménages dans la première tranche de patrimoine

Dans cette partie, on souhaite analyser la distribution du patrimoine sous forme de tranche. Les tranches sont définies à l’aide des limites suivantes :

Tranches Limites en €
1 \([0;121000]\)
2 \(]121000;627000]\)
3 \(]627000;906000]\)
4 \(]906000;2341000]\)
5 \(]2341000;4352000]\)
6 \(> 4352000\)

On note \(p_1\) la proportion d’individus dans la première tranche.

24.Construire une variable tranche_patrimoine qui décrit la tranche à laquelle appartient l’individu. 25. Proposer un estimateur sans biais \(\hat{p}_1\) de \(p_1\) basé sur le tirage 1. 26. Donner une estimation associée. 27. Proposer un estimateur de la variance. 28. Donner un intervalle de confiance asymptotique à 95%.

Bonus

  1. Donner un intervalle de confiance asymptotique à 95% pour une proportion d’individus dans chacune des tranches.