TP de Révisions

Auteur·rice

Paul Géhin

Date de publication

23 avr. 2026

Le président d’une région de 10 000 habitants souhaite connaître l’économie de son territoire. Il a donc besoin d’informations sur les revenus des habitants ainsi que sur leurs participations aux recettes fiscales. Pour faire cela, il souhaite réaliser un sondage. Compte tenu des coûts de collecte, un échantillon de taille au plus 2 000 peut être tiré.

Des informations auxiliaires sont disponibles dans la table info_aux.csv pour tous les individus de la population.

Nom de la variable Descriptif
age Âge de l’individu
etude Niveau d’études de l’individu en trois modalités
(1 étant le plus faible - cette typologie est simulée)
tranche_age regroupement de l’âge en classe d’âge

Estimation du revenu moyen

Dans cette partie, le praticien souhaite estimer le revenu moyen des individus de la population \(\displaystyle {r} = \frac{t_\text{revenus}}{N}\)\(\displaystyle t_\text{revenus} = \sum_{k \in \mathcal{U}} \text{revenus}_k\)., \(N\) désigne la taille de la population et \(\mathcal{U}\) désigne la population.

  1. Décrivez la population, la variable d’intérêt et la fonction d’intérêt.

Le statisticien souhaite comparer deux approches :

  • (tirage 1) : la première consiste à tirer un échantillon selon un plan aléatoire simple sans remise de taille 2 000 sans prise en compte d’informations auxiliaires. Les résultats du tirage 1 sont disponibles dans le fichier ech_sans_stra.csv
  • (tirage 2) : la deuxième consiste à tirer un échantillon selon un plan stratifié où un plan aléatoire simple sans remise est tiré dans chaque strate. Le fichier pop_strate.csv contient les effectifs dans chaque strate. Les résultats du tirage 1 sont disponibles dans le fichier ech_avec_sta.csv.
Nom de la variable Descriptif
age Âge de l’individu
etude Niveau d’études de l’individu en trois modalités
(1 étant le plus faible - cette typologie est simulée)
revenus Revenus annuels de l’individu
impots Variable binaire valant 1 si l’individu est soumis à l’impôt et 0 sinon
Nom de la variable Descriptif
age Âge de l’individu
etude Niveau d’études de l’individu en trois modalités
(1 étant le plus faible - cette typologie est simulée)
revenus Revenus annuels de l’individu
strate Strate à laquelle appartient l’individu
prob Probabilité d’inclusion d’ordre un de l’individu (dans la cas du tirage stratifié)
Nom de la variable Descriptif
strate Identifiant de la strate
pop Nombre d’individus de la population appartenant à la strate associée

Cas du tirage 1

  1. Donnez un estimateur sans biais \(\hat{r}\) de \(r\) basé sur l’estimateur d’Horvitz-Thompson et la taille de la population.
  2. Proposez une estimation associée à cet estimateur.
  3. Proposez un estimateur de la variance de l’estimateur proposé à la question 2.
  4. Donnez un intervalle de confiance asymptotique au niveau 0.90 du total. Calculez une réalisation de cet intervalle.

Cas du tirage 2

  1. Donnez un estimateur sans biais \(\hat{r}\) de \(r\) basé sur l’estimateur d’Horvitz-Thompson du total des revenus et la taille de la population.

  2. Proposez une estimation associée à cet estimateur.

  3. Proposez un estimateur de la variance de l’estimateur proposé à la question.

  4. Donnez un intervalle de confiance asymptotique au niveau 0.90 du total. Calculez une réalisation de cet intervalle.

  5. Comparez les deux intervalles de confiance asymptotique (et réalisations obtenues). Est-ce étonnant ? Justifiez.

Estimation de la proportion d’individus soumis à l’impôt

Dans cette partie, on se basera uniquement sur l’échantillon sans stratification.

Le statisticien souhaiterait connaître la part des individus de la population soumis à l’impôt \(p\). Pour cela, il va mobiliser l’échantillon associé au premier tirage (ech_sans_stra).

  1. Proposez un estimateur non biaisé \(\hat{p}\) de \(p\).
  2. Proposez une estimation associée à cet estimateur.
  3. Proposez un estimateur de la variance de l’estimateur proposé à la question 11.
  4. Donnez un intervalle de confiance asymptotique au niveau 0.99 du total. Calculez une réalisation de cet intervalle.

Linéarisation

Le statisticien en charge de l’enquête a un ami économiste voulant utiliser les données de l’enquête afin de mener une analyse économétrique du lien entre revenus et age. L’économiste aimerait afin de calibrer ses modèles une estimation du logarithme du total des revenus des individus de la population \(l = \log{t_\text{revenus}}\)\(\displaystyle t_\text{revenus} = \sum_{k \in \mathcal{U}} \text{revenus}_k\).

  1. Proposez un estimateur de \(l\) par substitution noté \(\hat{l}\) basé sur l’estimateur d’Horvitz-Thompson de \(t_\text{revenus}\).
  2. Calculez une estimation de la variance basée sur une approximation.
  3. Proposez un intervalle de confiance au niveau 95% basé sur la question précédente en supposant la normalité asymptotique respectée pour l’estimateur 15.