TP de Révisions

Auteur·rice

Paul Géhin

Date de publication

23 avr. 2026

Le président d’une région de 10 000 habitants souhaite connaître l’économie de son territoire. Il a donc besoin d’informations sur les revenus des habitants ainsi que sur leurs participations aux recettes fiscales. Pour faire cela, il souhaite réaliser un sondage. Compte tenu des coûts de collecte, un échantillon de taille au plus 2 000 peut être tiré.

Des informations auxiliaires sont disponibles dans la table info_aux.csv pour tous les individus de la population.

Variables de la table info_aux

Nom de la variable	Descriptif
`age`	Âge de l’individu
`etude`	Niveau d’études de l’individu en trois modalités (1 étant le plus faible - cette typologie est simulée)
`tranche_age`	regroupement de l’âge en classe d’âge

Estimation du revenu moyen

Dans cette partie, le praticien souhaite estimer le revenu moyen des individus de la population \(\displaystyle {r} = \frac{t_\text{revenus}}{N}\) où \(\displaystyle t_\text{revenus} = \sum_{k \in \mathcal{U}} \text{revenus}_k\)., \(N\) désigne la taille de la population et \(\mathcal{U}\) désigne la population.

Décrivez la population, la variable d’intérêt et la fonction d’intérêt.

Solution

Population : 10 000 habitants de la région
Variable d’intérêt : Revenus annuels de l’individu
Fonction d’intérêt : Moyenne des revenus sur la population

Le statisticien souhaite comparer deux approches :

(tirage 1) : la première consiste à tirer un échantillon selon un plan aléatoire simple sans remise de taille 2 000 sans prise en compte d’informations auxiliaires. Les résultats du tirage 1 sont disponibles dans le fichier ech_sans_stra.csv
(tirage 2) : la deuxième consiste à tirer un échantillon selon un plan stratifié où un plan aléatoire simple sans remise est tiré dans chaque strate. Le fichier pop_strate.csv contient les effectifs dans chaque strate. Les résultats du tirage 1 sont disponibles dans le fichier ech_avec_sta.csv.

Variables de la table ech_sans_stra

Nom de la variable	Descriptif
`age`	Âge de l’individu
`etude`	Niveau d’études de l’individu en trois modalités (1 étant le plus faible - cette typologie est simulée)
`revenus`	Revenus annuels de l’individu
`impots`	Variable binaire valant 1 si l’individu est soumis à l’impôt et 0 sinon

Variables de la table ech_avec_sta

Nom de la variable	Descriptif
`age`	Âge de l’individu
`etude`	Niveau d’études de l’individu en trois modalités (1 étant le plus faible - cette typologie est simulée)
`revenus`	Revenus annuels de l’individu
`strate`	Strate à laquelle appartient l’individu
`prob`	Probabilité d’inclusion d’ordre un de l’individu (dans la cas du tirage stratifié)

Variables de la table pop_strate

Nom de la variable	Descriptif
`strate`	Identifiant de la strate
`pop`	Nombre d’individus de la population appartenant à la strate associée

Cas du tirage 1

Donnez un estimateur sans biais \(\hat{r}\) de \(r\) basé sur l’estimateur d’Horvitz-Thompson et la taille de la population.

Solution

\(\hat{r} = \frac{\hat{t}_\text{HT,revenus}}{N}\)

Proposez une estimation associée à cet estimateur.

Solution

library("sampling")

ech_sans_stra <- read.csv("https://sondages.cours.gehin.net/TP/R%C3%A9visions/data/ech_sans_stra.csv")
n <- nrow(ech_sans_stra)
N <- 10000

pik <- rep(n/N, n)

estim_total <- HTestimator(y = ech_sans_stra$revenus,
                           pik = pik)
estim_moy <- estim_total/N
estim_moy

Proposez un estimateur de la variance de l’estimateur proposé à la question 2.

Solution

On sait que \(\forall \lambda \text{réel}, \forall X \text{variable aléatoire}, \mathbb{V}(\lambda X) = \lambda^2 \mathbb{V}(X)\).

D’où \(\frac{\hat{\mathbb{V}}(\hat{t}_\text{HT,revenus})}{N^2}\) est un estimateur de la variance de notre estimateur.

Donnez un intervalle de confiance asymptotique au niveau 0.90 du total. Calculez une réalisation de cet intervalle.

Solution

pikl <- matrix(data = n*(n-1)/(N*(N-1)),
               nrow = n,
               ncol = n)
diag(pikl) <- n/N

var_total <- varHT(y = ech_sans_stra$revenus,
                   pikl = pikl)
var_moy <- var_total/(N^2)

alpha <- 1 - 0.9
q <- qnorm(1- (alpha/2))

binf_moy <- estim_moy - q*sqrt(var_moy)
bsup_moy <- estim_moy + q*sqrt(var_moy)

cat("Une réalisation de l'invervalle de confiance au niveau 0.90 est [", binf_moy, " ; ", bsup_moy, "]")

Cas du tirage 2

Donnez un estimateur sans biais \(\hat{r}\) de \(r\) basé sur l’estimateur d’Horvitz-Thompson du total des revenus et la taille de la population.

Solution

\(\hat{r} = \frac{\hat{t}_\text{HT,revenus}}{N}\)

Proposez une estimation associée à cet estimateur.

Solution

ech_avec_stra <- read.csv("https://sondages.cours.gehin.net/TP/R%C3%A9visions/data/ech_avec_stra.csv")
n <- nrow(ech_avec_stra)
N <- 10000

estim_total <- HTestimator(y = ech_avec_stra$revenus,
                           pik = ech_avec_stra$prob)
estim_moy <- estim_total/N
estim_moy

Proposez un estimateur de la variance de l’estimateur proposé à la question.

Solution

La variance d’un estimateur d’Horvitz-Thompson du total d’un plan stratifié est la somme des variances des estimateurs d’Horvitz-Thompson du total au sein de la strate. D’où \(\frac{\sum_{h \in [H]} \mathbb{V}(\hat{t}_{\text{revenus},h, \text{HT}})}{N^2}\) convient.

Donnez un intervalle de confiance asymptotique au niveau 0.90 du total. Calculez une réalisation de cet intervalle.

Solution

library(dplyr)

pop_strate <- read.csv("pop_strate.csv")

compute_var_total <- function(n_h, N_h, y) {
  pikl <- matrix(data = n_h*(n_h-1)/(N_h*(N_h-1)),
                 nrow = n_h,
                 ncol = n_h)
  diag(pikl) <- n_h/N_h

  varHT(y = y, pikl = pikl)
}

var_total_strate <- ech_avec_stra |>
  inner_join(pop_strate, by = "strate") |>
  group_by(strate) |>
  summarise(var = compute_var_tot(n_h = n(),
                                  N_h = pop,
                                  y = revenus))

var_moy <- sum(var_total_strate$var)/(N^2)

alpha <- 1 - 0.9
q <- qnorm(1- (alpha/2))

binf_moy <- estim_moy - q*sqrt(var_moy)
bsup_moy <- estim_moy + q*sqrt(var_moy)

cat("Une réalisation de l'invervalle de confiance au niveau 0.90 est [", binf_moy, " ; ", bsup_moy, "]")

Comparez les deux intervalles de confiance asymptotique (et réalisations obtenues). Est-ce étonnant ? Justifiez.

Solution

L’intervalle de confiance de l’échantillon stratifié est inclus dans celui non stratifié. Cela n’est pas étonnant, car par construction, on s’attend à une variance plus faible pour l’estimateur du plan stratifié.

Estimation de la proportion d’individus soumis à l’impôt

Dans cette partie, on se basera uniquement sur l’échantillon sans stratification.

Le statisticien souhaiterait connaître la part des individus de la population soumis à l’impôt \(p\). Pour cela, il va mobiliser l’échantillon associé au premier tirage (ech_sans_stra).

Proposez un estimateur non biaisé \(\hat{p}\) de \(p\).

Solution

On peut approcher cette probabilité comme étant la moyenne de la variable indicatrice impots.

D’où \(\hat{p} = \frac{\hat{t}_{\text{impots}, \text{HT}}}{N}\)

Proposez une estimation associée à cet estimateur.

Solution

ech_sans_stra <- read.csv("ech_sans_stra.csv")
n <- nrow(ech_sans_stra)
N <- 10000

pik <- rep(n/N, n)

estim_total <- HTestimator(y = ech_sans_stra$impots,
                           pik = pik)
estim_moy <- estim_total/N
estim_moy

Proposez un estimateur de la variance de l’estimateur proposé à la question 11.

Solution

De même qu’à la question 4, \(\frac{\mathbb{V}(\hat{t}_\text{impots, HT})}{N^2}\) est un estimateur de la variance de notre estimateur.

Donnez un intervalle de confiance asymptotique au niveau 0.99 du total. Calculez une réalisation de cet intervalle.

Solution

pikl <- matrix(data = n*(n-1)/(N*(N-1)),
               nrow = n,
               ncol = n)
diag(pikl) <- n/N

var_total <- varHT(y = ech_sans_stra$impots,
                   pikl = pikl)
var_moy <- var_total/(N^2)

alpha <- 1 - 0.99
q <- qnorm(1- (alpha/2))

binf_moy <- estim_moy - q*sqrt(var_moy)
bsup_moy <- estim_moy + q*sqrt(var_moy)

cat("Une réalisation de l'invervalle de confiance au niveau 0.99 est [", binf_moy, " ; ", bsup_moy, "]")

Linéarisation

Le statisticien en charge de l’enquête a un ami économiste voulant utiliser les données de l’enquête afin de mener une analyse économétrique du lien entre revenus et age. L’économiste aimerait afin de calibrer ses modèles une estimation du logarithme du total des revenus des individus de la population \(l = \log{t_\text{revenus}}\) où \(\displaystyle t_\text{revenus} = \sum_{k \in \mathcal{U}} \text{revenus}_k\).

Proposez un estimateur de \(l\) par substitution noté \(\hat{l}\) basé sur l’estimateur d’Horvitz-Thompson de \(t_\text{revenus}\).

Solution

\(\hat{l} = \log{\hat{t}_\text{revenus, HT}}\)

Calculez une estimation de la variance basée sur une approximation.

Solution

n <- nrow(ech_sans_stra)
N <- 10000

pik <- rep(n/N, n)

estim_total <- HTestimator(y = ech_sans_stra$revenus,
                           pik = pik)
estim_log <- log(estim_total)
estim_log

Proposez un intervalle de confiance au niveau 95% basé sur la question précédente en supposant la normalité asymptotique respectée pour l’estimateur 15.

Solution

pikl <- matrix(data = n*(n-1)/(N*(N-1)),
               nrow = n,
               ncol = n)
diag(pikl) <- n/N

var_log <- varHT(y = ech_sans_stra$revenus/estim_total,
                 pikl = pikl)

alpha <- 1 - 0.95
q <- qnorm(1- (alpha/2))

binf_log <- estim_log - q*sqrt(var_log)
bsup_log <- estim_log + q*sqrt(var_log)

cat("Une réalisation de l'invervalle de confiance au niveau 0.95 est [", binf_log, " ; ", bsup_log, "]")