TP de Révisions
Le président d’une région de 10 000 habitants souhaite connaître l’économie de son territoire. Il a donc besoin d’informations sur les revenus des habitants ainsi que sur leurs participations aux recettes fiscales. Pour faire cela, il souhaite réaliser un sondage. Compte tenu des coûts de collecte, un échantillon de taille au plus 2 000 peut être tiré.
Des informations auxiliaires sont disponibles dans la table info_aux.csv pour tous les individus de la population.
info_aux
| Nom de la variable | Descriptif |
|---|---|
age |
Âge de l’individu |
etude |
Niveau d’études de l’individu en trois modalités (1 étant le plus faible - cette typologie est simulée) |
tranche_age |
regroupement de l’âge en classe d’âge |
Estimation du revenu moyen
Dans cette partie, le praticien souhaite estimer le revenu moyen des individus de la population \(\displaystyle {r} = \frac{t_\text{revenus}}{N}\) où \(\displaystyle t_\text{revenus} = \sum_{k \in \mathcal{U}} \text{revenus}_k\)., \(N\) désigne la taille de la population et \(\mathcal{U}\) désigne la population.
- Décrivez la population, la variable d’intérêt et la fonction d’intérêt.
- Population : 10 000 habitants de la région
- Variable d’intérêt : Revenus annuels de l’individu
- Fonction d’intérêt : Moyenne des revenus sur la population
Le statisticien souhaite comparer deux approches :
- (tirage 1) : la première consiste à tirer un échantillon selon un plan aléatoire simple sans remise de taille 2 000 sans prise en compte d’informations auxiliaires. Les résultats du tirage 1 sont disponibles dans le fichier ech_sans_stra.csv
- (tirage 2) : la deuxième consiste à tirer un échantillon selon un plan stratifié où un plan aléatoire simple sans remise est tiré dans chaque strate. Le fichier pop_strate.csv contient les effectifs dans chaque strate. Les résultats du tirage 1 sont disponibles dans le fichier ech_avec_sta.csv.
ech_sans_stra
| Nom de la variable | Descriptif |
|---|---|
age |
Âge de l’individu |
etude |
Niveau d’études de l’individu en trois modalités (1 étant le plus faible - cette typologie est simulée) |
revenus |
Revenus annuels de l’individu |
impots |
Variable binaire valant 1 si l’individu est soumis à l’impôt et 0 sinon |
ech_avec_sta
| Nom de la variable | Descriptif |
|---|---|
age |
Âge de l’individu |
etude |
Niveau d’études de l’individu en trois modalités (1 étant le plus faible - cette typologie est simulée) |
revenus |
Revenus annuels de l’individu |
strate |
Strate à laquelle appartient l’individu |
prob |
Probabilité d’inclusion d’ordre un de l’individu (dans la cas du tirage stratifié) |
pop_strate
| Nom de la variable | Descriptif |
|---|---|
strate |
Identifiant de la strate |
pop |
Nombre d’individus de la population appartenant à la strate associée |
Cas du tirage 1
- Donnez un estimateur sans biais \(\hat{r}\) de \(r\) basé sur l’estimateur d’Horvitz-Thompson et la taille de la population.
\(\hat{r} = \frac{\hat{t}_\text{HT,revenus}}{N}\)
- Proposez une estimation associée à cet estimateur.
library("sampling")
ech_sans_stra <- read.csv("https://sondages.cours.gehin.net/TP/R%C3%A9visions/data/ech_sans_stra.csv")
n <- nrow(ech_sans_stra)
N <- 10000
pik <- rep(n/N, n)
estim_total <- HTestimator(y = ech_sans_stra$revenus,
pik = pik)
estim_moy <- estim_total/N
estim_moy
- Proposez un estimateur de la variance de l’estimateur proposé à la question 2.
On sait que \(\forall \lambda \text{réel}, \forall X \text{variable aléatoire}, \mathbb{V}(\lambda X) = \lambda^2 \mathbb{V}(X)\).
D’où \(\frac{\hat{\mathbb{V}}(\hat{t}_\text{HT,revenus})}{N^2}\) est un estimateur de la variance de notre estimateur.
- Donnez un intervalle de confiance asymptotique au niveau 0.90 du total. Calculez une réalisation de cet intervalle.
pikl <- matrix(data = n*(n-1)/(N*(N-1)),
nrow = n,
ncol = n)
diag(pikl) <- n/N
var_total <- varHT(y = ech_sans_stra$revenus,
pikl = pikl)
var_moy <- var_total/(N^2)
alpha <- 1 - 0.9
q <- qnorm(1- (alpha/2))
binf_moy <- estim_moy - q*sqrt(var_moy)
bsup_moy <- estim_moy + q*sqrt(var_moy)
cat("Une réalisation de l'invervalle de confiance au niveau 0.90 est [", binf_moy, " ; ", bsup_moy, "]")
Cas du tirage 2
- Donnez un estimateur sans biais \(\hat{r}\) de \(r\) basé sur l’estimateur d’Horvitz-Thompson du total des revenus et la taille de la population.
\(\hat{r} = \frac{\hat{t}_\text{HT,revenus}}{N}\)
- Proposez une estimation associée à cet estimateur.
ech_avec_stra <- read.csv("https://sondages.cours.gehin.net/TP/R%C3%A9visions/data/ech_avec_stra.csv")
n <- nrow(ech_avec_stra)
N <- 10000
estim_total <- HTestimator(y = ech_avec_stra$revenus,
pik = ech_avec_stra$prob)
estim_moy <- estim_total/N
estim_moy
- Proposez un estimateur de la variance de l’estimateur proposé à la question.
La variance d’un estimateur d’Horvitz-Thompson du total d’un plan stratifié est la somme des variances des estimateurs d’Horvitz-Thompson du total au sein de la strate. D’où \(\frac{\sum_{h \in [H]} \mathbb{V}(\hat{t}_{\text{revenus},h, \text{HT}})}{N^2}\) convient.
- Donnez un intervalle de confiance asymptotique au niveau 0.90 du total. Calculez une réalisation de cet intervalle.
library(dplyr)
pop_strate <- read.csv("pop_strate.csv")
compute_var_total <- function(n_h, N_h, y) {
pikl <- matrix(data = n_h*(n_h-1)/(N_h*(N_h-1)),
nrow = n_h,
ncol = n_h)
diag(pikl) <- n_h/N_h
varHT(y = y, pikl = pikl)
}
var_total_strate <- ech_avec_stra |>
inner_join(pop_strate, by = "strate") |>
group_by(strate) |>
summarise(var = compute_var_tot(n_h = n(),
N_h = pop,
y = revenus))
var_moy <- sum(var_total_strate$var)/(N^2)
alpha <- 1 - 0.9
q <- qnorm(1- (alpha/2))
binf_moy <- estim_moy - q*sqrt(var_moy)
bsup_moy <- estim_moy + q*sqrt(var_moy)
cat("Une réalisation de l'invervalle de confiance au niveau 0.90 est [", binf_moy, " ; ", bsup_moy, "]")
- Comparez les deux intervalles de confiance asymptotique (et réalisations obtenues). Est-ce étonnant ? Justifiez.
L’intervalle de confiance de l’échantillon stratifié est inclus dans celui non stratifié. Cela n’est pas étonnant, car par construction, on s’attend à une variance plus faible pour l’estimateur du plan stratifié.
Estimation de la proportion d’individus soumis à l’impôt
Dans cette partie, on se basera uniquement sur l’échantillon sans stratification.
Le statisticien souhaiterait connaître la part des individus de la population soumis à l’impôt \(p\). Pour cela, il va mobiliser l’échantillon associé au premier tirage (ech_sans_stra).
- Proposez un estimateur non biaisé \(\hat{p}\) de \(p\).
On peut approcher cette probabilité comme étant la moyenne de la variable indicatrice impots.
D’où \(\hat{p} = \frac{\hat{t}_{\text{impots}, \text{HT}}}{N}\)
- Proposez une estimation associée à cet estimateur.
ech_sans_stra <- read.csv("ech_sans_stra.csv")
n <- nrow(ech_sans_stra)
N <- 10000
pik <- rep(n/N, n)
estim_total <- HTestimator(y = ech_sans_stra$impots,
pik = pik)
estim_moy <- estim_total/N
estim_moy
- Proposez un estimateur de la variance de l’estimateur proposé à la question 11.
De même qu’à la question 4, \(\frac{\mathbb{V}(\hat{t}_\text{impots, HT})}{N^2}\) est un estimateur de la variance de notre estimateur.
- Donnez un intervalle de confiance asymptotique au niveau 0.99 du total. Calculez une réalisation de cet intervalle.
pikl <- matrix(data = n*(n-1)/(N*(N-1)),
nrow = n,
ncol = n)
diag(pikl) <- n/N
var_total <- varHT(y = ech_sans_stra$impots,
pikl = pikl)
var_moy <- var_total/(N^2)
alpha <- 1 - 0.99
q <- qnorm(1- (alpha/2))
binf_moy <- estim_moy - q*sqrt(var_moy)
bsup_moy <- estim_moy + q*sqrt(var_moy)
cat("Une réalisation de l'invervalle de confiance au niveau 0.99 est [", binf_moy, " ; ", bsup_moy, "]")
Linéarisation
Le statisticien en charge de l’enquête a un ami économiste voulant utiliser les données de l’enquête afin de mener une analyse économétrique du lien entre revenus et age. L’économiste aimerait afin de calibrer ses modèles une estimation du logarithme du total des revenus des individus de la population \(l = \log{t_\text{revenus}}\) où \(\displaystyle t_\text{revenus} = \sum_{k \in \mathcal{U}} \text{revenus}_k\).
- Proposez un estimateur de \(l\) par substitution noté \(\hat{l}\) basé sur l’estimateur d’Horvitz-Thompson de \(t_\text{revenus}\).
\(\hat{l} = \log{\hat{t}_\text{revenus, HT}}\)
- Calculez une estimation de la variance basée sur une approximation.
n <- nrow(ech_sans_stra)
N <- 10000
pik <- rep(n/N, n)
estim_total <- HTestimator(y = ech_sans_stra$revenus,
pik = pik)
estim_log <- log(estim_total)
estim_log
- Proposez un intervalle de confiance au niveau 95% basé sur la question précédente en supposant la normalité asymptotique respectée pour l’estimateur 15.
pikl <- matrix(data = n*(n-1)/(N*(N-1)),
nrow = n,
ncol = n)
diag(pikl) <- n/N
var_log <- varHT(y = ech_sans_stra$revenus/estim_total,
pikl = pikl)
alpha <- 1 - 0.95
q <- qnorm(1- (alpha/2))
binf_log <- estim_log - q*sqrt(var_log)
bsup_log <- estim_log + q*sqrt(var_log)
cat("Une réalisation de l'invervalle de confiance au niveau 0.95 est [", binf_log, " ; ", bsup_log, "]")