13 mars 2026
Résumé du cours 2
Nous considérons :
But : estimer le total \(t_\textbf{y}\) de la variable d’intérêt \(\textbf{y}\) sur l’ensemble de la population avec \(\displaystyle t_\textbf{y} = \sum_{k \in \mathcal{U}} \textbf{y}_k\).
Variance de l’estimateur d’Horvitz-Thompson d’un total
Soit \(\hat t_{y,\text{HT}}\), l’estimateur d’Horvitz-Thompson du total \(t_y\). \[\mathbb{V}(\hat t_{y,\text{HT}}) = \sum_{k \in \color{red}{\mathcal{U}}} \sum_{l \in \color{red}{\mathcal{U}}} \frac{y_k}{\pi_k} \frac{y_l}{\pi_l} \Delta_{kl}\]
où \(\Delta_{kl} = \pi_{kl} - \pi_k \pi_l\) désigne la covariance entre \(I_k\) et \(I_l\).
Est-ce que cette formule de variance est exploitable sur un échantillon ? Non.
Besoin d’estimer la variance de l’estimateur d’Hovitz-Thompson : comment ?
Réutilisation de la logique de l’estimateur d’Hovitz-Thompson : \[\hat{\mathbb{V}}_\text{HT}(\hat t_{y,\text{HT}}) = \sum_{k \in \mathcal{U}} \sum_{k \in \mathcal{U}} \frac{y_k}{\pi_k} \frac{y_l}{\pi_l} \Delta_{kl} \color{red}{\frac{I_{kl}}{\pi_{kl}}} \color{black} = \sum_{k \in S} \sum_{l \in S} \frac{y_k}{\pi_k} \frac{y_l}{\pi_l} {\frac{\Delta_{kl}}{\pi_{kl}}} \] où \(I_{kl} = I_k I_l\).
\(\to\) Nous verrons que dans certains cas, il existe des formes plus simples ou plus interprétables de ces formules de variance.
Résumé du cours 2
Nous avons tenté d’estimer le coût total en transport sur notre population.
Supposons que l’échantillon \(s = \{1,5,7,10\}\) ait été tiré en utilisant un plan aléatoire simple sans remise de taille \(n\) = 4.
\(\to\) Pour chaque \(k \in \mathcal{U} = \{1, ... 10\}\), \(\pi_k = \frac{4}{10}\).
L’estimateur de Horvitz-Thompson donne \(\frac{y_1}{\pi_1} + \frac{y_5}{\pi_5} + \frac{y_7}{\pi_7} + \frac{y_{10}}{\pi_{10}}\).
Une estimation associée est \((84 + 30 + 30 + 30) \times \frac{10}{4} = 435 €\).
Nous avons obtenu l’estimation de 435 € de congés sur l’ensemble de la population.
Nous souhaitons une estimation de la variance.
Le plan de sondage est un plan aléatoire simple sans remise de taille \(4\) :
À partir de la formule de Sen-Yates-Grundy, il est possible de construire pour les plans à taille fixe, un estimateur de la variance de l’estimateur de Horvitz-Thompson :
\[\hat{\mathbb{V}}_\text{SYG}(\hat t_{y,\text{HT}}) = - \frac{1}{2} \sum_{k \in \mathcal{S}} \sum_{l \in \mathcal{S} | k \neq l} \left(\frac{y_k}{\pi_k} - \frac{y_l}{\pi_l} \right)^2 \frac{\Delta_{kl}}{\pi_{kl}}\]
Remarque :
Jusqu’ici, nous avons estimé le total \(t_y\) en utilisant l’estimateur d’Horvitz-Thompson \(\hat t_{y,\text{HT}}\) :
Autre approche permettant d’apprécier l’incertitude sur l’estimation : intervalle de confiance.
Intervalle de confiance
Un intervalle de confiance (resp par excès) de niveau \(1 - \alpha\) pour le paramètre \(\theta\) est un intervalle défini par deux variables aléatoires \(\underline{\hat \theta}\) et \(\bar{\hat \theta}\) telles que \[\mathbb{P}(\theta \in [\underline{\hat \theta}, \bar{\hat \theta}]) = 1 - \alpha \text{ (resp } \geq 1 - \alpha)\]
Intervalle de confiance asymptotique
Un intervalle de confiance asymptotique (resp par excès) de niveau \(1 - \alpha\) pour le paramètre \(\theta\) est un intervalle défini par deux suites de variables aléatoires \((\underline{\hat \theta_n})_{n \in \mathbb{N}}\) et \((\bar{\hat \theta_n})_{n \in \mathbb{N}}\) telles que \[\lim_{n \to \infty} \mathbb{P}(\theta \in [\underline{\hat \theta_n}, \bar{\hat \theta_n}]) = 1 - \alpha \text{ (resp } \geq 1 - \alpha)\]
Généralement :
Théorème central limite - cadre hors sondage
Soit \(\{X_1, ..., X_n\}\), \(n\) variables aléatoires iid telles que \(\mathbb{E}(X_1) = \mu\) et \(\mathbb{V}(X_1) < \infty\). Le théorème central limite assure que : \[\frac{1}{\mathbb{V}( \frac{1}{n} \sum_{k = 1}^n X_k)^{\frac{1}{2}}} \left( \frac{1}{n} \sum_{k = 1}^n X_k - \mu \right) = \frac{\sqrt{n}}{\mathbb{V}(X_1)^{\frac{1}{2}}} \left( \frac{1}{n} \sum_{k = 1}^n X_k - \mu \right) \hookrightarrow \mathcal{N}(0, 1)\] où \(\hookrightarrow\) désigne la convergence en loi.
Est-ce que le théorème central limite est applicable en sondage sur l’estimateur d’Horvitz-Thompson ?
Par exemple : \[\frac{1}{\mathbb{V}^{\frac{1}{2}}(\hat t_{y,\text{HT}})}(\hat t_{y,\text{HT}} - t_y) \hookrightarrow \mathcal{N}(0,1) \]
Lemme de Slustky
Si \((X_n,Y_n)_{n \in \mathbb{N}}\) tel que \(X_n \to^{\mathbb{P}} c\) (une constante) et \(Y_n \hookrightarrow Y\) alors \((X_n, Y_n) \hookrightarrow (c,Y)\).
\(\to\) Remplacement de \(\mathbb{V}(\hat t_{y,\text{HT}})\) par un estimateur \(\hat{\mathbb{V}}_\text{HT}(\hat t_{y,\text{HT}})\) ou \(\hat{\mathbb{V}}_\text{SYG}(\hat t_{y,\text{HT}})\) (si taille fixe).
Pour proposer un intervalle de confiance (asymptotique) associé au total \(t_y\) d’une variable d’intérêt \(y\), il faut :
\[ [ \hat t_{y,\text{HT}} - q_{1 - \frac{\alpha}{2}} \hat{\mathbb{V}}^{\frac{1}{2}}(\hat t_{y,\text{HT}}), \hat t_{y,\text{HT}} + q_{1 - \frac{\alpha}{2}} \hat{\mathbb{V}}^{\frac{1}{2}}(\hat t_{y,\text{HT}}) ] \]
Nous avons obtenu l’estimation de 435 € de dépenses de transport en commun sur l’ensemble de la population.
Nous avons obtenu une estimation de la variance de 10 935 € \({}^2\)
Il est possible de construire une réalisation d’un intervalle de confiance asymptotique au niveau 95 % en utilisant ces informations.
\[ [ \hat t_{y,\text{HT}} - q_{1 - \frac{\alpha}{2}} \hat{\mathbb{V}}^{\frac{1}{2}}(\hat t_{y,\text{HT}}), \hat t_{y,\text{HT}} + q_{1 - \frac{\alpha}{2}} \hat{\mathbb{V}}^{\frac{1}{2}}(\hat t_{y,\text{HT}}) ] \]
avec \(\alpha = 0.05 \to q_{1 - \frac{\alpha}{2}} = 1.96\)
\[[\underbrace{435- 1.96 \times \sqrt{10 935}}_{\approx 230}, \underbrace{435 + 1.96 \times \sqrt{10 935}}_{\approx 640}]\]