TP 1 : Estimation

Auteur·rice

Paul Géhin

Date de publication

20 févr. 2026

Présentation du package sampling

Le package sampling permet de réaliser plusieurs traitements usuels en sondage :

  • tirage d’un échantillon selon plusieurs plans de sondages différents
    • sondage aléatoire simple sans remise avec la fonction srswor.
    • sondage aléatoire simple avec remise avec la fonction srswr.
    • plan de sondage stratifié (cours 4) avec la fonction strata.
    • plan poissonien avec la fonction UPpoisson.
    • tirage systématique avec la fonction UPsystematic
    • et d’autres …
  • estimation
    • estimateur d’Horvitz-Thompson avec la fonction HTestimatior
    • estimateur d’Hajek avec la fonction Hajekestimator
    • estimateur de la variance :
      • estimateur de la variance type Horvitz-Thompson ou Sen-Yates-Grundy avec la fonction varHT et le paramètre method
  • calage

D’autres packages existent pour estimer la variance de manière plus reproductible comme le package gustave ou d’effectuer des calages sur marges (par exemple, le package icarus).

🍰 Estimation du nombre de boulangeries dans le Nord.

Total

Un statisticien souhaite déterminer le nombre de boulangeries dans le département du Nord. Pour faire cela, il souhaite effectuer un sondage dans lequel il tirera des communes parmi les 638 appartenant au département et demandera le nombre total de boulangeries dans la commune.

Dans un premier temps, le statisticien décide d’utiliser un plan aléatoire simple sans remise de taille 60.

Les résultats sont disponibles dans le fichier suivant : ech_srs.csv.

  1. Décrivez la population, la variable d’intérêt et la fonction d’intérêt. Dans la suite, nous noterons \(\mathcal{U}\), la population et \(y_k\) la valeur de la variable d’intérêt pour l’individu \(k\).
  2. Proposez un estimateur sans biais du total du nombre de boulangeries dans le département du Nord.
  3. Proposez une estimation associée à cet estimateur (on pourra utiliser la fonction HTestimation).
  4. Proposez un estimateur de la variance de l’estimateur proposé à la question 2 (on pourra utiliser la fonction varHT).
  5. Donnez un intervalle de confiance asymptotique au niveau 0.90 du total. Calculez une réalisation de cet intervalle. Commentez.

Le statisticien se rend compte tardivement qu’il peut se baser sur des informations complémentaires pour choisir les probabilités d’inclusion d’ordre 1 de son plan de sondage. En se rendant sur le (merveilleux) site de l’Insee, il trouve le nombre d’habitants pour chaque commune du Nord.

Il décide cette fois d’opter pour un plan poissonien en attribuant une probabilité d’inclusion d’ordre 1 plus grande pour les communes les plus peuplées. Les probabilités d’inclusion d’ordre un sur l’ensemble de la population sont comprises entre 0.00105398 et 1.

Les résultats sont disponibles dans le fichier suivant : ech_poisson.csv

  1. Quelle est la taille de l’échantillon ?
  2. Proposez un estimateur sans biais du total du nombre de boulangeries dans le département du Nord.
  3. Proposez une estimation associée à cet estimateur.
  4. Proposez un estimateur de la variance de l’estimateur proposé à la question 2.
  5. Donnez un intervalle de confiance asymptotique au niveau 0.90 du total. Calculez une réalisation de cet intervalle. Commentez.
  6. Pourquoi de telles différences avec le plan de sondage de la première partie de l’exercice ? On pourra utiliser l’intuition fournie par la formule de Sen-Yates-Grundy (même s’il ne s’agit pas d’un plan de taille fixe dans cette partie).

Comme indiqué, l’information auxiliaire dont nous disposons pour chaque commune est le nombre d’habitants.

Cette variable étant positive, il est possible de calculer des probabilités proportionnelles au nombre d’habitants.

Une contrainte imposée ici est que \(\sum_{k \in \mathcal{U}} \pi_k = 60\) : autrement dit, l’espérance de la taille de l’échantillon sous le plan poissonien est égale à celle de l’échantillon tiré selon le SRS de la première partie de l’exercice.

Intuitivement, si \(\text{pop}_k\) désigne la population de la commune \(k\), on peut souhaiter que \(\pi_k = n \frac{\text{pop}_k}{\sum_{j \in s} \text{pop}_j}\). Néanmoins, certaines unités peuvent avoir une probabilité d’inclusion d’ordre 1 supérieure à 1. Dans ce cas, on applique l’algorithme suivant :

  1. \(A = \emptyset\)
  2. Calculez pour tout \(k \in \mathcal{U}/A\), \(\pi_k = (n - (Card(A))) \frac{\text{pop}_k}{\sum_{j \in s} \text{pop}_j}\).
  3. Soit \(b = \{k \in \mathcal{U}/A | \pi_k > 1 \}\) \(A \gets A \cup b\) Revenir à l’étape 2 tant que \(Card(b) \neq 0\).

Nombre moyen de boulangeries.

Le statiscien veut également fournir une information sur le nombre de boulangeries moyen \(\mu_y := \frac{1}{N} t_y\) dans le Nord en utilisant les données déjà récoltées.

Il opte pour deux stratégies :

  • utilisation simple principe de subtitution : un estimateur \(\hat{\mu}_y^{(1)}\) est fourni en remplaçant \(t_y\) par l’estimateur d’Horvitz-Thompson du total \(\hat{t}_y\).
  • utilisation double du principe de subtitution : un estimateur \(\hat{\mu}_y^{(2)}\) est fourni en remplaçant \(t_y\) et \(N\) (même s’il est connu) par des estimateurs sans biais.

Nous considérons ici uniquement les données issues du plan poissonien.

  1. Montrez que \(\hat{\mu}_y^{(1)}\) est un estimateur sans biais pour \(\hat{\mu}_y\) et proposez un estimateur de la variance de \(\hat{\mu}_y^{(1)}\)
  2. En notant que \(\displaystyle N = \sum_{k \in \mathcal{U}} z_k\) où pour tout \(k \in \mathcal{U} ~~ z_k = 1\), proposez un estimateur \(\hat N\) sans biais de N.
  3. Pourquoi il n’est pas possible de calculer explicitement un estimateur de la variance de \(\hat{\mu}_y^{(2)}\) ?