graph TD
A(Pile ou face 1) -->|Pile| B(Vraie réponse)
A --> |Face| C(Pile ou face 2)
C --> |Pile| D(Vraie réponse)
C --> |Face| E(Mensonge)
Complément au cours 1
Réponse randomisée (Wagner, 1965)
On s’intéresse à un échantillon \((X_1, ..., X_n)\) iid tel que \(X_i \sim \text{Ber}(p)\). Les réalisations de ces variables peuvent représenter des réponses à une question : 1 pour “oui”, 2 pour “non” par exemple.
Lorsque la question porte sur un sujet sensible, l’individu peut choisir de ne pas répondre ou de mentir.
Afin d’assurer la véracité de sa réponse mais aussi sa confidentialité, il est possible d’utiliser un mécanisme de réponse randomisée.
L’idée est de suivre le cheminement suivant :
L’individu \(i\) lance une première pièce équilibrée :
Si elle tombe sur pile, il renvoie sa réponse \(X_i\).
Si elle tombe sur face, il relance une pièce équilibrée indépendamment de la première :
- Si elle tombe sur pile, il renvoie sa réponse \(X_i\).
- Sinon, il renvoie l’inverse \(1 - X_i\).
Si on note \(Z_i\), la réponse donnée par l’individu \(i\) après l’application du mécanisme de réponse randomisée alors on peut montrer que \[\hat p_N = 2 \bar{Z}_N - \frac{1}{2}\] est un estimateur sans biais de \(p\). Cet estimateur est uniquement basé sur la version randomisée de \(X\). En revanche, on peut montrer que cet estimateur a une variance plus importante que celle de \(\bar{X}_N\).
Le code R suivant permet de tester ce mécanisme :
#Génération d'un échantillon
#selon une loi de Bernouilli de paramètre 0.2
p0 <- 0.2
x <- rbinom(1000,1,p0)
#rr applique le mécanisme de réponse randomisée
rr <- function(ech){
b1 <- rbinom(length(ech),1, 0.5)
b2 <- rbinom(length(ech),1, 0.5)
z <- b1*ech + (1-b1)*b2
return(z)
}
#Estimation basée sur les données randomisées
2*mean(rr(x)) - 0.5Ce mécanisme connait un regain d’intérêt dans le développement d’algorithmes de machine learning respectant des contraintes de confidentialité différentielle locale (algorithme LDP).
Statistiques éthniques
Le traitement des données éthniques est interdit sauf pour certains acteurs (dont Insee et SSM - article 8 de la loi de 1978 et RGPD).
Le cadre juridique : une interdiction de principe, des dérogations circonstanciées et des recommandations précises Toutes les statistiques ethniques que nous venons de passer en revue sont strictement encadrées en France. La loi n° 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés commence par indiquer, dans son article 6, que la collecte et le traitement de données dites « sensibles » sont interdites en France, notamment celles relatives à l’origine ou à l’appartenance ethno-raciale réelle ou supposée des personnes : « Il est interdit de traiter des données à caractère personnel qui révèlent la prétendue origine raciale ou l’origine ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l’appartenance syndicale d’une personne physique ou de traiter des données génétiques, des données biométriques aux fins d’identifier une personne physique de manière unique, des données concernant la santé ou des données concernant la vie sexuelle ou l’orientation sexuelle d’une personne physique. » (dernière version de la loi de 78, juin 2019, pour mise en conformité avec le RGPD)
La loi précise cependant dans le même article que des exceptions à cette interdiction existent. Elles sont fixées dans les conditions prévues par le II de l’article 9 du règlement RGPD (UE) 2016/679 du 27 avril 2016. Sont ainsi autorisés des traitements « à des fins de recherche scientifique ou historique ou à des fins statistiques » (conformément à l’article 89, paragraphe 1). Les travaux de l’Insee sur les données sensibles s’inscrivent pleinement dans le cadre de cette loi et de la loi de 1951 sur la statistique. L’institut n’est pas contraint de recueillir le consentement des personnes ou d’alléguer l’intérêt public, contrairement à d’autres dérogations qui doivent être justifiés par l’intérêt public (cf. les modalités prévues au II de l’article 31 et à l’article 32 de la loi relative à l’informatique, aux fichiers et aux libertés).
Par ailleurs, une décision importante du Conseil constitutionnel de 2007 précise quelles informations relatives aux origines peuvent être recueillies. Sans reprendre tout l’historique du débat, rappelons ici que le sujet des statistiques ethniques avait alors donné lieu à des échanges passionnés au moment de la discussion de la loi du 20 novembre 2007 relative à la maîtrise de l’immigration, à l’intégration et à l’asile. À cette occasion, le gouvernement avait en effet voulu ajouter à la liste des dérogations existantes permettant de recueillir des données « sensibles », une dérogation nouvelle pour les « études sur la mesure de la diversité des origines », et ainsi modifier la loi de 1978. Cette disposition avait été rejetée par le Conseil au motif qu’il s’agissait d’un cavalier législatif (i.e. un article de loi sans rapport avec la finalité plus générale du texte de loi – cf. décision du Conseil constitutionnel du 15 novembre 2007). Néanmoins, le Conseil constitutionnel avait ultérieurement éprouvé le besoin de préciser son avis sur cette question, et s’y était d’ailleurs repris à deux fois pour expliciter sa position, comme les cahiers constitutionnels qui accompagnent cette décision en témoignent.
Exemple d’enquête dans laquelle des questions sur la religion sont posées : TeO.
Billet de blog de l’Insee sur les statistiques éthniques.