Magazine Finances

Échantillons et intervalles de confiance

Publié le 14 août 2017 par Raphael57

Échantillons et intervalles de confiance

Dans un précédent billet, j'avais expliqué sommairement le fonctionnement des sondages. Aujourd'hui, nous allons approfondir quelque peu la notion d'estimation et expliquer comment se calcule un intervalle de confiance. N'ayez aucune inquiétude, nous verrons cela sur la base d'un exemple simple.

L'estimation ponctuelle

Comme pour les sondages dont j'avais parlé dans ce billet, si l'on souhaite connaître avec certitude un paramètre de la population, il suffit a priori d'interroger toute la population. Certes, je vous le concède, tout le monde ne dira pas la vérité surtout si la question porte sur le thème de l'argent, mais enfin l'idée est qu'il vaut toujours mieux recenser tout le monde si cela est possible. Bien évidemment, cela coûte cher et prend beaucoup de temps. Dès lors, le statisticien préfère se reporter sur un échantillon représentatif de la population, de sorte que les résultats obtenus sur cet échantillon lui serviront à estimer le paramètre inconnu dans la population totale.

Échantillons et intervalles de confiance

[ Source : http://sondages-tpe.e-monsite.com ]

Bien entendu, la valeur trouvée sur l'échantillon n'a que très peu de chances de correspondre exactement à la valeur réelle du paramètre, c'est ce que l'on appelle l'erreur d'échantillonnage...

Prenons l'exemple d'une entreprise de transport de personnes qui souhaite estimer le nombre moyen de personnes transportées chaque jour. On peut très bien décider de réaliser l'étude du 1er janvier au 31 janvier, c'est-à-dire relever le nombre de personnes transportées le 1er janvier, le 2 janvier et ainsi de suite jusqu'au 31, puis simplement faire la moyenne pour estimer le nombre moyen de personnes transportées quotidiennement par cette entreprise. C'est ce que l'on appelle une estimation ponctuelle.

Sans être statisticien, le lecteur aura compris qu'un bon estimateur se doit de donner pour chaque échantillon la meilleure approximation possible du paramètre recherché, dans notre exemple le nombre moyen de personnes transportées quotidiennement. Dans le jargon, un tel estimateur est dit sans biais et convergent, c'est-à-dire que l'estimateur doit en moyenne donner la vraie valeur et s'approcher de celle-ci lorsque la taille de l'échantillon augmente.

Échantillons et intervalles de confiance

[ Source : http://www.statcan.gc.ca ]

L'estimation par intervalle de confiance

Le problème avec l'estimation ponctuelle est que sa valeur change avec chaque échantillon et qu'il est impossible d'évaluer la précision de l'estimation. Pour le dire simplement, on peut trouver une estimation du nombre de personnes transportées très différente si l'on prend un autre échantillon, c'est-à-dire une autre période de l'année. C'est pourquoi, il est préférable d'adopter une évaluation du paramètre sous forme d'un intervalle qui a de grandes chances de contenir la vraie valeur du paramètre.

Sans entrer dans la technique, retenons qu'un intervalle de confiance d'un paramètre au seuil de 95 % signifie que si l'on prélève 100 échantillons de même taille dans la population étudiée, 95 % des intervalles de confiance calculés contiennent la vraie valeur du paramètre.

Prenons l'exemple d'une entreprise A qui fabrique des pièces pour l'industrie de diamètre égal à 2,5 mm. L'entreprise B achète les pièces de A et veut s'assurer que les pièces achetées ont bien la taille demandée sous peine de refus et donc de dédommagement financier. Comme elle ne peut à l'évidence pas payer des salariés à contrôler toutes les pièces, elle va se contenter d'en prélever un échantillon, mettons de 50 pièces sur un lot de 1 000. Le but est donc de calculer sur cet échantillon la fluctuation moyenne du diamètre par rapport à la moyenne annoncée de 5 mm, ce que les statisticiens appellent la variance. On trouve 0,0012.

Pour ce faire, on suppose d'abord que la totalité des pièces du lot, donc notre population au sens statistique, suit une loi normale également appelée loi de Gauss (vous savez la fameuse courbe en cloche comme ci-dessous) :

Échantillons et intervalles de confiance

[ Source : Wikipédia ]

L'intervalle de confiance au seuil de 95 % de la variance (=fluctuation) de l'ensemble du lot de pièces est donné par une formule compliquée, qui fait intervenir la loi du khi-deux, et que je vous épargne :

Dans notre exemple, l'on trouve les valeurs suivantes :

 * s'²=(50/49)x0,0050=0,0051 (c'est l'estimateur de la variance)

 * borne inférieure = 71,42

 * borne supérieure = 32,35

On obtient l'intervalle de confiance suivant au seuil de 95 % pour la fluctuation (=variance) : I = [0,0034 ; 0,0077], ce qui signifie que cet intervalle a 95 % de chances de contenir la vraie fluctuation recherchée sur l'ensemble des pièces produites.

Retour sur les sondages politiques

Désormais, lorsque vous lirez un sondage, surtout politique, n'oubliez jamais de regarder les précisions concernant la taille de l'échantillon et l'intervalle de confiance, car elles sont très importantes pour comprendre les résultats. Hélas, comme toujours, ces informations importantes sont écrites en tout petits caractères sous le sondage...

Quoi qu'il en soit, veillez à ne pas tomber dans le travers habituel des experts médiatiques, qui adorent faire dire aux marges d'erreur ce qu'elles ne disent pas. Rappelons tout d'abord que la marge d'erreur, qu'il faudrait en toute rigueur appeler marge d'incertitude, est liée au fait qu'un sondage effectué sur un échantillon donne un résultat évidemment différent de celui que l'on obtiendrait en interrogeant toute la population. Ainsi, si l'on utilise un échantillon de 1 000 personnes, qui est du reste la taille usuelle, la marge d'erreur pour la méthode aléatoire est de 3 %. Elle est de 2 % pour un échantillon de 5 000 personnes et de 1 % pour 10 000 personnes...

Dès lors, lorsque vous lisez un sondage politique, qui affirme que le premier candidat est crédité de 25 % des intentions de vote et le deuxième de 21 % avec une marge d'erreur de 2 %, il faut se garder d'en déduire que les deux candidats sont probablement à égalité comme on l'entend trop souvent ! Cela signifie juste que si l'on prélève un grand nombre d'échantillons de même taille dans cette population - bref que l'on refait plusieurs fois de suite le même sondage dans les mêmes conditions - et que les intentions de vote pour le premier candidat sont de manière invariante de 25 % (ce que personne n'a le moyen de savoir à ce stade évidemment), alors il y a 95 % de chances que les nouveaux sondages donnent un résultat aux alentours de 25 %, parfois plus parfois moins.

Cela ne permet absolument pas d'en déduire quoi que ce soit sur l'évolution des intentions de vote, d'autant que nous avons supposé dans notre exemple qu'elles étaient définitivement fixées. Mais de telles variations de chiffres servent surtout à vendre des analyses bidons sur l'engouement des électeurs une semaine donnée pour un candidat ou au contraire la déception de ceux-ci, ce qui nous ramène aux errements des doxosophes évoqués par Platon...  


Retour à La Une de Logo Paperblog

A propos de l’auteur


Raphael57 947 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte

Magazine