Magazine Finances

Échantillons et intervalles de confiance

Publié le 14 août 2017 par Raphael57

Échantillons et intervalles de confiance

Dans un précédent billet, j'avais expliqué sommairement le fonctionnement des sondages. Aujourd'hui, nous allons approfondir quelque peu la notion d'estimation et expliquer comment se calcule un intervalle de confiance. N'ayez aucune inquiétude, nous verrons cela sur la base d'un exemple simple.

L'estimation ponctuelle

Comme pour les sondages dont j'avais parlé dans ce billet, si l'on souhaite connaître avec certitude un paramètre de la population, il suffit a priori d'interroger toute la population. Certes, je vous le concède, tout le monde ne dira pas la vérité surtout si la question porte sur le thème de l'argent, mais enfin l'idée est qu'il vaut toujours mieux recenser tout le monde si cela est possible. Bien évidemment, cela coûte cher et prend beaucoup de temps. Dès lors, le statisticien préfère se reporter sur un échantillon représentatif de la population, de sorte que les résultats obtenus sur cet échantillon lui serviront à estimer le paramètre inconnu dans la population totale.

Échantillons et intervalles de confiance

[ Source : http://sondages-tpe.e-monsite.com ]

Bien entendu, la valeur trouvée sur l'échantillon n'a que très peu de chances de correspondre exactement à la valeur réelle du paramètre, c'est ce que l'on appelle l'erreur d'échantillonnage...

Prenons l'exemple d'une entreprise de transport de personnes qui souhaite estimer le nombre moyen de personnes transportées chaque jour. On peut très bien décider de réaliser l'étude du 1er janvier au 31 janvier, c'est-à-dire relever le nombre de personnes transportées le 1er janvier, le 2 janvier et ainsi de suite jusqu'au 31, puis simplement faire la moyenne pour estimer le nombre moyen de personnes transportées quotidiennement par cette entreprise. C'est ce que l'on appelle une estimation ponctuelle.

Sans être statisticien, le lecteur aura compris qu'un bon estimateur se doit de donner pour chaque échantillon la meilleure approximation possible du paramètre recherché, dans notre exemple le nombre moyen de personnes transportées quotidiennement. Dans le jargon, un tel estimateur est dit sans biais et convergent, c'est-à-dire que l'estimateur doit en moyenne donner la vraie valeur et s'approcher de celle-ci lorsque la taille de l'échantillon augmente.

Échantillons et intervalles de confiance

[ Source : http://www.statcan.gc.ca ]

L'estimation par intervalle de confiance

Le problème avec l'estimation ponctuelle est que sa valeur change avec chaque échantillon et qu'il est impossible d'évaluer la précision de l'estimation. Pour le dire simplement, on peut trouver une estimation du nombre de personnes transportées très différente si l'on prend un autre échantillon, c'est-à-dire une autre période de l'année. C'est pourquoi, il est préférable d'adopter une évaluation du paramètre sous forme d'un intervalle qui a de grandes chances de contenir la vraie valeur du paramètre.

Sans entrer dans la technique, retenons qu'un intervalle de confiance d'un paramètre au seuil de 95 % signifie que si l'on prélève 100 échantillons de même taille dans la population étudiée, 95 % des intervalles de confiance calculés contiennent la vraie valeur du paramètre.

Prenons l'exemple d'une entreprise A qui fabrique des pièces pour l'industrie de diamètre égal à 2,5 mm. L'entreprise B achète les pièces de A et veut s'assurer que les pièces achetées ont bien la taille demandée sous peine de refus et donc de dédommagement financier. Comme elle ne peut à l'évidence pas payer des salariés à contrôler toutes les pièces, elle va se contenter d'en prélever un échantillon, mettons de 50 pièces sur un lot de 1 000. Le but est donc de calculer sur cet échantillon la fluctuation moyenne du diamètre par rapport à la moyenne annoncée de 5 mm, ce que les statisticiens appellent la variance. On trouve 0,0012.

Pour ce faire, on suppose d'abord que la totalité des pièces du lot, donc notre population au sens statistique, suit une loi normale également appelée loi de Gauss (vous savez la fameuse courbe en cloche comme ci-dessous) :

Échantillons et intervalles de confiance

[ Source : Wikipédia ]

L'intervalle de confiance au seuil de 95 % de la variance (=fluctuation) de l'ensemble du lot de pièces est donné par une formule compliquée, qui fait intervenir la loi du khi-deux, et que je vous épargne :

Dans notre exemple, l'on trouve les valeurs suivantes :

 * s'²=(50/49)x0,0050=0,0051 (c'est l'estimateur de la variance)

 * borne inférieure = 71,42

 * borne supérieure = 32,35

On obtient l'intervalle de confiance suivant au seuil de 95 % pour la fluctuation (=variance) : I = [0,0034 ; 0,0077], ce qui signifie que cet intervalle a 95 % de chances de contenir la vraie fluctuation recherchée sur l'ensemble des pièces produites.

Désormais, lorsque vous lirez un sondage, n'oubliez jamais de regarder les précisions concernant la taille de l'échantillon et l'intervalle de confiance, car elles sont très importantes pour comprendre les résultats. Hélas, comme toujours, ces informations importantes sont écrites en tout petits caractères sous le sondage...


Retour à La Une de Logo Paperblog

A propos de l’auteur


Raphael57 947 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte

Magazine