Les tirages du Lotto 6/49 pourraient ne pas être ce qu’on croit

Quand on regarde un tirage du Lotto 6/49, sauf la couleur et le numéro, on voit 49 boules apparemment identiques virevolter dans un boulier. L’impression de similarité des boules est renforcée par la publication d’une partie de la procédure suivie par la Société de la loterie interprovinciale (SLI) quant à l’intégrité des tirages. Au volet Processus des tirages du site de Loto-Québec, on décrit un rituel solennel. On mentionne la participation d’auditeurs externes. On montre une balance de précision (voir ci-contre). Mais, nulle part sur le site, on affirme que ces 49 boules sont identiques en poids, en taille et en matériau. Les auditeurs ont-ils vérifié l’équiprobabilité des boules ou une liste de différences voulues? On ne sait pas ce qu’ils ont signé.

Le tunnel cognitif est une situation pouvant amener un consommateur à croire vraie une affirmation que le vendeur ne pourrait pas faire. On inonde la perception du consommateur d’éléments traditionnellement associés à une vérité. On l’oriente au début du raisonnement tant qu’on peut dire des choses vraies. Puis, on s’efface en espérant que le consommateur va compléter le raisonnement vers une certitude non fondée. L’issue du tunnel cognitif : emmurer le consommateur dans ses propres erreurs. Avec l’information communiquée au sujet du Lotto 6/49, comment peut-on vérifier l’exactitude de ce qu’on croit?

Au mois de novembre, j’ai été étonné d’observer une pente dans l’histogramme de la fréquence de sortie des boules au tirage. Depuis trois mois, j’ai entrepris de reconstruire la base de données de tous les tirages de la loterie pancanadienne Lotto 6/49 depuis son inauguration le 12 juin 1982 jusqu’au 27 février 2016. La liste des numéros gagnants ne suffit pas. Pour bien analyser ces résultats, il faut aussi connaître, pour chaque tirage, le montant des ventes ainsi que, pour chaque lot, le nombre de gagnants et le montant du lot. Attention, sur Internet, il y a beaucoup de données erronées. En raison d’erreurs occasionnelles, les sources les plus fiables doivent aussi être vérifiées en appliquant une série d’équations de contrôle (voir la note 1 en fin de billet).

Tout d’abord, rappelons l’histogramme étonnant. Celui-ci est maintenant actualisé pour 3350 tirages (du 12 juin 1982 au 27 février 2016) et représenté sous une forme graphique plus complexe.

La probabilité au tirage consiste en le nombre de fois qu’une boule est sortie (incluant la boule complémentaire) divisée par sept fois le nombre de tirages (7 x 3350 tirage = 23,450 extractions d’une boule du boulier). En théorie, si toutes les boules sont identiques, cette probabilité est de 1/49 = 2,04% (voir note 2). Cette valeur théorique est représentée dans le graphique par la ligne pointillée rouge. En haut et en bas, les lignes pointillées grises représentent l’intervalle de confiance à l’intérieur duquel les cercles bleus devraient se situer 19 fois sur 20. Ici seulement trois cercles sur 49 sortent de l’intervalle. Cela est statistiquement acceptable … quoique!

Analysée séparément, chaque boule est incluse dans l’intervalle de confiance, ou ne s’en écarte pas outrageusement. Le hic est qu’il existe une pente non-nulle statistiquement très significative (p=,00117) entre le numéro de la boule et sa probabilité. Si les boules étaient équiprobables, cette pente serait nulle. Plutôt, les résultats de la régression linéaire indiquent que 18,6% de la variance entre les probabilités est prédite par le numéro de la boule. Selon les critères scientifiques, l’hypothèse de l’équiprobabilité des boules peut être rejetée. Les lignes noires pointillées correspondent à la probabilité moyenne par séquence de sept boules. On y entrevoit bien l’effet escalier.

Dans le billet du mois de novembre, il apparaissait que le déséquilibre entre les boules pourrait être une réalité ancienne qui n’existe plus depuis quelques années. Mais, l’analyse réalisée n’offrait que très peu de puissance statistique. Ne rien voir dans le noir ne signifie pas qu’il n’y a rien! Une analyse plus poussée était nécessaire. La voici!

Advenant un changement dans les probabilités des boules, trois questions deviennent intéressantes : (1) quand le déséquilibre entre les probabilités des boules a-t-il été modifié, (2) y a-t-il maintenant équiprobabilité, et (3) peut-on associer ce changement à un événement, à un changement de gestion ou à un nouvel objectif? Voyons quelles réponses peut apporter la reconstitution de la base de données des tirages du Lotto 6/49.

L’information disponible se limite à ceci pour chaque tirage. Dans le cas présent, il s’agit du dernier tirage de la série ici analysée. Antérieurement, il existait moins de lots secondaires. Le format de diffusion des résultats est cependant resté inchangé.

Il faut d’abord prendre en note le montant total des ventes. De ce montant, un pourcentage est remis aux joueurs sous forme de lots. C’est le taux de remise, le taux de retour ou, lorsqu’exprimé en dollars, c’est le fonds de remise. Les lots fixes ($10, $5 et participation gratuite) sont d’abord extraits du fonds. Ce qui reste après ce prélèvement est la cagnotte. Cette dernière est distribué dans quatre réserves pour les lots 6/6, 5/6+C, 5/6 et 4/6 selon des pourcentages prédéterminés qui ont varié depuis l’inauguration. La réserve pour chaque lot est finalement divisée par le nombre de gagnants pour ce lot; ce qui donne le montant du lot publié. Quand il n’y a pas de gagnant pour un lot (typiquement le 6/6 ou le 5/6+C), sa réserve va grossir la prochaine réserve pour le lot 6/6. En connaissant le taux de remise et les pourcentages pour les réserves, on peut appliquer d’un tirage à l’autre une série d’équations permettant de déceler et de corriger les erreurs de transcription ou de publication. C’est essentiel!
Les époques du Lotto 6/49
Quand les paramètres des équations ne permettent plus de reconstruire les données publiées, c’est qu’il y a eu une modification de la structure des lots. De nouveaux pourcentages doivent alors être dérivés. Grâce à ces équations, on peut déceler six époques depuis le 12 juin 1982. En voici les dates limites :

Dans le second tableau qui suit, ce sont les structures de lots pour chaque époque. À noter, uniquement durant l’époque D, une structure différente était appliquée quand le gros lot dépassait 30 millions de dollars. Ce faisant, la croissance du gros lot progressif 6/6 était ralentie. C’est ce qui distingue l’époque D de l’époque E. Ces structures sont similaires à celles publiées sur Wikipedia sauf que le texte sur Wikipedia ignore l’existence des époques A et B. Durant l’époque A, si le lot 5/6+C n’était pas gagné, parfois la réserve était ajoutée à celle du 6/6 suivant, parfois à celle du 5/6+C suivant.

Performance financière du Lotto 6/49
Voici maintenant le graphique des bénéfices bruts hebdomadaires (ventes - lots remis) depuis l’inauguration. La ligne rouge indique la valeur moyenne pour chaque époque.

Hausser le coût à deux dollars (époque D) n’a pas beaucoup modifié le bénéfice brut hebdomadaire bien que cela a considérablement augmenté la variance. À tout le moins, le bénéfice brut moyen a été plus élevé que le bénéfice brut à la fin de l’époque C. La période E a été moins profitable malgré que la structure de lot était plus favorable à la croissance du gros lot progressif 6/6. Une légère augmentation est constatable durant la période F. Pourtant, durant cette période, le taux de remise est passé de 47% à 40% pour les lots classiques et le coût a été augmenté à trois dollars. En contrepartie, une réserve de 7% est dorénavant retenue pour verser les lots appelés millions garantis et le lot 2/6 a été ajouté.

La hausse du coût est intéressante à étudier notamment parce que, pour une même dépense, elle entraîne obligatoirement une réduction de la fréquence des récompenses. À un dollar la sélection, le joueur qui misait 6 dollars hebdomadairement pouvait faire six sélections différentes. Il avait donc six occasions différentes pour obtenir un des lots offerts. À trois dollars, il n’a plus que deux occasions d’être récompensé. La question est alors de savoir si l’attrait augmenté envers un gros lot plus grand compense la réduction du taux de récompense.

Examinons, le nombre de sélections achetées à chaque semaine (vente hebdomadaire divisée par le coût de la sélection). La hausse du coût diminue les ventes, mais pas proportionnellement à la hausse du coût. Dans ce graphique, on constate aussi que l’attrait du Lotto 6/49 a été maximal en 1993 et que, depuis, cette loterie décline continuellement en fréquence d’achat. Au Canada, le début des années 90 correspond à l’ouverture de casinos d’État, à la dissémination des appareils de loterie vidéo (ALV) et à l’avènement des loteries instantanées (billets à gratter).

Examinons aussi la taille du gros lot progressif 6/6. Les cercles indiquent le montant de la réserve pour le lot 6/6 (réserve = valeur du lot x nombre de gagnants (1 s’il n’y a pas de gagnant)). La réserve est ce qui est publié quand il n’y a pas de gagnant ou qu’on anticipe le gros lot prévu pour le prochain tirage. Les couleurs indiquent depuis combien de tirages le gros lot n’a pas été gagné. En gris, c’est lorsque le gros lot a été gagné au tirage précédent. En vert, le gros lot est la somme des réserves pour deux tirages. En rouge, c’est lorsque le gros lot est la somme des réserves pour sept tirages ou plus. La période E illustre bien l’ordre des couleurs. Les cercles rouges des périodes E et F témoignent de la diminution des fréquences de récompense pour le lot 6/6. Ce lot est gagné moins souvent. Il s’accumule donc davantage. Malgré l’augmentation du coût (de deux à trois dollars), les gros lots de l’époque F ne sont pas vraiment plus élevés que ceux des époques D ou E.

Préférences de joueurs
Maintenant, observons les préférences des joueurs lorsqu’ils font leurs sélections. Les 256 tirages de la période F permettent d’identifier ces préférences. Il suffit de diviser le nombre de gagnants pour le lot 2/6+C par le total des gagnants pour les lots 2/6 et 2/6+C. Le lot 2/6 n’existe que depuis l’époque F. Le pourcentage résultant est alors associé au numéro de la boule complémentaire. C’est environ quatre fois la probabilité d’être sélectionnée par les joueurs. La ligne verte représente l’espérance mathématique (4/43 = 9,3%). Dans le graphique suivant, on constate bien la préférence des joueurs à l’égard des petits numéros de boule. À noter que la pente de ce profil des probabilités est inverse à celle des boules au tirage. Bref, s’il y en encore la même inégalité des probabilités au tirage durant la période F, les boules les moins probables au tirage correspondent aux boules les plus souvent sélectionnées par les joueurs.

Pour l’ensemble de 3350 tirages, les préférences des joueurs peuvent aussi être estimées, quoique moins précisément, en divisant le nombre de gagnants du lot 5/6+C par le total des gagnants pour les lots 5/6 et 5/6+C. Parce que le lot 5/6 survient beaucoup plus rarement, il y a beaucoup d’instabilité dans ce graphique.

Heureusement, il existe une autre façon d’estimer la régularité (ou l’irrégularité) des préférences de joueurs depuis l’inauguration du Lotto 6/49. Voici le graphique pour une nouvelle variable : le nombre de mises qu’il faut faire en moyenne avant d’obtenir un lot. Durant les époques A, B et C, on pouvait espérer gagner un lot une fois à tous les 53,6 tirages. Durant les époques D et E, l’ajout du lot 2/6+C a augmenté la probabilité d’obtenir un lot à une fois tous les 32,3 tirages. Depuis l’époque F, l’ajout du lot 2/6 permet d’obtenir un lot une fois à tous les 6,6 tirages. À noter que, malgré des millions de mises, il y a beaucoup de variance d’un tirage à l’autre.

Une façon intéressante d’analyser cette variance est d’illustrer le nombre de mises par gagnant, non pas en fonction de la date du tirage, mais en fonction de la somme des sept boules qui déterminent les sélections gagnantes. Quand la somme des sept boules est plus petite, il y a plus de gagnants (à gauche, les cercles sont plus bas). Quand la somme est grande, il y a moins de gagnants (à droite, les cercles sont plus haut).

Dans ce graphique, on compare mal l’équivalence des trois nuages de points parce que le nombre de lots menant à l’obtention d’un lot est différent. Reprenons ce graphique en ne considérant que les lots qui ont toujours existé depuis l’inauguration. Si, pour les périodes D, E et F, on ne retient que le nombre de gagnants des lots 6/6, 5/6+C, 5/6, 4/6 et 3/6, on constate bien, dans le graphique suivant, que les préférences des joueurs sont demeurés pratiquement inchangées depuis l’inauguration. Les six époques se superposent. Si les probabilités des boules au tirage ont été modifiées, il est certain que ce n’est pas en réponse à une modification dans les préférences des joueurs.

L’équiprobabilité en fonction de la somme des sept boules
La somme des sept boules est une variable qui apporte beaucoup d’information. En théorie, cette somme doit avoir comme moyenne 175 (la boule moyenne = 25; 175 = 7 x 25). Si un ensemble de boules (ayant des numéros voisins) a une probabilité différente, la somme des sept boules s’écarte significativement de la valeur 175. Dans le graphique suivant, les moyennes pour les six époques sont représentées par les cercles jaunes. Les barres verticales noires illustrent l’intervalle de confiance de chaque moyenne calculé par la technique de bootstrap. Dans le cas des époques B et D, on peut scientifiquement conclure que les boules n’étaient pas équiprobables. Pour l’époque C, c’est moins certain, mais cela va dans le même sens … assez pour convaincre. Pour l’époque A, le faible nombre de tirages empêche d’aller au-delà d’un examen visuel. Si une inégalité de la probabilité des boules au tirage est vraisemblable pour les époques A, B, C et D, cela ne semble plus être le cas pour les périodes E et F … quoique cela ne prouve pas non plus l’équiprobabilité des boules. Il reste possible qu’il persiste une inégalité nettement moins prononcée qui n’est pas décelable statistiquement. À tout le moins, un net changement est survenu dans le déséquilibre des probabilités au tirage.

Il n’est pas certain que le changement de probabilité se soit effectué au début d’une époque. Pour essayer d’être plus précis, j’ai comparé la moyenne entre l’inauguration et le jour J avec la moyenne entre le jour J+1 et le 27 février 2016. Voici le graphique théorique. Il suffit d’essayer différents jour J entre le 12 juin 1982 et le 27 février 2016 et de constater pour quel jour la différence entre les lignes bleue et rouge a été maximale.

Le graphique suivant n’est pas aussi facile à lire que le graphique théorique, mais il identifie la date du 1 avril 2009. Il s’agit du sommet de la pente positive recherchée. Les pentes négatives ne sont pas pertinentes.

Le 1 avril 2009 fait partie de la période D. Quatre-vingt pourcent (80%) de la période D était écoulée lorsque le changement serait survenu. À noter que le 1 avril est le début d’une nouvelle année fiscale. Mais, est-ce que les boules ont été rendues équiprobables depuis le 1 avril 2009? Comme indiqué dans le graphique suivant, les résultats des 724 tirages depuis le 1 avril 2009 présentent une pente statistiquement nulle (régression linéaire : p=73572, voir la ligne verte). Mais, à l’analyse visuelle, je n’ai pu m’empêcher de voir les pentes bleue et noire. C’est peut-être une illusion car ces pentes ne s’avèrent pas statistiquement significatives (peut-être par manque de puissance statistique). Scientifiquement, on ne peut pas rejeter l’hypothèse de l’égalité des probabilités depuis le 1 avril 2009 … ce qui n’implique pas qu’on l’accepte par défaut.

Et si on regardait du côté de la loterie Lotto Max qui a été inaugurée le 25 septembre 2009 vers la fin de la période D? Ces résultats présentent aussi une pente intrigante … bien que statistiquement non significative (p=,59330). Avec seulement 337 tirages, on ne pouvait pas non plus s’attendre à ce qu’elle soit statistiquement significative.

En raison du manque de puissance pour les analyses post-1 avril 2009, il est possible que les boules soient équiprobables bien que je n’en sois pas encore convaincu. Il reste possible que, depuis le 1 avril 2009, la SLI favorise plutôt les boules les plus fréquemment sélectionnées par les joueurs. En contrepartie, créer un déséquilibre minime favorable aux numéros préférés par les joueurs apparaît inutilement compliqué alors que l’équiprobabilité serait pratiquement équivalente. Pourquoi faire ça? Quoi qu’il en soit, qu’est-ce qu’apporte l’équiprobabilité? Au début de l’époque D, le coût a été doublé (de 1$ à 2$). La valeur des gros lots a considérablement augmenté, mais pas le bénéfice brut. Le nombre de sélections achetées a aussi continué à diminuer. Une cause plausible était la diminution du taux de récompense qu’entraîne la hausse du coût. Un moyen d’augmenter cette fréquence était de rendre les boules équiprobables, voire de favoriser un peu les boules les plus souvent sélectionnées par les joueurs. Durant l’époque E, le bénéfice brut moyen a cependant chuté. Ce n’était sans doute pas suffisant.

Au début de l’époque F, au prix d’une nouvelle augmentation du coût, une intervention plus radicale sur le taux de récompense a été faite en créant un nouveau lot (une participation gratuite par combinaison 2 sur 6) et en offrant des millions garantis. Le lot de 2/6 n’est pas un gain car on ne fait que rembourser le coût. Mais, il peut créer une impression de gain. Le million garanti augmente la certitude qu’il y aura au moins un gros gain pour quelqu’un. C’est ce qui semble avoir relancé le bénéfice brut hebdomadaire moyen.

La croyance dans l’omnipotentialité des gros lots extraordinaires a sans doute motivé l’abandon de la structure de lot qui ralentissait la croissance du lot 6/6 durant la période D (quand le lot dépassait 30 millions de dollars). Mais, le résultat a plausiblement été contraire à l’attente.

Sans un taux de récompense qui se maintient, la taille du gros lot n’est peut-être pas l’incitatif miraculeux que l’on croit. Pour la SLI, c’était une croyance depuis les premiers tirages.
Légalité du déséquilibre des boules au tirage
Est-ce que le déséquilibre des boules était illégal entre le 12 juin 1982 et le 31 mars 2009? En 2013, un litige a opposé deux joueurs à Loto-Québec concernant la manière dont les numéros de l’Extra étaient choisis par Loto-Québec. Le paragraphe 41 du jugement illustre un billet avec 10 numéros pour l’extra. De ce qu’ils avaient compris de l’information communiquée au sujet de l’extra, les plaignants croyaient que ces numéros étaient tirés au hasard. Or, il s’avère que Loto-Québec s’organisait pour que les premiers et les derniers chiffres ne se répètent pas d’un numéro à l'autre. La sélection des numéros de l’extra n’était donc pas complètement aléatoire. Le juge a constaté que cette information n’était pas divulguée au consommateur.

Dans sa décision, le juge a évalué que l’obligation de hasard se limitait au seul mécanisme de tirage : l’extraction des boules du boulier.

En bref, ce qui se produit avant le tirage pourrait être l’objet de manipulations moins aléatoires. En ce sens, est-ce que la prédétermination de probabilités différentes, en l’occurrence par des poids différents, interfère dans le caractère aléatoire de l’extraction des boules du boulier? Dans la mesure où ce qui sort du boulier est conforme aux probabilités prédéterminées, le mécanisme du tirage est aléatoire. Par exemple, s’il y a dans un boulier, contenant seulement deux boules, une boule rouge deux fois plus pesante qu’une boule jaune, la boule rouge risque de sortir deux fois plus souvent que la boule jaune. La plus grande fréquence de la boule rouge n’est pas un défaut du mécanisme de tirage si le déséquilibre des fréquences est proportionnel au déséquilibre des probabilités prédéterminées.

Dans le cas d’une prédétermination déséquilibrée des probabilités au tirage, la question devient : est-ce que la non divulgation de cette information peut avoir modifié appréciablement la structure décisionnelle du joueur. Bref, s’il avait su, aurait-il agi autrement? Entre le 12 juin 1982 et le 31 mars 2009, le joueur, qui a hebdomadairement toujours sélectionné des petits numéros, a au moins de quoi devenir boudeur. Pour être plus que boudeur, il faudrait évaluer le dommage.

Actuellement, sur Internet, à la page sur les sélections populaires (voir note 3), Loto-Québec énonce que toutes les sélections sont équiprobables; ce qui implique que les boules sont équiprobables.

Ici, ce n’est plus une question de non divulgation. Loto-Québec fait une communication très explicite. Si les boules sont maintenant équiprobables, il reste néanmoins un problème. Les joueurs, qui analysent les résultats antérieurs, sont exposés à un matériel qui ne confirmera pas l’affirmation de Loto-Québec. C’est un tunnel cognitif dans la mesure où Loto-Québec ne précise pas la durée pendant laquelle son affirmation s’applique. Croire avoir décelé un défaut dans un mécanisme de tirage est l’erreur centrale qui, depuis deux siècles, a incité des joueurs à construire des martingales et à s’y ruiner. Évalué cognitivement, le dommage pourrait être plus que quelques dollars manquants en lots secondaires.

S’il n’y a pas de problème légal, il reste qu’il y a un problème d’éthique surtout de la part d’un site gouvernemental. Au plan marketing, on peut aussi douter de la sagesse de tolérer d’importantes différences cognitives entre la réalité des tirages et les représentations spontanées que peuvent s’en faire les joueurs. L’équité du jeu doit être crédible, et ça c’est fragile.
Note 1 : Fiabilité des sources concernant le Lotto 6/49 pancanadien
La source la plus fiable est celle de la BCLC bien qu’elle comporte quelques erreurs de transcription. Malheureusement, le site ne précise pas le total des ventes ni le montant du lot 6/6 s’il n’a pas été gagné.

Entre mars 1996 et aujourd’hui, le site LotteryCanada complémente le site de la BCLC, mais on y décèle beaucoup d’erreurs de transcription. Ces données doivent être systématiquement confirmées par les équations applicables.

En cas de doute, les résultats publiés par le journal La Presse permet de valider les données. C’est une source très fiable. Mais, c’est très long à chercher.

En six occasions, des erreurs proviennent vraisemblablement directement des données publiées par la SLI car toutes les sources ont diffusé la même erreur (27 mai 1992, 30 janvier 1993, 16 juin 1993, 7 août 2004, 29 décembre 2004 et 2 février 2005). Les données publiées ces jours-là ne correspondent pas aux montants estimés par les équations applicables.
Note 2 : Probabilité au tirage et intervalle de confiance
À l’extraction de la première boule, la probabilité de la boule un (par exemple) est de 1 sur 49. En 3350 tirages, cela est survenu 68,37 fois … si les boules sont équiprobables. Si la boule un n’est pas extraite en premier, elle a 1 chance sur 48 de sortir en deuxième. Mais, cette probabilité ne s’applique qu’à 3281,63 tirages (si on omet les 68,37 tirages pour lesquels la boule un est sortie en premier). Si on multiplie 3281,63 par 1/48, on constate que ce second événement serait aussi survenu 68,37 fois lors des 3350 tirages. Bien que la probabilité de la boule un augmente au fur et à mesure qu’elle n’est pas choisie, cette probabilité s’applique sur un nombre toujours plus restreint de tirages restants. Qu’on tire une seule boule, ou qu’on en tire sept, la probabilité de la boule est égale au nombre de fois qu’elle est sortie du boulier divisé par le nombre total de boules extraites. L’intervalle de confiance de la probabilité se calcule à partir de ce nombre total.

Note 3 : Message de Loto-Québec concernant l’équiprobabilité des sélections

Photo en entête extraite du site de Loto-Québec : intégrité et rigueur, volet processus de tirage