L’importance de la prise en compte des NUMTs dans le barcoding

Publié le 09 septembre 2008 par Timothée Poisot

Le barcoding n’est pas le domaine de la biologie moléculaire que j’apprécie le plus. Cependant, l’utilisation du gène COI — codant une sous-unité de la cytochrome C oxydase — a plusieurs avantages quand on fait de la taxonomie moléculaire. D’une part, elle est soumise à une pression sélective importante, en tant que gène codant, et d’autre part, elle montre — comme beaucoup de gènes mitochondriaux, puisque la mitochondrie ne corrige pas les erreurs de réplication — un niveau important de variabilité. Cette variabilité est en soi une information intéressante, notamment pour la taxonomie, mais ce n’est pas le propos de cette note — c’est un sujet que je réserve pour dans quelques temps.

Aujourd’hui, je vais plutôt choisir de vous parler d’un type de gène assez particulier, qui m’a empêché de dormir pendant plusieurs nuits après que j’en aie découvert l’existence, exactement au moment ou j’analysais des séquences de COI : les NUMT. Les NUMT, pour Nuclear Mitochondrial DNA — ADN mitochondrial nucléaire en Français dans le texte — sont une famille de pseudogènes tout à fait particuliers. Vous n’êtes pas sans savoir que la mitochondrie — organelle chargée de fournir de l’énergie à la cellule — possède un génome. Au cours de l’évolution, notre noyau et la mitochondrie se sont échangé des gènes, ce qui explique qu’on trouve des gènes assurant le fonctionnement de la mitochondrie dans le noyau, et inversement.

Ponctuellement, ce type de transfert peut encore avoir lieu. Il n’est pas impossible qu’un gène mitochondrial se retrouve dans le noyau. Et plus exactement, il n’est pas impossible qu’un événement de ce type amène à la formation d’un pseudogène : une séquences d’ADN qui contient un duplicat de gène inactif, pour toutes les raisons que l’on peut imaginer — zone ou la conformation physique de la molécule ne permet pas son expression, absence des éléments régulateurs, et autres subtilités. Ce type de transfert est résumé dans la figure juste en dessous.

Vous remarquerez — outre le fait que j’ai totalement abandonné toute velléité d’utiliser une échelle correcte, de représenter le génome mitochondrial sous sa forme circulaire, et de faire des chromosomes corrects — que le gène qui est passé de la mitochondrie au noyau est barré d’un trait dans sa version nucléaire. Pourquoi? C’est la que réside tout le danger des NUMT — et j’en profite pour glisser la prononciation correcte : new might, puisqu’il s’agit de la contraction de nu (pour nucléaire) et mt (pour mitochondrial), et non d’un mot entier à prononcer à la française —, ce sont des pseudo-gènes. En première lecture, pour quelqu’un qui a plus l’habitude de la biologie cellulaire que de l’évolution, ça veut dire qu’ils ne seront pas exprimés. Mais pas seulement. Un pseudogène, c’est avant tout une séquence d’ADN totalement banale, exception faite de sa quasi identité avec un autre gène.

Et comme toute séquence ‘neutre’, le NUMT n’est pas soumis à la pression de sélection. Je vous épargne les remarques sur la saturation, qui de toute manière demandent d’avoir plusieurs séquences — il n’y a pas de page sur le sujet, ni dans Wikipédia FR, ni dans Wikipédia EN, c’est fou… — pour aborder le problème de l’absence de pression de sélection sous un angle beaucoup plus basique. Quand un gène est soumis à une pression de sélection, cela implique que les mutations qui altèrent la fonction du gène — la plupart du temps, celle de la protéine qu’il code — en diminuant la fitness des individus qui portent une telle mutation (délétère) sont éliminées du pool génétique. S’il n’y a pas de pression, une séquence est libre d’accumuler les mutations qui lui plaisent, puisque ce n’est pas “important” pour le succès de l’individu.

En général, on accumule les mutations sur la troisième base de chaque codon, puisque le code génétique est redondant — autrement dit, on peut faire la même chose en ne faisant varier que la troisième position du codon. On est à deux doigts de parler de saturation, pour les plus biologistes d’entre vous, puisque les pseudogènes seraient mutés de manière indifférenciée sur les trois bases de chaque codon. Mais surtout, on essaie de ne pas interrompre une séquence codante en plein milieu, en faisant apparaître un codon STOP. Trouver un codon STOP dans une séquence supposée codante est une bonne indication qu’on a probablement a faire à un pseudogène.

Sans parler des autres types de mutation, les fameux indels — insertion/délétions — qui font changer la taille de la séquence en introduisant ou supprimant des bases. Dans une séquence codante, qui possède un “rythme ternaire” — l’unité de base est un groupe de trois nucléotides, le codon —, un événement de mutation de ce type entraîne un décalage de cadre de lecture qui donne, au final, à peu près n’importe quoi. Dans un pseudogène, en revanche, les indels peuvent s’exprimer librement. Enfin, l’autre méthode de détecter un pseudogène est d’obtenir des séquences ambiguës, difficilement lisibles, qui indiquent qu’on a amplifié des choses différentes (le gène codant et son pseudogène, pour parler franchement).

Quel est le rapport avec le barcoding? Dans le barcoding, on utilise une séquence de COI pour identifier des espèces. Il faut donc être sûr de deux choses : que la séquence de référence est effectivement une séquence codante — plusieurs méthodes existent —, mais aussi que la séquence “mystère” est effectivement une séquence codante, et non un pseudogène. Au risque de poser un mauvais diagnostic pour l’identification! Et, dans le pire de cas, d’aboutir à des reconstructions phylogénétiques fausses, rendant la taxonomie moléculaire inexacte — le barcoding n’est jamais qu’un cas particulier de taxonomie moléculaire.

Il est donc particulièrement important, pour que les initiatives de barcoding soient couronnées de succès, de mettre en place des méthodes de détection des NUMTs. La présence de codons STOP est un des indices, mais ce n’est pas le seule signature possible pour un NUMT. On est plus ou moins capable, à l’heure actuelle, de trouver des gènes et protéines putatifs dans des séquences, une analyse poussée de NUMTs permettrait de mieux les connaître et, de la même manière, de les détecter dans les bases de données de barcodes.

(Via The Barcode of Life, et Song et coll., Many species in one: DNA barcoding overestimates the number of species when nuclear mitochondrial pseudogenes are coamplified, Proc Natl Acad Sci USA, 28 août 2008)


Billets similaires