Métabarcodage ADN et marqueur de la sous-unité I de la cytochrome c oxydase : pas une correspondance parfaite
Introduction
La disponibilité d’un séquençage ADN à haut débit (HTS) abordable a ouvert un nouveau monde de possibilités dans les enquêtes sur la biodiversité basées sur l’ADN. Cette approche est la plus avancée dans le domaine de la microbiologie, où la taxonomie moléculaire a une longue tradition, et les analyses utilisent maintenant régulièrement le HTS pour caractériser les marqueurs pour les estimations de la diversité taxonomique ainsi que fonctionnelle. Les gènes « codes-barres » amplifiés sont également de plus en plus utilisés pour identifier les plantes, les invertébrés et les vertébrés présents dans les mélanges d’ADN – obtenus soit par extraction de l’ADN total de spécimens groupés, soit à partir d’échantillons environnementaux (par exemple, sol, eau et fèces). Cette caractérisation des codes-barres d’ADN à partir de mélanges d’ADN a été appelée « métabarcodage ».
A part la nécessité de disposer de données de séquence peu coûteuses et fiables, le métabarcodage a également besoin d’un marqueur approprié. Pour le codage à barres standard de l’ADN de spécimens animaux uniques, le Consortium for the Barcode of Life (CBOL) a adopté le gène mitochondrial de la sous-unité I de la cytochrome c oxydase (COI). Ce marqueur possède les attributs requis : sa variation permet généralement une discrimination au niveau de l’espèce, il peut être amplifié par PCR à partir de la plupart des animaux et la base de données associée compte désormais des millions de séquences d’ADN vérifiées sur le plan taxonomique. Il semble être le choix évident de marqueur dans le domaine naissant du métabarcodage animal, et il a été utilisé dans de nombreuses études récentes, y compris des applications dans les enquêtes sur la biodiversité, la surveillance environnementale et les études alimentaires (exemples d’études fournis dans le matériel électronique supplémentaire).
Alors, qu’est-ce qui ne va pas avec la sous-unité I de la cytochrome c oxydase comme marqueur de métabarcodage ?
Bien que la COI puisse être amplifiée à partir d’une énorme gamme d’espèces, il a toujours été reconnu que les sites de liaison des amorces dans ce gène codant pour une protéine ne sont pas hautement conservés. Les mutations à de nombreuses positions nucléotidiques ne modifient pas la protéine codée (généralement la dernière base du code triplet) et sont moins contraintes par la sélection. Par conséquent, un grand nombre d’amorces ont été conçues pour l’amplification de la COI de divers groupes d’animaux (actuellement plus de 400 amorces COI dans la base de données d’amorces CBOL). Des amorces « universelles » amplifiant la région du code-barres de la COI ont également été décrites, mais une analyse in silico montre qu’elles sont peu conservées ( ; figure 1). Des études empiriques indiquent que cette variabilité des amorces entraîne une amplification peu fiable lorsque les échantillons comprennent des espèces couvrant une large gamme taxonomique (par exemple, 44% de réussite sur plus de 2000 amplifications initiales ; Moorea Biocode Project). Dans le cas d’un code-barres ADN standard, il est possible d’optimiser les protocoles pour obtenir des données à partir de spécimens dont l’amplification initiale échoue. Cependant, lors du métabarcodage d’un mélange d’ADN, l’échec de l’amplification de certains taxons est masqué par la récupération d’amplicons d’autres taxons présents dans l’échantillon. Cela rend l’optimisation du protocole difficile. En outre, la récupération de certaines séquences attendues donne une fausse confiance dans le jeu de données résultant.
De nombreuses études d’écologie microbienne ont montré que, bien que les amorces mal assorties soient capables d’amplifier l’ADN de divers génomes bactériens, les cibles sans homologie parfaite s’amplifient avec une efficacité moindre et souvent imprévisible . Dans certains cas, une seule erreur d’appariement de base peut entraîner une sous-estimation de l’abondance d’un facteur 1000, rendant certaines bactéries « presque indétectables » dans l’analyse HTS de communautés fictives. L’utilisation de cocktails avec plusieurs variantes d’amorces peut augmenter les taux de réussite de l’amplification dans le codage à barres de l’ADN standard, mais d’après des évaluations récentes, ces cocktails ne sont pas une panacée pour le métabarcodage de la COI. Cela est probablement dû au fait que les sites labiles dans les régions de liaison des amorces COI divergent rapidement (figure 2). Par conséquent, le nombre d’amorces nécessaires pour tenir compte de la variabilité, même entre des taxons relativement proches, devient rapidement intenable. En outre, toutes ces séquences d’amorces ne seront pas efficaces pour amplifier l’ADN (discussion plus approfondie dans le matériel supplémentaire électronique). Un autre problème pour la conception des amorces du métabarcode COI est que la variation sur les sites moins contraints devient saturée entre des taxons très éloignés en raison de l’homoplasie (figure 2). Ce plateau dans la divergence des séquences entrave le développement d’amorces spécifiques à un groupe (par exemple, ciblant tous les insectes mais excluant les autres arthropodes terrestres).
Malgré ces limitations, plusieurs ensembles d’amorces COI ont été développés spécifiquement pour le métabarcodage. Par exemple, un certain nombre d’amorces COI » mini-barcoding » pour l’amplification de courts fragments récupérables à partir d’un modèle dégradé ont été publiées, même si les sites d’amorces varient selon les espèces cibles et que d’autres marqueurs semblent plus appropriés (figure 1). Des cocktails d’amorces de métabarcodage ont également été conçus pour amplifier la région de code-barres COI complète chez les invertébrés marins, malgré le fait que moins de 50 % des nucléotides des sites de liaison soient conservés dans les taxons ciblés.
Est-il préférable d’accepter les biais et de s’en tenir aux marqueurs de code-barres standard pour le métabarcodage ?
On pourrait faire valoir que les biais introduits par la liaison différentielle des amorces COI sont gérables s’ils sont cohérents entre les échantillons comparés et que le séquençage est effectué à une profondeur suffisante. En outre, cela pourrait être considéré comme une petite concession étant donné que la COI permet d’accéder à un grand nombre de séquences de code-barres liées à des spécimens vérifiés sur le plan taxonomique. Cependant, nous pensons que même les meilleures études de métabarcodage COI soulignent les limites de ce marqueur et indiquent que des alternatives doivent être sérieusement envisagées. Par exemple, les travaux de Yu et al. sur le séquençage en vrac de la COI à partir d’échantillons d’arthropodes pour l’analyse de la biodiversité ont documenté des taux d’abandon compris entre 24 % (seuil de plus de 2 lectures) et 36 % (seuil de plus de 5 lectures) par rapport aux entrées connues, même en utilisant des amorces entièrement dégénérées. Bien que les données résultantes produisent des estimations de la α- et β-diversité utiles pour les décisions relatives à la conservation, l’acceptation de ce niveau de biais limitera certainement les applications futures. La variation de l’occurrence des taxons sujets à l’abandon entre les groupes d’échantillons peut potentiellement biaiser l’importance relative de tous les taxons, ce qui rend difficile l’évaluation des différences biologiquement pertinentes entre les groupes.
Lorsque les évaluations méthodologiques préliminaires ne sont pas complètes et que les limites de l’ensemble de données ne sont pas prises en compte, l’interprétation des données est semée d’embûches. Dans une étude récente évaluant les marqueurs de métabarcodage des insectes , un ensemble d’amorces de métabarcodage COI « arthropodes génériques » largement utilisées n’a réussi à récupérer qu’entre 43 et 64% des espèces dans un mélange connu d’ADN d’arthropodes. L’évaluation rétrospective d’études écologiques reposant sur des données produites par ces amorces est difficile ; cependant, dans certains cas, les préférences en matière d’amorces plutôt que la biologie peuvent être à l’origine des conclusions.
L’augmentation de la profondeur de séquençage pour permettre la détection des marqueurs mal amplifiés ne sera probablement pas une solution robuste, car il y aura une augmentation concomitante du nombre de séquences provenant d’une contamination mineure et de molécules chimériques . Les méthodes utilisées pour filtrer ces erreurs de fond de faible niveau et identifier les séquences rares légitimes sont imparfaites. En outre, l’incorporation des erreurs de bas niveau dans les ensembles de données de métabarcodage peut avoir une influence disproportionnée parce que les résumés sont généralement basés sur l’incidence (c’est-à-dire la présence/absence) et ne comprennent pas d’informations sur l’abondance des séquences.
Malgré la grande base de données de référence COI qui est un argument de vente fort pour ce marqueur, de nombreuses études de métabarcodage COI relient les séquences récupérées aux unités taxonomiques opérationnelles (OTU) plutôt que de fournir des informations taxonomiques à haute résolution . Cela reflète en partie l’adoption d’approches bioinformatiques par les écologistes microbiens, mais aussi le manque de couverture de la base de données mondiale COI. La grande collection de séquences de référence COI peut contribuer à améliorer les attributions taxonomiques générales (c’est-à-dire à la famille ou au genre), mais dans de nombreuses études, des bases de données développées localement seront nécessaires si l’intention est de s’éloigner des indicateurs OTU et de revenir à la biologie . Cela ouvre la possibilité de séquencer des marqueurs de code-barres non standard mieux adaptés au métabarcodage lorsque cela est jugé approprié. La flexibilité dans le choix du marqueur utilisé pour le métabarcodage est une nécessité pour certains groupes d’animaux, tels que les nématodes, pour lesquels il est reconnu que la COI ne convient pas en raison de la diversité des séquences. Il existe également des problèmes similaires pour les codes-barres « officiels » des plantes, ce qui fait que de nombreuses études de métabarcodage des plantes choisissent des marqueurs « non officiels ».
Quelle est la voie à suivre ?
La précision du métabarcodage dépend fortement du choix du marqueur, mais il n’existe malheureusement pas de marqueur de métabarcodage parfait. Au lieu de cela, le meilleur choix de marqueur va être spécifique à l’étude. Pour concevoir des amorces hautement conservées, le modèle de variation en mosaïque observé dans les gènes de l’ARN ribosomal (ARNr) est souvent très utile (figure 1). Ces gènes ont déjà été adoptés par de nombreux membres de la communauté du métabarcodage animal et sont des marqueurs standard pour l’identification des champignons et des bactéries/archées. Pour les animaux, les gènes d’ARNr nucléaires offrent une couverture taxonomique très large mais une résolution taxonomique plus faible, tandis que les gènes d’ARNr mitochondriaux offrent une résolution taxonomique similaire à celle de la COI mais permettent généralement la conception d’amorces plus conservées (figure 1). Les difficultés perçues dans l’attribution des séquences de gènes d’ARNr aux taxons, causées par l’incapacité d’aligner les séquences avec précision, peuvent être largement surmontées en utilisant des méthodes sans alignement. Cependant, la variation de longueur dans les régions codant l’ARNr peut potentiellement causer des différences spécifiques aux taxons dans la récupération des séquences. Il est également vrai que l’alignement plus facile des gènes protéiques permet de corriger certaines erreurs de séquençage . Le point important est qu’une gamme d’amorces potentielles, et la résolution taxonomique des amplicons résultants, doivent être soigneusement prises en compte dans toute application de métabarcodage. Les amorces peuvent être facilement évaluées in silico en utilisant les programmes disponibles (par exemple, ecoPCR ) ; les tests empiriques fournissent une assurance supplémentaire que les amorces sont adaptées à une application particulière .
Nous envisageons que le métabarcodage finira par séquencer systématiquement plusieurs marqueurs de code-barres à partir de chaque échantillon . Les marqueurs visant différents niveaux taxonomiques peuvent surmonter le compromis entre la largeur taxonomique et la résolution. Les marqueurs fournissant des informations taxonomiques comparables peuvent servir de contrôles internes ; ils seraient particulièrement utiles pour la validation dans les cas où les incompatibilités entre les modèles d’amorces constituent un problème potentiel. Des approches de métabarcodage reposant sur le séquençage en masse de l’ADNmt enrichi sans amplification ont été illustrées dans une étude de validation de concept. Ce travail pourrait bien indiquer un avenir où les amorces PCR seront moins pertinentes ; cependant, les méthodes décrites jusqu’à présent nécessitent des molécules d’ADNmt intactes et ne seraient pas applicables lorsque l’ADN est fortement fragmenté. Des techniques alternatives d’enrichissement des marqueurs qui fonctionnent avec une gamme de modèles, telles que les approches basées sur la capture de sondes, pourraient être mieux adaptées aux marqueurs non-COI qui contiennent des régions cibles conservées.
Nous reconnaissons qu’il existe des situations où la COI pourrait actuellement être l’option préférée comme marqueur de métabarcodage (par exemple, lorsque la portée taxonomique est limitée et l’identification au niveau de l’espèce critique, ou lorsque la base de données de référence existante est essentielle). En effet, si les techniques futures permettent une récupération moins biaisée de la COI à partir de mélanges d’ADN, la COI serait bien adaptée au métabarcodage. Même si des marqueurs alternatifs sont adoptés, l’infrastructure de codage à barres de l’ADN développée par le CBOL sera vitale pour ce domaine. Les spécimens de référence vérifiés du point de vue taxonomique, et les extraits d’ADN associés, constituent une ressource inestimable qui pourrait faciliter la caractérisation à haut débit de marqueurs supplémentaires. La base de données CBOL avec les séquences de référence liées aux spécimens de référence (y compris les séquences de codes-barres « non officiels »), et les efforts pour relier les métadonnées taxonomiques de CBOL aux séquences accessibles au public dans GenBank, sont également bénéfiques. Nous sommes enthousiasmés par la perspective que le métabarcodage fournisse une méthode plus rapide et moins coûteuse pour mesurer la biodiversité animale, mais la sélection des marqueurs doit être plus minutieuse et les choix de marqueurs disponibles doivent être élargis pour une meilleure fiabilité.
Accessibilité des données
Les séquences d’ADN extraites de GenBank et utilisées pour la construction des figures 1 et 2 sont déposées comme données supplémentaires électroniques.
Remerciements
Nous remercions nos collègues pour les discussions sur ce sujet. Nous remercions également les trois réviseurs pour leurs commentaires critiques qui ont permis d’améliorer le manuscrit.
Déclaration de financement
B.D. et S.J. ont reçu des subventions de fonctionnement de l’Australian Antarctic Science Program (AAS Projects 4014 et 4313).
Footnotes
- 1
Taberlet P, Coissac E, Hajibabaei M& Rieseberg LH. 2012Environmental DNA. Mol. Ecol. 21, 1789-1793. (doi:10.1111/j.1365-294X.2012.05542.x). Crossref, PubMed, ISI, Google Scholar
- 2
Yu DW, Ji Y, Emerson BC, Wang X, Ye C, Yang C& Ding Z. 2012Biodiversity soup : metabarcoding of arthropods for rapid biodiversity assessment and biomonitoring. Méthodes Ecol. Evol. 3, 613-623. (doi:10.1111/j.2041-210X.2012.00198.x). Crossref, ISI, Google Scholar
- 3
Ficetola GF, Coissac E, Zundel S, Riaz T, Shehzad W, Bessiere J, Taberlet P& Pompanon F. 2010Une approche in silico pour l’évaluation des codes-barres ADN. BMC Genomics 11, e434. (doi:10.1186/1471-2164-11-434). Crossref, PubMed, ISI, Google Scholar
- 4
Geller J, Meyer C, Parker M& Hawk H. 2013Redesign des amorces PCR pour la sous-unité I de la cytochrome c oxydase mitochondriale pour les invertébrés marins et application dans les enquêtes biotiques all-taxa. Mol. Ecol. Resour. 13, 851-861. (doi:10.1111/1755-0998.12138). Crossref, PubMed, ISI, Google Scholar
- 5
Klindworth A, Pruesse E, Schweer T, Peplies J, Quast C, Horn M& Glockner FO. 2013Evaluation des amorces PCR générales du gène de l’ARN ribosomal 16S pour les études de diversité classiques et basées sur le séquençage de nouvelle génération. Nucleic Acids Res. 41, e1. (doi:10.1093/nar/gks808). Crossref, PubMed, ISI, Google Scholar
- 6
Bru D, Martin-Laurent F& Philippot L. 2008Quantification de l’effet néfaste d’un seul mismatch de la matrice d’amorce par PCR en temps réel en utilisant le gène 16S rRNA comme exemple. Appl. Environ. Microbiol. 74, 1660-1663. (doi:10.1128/aem.02403-07). Crossref, PubMed, ISI, Google Scholar
- 7
Schloss PD, Gevers D& Westcott SL. 2011Réduction des effets de l’amplification par PCR et des artefacts de séquençage sur les études basées sur l’ARNr 16S. PLoS ONE 6, e27310. (doi:10.1371/journal.pone.0027310). Crossref, PubMed, ISI, Google Scholar
- 8
Clarke LJ, Soubrier J, Weyrich LS& Cooper A. In press.Environmental metabarcodes for insects : in silico PCR reveals potential for taxonomic bias. Mol. Ecol. Resour. (doi:10.1111/1755-0998.12265). ISI, Google Scholar
- 9
Ji Y, et al.2013Suivi fiable, vérifiable et efficace de la biodiversité via le métabarcodage. Ecol. Lett. 16, 1245-1257. (doi:10.1111/ele.12162). Crossref, PubMed, ISI, Google Scholar
- 10
De Barba M, Miquel C, Boyer F, Mercier C, Rioux D, Coissac E& Taberlet P. 2014Multiplexage du métabarcodage de l’ADN et validation de la précision des données pour l’évaluation du régime alimentaire : application au régime omnivore. Mol. Ecol. Resour. 14, 306-323. (doi:10.1111/1755-0998.12188). Crossref, PubMed, ISI, Google Scholar
- 11
Leray M, Yang JY, Meyer CP, Mills SC, Agudelo N, Ranwez V, Boehm JT& Machida RJ. 2013Un nouvel ensemble d’amorces polyvalentes ciblant un court fragment de la région COI mitochondriale pour le métabarcodage de la diversité des métazoaires : application pour la caractérisation du contenu des intestins des poissons des récifs coralliens. Front. Zool. 10, e34. (doi:10.1186/1742-9994-10-34). Crossref, PubMed, ISI, Google Scholar
- 12
Little DP. 2011L’identification des séquences de code-barres d’ADN intégrant la hiérarchie taxonomique et la variabilité au sein du taxon. PLoS ONE 6, e20552. (doi:10.1371/journal.pone.0020552). Crossref, PubMed, ISI, Google Scholar
- 13
Deagle BE, Kirkwood R& Jarman SN. 2009Analyse du régime alimentaire des otaries à fourrure australiennes par pyroséquençage de l’ADN des proies dans les fèces. Mol. Ecol. 18, 2022-2038. (doi:10.1111/j.1365-294X.2009.04158.x). Crossref, PubMed, ISI, Google Scholar
- 14
Zhou X, et al.2013Ultra-deep sequencing enables high-fidelity recovery of biodiversity for bulk arthropod samples without PCR amplification. GigaScience 2, 4. (doi:10.1186/2047-217X-2-4). Crossref, PubMed, ISI, Google Scholar
- 15
Shokralla S, Gibson JF, Nikbakht H, Janzen DH, Hallwachs W& Hajibabaei M. 2014Next-generation DNA barcoding : utilisation du séquençage de nouvelle génération pour améliorer et accélérer la capture des codes-barres ADN à partir de spécimens uniques. Mol. Ecol. Resour. 14, 892-901. (doi:10.1111/1755-0998.12236). PubMed, ISI, Google Scholar