DNA-Metabarcoding und der Cytochrom-c-Oxidase-Untereinheit-I-Marker: keine perfekte Übereinstimmung
Einführung
Die Verfügbarkeit erschwinglicher Hochdurchsatz-DNA-Sequenzierung (HTS) hat eine neue Welt der Möglichkeiten für DNA-basierte Erhebungen der biologischen Vielfalt eröffnet. Am weitesten fortgeschritten ist dieser Ansatz auf dem Gebiet der Mikrobiologie, wo die molekulare Taxonomie eine lange Tradition hat, und bei Analysen werden nun regelmäßig HTS zur Charakterisierung von Markern für Schätzungen der taxonomischen und funktionellen Vielfalt eingesetzt. Amplifizierte „Barcode“-Gene werden auch zunehmend zur Identifizierung von Pflanzen, Wirbellosen und Wirbeltieren in DNA-Mischungen verwendet, die entweder durch Extraktion der Gesamt-DNA aus gepoolten Proben oder aus Umweltproben (z. B. Boden, Wasser und Fäkalien) gewonnen werden. Diese Charakterisierung von DNS-Barcodes aus DNS-Gemischen wird als „Metabarcoding“ bezeichnet.
Neben dem Bedarf an preiswerten und zuverlässigen Sequenzdaten benötigt das Metabarcoding auch einen geeigneten Marker. Für das Standard-DNA-Barcoding von Einzeltieren hat das Consortium for the Barcode of Life (CBOL) das mitochondriale Cytochrom c Oxidase Untereinheit I (COI) Gen gewählt. Dieser Marker verfügt über die erforderlichen Eigenschaften: Seine Variation ermöglicht in der Regel eine Unterscheidung auf Artniveau, er kann von den meisten Tieren mittels PCR amplifiziert werden, und die zugehörige Datenbank umfasst inzwischen Millionen von taxonomisch verifizierten DNA-Sequenzen. Er scheint die offensichtliche Wahl eines Markers auf dem neu entstehenden Gebiet der Metabarcodierung von Tieren zu sein, und er wurde in vielen neueren Studien verwendet, einschließlich Anwendungen in Erhebungen zur biologischen Vielfalt, Umweltüberwachung und Ernährungsstudien (Beispielstudien im elektronischen Zusatzmaterial).
Was spricht also gegen die Cytochrom-c-Oxidase-Untereinheit I als Metabarcoding-Marker?
Während COI aus einer enormen Bandbreite von Arten amplifiziert werden kann, wurde stets anerkannt, dass die Primer-Bindungsstellen innerhalb dieses proteincodierenden Gens nicht hoch konserviert sind. Mutationen an vielen Nukleotidpositionen verändern das kodierte Protein nicht (in der Regel die letzte Base des Triplett-Codes) und sind weniger durch Selektion eingeschränkt. Dementsprechend wurde eine große Anzahl von Primern für die Amplifikation von COI aus verschiedenen Tiergruppen entwickelt (derzeit mehr als 400 COI-Primer in der CBOL-Primer-Datenbank). Es wurden auch „universelle“ Primer beschrieben, die die COI-Barcode-Region amplifizieren, aber In-silico-Analysen zeigen, dass sie nur wenig konserviert sind (; Abbildung 1). Empirische Studien deuten darauf hin, dass diese Primer-Variabilität zu einer unzuverlässigen Amplifikation führt, wenn die Proben Arten umfassen, die ein breites taxonomisches Spektrum abdecken (z. B. 44 % Erfolg bei mehr als 2000 anfänglichen Amplifikationen; Moorea Biocode Project). Beim Standard-DNA-Barcoding ist es möglich, die Protokolle zu optimieren, um Daten von Proben zu erhalten, die zunächst nicht amplifiziert werden. Beim Metabarcoding einer DNA-Mischung wird jedoch die fehlgeschlagene Amplifikation bestimmter Taxa durch die Wiederherstellung von Amplikons anderer in der Probe vorhandener Taxa überdeckt. Dies macht die Optimierung des Protokolls schwierig. Außerdem führt die Wiederherstellung einiger erwarteter Sequenzen zu einem falschen Vertrauen in den resultierenden Datensatz.
Viele Studien zur mikrobiellen Ökologie haben gezeigt, dass nicht übereinstimmende Primer zwar in der Lage sind, DNA aus verschiedenen bakteriellen Genomen zu amplifizieren, Ziele ohne perfekte Homologie jedoch mit geringerer und oft unvorhersehbarer Effizienz amplifizieren. In einigen Fällen kann sogar eine einzige Basenfehlpaarung zu einer 1000-fachen Unterschätzung der Abundanz führen, so dass einige Bakterien in HTS-Analysen von Scheingemeinschaften „fast nicht nachweisbar“ sind. Die Verwendung von Cocktails mit mehreren Primer-Varianten kann die Erfolgsraten bei der Amplifikation im Rahmen des Standard-DNA-Barcoding erhöhen, ist aber nach jüngsten Auswertungen kein Allheilmittel für das COI-Metabarcoding. Dies ist wahrscheinlich darauf zurückzuführen, dass labile Stellen in COI-Primer-Bindungsregionen schnell divergieren (Abbildung 2). Daher wird die Anzahl der Primer, die erforderlich ist, um die Variabilität selbst zwischen relativ eng verwandten Taxa zu berücksichtigen, schnell unhaltbar. Darüber hinaus sind nicht alle dieser Primer-Sequenzen bei der Amplifikation von DNA wirksam (weitere Diskussion im elektronischen Zusatzmaterial). Ein weiteres Problem bei der Entwicklung von COI-Metabarcode-Primern besteht darin, dass die Variation an weniger eingeschränkten Stellen zwischen weit verwandten Taxa infolge von Homoplasie gesättigt wird (Abbildung 2). Dieses Plateau in der Sequenzdivergenz behindert die Entwicklung gruppenspezifischer Primer (z. B. für alle Insekten, aber ohne andere terrestrische Arthropoden).
Ungeachtet dieser Einschränkungen wurden mehrere COI-Primersätze speziell für das Metabarcoding entwickelt. So wurde beispielsweise eine Reihe von COI-„Mini-Barcoding“-Primern für die Amplifikation kurzer Fragmente, die aus abgebauten Vorlagen gewonnen werden können, veröffentlicht, obwohl die Primerstellen bei den Zielarten variieren und alternative Marker besser geeignet zu sein scheinen (Abbildung 1). Metabarcoding-Primer-Cocktails wurden auch entwickelt, um die gesamte COI-Barcoding-Region bei wirbellosen Meerestieren zu amplifizieren, obwohl weniger als 50 % der Nukleotide an den Bindungsstellen in den Zieltaxa konserviert sind.
Ist es am besten, Verzerrungen in Kauf zu nehmen und bei Standard-Barcoding-Markern für das Metabarcoding zu bleiben?
Man könnte argumentieren, dass Verzerrungen, die durch die unterschiedliche COI-Primer-Bindung entstehen, beherrschbar sind, wenn sie in den zu vergleichenden Proben konsistent sind und die Sequenzierung mit ausreichender Tiefe durchgeführt wird. Darüber hinaus könnte dies als kleines Zugeständnis betrachtet werden, wenn man bedenkt, dass COI den Zugang zu einer großen Anzahl von Barcode-Sequenzen ermöglicht, die mit taxonomisch verifizierten Exemplaren verbunden sind. Wir sind jedoch der Meinung, dass selbst die besten COI-Metabarcoding-Studien die Grenzen dieses Markers aufzeigen und darauf hinweisen, dass Alternativen ernsthaft in Betracht gezogen werden sollten. So dokumentierten Yu et al. in ihrer Arbeit über die Massensequenzierung von COI aus Arthropodenproben für Biodiversitätsanalysen Dropout-Raten zwischen 24 % (Schwellenwert von mehr als 2 Lesungen) und 36 % (Schwellenwert von mehr als 5 Lesungen) im Vergleich zu bekannten Inputs, selbst wenn vollständig degenerierte Primer verwendet wurden. Während die daraus resultierenden Daten Schätzungen der α- und β-Diversität liefern, die für naturschutzrelevante Entscheidungen nützlich sind, wird die Akzeptanz dieses Ausmaßes an Verzerrung künftige Anwendungen sicherlich einschränken. Das unterschiedliche Vorkommen von Taxa, die für Ausfälle anfällig sind, in verschiedenen Probengruppen kann die relative Bedeutung aller Taxa verfälschen, was es schwierig macht, biologisch relevante Unterschiede zwischen den Gruppen zu bewerten.
Wenn die vorläufigen methodischen Bewertungen nicht umfassend sind und die Einschränkungen des Datensatzes nicht berücksichtigt werden, ist die Interpretation der Daten mit Schwierigkeiten behaftet. In einer kürzlich durchgeführten Studie zur Bewertung von Metabarcoding-Markern für Insekten konnten mit einem Satz weit verbreiteter COI-Metabarcoding-Primer für „generische Arthropoden“ nur zwischen 43 und 64 % der Arten in einer bekannten Mischung von Arthropoden-DNA ermittelt werden. Eine retrospektive Bewertung ökologischer Studien, die sich auf Daten stützen, die mit diesen Primern erzeugt wurden, ist schwierig; in einigen Fällen könnten jedoch eher Primerpräferenzen als biologische Faktoren für die Schlussfolgerungen ausschlaggebend sein.
Eine Erhöhung der Sequenzierungstiefe, um die Erkennung schlecht amplifizierter Marker zu ermöglichen, ist wahrscheinlich keine robuste Lösung, da gleichzeitig die Zahl der Sequenzen zunimmt, die von geringfügigen Kontaminationen und chimären Molekülen stammen. Die Methoden zum Herausfiltern dieser geringfügigen Hintergrundfehler und zur Identifizierung legitimer seltener Sequenzen sind unvollkommen. Darüber hinaus kann die Einbeziehung geringfügiger Fehler in Metabarcoding-Datensätze einen unverhältnismäßig großen Einfluss haben, da die Zusammenfassungen in der Regel auf der Inzidenz basieren (d. h. Vorhandensein/Abwesenheit) und keine Informationen über die Sequenzhäufigkeit enthalten.
Obwohl die große COI-Referenzdatenbank ein starkes Verkaufsargument für diesen Marker ist, verknüpfen viele COI-Metabarcoding-Studien die wiedergefundenen Sequenzen mit operativen taxonomischen Einheiten (OTU), anstatt hochauflösende taxonomische Informationen zu liefern. Dies spiegelt zum Teil die Übernahme bioinformatischer Ansätze von mikrobiellen Ökologen wider, aber auch die mangelnde Abdeckung durch die globale COI-Datenbank. Die große Sammlung von COI-Referenzsequenzen kann dazu beitragen, breit angelegte taxonomische Zuordnungen (z. B. zu Familien oder Gattungen) zu verbessern, aber in vielen Studien werden lokal entwickelte Datenbanken erforderlich sein, wenn man von OTU-Indikatoren wegkommen und zur Biologie zurückkehren will. Dies eröffnet die Möglichkeit, nicht standardisierte Barcode-Marker zu sequenzieren, die besser für das Metabarcoding geeignet sind, wenn dies als angemessen erachtet wird. Flexibilität bei der Wahl des Markers für das Metabarcoding ist für einige Tiergruppen, wie z. B. Nematoden, eine Notwendigkeit, da COI aufgrund der Sequenzvielfalt als ungeeignet gilt. Ähnliche Probleme gibt es auch bei „offiziellen“ Pflanzen-Barcodes, was dazu führt, dass in vielen Metabarcoding-Studien für Pflanzen „inoffizielle“ Marker gewählt werden.
Wie geht es weiter?
Die Genauigkeit des Metabarcoding hängt in hohem Maße von der Wahl des Markers ab, aber leider gibt es keinen perfekten Metabarcoding-Marker. Stattdessen wird die Wahl des besten Markers studienspezifisch sein. Für den Entwurf hochkonservierter Primer ist das Mosaikmuster der Variation in ribosomalen RNA-Genen (rRNA) oft sehr nützlich (Abbildung 1). Diese Gene wurden bereits von vielen in der Metabarcoding-Community für Tiere übernommen und sind Standardmarker für die Identifizierung von Pilzen und Bakterien/Archaeen. Bei Tieren bieten nukleare rRNA-Gene eine sehr breite taxonomische Abdeckung, aber eine geringere taxonomische Auflösung, während mitochondriale rRNA-Gene eine ähnliche taxonomische Auflösung wie COI bieten, aber in der Regel den Entwurf von konservierteren Primern ermöglichen (Abbildung 1). Die Schwierigkeiten bei der Zuordnung von rRNA-Gen-Sequenzen zu Taxa, die durch die Unfähigkeit, Sequenzen genau auszurichten, verursacht werden, können weitgehend durch Methoden ohne Ausrichtung überwunden werden. Längenvariationen in rRNA-kodierenden Regionen können jedoch potenziell taxonspezifische Unterschiede bei der Sequenzgewinnung verursachen. Es stimmt auch, dass eine einfachere Ausrichtung von Proteingenen die Korrektur einiger Sequenzierungsfehler ermöglicht. Wichtig ist, dass eine Reihe möglicher Primer und die taxonomische Auflösung der resultierenden Amplikons bei jeder Metabarcoding-Anwendung sorgfältig geprüft werden sollten. Die Primer können mit Hilfe verfügbarer Programme (z. B. ecoPCR ) leicht in silico evaluiert werden; empirische Tests bieten weitere Sicherheit, dass die Primer für eine bestimmte Anwendung geeignet sind.
Wir gehen davon aus, dass beim Metabarcoding schließlich routinemäßig mehrere Barcode-Marker von jeder Probe sequenziert werden. Marker, die auf unterschiedliche taxonomische Ebenen abzielen, können den Zielkonflikt zwischen taxonomischer Breite und Auflösung überwinden. Marker, die vergleichbare taxonomische Informationen liefern, können als interne Kontrollen dienen; diese wären besonders nützlich für die Validierung in Fällen, in denen Primer-Template-Mismatches ein potenzielles Problem darstellen. Metabarcoding-Ansätze, die auf der Massensequenzierung angereicherter mtDNA ohne Amplifikation beruhen, wurden in einer Proof-of-Concept-Studie vorgestellt. Diese Arbeit könnte durchaus auf eine Zukunft hindeuten, in der PCR-Primer weniger relevant sind; allerdings erfordern die bisher beschriebenen Methoden intakte mtDNA-Moleküle und wären nicht anwendbar, wenn die DNA stark fragmentiert ist. Alternative Markeranreicherungstechniken, die mit einer Reihe von Vorlagen arbeiten, wie z. B. auf Sondenerfassung basierende Ansätze, könnten für Nicht-COI-Marker, die konservierte Zielregionen enthalten, besser geeignet sein.
Wir erkennen an, dass es Situationen gibt, in denen COI derzeit die bevorzugte Option als Metabarcoding-Marker sein könnte (z. B. wenn der taxonomische Umfang begrenzt und die Identifizierung auf Artniveau kritisch ist oder wenn die bestehende Referenzdatenbank wesentlich ist). Wenn künftige Techniken eine weniger voreingenommene Gewinnung von COI aus DNA-Mischungen ermöglichen, wäre COI in der Tat gut für das Metabarcoding geeignet. Selbst wenn alternative Marker verwendet werden, wird die von CBOL entwickelte DNA-Barcoding-Infrastruktur für diesen Bereich von entscheidender Bedeutung sein. Taxonomisch verifizierte Belegexemplare und zugehörige DNA-Extrakte sind eine unschätzbare Ressource, die die Charakterisierung zusätzlicher Marker im Hochdurchsatzverfahren erleichtern könnte. Die CBOL-Datenbank mit Referenzsequenzen, die mit Belegexemplaren verknüpft sind (einschließlich „inoffizieller“ Barcode-Sequenzen), und die Bemühungen, die taxonomischen Metadaten von CBOL mit öffentlich zugänglichen Sequenzen in GenBank zu verknüpfen, sind ebenfalls von großem Nutzen. Wir sind begeistert von der Aussicht, dass das Metabarcoding eine schnellere und kostengünstigere Methode zur Messung der biologischen Vielfalt von Tieren bietet, aber die Auswahl der Marker muss noch genauer geprüft werden und die Auswahl an verfügbaren Markern muss erweitert werden, um die Zuverlässigkeit zu verbessern.
Zugänglichkeit der Daten
Die aus GenBank extrahierten und für die Erstellung der Abbildungen 1 und 2 verwendeten DNA-Sequenzen sind als elektronische Zusatzdaten hinterlegt.
Danksagungen
Wir danken unseren Kollegen für die Diskussionen zu diesem Thema. Wir danken auch den drei Gutachtern für ihre kritischen Kommentare, die zur Verbesserung des Manuskripts beigetragen haben.
Finanzierungserklärung
B.D. und S.J. erhielten Betriebszuschüsse vom Australian Antarctic Science Program (AAS Projects 4014 und 4313).
Fußnoten
- 1
Taberlet P, Coissac E, Hajibabaei M& Rieseberg LH. 2012Environmental DNA. Mol. Ecol. 21, 1789-1793. (doi:10.1111/j.1365-294X.2012.05542.x). Crossref, PubMed, ISI, Google Scholar
- 2
Yu DW, Ji Y, Emerson BC, Wang X, Ye C, Yang C& Ding Z. 2012Biodiversity soup: metabarcoding of arthropods for rapid biodiversity assessment and biomonitoring. Methods Ecol. Evol. 3, 613-623. (doi:10.1111/j.2041-210X.2012.00198.x). Crossref, ISI, Google Scholar
- 3
Ficetola GF, Coissac E, Zundel S, Riaz T, Shehzad W, Bessiere J, Taberlet P& Pompanon F. 2010An in silico approach for the evaluation of DNA barcodes. BMC Genomics 11, e434. (doi:10.1186/1471-2164-11-434). Crossref, PubMed, ISI, Google Scholar
- 4
Geller J, Meyer C, Parker M& Hawk H. 2013Redesign of PCR primers for mitochondrial cytochrome c oxidase subunit I for marine invertebrates and application in all-taxa biotic surveys. Mol. Ecol. Resour. 13, 851-861. (doi:10.1111/1755-0998.12138). Crossref, PubMed, ISI, Google Scholar
- 5
Klindworth A, Pruesse E, Schweer T, Peplies J, Quast C, Horn M& Glockner FO. 2013Evaluation of general 16S ribosomal RNA gene PCR primers for classical and next-generation sequencing-based diversity studies. Nucleic Acids Res. 41, e1. (doi:10.1093/nar/gks808). Crossref, PubMed, ISI, Google Scholar
- 6
Bru D, Martin-Laurent F& Philippot L. 2008Quantification of the detrimental effect of a single primer-template mismatch by real-time PCR using the 16S rRNA gene as an example. Appl. Environ. Microbiol. 74, 1660-1663. (doi:10.1128/aem.02403-07). Crossref, PubMed, ISI, Google Scholar
- 7
Schloss PD, Gevers D& Westcott SL. 2011Reducing the effects of PCR amplification and sequencing artifacts on 16S rRNA-based studies. PLoS ONE 6, e27310. (doi:10.1371/journal.pone.0027310). Crossref, PubMed, ISI, Google Scholar
- 8
Clarke LJ, Soubrier J, Weyrich LS& Cooper A. In press.Environmental metabarcodes for insects: in silico PCR reveals potential for taxonomic bias. Mol. Ecol. Resour. (doi:10.1111/1755-0998.12265). ISI, Google Scholar
- 9
Ji Y, et al.2013Reliable, verifiable and efficient monitoring of biodiversity via metabarcoding. Ecol. Lett. 16, 1245-1257. (doi:10.1111/ele.12162). Crossref, PubMed, ISI, Google Scholar
- 10
De Barba M, Miquel C, Boyer F, Mercier C, Rioux D, Coissac E& Taberlet P. 2014DNA metabarcoding multiplexing and validation of data accuracy for diet assessment: application to omnivorous diet. Mol. Ecol. Resour. 14, 306-323. (doi:10.1111/1755-0998.12188). Crossref, PubMed, ISI, Google Scholar
- 11
Leray M, Yang JY, Meyer CP, Mills SC, Agudelo N, Ranwez V, Boehm JT& Machida RJ. 2013A new versatile primer set targeting a short fragment of the mitochondrial COI region for metabarcoding metazoan diversity: application for characterizing coral reef fish gut contents. Front. Zool. 10, e34. (doi:10.1186/1742-9994-10-34). Crossref, PubMed, ISI, Google Scholar
- 12
Little DP. 2011DNA barcode sequence identification incorporating taxonomic hierarchy and within taxon variability. PLoS ONE 6, e20552. (doi:10.1371/journal.pone.0020552). Crossref, PubMed, ISI, Google Scholar
- 13
Deagle BE, Kirkwood R& Jarman SN. 2009Analyse der Ernährung von australischen Pelzrobben durch Pyrosequenzierung von Beute-DNA in Fäkalien. Mol. Ecol. 18, 2022-2038. (doi:10.1111/j.1365-294X.2009.04158.x). Crossref, PubMed, ISI, Google Scholar
- 14
Zhou X, et al.2013Ultra-deep sequencing enables high-fidelity recovery of biodiversity for bulk arthropod samples without PCR amplification. GigaScience 2, 4. (doi:10.1186/2047-217X-2-4). Crossref, PubMed, ISI, Google Scholar
- 15
Shokralla S, Gibson JF, Nikbakht H, Janzen DH, Hallwachs W& Hajibabaei M. 2014Next-generation DNA barcoding: using next-generation sequencing to enhance and accelerate DNA barcode capture from single specimens. Mol. Ecol. Resour. 14, 892-901. (doi:10.1111/1755-0998.12236). PubMed, ISI, Google Scholar