DNA metabarcoding en de cytochroom c oxidase subunit I merker: geen perfecte match

aug 23, 2021
admin

Inleiding

De beschikbaarheid van betaalbare high-throughput DNA sequencing (HTS) heeft een nieuwe wereld van mogelijkheden geopend in DNA-gebaseerd onderzoek naar biodiversiteit. Deze aanpak is het verst gevorderd op het gebied van de microbiologie, waar de moleculaire taxonomie een lange traditie heeft en analyses nu regelmatig gebruik maken van HTS om merkers te karakteriseren voor schattingen van zowel taxonomische als functionele diversiteit. Geamplificeerde “barcode”-genen worden ook steeds meer gebruikt om planten, ongewervelden en gewervelden te identificeren die aanwezig zijn in DNA-mengsels – verkregen door het extraheren van totaal DNA uit gepoolde specimens of uit milieumonsters (b.v. bodem, water en fecaliën). Deze karakterisering van DNA-barcodes uit DNA-mengsels wordt “metabarcoding” genoemd.

Naast de vereiste van goedkope en betrouwbare sequentiegegevens is voor metabarcoding ook een geschikte merker nodig. Voor de standaard DNA-barcoding van afzonderlijke dierlijke specimens heeft het Consortium for the Barcode of Life (CBOL) gekozen voor het mitochondriale cytochroom c oxidase subunit I (COI)-gen. Deze merker beschikt over de vereiste eigenschappen: de variatie ervan maakt gewoonlijk onderscheid op soortniveau mogelijk, het kan van de meeste dieren met een PCR worden geamplificeerd en de bijbehorende databank telt nu miljoenen taxonomisch geverifieerde DNA-sequenties. Het lijkt de voor de hand liggende keuze van een merker in het ontluikende gebied van de dierlijke metabarcoding, en het is gebruikt in vele recente studies, met inbegrip van toepassingen in biodiversiteitsonderzoeken, milieumonitoring en voedingsstudies (voorbeeldstudies in het elektronisch aanvullend materiaal).

Dus wat is er mis met cytochroom c oxidase subunit I als een metabarcoding marker?

Hoewel COI kan worden geamplificeerd van een enorm scala van soorten, is altijd erkend dat primer bindingsplaatsen binnen dit eiwit-coderende gen niet sterk geconserveerd zijn. Mutaties op veel nucleotideposities veranderen het gecodeerde eiwit niet (meestal de laatste base van de tripletcode) en worden minder door selectie beperkt. Bijgevolg is een groot aantal primers ontworpen voor de amplificatie van COI van diverse diergroepen (momenteel meer dan 400 COI-primers in de CBOL primerdatabank). Er zijn ook “universele” primers beschreven die de COI-barcode-regio amplificeren, maar uit in silico-analyse blijkt dat deze slecht geconserveerd zijn (; figuur 1). Empirische studies wijzen uit dat deze primervariabiliteit tot onbetrouwbare amplificatie leidt wanneer de monsters soorten bevatten die een breed taxonomisch bereik bestrijken (bv. 44% succes in meer dan 2000 initiële amplificaties; Moorea Biocode Project). Bij standaard DNA-barcoding is het mogelijk de protocollen te optimaliseren om gegevens te verkrijgen van specimens die aanvankelijk niet amplificeren. Bij metabarcoding van een DNA-mengsel wordt de mislukte amplificatie van bepaalde taxa echter gemaskeerd door de recuperatie van amplicons van andere taxa die in het monster aanwezig zijn. Dit maakt optimalisatie van het protocol moeilijk. Bovendien geeft het herstel van sommige verwachte sequenties vals vertrouwen in de resulterende dataset.

Figuur 1.

Figuur 1. Variabiliteit van potentiële metabarcoding-merkers bij representatieve insecten (40 soorten uit 25 verschillende ordes): (a) mtDNA COI (5′-regio), b) mtDNA 16S (5′-regio), c) mtDNA 12S en d) nucleair 18S (5′-regio). De gegevens werden geëxtraheerd uit volledige mtDNA-datasets en vergelijkbare nucleaire 18S rRNA-gensequenties. De entropie is een maat voor de variabiliteit op een bepaalde positie en de arcering van de gemarkeerde primerplaatsen geeft de vier nucleotiden aan. De COI primers zijn toegepast in meer dan een dozijn metabarcoding studies; zie het elektronisch aanvullend materiaal voor details. (Online versie in kleur.)

Vele microbiële ecologiestudies hebben aangetoond dat, hoewel primers met een verkeerde combinatie in staat zijn DNA van diverse bacteriële genomen te amplificeren, de doelwitten zonder perfecte homologie een lagere en vaak onvoorspelbare efficiëntie hebben. In sommige gevallen kan zelfs een enkele base mismatch leiden tot een 1000-voudige onderschatting van de abundantie, waardoor sommige bacteriën “bijna niet op te sporen” zijn in HTS-analyses van schijngemeenschappen. Het gebruik van cocktails met verschillende primervarianten kan het succespercentage van de amplificatie bij standaard DNA-barcoding verhogen, maar op basis van recente evaluaties zijn deze geen wondermiddel voor COI-metabarcoding. Dit is waarschijnlijk te wijten aan het feit dat labiele sites in COI primerbindingsgebieden snel divergeren (figuur 2). Daarom wordt het aantal primers dat nodig is om rekening te houden met variabiliteit, zelfs tussen relatief nauw verwante taxa, al snel onhoudbaar. Bovendien zullen niet al deze primersequenties effectief zijn voor het amplificeren van DNA (verdere discussie in het elektronisch aanvullend materiaal). Een apart probleem voor het ontwerpen van COI metabarcode primers is dat de variatie op minder nauw omschreven plaatsen verzadigd raakt tussen ver verwante taxa als gevolg van homoplasie (figuur 2). Dit plateau in sequentie-divergentie belemmert de ontwikkeling van groepsspecifieke primers (bijv. gericht op alle insecten maar met uitzondering van andere terrestrische geleedpotigen).

Figuur 2.

Figuur 2. Variabiliteit in primerbindingsregio’s in twee mtDNA-markers (COI en 16S) op verschillende taxonomische niveaus. De vergeleken bindingsgebieden omvatten die voor primers die gewoonlijk worden gebruikt voor de amplificatie van een volledige COI-barcode-merker, die voor een interne COI-primer voor metabarcoding en analoge mtDNA 16S-primers. Mismatches onder klasse-niveau zijn voor vergelijkingen tussen sequenties van representatieve straalvinnigen (klasse Actinopterygii); voor vergelijkingen tussen klassen werden representatieve Vertebrata in aanmerking genomen (n = 155 sequenties; zie het elektronisch aanvullend materiaal voor details).

Ondanks deze beperkingen zijn er verschillende COI-primersets ontwikkeld die specifiek voor metabarcoding zijn bedoeld. Er is bijvoorbeeld een aantal COI “mini-barcoding” primers gepubliceerd voor het amplificeren van korte fragmenten die van een afgebroken template kunnen worden gerecupereerd, ook al verschillen de primer sites per doelsoort en lijken alternatieve markers geschikter (figuur 1). Metabarcoding primer cocktails zijn ook ontworpen om de volledige COI barcoding regio in mariene ongewervelden te amplificeren, ondanks het feit dat minder dan 50% van de nucleotiden op de bindingsplaatsen geconserveerd zijn in de beoogde taxa.

Is het het beste om biases te accepteren en vast te houden aan standaard barcode markers voor metabarcoding?

Men zou kunnen stellen dat biases geïntroduceerd door differentiële COI primer binding beheersbaar zijn als ze consistent zijn over monsters die worden vergeleken en sequencing wordt uitgevoerd op voldoende diepte. Bovendien zou dit als een kleine concessie kunnen worden beschouwd, gezien het feit dat COI toegang geeft tot een groot aantal barcodesequenties die gekoppeld zijn aan taxonomisch geverifieerde specimens. Wij zijn evenwel van mening dat zelfs de beste COI-metabarcodingstudies de beperkingen van deze merker aan het licht brengen en aangeven dat alternatieven ernstig moeten worden overwogen. Het werk van Yu et al. inzake bulksequencing van COI uit monsters van geleedpotigen voor biodiversiteitsanalyse, bijvoorbeeld, documenteerde uitvalpercentages tussen 24% (drempelwaarde van meer dan 2 lezingen) en 36% (drempelwaarde van meer dan 5 lezingen) vergeleken met bekende inputs, zelfs bij gebruik van volledig ontaarde primers. Hoewel de resulterende gegevens ramingen van de α- en β-diversiteit opleveren die nuttig zijn voor beslissingen in verband met natuurbehoud, zal de aanvaarding van dit niveau van vertekening toekomstige toepassingen zeker beperken. Variatie in het voorkomen van taxa die gevoelig zijn voor uitval tussen groepen monsters kan het relatieve belang van alle taxa scheeftrekken, waardoor het moeilijk wordt om biologisch relevante verschillen tussen groepen te beoordelen.

Wanneer voorafgaande methodologische evaluaties niet uitgebreid zijn en er geen rekening wordt gehouden met de beperkingen van de dataset, is de interpretatie van gegevens beladen met moeilijkheden. In een recente studie waarin metabarcodingmerkers voor insecten werden geëvalueerd, slaagde een reeks algemeen gebruikte ‘generieke geleedpotigen’ COI metabarcodingprimers er slechts in om tussen 43 en 64% van de soorten in een bekend mengsel van geleedpotigen-DNA te recupereren. Retrospectieve evaluatie van ecologische studies die afhankelijk zijn van gegevens die met deze primers zijn geproduceerd, is moeilijk; in sommige gevallen kunnen echter primervoorkeuren en niet de biologie de conclusies sturen.

Het vergroten van de sequencingdiepte om de detectie van slecht geamplificeerde markers mogelijk te maken, is waarschijnlijk geen robuuste oplossing, omdat er een gelijktijdige toename zal zijn van het aantal sequenties afkomstig van minder belangrijke verontreiniging en chimere moleculen. De methoden die worden gebruikt om deze geringe achtergrondfouten uit te filteren en legitieme zeldzame sequenties te identificeren, zijn onvolmaakt. Bovendien kan de opname van fouten op laag niveau in metabarcoding datasets een onevenredige invloed hebben omdat samenvattingen meestal op incidentie gebaseerd zijn (d.w.z. aanwezigheid/afwezigheid) en geen informatie over sequentieabundantie bevatten.

Hoewel de grote COI-referentiedatabase een sterk verkoopargument voor deze marker is, koppelen veel COI metabarcoding studies teruggevonden sequenties aan operationele taxonomische eenheden (OTU) in plaats van taxonomische informatie met een hoge resolutie te verstrekken . Dit is gedeeltelijk een weerspiegeling van de toepassing van bio-informatica door microbiële ecologen, maar ook van het gebrek aan dekking in de wereldwijde COI-databank. De grote verzameling COI-referentiesequenties kan helpen bij het verbeteren van brede taxonomische toewijzingen (d.w.z. tot familie of genus), maar in veel studies zullen lokaal ontwikkelde databanken nodig zijn als het de bedoeling is om af te stappen van OTU-indicatoren en terug te keren naar de biologie . Dit opent de mogelijkheid om, wanneer zulks wenselijk wordt geacht, sequenties te bepalen van niet-standaard barcode-merkers die beter geschikt zijn voor metabarcoding. Flexibiliteit bij de keuze van de voor metabarcoding gebruikte marker is noodzakelijk voor sommige diergroepen, zoals nematoden, waarvoor COI ongeschikt is wegens de sequentiediversiteit. Soortgelijke problemen doen zich ook voor bij de ‘officiële’ barcodes voor planten, zodat in veel metabarcodingstudies voor ‘onofficiële’ merkers wordt gekozen.

Wat is de toekomst?

De nauwkeurigheid van metabarcoding is sterk afhankelijk van de keuze van de merker, maar er bestaat helaas geen perfecte metabarcodingmerker. In plaats daarvan zal de beste markerkeuze studiespecifiek zijn. Voor het ontwerpen van sterk geconserveerde primers is het mozaïekpatroon van variatie dat in ribosomaal RNA (rRNA)-genen wordt waargenomen vaak zeer nuttig (figuur 1). Deze genen zijn reeds door velen in de dierlijke metabarcodinggemeenschap overgenomen en zijn standaardmerkers voor de identificatie van schimmels en bacteriën/archeae. Voor dieren bieden de nucleaire rRNA-genen een zeer brede taxonomische dekking maar een lagere taxonomische resolutie, terwijl de mitochondriale rRNA-genen een taxonomische resolutie bieden die vergelijkbaar is met die van COI, maar doorgaans het ontwerpen van meer geconserveerde primers mogelijk maken (figuur 1). De moeilijkheden die men ondervindt bij het toewijzen van rRNA-gensequenties aan taxa, veroorzaakt door het onvermogen om sequenties nauwkeurig uit te lijnen, kunnen grotendeels worden verholpen door gebruik te maken van uitlijningsvrije methoden. Lengtevariatie in rRNA-coderende regio’s kan echter taxon-specifieke verschillen in sequentieherstel veroorzaken. Het is ook waar dat een gemakkelijkere uitlijning van eiwitgenen een correctie van sommige sequencing-fouten mogelijk maakt. Het belangrijkste punt is dat een reeks potentiële primers en de taxonomische resolutie van de resulterende amplicons zorgvuldig moeten worden overwogen bij elke metabarcodingtoepassing. De primers kunnen gemakkelijk in silico worden geëvalueerd door gebruik te maken van beschikbare programma’s (b.v. ecoPCR ); empirisch testen biedt verdere zekerheid dat primers geschikt zijn voor een bepaalde toepassing.

We voorzien dat metabarcoding uiteindelijk routinematig verschillende barcode-merkers van elk monster zal sequencen. Markers die op verschillende taxonomische niveaus zijn gericht, kunnen het compromis tussen taxonomische breedte en resolutie overbruggen. Merkers die vergelijkbare taxonomische informatie verschaffen, kunnen als interne controles fungeren; deze zouden vooral nuttig zijn voor validatie in gevallen waar primer-template mismatches een potentieel probleem zijn. Metabarcoding-benaderingen die steunen op bulk-sequencing van verrijkt mtDNA zonder amplificatie zijn geïllustreerd in een proof of concept-studie. Dit werk kan wijzen op een toekomst waarin PCR-primers minder relevant zijn; de tot dusver geschetste methoden vereisen echter intacte mtDNA-moleculen en zouden niet kunnen worden toegepast wanneer het DNA sterk gefragmenteerd is. Alternatieve markerverrijkingstechnieken die met een reeks templates werken, zoals benaderingen op basis van probe capture, zijn wellicht beter geschikt voor niet-COI-markers die geconserveerde doelregio’s bevatten.

Wij erkennen dat er situaties zijn waarin COI momenteel de voorkeur zou kunnen krijgen als metabarcoding-marker (bijv. wanneer het taxonomische bereik beperkt is en identificatie op soortniveau van cruciaal belang, of wanneer de bestaande referentiedatabase van essentieel belang is). Als toekomstige technieken een minder vertekend herstel van COI uit DNA-mengsels mogelijk maken, zou COI namelijk zeer geschikt zijn voor metabarcoding. Zelfs indien voor alternatieve merkers wordt gekozen, zal de door CBOL ontwikkelde infrastructuur voor DNA-barcoding van vitaal belang zijn voor dit gebied. Taxonomisch geverifieerde voucher specimens, en bijbehorende DNA-extracten, zijn een bron van onschatbare waarde die een high-throughput karakterisering van aanvullende merkers zou kunnen vergemakkelijken. De CBOL-databank met referentiesequenties gekoppeld aan voucherspecimens (inclusief “onofficiële” barcodesequenties), en inspanningen om de taxonomische metadata van CBOL te koppelen aan openbaar toegankelijke sequenties in GenBank, zijn al even nuttig. Wij zijn enthousiast over het vooruitzicht dat metabarcoding een snellere en goedkopere methode biedt om de biodiversiteit van dieren te meten, maar de selectie van merkers moet grondiger worden onderzocht en de beschikbare keuze aan merkers moet worden uitgebreid om de betrouwbaarheid te vergroten.

Toegankelijkheid van de gegevens

De DNA-sequenties die uit GenBank zijn gehaald en gebruikt zijn voor de constructie van figuren 1 en 2 zijn gedeponeerd als elektronische aanvullende gegevens.

Acknowledgements

Wij danken onze collega’s voor discussies over dit onderwerp. We danken ook de drie reviewers voor het leveren van kritisch commentaar dat heeft geholpen het manuscript te verbeteren.

Funding statement

B.D. en S.J. ontvingen exploitatiesubsidies van het Australian Antarctic Science Program (AAS Projects 4014 en 4313).

Footnotes

© 2014 The Author(s) Published by the Royal Society. All rights reserved.
  • 1
    Taberlet P, Coissac E, Hajibabaei M& Rieseberg LH. 2012Environmental DNA. Mol. Ecol. 21, 1789-1793. (doi:10.1111/j.1365-294X.2012.05542.x). Crossref, PubMed, ISI, Google Scholar
  • 2
    Yu DW, Ji Y, Emerson BC, Wang X, Ye C, Yang C& Ding Z. 2012Biodiversity soup: metabarcoding of arthropods for rapid biodiversity assessment and biomonitoring. Methods Ecol. Evol. 3, 613-623. (doi:10.1111/j.2041-210X.2012.00198.x). Crossref, ISI, Google Scholar
  • 3
    Ficetola GF, Coissac E, Zundel S, Riaz T, Shehzad W, Bessiere J, Taberlet P& Pompanon F. 2010An in silico approach for the evaluation of DNA barcodes. BMC Genomics 11, e434. (doi:10.1186/1471-2164-11-434). Crossref, PubMed, ISI, Google Scholar
  • 4
    Geller J, Meyer C, Parker M& Hawk H. 2013Redesign of PCRimers for mitochondrial cytochrome c oxidase subunit I for marine invertebrates and application in all-taxa biotic surveys. Mol. Ecol. Resour. 13, 851-861. (doi:10.1111/1755-0998.12138). Crossref, PubMed, ISI, Google Scholar
  • 5
    Klindworth A, Pruesse E, Schweer T, Peplies J, Quast C, Horn M& Glockner FO. 2013Evaluatie van algemene 16S ribosomaal RNA-gen PCR-primers voor klassieke en op next-generation sequencing gebaseerde diversiteitsstudies. Nucleic Acids Res. 41, e1. (doi:10.1093/nar/gks808). Crossref, PubMed, ISI, Google Scholar
  • 6
    Bru D, Martin-Laurent F& Philippot L. 2008Quantification of the detrimental effect of a single primer-template mismatch by real-time PCR using the 16S rRNA gene as an example. Appl. Environ. Microbiol. 74, 1660-1663. (doi:10.1128/aem.02403-07). Crossref, PubMed, ISI, Google Scholar
  • 7
    Schloss PD, Gevers D& Westcott SL. 2011Reductie van de effecten van PCR amplificatie en sequencing artefacten op 16S rRNA-gebaseerde studies. PLoS ONE 6, e27310. (doi:10.1371/journal.pone.0027310). Crossref, PubMed, ISI, Google Scholar
  • 8
    Clarke LJ, Soubrier J, Weyrich LS& Cooper A. In press.Environmental metabarcodes for insects: in silico PCR reveals potential for taxonomic bias. Mol. Ecol. Resour. (doi:10.1111/1755-0998.12265). ISI, Google Scholar
  • 9
    Ji Y, et al.2013Betrouwbare, verifieerbare en efficiënte monitoring van biodiversiteit via metabarcoding. Ecol. Lett. 16, 1245-1257. (doi:10.1111/ele.12162). Crossref, PubMed, ISI, Google Scholar
  • 10
    De Barba M, Miquel C, Boyer F, Mercier C, Rioux D, Coissac E& Taberlet P. 2014DNA metabarcoding multiplexing and validation of data accuracy for diet assessment: application to omnivorous diet. Mol. Ecol. Resour. 14, 306-323. (doi:10.1111/1755-0998.12188). Crossref, PubMed, ISI, Google Scholar
  • 11
    Leray M, Yang JY, Meyer CP, Mills SC, Agudelo N, Ranwez V, Boehm JT& Machida RJ. 2013Een nieuwe veelzijdige primer set gericht op een kort fragment van de mitochondriale COI regio voor metabarcoding metazoan diversiteit: toepassing voor het karakteriseren van de darminhoud van koraalrifvissen. Front. Zool. 10, e34. (doi:10.1186/1742-9994-10-34). Crossref, PubMed, ISI, Google Scholar
  • 12
    Little DP. 2011DNA-barcodesequentie-identificatie met integratie van taxonomische hiërarchie en variabiliteit binnen het taxon. PLoS ONE 6, e20552. (doi:10.1371/journal.pone.0020552). Crossref, PubMed, ISI, Google Scholar
  • 13
    Deagle BE, Kirkwood R& Jarman SN. 2009Analysis of Australian fur seal diet by pyrosequencing proy DNA in faeces. Mol. Ecol. 18, 2022-2038. (doi:10.1111/j.1365-294X.2009.04158.x). Crossref, PubMed, ISI, Google Scholar
  • 14
    Zhou X, et al.2013Ultra-deep sequencing enables high-fidelity recovery of biodiversity for bulk arthropod samples without PCR amplification. GigaScience 2, 4. (doi:10.1186/2047-217X-2-4). Crossref, PubMed, ISI, Google Scholar
  • 15
    Shokralla S, Gibson JF, Nikbakht H, Janzen DH, Hallwachs W& Hajibabaei M. 2014Next-generation DNA barcoding: using next-generation sequencing to enhance and accelerate DNA barcode capture from single specimens. Mol. Ecol. Resour. 14, 892-901. (doi:10.1111/1755-0998.12236). PubMed, ISI, Google Scholar

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.