DNA-metabarkodning och markören för cytokrom c-oxidas underenhet I: inte en perfekt match
Introduktion
Den prisvärda DNA-sekvenseringen med hög genomströmningskapacitet (HTS) har öppnat en ny värld av möjligheter för DNA-baserade undersökningar av den biologiska mångfalden. Detta tillvägagångssätt är mest avancerat inom mikrobiologin, där molekylär taxonomi har en lång tradition, och analyser använder nu regelbundet HTS för att karakterisera markörer för uppskattningar av taxonomisk såväl som funktionell mångfald. Amplifierade ”streckkodsgener” används också i allt större utsträckning för att identifiera växter, ryggradslösa djur och ryggradsdjur som finns i DNA-blandningar – som erhålls antingen genom extraktion av totalt DNA från samlade prover eller från miljöprover (t.ex. jord, vatten och avföring). Denna karakterisering av DNA-streckkoder från DNA-blandningar har benämnts ”metabarkodning”.
Bortsett från kravet på billiga och tillförlitliga sekvensdata behöver metabarkodning också en lämplig markör. För standardiserad DNA-streckkodning av enskilda djurprover har Consortium for the Barcode of Life (CBOL) antagit den mitokondriella cytokrom c-oxidas-genen COI (subunit I). Denna markör har de nödvändiga egenskaperna: dess variation gör det vanligtvis möjligt att särskilja arter, den kan PCR-amplifieras från de flesta djur och den tillhörande databasen har nu miljontals taxonomiskt verifierade DNA-sekvenser. Den verkar vara det självklara valet av markör inom det framväxande området för metabarkodning av djur, och den har använts i många nyligen genomförda studier, inklusive tillämpningar inom undersökningar av biologisk mångfald, miljöövervakning och koststudier (exempel på studier finns i det elektroniska tilläggsmaterialet).
Så vad är felet med cytokrom c-oxidas underenhet I som en markör för metabarkodning?
Och även om COI kan amplifieras från ett enormt antal arter har det alltid erkänts att primerbindningsställena inom denna proteinkodande gen inte är mycket konserverade. Mutationer på många nukleotidpositioner ändrar inte det kodade proteinet (vanligtvis den sista basen i triplettkoden) och är mindre begränsade av urvalet. Följaktligen har ett stort antal primers utformats för amplifiering av COI från olika djurgrupper (för närvarande finns mer än 400 COI-primers i CBOL:s primerdatabas). ”Universella” primers som amplifierar COI-streckkodsregionen har också beskrivits, men in silico-analyser visar att de är dåligt konserverade (; figur 1). Empiriska studier visar att denna primervariabilitet leder till otillförlitlig amplifiering när proverna innehåller arter som täcker ett brett taxonomiskt område (t.ex. 44 % framgång vid mer än 2 000 inledande amplifieringar; Moorea Biocode Project ). Vid vanlig DNA-streckkodning är det möjligt att optimera protokollen för att få fram data från exemplar som inledningsvis inte lyckas amplifieras. Vid metabarkodning av en DNA-blandning maskeras dock misslyckad amplifiering av vissa taxa av att amplikoner från andra taxa som finns i provet återfinns. Detta gör det svårt att optimera protokollet. Dessutom ger återfyndet av vissa förväntade sekvenser falskt förtroende för den resulterande datamängden.
Många mikrobiella ekologistudier har visat att även om felmatchade primers kan amplifiera DNA från olika bakteriegenom, amplifieras mål utan perfekt homologi med lägre och ofta oförutsägbar effektivitet . I vissa fall kan till och med en enda basmatch ge en 1000-faldig underskattning av abundansen, vilket gör vissa bakterier ”nästan omöjliga att upptäcka” i HTS-analyser av simulerade samhällen. Användningen av cocktails med flera primervarianter kan öka amplifikationsframgången vid standard-DNA-streckkodning, men enligt de senaste utvärderingarna är detta inte ett universalmedel för COI-metabarkodning . Detta beror troligen på det faktum att de labila platserna i COI:s primerbindningsregioner divergerar snabbt (figur 2). Därför blir antalet primers som krävs för att ta hänsyn till variabiliteten, även mellan relativt närbesläktade taxa, snabbt ohållbart. Dessutom kommer inte alla dessa primersekvenser att vara effektiva för att amplifiera DNA (ytterligare diskussion i det elektroniska tilläggsmaterialet). En separat fråga för utformningen av primer för COI-metabarkoden är att variationen på mindre begränsade platser blir mättad mellan avlägset besläktade taxa till följd av homoplasi (figur 2). Denna platå i sekvensdivergens hindrar utvecklingen av gruppspecifika primers (t.ex. riktade mot alla insekter men exklusive andra landlevande leddjur).
Trots dessa begränsningar har flera COI-prismersatser utvecklats specifikt för metabarkodning. Till exempel har ett antal COI-”mini-barcoding”-primer för amplifiering av korta fragment som kan återvinnas från nedbruten mall publicerats trots att primerplatserna varierar mellan målarterna och att alternativa markörer verkar mer lämpliga (figur 1). Primercocktails för metabarkodning har också utformats för att amplifiera hela COI-streckkodningsregionen i marina ryggradslösa djur, trots att mindre än 50 % av nukleotiderna på bindningsställena är bevarade i måltaxa.
Är det bäst att acceptera bias och hålla sig till standardstreckkodningsmarkörer för metabarkodning?
Det skulle kunna hävdas att bias som införs genom olika COI-primerbindning kan hanteras om de är konsekventa i alla de prover som jämförs och om sekvenseringen utförs på tillräckligt djup. Dessutom skulle detta kunna betraktas som en liten eftergift med tanke på att COI ger tillgång till ett stort antal streckkodssekvenser kopplade till taxonomiskt verifierade exemplar. Vi anser dock att även de bästa COI-metabarkodningsstudierna lyfter fram denna markörs begränsningar och visar att alternativ bör övervägas på allvar. I Yu et al:s arbete med masssekvensering av COI från leddjursprover för analys av biologisk mångfald dokumenterades till exempel bortfall på mellan 24 % (tröskelvärde för mer än 2 läsningar) och 36 % (tröskelvärde för mer än 5 läsningar) jämfört med kända inmatningar, till och med när man använde helt degenererade primers. Även om de resulterande uppgifterna ger uppskattningar av α- och β-diversitet som är användbara för beslut som rör bevarande , kommer acceptansen av denna nivå av bias säkerligen att begränsa framtida tillämpningar. Variation i förekomsten av taxa som är benägna att falla bort mellan grupper av prover kan potentiellt snedvrida den relativa betydelsen av alla taxa, vilket gör det svårt att bedöma biologiskt relevanta skillnader mellan grupper.
När de preliminära metodutvärderingarna inte är heltäckande och begränsningarna i datasetetet inte beaktas är datatolkningen behäftad med svårigheter. I en nyligen genomförd studie som utvärderade markörer för metabarkodning av insekter , lyckades en uppsättning allmänt använda COI-metabarkodningsprimers för ”generiska leddjur” endast återfinna mellan 43 och 64 % av arterna i en känd blandning av leddjurs-DNA. Retrospektiv utvärdering av ekologiska studier som är beroende av data som producerats med dessa primers är svår; i vissa fall kan dock primerpreferenser snarare än biologi styra slutsatserna.
En ökning av sekvenseringsdjupet för att möjliggöra upptäckt av dåligt amplifierade markörer är troligen inte en robust lösning, eftersom det samtidigt kommer att finnas en ökning av antalet sekvenser som härstammar från mindre kontaminering och chimäriska molekyler . De metoder som används för att filtrera bort dessa bakgrundsfel på låg nivå och identifiera legitima sällsynta sekvenser är ofullkomliga. Dessutom kan införlivandet av fel på låg nivå i metabarkodningsdataset ha ett oproportionerligt stort inflytande eftersom sammanfattningar vanligtvis är incidensbaserade (dvs. närvaro/frånvaro) och inte innehåller information om sekvensens abundans.
Trots att den stora COI-referensdatabasen är ett starkt försäljningsargument för denna markör kopplar många metabarkodningsstudier av COI återvunna sekvenser till operationella taxonomiska enheter (OTU) i stället för att tillhandahålla taxonomisk information med hög upplösning . Detta beror delvis på att mikrobiella ekologer har antagit bioinformatiska metoder, men också på bristen på täckning i den globala COI-databasen. Den stora samlingen av COI-referenssekvenser kan bidra till att förbättra breda taxonomiska tilldelningar (dvs. till familj eller släkte), men i många studier kommer det att krävas lokalt utvecklade databaser om avsikten är att gå bort från OTU-indikatorer och återgå till biologi . Detta öppnar möjligheten att sekvensera icke-standardiserade streckkodsmarkörer som är bättre lämpade för metabarkodning när det anses lämpligt. Flexibilitet när det gäller vilken markör som används för metabarkodning är en nödvändighet för vissa djurgrupper, t.ex. nematoder, där COI är olämplig på grund av sekvensdiversiteten. Det finns också liknande problem för ”officiella” streckkoder för växter, vilket resulterar i att många metabarkodningsstudier av växter väljer ”inofficiella” markörer.
Vad är vägen framåt?
Näringsnoggrannheten vid metabarkodning är i hög grad beroende av valet av markör, men det finns tyvärr ingen perfekt markör för metabarkodning. I stället kommer det bästa valet av markör att vara studiespecifikt. Vid utformning av mycket konserverade primers är det mosaikmönster av variation som ses i ribosomala RNA-gener (rRNA) ofta mycket användbart (figur 1). Dessa gener har redan antagits av många inom metabarkodningssamfundet för djur och är standardmarkörer för identifiering av svampar och bakterier/arkealier. För djur ger nukleära rRNA-gener en mycket bred taxonomisk täckning men lägre taxonomisk upplösning, medan mitokondriella rRNA-gener ger en taxonomisk upplösning som liknar COI, men som vanligtvis gör det möjligt att utforma mer konserverade primers (figur 1). Upplevda svårigheter med att tilldela rRNA-gensekvenser till taxa på grund av oförmågan att noggrant anpassa sekvenser kan till stor del övervinnas med hjälp av anpassningsfria metoder . Längdsvariation i rRNA-kodande regioner kan dock potentiellt orsaka taxonspecifika skillnader i sekvensåtervinningen. Det är också sant att en enklare anpassning av proteingener gör det möjligt att korrigera vissa sekvenseringsfel . Den viktiga punkten är att en rad potentiella primers och den taxonomiska upplösningen av de resulterande amplikonerna bör övervägas noggrant i alla metabarkodningstillämpningar. Primerna kan enkelt utvärderas in silico med hjälp av tillgängliga program (t.ex. ecoPCR ); empirisk testning ger ytterligare garantier för att primerna är lämpliga för en viss tillämpning .
Vi räknar med att metabarcoding så småningom rutinmässigt kommer att sekvensera flera streckkodsmarkörer från varje prov . Markörer som är inriktade på olika taxonomiska nivåer kan övervinna kompromissen mellan taxonomisk bredd och upplösning. Markörer som ger jämförbar taxonomisk information kan fungera som interna kontroller. Dessa skulle vara särskilt användbara för validering i de fall där felmatchningar mellan primer och mall är ett potentiellt problem. Metabarkodningsmetoder som bygger på masssekvensering av anrikat mtDNA utan amplifiering har illustrerats i en konceptstudie . Detta arbete kan mycket väl peka på en framtid där PCR-primers är mindre relevanta, men de metoder som hittills beskrivits kräver intakta mtDNA-molekyler och skulle inte vara tillämpbara när DNA är starkt fragmenterat. Alternativa tekniker för markörberikning som fungerar med en rad olika mallar, såsom probe capture-baserade metoder, kan vara bättre lämpade för icke-COI-markörer som innehåller bevarade målregioner.
Vi är medvetna om att det finns situationer där COI för närvarande skulle kunna vara det föredragna alternativet som metabarkodningsmarkör (t.ex. när den taxonomiska räckvidden är begränsad och identifiering på artnivå är kritisk, eller när den befintliga referensdatabasen är väsentlig). Om framtida tekniker möjliggör en mindre snedvriden återvinning av COI från DNA-blandningar, skulle COI vara väl lämpad för metabarkodning. Även om alternativa markörer antas kommer den infrastruktur för DNA-streckkodning som CBOL har utvecklat att vara avgörande för detta område. Taxonomiskt verifierade exemplar och tillhörande DNA-extrakt är en ovärderlig resurs som skulle kunna underlätta karakterisering av ytterligare markörer med hög genomströmning. CBOL:s databas med referenssekvenser som är kopplade till exemplar (inklusive ”inofficiella” streckkodssekvenser) och insatser för att koppla CBOL:s taxonomiska metadata till allmänt tillgängliga sekvenser i GenBank är lika fördelaktiga. Vi är entusiastiska över utsikten att metabarkodning kan bli en snabbare och billigare metod för att mäta den biologiska mångfalden hos djur, men urvalet av markörer måste granskas noggrannare och de tillgängliga markörerna måste breddas för att öka tillförlitligheten.
Datatillgänglighet
De DNA-sekvenser som extraherats från GenBank och som använts för att konstruera figurerna 1 och 2 är deponerade som elektroniska tilläggsdata.
Acknowledgements
Vi tackar våra kollegor för diskussionerna kring detta ämne. Vi tackar också de tre granskarna för kritiska kommentarer som bidrog till att förbättra manuskriptet.
Finansiering
B.D. och S.J. har fått verksamhetsbidrag från Australian Antarctic Science Program (AAS Projects 4014 och 4313).
Fotnoter
- 1
Taberlet P, Coissac E, Hajibabaei M& Rieseberg LH. 2012Environmental DNA. Mol. Ecol. 21, 1789-1793. (doi:10.1111/j.1365-294X.2012.05542.x). Crossref, PubMed, ISI, Google Scholar
- 2
Yu DW, Ji Y, Emerson BC, Wang X, Ye C, Yang C& Ding Z. 2012Biodiversity soup: metabarcoding of arthropods for rapid biodiversity assessment and biomonitoring. Methods Ecol. Evol. 3, 613-623. (doi:10.1111/j.2041-210X.2012.00198.x). Crossref, ISI, Google Scholar
- 3
Ficetola GF, Coissac E, Zundel S, Riaz T, Shehzad W, Bessiere J, Taberlet P& Pompanon F. 2010An in silico approach for the evaluation of DNA barcodes. BMC Genomics 11, e434. (doi:10.1186/1471-2164-11-434). Crossref, PubMed, ISI, Google Scholar
- 4
Geller J, Meyer C, Parker M& Hawk H. 2013Redesign of PCR primers for mitochondrial cytochrome c oxidase subunit I for marine invertebrates and application in all-taxa biotic surveys. Mol. Ecol. Resour. 13, 851-861. (doi:10.1111/1755-0998.12138). Crossref, PubMed, ISI, Google Scholar
- 5
Klindworth A, Pruesse E, Schweer T, Peplies J, Quast C, Horn M& Glockner FO. 2013Utvärdering av allmänna PCR-primers för 16S ribosomalt RNA-genen för klassiska och nästa generations sekvenseringsbaserade mångfaldsstudier. Nucleic Acids Res. 41, e1. (doi:10.1093/nar/gks808). Crossref, PubMed, ISI, Google Scholar
- 6
Bru D, Martin-Laurent F& Philippot L. 2008Quantifiering av den skadliga effekten av en enda felaktig primer-mallmatchning genom realtids-PCR med 16S rRNA-genen som exempel. Appl. Environ. Microbiol. 74, 1660-1663. (doi:10.1128/aem.02403-07). Crossref, PubMed, ISI, Google Scholar
- 7
Schloss PD, Gevers D& Westcott SL. 2011Reducing the effects of PCR amplification and sequencing artifacts on 16S rRNA-based studies. PLoS ONE 6, e27310. (doi:10.1371/journal.pone.0027310). Crossref, PubMed, ISI, Google Scholar
- 8
Clarke LJ, Soubrier J, Weyrich LS& Cooper A. Under press.Environmental metabarcodes for insects: in silico PCR reveals potential for taxonomic bias. Mol. Ecol. Resour. (doi:10.1111/1755-0998.12265). ISI, Google Scholar
- 9
Ji Y, et al.2013Reliable, verifierbar och effektiv övervakning av biologisk mångfald via metabarcoding. Ecol. Lett. 16, 1245-1257. (doi:10.1111/ele.12162). Crossref, PubMed, ISI, Google Scholar
- 10
De Barba M, Miquel C, Boyer F, Mercier C, Rioux D, Coissac E& Taberlet P. 2014DNA metabarcoding multiplexing and validation of data accuracy for diet assessment: application to omnivorous diet. Mol. Ecol. Resour. 14, 306-323. (doi:10.1111/1755-0998.12188). Crossref, PubMed, ISI, Google Scholar
- 11
Leray M, Yang JY, Meyer CP, Mills SC, Agudelo N, Ranwez V, Boehm JT& Machida RJ. 2013En ny mångsidig primeruppsättning som är inriktad på ett kort fragment av den mitokondriella COI-regionen för metabarkodning av metazoisk mångfald: tillämpning för karakterisering av tarminnehållet hos korallrevsfiskar. Front. Zool. 10, e34. (doi:10.1186/1742-9994-10-34). Crossref, PubMed, ISI, Google Scholar
- 12
Little DP. 2011DNA barcode sequence identification incorporating taxonomic hierarchy and within taxon variability. PLoS ONE 6, e20552. (doi:10.1371/journal.pone.0020552). Crossref, PubMed, ISI, Google Scholar
- 13
Deagle BE, Kirkwood R& Jarman SN. 2009Analys av den australiensiska pälssälens diet genom pyrosekvensering av bytes-DNA i avföring. Mol. Ecol. 18, 2022-2038. (doi:10.1111/j.1365-294X.2009.04158.x). Crossref, PubMed, ISI, Google Scholar
- 14
Zhou X, et al. 2013Ultradjup sekvensering möjliggör högtrohetsåtervinning av biologisk mångfald för arthropoder i bulkprover utan PCR-förstärkning. GigaScience 2, 4. (doi:10.1186/2047-217X-2-4). Crossref, PubMed, ISI, Google Scholar
- 15
Shokralla S, Gibson JF, Nikbakht H, Janzen DH, Hallwachs W& Hajibabaei M. 2014Next-generation DNA-streckkodning: Användning av nästa generations sekvensering för att förbättra och påskynda DNA-streckkodsfångst från enskilda exemplar. Mol. Ecol. Resour. 14, 892-901. (doi:10.1111/1755-0998.12236). PubMed, ISI, Google Scholar