DNA-metabarcoding og cytokrom c oxidase subunit I-markøren: ikke et perfekt match
Introduktion
Den overkommelige adgang til DNA-sekventering (HTS) til høj gennemløbspris har åbnet en ny verden af muligheder i DNA-baserede undersøgelser af biodiversitet. Denne fremgangsmåde er mest avanceret inden for mikrobiologi, hvor molekylær taksonomi har en lang tradition, og analyser anvender nu regelmæssigt HTS til at karakterisere markører med henblik på estimater af taksonomisk såvel som funktionel diversitet. Amplificerede “stregkode”-gener anvendes også i stigende grad til at identificere planter, hvirvelløse dyr og hvirveldyr i DNA-blandinger, der enten er fremstillet ved ekstraktion af total-DNA fra samlede prøver eller fra miljøprøver (f.eks. jord, vand og afføring). Denne karakterisering af DNA-stregkoder fra blandinger af DNA er blevet kaldt “metabarcoding”.
Ud over kravet om billige og pålidelige sekvensdata har metabarcoding også brug for en passende markør. Til standard-DNA-stregkodning af enkelte dyreeksemplarer har Consortium for the Barcode of Life (CBOL) vedtaget det mitokondrielle cytokrom c-oxidase subunit I-gen (COI). Denne markør har de nødvendige egenskaber: dens variation gør det normalt muligt at skelne mellem arter, den kan PCR-amplificeres fra de fleste dyr, og den tilhørende database kan nu prale af millioner af taxonomisk verificerede DNA-sekvenser. Det synes at være det oplagte valg af markør inden for det spirende område for metabarkodning af dyr, og det er blevet anvendt i mange nyere undersøgelser, herunder anvendelser i biodiversitetsundersøgelser, miljøovervågning og kostundersøgelser (eksempler på undersøgelser findes i det elektroniske supplerende materiale).
Så hvad er der galt med cytochrom c oxidase subunit I som metabarcoding-markør?
Mens COI kan amplificeres fra en enorm række arter, har det altid været anerkendt, at primerbindingssteder inden for dette proteinkodningsgen ikke er meget bevaret. Mutationer på mange nukleotidpositioner ændrer ikke det kodede protein (normalt den sidste base i tripletkoden) og er mindre begrænsede af selektion. Der er derfor blevet designet et stort antal primere til amplifikation af COI fra forskellige dyregrupper (i øjeblikket er der mere end 400 COI-primere i CBOL’s primerdatabase). Der er også beskrevet “universelle” primere til amplifikation af COI-stregkodeområdet, men in silico-analyser viser, at de er dårligt konserverede (; figur 1). Empiriske undersøgelser viser, at denne primervariabilitet resulterer i upålidelig amplifikation, når prøverne omfatter arter, der dækker et bredt taksonomisk område (f.eks. 44 % succes i mere end 2000 indledende amplifikationer; Moorea Biocode Project ). Ved standard-DNA-stregkodning er det muligt at optimere protokollerne for at få data fra eksemplarer, som i første omgang ikke kan amplificeres. Ved metabarkodning af en DNA-blanding maskeres den mislykkede amplifikation af bestemte taxaer imidlertid af genfindelsen af amplikoner fra andre taxa, der er til stede i prøven. Dette gør det vanskeligt at optimere protokollen. Desuden giver genfindelsen af nogle forventede sekvenser falsk tillid til det resulterende datasæt.
Mange mikrobielle økologiske undersøgelser har vist, at selv om mismatchede primere er i stand til at amplificere DNA fra forskellige bakterielle genomer, amplificeres mål uden perfekt homologi med lavere og ofte uforudsigelig effektivitet . I nogle tilfælde kan selv en enkelt basefejlmatch give en 1000-dobbelt undervurdering af hyppigheden , hvilket gør nogle bakterier “næsten ikke påviselige” i HTS-analyser af skuffesamfund . Brugen af cocktails med flere primervarianter kan øge succesraten for amplifikation ved standard-DNA-barcoding , men på grundlag af nylige evalueringer er disse cocktails ikke et universalmiddel til COI-metabarcoding . Dette skyldes sandsynligvis, at de labile steder i COI-primerbindingsregionerne hurtigt divergerer (figur 2). Derfor bliver det antal primere, der kræves for at tage højde for variabilitet, selv mellem relativt nært beslægtede taxa, hurtigt uholdbart. Desuden vil ikke alle disse primersekvenser være effektive til at amplificere DNA (yderligere diskussion i det elektroniske supplerende materiale). Et særskilt problem i forbindelse med design af primere til COI-metabarkoder er, at variationen på mindre begrænsede steder bliver mættet mellem fjernt beslægtede taxa som følge af homoplasi (figur 2). Dette plateau i sekvensdivergens hindrer udviklingen af gruppespecifikke primere (f.eks. rettet mod alle insekter, men med undtagelse af andre terrestriske leddyr).
Trods disse begrænsninger er der udviklet flere COI-præmersæt specifikt til metabarkodning. Der er f.eks. blevet offentliggjort en række COI-“mini-barcoding”-primere til amplifikation af korte fragmenter, der kan genfindes fra nedbrudt skabelon, selv om primerstederne varierer mellem målarterne, og alternative markører synes mere velegnede (figur 1). Metabarcoding-primercocktails er også blevet designet til at amplificere hele COI-stregkodningsregionen i marine hvirvelløse dyr, selv om mindre end 50 % af nukleotiderne på bindingsstederne er bevaret i måltaxaerne.
Er det bedst at acceptere bias og holde sig til standardstregkodemarkører til metabarcoding?
Det kunne hævdes, at bias, der indføres ved differentiel COI-primerbinding, kan håndteres, hvis de er konsekvente på tværs af de prøver, der sammenlignes, og sekventering udføres med tilstrækkelig dybde. Desuden kunne dette betragtes som en lille indrømmelse, da COI giver adgang til et stort antal stregkodesekvenser, der er knyttet til taxonomisk verificerede eksemplarer. Vi mener imidlertid, at selv de bedste COI-metabarcoding-undersøgelser fremhæver denne markørs begrænsninger og viser, at alternativer bør overvejes alvorligt. F.eks. dokumenterede Yu et al.’s arbejde med bulk-sekventering af COI fra leddyrprøver med henblik på biodiversitetsanalyse tabsrater på mellem 24 % (mere end 2 read-tærsklen) og 36 % (mere end 5 read-tærsklen) sammenlignet med kendte input, selv når der anvendes fuldt degenererede primere. Selv om de resulterende data giver estimater af α- og β-diversitet, der er nyttige for bevarelsesrelevante beslutninger, vil accepten af denne grad af bias helt sikkert begrænse fremtidige anvendelser. Variation i forekomsten af taxa, der er tilbøjelige til at falde fra mellem grupper af prøver, kan potentielt forvrænge den relative betydning af alle taxa, hvilket gør det vanskeligt at vurdere biologisk relevante forskelle mellem grupper.
Når de indledende metodologiske evalueringer ikke er omfattende, og der ikke tages hensyn til datasættets begrænsninger, er datatolkningen behæftet med vanskeligheder. I en nylig undersøgelse, der evaluerede metabarcodingmarkører for insekter , lykkedes det kun at genfinde mellem 43 og 64 % af arterne i en kendt blanding af leddyrs-DNA med et sæt af almindeligt anvendte COI-metabarcodingprimere til “generiske leddyr”. Retrospektiv evaluering af økologiske undersøgelser, der er baseret på data fra disse primere, er vanskelig; i nogle tilfælde kan det dog være primerpræferencer snarere end biologi, der er bestemmende for konklusionerne.
Den øgede sekventeringsdybde for at gøre det muligt at påvise dårligt amplificerede markører er sandsynligvis ikke en robust løsning, fordi der samtidig vil være en stigning i antallet af sekvenser, der stammer fra mindre forurening og kimære molekyler . De metoder, der anvendes til at filtrere disse baggrundsfejl på lavt niveau fra og identificere legitime sjældne sekvenser, er ufuldstændige. Desuden kan indarbejdelse af fejl på lavt niveau i metabarcoding-datasæt have en uforholdsmæssig stor indflydelse, fordi oversigter typisk er incidensbaserede (dvs. tilstedeværelse/fravær) og ikke omfatter oplysninger om sekvenshyppighed.
Trods den store COI-referencedatabase, der er et stærkt salgsargument for denne markør, knytter mange COI-metabarcoding-undersøgelser genvundne sekvenser til operationelle taksonomiske enheder (OTU) i stedet for at give højopløste taksonomiske oplysninger . Dette afspejler til dels vedtagelsen af bioinformatiske metoder fra mikrobielle økologer, men det afspejler også den manglende dækning i den globale COI-database. Den store samling af COI-referencesekvenser kan bidrage til at forbedre de brede taksonomiske tilknytninger (dvs. til familie eller slægt), men i mange undersøgelser vil det være nødvendigt med lokalt udviklede databaser, hvis man ønsker at gå væk fra OTU-indikatorer og vende tilbage til biologi . Dette åbner mulighed for at sekventere ikke-standardiserede stregkodemarkører, der er bedre egnede til metabarkodning, når det skønnes hensigtsmæssigt. Fleksibilitet med hensyn til, hvilken markør der anvendes til metabarkodning, er en nødvendighed for visse dyregrupper, f.eks. nematoder, hvor det er anerkendt, at COI er uegnet på grund af sekvensdiversiteten. Der er også lignende problemer i forbindelse med “officielle” stregkoder for planter, hvilket resulterer i, at mange metabarkodningsundersøgelser af planter vælger “uofficielle” markører.
Hvad er vejen frem?
Nøjagtigheden af metabarkodning afhænger i høj grad af valget af markør, men der findes desværre ikke nogen perfekt metabarkodningsmarkør. I stedet vil det bedste valg af markør være undersøgelsesspecifikt. Ved udformning af meget bevarede primere er det mosaikmønster af variation, der ses i ribosomale RNA (rRNA)-gener, ofte meget nyttigt (figur 1). Disse gener er allerede blevet anvendt af mange i dyremetabarcoding-fællesskabet og er standardmarkører til identifikation af svampe og bakterier/archaealer. For dyr giver nukleare rRNA-gener en meget bred taksonomisk dækning, men en lavere taksonomisk opløsning, mens mitokondrielle rRNA-gener giver en taksonomisk opløsning, der svarer til COI, men som typisk gør det muligt at udforme mere konserverede primere (figur 1). De vanskeligheder, der er forbundet med at henføre rRNA-gen-sekvenser til taxa, som skyldes manglende evne til at tilpasse sekvenserne nøjagtigt, kan i vid udstrækning overvindes ved hjælp af metoder uden tilpasning . Længdevariation i de rRNA-kodende regioner kan dog potentielt forårsage taxonspecifikke forskelle i sekvensgenfindingen. Det er også rigtigt, at en lettere tilpasning af proteingener gør det muligt at korrigere visse sekventeringsfejl . Det vigtige punkt er, at en række potentielle primere og den taksonomiske opløsning af de resulterende amplikoner bør overvejes nøje i forbindelse med enhver metabarcoding-applikation. Primerne kan let evalueres in silico ved hjælp af tilgængelige programmer (f.eks. ecoPCR ); empirisk afprøvning giver yderligere sikkerhed for, at primerne er egnede til en bestemt anvendelse .
Vi forestiller os, at metabarcoding i sidste ende rutinemæssigt vil sekventere flere stregkodemarkører fra hver prøve . Markører, der er rettet mod forskellige taksonomiske niveauer, kan overvinde afvejningen mellem taksonomisk bredde og opløsning. Markører, der giver sammenlignelige taksonomiske oplysninger, kan fungere som interne kontroller; disse vil især være nyttige til validering i tilfælde, hvor mismatches i primer-template er et potentielt problem. Metabarcoding-tilgange, der bygger på bulk-sekventering af beriget mtDNA uden amplifikation, er blevet illustreret i en proof of concept-undersøgelse . Dette arbejde kan meget vel pege på en fremtid, hvor PCR-primere er mindre relevante; de hidtil beskrevne metoder kræver imidlertid intakte mtDNA-molekyler og vil ikke kunne anvendes, når DNA er stærkt fragmenteret. Alternative teknikker til markørberigelse, der arbejder med en række skabeloner, såsom probe capture-baserede metoder, kan være bedre egnet til ikke-COI-markører, der indeholder bevarede målregioner.
Vi anerkender, at der er situationer, hvor COI i øjeblikket kan være den foretrukne løsning som metabarcoding-markør (f.eks. når det taksonomiske omfang er begrænset, og identifikation på artsniveau er kritisk, eller når den eksisterende referencedatabase er afgørende). Hvis fremtidige teknikker giver mulighed for en mindre skæv genfinding af COI fra DNA-blandinger, vil COI faktisk være velegnet til metabarkodning. Selv hvis der vedtages alternative markører, vil den infrastruktur til DNA-stribe-kodning, som CBOL har udviklet, være af afgørende betydning for dette område. Taxonomisk verificerede dokumenteksemplarer og tilhørende DNA-ekstrakter er en uvurderlig ressource, som kan lette karakteriseringen af yderligere markører ved hjælp af et højt gennemløb. CBOL’s database med referencesekvenser, der er knyttet til bilagsprøver (herunder “uofficielle” stregkodesekvenser), og bestræbelserne på at knytte CBOL’s taksonomiske metadata til offentligt tilgængelige sekvenser i GenBank er lige så nyttige. Vi er begejstrede for udsigten til, at metabarkodning kan blive en hurtigere og billigere metode til at måle dyrs biodiversitet, men udvælgelsen af markører skal undersøges nærmere, og de tilgængelige markørvalg skal udvides for at forbedre pålideligheden.
Datatilgængelighed
Den DNA-sekvenser, der er uddraget fra GenBank og anvendt til opbygning af figur 1 og 2, er deponeret som elektroniske supplerende data.
Akkreditering
Vi takker vores kolleger for diskussioner om dette emne. Vi takker også de tre korrekturlæsere for kritiske kommentarer, der bidrog til at forbedre manuskriptet.
Finansiering
B.D. og S.J. modtog driftstilskud fra Australian Antarctic Science Program (AAS Projects 4014 og 4313).
Fodnoter
- 1
Taberlet P, Coissac E, Hajibabaei M& Rieseberg LH. 2012Environmental DNA. Mol. Ecol. 21, 1789-1793. (doi:10.1111/j.1365-294X.2012.05542.x). Crossref, PubMed, ISI, Google Scholar
- 2
Yu DW, Ji Y, Emerson BC, Wang X, Ye C, Yang C& Ding Z. 2012Biodiversity soup: metabarcoding of arthropods for rapid biodiversity assessment and biomonitoring. Methods Ecol. Evol. 3, 613-623. (doi:10.1111/j.2041-210X.2012.00198.x). Crossref, ISI, Google Scholar
- 3
Ficetola GF, Coissac E, Zundel S, Riaz T, Shehzad W, Bessiere J, Taberlet P& Pompanon F. 2010An in silico approach for the evaluation of DNA barcodes. BMC Genomics 11, e434. (doi:10.1186/1471-2164-11-434). Crossref, PubMed, ISI, Google Scholar
- 4
Geller J, Meyer C, Parker M& Hawk H. 2013Redesign af PCR-primere for mitochondrial cytochrom c oxidase subunit I for marine hvirvelløse dyr og anvendelse i biotiske undersøgelser af alle takser. Mol. Ecol. Resour. 13, 851-861. (doi:10.1111/1755-0998.12138). Crossref, PubMed, ISI, Google Scholar
- 5
Klindworth A, Pruesse E, Schweer T, Peplies J, Quast C, Horn M& Glockner FO. 2013Evaluering af generelle PCR-printere til PCR-printere af det generelle 16S ribosomale RNA-gen til klassiske og næste-generations-sekventeringsbaserede diversitetsundersøgelser. Nucleic Acids Res. 41, e1. (doi:10.1093/nar/gks808). Crossref, PubMed, ISI, Google Scholar
- 6
Bru D, Martin-Laurent F& Philippot L. 2008Kvantificering af den skadelige virkning af en enkelt primer-template-mismatch ved realtids-PCR ved hjælp af 16S rRNA-genet som et eksempel. Appl. Environ. Microbiol. 74, 1660-1663. (doi:10.1128/aem.02403-07). Crossref, PubMed, ISI, Google Scholar
- 7
Schloss PD, Gevers D& Westcott SL. 2011Reduktion af virkningerne af PCR-amplifikation og sekventeringsartefakter på 16S rRNA-baserede undersøgelser. PLoS ONE 6, e27310. (doi:10.1371/journal.pone.0027310). Crossref, PubMed, ISI, Google Scholar
- 8
Clarke LJ, Soubrier J, Weyrich LS& Cooper A. Under tryk: Environmental metabarcodes for insects: in silico PCR reveals potential for taxonomic bias (Miljømetabarcoder for insekter: in silico PCR afslører potentiale for taxonomisk bias). Mol. Ecol. Resour. (doi:10.1111/1755-0998.12265). ISI, Google Scholar
- 9
Ji Y, et al.2013Pålidelig, verificerbar og effektiv overvågning af biodiversitet via metabarcoding. Ecol. Lett. 16, 1245-1257. (doi:10.1111/ele.12162). Crossref, PubMed, ISI, Google Scholar
- 10
De Barba M, Miquel C, Boyer F, Mercier C, Rioux D, Coissac E& Taberlet P. 2014DNA metabarcoding multiplexing and validation of data accuracy for diet assessment: application to omnivorous diet. Mol. Ecol. Resour. 14, 306-323. (doi:10.1111/1755-0998.12188). Crossref, PubMed, ISI, Google Scholar
- 11
Leray M, Yang JY, Meyer CP, Mills SC, Agudelo N, Ranwez V, Boehm JT& Machida RJ. 2013Et nyt alsidigt primersæt, der er rettet mod et kort fragment af den mitokondrielle COI-region til metabarkodning af metabarcoding af metazoernes diversitet: anvendelse til karakterisering af tarmindholdet fra koralrevfisk. Front. Zool. 10, e34. (doi:10.1186/1742-9994-10-34). Crossref, PubMed, ISI, Google Scholar
- 12
Little DP. 2011DNA-stregkode-sekvensidentifikation med inddragelse af taxonomisk hierarki og variabilitet inden for taxonerne. PLoS ONE 6, e20552. (doi:10.1371/journal.pone.0020552). Crossref, PubMed, ISI, Google Scholar
- 13
Deagle BE, Kirkwood R& Jarman SN. 2009Analyse af australske pelssælers kost ved hjælp af pyrosekventering af bytte-DNA i fæces. Mol. Ecol. 18, 2022-2038. (doi:10.1111/j.1365-294X.2009.04158.x). Crossref, PubMed, ISI, Google Scholar
- 14
Zhou X, et al.2013Ultra-dyb sekventering muliggør high-fidelity recovery af biodiversitet for bulk arthropod samples uden PCR-amplifikation. GigaScience 2, 4. (doi:10.1186/2047-217X-2-4). Crossref, PubMed, ISI, Google Scholar
- 15
Shokralla S, Gibson JF, Nikbakht H, Janzen DH, Hallwachs W& Hajibabaei M. 2014Next-generation DNA barcoding: using next-generation sequencing to enhance and accelerate DNA barcode capture from single specimens. Mol. Ecol. Resour. 14, 892-901. (doi:10.1111/1755-0998.12236). PubMed, ISI, Google Scholar