DNA-metabarkoodaus ja sytokromi-c-oksidaasi I -alayksikön markkeri: ei täydellinen yhteensopivuus
Esittely
Hinnaltaan kohtuuhintaisen korkean läpimenon DNA-sekvensoinnin (HTS, High-Throughput DNA Sequencing, HTS) saatavuus on avannut uudenlaisen maailman mahdollisuuksiltaan biologisen monimuotoisuuden DNA-perustaisissa tutkimuksissa. Tämä lähestymistapa on pisimmällä mikrobiologian alalla, jossa molekyylitaksonomialla on pitkät perinteet, ja analyyseissä käytetään nyt säännöllisesti HTS:ää merkkiaineiden karakterisoimiseksi taksonomisen sekä toiminnallisen monimuotoisuuden arvioimiseksi. Amplifioituja ”viivakoodigeenejä” käytetään yhä useammin myös kasvien, selkärangattomien ja selkärankaisten tunnistamiseen DNA-seoksissa, jotka on saatu joko uuttamalla kokonais-DNA:ta yhdistetyistä näytteistä tai ympäristönäytteistä (esim. maaperästä, vedestä ja ulosteista). Tätä DNA-viivakoodien tunnistamista DNA-seoksista on kutsuttu ”metabarkoodaukseksi”.
Metabarkoodaus vaatii edullisen ja luotettavan sekvenssidatan lisäksi myös sopivan merkkiaineen. Consortium for the Barcode of Life (CBOL) on ottanut käyttöön mitokondriaalisen sytokromi-c-oksidaasin COI-geenin (mitochondrial cytochrome c oxidase subunit I) yksittäisten eläinyksilöiden standardimuotoista DNA-viivakoodausta varten. Tällä merkkiaineella on tarvittavat ominaisuudet: sen vaihtelu mahdollistaa yleensä lajitason erottelun, se voidaan monistaa PCR:llä useimmista eläimistä, ja siihen liittyvässä tietokannassa on nyt miljoonia taksonomisesti todennettuja DNA-sekvenssejä. Se vaikuttaa itsestään selvältä markkerivalinnalta eläinten metabarkoodauksen alkuvaiheessa olevalla alalla, ja sitä on käytetty monissa viimeaikaisissa tutkimuksissa, kuten biologisen monimuotoisuuden kartoituksissa, ympäristöseurannassa ja ravitsemustutkimuksissa (esimerkkitutkimuksia on esitetty sähköisessä lisämateriaalissa).
Mitä vikaa on siis sytokromi-c-oksidaasi I:n alayksikössä metabarkkoodausmarkkerina?
Vaikka COI:tä voidaan monistaa valtavasta määrästä lajeja, on aina tunnustettu, että tämän proteiinia koodaavan geenin sisällä olevat alukkeiden sidontakohdat eivät ole kovin konservoituneita. Mutaatiot monissa nukleotidipaikoissa eivät muuta koodattua proteiinia (yleensä triplet-koodin viimeinen emäs), ja valinta rajoittaa niitä vähemmän. Näin ollen on suunniteltu suuri määrä alukkeita COI:n monistamiseen eri eläinryhmistä (tällä hetkellä CBOL:n aluketietokannassa on yli 400 COI-aluketta). COI-viivakoodialuetta monistavia ”universaaleja” alukkeita on myös kuvattu, mutta in silico -analyysi osoittaa, että ne ovat heikosti konservoituneita (; kuva 1). Empiiriset tutkimukset osoittavat, että tämä alukkeiden vaihtelevuus johtaa epäluotettavaan monistukseen, kun näytteisiin sisältyy lajeja, jotka kattavat laajan taksonomisen kirjon (esim. 44 prosentin onnistuminen yli 2000 alkuperäisessä monistuksessa; Moorea Biocode Project ). Tavallisessa DNA-viivakoodauksessa on mahdollista optimoida protokollia, jotta saadaan tietoja näytteistä, joiden monistaminen ei aluksi onnistu. Kun DNA-seosta kuitenkin metaboloidaan, tiettyjen taksonien epäonnistunut monistuminen peittyy muiden näytteessä esiintyvien taksonien amplikonien talteenottoon. Tämä vaikeuttaa protokollan optimointia. Lisäksi joidenkin odotettujen sekvenssien palautuminen antaa vääränlaista luottamusta tuloksena olevaan tietokokonaisuuteen.
Monissa mikrobiologisissa ekologisissa tutkimuksissa on osoitettu, että vaikka epäsopivat alukkeet pystyvät monistamaan DNA:ta erilaisista bakteerigenomeista, kohteet, joilla ei ole täydellistä homologiaa, monistuvat alhaisemmalla ja usein ennalta arvaamattomalla tehokkuudella . Joissakin tapauksissa jopa yhden emäksen yhteensopimattomuus voi johtaa 1000-kertaiseen runsauden aliarviointiin , mikä tekee joistakin bakteereista ”lähes havaitsemattomia” pilottiyhteisöjen HTS-analyyseissä. Useita alukevariantteja sisältävien cocktaileiden käyttö voi lisätä amplifikaation onnistumisprosenttia tavanomaisessa DNA-viivakoodauksessa, mutta viimeaikaisten arvioiden perusteella ne eivät ole ihmelääke COI-metabarkoodauksessa. Tämä johtuu todennäköisesti siitä, että COI-alukkeiden sitoutumisalueiden labiilit kohdat poikkeavat toisistaan nopeasti (kuva 2). Siksi vaihtelun huomioon ottamiseksi tarvittavien alukkeiden määrä jopa suhteellisen läheisesti sukua olevien taksonien välillä muuttuu nopeasti kestämättömäksi. Lisäksi kaikki nämä alukesekvenssit eivät ole tehokkaita DNA:n monistamisessa (lisätietoja sähköisessä lisäaineistossa). COI-metabaarikoodin alukkeiden suunnittelun kannalta erillinen ongelma on se, että vaihtelu vähemmän rajoitetuissa paikoissa kyllästyy kaukana toisistaan olevien taksonien välillä homoplasian seurauksena (kuva 2). Tämä sekvenssien eroavuuden tasanko vaikeuttaa ryhmäkohtaisten alukkeiden kehittämistä (esim. kohdistamalla ne kaikkiin hyönteisiin, mutta jättämällä pois muut maanpäälliset niveljalkaiset).
Näistä rajoitteista huolimatta on kehitetty useita COI-alkuaineita nimenomaan metabarkoodausta varten. Esimerkiksi on julkaistu useita COI:n ”mini-barcoding”-alukkeita, joilla monistetaan lyhyitä fragmentteja, jotka voidaan ottaa talteen hajonneesta templaatista, vaikka alukkeiden paikat vaihtelevat kohdelajeittain ja vaihtoehtoiset markkerit vaikuttavat sopivammilta (kuva 1). Metabarkoodausaloitincocktaileja on myös suunniteltu monistamaan koko COI-viivakoodausalue meriselkärangattomien merieläimissä, vaikka alle 50 prosenttia sitoutumiskohtien nukleotideista on konservoituneita kohteena olevissa taksoneissa.
Onko parasta hyväksyä vääristymät ja pitäytyä vakiomarkkereissa metabarkoodausta varten?
Voidaan väittää, että COI-alkukoodien erilaisten sitoutumisten aiheuttamat vääristymät ovat hallinnassa, jos ne ovat johdonmukaisia kaikissa verrattavissa olevissa näytteissä, ja sekvensointi on suoritettu riittävällä syvyydellä. Lisäksi tätä voitaisiin pitää pienenä myönnytyksenä, kun otetaan huomioon, että COI mahdollistaa pääsyn suureen määrään taksonomisesti todennettuihin näytteisiin liittyviä viivakoodisekvenssejä. Katsomme kuitenkin, että parhaimmatkin COI-metabarcoding-tutkimukset tuovat esiin tämän merkkiaineen rajoitukset ja osoittavat, että vaihtoehtoja olisi harkittava vakavasti. Esimerkiksi Yu ym. tutkivat niveljalkaisten näytteiden COI:n massasekvensointia niveljalkaisten näytteistä biodiversiteettianalyysiä varten ja havaitsivat, että pudotusprosentit olivat 24 prosentista (yli 2 lukukynnys) 36 prosenttiin (yli 5 lukukynnys) verrattuna tunnettuihin syötteisiin, vaikka käytettiin täysin degeneroituneita alukkeita. Vaikka tuloksena saadut tiedot tuottavat α- ja β- monimuotoisuuden estimaatteja, jotka ovat hyödyllisiä luonnonsuojelun kannalta tärkeiden päätösten tekemisessä, tämän tason harhan hyväksyminen rajoittaa varmasti tulevia sovelluksia. Poistumiselle alttiiden taksonien esiintymisen vaihtelu näyteryhmien välillä voi mahdollisesti vääristää kaikkien taksonien suhteellista merkitystä, mikä vaikeuttaa biologisesti merkityksellisten erojen arviointia ryhmien välillä.
Jos alustavat metodologiset arvioinnit eivät ole kattavia eikä aineiston rajoituksia oteta huomioon, tietojen tulkinta on täynnä vaikeuksia. Äskettäisessä tutkimuksessa, jossa arvioitiin hyönteisten metabarkkoodausmarkkereita, laajalti käytetyillä ”yleisten niveljalkaisten” COI-metabarkkoodausalukoilla saatiin talteen vain 43-64 prosenttia niveljalkaisten DNA:n tunnetun sekoituksen lajeista. Takautuva arviointi ekologisista tutkimuksista, jotka perustuvat näillä alukkeilla tuotettuihin tietoihin, on vaikeaa; joissakin tapauksissa johtopäätökset saattavat kuitenkin johtua pikemminkin alukkeiden mieltymyksistä kuin biologiasta.
Sekvensointisyvyyden lisääminen huonosti monistettujen markkereiden havaitsemisen mahdollistamiseksi ei todennäköisesti ole vankka ratkaisu, koska samalla lisääntyy vähäisestä kontaminaatiosta ja kimeerisistä molekyyleistä peräisin olevien sekvenssien määrä. Menetelmät, joita käytetään näiden vähäisten taustavirheiden suodattamiseen ja oikeutettujen harvinaisten sekvenssien tunnistamiseen, ovat epätäydellisiä. Lisäksi vähäisten virheiden sisällyttämisellä metabolisen koodauksen tietokokonaisuuksiin voi olla suhteettoman suuri vaikutus, koska yhteenvedot ovat tyypillisesti esiintyvyyspohjaisia (eli läsnäolo/poissaolo) eivätkä sisällä tietoa sekvenssien runsaudesta.
Vaikka suuri COI-vertailutietokanta on tämän markkerin vahva myyntivaltti, monissa COI-metabolisen koodauksen tutkimuksissa löydetyt sekvenssit liitetään toiminnallisiin taksonomisiin yksiköihin (operational taxonomic units (OTU)) pikemminkin kuin että ne tarjoaisivat korkearesoluutioisia taksonomisia tietoja . Tämä heijastaa osittain mikrobi-ekologien omaksumia bioinformatiikan lähestymistapoja, mutta myös maailmanlaajuisen COI-tietokannan puutteellista kattavuutta. COI-vertailusekvenssien laaja kokoelma voi auttaa parantamaan laajaa taksonomista luokittelua (esim. perheeseen tai sukuun), mutta monissa tutkimuksissa tarvitaan paikallisesti kehitettyjä tietokantoja, jos tarkoituksena on siirtyä pois OTU-indikaattoreista ja palata takaisin biologiaan . Tämä avaa mahdollisuuden sekvensoida muita kuin vakiomuotoisia viivakoodimerkkejä, jotka soveltuvat paremmin metabarkoodaukseen, jos se katsotaan tarkoituksenmukaiseksi. Joustavuus sen suhteen, mitä merkkiainetta käytetään metabarkoodaukseen, on välttämätöntä joissakin eläinryhmissä, kuten sukkulamadoissa, joissa COI ei tunnetusti sovellu sekvenssien monimuotoisuuden vuoksi. Samankaltaisia ongelmia on myös ”virallisten” kasvien viivakoodien kohdalla, minkä vuoksi monissa kasvien metabarkkoodaustutkimuksissa on valittu ”epävirallisia” markkereita.
Miten tästä eteenpäin?
Metabarkkoodauksen tarkkuus riippuu pitkälti markkerin valinnasta, mutta täydellistä metabarkkoodausmarkkeria ei valitettavasti ole olemassa. Sen sijaan paras markkerivalinta tulee olemaan tutkimuskohtainen. Erittäin konservoituneiden alukkeiden suunnittelussa ribosomaalisen RNA:n (rRNA) geeneissä havaittu mosaiikkimainen variaatiokuvio on usein erittäin hyödyllinen (kuva 1). Monet eläinten metabarkoodausyhteisön jäsenet ovat jo ottaneet nämä geenit käyttöön, ja ne ovat vakiomarkkereita sienien ja bakteerien/arkaalien tunnistamisessa. Eläinten osalta ydin-rRNA-geenit tarjoavat hyvin laajan taksonomisen kattavuuden mutta heikomman taksonomisen resoluution, kun taas mitokondriaaliset rRNA-geenit tarjoavat samankaltaisen taksonomisen resoluution kuin COI-geenit, mutta ne mahdollistavat tyypillisesti konservoidumpien alukkeiden suunnittelun (kuva 1). RRNA-geenisekvenssien luokittelussa taksoneihin havaitut vaikeudet, jotka johtuvat kyvyttömyydestä kohdistaa sekvenssejä täsmällisesti, voidaan suurelta osin voittaa käyttämällä kohdistautumattomia menetelmiä . RRNA:ta koodaavien alueiden pituusvaihtelut voivat kuitenkin mahdollisesti aiheuttaa taksonikohtaisia eroja sekvenssien talteenotossa. On myös totta, että proteiinigeenien helpompi kohdistaminen mahdollistaa joidenkin sekvensointivirheiden korjaamisen . Tärkeää on, että erilaisia mahdollisia alukkeita ja tuloksena saatavien amplikonien taksonomista erottelukykyä olisi harkittava huolellisesti kaikissa metabarcoding-sovelluksissa. Alukkeet voidaan helposti arvioida in silico käyttämällä saatavilla olevia ohjelmia (esim. ecoPCR ); empiirinen testaus antaa lisävarmuutta siitä, että alukkeet soveltuvat tiettyyn sovellukseen.
Suunnitelmissamme on, että metabarkoodauksessa tullaan lopulta rutiininomaisesti sekvensoimaan useita viivakoodimerkkejä kustakin näytteestä . Eri taksonomisille tasoille suunnatut markkerit voivat ratkaista taksonomisen laajuuden ja resoluution välisen kompromissin. Vertailukelpoista taksonomista tietoa tarjoavat markkerit voivat toimia sisäisinä kontrolleina; ne olisivat erityisen hyödyllisiä validoinnissa tapauksissa, joissa alukkeiden ja mallien yhteensopimattomuus on mahdollinen ongelma. Metabarkkoodausmenetelmiä, jotka perustuvat rikastetun mtDNA:n massasekvensointiin ilman monistusta, on havainnollistettu proof of concept -tutkimuksessa. Tämä työ voi hyvinkin viitoittaa tulevaisuutta, jossa PCR-alukkeet ovat vähemmän merkityksellisiä; tähän mennessä esitetyt menetelmät edellyttävät kuitenkin ehjiä mtDNA-molekyylejä, eikä niitä voida soveltaa silloin, kun DNA on erittäin pirstaloitunutta. Vaihtoehtoiset markkerien rikastamistekniikat, jotka toimivat erilaisilla malleilla, kuten koettimien kaappaukseen perustuvat menetelmät, saattaisivat soveltua paremmin muille kuin COI-markkereille, jotka sisältävät konservoituneita kohdealueita.
Ymmärrämme, että on tilanteita, joissa COI voisi tällä hetkellä olla ensisijainen vaihtoehto metabolisen koodauksen markkeriksi (esim. silloin, kun taksonominen soveltamisala on rajallinen ja lajitason tunnistaminen on kriittistä, tai silloin, kun olemassa oleva referenssitietokanta on välttämätön). Jos tulevat tekniikat mahdollistavat COI:n vähemmän vääristyneen talteenoton DNA-sekoituksista, COI soveltuisi hyvin metabarkoodaukseen. Vaikka vaihtoehtoisia merkkiaineita käytettäisiinkin, CBOL:n kehittämä DNA-viivakoodausinfrastruktuuri on elintärkeä tälle alalle. Taksonomisesti todennetut tositteet ja niihin liittyvät DNA-uutteet ovat korvaamaton resurssi, joka voisi helpottaa lisämarkkereiden korkean läpimenon karakterisointia. CBOL:n tietokanta, jossa on referenssisekvenssejä, jotka on yhdistetty tosinäytteisiin (mukaan lukien ”epäviralliset” viivakoodisekvenssit), ja pyrkimykset yhdistää CBOL:n taksonominen metatieto julkisesti saatavilla oleviin sekvensseihin GenBankissa, ovat yhtä hyödyllisiä. Olemme innostuneita siitä, että metabarkoodaus tarjoaa nopeamman ja edullisemman menetelmän eläinten biologisen monimuotoisuuden mittaamiseen, mutta markkerien valintaa on tutkittava tarkemmin, ja käytettävissä olevia markkerivaihtoehtoja on laajennettava luotettavuuden parantamiseksi.
Tietojen saatavuus
GenBankista poimitut ja kuvioiden 1 ja 2 rakentamisessa käytetyt DNA-sekvenssit on talletettu sähköisenä lisätietona.
Kiitokset
Kiitämme kollegojamme keskusteluista tästä aiheesta. Kiitämme myös kolmea arvioijaa kriittisistä kommenteista, jotka auttoivat parantamaan käsikirjoitusta.
Rahoitusselvitys
B.D. ja S.J. saivat toiminta-apurahoja Australian Antarctic Science Program -ohjelmalta (AAS-projektit 4014 ja 4313).
Alkuhuomautukset
- 1
Taberlet P, Coissac E, Hajibabaei M& Rieseberg LH. 2012Environmental DNA. Mol. Ecol. 21, 1789-1793. (doi:10.1111/j.1365-294X.2012.05542.x). Crossref, PubMed, ISI, Google Scholar
- 2
Yu DW, Ji Y, Emerson BC, Wang X, Ye C, Yang C& Ding Z. 2012Biodiversity soup: metabarcoding of arthropods for rapid biodiversity assessment and biomonitoring. Methods Ecol. Evol. 3, 613-623. (doi:10.1111/j.2041-210X.2012.00198.x). Crossref, ISI, Google Scholar
- 3
Ficetola GF, Coissac E, Zundel S, Riaz T, Shehzad W, Bessiere J, Taberlet P& Pompanon F. 2010An in silico approach for the evaluation of DNA barcodes. BMC Genomics 11, e434. (doi:10.1186/1471-2164-11-434). Crossref, PubMed, ISI, Google Scholar
- 4
Geller J, Meyer C, Parker M& Hawk H. 2013Redesign of PCR primers for mitochondrial cytochrome c oxidase subunit I for marine invertebrates and application in all-taxa biotic surveys. Mol. Ecol. Resour. 13, 851-861. (doi:10.1111/1755-0998.12138). Crossref, PubMed, ISI, Google Scholar
- 5
Klindworth A, Pruesse E, Schweer T, Peplies J, Quast C, Horn M& Glockner FO. 2013Evaluation of general 16S ribosomal RNA gene PCR primers for classical and next-generation sequencing-based diversity studies. Nucleic Acids Res. 41, e1. (doi:10.1093/nar/gks808). Crossref, PubMed, ISI, Google Scholar
- 6
Bru D, Martin-Laurent F& Philippot L. 2008Yksittäisen alukkeen ja mallin epäsuhdan haitallisen vaikutuksen kvantitatiivinen määrittäminen reaaliaikaisella PCR:llä käyttäen esimerkkinä 16S rRNA-geeniä. Appl. Environ. Microbiol. 74, 1660-1663. (doi:10.1128/aem.02403-07). Crossref, PubMed, ISI, Google Scholar
- 7
Schloss PD, Gevers D& Westcott SL. 2011Reducing the effects of PCR amplification and sequencing artifacts on 16S rRNA-based studies. PLoS ONE 6, e27310. (doi:10.1371/journal.pone.0027310). Crossref, PubMed, ISI, Google Scholar
- 8
Clarke LJ, Soubrier J, Weyrich LS& Cooper A. In press.Environmental metabarcodes for insects: in silico PCR reveals potential for taxonomic bias. Mol. Ecol. Resour. (doi:10.1111/1755-0998.12265). ISI, Google Scholar
- 9
Ji Y, et al.2013Reliable, verifiable and efficient monitoring of biodiversity via metabarcoding. Ecol. Lett. 16, 1245-1257. (doi:10.1111/ele.12162). Crossref, PubMed, ISI, Google Scholar
- 10
De Barba M, Miquel C, Boyer F, Mercier C, Rioux D, Coissac E& Taberlet P. 2014DNA metabarcoding multiplexing and validation of data accuracy for diet assessment: application to omnivorous diet. Mol. Ecol. Resour. 14, 306-323. (doi:10.1111/1755-0998.12188). Crossref, PubMed, ISI, Google Scholar
- 11
Leray M, Yang JY, Meyer CP, Mills SC, Agudelo N, Ranwez V, Boehm JT& Machida RJ. 2013A new versatile primer set targeting a short fragment of the mitochondrial COI region for metabarcoding metazoan diversity: application for characterizing coral reef fish gut contents. Front. Zool. 10, e34. (doi:10.1186/1742-9994-10-34). Crossref, PubMed, ISI, Google Scholar
- 12
Little DP. 2011DNA-viivakoodisekvenssien tunnistaminen taksonomisen hierarkian ja taksonin sisäisen vaihtelun avulla. PLoS ONE 6, e20552. (doi:10.1371/journal.pone.0020552). Crossref, PubMed, ISI, Google Scholar
- 13
Deagle BE, Kirkwood R& Jarman SN. 2009Analysis of Australian fur seal diet by pyrosequencing prey DNA in faeces. Mol. Ecol. 18, 2022-2038. (doi:10.1111/j.1365-294X.2009.04158.x). Crossref, PubMed, ISI, Google Scholar
- 14
Zhou X, et al.2013Ultra-deep sequencing enables high-fidelity recovery of biodiversity for bulk arthropod samples without PCR amplification. GigaScience 2, 4. (doi:10.1186/2047-217X-2-4). Crossref, PubMed, ISI, Google Scholar
- 15
Shokralla S, Gibson JF, Nikbakht H, Janzen DH, Hallwachs W& Hajibabaei M. 2014Next-generation DNA-viivakoodaus: seuraavan sukupolven sekvensoinnin käyttö DNA-viivakoodien talteenoton tehostamiseksi ja nopeuttamiseksi yksittäisistä näytteistä. Mol. Ecol. Resour. 14, 892-901. (doi:10.1111/1755-0998.12236). PubMed, ISI, Google Scholar
.