DNA metabarcoding and the cytochrome c oxidase subunit I marker: not a perfect match

sie 23, 2021
admin

Wprowadzenie

Dostępność niedrogiego sekwencjonowania DNA o wysokiej wydajności (HTS) otworzyła nowy świat możliwości w badaniach bioróżnorodności opartych na DNA. Podejście to jest najbardziej zaawansowane w dziedzinie mikrobiologii, gdzie taksonomia molekularna ma długą tradycję, a analizy obecnie regularnie wykorzystują HTS do charakteryzowania markerów w celu oszacowania różnorodności taksonomicznej, jak i funkcjonalnej. Amplifikowane geny „kodów kreskowych” są również coraz częściej wykorzystywane do identyfikacji roślin, bezkręgowców i kręgowców obecnych w mieszaninach DNA – uzyskanych poprzez ekstrakcję całkowitego DNA ze zbioru osobników lub z próbek środowiskowych (np. gleby, wody i odchodów). Ta charakterystyka kodów kreskowych DNA z mieszanin DNA została określona jako „metabarcoding” .

Poza wymogiem niedrogich i wiarygodnych danych sekwencyjnych, metabarcoding wymaga również odpowiedniego markera. Do standardowego kodowania paskowego DNA pojedynczych okazów zwierząt, Consortium for the Barcode of Life (CBOL) przyjęło mitochondrialny gen podjednostki I oksydazy cytochromu c (COI). Marker ten posiada wymagane cechy: jego zmienność zwykle pozwala na rozróżnienie na poziomie gatunku, może być amplifikowany metodą PCR z większości zwierząt, a związana z nim baza danych może się obecnie poszczycić milionami zweryfikowanych taksonomicznie sekwencji DNA. Wydaje się, że jest to oczywisty wybór markera w rodzącej się dziedzinie metabarcoding zwierząt, i został on wykorzystany w wielu ostatnich badaniach, w tym zastosowań w badaniach bioróżnorodności, monitorowania środowiska i badań żywieniowych (przykładowe badania podane w elektronicznych materiałów uzupełniających).

Więc co jest nie tak z podjednostką I oksydazy cytochromu c jako markerem metabarcodingowym?

Choć COI może być amplifikowany z ogromnego zakresu gatunków, zawsze uznawano, że miejsca wiązania primera w tym genie kodującym białko nie są wysoce konserwowane. Mutacje na wielu pozycjach nukleotydów nie zmieniają kodowanego białka (zwykle ostatnia baza tripletu kodującego) i są mniej ograniczone przez selekcję. W związku z tym zaprojektowano dużą liczbę primerów do amplifikacji COI z różnych grup zwierząt (obecnie ponad 400 primerów COI w bazie primerów CBOL). Opisano również startery „uniwersalne” amplifikujące region kodu paskowego COI, ale analiza in silico wykazała, że są one słabo konserwowane (; ryc. 1). Badania empiryczne wskazują, że ta zmienność primerów skutkuje niewiarygodną amplifikacją, gdy próbki zawierają gatunki obejmujące szeroki zakres taksonomiczny (np. 44% sukcesu w ponad 2000 wstępnych amplifikacji; Moorea Biocode Project ). W standardowym barcodingu DNA możliwa jest optymalizacja protokołów w celu uzyskania danych z okazów, które początkowo nie ulegają amplifikacji. Jednakże, podczas metabarcodingu mieszaniny DNA, nieudana amplifikacja poszczególnych taksonów jest maskowana przez odzyskanie amplikonów z innych taksonów obecnych w próbce. Utrudnia to optymalizację protokołu. Ponadto, odzyskanie niektórych oczekiwanych sekwencji daje fałszywe zaufanie do wynikowego zestawu danych.

Rysunek 1.

Rysunek 1. Zmienność potencjalnych markerów metabarcodingowych u reprezentatywnych owadów (40 gatunków z 25 różnych rzędów): (a) mtDNA COI (region 5′), (b) mtDNA 16S (region 5′), (c) mtDNA 12S i (d) jądrowy 18S (region 5′). Dane zostały pobrane z pełnych zestawów danych mtDNA i porównywalnych sekwencji jądrowego genu 18S rRNA. Entropia reprezentuje miarę zmienności w danej pozycji, a cieniowanie w podświetlonych miejscach starterów pokazuje cztery nukleotydy. Startery COI zostały zastosowane w kilkunastu badaniach metabarcodingowych; szczegóły w elektronicznym materiale uzupełniającym. (Wersja online w kolorze.)

Wiele badań z zakresu ekologii drobnoustrojów wykazało, że chociaż niedopasowane startery są w stanie amplifikować DNA z różnych genomów bakteryjnych, cele bez idealnej homologii amplifikują się z niższą i często nieprzewidywalną wydajnością. W niektórych przypadkach, nawet niedopasowanie jednej zasady może powodować 1000-krotne niedoszacowanie liczebności, czyniąc niektóre bakterie „prawie niewykrywalnymi” w analizie HTS wyśmiewanych społeczności. Wykorzystanie koktajli z kilkoma wariantami starterów może zwiększyć współczynnik sukcesu amplifikacji w standardowym barcodingu DNA, ale w oparciu o ostatnie oceny nie są one panaceum na metabarcoding COI . Wynika to prawdopodobnie z faktu, że miejsca labilne w regionach wiązania starterów COI szybko się rozchodzą (ryc. 2). Dlatego liczba starterów wymaganych do uwzględnienia zmienności, nawet między stosunkowo blisko spokrewnionymi taksonami, szybko staje się nie do utrzymania. Ponadto, nie wszystkie sekwencje starterów będą skuteczne w amplifikacji DNA (dalsza dyskusja w elektronicznym materiale uzupełniającym). Osobnym problemem przy projektowaniu starterów dla metabarokodu COI jest to, że zmienność w mniej ograniczonych miejscach staje się nasycona między odległymi taksonami w wyniku homoplazji (ryc. 2). To plateau w rozbieżności sekwencji utrudnia opracowanie starterów specyficznych dla danej grupy (np. ukierunkowanych na wszystkie owady, ale z wyłączeniem innych stawonogów lądowych).

Rysunek 2.

Rysunek 2. Zmienność regionów wiązania starterów w dwóch markerach mtDNA (COI i 16S) na różnych poziomach taksonomicznych. Porównywane miejsca wiązania obejmują te dla primerów powszechnie stosowanych do amplifikacji pełnej długości markera kodu kreskowego COI, te dla wewnętrznego primera metabarcodingowego COI i analogicznych primerów mtDNA 16S. Niedopasowania poniżej poziomu klasy dotyczą porównań między sekwencjami reprezentatywnych ryb promieniopłetwych (klasa Actinopterygii); dla porównań międzyklasowych uwzględniono reprezentatywne Vertebrata (n = 155 sekwencji; szczegóły w elektronicznym materiale uzupełniającym).

Niezależnie od tych ograniczeń, kilka zestawów primerów COI zostało opracowanych specjalnie dla metabarcodingu. Na przykład opublikowano szereg starterów COI „mini-barcoding” do amplifikacji krótkich fragmentów możliwych do odzyskania ze zdegradowanego szablonu, mimo że miejsca starterów różnią się między gatunkami docelowymi i alternatywne markery wydają się bardziej odpowiednie (ryc. 1). Koktajle starterów do metabarcodingu zostały również zaprojektowane do amplifikacji pełnego regionu kodowania paskowego COI u bezkręgowców morskich, mimo że mniej niż 50% nukleotydów w miejscach wiązania jest konserwowanych u taksonów docelowych.

Czy najlepiej jest zaakceptować uprzedzenia i trzymać się standardowych markerów kodów paskowych dla metabarcodingu?

Można by argumentować, że uprzedzenia wprowadzane przez różne wiązania starterów COI są do opanowania, jeśli są one spójne w porównywanych próbkach, a sekwencjonowanie jest przeprowadzane na wystarczającą głębokość. Ponadto, można to uznać za niewielkie ustępstwo, biorąc pod uwagę, że COI umożliwia dostęp do dużej liczby sekwencji kodów kreskowych powiązanych z taksonomicznie zweryfikowanymi okazami. Uważamy jednak, że nawet najlepsze badania metabarcodingowe COI podkreślają ograniczenia tego markera i wskazują, że należy poważnie rozważyć alternatywne rozwiązania. Na przykład, praca Yu et al. nad masowym sekwencjonowaniem COI z próbek stawonogów do analizy bioróżnorodności udokumentowała wskaźniki dropout od 24% (próg ponad 2 odczytów) do 36% (próg ponad 5 odczytów) w porównaniu do znanych danych wejściowych, nawet przy użyciu w pełni zdegenerowanych primerów. Podczas gdy dane wynikowe dają szacunki α- i β-różnorodności użyteczne dla decyzji związanych z ochroną przyrody, akceptacja tego poziomu błędu systematycznego z pewnością ograniczy przyszłe zastosowania. Różnice w występowaniu taksonów podatnych na dropout pomiędzy grupami próbek mogą potencjalnie przekłamać względne znaczenie wszystkich taksonów, utrudniając ocenę biologicznie istotnych różnic pomiędzy grupami.

Gdy wstępne oceny metodologiczne nie są kompleksowe, a ograniczenia zbioru danych nie są brane pod uwagę, interpretacja danych jest najeżona trudnościami. W niedawnym badaniu oceniającym markery metabarcodingowe owadów, zestaw szeroko stosowanych starterów metabarcodingowych COI „generic arthropod” zdołał odzyskać jedynie od 43 do 64% gatunków w znanej mieszaninie DNA stawonogów. Retrospektywna ocena badań ekologicznych opartych na danych uzyskanych z tych starterów jest trudna; jednak w niektórych przypadkach preferencje dotyczące starterów, a nie biologii, mogą wpływać na wnioski.

Zwiększanie głębokości sekwencjonowania w celu umożliwienia wykrywania słabo amplifikowanych markerów prawdopodobnie nie będzie solidnym rozwiązaniem, ponieważ jednocześnie wzrośnie liczba sekwencji pochodzących z drobnych zanieczyszczeń i cząsteczek chimerycznych. Metody stosowane do odfiltrowania tych niskopoziomowych błędów tła i identyfikacji legalnych rzadkich sekwencji są niedoskonałe. Ponadto włączenie błędów niskiego poziomu do zbiorów danych metabarcodingu może mieć nieproporcjonalny wpływ, ponieważ podsumowania są zwykle oparte na częstości występowania (tj. obecność/nieobecność) i nie zawierają informacji o obfitości sekwencji.

Mimo że duża referencyjna baza danych COI jest silnym argumentem przemawiającym za tym markerem, wiele badań metabarcodingu COI łączy odzyskane sekwencje z operacyjnymi jednostkami taksonomicznymi (OTU), a nie dostarcza informacji taksonomicznych o wysokiej rozdzielczości. Częściowo odzwierciedla to przyjęcie podejścia bioinformatycznego przez ekologów mikroorganizmów, ale także brak pokrycia w globalnej bazie danych COI. Duża kolekcja sekwencji referencyjnych COI może pomóc w poprawie szerokiego przypisania taksonomicznego (tj. do rodziny lub rodzaju), ale w wielu badaniach wymagane będą lokalnie opracowane bazy danych, jeśli intencją jest odejście od wskaźników OTU i powrót do biologii. Otwiera to możliwość sekwencjonowania niestandardowych markerów kodów kreskowych lepiej dostosowanych do metabarcodingu, jeśli zostanie to uznane za stosowne. Elastyczność w wyborze markera do metabarcodingu jest konieczna w przypadku niektórych grup zwierząt, takich jak nicienie, gdzie uznaje się, że COI jest nieodpowiedni ze względu na różnorodność sekwencji. Istnieją również podobne problemy dla „oficjalnych” kodów kreskowych roślin, w wyniku czego wiele badań nad metabarcodingiem roślin wybiera „nieoficjalne” markery.

Jaka jest droga naprzód?

Dokładność metabarcodingu w dużym stopniu zależy od wyboru markera, ale niestety nie ma idealnego markera metabarcodingowego. Zamiast tego, najlepszy wybór markera będzie specyficzny dla danego badania. Do projektowania wysoce konserwatywnych starterów, mozaikowy wzór zmienności widoczny w genach rybosomalnego RNA (rRNA) jest często bardzo przydatny (ryc. 1). Geny te zostały już zaadoptowane przez wiele osób w społeczności zajmującej się metabarcodingiem zwierząt i są standardowymi markerami do identyfikacji grzybów i bakterii/archewek. W przypadku zwierząt, jądrowe geny rRNA zapewniają bardzo szerokie pokrycie taksonomiczne, ale niższą rozdzielczość taksonomiczną, podczas gdy mitochondrialne geny rRNA zapewniają rozdzielczość taksonomiczną podobną do COI, ale zazwyczaj pozwalają na projektowanie bardziej konserwatywnych starterów (ryc. 1). Trudności w przyporządkowaniu sekwencji genów rRNA do taksonów, wynikające z niemożności dokładnego wyrównania sekwencji, można w dużej mierze przezwyciężyć stosując metody bezrównoległe. Jednak zróżnicowanie długości regionów kodujących rRNA może potencjalnie powodować specyficzne dla taksonów różnice w odzyskiwaniu sekwencji. Prawdą jest również, że łatwiejsze wyrównanie genów białkowych pozwala na korektę niektórych błędów sekwencjonowania. Ważne jest to, że w każdym zastosowaniu metabarcodingu należy dokładnie rozważyć szereg potencjalnych starterów i taksonomiczną rozdzielczość otrzymanych amplikonów. Startery można łatwo ocenić in silico za pomocą dostępnych programów (np. ecoPCR ); testy empiryczne zapewniają dalszą pewność, że startery są odpowiednie do konkretnego zastosowania. Przewidujemy, że metabarcoding będzie ostatecznie rutynowo sekwencjonował kilka markerów kodów kreskowych z każdej próbki. Markery ukierunkowane na różne poziomy taksonomiczne mogą przezwyciężyć kompromis pomiędzy szerokością taksonomiczną a rozdzielczością. Markery dostarczające porównywalnych informacji taksonomicznych mogą działać jako kontrole wewnętrzne; byłyby one szczególnie przydatne do walidacji w przypadkach, gdy niedopasowanie primera do szablonu stanowi potencjalny problem. Metody metabarcodingu polegające na masowym sekwencjonowaniu wzbogaconego mtDNA bez amplifikacji zostały zilustrowane w badaniu typu proof of concept . Praca ta może wskazywać na przyszłość, w której startery PCR będą miały mniejsze znaczenie; jednakże metody przedstawione do tej pory wymagają nienaruszonych cząsteczek mtDNA i nie miałyby zastosowania, gdy DNA jest wysoce pofragmentowane. Alternatywne techniki wzbogacania markerów, które pracują z szeregiem szablonów, takie jak podejścia oparte na wychwytywaniu sond, mogą być lepiej dostosowane do markerów innych niż COI, które zawierają konserwowane regiony docelowe.

Uznajemy, że istnieją sytuacje, w których COI może być obecnie preferowaną opcją jako marker metabarcodingowy (np. gdy zakres taksonomiczny jest ograniczony, a identyfikacja na poziomie gatunku krytyczna, lub gdy istniejąca referencyjna baza danych jest niezbędna). W istocie, jeśli przyszłe techniki pozwolą na mniej stronnicze odzyskiwanie COI z mieszanin DNA, COI dobrze nadawałby się do metabarcodingu. Nawet jeśli zostaną przyjęte alternatywne markery, infrastruktura barcode’u DNA opracowana przez CBOL będzie miała zasadnicze znaczenie dla tej dziedziny. Zweryfikowane taksonomicznie okazy bonitacyjne i związane z nimi ekstrakty DNA są nieocenionym zasobem, który mógłby ułatwić wysokowydajną charakterystykę dodatkowych markerów. Baza danych CBOL z sekwencjami referencyjnymi powiązanymi z okazami bonitacyjnymi (w tym „nieoficjalnymi” sekwencjami kodów kreskowych), oraz wysiłki zmierzające do powiązania metadanych taksonomicznych CBOL z publicznie dostępnymi sekwencjami w GenBank, są równie korzystne. Jesteśmy podekscytowani perspektywą metabarcodingu zapewniającego szybszą i tańszą metodę pomiaru bioróżnorodności zwierząt, ale wybór markerów wymaga większej kontroli, a dostępne możliwości wyboru markerów muszą zostać poszerzone w celu poprawy wiarygodności.

Dostępność danych

Sekwencje DNA wyodrębnione z GenBank i użyte do konstrukcji rycin 1 i 2 są zdeponowane jako elektroniczne dane uzupełniające.

Podziękowania

Dziękujemy naszym kolegom za dyskusje na ten temat. Dziękujemy również trzem recenzentom za dostarczenie krytycznych uwag, które pomogły poprawić manuskrypt.

Oświadczenie o finansowaniu

B.D. i S.J. otrzymali granty operacyjne z Australian Antarctic Science Program (AAS Projects 4014 i 4313).

Przypisy

© 2014 The Author(s) Published by the Royal Society. All rights reserved.
  • 1
    Taberlet P, Coissac E, Hajibabaei M& Rieseberg LH. 2012Environmental DNA. Mol. Ecol. 21, 1789-1793. (doi:10.1111/j.1365-294X.2012.05542.x). Crossref, PubMed, ISI, Google Scholar
  • 2
    Yu DW, Ji Y, Emerson BC, Wang X, Ye C, Yang C& Ding Z. 2012Biodiversity soup: metabarcoding of arthropods for rapid biodiversity assessment and biomonitoring. Methods Ecol. Evol. 3, 613-623. (doi:10.1111/j.2041-210X.2012.00198.x). Crossref, ISI, Google Scholar
  • 3
    Ficetola GF, Coissac E, Zundel S, Riaz T, Shehzad W, Bessiere J, Taberlet P& Pompanon F. 2010An in silico approach for the evaluation of DNA barcodes. BMC Genomics 11, e434. (doi:10.1186/1471-2164-11-434). Crossref, PubMed, ISI, Google Scholar
  • 4
    Geller J, Meyer C, Parker M& Hawk H. 2013Redesign of PCR primers for mitochondrial cytochrome c oxidase subunit I for marine invertebrates and application in all-taxa biotic surveys. Mol. Ecol. Resour. 13, 851-861. (doi:10.1111/1755-0998.12138). Crossref, PubMed, ISI, Google Scholar
  • 5
    Klindworth A, Pruesse E, Schweer T, Peplies J, Quast C, Horn M& Glockner FO. 2013Evaluation of general 16S ribosomal RNA gene PCR primers for classical and next-generation sequencing-based diversity studies. Nucleic Acids Res. 41, e1. (doi:10.1093/nar/gks808). Crossref, PubMed, ISI, Google Scholar
  • 6
    Bru D, Martin-Laurent F& Philippot L. 2008Quantification of the detrimental effect of a single primer-template mismatch by real-time PCR using the 16S rRNA gene as an example. Appl. Environ. Microbiol. 74, 1660-1663. (doi:10.1128/aem.02403-07). Crossref, PubMed, ISI, Google Scholar
  • 7
    Schloss PD, Gevers D& Westcott SL. 2011Reducing the effects of PCR amplification and sequencing artifacts on 16S rRNA-based studies. PLoS ONE 6, e27310. (doi:10.1371/journal.pone.0027310). Crossref, PubMed, ISI, Google Scholar
  • 8
    Clarke LJ, Soubrier J, Weyrich LS& Cooper A. In press.Environmental metabarcodes for insects: in silico PCR reveals potential for taxonomic bias. Mol. Ecol. Resour. (doi:10.1111/1755-0998.12265). ISI, Google Scholar
  • 9
    Ji Y, et al.2013Reliable, verifiable and efficient monitoring of biodiversity via metabarcoding. Ecol. Lett. 16, 1245-1257. (doi:10.1111/ele.12162). Crossref, PubMed, ISI, Google Scholar
  • 10
    De Barba M, Miquel C, Boyer F, Mercier C, Rioux D, Coissac E& Taberlet P. 2014DNA metabarcoding multiplexing and validation of data accuracy for diet assessment: application to omnivorous diet. Mol. Ecol. Resour. 14, 306-323. (doi:10.1111/1755-0998.12188). Crossref, PubMed, ISI, Google Scholar
  • 11
    Leray M, Yang JY, Meyer CP, Mills SC, Agudelo N, Ranwez V, Boehm JT& Machida RJ. 2013A new versatile primer set targeting a short fragment of the mitochondrial COI region for metabarcoding metazoan diversity: application for characterizing coral reef fish gut contents. Front. Zool. 10, e34. (doi:10.1186/1742-9994-10-34). Crossref, PubMed, ISI, Google Scholar
  • 12
    Little DP. 2011DNA barcode sequence identification incorporating taxonomic hierarchy and within taxon variability. PLoS ONE 6, e20552. (doi:10.1371/journal.pone.0020552). Crossref, PubMed, ISI, Google Scholar
  • 13
    Deagle BE, Kirkwood R& Jarman SN. 2009Analysis of Australian fur seal diet by pyrosequencing prey DNA in faeces. Mol. Ecol. 18, 2022-2038. (doi:10.1111/j.1365-294X.2009.04158.x). Crossref, PubMed, ISI, Google Scholar
  • 14
    Zhou X, et al.2013Ultra-deep sequencing enables high-fidelity recovery of biodiversity for bulk arthropod samples without PCR amplification. GigaScience 2, 4. (doi:10.1186/2047-217X-2-4). Crossref, PubMed, ISI, Google Scholar
  • 15
    Shokralla S, Gibson JF, Nikbakht H, Janzen DH, Hallwachs W& Hajibabaei M. 2014Next-generation DNA barcoding: using next-generation sequencing to enhance and accelerate DNA barcode capture from single specimens. Mol. Ecol. Resour. 14, 892-901. (doi:10.1111/1755-0998.12236). PubMed, ISI, Google Scholar

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.