DNA metabarcoding and the cytochrome c oxidase subunit I marker: not a perfect match
Introduction
Availability of affordable high-throughput DNA sequencing (HTS) has opened a new world of possibilities in DNA-based surveys of biodiversity. Esta abordagem é mais avançada no campo da microbiologia, onde a taxonomia molecular tem uma longa tradição, e as análises agora usam regularmente o HTS para caracterizar marcadores para estimativas de diversidade taxonômica e funcional. Os genes amplificados de ‘código de barras’ também estão sendo cada vez mais utilizados para identificar plantas, invertebrados e vertebrados presentes nas misturas de DNA – obtidos pela extração do DNA total de amostras combinadas ou de amostras ambientais (por exemplo, solo, água e fezes). Esta caracterização de códigos de barras de ADN a partir de misturas de ADN tem sido denominada ‘metabarcodificação’ .
Além da exigência de dados de sequência baratos e fiáveis, a metabarificação também necessita de um marcador adequado. Para a codificação de barras de DNA padrão de amostras de um único animal, o Consortium for the Barcode of Life (CBOL) adotou o gene da subunidade mitocondrial citocondrial c oxidase I (COI). Este marcador tem os atributos necessários: a sua variação geralmente permite a discriminação ao nível da espécie, pode ser amplificado por PCR a partir da maioria dos animais e a base de dados associada apresenta agora milhões de sequências de ADN taxonomicamente verificadas. Parece ser a escolha óbvia do marcador no campo nascente da metabarcodificação animal, e tem sido utilizado em muitos estudos recentes, incluindo aplicações em levantamentos da biodiversidade, monitorização ambiental e estudos dietéticos (exemplos de estudos fornecidos no material suplementar electrónico).
Então o que está errado com a subunidade I do citocromo c oxidase como marcador de metabarcodificação?
Embora o COI possa ser amplificado a partir de uma enorme variedade de espécies, sempre foi reconhecido que os sítios de ligação de primer dentro deste gene codificador de proteínas não são altamente conservados. Mutações em muitas posições de nucleotídeos não alteram a proteína codificada (geralmente a última base do código triplet) e são menos constrangidas pela seleção. Assim, um grande número de primers foi projetado para amplificação de COI de vários grupos animais (atualmente mais de 400 primers COI no banco de dados de primers CBOL). Cartilhas ‘universais’ que amplificam a região do código de barras COI também foram descritas, mas na análise siliciosa mostra que elas estão mal conservadas (; figura 1). Estudos empíricos indicam que esta variabilidade de primers resulta em amplificação não confiável quando as amostras incluem espécies que cobrem uma ampla faixa taxonômica (por exemplo, 44% de sucesso em mais de 2000 amplificações iniciais; Projeto Moorea Biocode ). No código de barras de DNA padrão, é possível otimizar protocolos para obter dados de amostras que inicialmente falham em amplificar. Contudo, quando a metabarcodificação de uma mistura de ADN, a amplificação falhada de determinados taxa é mascarada pela recuperação de amplicões de outros taxa presentes na amostra. Isto torna a optimização do protocolo difícil. Além disso, a recuperação de algumas sequências esperadas dá falsa confiança no conjunto de dados resultante.
Muitos estudos de ecologia microbiana mostraram que, embora os primers não combinados sejam capazes de amplificar o DNA de diversos genomas bacterianos, os alvos sem homologia perfeita amplificam com uma eficiência mais baixa e muitas vezes imprevisível. Em alguns casos, mesmo um único descasamento de base pode produzir uma subestimação de 1000 vezes a abundância, tornando algumas bactérias “quase indetectáveis” na análise HTS de comunidades simuladas. O uso de coquetéis com várias variantes de primer pode aumentar as taxas de sucesso de amplificação em códigos de barras de DNA padrão, mas com base em avaliações recentes, estes não são uma panaceia para a metabarcodificação COI . Isto é provavelmente devido ao fato de que os sítios lábil nas regiões de ligação do primer COI divergem rapidamente (figura 2). Portanto, o número de primers necessários para contabilizar a variabilidade, mesmo entre taxas relativamente relacionadas, torna-se rapidamente insustentável. Além disso, nem todas essas sequências de primers serão eficazes na amplificação do DNA (mais discussão no material eletrônico suplementar). Uma questão separada para o projeto do primer do metabarcódigo COI é que a variação em locais menos restritos se torna saturada entre os taxa distantemente relacionados como resultado da homoplasia (figura 2). Este planalto em sequência de divergência dificulta o desenvolvimento de primers específicos do grupo (por exemplo, visando todos os insetos, mas excluindo outros artrópodes terrestres).
Não obstante estas limitações, vários conjuntos de iniciadores COI foram desenvolvidos especificamente para metabarcodificação. Por exemplo, vários primers COI ‘mini-barcodificação’ para amplificar fragmentos curtos recuperáveis de modelos degradados foram publicados, embora os sítios dos primers variem entre espécies alvo e marcadores alternativos pareçam mais adequados (figura 1). Coquetéis de iniciadores de metabarcodificação também foram projetados para amplificar toda a região de código de barras COI em invertebrados marinhos, apesar de menos de 50% dos nucleotídeos nos locais de ligação serem conservados nos taxa alvos .
É melhor aceitar vieses e aderir a marcadores de código de barras padrão para metabarcodificação?
É possível argumentar que os vieses introduzidos pela ligação diferencial de iniciadores COI são manejáveis se forem consistentes entre as amostras que estão sendo comparadas e o seqüenciamento é realizado a uma profundidade suficiente. Além disso, isto poderia ser considerado uma pequena concessão, dado que o COI permite o acesso a um grande número de sequências de códigos de barras ligadas a amostras taxonomicamente verificadas. No entanto, consideramos que mesmo os melhores estudos de metabarcodificação COI destacam as limitações deste marcador e indicam que alternativas devem ser seriamente consideradas. Por exemplo, o trabalho de Yu et al. sobre seqüenciamento em massa de COI de amostras de artrópodes para análise da biodiversidade documentou taxas de abandono entre 24% (mais de 2 limiares de leitura) e 36% (mais de 5 limiares de leitura) em comparação com insumos conhecidos, mesmo quando se utilizam primers totalmente degenerados. Enquanto os dados resultantes produzem estimativas de α- e β-diversidade útil para decisões relevantes à conservação, a aceitação desse nível de enviesamento certamente limitará futuras aplicações. A variação na ocorrência de taxa propensos a desistir entre grupos de amostras pode potencialmente distorcer a importância relativa de todos os taxa, tornando difícil avaliar diferenças biologicamente relevantes entre grupos.
Quando as avaliações metodológicas preliminares não são abrangentes e as limitações do conjunto de dados não são levadas em conta, a interpretação dos dados é repleta de dificuldades. Em um estudo recente avaliando marcadores de metabarcodificação de insetos, um conjunto de iniciadores de metabarcodificação COI ‘genéricos’ amplamente utilizados só conseguiu recuperar entre 43 e 64% das espécies em uma mistura conhecida de DNA de artrópodes. A avaliação retrospectiva de estudos ecológicos baseados em dados produzidos a partir destes primers é difícil; contudo, em alguns casos, as preferências dos primers em vez da biologia podem estar a conduzir a conclusões.
Aumento da profundidade da sequência para permitir a detecção de marcadores mal amplificados é improvável que seja uma solução robusta, porque haverá um aumento concomitante no número de sequências originárias de pequenas contaminações e moléculas quiméricas . Os métodos utilizados para filtrar estes erros de fundo de baixo nível e identificar sequências raras legítimas são imperfeitos. Além disso, a incorporação de erros de baixo nível em conjuntos de dados de metabarcodificação pode ter uma influência desproporcional, porque os resumos são tipicamente baseados na incidência (isto é, presença/ausência) e não incluem informação sobre a abundância de sequências.
Embora a grande base de dados de referência COI seja um forte ponto de venda para este marcador, muitos estudos de metabarcodificação COI associam sequências recuperadas a unidades taxonómicas operacionais (OTU) em vez de fornecer informação taxonómica de alta resolução . Isto reflecte parcialmente a adopção de abordagens bioinformáticas por parte dos ecologistas microbianos, mas também reflecte a falta de cobertura dentro da base de dados global de COI. A grande colecção de sequências de referência de COI pode ajudar a melhorar as atribuições taxonómicas gerais (isto é, à família ou ao género), mas em muitos estudos serão necessárias bases de dados desenvolvidas localmente se a intenção for afastar-se dos indicadores das OTU e voltar à biologia . Isto abre a possibilidade de sequenciar marcadores de códigos de barras não-padronizados mais adequados para metabarcodificação quando considerado apropriado. A flexibilidade em que os marcadores são usados para metabarcodificação é uma necessidade para alguns grupos animais, tais como nematódeos, onde é reconhecido que o COI é inadequado devido à diversidade de sequências. Existem também problemas semelhantes para os códigos de barras ‘oficiais’ de plantas, resultando em muitos estudos de metabarcodificação de plantas escolhendo marcadores ‘não oficiais’.
Qual o caminho a seguir?
A precisão da metabarcodificação depende muito da escolha do marcador, mas infelizmente não existe um marcador de metabarificação perfeito. Em vez disso, a melhor escolha de marcador vai ser específica para o estudo. Para projetar primers altamente conservados, o padrão de variação do mosaico visto nos genes do RNA ribossômico (rRNA) é freqüentemente muito útil (figura 1). Estes genes já foram adotados por muitos na comunidade de metabarcodificação animal e são marcadores padrão para identificação fúngica e bacteriana/arqueal. Para animais, os genes do rRNA nuclear fornecem uma cobertura taxonômica muito ampla, mas menor resolução taxonômica, enquanto os genes do rRNA mitocondrial fornecem resolução taxonômica semelhante ao COI, mas tipicamente permitem o desenho de primers mais conservados (figura 1). Dificuldades percebidas na atribuição de seqüências de rRNA aos táxons, causadas pela incapacidade de alinhar com precisão as seqüências, podem em grande parte ser superadas usando métodos livres de algarismos. No entanto, a variação de comprimento nas regiões de codificação do rRNA pode potencialmente causar diferenças específicas de taxon na recuperação de seqüências. Também é verdade que um alinhamento mais fácil dos genes de proteínas permite a correção de alguns erros de seqüenciamento . O ponto importante é que uma gama de potenciais iniciadores, e a resolução taxonômica dos amplicons resultantes, deve ser cuidadosamente considerada em qualquer aplicação de metabarcodificação. Os primers podem ser facilmente avaliados em silico usando programas disponíveis (por exemplo, ecoPCR ); testes empíricos fornecem garantia adicional de que os primers são adequados para uma determinada aplicação .
Prevemos que a metabarcodificação irá eventualmente sequenciar rotineiramente vários marcadores de código de barras de cada amostra . Marcadores destinados a diferentes níveis taxonômicos podem superar o trade-off entre amplitude taxonômica e resolução. Marcadores que fornecem informações taxonômicas comparáveis podem atuar como controles internos; estes seriam especialmente úteis para validação nos casos em que os desajustes de modelos primários são um problema potencial. Abordagens de metabarcodificação baseadas em sequenciamento em massa de mtDNA enriquecido sem amplificação foram ilustradas em um estudo conceitual de prova. Este trabalho pode muito bem apontar para um futuro onde os primers de PCR são menos relevantes; contudo, os métodos delineados até agora requerem moléculas de mtDNA intactas e não seriam aplicáveis quando o ADN está altamente fragmentado. Técnicas alternativas de enriquecimento de marcadores que funcionam com uma gama de modelos, tais como abordagens baseadas na captura de sondas, podem ser mais adequadas para marcadores não COI que contenham regiões alvo conservadas.
Reconhecemos que existem situações em que o COI pode ser actualmente a opção preferida como marcador metabarcodificador (por exemplo, quando o âmbito taxonómico é limitado e a identificação a nível de espécies é crítica, ou quando a base de dados de referência existente é essencial). De facto, se as técnicas futuras permitirem uma recuperação menos tendenciosa de COI a partir de misturas de ADN, o COI seria bem adequado para a metabarificação. Mesmo se forem adoptados marcadores alternativos, a infra-estrutura de codificação de barras de ADN desenvolvida pela CBOL será vital para este campo. As amostras de comprovantes taxonomicamente verificadas e os extratos de DNA associados são um recurso inestimável que poderia facilitar a caracterização de alto rendimento de marcadores adicionais. A base de dados CBOL com sequências de referência ligadas a espécimes de cupões (incluindo sequências de códigos de barras ‘não-oficiais’), e os esforços para ligar os metadados taxonómicos do CBOL a sequências acessíveis ao público no GenBank, são igualmente benéficos. Estamos entusiasmados com a perspectiva de que os metabarcódigos forneçam um método mais rápido e menos dispendioso para medir a biodiversidade animal, mas a seleção de marcadores precisa de mais escrutínio e as escolhas de marcadores disponíveis precisam ser ampliadas para maior confiabilidade.
A acessibilidade aos dados
As sequências de ADN extraídas do GenBank e utilizadas para a construção das figuras 1 e 2 são depositadas como dados electrónicos suplementares.
Conhecimento
Agradecemos aos nossos colegas pelas discussões sobre este tópico. Agradecemos também aos três revisores por fornecerem comentários críticos que ajudaram a melhorar o manuscrito.
Declaração de financiamento
B.D. e S.J. receberam subsídios de funcionamento do Programa Australiano de Ciências Antárticas (Projectos AAS 4014 e 4313).
Pés
- 1
Taberlet P, Coissac E, Hajibabaei M& Rieseberg LH. 2012 DNA Ambiental. Mol. Ecol. 21, 1789–1793. (doi:10.1111/j.1365-294X.2012.05542.x). Crossref, PubMed, ISI, Google Scholar
- 2
Yu DW, Ji Y, Emerson BC, Wang X, Ye C, Yang C& Ding Z. 2012Biodiversity soup: metabarcoding of arthropods for rapid biodiversity assessment and biomonitoring. Métodos Ecol. Evol. 3, 613-623. (doi:10.1111/j.2041-210X.2012.00198.x). Crossref, ISI, Google Scholar
- 3
Ficetola GF, Coissac E, Zundel S, Riaz T, Shehzad W, Bessiere J, Taberlet P& Pompanon F. 2010Uma abordagem em silico para a avaliação dos códigos de barras de DNA. BMC Genomics 11, e434. (doi:10.1186/1471-2164-11-434). Crossref, PubMed, ISI, Google Scholar
- 4
Geller J, Meyer C, Parker M& Hawk H. 2013Redesenho de primers de PCR para a subunidade mitocondrial cytochrome c oxidase I para invertebrados marinhos e aplicação em levantamentos bióticos all-taxa. Mol. Ecol. Resour. 13, 851–861. (doi:10.1111/1755-0998.12138). Crossref, PubMed, ISI, Google Scholar
- 5
Klindworth A, Pruesse E, Schweer T, Peplies J, Quast C, Horn M& Glockner FO. 2013Avaliação de iniciadores PCR do gene geral 16S ribosomal RNA para estudos de diversidade baseados em seqüenciamento clássico e de próxima geração. Ácidos Nucleicos Res. 41, e1. (doi:10.1093/nar/gks808). Crossref, PubMed, ISI, Google Scholar
- 6
Bru D, Martin-Laurent F& Philippot L. 2008Quantificação do efeito prejudicial de um único primer-template de desadequação por PCR em tempo real usando o gene 16S rRNA como exemplo. Aplicar. Ambiente. Microbiol. 74, 1660–1663. (doi:10.1128/aem.02403-07). Crossref, PubMed, ISI, Google Scholar
- 7
Schloss PD, Gevers D& Westcott SL. 2011Reduzir os efeitos dos artefatos de amplificação e seqüenciamento de PCR em estudos 16S baseados em rRNA. PLoS ONE 6, e27310. (doi:10.1371/journal.pone.0027310). Crossref, PubMed, ISI, Google Scholar
- 8
Clarke LJ, Soubrier J, Weyrich LS& Cooper A. In press.Environmental metabarcodes for insects: in silico PCR reveals potential for taxonomic bias. Mol. Ecol. Resour. (doi:10.1111/1755-0998.12265). ISI, Google Scholar
- 9
Ji Y, et al.2013Relable, verificationable and efficient monitoring of biodiversity via metabarcoding. Ecol. Lett. 16, 1245–1257. (doi:10.1111/ele.12162). Crossref, PubMed, ISI, Google Scholar
- 10
De Barba M, Miquel C, Boyer F, Mercier C, Rioux D, Coissac E& Taberlet P. 2014DNA metabarcoding multiplexação e validação da precisão dos dados para avaliação da dieta: aplicação à dieta omnívora. Mol. Ecol. Resour. 14, 306–323. (doi:10.1111/1755-0998.12188). Crossref, PubMed, ISI, Google Scholar
- 11
Leray M, Yang JY, Meyer CP, Mills SC, Agudelo N, Ranwez V, Boehm JT& Machida RJ. 2013Um novo e versátil conjunto de primer visando um pequeno fragmento da região mitocondrial COI para metabarcodificação da diversidade metazóica: aplicação para caracterização do conteúdo intestinal de peixes de recife de coral. Frente. Zool. 10, e34. (doi:10.1186/1742-9994-10-34). Crossref, PubMed, ISI, Google Scholar
- 12
Little DP. 2011DNA identificação da sequência de códigos de barras incorporando a hierarquia taxonómica e dentro da variabilidade do taxon. PLoS ONE 6, e20552. (doi:10.1371/journal.pone.0020552). Crossref, PubMed, ISI, Google Scholar
- 13
Deagle BE, Kirkwood R& Jarman SN. 2009Análise da dieta australiana de focas de peles através do piroscópio de DNA de presas nas fezes. Mol. Ecol. 18, 2022–2038. (doi:10.1111/j.1365-294X.2009.04158.x). Crossref, PubMed, ISI, Google Scholar
- 14
Zhou X, et al.2013O sequenciamento em profundidade permite a recuperação de alta fidelidade da biodiversidade para amostras de artrópodes a granel sem amplificação PCR. GigaScience 2, 4. (doi:10.1186/2047-217X-2-4). Crossref, PubMed, ISI, Google Scholar
- 15
Shokralla S, Gibson JF, Nikbakht H, Janzen DH, Hallwachs W& Hajibabaei M. 2014Códigos de barras de DNA de última geração: usando sequenciação de próxima geração para melhorar e acelerar a captura de códigos de barras de DNA a partir de amostras individuais. Mol. Ecol. Resour. 14, 892–901. (doi:10.1111/1755-0998.12236). PubMed, ISI, Google Scholar