La metabarcodificación del ADN y el marcador de la subunidad I de la citocromo c oxidasa: no es una coincidencia perfecta
Introducción
La disponibilidad de la secuenciación del ADN de alto rendimiento (HTS) a precios asequibles ha abierto un nuevo mundo de posibilidades en los estudios de la biodiversidad basados en el ADN. Este enfoque está más avanzado en el campo de la microbiología, donde la taxonomía molecular tiene una larga tradición, y los análisis ahora utilizan regularmente HTS para caracterizar los marcadores para las estimaciones de la diversidad taxonómica, así como funcional. Los genes amplificados de los «códigos de barras» también se utilizan cada vez más para identificar plantas, invertebrados y vertebrados presentes en mezclas de ADN, obtenidas mediante la extracción de ADN total de especímenes agrupados o de muestras ambientales (por ejemplo, suelo, agua y heces). Esta caracterización de los códigos de barras de ADN a partir de mezclas de ADN se ha denominado «metabarcodificación».
Además del requisito de contar con datos de secuencia baratos y fiables, la metabarcodificación también necesita un marcador adecuado. Para el código de barras de ADN estándar de especímenes animales individuales, el Consorcio para el Código de Barras de la Vida (CBOL) ha adoptado el gen de la subunidad I de la citocromo c oxidasa mitocondrial (COI). Este marcador tiene los atributos necesarios: su variación suele permitir la discriminación a nivel de especie, puede amplificarse por PCR a partir de la mayoría de los animales y la base de datos asociada cuenta ya con millones de secuencias de ADN verificadas taxonómicamente. Parece la elección obvia de marcador en el naciente campo de la metabarcodificación animal, y se ha utilizado en muchos estudios recientes, incluyendo aplicaciones en estudios de biodiversidad, monitorización ambiental y estudios dietéticos (los estudios de ejemplo se proporcionan en el material suplementario electrónico).
¿Qué tiene de malo la subunidad I de la citocromo c oxidasa como marcador de metabarcodificación?
Aunque la COI puede amplificarse a partir de una enorme variedad de especies, siempre se ha reconocido que los sitios de unión de los cebadores dentro de este gen codificador de proteínas no están muy conservados. Las mutaciones en muchas posiciones de nucleótidos no cambian la proteína codificada (normalmente la última base del código de tripletes) y están menos limitadas por la selección. En consecuencia, se ha diseñado un gran número de cebadores para la amplificación de la COI de varios grupos de animales (actualmente hay más de 400 cebadores de COI en la base de datos de cebadores CBOL). También se han descrito cebadores «universales» que amplifican la región del código de barras de la COI, pero el análisis in silico muestra que están poco conservados (; figura 1). Los estudios empíricos indican que esta variabilidad de los cebadores da lugar a una amplificación poco fiable cuando las muestras incluyen especies que cubren una amplia gama taxonómica (por ejemplo, un 44% de éxito en más de 2000 amplificaciones iniciales; Proyecto Moorea Biocode ). En la codificación de barras de ADN estándar, es posible optimizar los protocolos para obtener datos de especímenes que inicialmente no amplifican. Sin embargo, al metabarcodificar una mezcla de ADN, la amplificación fallida de determinados taxones queda enmascarada por la recuperación de amplicones de otros taxones presentes en la muestra. Esto dificulta la optimización del protocolo. Además, la recuperación de algunas secuencias esperadas da una falsa confianza en el conjunto de datos resultante.
Muchos estudios de ecología microbiana han demostrado que, aunque los cebadores no coincidentes son capaces de amplificar el ADN de diversos genomas bacterianos, las dianas sin homología perfecta amplifican con una eficiencia menor y a menudo impredecible . En algunos casos, incluso un desajuste de una sola base puede producir una subestimación de 1000 veces de la abundancia, haciendo que algunas bacterias sean «casi indetectables» en el análisis HTS de comunidades simuladas. El uso de cócteles con varias variantes de cebadores puede aumentar las tasas de éxito de la amplificación en el código de barras de ADN estándar, pero, según evaluaciones recientes, no son una panacea para la metabarcodificación de la COI. Esto se debe probablemente al hecho de que los sitios lábiles en las regiones de unión del cebador COI divergen rápidamente (figura 2). Por lo tanto, el número de cebadores necesarios para tener en cuenta la variabilidad, incluso entre taxones relativamente relacionados, se vuelve rápidamente insostenible. Además, no todas estas secuencias de cebadores serán eficaces para amplificar el ADN (más información en el material suplementario electrónico). Otro problema para el diseño de los cebadores del metabarcode COI es que la variación en los sitios menos restringidos se satura entre taxones distantes como resultado de la homoplasia (figura 2). Esta meseta en la divergencia de secuencias dificulta el desarrollo de cebadores específicos de grupo (por ejemplo, dirigidos a todos los insectos pero excluyendo otros artrópodos terrestres).
A pesar de estas limitaciones, se han desarrollado varios conjuntos de cebadores COI específicamente para la metabarcodificación. Por ejemplo, se han publicado varios cebadores de «mini-barcodificación» de la COI para amplificar fragmentos cortos recuperables a partir de una plantilla degradada, aunque los sitios de los cebadores varían entre las especies objetivo y los marcadores alternativos parecen más adecuados (figura 1). También se han diseñado cócteles de cebadores de metabarcodificación para amplificar toda la región de código de barras COI en invertebrados marinos, a pesar de que menos del 50% de los nucleótidos en los sitios de unión se conservan en los taxones objetivo.
¿Es mejor aceptar los sesgos y seguir con los marcadores de código de barras estándar para la metabarcodificación?
Podría argumentarse que los sesgos introducidos por la unión diferencial del cebador COI son manejables si son consistentes entre las muestras que se comparan y la secuenciación se lleva a cabo con suficiente profundidad. Además, esto podría considerarse una pequeña concesión dado que la COI permite el acceso a un gran número de secuencias de códigos de barras vinculadas a especímenes taxonómicamente verificados. Sin embargo, creemos que incluso los mejores estudios de metabarcodificación de la COI ponen de manifiesto las limitaciones de este marcador e indican que deberían considerarse seriamente otras alternativas. Por ejemplo, el trabajo de Yu et al. sobre la secuenciación masiva de la COI de muestras de artrópodos para el análisis de la biodiversidad documentó tasas de abandono de entre el 24% (umbral de más de 2 lecturas) y el 36% (umbral de más de 5 lecturas) en comparación con las entradas conocidas, incluso cuando se utilizan cebadores totalmente degenerados. Aunque los datos resultantes producen estimaciones de la diversidad α y β útiles para la toma de decisiones relevantes para la conservación, la aceptación de este nivel de sesgo seguramente limitará las aplicaciones futuras. La variación en la ocurrencia de taxones propensos al abandono entre grupos de muestras puede sesgar potencialmente la importancia relativa de todos los taxones, dificultando la evaluación de las diferencias biológicamente relevantes entre grupos.
Cuando las evaluaciones metodológicas preliminares no son exhaustivas y no se tienen en cuenta las limitaciones del conjunto de datos, la interpretación de los mismos está plagada de dificultades. En un estudio reciente de evaluación de marcadores de metabarcodificación de insectos, un conjunto de cebadores de metabarcodificación COI de artrópodos genéricos ampliamente utilizados sólo consiguió recuperar entre el 43 y el 64% de las especies en una mezcla conocida de ADN de artrópodos. La evaluación retrospectiva de los estudios ecológicos que dependen de los datos producidos a partir de estos cebadores es difícil; sin embargo, en algunos casos las preferencias de los cebadores, más que la biología, pueden estar impulsando las conclusiones.
Aumentar la profundidad de la secuenciación para permitir la detección de los marcadores mal amplificados es poco probable que sea una solución sólida, porque habrá un aumento concomitante en el número de secuencias procedentes de la contaminación menor y de las moléculas quiméricas . Los métodos utilizados para filtrar estos errores de fondo de bajo nivel e identificar las secuencias raras legítimas son imperfectos. Además, la incorporación de errores de bajo nivel en los conjuntos de datos de metabarcodificación puede tener una influencia desproporcionada porque los resúmenes suelen basarse en la incidencia (es decir, presencia/ausencia) y no incluyen información sobre la abundancia de las secuencias.
A pesar de que la gran base de datos de referencia de la COI es un punto fuerte de venta para este marcador, muchos estudios de metabarcodificación de la COI vinculan las secuencias recuperadas a unidades taxonómicas operativas (OTU) en lugar de proporcionar información taxonómica de alta resolución . Esto refleja en parte la adopción de enfoques bioinformáticos por parte de los ecologistas microbianos, pero también la falta de cobertura de la base de datos global de COI. La gran colección de secuencias de referencia COI puede ayudar a mejorar las asignaciones taxonómicas amplias (es decir, a la familia o al género), pero en muchos estudios se necesitarán bases de datos desarrolladas localmente si la intención es alejarse de los indicadores OTU y volver a la biología . Esto abre la posibilidad de secuenciar marcadores de código de barras no estándar más adecuados para la metabarcodificación cuando se considere apropiado. La flexibilidad en cuanto al marcador que se utiliza para la metabarcodificación es una necesidad para algunos grupos de animales, como los nematodos, en los que se reconoce que la COI no es adecuada debido a la diversidad de secuencias. También hay problemas similares para los códigos de barras «oficiales» de las plantas, lo que hace que muchos estudios de metabarcodificación de plantas elijan marcadores «no oficiales».
¿Cuál es el camino a seguir?
La precisión de la metabarcodificación depende en gran medida de la elección del marcador, pero lamentablemente no existe un marcador de metabarcodificación perfecto. En cambio, la mejor elección del marcador va a ser específica para cada estudio. Para diseñar cebadores altamente conservados, el patrón de variación en mosaico que se observa en los genes del ARN ribosómico (ARNr) suele ser muy útil (figura 1). Estos genes ya han sido adoptados por muchos en la comunidad de metabarcodificación animal y son marcadores estándar para la identificación de hongos y bacterias/arqueas. En el caso de los animales, los genes de ARNr nuclear proporcionan una cobertura taxonómica muy amplia, pero una resolución taxonómica menor, mientras que los genes de ARNr mitocondrial proporcionan una resolución taxonómica similar a la de la COI, pero suelen permitir el diseño de cebadores más conservados (figura 1). Las dificultades percibidas en la asignación de las secuencias del gen ARNr a los taxones, causadas por la incapacidad de alinear con precisión las secuencias, pueden superarse en gran medida utilizando métodos sin alineación. Sin embargo, la variación de la longitud de las regiones de codificación del ARNr puede causar potencialmente diferencias específicas de los taxones en la recuperación de las secuencias. También es cierto que una alineación más fácil de los genes proteicos permite corregir algunos errores de secuenciación . Lo importante es que en cualquier aplicación de metabarcodificación debe considerarse cuidadosamente una gama de posibles cebadores y la resolución taxonómica de los amplicones resultantes. Los cebadores pueden ser fácilmente evaluados in silico mediante el uso de programas disponibles (por ejemplo, ecoPCR ); las pruebas empíricas proporcionan una mayor garantía de que los cebadores son adecuados para una aplicación particular .
Prevemos que la metabarcodificación eventualmente secuenciará rutinariamente varios marcadores de código de barras de cada muestra . Los marcadores dirigidos a diferentes niveles taxonómicos pueden superar el compromiso entre la amplitud taxonómica y la resolución. Los marcadores que proporcionan información taxonómica comparable pueden actuar como controles internos; éstos serían especialmente útiles para la validación en los casos en los que los desajustes de las plantillas de los cebadores son un problema potencial. Los enfoques de metabarcodificación basados en la secuenciación masiva de ADNmt enriquecido sin amplificación se han ilustrado en un estudio de prueba de concepto. Este trabajo puede apuntar a un futuro en el que los cebadores de PCR sean menos relevantes; sin embargo, los métodos descritos hasta ahora requieren moléculas de ADNmt intactas y no serían aplicables cuando el ADN está muy fragmentado. Las técnicas alternativas de enriquecimiento de marcadores que trabajan con una gama de plantillas, como los enfoques basados en la captura de sondas, podrían ser más adecuados para los marcadores no COI que contienen regiones objetivo conservadas.
Reconocemos que hay situaciones en las que la COI podría ser actualmente la opción preferida como marcador de metabarcodificación (por ejemplo, cuando el alcance taxonómico es limitado y la identificación a nivel de especie es crítica, o cuando la base de datos de referencia existente es esencial). De hecho, si las técnicas futuras permiten una recuperación menos sesgada de la COI a partir de mezclas de ADN, la COI sería muy adecuada para la metabarcodificación. Incluso si se adoptan marcadores alternativos, la infraestructura de código de barras de ADN desarrollada por el CBOL será vital para este campo. Los especímenes comprobados taxonómicamente y los extractos de ADN asociados son un recurso inestimable que podría facilitar la caracterización de alto rendimiento de marcadores adicionales. La base de datos CBOL con secuencias de referencia vinculadas a los especímenes de muestra (incluidas las secuencias de códigos de barras «no oficiales»), y los esfuerzos para vincular los metadatos taxonómicos de CBOL a las secuencias de acceso público en GenBank, son igualmente beneficiosos. Estamos entusiasmados con la perspectiva de que la metabarcodificación proporcione un método más rápido y menos costoso para medir la biodiversidad animal, pero la selección de marcadores necesita un mayor escrutinio y las opciones de marcadores disponibles deben ampliarse para mejorar la fiabilidad.
Accesibilidad a los datos
Las secuencias de ADN extraídas de GenBank y utilizadas para la construcción de las figuras 1 y 2 están depositadas como datos electrónicos suplementarios.
Agradecimientos
Agradecemos a nuestros colegas las discusiones sobre este tema. También agradecemos a los tres revisores por proporcionar comentarios críticos que ayudaron a mejorar el manuscrito.
Declaración de financiación
B.D. y S.J. recibieron subvenciones de explotación del Programa Científico Antártico Australiano (Proyectos AAS 4014 y 4313).
Notas a pie de página
- 1
Taberlet P, Coissac E, Hajibabaei M& Rieseberg LH. 2012Environmental DNA. Mol. Ecol. 21, 1789-1793. (doi:10.1111/j.1365-294X.2012.05542.x). Crossref, PubMed, ISI, Google Scholar
- 2
Yu DW, Ji Y, Emerson BC, Wang X, Ye C, Yang C& Ding Z. 2012Biodiversity soup: metabarcoding of arthropods for rapid biodiversity assessment and biomonitoring. Methods Ecol. Evol. 3, 613-623. (doi:10.1111/j.2041-210X.2012.00198.x). Crossref, ISI, Google Scholar
- 3
Ficetola GF, Coissac E, Zundel S, Riaz T, Shehzad W, Bessiere J, Taberlet P& Pompanon F. 2010An in silico approach for the evaluation of DNA barcodes. BMC Genomics 11, e434. (doi:10.1186/1471-2164-11-434). Crossref, PubMed, ISI, Google Scholar
- 4
Geller J, Meyer C, Parker M& Hawk H. 2013Redesign of PCR primers for mitochondrial cytochrome c oxidase subunit I for marine invertebrates and application in all-taxa biotic surveys. Mol. Ecol. Resour. 13, 851-861. (doi:10.1111/1755-0998.12138). Crossref, PubMed, ISI, Google Scholar
- 5
Klindworth A, Pruesse E, Schweer T, Peplies J, Quast C, Horn M& Glockner FO. 2013Evaluación de cebadores PCR generales del gen del ARN ribosómico 16S para estudios de diversidad clásicos y basados en la secuenciación de próxima generación. Nucleic Acids Res. 41, e1. (doi:10.1093/nar/gks808). Crossref, PubMed, ISI, Google Scholar
- 6
Bru D, Martin-Laurent F& Philippot L. 2008Quantification of the detrimental effect of a single primer-template mismatch by real-time PCR using the 16S rRNA gene as an example. Appl. Environ. Microbiol. 74, 1660-1663. (doi:10.1128/aem.02403-07). Crossref, PubMed, ISI, Google Scholar
- 7
Schloss PD, Gevers D& Westcott SL. 2011Reducción de los efectos de los artefactos de amplificación y secuenciación de la PCR en los estudios basados en el ARNr 16S. PLoS ONE 6, e27310. (doi:10.1371/journal.pone.0027310). Crossref, PubMed, ISI, Google Scholar
- 8
Clarke LJ, Soubrier J, Weyrich LS& Cooper A. In press.Environmental metabarcodes for insects: in silico PCR reveals potential for taxonomic bias. Mol. Ecol. Resour. (doi:10.1111/1755-0998.12265). ISI, Google Scholar
- 9
Ji Y, et al.2013Seguimiento fiable, verificable y eficiente de la biodiversidad mediante metabarcodificación. Ecol. Lett. 16, 1245-1257. (doi:10.1111/ele.12162). Crossref, PubMed, ISI, Google Scholar
- 10
De Barba M, Miquel C, Boyer F, Mercier C, Rioux D, Coissac E& Taberlet P. 2014DNA metabarcoding multiplexing and validation of data accuracy for diet assessment: application to omnivorous diet. Mol. Ecol. Resour. 14, 306-323. (doi:10.1111/1755-0998.12188). Crossref, PubMed, ISI, Google Scholar
- 11
Leray M, Yang JY, Meyer CP, Mills SC, Agudelo N, Ranwez V, Boehm JT& Machida RJ. 2013A new versatile primer set targeting a short fragment of the mitochondrial COI region for metabarcoding metazoan diversity: application for characterizing coral reef fish gut contents. Front. Zool. 10, e34. (doi:10.1186/1742-9994-10-34). Crossref, PubMed, ISI, Google Scholar
- 12
Little DP. 2011Identificación de la secuencia del código de barras de ADN incorporando la jerarquía taxonómica y dentro de la variabilidad del taxón. PLoS ONE 6, e20552. (doi:10.1371/journal.pone.0020552). Crossref, PubMed, ISI, Google Scholar
- 13
Deagle BE, Kirkwood R& Jarman SN. 2009Analysis of Australian fur seal diet by pyrosequencing prey DNA in faeces. Mol. Ecol. 18, 2022-2038. (doi:10.1111/j.1365-294X.2009.04158.x). Crossref, PubMed, ISI, Google Scholar
- 14
Zhou X, et al.2013Ultra-deep sequencing enables high-fidelity recovery of biodiversity for bulk arthropod samples without PCR amplification. GigaScience 2, 4. (doi:10.1186/2047-217X-2-4). Crossref, PubMed, ISI, Google Scholar
- 15
Shokralla S, Gibson JF, Nikbakht H, Janzen DH, Hallwachs W& Hajibabaei M. 2014Next-generation DNA barcoding: using next-generation sequencing to enhance and accelerate DNA barcode capture from single specimens. Mol. Ecol. Resour. 14, 892-901. (doi:10.1111/1755-0998.12236). PubMed, ISI, Google Scholar