Caracterización sistemática en todo el genoma de los factores de transcripción bZIP y sus perfiles de expresión durante el desarrollo de las semillas y en respuesta al estrés salino en el cacahuete
Identificación, análisis filogenético y clasificación de grupos de genes bZIP en A. duranensis y A. ipaensis
Basado en búsquedas de homología y verificación de dominios, se identificó un número total de 50 y 45 genes bZIP únicos en los genomas de A. duranensis y A. ipaensis, respectivamente. Los detalles de estos genes, incluyendo la identificación del gen, la posición genómica, la composición de los dominios y la clasificación de los grupos se encuentran en el archivo adicional 1. De acuerdo con el sistema de nomenclatura existente, asignamos nombres únicos a cada uno de estos nuevos genes bZIP: AdbZIP1-50 y AibZIP1-45. Tras comprobar los dominios bZIP, 93 genes tenían un dominio bZIP típico, que incluía un motivo invariable N-× 7-R/K en la región básica y una repetición heptada de Leu situada exactamente nueve aminoácidos aguas arriba de R/K hacia la terminación C (archivo adicional 2). Los dos genes bZIP restantes, AdbZIP28 y AibZIP22, tenían una sustitución inusual en la región básica: una sustitución de la conservada Arg/Lys (R/K) por IIe (I). Esta sustitución también se ha reportado en otras especies.
Una investigación sistemática de la familia de genes bZIP se llevó a cabo por primera vez en Arabidopsis . En este análisis, se distinguieron y nombraron diferentes grupos de genes bZIP basándose en sus relaciones filogenéticas y divergencias funcionales. Desde entonces, este sistema de clasificación se ha adoptado para otras especies basándose en la agrupación de genes bZIP de sus propios genomas y de Arabidopsis . Aquí, basándonos en un análisis de máxima verosimilitud (ML) de las proteínas bZIP de los genomas de Arachis y Arabidopsis, identificamos 11 clados de genes bZIP distintos (grupos A-I, S y U), todos ellos con un alto soporte bootstrap (Fig. 1). La clasificación en subgrupos de los bZIPs de Arachis fue confirmada por la reconstrucción del árbol filogenético tras añadir los bZIPs de la soja (archivo adicional 3). La mayoría de los clados bZIP incluyen bZIPs de Arachis estrechamente relacionados y sus ortólogos de Arabidopsis; los clados E y F no tienen miembros correspondientes en A. duranensis o A. ipaensis. En particular, los genes bZIP dentro del mismo clado compartían características de secuencia específicas del grupo, incluyendo la estructura del exón/intrón, las fases del intrón, los motivos MEME y la predicción de la estructura del sitio de unión (analizada más adelante). Este patrón de agrupación de grupos interespecíficos sugirió que las características específicas del grupo surgieron antes de la divergencia de Arachis y Arabidopsis. Sin embargo, también se han acumulado varias diferencias en los genes bZIP de las diferentes especies de plantas a lo largo del tiempo evolutivo.
Estructura génica de los genes bZIP de Arachis
Como la organización de intrones y exones podría indicar la trayectoria evolutiva de los genes bZIP , examinamos la estructura de los genes bZIP de Arachis, incluyendo el número de intrones, la longitud y la fase de empalme (archivo adicional 4). Encontramos que las estructuras generales de los genes eran idénticas o similares para los bZIP de Arachis dentro del mismo grupo filogenético. Considerando el número de intrones de los bZIPs de cacahuete, el 24% de los AdbZIPs y el 22% de los AibZIPs carecían de intrones, ocurriendo exclusivamente en los grupos S y B. Entre los genes que contenían intrones, el número de intrones variaba de 1 a 13 en los genes AdbZIP y AibZIP. Los genes bZIP en el grupo G tenían el mayor número de intrones, consistente con las observaciones en otros genomas de leguminosas .
Las fases de splicing fueron designadas como tres fases de splicing: fase 0 (P0), el splicing ocurrió después del tercer nucleótido del codón; fase 1 (P1), el splicing ocurrió después del primer nucleótido del codón; y fase 2 (P2), el splicing ocurrió después del segundo nucleótido. Las fases de los sitios de splicing dentro de los marcos de lectura abiertos (ORFs) eran diversas, pero estaban altamente conservadas en las regiones básicas y de bisagra del dominio bZIP, ya que cualquier cambio en estas regiones afectaría a su código y función. Basándose en la posición del intrón y en la presencia o número de fases de empalme en el dominio bZIP, se identificaron cuatro patrones de intrones (a a d) en los genes bZIP de Arachis (Fig. 2 y archivo adicional 2). El patrón a tenía un solo intrón insertado en la posición – 5 de la región bisagra, entre los aminoácidos Gln y Ala; este patrón se identificó en todos los genes bZIP de Arachis de los grupos A y G. El patrón b tenía dos inserciones de intrones con fase 0, una en la región básica y otra en la región bisagra; este patrón se identificó en todos los genes bZIP del grupo D. El patrón c tenía un único intrón insertado en la posición – 20 de la región básica en la fase 2 (P2), y contiene todos los genes bZIP de los grupos C y H. El patrón d carecía de intrones en las regiones básica y bisagra, e incluye todos los genes bZIP de los grupos B y S. Además, la mayoría de los bZIP de Arachis que presentaban el patrón d carecían de intrones, excepto AdbZIP45 y AibZIP40. Cada uno de estos genes tenía un intrón fuera de las regiones básica y bisagra. Los patrones de fase de empalme en el dominio bZIP de Arachis observados aquí fueron consistentes con los observados en otras especies . La alta conservación de la estructura del gen y de las fases del intrón dentro de los clados filogenéticos apoyó la clasificación aceptada del grupo, y sugirió que estos diferentes patrones de empalme del exón pueden jugar un papel importante en la evolución funcional.
Las composiciones de motivos para diferentes grupos de bZIPs de Arachis
Además del dominio bZIP, se detectaron muchos motivos conservados adicionales en los genes bZIP mediante la herramienta de análisis MEME. Como se muestra en la Fig. 3, se identificaron un total de 18 motivos conservados fuera del dominio bZIP, y se construyeron las composiciones de motivos de consenso para cada subgrupo (archivo adicional 5). Estos motivos de consenso indicaron que las composiciones generales de los motivos eran similares dentro del mismo subgrupo pero diferentes entre los distintos grupos. Esto sugiere que la divergencia funcional de los genes bZIP puede estar determinada por motivos específicos de cada grupo. El examen individual de estos motivos indicó que muchos eran específicos del grupo. Por ejemplo, los motivos 1, 2, 3 y 10 sólo se identificaron en el grupo D; los motivos 5, 14 y 15 sólo se identificaron en el grupo G; el motivo 6 sólo se identificó en el grupo I; y el motivo 9 sólo se identificó en el grupo H. Varios motivos pueden estar asociados a funciones biológicas específicas. Por ejemplo, el motivo 1 es el dominio DELAY OF GERMINATION (DOG) 1, que se requiere para la inducción de la latencia y de múltiples aspectos de la maduración de la semilla, en parte al interferir con los componentes de señalización del ABA. El motivo 3 contiene posibles sitios de fosforilación de la caseína quinasa II (CK II) (S/TxxD/E), que desempeñan un papel clave en la división y expansión celular y afectan a diversas vías de desarrollo y de respuesta al estrés . Curiosamente, estos motivos específicos del grupo también se han identificado en bZIPs del mismo grupo en otros genomas de leguminosas , lo que sugiere que la composición del motivo se conserva a través de las plantas de leguminosas.
Estructura del sitio de unión al ADN del bZIP de Arachis y propiedades de dimerización
La región básica del núcleo y la región bisagra del dominio bZIP determinan de forma independiente la especificidad de unión al ADN, como han demostrado varios experimentos . La inusual sustitución de los dos sitios invariantes, asparagina (Asn/N; posición: – 18) y arginina (Arg/R; posición: – 10), alteró las especificidades de unión al ADN . Alineamos las secuencias de aminoácidos de las regiones básica y bisagra de las proteínas bZIP del cacahuete para identificar los residuos de aminoácidos conservados y polimórficos dentro de cada grupo (archivo adicional 6). No se observaron sustituciones de Asn/N en la posición – 18 en ninguna bZIP de cacahuete. Sin embargo, todos los miembros del grupo I tenían lisina (Lys/K) en lugar de arginina (R) en la posición – 10, en consonancia con el grupo I bZIPs de otras especies de leguminosas . Además, AdbZIP28 y AibZIP22 (grupo U) tenían un residuo hidrofóbico de isoleucina (Ile/I) en lugar de arginina (Arg/R), y se demostró que dicha sustitución inhibe completamente la afinidad de bZIP por AP1 en la levadura y no reconoce las cajas G en el arroz.
La secuencia de cremallera de Leu media la homo- y/o heterodimerización de las proteínas bZIP, que se sabe que se unen al ADN como dímeros . La región de la cremallera de Leu consiste en repeticiones de heptadas, los aminoácidos se refieren a a, b, c, d, e, f, y g dentro de cada heptada . Como los aminoácidos en las posiciones a, d, e y g están cerca de la interfaz de la cremallera de Leu, estos aminoácidos son los que determinan principalmente la oligomerización de la cremallera de Leu, la estabilidad de la dimerización y la especificidad de los dímeros. Analizamos las composiciones de los aminoácidos que se encuentran en las posiciones a, d, e y g de las bZIP de cacahuete (Fig. 4a).
En la posición a, alrededor del 20% de los residuos eran asparagina (Asn/N), que puede formar un bolsillo polar en la interfaz hidrofóbica, permitiendo interacciones N-N más estables en a↔a′ (la posición correspondiente en la hélice opuesta), en comparación con otros aminoácidos . A través de las diferentes heptadas, la segunda y la quinta heptada tuvieron la mayor frecuencia de residuos Asn/N en la posición a (61,46 y 60,22%, respectivamente; Fig. 4b). En la posición d (Fig. 4a), la Leu se encontró en el 45% de todos los bZIPs de cacahuete y es uno de los aminoácidos alifáticos más estabilizadores de dímeros . En la posición e, el 37% de todos los bZIPs de cacahuete tenían aminoácidos ácidos D o E, mientras que en la posición g, el 44% de todos los bZIPs de cacahuete tenían los aminoácidos básicos R o K (Fig. 4a). Se cree que estos aminoácidos cargados forman puentes salinos entre las hélices en interacciones electrostáticas . Las interacciones electrostáticas g↔e′ atractivas o repulsivas también pueden formar puentes salinos interhelicoidales que afectan a la especificidad y estabilidad de la dimerización . Para investigar la contribución de los residuos cargados en las posiciones e y g en el gobierno de las propiedades de dimerización de las proteínas bZIP de Arachis, se calcularon las frecuencias de los pares g↔e′ atractivos y repulsivos en cada heptada (Fig. 4c). En todas las heptadas, los pares g↔e′ atractivos se concentraron en las heptadas segunda (15,6%), quinta (35%) y sexta (30%), indicando que pueden formar interacciones g↔e′ atractivas completas y contribuir a la estabilidad a través de la complementación en un heterodímero. Tres grupos que comprenden 28 subfamilias (BZ1-BZ28) se dividieron además sobre la base de las propiedades de homo y heterodimerización, en particular la especificidad de dimerización (archivo adicional 7).
El impacto de la duplicación de todo el genoma y la duplicación en tándem en la expansión de la familia de genes bZIP de Arachis
Identificamos los bloques duplicados colineales de todo el genoma en los genomas de A. duranensis y A. ipaensis y los bloques colineales ortólogos entre dos genomas. Se calcularon las distancias sinónimas por pares (valores Ks) entre los paralogos y ortólogos dentro de los bloques colineales, y se trazaron sus distribuciones de frecuencia (Fig. 5a; Ks bin = 0,05). El pico de frecuencia Ks entre A. duranensis y A. ipaensis, que representa la variación media de la secuencia, fue de 0,035. Esto representó la divergencia de secuencia entre estas dos especies de Arachis estrechamente relacionadas, que se estimó que habían divergido hace ~ 2,16 millones de años. Además, los picos de Ks para los paralogos de A. duranensis y A. ipaensis fueron de 0,90 y 0,95, respectivamente, lo que corresponde a la divergencia de secuencias del evento de duplicación del genoma completo (WGD) del papilionoide temprano ocurrido hace ~ 58 millones de años .
Detectamos 35 AdbZIPs y 32 AibZIPs implicados en bloques genómicos duplicados, que representan alrededor del 70% (35/50) y el 71% (32/45) de los genes bZIP en cada especie (Fig. 5b y archivo adicional 8). Además, los pares de genes bZIP duplicados se encontraban dentro de un cromosoma o entre cromosomas, y algunos de estos pares estaban duplicados segmentariamente una, dos o tres veces. Este resultado indicaba una retención preferente de genes y una disposición frecuente de los cromosomas tras la DGM. Sólo se detectaron duplicaciones en tándem para dos pares de genes (AdbZIP33/AdbZIP34 y AdbZIP41/AdbZIP42) en A. duranensis y sólo un par de genes (AibZIP28/AibZIP29) en A. ipaensis. Esto sugiere que la duplicación en tándem ocurrió raramente y no fue más importante que la duplicación segmentaria en la expansión de la familia de genes bZIP. También utilizamos análisis filogenéticos y sintéticos para identificar 35 pares de genes bZIP ortólogos entre A. duranensis y A. ipaensis. Estos genes también eran homeólogos entre los dos subgenomas del cacahuete tetraploide.
Para entender las restricciones evolutivas que actúan sobre los genes bZIP de Arachis, calculamos los valores Ka/Ks para cada par de genes bZIP duplicados en dos especies de Arachis (archivo adicional 9). Para la mayoría de estas comparaciones por pares, los valores Ka/Ks fueron inferiores a 0,5 (sólo una comparación por pares entre AdbZIPs duplicados y sólo dos entre AibZIPs duplicados fueron superiores a 0,5). Esto sugirió que una fuerte selección purificadora actuó sobre los bZIPs duplicados de Arachis para eliminar las mutaciones deletéreas a nivel proteico.
Análisis de la expresión de los genes bZIP de Arachis durante el desarrollo de las semillas de cacahuete
Para perfilar la expresión de los genes bZIP, utilizamos nuestros datos de RNA-seq publicados anteriormente, que documentan la expresión de los genes en las semillas de cacahuete en diferentes etapas de desarrollo: 20, 40 y 60 días después de la floración (DAF). Utilizando estos datos, identificamos los valores FPKM para todos los bZIPs de Arachis y todos los bZIPs expresados diferencialmente en las tres etapas de desarrollo. Con la excepción de 24 bZIPs, que no se expresaron en ninguna etapa de desarrollo, se reconocieron cuatro grupos que incluían los correspondientes genes bZIP con un perfil de expresión específico (Fig. 6a y archivo adicional 10). El primer grupo comprendía 37 bZIPs que estaban regulados al alza durante el desarrollo temprano (20 DAF), pero regulados a la baja después (a los 40 y 60 DAF). El segundo grupo comprendía 15 bZIPs que estaban regulados al alza en 40 DAF, mientras que el tercer grupo comprendía 17 bZIPs que estaban regulados a la baja en 40 DAF. El cuarto grupo incluía 22 bZIPs que se expresaban altamente en las tres etapas de desarrollo. Los bZIPs altamente expresados en el cuarto grupo estaban distribuidos principalmente en los clados A, C y S. Varios de estos bZIPs eran homólogos a genes que han sido implicados en el desarrollo de las semillas en otras plantas, como Arabidopsis , arroz y maíz . Aquí, 12 bZIPs, que fueron altamente expresados y homólogos a genes anteriores bien estudiados en el desarrollo de semillas, fueron seleccionados para la confirmación por qRT-PCR, y se encontró que los patrones de expresión determinados por RNA-seq eran consistentes con los encontrados usando qRT-PCR (Fig. 6b).
En el grupo A, AdbZIP33 y AibZIP28 eran ortólogos de Arabidopsis ABA insensible 5 (ABI5), que se asocia con la señalización de ABA, así como la regulación del desarrollo de las semillas y la longevidad en Arabidopsis y leguminosas . Nuestros resultados de RNA-seq y qRT-PCR mostraron que ambas copias ortólogas de ABI5 de los dos subgenomas del cacahuete tetraploide estaban altamente expresadas durante el desarrollo, sugiriendo que la función de estos genes puede ser similar en el cacahuete y en Arabidopsis. Nuestros resultados de qRT-PCR también indicaron que los genes del grupo A AdbZIP42, AdbZIP48 y AibZIP31 se expresaron de forma estable durante el desarrollo (Fig. 6b y archivo adicional 11). Estos genes son homólogos a los ABF y AREB, que están implicados en el desarrollo de la semilla mediado por el ABA, la germinación y la maduración del embrión . Tres genes del grupo C (AdbZIP23, AdbZIP37 y AibZIP30) también estaban muy expresados y son homólogos al factor bZIP del maíz Opaque2. Opaque2 regula la acumulación de proteínas y el metabolismo de aminoácidos y azúcares en las semillas de maíz. Además, los genes del grupo S AibZIP10, AdbZIP12, AdbZIP24, AdbZIP26 y AdbZIP36 se expresaron en gran medida en las semillas de cacahuete (Fig. 6b y archivo adicional 11). Curiosamente, los genes del grupo S AdbZIP24 y AdbZIP36 tenían un patrón de expresión similar al de los genes del grupo C AdbZIP37 y AibZIP30: una disminución del nivel de expresión a medida que progresaba el desarrollo de la semilla.
A continuación, investigamos las divergencias en la expresión génica entre los genes homeólogos de los genomas AA y BB del cacahuete tetraploide. El análisis del mapa de calor indicó que los patrones generales de expresión a lo largo del desarrollo de la semilla eran similares para 31 pares de genes homeólogos/ortólogos de los genomas AA y BB. Utilizamos el método de análisis de expresión diferencial en combinación con métodos estadísticos para calcular las diferencias de expresión génica entre estos pares de genes para cada muestra. Encontramos que 3 pares de genes (AdbZIP5 y AibZIP5, AdbZIP17 y AibZIP15, AdbZIP46 y AibZIP41) se expresaban diferencialmente a 20 DAF, 3 pares (AdbZIP3 y AibZIP1, AdbZIP4 y AibZIP4, AdbZIP49 y AibZIP45) a 40 DAF, y 5 pares (AdbZIP3 y AibZIP1, AdbZIP33 y AibZIP28, AdbZIP37 y AibZIP30, AdbZIP10 y AibZIP10, AdbZIP1 y AibZIP3) a 60 DAF. Estos resultados indicaron la conservación de la expresión general entre los dos genomas, pero sugirieron que el 20% de los genes habían divergido en la expresión durante la evolución paralela y la poliploidización de los dos genomas (Fig. 6c).
Perfiles de expresión qRT-PCR de los genes bZIP de Arachis bajo estrés salino
Utilizamos qRT-PCR para explorar los cambios en la expresión de los genes bZIP en respuesta al tratamiento con sal (Fig. 7 y archivo adicional 12). No pudimos amplificar claramente 4 bZIPs con la PCR. Después de que las raíces de cacahuete fueran tratadas con sal durante 1 h, 20 genes se expresaron de forma significativamente diferente; después de 5 h, 27 genes se expresaron de forma significativamente diferente; y después de 10 h, 41 genes se expresaron de forma significativamente diferente (Fig. 7j; prueba t de Student: P < 0,05). En cada punto de tiempo, muchos más genes fueron regulados al alza que a la baja (14 vs. 6 a 1 h; 21 vs. 6 a 5 h; y 34 vs. 7 a 10 h). Entre estos bZIPs expresados diferencialmente tras el tratamiento con sal, muchos de ellos se distribuyeron en los grupos A y S (Fig. 7k), lo que indica que los bZIPs de estos grupos desempeñan papeles importantes en la señalización del azúcar y la regulación del estrés abiótico .
Los bZIPs del grupo A poseen los motivos del sitio de fosforilación de la proteína quinasa dependiente del CKII y del Ca2 + implicados en la señalización del estrés y/o del ABA, y estos motivos son importantes para la adaptación de las plantas a varios estresores ambientales abióticos . De hecho, muchos genes del grupo A están asociados a la respuesta al estrés salino. En Arabidopsis, ABI5 y ABFs/AREB son factores clave de transducción de señales dependientes de ABA implicados en la tolerancia al estrés abiótico . La sobreexpresión de GhABF2 mejoró significativamente la tolerancia al estrés salino tanto en Arabidopsis como en algodón . En tomate, el knockout de slAREB1 y slbZIP1 aumentó la tolerancia al estrés salino, mientras que la sobreexpresión de slAREB1 y slbZIP1 redujo la tolerancia al estrés salino. Aquí, los genes AdbZIP42 y AibZIP35 fueron significativamente regulados en respuesta al estrés salino, y estos genes son homólogos a los ABF, GhABF2, slAREB1 y slbZIP1. Además, se ha informado de que estos genes son fosforilados por la proteína quinasa SnRK2 activada por ABA, lo que sugiere que la fosforilación de los factores de unión a elementos de respuesta a ABA puede ser crítica para la respuesta al estrés salino mediada por ABA.
Los genes del grupo B AdbZIP45 y AibZIP40 fueron regulados al alza después de 10 h de estrés salino, y estos genes son homólogos a AtbZIP17, lo que podría mejorar la expresión de varios genes de respuesta al estrés salino en Arabidopsis. Siete genes bZIP del grupo G (AdbZIP7, AdbZIP15, AdbZIP19, AdbZIP50, AibZIP17, AibZIP21 y AibZIP38) eran homólogos a AtbZIP41 de Arabidopsis y slbZIP38 de tomate, y se ha demostrado que ambos genes regulan negativamente el estrés salino. De estos siete genes, AdbZIP15 fue significativamente regulado a la baja tras 1 h y 5 h de tratamiento de estrés salino, mientras que AdbZIP19 y AibZIP17 fueron significativamente regulados al alza tras 10 h de estrés salino. Así, AdbZIP15, AdbZIP19 y AibZIP17 podrían conferir resistencia al estrés salino. AdbZIP15 podría ser un regulador negativo del estrés salino, ya que su patrón de expresión era similar al de slbZIP38 en respuesta al estrés salino.
Los genes del grupo S AdbZIP24 y AdbZIP36 eran homólogos a AtbZIP1, AtbZIP53, MtbZIP2 y MtbZIP26, y los patrones de expresión de estos genes en respuesta al estrés salino eran similares (Fig. 7). En particular, AdbZIP36 fue significativamente regulado después de 10 h de estrés salino. Dos genes homólogos en Arabidopsis, AtbZIP1 y AtbZIP53, demostraron reprogramar el metabolismo primario de carbohidratos y aminoácidos para ayudar a las raíces a adaptarse al estrés salino. Los homólogos MtbZIP2 y MtbZIP26 también son inducidos transcripcionalmente por el tratamiento de la sal, y mejoran la tolerancia de la planta al estrés salino. En particular, el patrón de expresión de AdbZIP36 fue similar al de AtbZIP1, MtbZIP2 y MtbZIP26 en Arabidopsis y M. truncatula, lo que sugiere que AdbZIP36 podría ser un regulador positivo de la tolerancia al estrés salino en el cacahuete. En resumen, nuestro estudio de análisis de expresión ha identificado varios bZIPs de cacahuete candidatos, que pueden estar asociados con la respuesta al estrés salino, como objetivos para futuras investigaciones.