Caractérisation systématique à l’échelle du génome des facteurs de transcription bZIP et leurs profils d’expression pendant le développement des graines et en réponse au stress salin chez l’arachide
Identification, analyse phylogénétique et classification des groupes de gènes bZIP chez A. duranensis et A. ipaensis
Sur la base de recherches d’homologie et de vérification des domaines, un nombre total de 50 et 45 gènes bZIP uniques ont été identifiés dans les génomes de A. duranensis et A. ipaensis, respectivement. Les détails de ces gènes, y compris l’ID du gène, la position génomique, la composition des domaines et la classification des groupes sont donnés dans le fichier supplémentaire 1. Conformément au système de nomenclature existant, nous avons attribué des noms uniques à chacun de ces nouveaux gènes bZIP : AdbZIP1-50 et AibZIP1-45. Après vérification des domaines bZIP, 93 gènes présentaient un domaine bZIP typique, comprenant un motif N-× 7-R/K invariant dans la région de base et une répétition heptad de Leu positionnée exactement à neuf acides aminés en amont de R/K vers l’extrémité C (fichier supplémentaire 2). Les deux autres gènes bZIP, AdbZIP28 et AibZIP22, présentaient une substitution inhabituelle dans la région de base : un remplacement du motif conservé Arg/Lys (R/K) par IIe (I). Ce remplacement a également été signalé chez d’autres espèces.
Une étude systématique de la famille des gènes bZIP a d’abord été réalisée chez Arabidopsis . Dans cette analyse, différents groupes de gènes bZIP ont été distingués et nommés en fonction de leurs relations phylogénétiques et de leurs divergences fonctionnelles. Ce système de classification a depuis été adopté pour d’autres espèces sur la base du regroupement des gènes bZIP de leur propre génome et de celui d’Arabidopsis . Ici, sur la base d’une analyse de maximum de vraisemblance (ML) des protéines bZIP des génomes d’Arachis et d’Arabidopsis, nous avons identifié 11 clades distincts de gènes bZIP (groupes A-I, S et U), tous avec un support bootstrap élevé (Fig. 1). La classification en sous-groupes des bZIP d’Arachis a été confirmée par la reconstruction de l’arbre phylogénétique après ajout des bZIP du soja (fichier supplémentaire 3). La plupart des clades de bZIP comprennent des bZIP d’Arachis étroitement apparentés et leurs orthologues d’Arabidopsis ; les clades E et F n’ont aucun membre correspondant chez A. duranensis ou A. ipaensis. Notamment, les gènes bZIP au sein d’un même clade partageaient des caractéristiques de séquence similaires spécifiques au groupe, notamment la structure exon/intron, les phases introniques, les motifs MEME et la prédiction de la structure du site de liaison (analysée plus en détail ci-dessous). Ce modèle de regroupement de groupes interspécifiques suggère que les caractéristiques spécifiques aux groupes sont apparues avant la divergence d’Arachis et d’Arabidopsis. Cependant, plusieurs différences se sont également accumulées dans les gènes bZIP des différentes espèces végétales au cours de l’évolution.
Structure génétique des gènes bZIP d’Arachis
Comme l’organisation des introns et des exon pourrait indiquer la trajectoire évolutive des gènes bZIP, nous avons examiné la structure des gènes bZIP d’Arachis, y compris le nombre d’introns, la longueur et la phase d’épissage (fichier supplémentaire 4). Nous avons constaté que les structures globales des gènes étaient identiques ou similaires pour les bZIP d’Arachis au sein du même groupe phylogénétique. Si l’on considère le nombre d’introns des bZIP d’arachide, 24 % des AdbZIP et 22 % des AibZIP étaient sans intron, se produisant exclusivement dans les groupes S et B. Parmi les gènes contenant des introns, le nombre d’introns variait de 1 à 13 dans les gènes AdbZIP et AibZIP. Les gènes bZIP du groupe G avaient le plus grand nombre d’introns, ce qui correspond aux observations faites dans d’autres génomes de légumineuses .
Les phases d’épissage ont été désignées comme trois phases d’épissage : phase 0 (P0), l’épissage a eu lieu après le troisième nucléotide du codon ; phase 1 (P1), l’épissage a eu lieu après le premier nucléotide du codon ; et phase 2 (P2), l’épissage a eu lieu après le deuxième nucléotide. Les phases des sites d’épissage dans les cadres de lecture ouverts (ORF) étaient diverses, mais étaient hautement conservées dans les régions de base et charnière du domaine bZIP, car tout changement dans ces régions affecterait leur code et leur fonction. Sur la base de la position de l’intron et de la présence ou du nombre de phases d’épissage dans le domaine bZIP, quatre modèles d’intron (a à d) dans les gènes bZIP d’Arachis ont été identifiés (Fig. 2 et fichier additionnel 2). Le modèle a comporte un seul intron inséré en position – 5 de la région charnière, entre les acides aminés Gln et Ala ; ce modèle a été identifié dans tous les gènes bZIP d’Arachis des groupes A et G. Le modèle b comporte deux insertions d’introns en phase 0, l’une dans la région de base et l’autre dans la région charnière ; ce modèle a été identifié dans tous les gènes bZIP du groupe D. Le modèle c présente un seul intron inséré en position – 20 dans la région de base en phase 2 (P2), et contient tous les gènes bZIP des groupes C et H. Le modèle d est dépourvu d’introns dans les régions de base et charnière, et comprend tous les gènes bZIP des groupes B et S. En outre, la plupart des bZIP d’Arachis présentant le modèle d sont dépourvus d’intron, à l’exception d’AdbZIP45 et d’AibZIP40. Chacun de ces gènes possédait un intron en dehors des régions de base et charnière. Les modèles de phase d’épissage dans le domaine bZIP d’Arachis observés ici étaient cohérents avec ceux observés chez d’autres espèces . La conservation élevée de la structure du gène et des phases d’intron au sein des clades phylogénétiques a soutenu la classification de groupe acceptée, et a suggéré que ces différents modèles d’épissage d’exon peuvent jouer un rôle important dans l’évolution fonctionnelle.
Les compositions de motifs pour différents groupes de bZIP d’Arachis
En plus du domaine bZIP, de nombreux motifs conservés supplémentaires ont été détectés dans les gènes bZIP par l’outil d’analyse MEME. Comme le montre la figure 3, un total de 18 motifs conservés en dehors du domaine bZIP ont été identifiés, et les compositions de motifs consensuels pour chaque sous-groupe ont été construites (fichier supplémentaire 5). Ces motifs consensuels ont indiqué que les compositions globales des motifs étaient similaires au sein d’un même sous-groupe mais différentes entre les différents groupes. Cela suggère que la divergence fonctionnelle des gènes bZIP peut être déterminée par des motifs spécifiques au groupe. L’examen individuel de ces motifs a indiqué que beaucoup d’entre eux étaient spécifiques à un groupe. Par exemple, les motifs 1, 2, 3 et 10 n’ont été identifiés que dans le groupe D ; les motifs 5, 14 et 15 n’ont été identifiés que dans le groupe G ; le motif 6 n’a été identifié que dans le groupe I ; et le motif 9 n’a été identifié que dans le groupe H. Plusieurs motifs peuvent être associés à des fonctions biologiques spécifiques. Par exemple, le motif 1 est le domaine DELAY OF GERMINATION (DOG) 1, qui est nécessaire pour l’induction de la dormance et de multiples aspects de la maturation des graines, en partie en interférant avec les composants de signalisation ABA. Le motif 3 contient des sites potentiels de phosphorylation de la caséine kinase II (CK II) (S/TxxD/E), qui jouent un rôle clé dans la division et l’expansion cellulaire et affectent diverses voies de développement et de réponse au stress. De manière intéressante, ces motifs spécifiques au groupe ont également été identifiés dans les bZIP du même groupe dans d’autres génomes de légumineuses , ce qui suggère que la composition des motifs est conservée à travers les plantes légumineuses.
Arachis bZIP structure du site de liaison à l’ADN et propriétés de dimérisation
La région de base centrale et la région charnière du domaine bZIP déterminent indépendamment la spécificité de liaison à l’ADN, comme le démontrent plusieurs expériences . Le remplacement inhabituel des deux sites invariants, l’asparagine (Asn/N ; position : – 18) et l’arginine (Arg/R ; position : – 10), a modifié les spécificités de liaison à l’ADN . Nous avons aligné les séquences d’acides aminés des régions basiques et charnières des protéines bZIP de l’arachide afin d’identifier les résidus d’acides aminés conservés et polymorphes au sein de chaque groupe (fichier additionnel 6). Aucun remplacement d’Asn/N à la position – 18 n’a été observé dans les bZIP d’arachide. Cependant, tous les membres du groupe I avaient de la lysine (Lys/K) au lieu de l’arginine (R) à la position – 10, ce qui est cohérent avec les bZIP du groupe I d’autres espèces de légumineuses. En outre, AdbZIP28 et AibZIP22 (groupe U) avaient un résidu isoleucine (Ile/I) hydrophobe au lieu d’une arginine (Arg/R), et il a été démontré qu’un tel remplacement inhibe complètement l’affinité de la bZIP pour AP1 dans la levure et ne reconnaît pas les boîtes G dans le riz .
La séquence de fermeture éclair Leu médiatise l’homo- et/ou l’hétérodimérisation des protéines bZIP, qui sont connues pour se lier à l’ADN en tant que dimères . La région de la fermeture éclair de Leu consiste en des répétitions d’heptades, les acides aminés sont désignés par a, b, c, d, e, f et g dans chaque heptade . Comme les acides aminés en positions a, d, e et g sont proches de l’interface de la fermeture éclair de Leu, ces acides aminés sont ceux qui déterminent principalement l’oligomérisation de la fermeture éclair de Leu, la stabilité de la dimérisation et la spécificité du dimère. Nous avons analysé les compositions des acides aminés trouvés aux positions a, d, e et g des bZIP d’arachide (Fig. 4a).
A la position a, environ 20% des résidus étaient des asparagines (Asn/N), qui peuvent former une poche polaire dans l’interface hydrophobe, permettant des interactions N-N plus stables en position a↔a′ (la position correspondante dans l’hélice opposée), par rapport aux autres acides aminés . Parmi les différentes heptades, la deuxième et la cinquième heptade présentaient la fréquence la plus élevée de résidus Asn/N en position a (61,46 et 60,22 %, respectivement ; Fig. 4b). En position d (Fig. 4a), le Leu a été trouvé dans 45% de tous les bZIPs d’arachide et est l’un des acides aminés aliphatiques les plus stabilisateurs de dimères. En position e, 37% de toutes les bZIP d’arachide avaient les acides aminés acides D ou E, tandis qu’en position g, 44% de toutes les bZIP d’arachide avaient les acides aminés basiques R ou K (Fig. 4a). On pense que ces acides aminés chargés forment des ponts salins entre les hélices dans les interactions électrostatiques . Les interactions électrostatiques g↔e′ attractives ou répulsives peuvent également former des ponts salins interhélicoïdaux qui affectent la spécificité de la dimérisation et la stabilité . Pour étudier la contribution des résidus chargés aux positions e et g dans la gouvernance des propriétés de dimérisation des protéines bZIP d’Arachis, les fréquences des paires g↔e′ attractives et répulsives dans chaque heptade ont été calculées (figure 4c). Dans l’ensemble des heptades, les paires g↔e′ attractives étaient concentrées dans les deuxième (15,6 %), cinquième (35 %) et sixième (30 %) heptades, ce qui indique qu’elles peuvent former des interactions g↔e′ attractives complètes et contribuer à la stabilité par complémentation dans un hétérodimère. Trois groupes comprenant 28 sous-familles (BZ1-BZ28) ont été encore divisés sur la base des propriétés d’homo- et d’hétérodimérisation, en particulier la spécificité de dimérisation (fichier supplémentaire 7).
L’impact de la duplication du génome entier et de la duplication en tandem sur l’expansion de la famille de gènes bZIP d’Arachis
Nous avons identifié les blocs dupliqués colinéaires à l’échelle du génome dans les génomes d’A. duranensis et d’A. ipaensis et les blocs colinéaires orthologues entre deux génomes. Les distances synonymes par paire (valeurs Ks) entre les paralogues et les orthologues au sein des blocs colinéaires ont été calculées, et leurs distributions de fréquence ont été tracées (Fig. 5a ; Ks bin = 0,05). La fréquence Ks maximale entre A. duranensis et A. ipaensis, représentant la variation de séquence moyenne, était de 0,035. Cela représente la divergence de séquence entre ces deux espèces d’Arachis étroitement apparentées, dont on estime qu’elles ont divergé il y a environ 2,16 millions d’années. En outre, les pics Ks pour les paralogues d’A. duranensis et d’A. ipaensis étaient de 0,90 et 0,95, respectivement, correspondant à la divergence de séquence de l’événement de duplication du génome entier (WGD) papilionoid précoce qui s’est produit il y a ~ 58 millions d’années .
Nous avons détecté 35 AdbZIPs et 32 AibZIPs impliqués dans des blocs génomiques dupliqués, représentant environ 70% (35/50) et 71% (32/45) des gènes bZIP dans chaque espèce (Fig. 5b et fichier additionnel 8). De plus, les paires de gènes bZIP dupliqués se trouvaient soit à l’intérieur d’un chromosome, soit entre chromosomes, et certaines de ces paires étaient dupliquées par segment une, deux ou trois fois. Ce résultat indique une rétention préférentielle des gènes et des arrangements chromosomiques fréquents après la CMD. Des duplications en tandem ont été détectées pour seulement deux paires de gènes (AdbZIP33/AdbZIP34 et AdbZIP41/AdbZIP42) chez A. duranensis et seulement une paire de gènes (AibZIP28/AibZIP29) chez A. ipaensis. Ceci suggère que la duplication en tandem s’est produite rarement et n’a pas été plus importante que la duplication segmentaire dans l’expansion de la famille de gènes bZIP. Nous avons également utilisé des analyses phylogénétiques et synténiques pour identifier 35 paires de gènes bZIP orthologues entre A. duranensis et A. ipaensis. Ces gènes étaient également des homéologues entre les deux sous-génomes de l’arachide tétraploïde.
Pour comprendre les contraintes évolutives agissant sur les gènes bZIP d’Arachis, nous avons calculé les valeurs Ka/Ks pour chaque paire de gènes bZIP dupliqués chez deux espèces d’Arachis (fichier supplémentaire 9). Pour la plupart de ces comparaisons par paires, les valeurs Ka/Ks étaient inférieures à 0,5 (une seule comparaison par paires entre des AdbZIP dupliqués et deux seulement entre des AibZIP dupliqués étaient supérieures à 0,5). Cela suggère qu’une forte sélection purificatrice a agi sur les bZIP dupliqués d’Arachis pour éliminer les mutations délétères au niveau des protéines.
Analyse de l’expression des gènes bZIP d’Arachis pendant le développement des graines d’arachide
Pour profiler l’expression des gènes bZIP, nous avons utilisé nos données RNA-seq publiées précédemment , qui documentent l’expression des gènes dans les graines d’arachide à différents stades de développement : 20, 40 et 60 jours après la floraison (DAF). À l’aide de ces données, nous avons identifié les valeurs FPKM pour toutes les bZIP d’Arachis et toutes les bZIP exprimées de manière différentielle à travers les trois stades de développement. A l’exception de 24 bZIPs, qui n’étaient exprimés à aucun stade de développement, quatre groupes comprenant les gènes bZIPs correspondants avec un profil d’expression spécifique ont été reconnus (Fig. 6a et fichier additionnel 10). Le premier groupe comprenait 37 bZIPs qui étaient régulés à la hausse pendant le développement précoce (20 DAF), mais régulés à la baisse par la suite (à 40 et 60 DAF). Le deuxième groupe comprenait 15 bZIPs qui étaient régulés à la hausse à 40 DAF, tandis que le troisième groupe comprenait 17 bZIPs qui étaient régulés à la baisse à 40 DAF. Le quatrième groupe comprenait 22 bZIPs qui étaient fortement exprimés dans les trois stades de développement. Les bZIPs fortement exprimés dans le quatrième groupe étaient principalement distribués dans les clades A, C et S. Plusieurs de ces bZIPs étaient homologues à des gènes qui ont été impliqués dans le développement des graines chez d’autres plantes, comme Arabidopsis, le riz et le maïs. Ici, 12 bZIP, qui étaient fortement exprimés et homologues à des gènes précédents bien étudiés dans le développement des graines, ont été sélectionnés pour une confirmation par qRT-PCR, et nous avons constaté que les profils d’expression déterminés par RNA-seq étaient cohérents avec ceux trouvés en utilisant la qRT-PCR (Fig. 6b).
Dans le groupe A, AdbZIP33 et AibZIP28 étaient orthologues à Arabidopsis ABA insensitive 5 (ABI5), qui est associé à la signalisation ABA ainsi qu’à la régulation du développement et de la longévité des graines chez Arabidopsis et les légumineuses. Nos résultats RNA-seq et qRT-PCR ont montré que les deux copies orthologues d’ABI5 des deux sous-génomes de l’arachide tétraploïde étaient fortement exprimées pendant le développement, ce qui suggère que la fonction de ces gènes peut être similaire chez l’arachide et Arabidopsis. Nos résultats de qRT-PCR ont également indiqué que les gènes du groupe A AdbZIP42, AdbZIP48 et AibZIP31 étaient exprimés de manière stable au cours du développement (Fig. 6b et fichier additionnel 11). Ces gènes sont homologues à ABFs et AREB, qui sont impliqués dans le développement des graines, la germination et la maturation des embryons médiés par l’ABA. Trois gènes du groupe C (AdbZIP23, AdbZIP37 et AibZIP30) étaient également fortement exprimés et sont homologues au facteur bZIP Opaque2 du maïs. Opaque2 régule l’accumulation des protéines et le métabolisme des acides aminés et des sucres dans les graines de maïs. En outre, les gènes du groupe S AibZIP10, AdbZIP12, AdbZIP24, AdbZIP26 et AdbZIP36 étaient extrêmement bien exprimés dans les graines d’arachide (Fig. 6b et fichier supplémentaire 11). Il est intéressant de noter que les gènes du groupe S, AdbZIP24 et AdbZIP36, présentaient un schéma d’expression similaire à celui des gènes du groupe C, AdbZIP37 et AibZIP30 : une diminution du niveau d’expression au fur et à mesure du développement des graines.
Nous avons ensuite étudié plus en détail les divergences d’expression génique entre les gènes homéologues des génomes AA et BB de l’arachide tétraploïde. L’analyse des cartes thermiques a indiqué que les schémas d’expression globaux au cours du développement des graines étaient similaires pour 31 paires de gènes homéologues/orthologues des génomes AA et BB. Nous avons utilisé la méthode d’analyse d’expression différentielle en combinaison avec des méthodes statistiques pour calculer les différences d’expression génique entre ces paires de gènes pour chaque échantillon. Nous avons constaté que 3 paires de gènes (AdbZIP5 et AibZIP5, AdbZIP17 et AibZIP15, AdbZIP46 et AibZIP41) étaient différentiellement exprimées à 20 DAF, 3 paires (AdbZIP3 et AibZIP1, AdbZIP4 et AibZIP4, AdbZIP49 et AibZIP45) à 40 DAF, et 5 paires (AdbZIP3 et AibZIP1, AdbZIP33 et AibZIP28, AdbZIP37 et AibZIP30, AdbZIP10 et AibZIP10, AdbZIP1 et AibZIP3) à 60 DAF. Ces résultats ont indiqué la conservation globale de l’expression entre deux génomes, mais ont suggéré que 20% des gènes avaient divergé dans l’expression au cours de l’évolution parallèle et de la polyploïdisation de deux génomes (Fig. 6c).
Profils d’expression par qRT-PCR des gènes bZIP d’Arachis sous stress salin
Nous avons utilisé la qRT-PCR pour explorer les changements dans l’expression des gènes bZIP en réponse au traitement salin (Fig. 7 et fichier additionnel 12). Nous n’avons pas été en mesure d’amplifier clairement 4 bZIPs avec la PCR. Après que les racines d’arachide aient été traitées au sel pendant 1 h, 20 gènes ont été significativement exprimés de manière différentielle ; après 5 h, 27 gènes ont été significativement exprimés de manière différentielle ; et après 10 h, 41 gènes ont été significativement exprimés de manière différentielle (Fig. 7j ; test t de Student : P < 0,05). À chaque point de temps, beaucoup plus de gènes étaient régulés à la hausse qu’à la baisse (14 contre 6 à 1 h ; 21 contre 6 à 5 h ; et 34 contre 7 à 10 h). Parmi ces bZIPs différentiellement exprimés après le traitement au sel, beaucoup d’entre eux étaient distribués dans les groupes A et S (Fig. 7k), indiquant que les bZIPs dans ces groupes jouent des rôles importants dans la signalisation du sucre et la régulation du stress abiotique .
Les bZIP du groupe A possèdent les motifs du site de phosphorylation de la CKII et de la protéine kinase Ca2 +-dépendante impliqués dans la signalisation du stress et/ou de l’ABA, et ces motifs sont importants pour l’adaptation des plantes à divers facteurs de stress environnementaux abiotiques . En effet, de nombreux gènes du groupe A sont associés à la réponse au stress salin. Chez Arabidopsis, ABI5 et ABFs/AREB sont des facteurs clés de la transduction du signal dépendant de l’ABA impliqués dans la tolérance au stress abiotique. La surexpression de GhABF2 améliore significativement la tolérance au stress salin à la fois chez Arabidopsis et chez le coton. Chez la tomate, le knock-out de slAREB1 et slbZIP1 augmente la tolérance au stress salin, tandis que la surexpression de slAREB1 et slbZIP1 réduit la tolérance au stress salin. Ici, les gènes AdbZIP42 et AibZIP35 ont été significativement régulés à la hausse en réponse au stress salin, et ces gènes sont homologues aux ABFs, GhABF2, slAREB1, et slbZIP1. En outre, ces gènes ont été signalés comme étant phosphorylés par les protéines kinases SnRK2 activées par l’ABA, ce qui suggère que la phosphorylation des facteurs de liaison à l’élément de réponse de l’ABA peut être critique pour la réponse au stress salin médiée par l’ABA.
Les gènes du groupe B AdbZIP45 et AibZIP40 ont été régulés à la hausse après 10 h de stress salin, et ces gènes sont homologues à AtbZIP17, ce qui pourrait améliorer l’expression de plusieurs gènes de réponse au stress salin dans Arabidopsis. Sept gènes bZIP du groupe G (AdbZIP7, AdbZIP15, AdbZIP19, AdbZIP50, AibZIP17, AibZIP21, et AibZIP38) sont homologues d’Arabidopsis AtbZIP41 et de la tomate slbZIP38, et il a été démontré que ces gènes régulent négativement le stress salin. Parmi ces sept gènes, AdbZIP15 était significativement régulé à la baisse après 1 h et 5 h de traitement par le stress salin, tandis que AdbZIP19 et AibZIP17 étaient significativement régulés à la hausse après 10 h de stress salin. Ainsi, AdbZIP15, AdbZIP19 et AibZIP17 pourraient conférer une résistance au stress salin. AdbZIP15 pourrait être un régulateur négatif du stress salin, comme son modèle d’expression était semblable à celui de slbZIP38 en réponse au stress salin.
Les gènes du groupe S AdbZIP24 et AdbZIP36 étaient homologues à AtbZIP1, AtbZIP53, MtbZIP2, et MtbZIP26, et les modèles d’expression de ces gènes en réponse au stress salin étaient semblables (Fig. 7). En particulier, AdbZIP36 était significativement régulé à la hausse après 10 h de stress salin. Il a été démontré que deux gènes homologues chez Arabidopsis, AtbZIP1 et AtbZIP53, reprogramment le métabolisme primaire des glucides et des acides aminés pour aider les racines à s’adapter au stress salin. Les homologues MtbZIP2 et MtbZIP26 sont également induits transcriptionnellement par le traitement au sel, et améliorent la tolérance des plantes au stress salin. Notamment, le modèle d’expression de AdbZIP36 était similaire à ceux de AtbZIP1, MtbZIP2 et MtbZIP26 dans Arabidopsis et M. truncatula, ce qui suggère que AdbZIP36 pourrait être un régulateur positif de la tolérance au stress salin dans l’arachide. En résumé, notre étude d’analyse d’expression a identifié plusieurs bZIPs candidats de l’arachide, qui peuvent être associés à la réponse au stress salin, comme des cibles pour des recherches futures.