La structure de l’ARN détermine l’interaction avec les protéines

Juil 29, 2021
admin

Les ARN hautement structurés lient une grande quantité de protéines

Dans le but d’étudier comment la structure de l’ARN influence la liaison aux protéines, nous avons mesuré la quantité de régions à double brin du transcriptome humain8 (Fig. 1a). Nous avons d’abord regroupé les ARN, tels que détectés par l’approche de réticulation et d’immunoprécipitation améliorée (eCLIP)30, en classes basées sur le contenu structurel mesuré par  » analyse parallèle de la structure de l’ARN  » (PARS)8 (Fig. 1a et Fig. 1b supplémentaires). L’analyse parallèle de la structure de l’ARN (PARS) est une technique expérimentale qui distingue les régions double et simple brin de l’ARN en utilisant l’activité catalytique de deux enzymes, la RNase V1 (capable de couper les nucléotides double brin) et S1 (capable de couper les nucléotides simple brin) et pour laquelle des scores positifs indiquent des régions double brin (voir Eq. (1) dans Méthodes)8. Nous avons ensuite utilisé les prédictions catRAPID des interactions protéine-ARN (disponibles dans la base de données RNAct qui contient à la fois des calculs à l’échelle du protéome et du transcriptome31) et avons comparé les scores d’interaction des différents groupes (HS, contenu structurel élevé, vs. LS, contenu structurel faible) (Fig. 1b). L’algorithme catRAPID32 estime le potentiel de liaison grâce aux propriétés de van der Waals, de liaison hydrogène et de structure secondaire des séquences de protéines et d’ARN (10 propriétés au total), ce qui permet d’identifier les partenaires de liaison avec une grande confiance. En effet, comme indiqué dans une analyse récente d’environ un demi-million d’interactions validées expérimentalement31, l’algorithme est capable de séparer les paires en interaction de celles qui ne le sont pas avec une aire sous la courbe (AUC) de la courbe caractéristique d’exploitation du récepteur (ROC) de 0,78 (avec un taux de fausse découverte (FDR) significativement inférieur à 0,25 lorsque les valeurs du Z-score sont >2). La comparaison des groupes d’ARN avec différents contenus structurels montre une tendance cohérente dans laquelle un contenu structurel plus élevé dans les molécules d’ARN entraîne des scores d’interaction protéique plus élevés (Fig. 1b). Comme pour les données PARS, nous notons que la quantité de régions à double brin est faiblement corrélée (<0,10 ; Pearson’s) avec la longueur de l’ARN et le contenu GC, ce qui indique que ces deux facteurs contribuent positivement à la structure secondaire en augmentant la taille de l’espace conformationnel ainsi que la stabilité globale33.

Fig. 1
figure1

La quantité de structure protéique est corrélée au nombre d’interactions. a Fonction de distribution cumulative (CDF) pour le contenu de la structure secondaire de tous les ARN humains mesurée par l’analyse parallèle de la structure de l’ARN (PARS)8,69. Les lignes verticales indiquent une certaine fraction (X%) d’ARN avec le contenu secondaire le plus faible (LS ; bleu) et la même fraction avec le contenu secondaire le plus élevé (HS ; rose). b Prédictions catRAPID des interactions protéiques avec les ARN humains classés par contenu structurel mesuré par PARS (118 protéines liant l’ARN (RBP) pour lesquelles des informations sur la réticulation et l’immunoprécipitation améliorées (eCLIP) sont également disponibles)31. Les fractions 10%, 15%, …, 50% se réfèrent à la comparaison entre les ensembles HS et LS de taille égale. Les résultats indiquent que catRAPID est capable de distinguer les groupes HS et LS de manière significative et cohérente à travers les différentes fractions (valeur p <10-16 ; test de Kolmogorov-Smirnov (KS)). Les cases indiquent l’écart interquartile (IQR), la ligne centrale représente la médiane, les moustaches ajoutent 1,5 fois l’IQR au percentile 75 (limite supérieure de la case) et soustraient 1,5 fois l’IQR du percentile 25 (limite inférieure de la case). s.d. est indiqué. c Relation entre le nombre d’interactions protéiques (eCLIP) et le contenu structurel mesuré par PARS30. La ligne d’ajustement correspond à la formule y = exp(α + βx), où α = -0,75 ; β = 0,67 ; valeur p estimée avec le test de KS. d Relation entre le nombre d’interactions protéiques et le contenu structurel mesuré par modification au sulfate de diméthyle (DMS)9. La ligne d’ajustement correspond à la formule y = 1/(α + βx), où α = 2,60 ; β = 87,36 ; valeur p estimée avec le test KS. e Préférences structurelles des RBP mesurées avec trois techniques CLIP différentes (CLIP amélioré par les ribonucléosides photoactivables (PAR-CLIP), CLIP par séquençage à haut débit (HITS-CLIP) et CLIP à résolution nucléotidique individuelle (iCLIP)). La couleur indique la préférence de liaison à l’ARN de chaque protéine : rose, hautement structuré ; bleu, faiblement structuré ; gris, aucune préférence. f Corrélation entre le contenu structurel (prédictions CROSS des expériences icSHAPE) et les interactions protéiques de huit transcrits révélées par les microréseaux de protéines (corrélation de Pearson). s.d. est indiqué. g L’analyse des structures de la Protein Data Bank (PDB) contenant des complexes protéine-ARN révèle une tendance entre les contacts entre protéines (inter) et ARN (intra) (196 paires différentes ; corrélation de Pearson)

Nous avons répété l’analyse avec une approche non apparentée, RPISeq, qui prédit les interactions protéine-ARN à l’aide de motifs de séquence dans les séquences de nucléotides et d’acides aminés11. RPISeq est composé de deux méthodes basées sur les machines à vecteurs de support (RPISeq-SVM) et la forêt aléatoire (RPISeq-RF). En raison des exigences spécifiques de calcul, nous avons appliqué RPISeq à un ensemble de RBP (50 protéines avec une similarité de séquence <0,85 ; http://cd-hit.org/) par rapport à l’ensemble HS et LS provenant des queues de la distribution du contenu structurel (100 transcriptions) pour estimer les probabilités de liaison (Données supplémentaires 1). Dans les deux cas, on prédit que l’ensemble HS (RF 0,80, SVM 0,71) se lie avec des probabilités significativement plus élevées que l’ensemble LS (RF 0,70, SVM 0,54 ; valeur p <10-5 ; test de Kolmogorov-Smirnov (KS) ; figure supplémentaire 1b-c), en accord avec l’analyse catRAPID (figure 1b). Ainsi, notre analyse suggère que le contenu de la structure de l’ARN a un effet sur l’interaction avec les protéines.

Pour faire correspondre nos prédictions avec les données expérimentales, nous avons étudié toutes les interactions RBP-ARN révélées par Enhanced CrossLinking and ImmunoPrecipitation, eCLIP30 (118 RBP ; voir Méthodes). eCLIP fournit des contacts protéiques sur les ARN cibles à une résolution nucléotidique individuelle par la ligature d’adaptateurs d’ADN simple brin à code-barres30. En accord avec les prédictions de catRAPID31 (Fig. 1b), les scores de liaison eCLIP sont en corrélation avec la structure secondaire de PARS, ce qui indique que la propension de l’ARN à interagir avec les protéines est proportionnelle à la quantité de structure mesurée à l’échelle du transcriptome (Fig. 1c). Nous notons que les approches CLIP-seq favorisent en général la détection de l’ARN simple brin (SS) au détriment de l’ARN double brin (DS)34 et que l’ensemble de données eCLIP n’est pas enrichi en protéines de liaison à l’ARN double brin (9 sur 118 sont assignées selon UniProt comme liaison à l’ARNd, 12 sur 118 comme liaison à l’ARNs, en utilisant les annotations GO disponibles35), ce qui indique que nos résultats ne sont pas biaisés par les types de protéines utilisés dans notre analyse.

Pour corroborer davantage que la tendance est authentique et pas seulement intrinsèque aux mesures PARS, nous avons analysé le potentiel d’interaction avec les protéines de l’ensemble du transcriptome humain par rapport à la structure secondaire de l’ARN mesurée avec la technique de modification du sulfate de diméthyle (DMS) (différemment de PARS, les valeurs élevées indiquent des régions monocaténaires ; Fig. 1d)9. Cette méthode d’évaluation de la structure de l’ARN utilise le séquençage profond pour détecter les nucléotides adénosine et cytidine non appariés. Une fois de plus, l’analyse montre que la structure secondaire de l’ARN des transcrits humains est étroitement corrélée aux capacités de liaison aux protéines.

Nous avons également utilisé la base de données POSTAR (contenant >1000 ensembles de données CLIP-seq ; http://lulab.life.tsinghua.edu.cn/postar/) pour retrouver les préférences de liaison à l’ARN des protéines humaines (103 expériences, 85 RBP différentes) mesurées avec PAR-CLIP, séquençage à haut débit-CLIP (HITS-CLIP) et CLIP à résolution nucléotidique individuelle (iCLIP)10. En raison des différences intrinsèques des approches CLIP (et d’autres facteurs, tels que les lignées cellulaires utilisées), chaque expérience rapporte des interactions protéine-ARN différentes10. Pourtant, 77% des RBP ont une préférence pour les ARN hautement structurés pour au moins une des méthodes expérimentales (DMS ou PARS ; Fig. 1e).

Compte tenu des biais techniques possibles des expériences à haut débit, nous avons décidé de vérifier la reproductibilité de la tendance en étudiant la corrélation entre la structure de l’ARN et les interactions protéiques dans les analyses à faible débit. Nous avons d’abord étudié l’interactome de huit grands ARN (>1000 nt) dont les partenaires protéiques ont été identifiés par microarray, une approche sans réticulation21,36,37 (voir Méthodes). En parallèle, nous avons estimé le contenu structurel de chaque transcrit à l’aide de l’algorithme CROSS qui a été préalablement entraîné sur les données SHAPE38 pour prédire la propension au double brin au niveau de la résolution nucléotidique. Nos résultats présentés dans la figure 1f indiquent que les transcrits hautement structurés ont plus de contacts protéiques que les transcrits peu structurés, ce qui est tout à fait compatible avec les résultats présentés dans notre analyse précédente (figure 1b-e).

Nous avons corroboré nos observations par l’étude des complexes RNP déposés dans la base de données Protein Data Bank (PDB) (résolution aux rayons X <2 Å ; données supplémentaires 2 ; voir Méthodes), qui comprend 196 paires ARN-protéines distinctes (>20 espèces) analysées avec différentes techniques (principalement les rayons X et la résonance magnétique nucléaire (RMN)) par différents laboratoires. En mesurant la quantité d’ARN intra-contact (c’est-à-dire la quantité de structure d’ARN) et inter-contact (c’est-à-dire l’acide aminé) par chaîne nucléotidique, nous avons trouvé une corrélation frappante de 0,78 entre les deux variables, ce qui fournit des preuves irréfutables de leur relation étroite (Fig. 1g ; voir les équations (2) et (3) dans Méthodes).

Ainsi, indépendamment de l’expérience (PARS, DMS, microarray, rayons X, RMN, eCLIP, PAR-CLIP, HITS-CLIP et iCLIP), des algorithmes employés (catRAPID et RPISeq ou CROSS pour imiter les données SHAPE) ou de l’organisme (base de données PDB), nous avons trouvé une corrélation entre le nombre d’interactions protéiques et le contenu structural de l’ARN.

L’interactivité protéique pilotée par la structure des types d’ARN

Nous avons ensuite cherché à savoir si le lien étroit entre la structure secondaire et le nombre d’interactions protéiques est une propriété de types d’ARN spécifiques (Fig. 2a). Dans ce but, nous avons comparé la structure secondaire et les interactions protéiques des transcrits classés par similarité de séquence en utilisant l’algorithme CD-HIT39 (http://cd-hit.org/). Avec un seuil de 85% de similarité, nous avons trouvé 22 clusters (total de 55 transcrits) avec au moins un contact RBP révélé par eCLIP. Nous avons ensuite calculé la corrélation entre le signal DMS et les interactions protéiques eCLIP pour chaque cluster et avons obtenu une corrélation négative dans 64% des cas. Ce résultat indique qu’entre deux transcrits similaires, celui qui a un contenu structurel plus élevé est plus susceptible d’avoir un plus grand nombre d’interactions protéiques.

Fig. 2
figure2

Imprimés fonctionnels de l’interactivité protéique pilotée par la structure de l’ARN. a Schéma montrant le rôle des contacts intra et intermoléculaires dans un complexe ARN-protéine. En haut, contacts intramoléculaires. En bas, contacts intermoléculaires. Le nombre de contacts est indiqué par des nuances allant du bleu foncé (le plus faible) au rouge (le plus élevé). b En haut, contenu structurel (modification au sulfate de diméthyle (DMS) ; valeur p estimée par le test de KS). En bas, Interactions protéiques (réticulation et immunoprécipitation améliorées (eCLIP) des ARN de la sous-unité γ1 de l’hémoglobine (HBG1) (rose) et de la sous-unité γ2 de l’hémoglobine (HBG2) (bleu) (99,3 % d’identité séquentielle) ; la valeur p empirique a été estimée en comparant le chevauchement avec celui de 1000 échantillons prélevés sur les protéines de liaison à l’ARN (RBP) eCLIP. c Analyse parallèle de la structure de l’ARN (PARS) (rose) et contenu structurel DMS (bleu) de différents types d’ARN (Ensembl). d Regroupement sémantique des termes de l’ontologie des gènes associés aux ARN les moins et les plus structurés (100 transcriptions moins structurées (LS) vs 100 transcriptions hautement structurées (HS)) à l’aide de cleverGO. e Grâce à l’analyse des ARN individuels (figures 1 et 2b), nous avons découvert que le contenu structurel est lié au nombre de partenaires et à la fonction d’un ARN. Notre analyse indique que les ARN fonctionnellement apparentés ont un contenu structurel similaire (Fig. 2c). L’interactivité protéique induite par la structure est une propriété intrinsèque associée à l’ARN qui peut être tracée à n’importe quel niveau de régulation. f Chaque ligne montre les propensions d’interaction catRAPID causées par la suppression d’une propriété physico-chimique13,32. L’élimination de l’hélice α (Chou) et de la polarité (Grantham) réduit la capacité à distinguer les HS et les LS (valeurs p estimées avec le test de KS). g Analyse multivariée des propriétés physicochimiques de trois ensembles de RBP et de protéines annotées dans UniProt comme liant des ARN double brin (DS) ou des ARN simple brin (SS) (voir Méthodes). La  » propension au désordre  » et l' » hélice α  » sont les propriétés présentant une différence significative et des résultats opposés entre les liants DS et SS pour au moins deux bases de données RBP (le bleu ou le rose indiquent que DS ou SS sont enrichis ou appauvris ; le jaune indique qu’il n’y a pas de différence significative entre les ensembles). En b, c, les cases indiquent l’écart interquartile (IQR), la ligne centrale représente la médiane, les encoches l’intervalle de confiance à 95% de la médiane, les moustaches ajoutent 1,5 fois l’IQR au percentile 75 (limite supérieure de la case) et soustraient 1,5 fois l’IQR du percentile 25 (limite inférieure de la case). L’écart-type est indiqué

Les deux transcrits partageant la plus grande similarité (99,31%) sont les γ-globines HBG1 et HBG2 (sous-unités d’hémoglobine γ1 et γ2) qui sont exprimées dans le foie, la rate et la moelle osseuse des fœtus (NCBI Gene ID : 3048). La variante de la γ-globine avec une structure plus élevée (HBG1) a un nombre significativement plus important d’interacteurs protéiques (HBG1, signal DMS moyen de 0,04, 29 interacteurs ; HBG2, signal DMS moyen de 0,07, 14 interacteurs ; valeur p = 0,003 ; test KS ; Fig. 2b). Alors que la composition nucléotidique des deux transcrits reste presque la même (HBG1:280c, 463c, 514t, 552a, 575g ; HBG2 : 280t, 463g, 514g, Δ552a, 574a), les différences entre HBG1 et HBG2 sont concentrées dans les régions où la structure secondaire est altérée (Fig. 2 supplémentaire). Ces résultats indiquent que l’interactivité des protéines est étroitement associée aux changements conformationnels des éléments de la structure secondaire. De manière intéressante, l’augmentation du contenu double brin dans HBG1, en particulier dans le 3′-UTR, s’accompagne d’une accumulation d’éléments régulateurs de la traduction (Fig. 2b) et d’une diminution concomitante de l’expression (NCBI Gene ID : 3048).

Nous nous sommes ensuite demandé si des structures spécifiques d’ARN étaient impliquées dans la régulation des protéines. Nous avons divisé le transcriptome humain en différentes classes et analysé leur structure secondaire détectée par deux techniques expérimentales indépendantes, PARS et DMS. Les deux techniques montrent que les ARN codant pour les protéines ont le plus grand contenu structurel (Fig. 2c, Tableau supplémentaire 1)38. Bien qu’une partie de la structure de l’ARNm soit concentrée dans les UTR8, lorsque ceux-ci sont exclus, la distribution du contenu structurel ne change pas de manière substantielle (corrélation de Pearson entre les transcrits avec et sans leurs UTR = 0,94 ; figure supplémentaire 3). Les ARN connus pour interagir avec les protéines, tels que les petits ARN nucléaires (snRNA)40 et les petits ARN nucléolaires (snoRNA)28, présentent la plus grande quantité de structure, tandis que les ARN ciblant des régions complémentaires dans les acides nucléiques, tels que les antisens, les miRNA et un certain nombre de longs ARN non codants intergéniques (lincRNA)41,42 présentent la plus petite quantité de structure43 (Tableau supplémentaire 1).

En accord avec nos résultats, Seemann et al.12 ont précédemment observé une relation étroite entre la liaison protéique et la conservation des éléments structurels dans les ARNm, qui se produisent dans une moindre mesure dans les longs ARN non codants12. Bien que les lincRNAs montrent une quantité plus faible de régions double-brin (la plus faible dans le PARS, la troisième plus faible dans le DMS), nous notons que certains d’entre eux, comme par exemple NEAT144 et XIST27, sont capables d’échafauder l’assemblage de protéines par des domaines structurés. Comme il y a un débat en cours sur les différences structurelles entre les transcrits codants et non codants45,46 et que notre analyse des données DMS et PARS révèle des résultats contradictoires pour des types d’ARN spécifiques, nous suggérons des investigations supplémentaires dans des études futures (Fig. 2c ; Tableau supplémentaire 1).

Pour étudier les différences fonctionnelles entre les ARN hautement et faiblement structurés, nous avons analysé les termes GO associés aux ARN les moins et les plus structurés (100 transcrits LS vs 100 HS) en utilisant l’approche cleverGO35. Alors que l’ensemble LS (14 ARN non codants et 86 ARNm) n’est pas associé à des clusters de similarité sémantique spécifiques (total de 36 termes avec une valeur p <0,05 ; test de Bonferroni), l’ensemble HS (100 ARNm ; total de 395 termes avec une valeur p <0,05 et 103 termes avec une valeur p <0,01 ; test de Bonferroni ; Fig. 2d) comprend 20 clusters distincts. Les cinq catégories principales associées aux clusters et couvrant au moins un quart des entrées sont : (i) régulation de protéines complexes (49/103), (ii) processus métabolique des nucléosides (39/103), (iii) réponse cellulaire (29/103), (iv) expression génique (29/103) et (v) ciblage des protéines (28/103). Nous avons également répété l’analyse des termes GO en utilisant comme arrière-plan les transcrits 25% plus exprimés et nous avons obtenu des résultats similaires (souche K562 GENCODE, Méthodes, Fig. 4 supplémentaire).

L’analyse en grappes révèle le constat intriguant que les transcrits à fort contenu structurel interagissent davantage avec les polypeptides et codent pour des protéines impliquées dans les fonctions de régulation et dans la formation de réseaux de contacts complexes. Étant donné la relation entre la structure de l’ARN et le nombre d’interactions protéiques (Fig. 1), une interprétation préliminaire de nos résultats est qu’un haut degré de contrôle est nécessaire pour les gènes qui coordonnent l’activité d’un grand nombre de réseaux cellulaires47. Ainsi, notre analyse suggère une propriété  » récursive  » : les transcrits fortement contactés codent pour des protéines fortement contactées (Fig. 2e)20,48.

Le désordre et l’hélice distinguent les ARNdb des ARNs

Pour comprendre la base moléculaire de l’interactivité des molécules d’ARN induite par la structure, nous avons analysé quelles propriétés physicochimiques des protéines discriminent mieux les ensembles HS et LS. Nous avons étudié les 10 variables utilisées dans l’algorithme catRAPID (Fig. 2f)13,32 et les avons supprimées une par une pour estimer l’impact sur la prédiction des interactions ARN-protéines. Nous avons constaté que la capacité à distinguer les ensembles d’ARN les moins et les plus structurés (100 transcriptions HS et LS ; Données supplémentaires 3) est plus affectée lorsque la polarité (valeur p = 0,28 ; test de KS) et la propension α-hélicoïdale (valeur p = 0,06 ; test de KS) sont supprimées (Fig. 2f). La propriété qui affecte le plus significativement la propension à se lier aux HS est la polarité, qui est enrichie dans les protéines structurellement désordonnées49 et qui est anti-corrélée avec l’hydrophobie qui est clé dans la reconnaissance macromoléculaire (Tableau supplémentaire 2)50. Quant à la propension α-hélicoïdale, nous notons que les hélices sont les éléments structuraux les plus fréquents impliqués dans la formation de contacts avec les régions double-brin et se retrouvent dans les dsRBD et les doigts de zinc29 (Supplementary Table 3). Notre observation suggère une possible co-évolution entre les protéines et les ARN : tandis que l’ARN adopte des formes complexes pour exposer les régions de liaison, les protéines modifient leur contenu structurel. En accord avec la théorie de la serrure à clé51, nous proposons que la sélection naturelle favorise les RBP hautement structurées en tant qu’interagisseurs d’ARNdb.

Nous avons validé l’importance de la polarité et de la structure hélicoïdale des protéines en comparant trois ensembles de données de RBP bien étudiées (humain et levure)52,53,54 et deux ensembles de protéines extraites d’UniProt (tous les organismes) en tant que liants exclusivement d’ARNdb (453 protéines) ou liants d’ARNdb (390 protéines ; données supplémentaires 4). L’analyse des propriétés biophysiques avec l’approche cleverMachine55 a révélé que les liants ssRNA et les liants dsRNA diffèrent pour deux propriétés : le désordre et le contenu en α-hélice (Fig. 2g). La comparaison des deux ensembles, l’un contre l’autre, indique que les RBP interagissant avec des ARN hautement structurés sont structurés et hydrophobes, tandis que les RBP désordonnés et polaires s’associent à des ARN moins structurés (Fig. 5 supplémentaire). Ainsi, notre analyse élargit encore ce qui a été précédemment rapporté pour les réseaux d’interaction protéine-protéine, dans lesquels il a été démontré que les régions désordonnées structurelles jouent un rôle central47, et suggère de nouvelles règles pour l’appariement des bases nucléotidiques avec les acides aminés.

Contenu structurel de l’ARN et contact avec les protéines dans les chaperons

L’analyse du transcriptome humain et à travers les organismes indique que les ARN hautement structurés sont enclins à interagir avec les polypeptides et, à leur tour, codent pour les protéines impliquées dans les processus biologiques associés à des réseaux de contact larges et complexes. Afin de mieux étudier l’interactivité protéique des molécules d’ARN basée sur la structure, nous nous sommes concentrés sur une classe de transcrits codant pour des protéines interagissant avec plusieurs partenaires. Le choix naturel pour cette analyse est celui des chaperons moléculaires, car ils favorisent le repliement à l’état natif56 et organisent l’assemblage de RNP à phases séparées57, remplissant ainsi la propriété  » récursive  » présentée dans la Fig. 2d. Les données eCLIP30 montrent que la plupart des ARN codant pour les chaperons humains sont impliqués dans des interactions avec plusieurs protéines (Fig. 6 supplémentaire). Nous avons trouvé une corrélation significative entre les interactions protéine-ARN et protéine-protéine annotées dans BioGRID (Fig. 3a). Ce résultat confirme que les transcrits liés par de nombreuses RBP codent également pour des protéines hautement contactées.

Fig. 3
figure3

Relation entre la structure de l’ARN et les contacts protéiques pour les chaperons. a Contacts des ARN codant pour les protéines chaperonnes, mesurés par réticulation et immunoprécipitation améliorées (eCLIP)30, et interactions physiques des protéines codées correspondantes, collectées à BioGRID ; valeur p estimée avec le test de KS. b Comparaison entre le contenu structurel de l’analyse parallèle de la structure des ARN (PARS) et les interactions physiques des protéines codées, collectées à BioGRID, pour l’ensemble du transcriptome. Le transcriptome a été divisé en cinq ensembles consécutifs contenant chacun 20 % du transcriptome. Les ensembles ont été sélectionnés en fonction de leur contenu structurel PARS, la gamme de chaque ensemble, de gauche à droite, est la suivante -10,7 à -4,6 ; -4,6 à -3,1 ; -3,1 à -2,4 ; -2,4 à -1,9 ; -1,9 à -0,5. Le dernier boxplot montre la distribution du nombre d’interacteurs physiques extraits de BioGRID pour la famille des protéines chaperonnes (protéines de choc thermique). c Mesure PARS du contenu de la structure secondaire des transcrits HS (HSP70, rose) et LS (BRaf, bleu). Les lignes pointillées verticales indiquent les régions non traduites (UTR). d Contenu en structure secondaire PARS des transcrits HS et LS (valeur p estimée avec le test de KS). e Diagramme de Venn montrant le chevauchement entre les interactions protéiques, mesurées par eCLIP, des ARN HS et LS (valeur p empirique <6 × 10-3 ; estimée en comparant avec la distribution de 1000 chevauchements d’ensembles échantillonnés à partir des RBP eCLIP). f Prédiction de la propension à la liaison protéique des ARN HS et LS en utilisant catRAPID13,32 (valeur p estimée avec le test KS). Pour b, d, f, les cases indiquent l’écart interquartile (IQR), la ligne centrale représente la médiane, les encoches l’intervalle de confiance à 95 % de la médiane, les moustaches ajoutent 1,5 fois l’IQR au percentile 75 (limite supérieure de la case) et soustraient 1,5 fois l’IQR du percentile 25 (limite inférieure de la case). L’écart-type est indiqué

Pour comprendre si la corrélation entre les interactions protéine-protéine et protéine-ARN est une propriété générale ou simplement une caractéristique de la famille des chaperons, nous avons analysé les interactions du transcriptome classé par les scores PARS et 24 ARNm codant pour des chaperons pour lesquels des données PARS sont disponibles (Genecards ; https://www.genecards.org ; ensemble ‘HSPs’ ; Méthodes, Fig. 3b). Nous avons trouvé une corrélation positive entre la quantité de structure de l’ARN et le nombre d’interacteurs BioGRID des protéines codées (Fig. 7a-b supplémentaire). Ainsi, nos calculs sont en accord avec l’analyse GO (Fig. 2d) et suggèrent une relation entre les ARNm et leurs partenaires codants : les ARN hautement structurés codent pour des protéines à forte interaction.

Les données présentées jusqu’à présent suggèrent que les ARN apparentés par leur type (par exemple miRNA, snRNA) ou leur fonction (par exemple le codage des chaperons) partagent des caractéristiques structurelles similaires (Fig. 2). Ainsi, il devrait être possible d’estimer les différences dans le réseau d’interactions de deux transcrits non apparentés en analysant leur contenu structurel, et vice versa. Pour tester cette hypothèse, nous avons sélectionné le transcrit HSP70 hautement structuré (ARN HS, log du score PARS de -1,3 correspondant à 26% du contenu double brin, Fig. 3c) codant pour une chaperonne essentielle à la régulation des assemblages de complexes protéiques tels que les manteaux de clathrine58 et les granules de stress22,57. Comme contrôle, nous avons choisi l’ARN codant pour BRaf qui est moins structuré (ARN LS, score de -2,8 indiquant 6 % de contenu double brin selon PARS, Fig. 3c-e) et codant pour un oncogène impliqué dans la transmission de signaux chimiques de l’extérieur de la cellule vers le noyau (la comparaison structurelle est confirmée par les prédictions CROSS et les expériences DMS, comme le montre la figure supplémentaire. 8).

Nous avons constaté que HSP70 a un plus grand nombre de partenaires (30 RBP identifiées par eCLIP) que BRaf (9 RBP eCLIP, 6 en commun avec HSP70, Fig. 9 supplémentaire), ce qui est parfaitement en accord avec la propriété d’interactivité des protéines déterminée par la structure. En accord avec la tendance de la Fig. 1b, catRAPID indique que les protéines ont une plus grande propension à se lier à HSP70 qu’à BRaf (Fig. 3f). De plus, la HSP70 hautement structurée code pour une protéine ayant un nombre plus élevé d’interacteurs (244 interacteurs physiques BioGRID), tandis que la BRaf faiblement structurée a un produit protéique se liant à un ensemble plus restreint de molécules (88 interacteurs physiques BioGRID). Nos observations suggèrent qu’un ARN avec un grand nombre d’interactions est susceptible d’agir comme un régulateur de réseau : nous spéculons que, en raison de l’interactivité plus élevée, le transcrit HSP70 pourrait se comporter comme un chaperon en fonction du contexte.

Donc, nous émettons l’hypothèse qu’un ARN structuré, en raison de son potentiel d’interaction protéique plus élevé, est capable d’affecter le réseau d’interaction protéique plus qu’un ARN mal structuré. Dans une expérience de preuve de concept, nous avons utilisé un composé chimique, l’isoxazole biotinylé (b-isox) pour induire la formation d’une transition de phase liquide à solide d’un assemblage de protéines59,60 que nous avons incubé avec des transcrits HS (HSP70) ou LS (BRaf) (Fig. 4a et Fig. 10 supplémentaire). Nous avons observé que l’ARN HS modifiait davantage la composition de l’agrégat protéique que l’ARN LS (Fig. 4b et Données supplémentaires 5). En effet, lorsque l’ARN HS a été ajouté, un changement significatif de concentration a été observé pour 29 protéines (Fig. 4c ; 21 ensembles ‘libérés’, points noirs, et 8 ensembles ‘conservés’, points rouges dans la Fig. 4b), alors que seulement neuf protéines ont été identifiées dans le cas de l’ARN LS. Ainsi, la composition en présence d’ARN LS est restée similaire à celle du contrôle de fond (ensemble ‘statique’, points gris dans la Fig. 4b).

Fig. 4
figure4

L’ARN structuré réduit l’agrégation des protéines in vitro. a Agrégation de lysat de protéines HeLa in vitro induite par l’isoxazole biotinylé (b-isox). À gauche, gels colorés par Coomassie, une expérience représentative (les gels non recadrés sont présentés dans la figure supplémentaire 10). Au centre, l’intensité des protéines agrégées a été quantifiée et la différence a été évaluée à l’aide d’un test t bilatéral (p = 1 ×1 0-3 ; N = 3 répliques biologiques représentées par des points sur l’image). L’écart-type est indiqué. A droite, schéma expérimental. L’efficacité de l’agrégation a été testée en comparant le précipité résultant en présence ou en absence de b-isox, ce qui est indiqué par a+ ou a-, respectivement. b Les graphiques en volcan indiquent les valeurs p (mesure de Persée) des enrichissements protéiques individuels dans l’assemblage de b-isox (N = 4 répétitions biologiques indépendantes). Le seuil de signification statistique est marqué par une ligne horizontale (voir également les données supplémentaires 5). Les points noirs sont des protéines dont la concentration a significativement diminué après l’incubation de l’ARN. Les points rouges sont des protéines dont la concentration a augmenté de manière significative après l’incubation de l’ARN. c Intensités de quantification sans étiquette (LFQ) codées par couleur des protéines affectées par l’ARN hautement structuré (HS) sur une échelle allant du noir (faible) au rouge (élevé). Le regroupement hiérarchique par Perseus est indiqué. Pour comparaison, les intensités LFQ des mêmes protéines dans le contrôle et en présence de l’ARN LS sont également tracées

Nous avons raisonné que la compétition de l’ARN avec le réseau de contact du précipité b-isox59,60 pourrait être le résultat d’interactions protéine-ARN directes ou indirectes (Fig. 5a). Pourtant, les prédictions de catRAPID soutiennent l’hypothèse d’un effet direct : une augmentation de la rigueur expérimentale (Fig. 11 supplémentaire ; Méthodes) est également associée à une augmentation du pouvoir de prédiction théorique (Fig. 5b). Conformément à notre analyse précédente des préférences de liaison à l’ARN, les protéines libérées lors de l’incubation de HSP70 sont significativement dépourvues de polarité (Fig. 5c). Ainsi, notre expérience suggère que l’interactivité protéique pilotée par la structure des molécules d’ARN est active à tous les niveaux, favorisant les interactions individuelles et modifiant la composition des condensats12 (Fig. 2e).

Fig. 5
figure5

Interactions au sein du condensat ribonucléoprotéique. a La libération des protéines de l’assemblage isoxazole biotinylé (b-isox) pourrait être le résultat de : (1) d’un processus indirect, résultant d’une compétition d’interaction entre l’ARN et l’agrégat protéique ou (2) d’un processus direct, résultant de la séquestration des protéines par l’ARN. b Les performances de catRAPID s’améliorent avec la rigueur des expériences b-isox (Méthodes), suggérant un recrutement direct des protéines sauvées par l’ARN hautement structuré (HS). Le taux de fausse découverte (FDR) devient très significatif pour l’ensemble expérimental le plus strict (FDR = 0,1). c Les protéines « libérées » (boîte noire) sont moins polaires que les protéines « statiques » (boîte grise), en accord avec notre analyse computationnelle (valeur p = 4,7 × 10-2, valeur p estimée avec le test de KS ; voir aussi Fig. 2f, g). Les protéines libérées et statiques correspondent aux points noirs et gris du panneau droit de la Fig. 4b. Les cases indiquent l’écart interquartile (IQR), la ligne centrale représente la médiane, les encoches l’intervalle de confiance à 95 % de la médiane, les moustaches ajoutent 1,5 fois l’IQR au percentile 75 (limite supérieure de la case) et soustraient 1,5 fois l’IQR du percentile 25 (limite inférieure de la case). L’écart-type est indiqué

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.