La struttura dell’RNA guida l’interazione con le proteine
Gli RNA altamente strutturati legano una grande quantità di proteine
Con lo scopo di studiare come la struttura dell’RNA influenza il legame alle proteine, abbiamo misurato la quantità di regioni a doppio filamento del trascrittoma umano8 (Fig. 1a). Abbiamo prima raggruppato gli RNA, come rilevato da reticolazione avanzata e immunoprecipitazione (eCLIP) approccio30, in classi basate sul contenuto strutturale misurato da ‘analisi parallela della struttura dell’RNA’ (PARS) 8 (Fig. 1a e Fig. 1b supplementari). PARS è una tecnica sperimentale che distingue regioni a doppio e singolo filamento di RNA utilizzando l’attività catalitica di due enzimi, RNasi V1 (in grado di tagliare nucleotidi a doppio filamento) e S1 (in grado di tagliare nucleotidi a singolo filamento) e per i quali punteggi positivi indicano regioni a doppio filamento (vedi Eq. (1) in Metodi)8. Abbiamo poi usato le previsioni catRAPID di proteine-RNA interazioni (disponibile dal database RNAct che contiene sia proteoma-wide e trascrittoma-wide calcoli 31) e confrontato i punteggi di interazione dei diversi gruppi (HS, alto contenuto strutturale, vs LS, basso contenuto strutturale) (Fig. 1b). L’algoritmo catRAPID32 stima il potenziale di legame attraverso van der Waals, legame a idrogeno e propensioni struttura secondaria di entrambe le sequenze di proteine e RNA (totale di 10 proprietà), permettendo l’identificazione di partner di legame con alta fiducia. Infatti, come riportato in una recente analisi di circa mezzo milione di interazioni convalidate sperimentalmente31, l’algoritmo è in grado di separare coppie interagenti vs non interagenti con un’area sotto la curva (AUC) caratteristica operativa del ricevitore (ROC) di 0,78 (con false discovery rate (FDR) significativamente inferiore a 0,25 quando i valori Z-score sono >2). Il confronto dei gruppi di RNA con diversi contenuti strutturali mostra una tendenza coerente in cui un contenuto strutturale più elevato nelle molecole di RNA si traduce in punteggi di interazione proteica più elevati (Fig. 1b). Come per i dati PARS, notiamo che la quantità di regioni a doppio filamento correla debolmente (<0,10; Pearson’s) con la lunghezza dell’RNA e il contenuto di GC, indicando che questi due fattori contribuiscono positivamente alla struttura secondaria aumentando la dimensione dello spazio conformazionale così come la stabilità complessiva33.
Abbiamo ripetuto l’analisi con un approccio non correlato, RPISeq, che predice le interazioni proteina-RNA utilizzando modelli di sequenza in nucleotide e sequenze di amminoacidi11. RPISeq è composto da due metodi basati su macchine vettoriali di supporto (RPISeq-SVM) e foresta casuale (RPISeq-RF). A causa di specifici requisiti computazionali, abbiamo applicato RPISeq a un ensemble di RBPs (50 proteine con similarità di sequenza <0,85; http://cd-hit.org/) contro il set HS e LS dalle code della distribuzione del contenuto strutturale (100 trascrizioni) per stimare le probabilità di legame (dati supplementari 1). In entrambi i casi, il set HS (RF 0.80, SVM 0.71) è previsto per legare con probabilità significativamente più elevate rispetto al set LS (RF 0.70, SVM 0.54; p value <10-5; Kolmogorov-Smirnov (KS) test; Supplementary Fig. 1b-c), in accordo con catRAPID analisi (Fig. 1b). Così, la nostra analisi suggerisce che il contenuto di struttura RNA ha effetto sull’interazione con le proteine.
Per abbinare le nostre previsioni con i dati sperimentali, abbiamo studiato tutte le interazioni RBP-RNA rivelato da enhanced CrossLinking e ImmunoPrecipitation, eCLIP30 (118 RBPs; vedi metodi). eCLIP fornisce contatti proteici su RNA bersaglio a risoluzione singolo nucleotide attraverso la legatura di adattatori barcoded DNA single-stranded30. In accordo con le previsioni catRAPID31 (Fig. 1b), eCLIP punteggi di legame correlano con struttura secondaria PARS, che indica che la propensione RNA di interagire con le proteine è proporzionale alla quantità di struttura misurata trascrittoma largo (Fig. 1c). Notiamo che gli approcci CLIP-seq in generale favoriscono la rilevazione di single-stranded (SS) RNA a scapito di double-stranded (DS) RNA34 e il set di dati eCLIP non è arricchito in doppio filamento RNA-binding proteine (9 su 118 sono assegnati secondo UniProt come dsRNA legame, 12 su 118 come ssRNA legame, utilizzando disponibili annotazioni GO35), che indica che i nostri risultati non sono influenzati dai tipi di proteine utilizzate nella nostra analisi.
Per corroborare ulteriormente che la tendenza è genuina e non solo intrinseca alle misurazioni PARS, abbiamo analizzato il potenziale di interazione delle proteine dell’intero trascrittoma umano con la struttura secondaria dell’RNA misurata con la tecnica di modifica dimetil solfato (DMS) (diversamente da PARS, valori elevati indicano regioni a singolo filamento; Fig. 1d)9. Questo metodo di valutazione della struttura dell’RNA impiega il sequenziamento profondo per rilevare i nucleotidi di adenosina e citidina non accoppiati. Ancora una volta, l’analisi mostra che la struttura secondaria dell’RNA dei trascritti umani è strettamente correlata con le capacità di legame alle proteine.
Abbiamo anche usato il database POSTAR (contenente >1000 dataset CLIP-seq; http://lulab.life.tsinghua.edu.cn/postar/) per recuperare le preferenze RNA-binding di proteine umane (103 esperimenti, 85 diverse RBPs) misurate con PAR-CLIP, high-throughput sequencing-CLIP (HITS-CLIP) e singoli nucleotidi risoluzione CLIP (iCLIP)10. A causa di differenze intrinseche negli approcci CLIP (e altri fattori, come le linee cellulari impiegate), ogni esperimento riporta diverse interazioni proteina-RNA 10. Eppure il 77% delle RBPs hanno preferenza per RNA altamente strutturato per almeno uno dei metodi sperimentali (DMS o PARS; Fig. 1e).
Viste le possibili distorsioni tecniche di esperimenti high-throughput, abbiamo deciso di verificare la riproducibilità della tendenza indagando la correlazione tra struttura RNA e interazioni proteiche in analisi low-throughput. Abbiamo prima studiato l’interactome di otto grandi (>1000 nt) RNA i cui partner proteici sono stati identificati da microarray, un approccio crosslinking-free21,36,37 (vedi metodi). In parallelo, abbiamo stimato il contenuto strutturale di ogni trascrizione utilizzando l’algoritmo CROSS che è stato precedentemente addestrato su dati SHAPE38 per prevedere il doppio filamento propensione a livello di nucleotide risoluzione. I nostri risultati presentati in Fig. 1f indicano che i trascritti altamente strutturati hanno più contatti proteici rispetto ai trascritti poco strutturati, il che è pienamente compatibile con i risultati presentati nella nostra precedente analisi (Fig. 1b-e).
Abbiamo corroborato le nostre osservazioni attraverso lo studio dei complessi RNP depositati nel database della Protein Data Bank (PDB) (risoluzione a raggi X <2 Å; Dati supplementari 2; vedi Metodi), che comprende 196 coppie RNA-proteine distinte (>20 specie) analizzate con diverse tecniche (principalmente raggi X e risonanza magnetica nucleare (NMR)) da diversi laboratori. Misurando la quantità di RNA intra-contact (cioè la quantità di struttura RNA) e inter-contact (cioè l’amminoacido) per catena nucleotidica, abbiamo trovato una sorprendente correlazione di 0,78 tra le due variabili, che fornisce una prova convincente della loro stretta relazione (Fig. 1g; vedi Eqs. (2) e (3) in Metodi).
Quindi, indipendentemente dall’esperimento (PARS, DMS, microarray, X-ray, NMR, eCLIP, PAR-CLIP, HITS-CLIP e iCLIP), gli algoritmi impiegati (catRAPID e RPISeq o CROSS per imitare i dati SHAPE) o l’organismo (database PDB), abbiamo trovato una correlazione tra numero di interazioni proteiche e contenuto strutturale RNA.
L’interattività proteica guidata dalla struttura dei tipi di RNA
Allora abbiamo studiato se lo stretto legame tra struttura secondaria e numero di interazioni proteiche è una proprietà di specifici tipi di RNA (Fig. 2a). A questo scopo, abbiamo confrontato la struttura secondaria e le interazioni proteiche delle trascrizioni classificate per similarità di sequenza utilizzando l’algoritmo CD-HIT39 (http://cd-hit.org/). Con una soglia dell’85% di similarità, abbiamo trovato 22 cluster (totale di 55 trascrizioni) con almeno un contatto RBP rivelato da eCLIP. Abbiamo poi calcolato la correlazione tra segnale DMS e interazioni proteiche eCLIP per ogni cluster e ottenuto una correlazione negativa nel 64% dei casi. Questo risultato indica che tra due trascrizioni simili, quella con un più alto contenuto strutturale è più probabile che abbia un maggior numero di interazioni proteiche.
Le due trascrizioni che condividono la più alta somiglianza (99,31%) sono le γ-globine HBG1 e HBG2 (subunità di emoglobina γ1 e γ2) che sono espresse nel feto di fegato, milza e midollo osseo (NCBI Gene ID: 3048). La variante γ-globina con struttura più alta (HBG1) ha un numero significativamente maggiore di interagenti proteici (HBG1, segnale DMS medio di 0,04, 29 interagenti; HBG2, segnale DMS medio di 0,07, 14 interagenti; valore p = 0,003; KS test; Fig. 2b). Mentre la composizione nucleotidica dei due trascritti rimane quasi la stessa (HBG1: 280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), le differenze tra HBG1 e HBG2 sono concentrate nelle regioni dove la struttura secondaria è alterata (Fig. 2 supplementare). Questi risultati indicano che l’interattività della proteina è strettamente associata ai cambiamenti conformazionali negli elementi della struttura secondaria. È interessante notare che l’aumentato contenuto di doppio filamento in HBG1, specialmente nel 3′-UTR, è accompagnato da un accumulo di elementi regolatori della traduzione (Fig. 2b) e da una concomitante diminuzione dell’espressione (NCBI Gene ID: 3048).
Ci siamo quindi chiesti se specifiche strutture di RNA siano coinvolte nella regolazione delle proteine. Abbiamo diviso il trascrittoma umano in diverse classi e analizzato la loro struttura secondaria come rilevato da due tecniche sperimentali indipendenti, PARS e DMS. Entrambe le tecniche mostrano che gli RNA codificanti le proteine hanno il maggior contenuto strutturale (Fig. 2c, Tabella 1 supplementare)38. Anche se parte della struttura dell’mRNA è concentrata nelle UTR8, quando queste sono escluse, la distribuzione del contenuto strutturale non cambia sostanzialmente (correlazione di Pearson tra trascrizioni con e senza le loro UTR = 0,94; Fig. 3 supplementare). Gli RNA noti per interagire con le proteine, come i piccoli RNA nucleari (snRNA)40 e i piccoli RNA nucleolari (snoRNA)28, mostrano la più alta quantità di struttura, mentre gli RNA che hanno come obiettivo regioni complementari negli acidi nucleici come gli antisenso, i miRNA e un certo numero di RNA non codificanti intergenici lunghi (lincRNA)41,42 presentano la più piccola quantità di struttura43 (Tabella supplementare 1).
In accordo con i nostri risultati, Seemann et al.12 precedentemente osservato una stretta relazione tra legame proteico e conservazione degli elementi strutturali in mRNAs, che si verificano in misura minore in RNAs lunghi non codificanti12. Anche se lincRNAs mostrano una minore quantità di regioni a doppio filamento (più basso in PARS, terzo più basso in DMS), notiamo che alcuni di loro, come ad esempio NEAT144 e XIST27, sono in grado di scaffold assemblaggio della proteina attraverso domini strutturati. Poiché c’è un dibattito in corso sulle differenze strutturali tra trascrizioni codificanti e non codificanti45,46 e la nostra analisi dei dati DMS e PARS rivela risultati contraddittori per specifici tipi di RNA, suggeriamo ulteriori indagini in studi futuri (Fig. 2c; Tabella supplementare 1).
Per indagare le differenze funzionali tra RNA altamente e scarsamente strutturati, abbiamo analizzato i termini GO associati agli RNA meno e più strutturati (100 LS vs. 100 trascrizioni HS) utilizzando l’approccio cleverGO35. Mentre il set LS (14 RNA non codificanti e 86 mRNA) non è associato a specifici cluster di similarità semantica (totale di 36 termini con p value <0.05; test di Bonferroni), il set HS (100 mRNA; totale di 395 termini con p value <0.05 e 103 termini con p value <0.01; test di Bonferroni; Fig. 2d) include 20 cluster distinti. Le cinque categorie principali associate ai cluster e che coprono almeno un quarto delle voci sono: (i) regolazione complessa delle proteine (49/103), (ii) processo metabolico dei nucleosidi (39/103), (iii) risposta cellulare (29/103), (iv) espressione genica (29/103) e (v) targeting delle proteine (28/103). Abbiamo anche ripetuto l’analisi dei termini GO usando come sfondo il 25% di trascrizioni più espresse e abbiamo ottenuto risultati simili (ceppo K562 GENCODE, Metodi, Fig. 4 supplementare).
La cluster analysis rivela l’intrigante scoperta che i trascritti con un forte contenuto strutturale interagiscono maggiormente con i polipeptidi e codificano per proteine coinvolte in funzioni di regolazione e nella formazione di reti di contatto complesse. Data la relazione tra la struttura dell’RNA e il numero di interazioni proteiche (Fig. 1), un’interpretazione preliminare dei nostri risultati è che un alto grado di controllo è richiesto per i geni che coordinano l’attività di un gran numero di reti cellulari47. Così, la nostra analisi suggerisce una proprietà ‘ricorsiva’: trascrizioni altamente contattate codificano per proteine altamente contattate (Fig. 2e)20,48.
Disordine ed elica distinguono dsRNA vs. ssRNA
Per capire la base molecolare dell’interattività guidata dalla struttura delle molecole di RNA, abbiamo analizzato quali proprietà fisico-chimiche delle proteine discriminano meglio i set HS e LS. Abbiamo studiato tutte le 10 variabili utilizzate nell’algoritmo catRAPID (Fig. 2f)13,32 e le abbiamo rimosse una per una per stimare l’impatto sulla previsione delle interazioni RNA-proteine. Abbiamo trovato che la capacità di distinguere tra i set di RNA meno e più strutturati (100 trascrizioni HS e LS; Dati supplementari 3) è più colpita quando la polarità (valore p = 0,28; KS test) e α-elica propensione (valore p = 0,06; KS test) vengono rimossi (Fig. 2f). La proprietà che più significativamente influenza la propensione di legame HS è la polarità, che è arricchito in proteine strutturalmente disordinati49 e anti-correla con idrofobicità che è la chiave nel riconoscimento macro-molecolare (Tabella supplementare 2)50. Per quanto riguarda la propensione α-elica, notiamo che le eliche sono gli elementi strutturali più frequenti coinvolti nella formazione di contatti con regioni a doppio filamento e si verificano in dsRBD e dita di zinco29 (Tabella supplementare 3). La nostra osservazione suggerisce una possibile co-evoluzione tra proteine e RNA: mentre l’RNA adotta forme complesse per esporre le regioni di legame, le proteine cambiano il loro contenuto strutturale. In accordo con la teoria della serratura a chiave51, proponiamo che la selezione naturale favorisca le RBP altamente strutturate come interagenti dei dsRNA.
Abbiamo convalidato l’importanza della polarità proteica e della struttura elicoidale confrontando tre serie di dati di RBP ben studiate (umane e del lievito)52,53,54 e due serie di proteine recuperate da UniProt (tutti gli organismi) come leganti esclusivamente ssRNA (453 proteine) o leganti dsRNA (390 proteine; dati supplementari 4). L’analisi delle proprietà biofisiche con l’approccio cleverMachine55 ha rivelato che i leganti ssRNA e i leganti dsRNA differiscono per due proprietà: disordine e contenuto di α-elica (Fig. 2g). Il confronto dei due insiemi, uno contro l’altro, indicano che le RBP che interagiscono con RNA altamente strutturate sono strutturate e idrofobiche, mentre le RBP disordinate e polari si associano con RNA meno strutturate (Fig. 5 supplementare). Così, la nostra analisi espande ulteriormente ciò che è stato precedentemente riportato per le reti di interazione proteina-proteina, in cui le regioni strutturali disordinate hanno dimostrato di svolgere un ruolo centrale47, e suggerisce nuove regole per l’accoppiamento delle basi nucleotidiche con gli aminoacidi.
Contenuto della struttura dell’RNA e contatto proteico nei chaperon
L’analisi del trascrittoma umano e di tutti gli organismi indicano che gli RNA altamente strutturati sono inclini a interagire con i polipeptidi e, a loro volta, codificano per proteine coinvolte in processi biologici associati a grandi e complesse reti di contatto. Per indagare meglio l’interattività proteica guidata dalla struttura delle molecole di RNA, ci siamo concentrati su una classe di trascrizioni che codificano per proteine che interagiscono con diversi partner. La scelta naturale per questa analisi è il chaperones molecolare, in quanto promuovere il ripiegamento in stato nativo 56 e organizzare l’assemblaggio di fase-separati assemblee RNP 57, soddisfacendo così la proprietà ‘ricorsiva’ presentato in Fig. 2d. eCLIP dati 30 mostrano che la maggior parte delle RNA che codificano per chaperones umani sono coinvolti in interazioni con più proteine (Fig. 6 supplementare). Abbiamo trovato una correlazione significativa tra proteine-RNA e proteine-proteine interazioni annotati in BioGRID (Fig. 3a). Questo risultato conferma che le trascrizioni legate da molte RBP codificano anche per proteine altamente contattate.
Per capire se la correlazione tra le interazioni proteina-proteina e proteina-RNA è una proprietà generale o semplicemente una caratteristica della famiglia dei chaperoni, abbiamo analizzato le interazioni del trascrittoma classificate dai punteggi PARS e 24 mRNA che codificano per chaperoni per i quali sono disponibili dati PARS (Genecards; https://www.genecards.org; set ‘HSPs’; metodi, Fig. 3b). Abbiamo trovato una correlazione positiva tra la quantità di struttura RNA e il numero di interattori BioGRID delle proteine codificate (Fig. 7a-b supplementare). Quindi, i nostri calcoli concordano con l’analisi GO (Fig. 2d) e suggeriscono una relazione tra gli mRNA e i loro partner codificanti: RNA altamente strutturati codificano per proteine altamente interagenti.
I dati presentati finora suggeriscono che gli RNA correlati per tipo (es. miRNA, snRNA) o funzione (es. codificanti per chaperoni) condividono caratteristiche strutturali simili (Fig. 2). Quindi, dovrebbe essere possibile stimare le differenze nella rete di interazione di due trascrizioni non correlate analizzando il loro contenuto strutturale, e viceversa. Per testare questa ipotesi, abbiamo selezionato il trascritto altamente strutturato HSP70 (HS RNA, log del punteggio PARS di -1,3 corrispondente al 26% del contenuto a doppio filamento, Fig. 3c) che codifica per un chaperone essenziale per regolare gli assemblaggi di complessi proteici come i cappotti di clatrina58 e i granuli di stress22,57. Come controllo abbiamo scelto l’RNA che codifica per BRaf che è meno strutturato (LS RNA, punteggio di -2,8 che indica il 6% di contenuto a doppio filamento secondo PARS, Fig. 3c-e) e codifica per un oncogene coinvolto nella trasmissione di segnali chimici dall’esterno della cellula al nucleo (il confronto strutturale è confermato dalle previsioni CROSS e dagli esperimenti DMS, come mostrato nella Fig. 8).
Abbiamo trovato che HSP70 ha un maggior numero di partner (30 RBPs identificate da eCLIP) rispetto a BRaf (9 RBPs eCLIP, 6 in comune con HSP70, Fig. 9 supplementare), che è perfettamente in accordo con la proprietà di interattività della proteina guidata dalla struttura. In linea con la tendenza di Fig. 1b, catRAPID indica che le proteine hanno una maggiore propensione a legarsi a HSP70 che BRaf (Fig. 3f). Inoltre, la HSP70 altamente strutturata codifica per una proteina con un maggior numero di interagenti (244 interagenti fisici BioGRID), mentre la BRaf poco strutturata ha un prodotto proteico che si lega ad un insieme più piccolo di molecole (88 interagenti fisici BioGRID). Le nostre osservazioni suggeriscono che un RNA con un gran numero di interazioni è incline ad agire come un regolatore di rete: ipotizziamo che, a causa della maggiore interattività, il trascritto HSP70 potrebbe agire come un chaperone a seconda del contesto.
Quindi, ipotizziamo che un RNA strutturato, a causa del suo più alto potenziale di interazione con le proteine, sia in grado di influenzare la rete di interazione proteica più di un RNA poco strutturato. In un esperimento proof-of-concept, abbiamo usato un composto chimico, isossazolo biotinilato (b-isox) per indurre la formazione di una transizione di fase da liquido a solido di un gruppo di proteine59,60 che abbiamo incubato con trascrizioni HS (HSP70) o LS (BRaf) (Fig. 4a e Fig. 10 supplementare). Abbiamo osservato che HS ha alterato la composizione dell’aggregato proteico più di LS RNA (Fig. 4b e dati supplementari 5). Infatti, quando HS RNA è stato aggiunto, un significativo cambiamento di concentrazione è stato osservato per 29 proteine (Fig. 4c; 21 set ‘rilasciato’, punti neri, e 8 set ‘mantenuto’, punti rossi in Fig. 4b), mentre solo nove proteine sono state identificate nel caso LS RNA. Così, la composizione in presenza di LS RNA è rimasta simile a quella del controllo di fondo (set ‘statico’, punti grigi in Fig. 4b).
Abbiamo ragionato che la concorrenza di RNA con la rete di contatto b-isox precipitato59,60 potrebbe essere il risultato di interazioni dirette o indirette proteine-RNA (Fig. 5a). Tuttavia, le previsioni di catRAPID supportano l’ipotesi di un effetto diretto: un aumento della rigorosità sperimentale (Fig. 11 supplementare; Metodi) è anche associato ad un aumento del potere predittivo teorico (Fig. 5b). In accordo con la nostra precedente analisi delle preferenze di legame all’RNA, le proteine rilasciate dopo l’incubazione di HSP70 risultano significativamente prive di polarità (Fig. 5c). Così, il nostro esperimento suggerisce che la struttura-driven interattività proteina di molecole di RNA è attivo ad ogni livello, promuovendo le interazioni individuali e alterando la composizione dei condensati12 (Fig. 2e).