La struttura dell’RNA guida l’interazione con le proteine

Lug 29, 2021
admin

Gli RNA altamente strutturati legano una grande quantità di proteine

Con lo scopo di studiare come la struttura dell’RNA influenza il legame alle proteine, abbiamo misurato la quantità di regioni a doppio filamento del trascrittoma umano8 (Fig. 1a). Abbiamo prima raggruppato gli RNA, come rilevato da reticolazione avanzata e immunoprecipitazione (eCLIP) approccio30, in classi basate sul contenuto strutturale misurato da ‘analisi parallela della struttura dell’RNA’ (PARS) 8 (Fig. 1a e Fig. 1b supplementari). PARS è una tecnica sperimentale che distingue regioni a doppio e singolo filamento di RNA utilizzando l’attività catalitica di due enzimi, RNasi V1 (in grado di tagliare nucleotidi a doppio filamento) e S1 (in grado di tagliare nucleotidi a singolo filamento) e per i quali punteggi positivi indicano regioni a doppio filamento (vedi Eq. (1) in Metodi)8. Abbiamo poi usato le previsioni catRAPID di proteine-RNA interazioni (disponibile dal database RNAct che contiene sia proteoma-wide e trascrittoma-wide calcoli 31) e confrontato i punteggi di interazione dei diversi gruppi (HS, alto contenuto strutturale, vs LS, basso contenuto strutturale) (Fig. 1b). L’algoritmo catRAPID32 stima il potenziale di legame attraverso van der Waals, legame a idrogeno e propensioni struttura secondaria di entrambe le sequenze di proteine e RNA (totale di 10 proprietà), permettendo l’identificazione di partner di legame con alta fiducia. Infatti, come riportato in una recente analisi di circa mezzo milione di interazioni convalidate sperimentalmente31, l’algoritmo è in grado di separare coppie interagenti vs non interagenti con un’area sotto la curva (AUC) caratteristica operativa del ricevitore (ROC) di 0,78 (con false discovery rate (FDR) significativamente inferiore a 0,25 quando i valori Z-score sono >2). Il confronto dei gruppi di RNA con diversi contenuti strutturali mostra una tendenza coerente in cui un contenuto strutturale più elevato nelle molecole di RNA si traduce in punteggi di interazione proteica più elevati (Fig. 1b). Come per i dati PARS, notiamo che la quantità di regioni a doppio filamento correla debolmente (<0,10; Pearson’s) con la lunghezza dell’RNA e il contenuto di GC, indicando che questi due fattori contribuiscono positivamente alla struttura secondaria aumentando la dimensione dello spazio conformazionale così come la stabilità complessiva33.

Fig. 1
figura1

La quantità di struttura proteica è correlata al numero di interazioni. a Funzione di distribuzione cumulativa (CDF) per il contenuto di struttura secondaria di tutti gli RNA umani misurato dall’analisi parallela della struttura di RNA (PARS)8,69. Le linee verticali indicano una certa frazione (X%) di RNA con il più basso contenuto secondario (LS; blu) e la stessa frazione con il più alto contenuto secondario (HS; rosa). b Previsioni catRAPID delle interazioni proteiche con RNA umani classificati per contenuto strutturale misurato da PARS (118 RNA-binding proteins (RBPs) per i quali sono disponibili anche informazioni enhanced crosslinking and immunoprecipitation (eCLIP))31. Le frazioni 10%, 15%, …, 50% si riferiscono al confronto tra set HS e LS di uguali dimensioni. I risultati indicano che catRAPID è in grado di distinguere HS e LS gruppi significativamente e coerentemente attraverso le diverse frazioni (p valore <10-16; Kolmogorov-Smirnov (KS) test). Le caselle mostrano l’intervallo interquartile (IQR), la linea centrale rappresenta la mediana, i baffi aggiungere 1,5 volte l’IQR al 75 percentile (limite superiore casella) e sottrarre 1,5 volte l’IQR dal 25 percentile (limite inferiore casella). s.d. è mostrato. c Relazione tra numero di interazioni proteiche (eCLIP) e contenuto strutturale misurato da PARS30. La linea di adattamento corrisponde alla formula y = exp(α + βx), dove α = -0,75; β = 0,67; valore p stimato con test KS. d Relazione tra numero di interazioni proteiche e contenuto strutturale misurato da modifica dimetil solfato (DMS)9. La linea di raccordo corrisponde alla formula y = 1/(α + βx), dove α = 2,60; β = 87,36; valore di p stimato con test KS. e Preferenze strutturali di RBPs misurato con tre diverse tecniche CLIP (fotoattivabile ribonucleoside-enhanced CLIP (PAR-CLIP), high-throughput sequencing-CLIP (HITS-CLIP) e risoluzione individuale nucleotide CLIP (iCLIP)). Il colore indica la preferenza RNA-binding di ogni proteina: rosa, alto strutturato; blu, basso strutturato; grigio, nessuna preferenza. f Correlazione tra contenuto strutturale (previsioni CROSS di esperimenti icSHAPE) e interazioni proteiche di otto trascrizioni rivelato da microarray di proteine (correlazione di Pearson). s.d. è mostrato. g Analisi di Protein Data Bank (PDB) strutture contenenti complessi proteina-RNA rivela una tendenza tra proteina (inter) e RNA (intra) contatti (196 coppie diverse; correlazione di Pearson)

Abbiamo ripetuto l’analisi con un approccio non correlato, RPISeq, che predice le interazioni proteina-RNA utilizzando modelli di sequenza in nucleotide e sequenze di amminoacidi11. RPISeq è composto da due metodi basati su macchine vettoriali di supporto (RPISeq-SVM) e foresta casuale (RPISeq-RF). A causa di specifici requisiti computazionali, abbiamo applicato RPISeq a un ensemble di RBPs (50 proteine con similarità di sequenza <0,85; http://cd-hit.org/) contro il set HS e LS dalle code della distribuzione del contenuto strutturale (100 trascrizioni) per stimare le probabilità di legame (dati supplementari 1). In entrambi i casi, il set HS (RF 0.80, SVM 0.71) è previsto per legare con probabilità significativamente più elevate rispetto al set LS (RF 0.70, SVM 0.54; p value <10-5; Kolmogorov-Smirnov (KS) test; Supplementary Fig. 1b-c), in accordo con catRAPID analisi (Fig. 1b). Così, la nostra analisi suggerisce che il contenuto di struttura RNA ha effetto sull’interazione con le proteine.

Per abbinare le nostre previsioni con i dati sperimentali, abbiamo studiato tutte le interazioni RBP-RNA rivelato da enhanced CrossLinking e ImmunoPrecipitation, eCLIP30 (118 RBPs; vedi metodi). eCLIP fornisce contatti proteici su RNA bersaglio a risoluzione singolo nucleotide attraverso la legatura di adattatori barcoded DNA single-stranded30. In accordo con le previsioni catRAPID31 (Fig. 1b), eCLIP punteggi di legame correlano con struttura secondaria PARS, che indica che la propensione RNA di interagire con le proteine è proporzionale alla quantità di struttura misurata trascrittoma largo (Fig. 1c). Notiamo che gli approcci CLIP-seq in generale favoriscono la rilevazione di single-stranded (SS) RNA a scapito di double-stranded (DS) RNA34 e il set di dati eCLIP non è arricchito in doppio filamento RNA-binding proteine (9 su 118 sono assegnati secondo UniProt come dsRNA legame, 12 su 118 come ssRNA legame, utilizzando disponibili annotazioni GO35), che indica che i nostri risultati non sono influenzati dai tipi di proteine utilizzate nella nostra analisi.

Per corroborare ulteriormente che la tendenza è genuina e non solo intrinseca alle misurazioni PARS, abbiamo analizzato il potenziale di interazione delle proteine dell’intero trascrittoma umano con la struttura secondaria dell’RNA misurata con la tecnica di modifica dimetil solfato (DMS) (diversamente da PARS, valori elevati indicano regioni a singolo filamento; Fig. 1d)9. Questo metodo di valutazione della struttura dell’RNA impiega il sequenziamento profondo per rilevare i nucleotidi di adenosina e citidina non accoppiati. Ancora una volta, l’analisi mostra che la struttura secondaria dell’RNA dei trascritti umani è strettamente correlata con le capacità di legame alle proteine.

Abbiamo anche usato il database POSTAR (contenente >1000 dataset CLIP-seq; http://lulab.life.tsinghua.edu.cn/postar/) per recuperare le preferenze RNA-binding di proteine umane (103 esperimenti, 85 diverse RBPs) misurate con PAR-CLIP, high-throughput sequencing-CLIP (HITS-CLIP) e singoli nucleotidi risoluzione CLIP (iCLIP)10. A causa di differenze intrinseche negli approcci CLIP (e altri fattori, come le linee cellulari impiegate), ogni esperimento riporta diverse interazioni proteina-RNA 10. Eppure il 77% delle RBPs hanno preferenza per RNA altamente strutturato per almeno uno dei metodi sperimentali (DMS o PARS; Fig. 1e).

Viste le possibili distorsioni tecniche di esperimenti high-throughput, abbiamo deciso di verificare la riproducibilità della tendenza indagando la correlazione tra struttura RNA e interazioni proteiche in analisi low-throughput. Abbiamo prima studiato l’interactome di otto grandi (>1000 nt) RNA i cui partner proteici sono stati identificati da microarray, un approccio crosslinking-free21,36,37 (vedi metodi). In parallelo, abbiamo stimato il contenuto strutturale di ogni trascrizione utilizzando l’algoritmo CROSS che è stato precedentemente addestrato su dati SHAPE38 per prevedere il doppio filamento propensione a livello di nucleotide risoluzione. I nostri risultati presentati in Fig. 1f indicano che i trascritti altamente strutturati hanno più contatti proteici rispetto ai trascritti poco strutturati, il che è pienamente compatibile con i risultati presentati nella nostra precedente analisi (Fig. 1b-e).

Abbiamo corroborato le nostre osservazioni attraverso lo studio dei complessi RNP depositati nel database della Protein Data Bank (PDB) (risoluzione a raggi X <2 Å; Dati supplementari 2; vedi Metodi), che comprende 196 coppie RNA-proteine distinte (>20 specie) analizzate con diverse tecniche (principalmente raggi X e risonanza magnetica nucleare (NMR)) da diversi laboratori. Misurando la quantità di RNA intra-contact (cioè la quantità di struttura RNA) e inter-contact (cioè l’amminoacido) per catena nucleotidica, abbiamo trovato una sorprendente correlazione di 0,78 tra le due variabili, che fornisce una prova convincente della loro stretta relazione (Fig. 1g; vedi Eqs. (2) e (3) in Metodi).

Quindi, indipendentemente dall’esperimento (PARS, DMS, microarray, X-ray, NMR, eCLIP, PAR-CLIP, HITS-CLIP e iCLIP), gli algoritmi impiegati (catRAPID e RPISeq o CROSS per imitare i dati SHAPE) o l’organismo (database PDB), abbiamo trovato una correlazione tra numero di interazioni proteiche e contenuto strutturale RNA.

L’interattività proteica guidata dalla struttura dei tipi di RNA

Allora abbiamo studiato se lo stretto legame tra struttura secondaria e numero di interazioni proteiche è una proprietà di specifici tipi di RNA (Fig. 2a). A questo scopo, abbiamo confrontato la struttura secondaria e le interazioni proteiche delle trascrizioni classificate per similarità di sequenza utilizzando l’algoritmo CD-HIT39 (http://cd-hit.org/). Con una soglia dell’85% di similarità, abbiamo trovato 22 cluster (totale di 55 trascrizioni) con almeno un contatto RBP rivelato da eCLIP. Abbiamo poi calcolato la correlazione tra segnale DMS e interazioni proteiche eCLIP per ogni cluster e ottenuto una correlazione negativa nel 64% dei casi. Questo risultato indica che tra due trascrizioni simili, quella con un più alto contenuto strutturale è più probabile che abbia un maggior numero di interazioni proteiche.

Fig. 2
figura2

Impronte funzionali dell’interattività proteica guidata dalla struttura dell’RNA. a Schema che mostra il ruolo dei contatti intra- e intermolecolari in un complesso RNA-proteina. In alto, contatti intramolecolari. In basso, contatti intermolecolari. Il numero di contatti è indicato con sfumature dal blu scuro (più basso) al rosso (più alto). b In alto, contenuto strutturale (modifica dimetil solfato (DMS); valore p stimato con test KS). In basso, interazioni proteiche (enhanced CrossLinking and ImmunoPrecipitation (eCLIP) di emoglobina subunità γ1 (HBG1) (rosa) e emoglobina subunità γ2 (HBG2) (blu) RNA (99,3% di identità sequenziale); il valore p empirico è stato stimato confrontando la sovrapposizione con quella di 1000 campioni presi da eCLIP RNA-binding proteins (RBPs). c Analisi parallela della struttura dell’RNA (PARS) (rosa) e contenuto strutturale DMS (blu) di diversi tipi di RNA (Ensembl). d Raggruppamento semantico dei termini dell’ontologia genica associati agli RNA meno e più strutturati (100 trascrizioni meno strutturate (LS) vs. 100 ad alta struttura (HS)) usando cleverGO. e Attraverso l’analisi dei singoli RNA (Figg. 1 e 2b) abbiamo scoperto che il contenuto strutturale è legato al numero di partner e alla funzione di un RNA. La nostra analisi indica che gli RNA funzionalmente correlati hanno un contenuto strutturale simile (Fig. 2c). L’interattività proteica guidata dalla struttura è una proprietà intrinseca associata all’RNA che può essere rintracciata a qualsiasi livello normativo. f Ogni riga mostra le propensioni all’interazione di catRAPID causate dalla rimozione di una proprietà fisico-chimica13,32. La rimozione dell’α-elica (Chou) e della polarità (Grantham) riducono la capacità di distinguere tra HS e LS (valori p stimati con test KS). g analisi multicleverMachine delle proprietà fisico-chimiche di tre set di RBP e proteine annotate in UniProt come leganti di RNA a doppio filamento (DS) o a filamento singolo (SS) (vedi Metodi). La “propensione al disordine” e l'”α-elica” sono le proprietà che mostrano una differenza significativa e risultati opposti tra i leganti DS e SS per almeno due database RBP (il blu o il rosa indicano che DS o SS sono arricchiti o impoveriti; il giallo indica nessuna differenza significativa tra i set). In b, c, le caselle mostrano l’intervallo interquartile (IQR), la linea centrale rappresenta la mediana, le tacche l’intervallo di confidenza al 95% della mediana, i baffi aggiungono 1,5 volte l’IQR al 75 percentile (limite superiore della casella) e sottraggono 1,5 volte l’IQR dal 25 percentile (limite inferiore della casella). S.d. è mostrato

Le due trascrizioni che condividono la più alta somiglianza (99,31%) sono le γ-globine HBG1 e HBG2 (subunità di emoglobina γ1 e γ2) che sono espresse nel feto di fegato, milza e midollo osseo (NCBI Gene ID: 3048). La variante γ-globina con struttura più alta (HBG1) ha un numero significativamente maggiore di interagenti proteici (HBG1, segnale DMS medio di 0,04, 29 interagenti; HBG2, segnale DMS medio di 0,07, 14 interagenti; valore p = 0,003; KS test; Fig. 2b). Mentre la composizione nucleotidica dei due trascritti rimane quasi la stessa (HBG1: 280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), le differenze tra HBG1 e HBG2 sono concentrate nelle regioni dove la struttura secondaria è alterata (Fig. 2 supplementare). Questi risultati indicano che l’interattività della proteina è strettamente associata ai cambiamenti conformazionali negli elementi della struttura secondaria. È interessante notare che l’aumentato contenuto di doppio filamento in HBG1, specialmente nel 3′-UTR, è accompagnato da un accumulo di elementi regolatori della traduzione (Fig. 2b) e da una concomitante diminuzione dell’espressione (NCBI Gene ID: 3048).

Ci siamo quindi chiesti se specifiche strutture di RNA siano coinvolte nella regolazione delle proteine. Abbiamo diviso il trascrittoma umano in diverse classi e analizzato la loro struttura secondaria come rilevato da due tecniche sperimentali indipendenti, PARS e DMS. Entrambe le tecniche mostrano che gli RNA codificanti le proteine hanno il maggior contenuto strutturale (Fig. 2c, Tabella 1 supplementare)38. Anche se parte della struttura dell’mRNA è concentrata nelle UTR8, quando queste sono escluse, la distribuzione del contenuto strutturale non cambia sostanzialmente (correlazione di Pearson tra trascrizioni con e senza le loro UTR = 0,94; Fig. 3 supplementare). Gli RNA noti per interagire con le proteine, come i piccoli RNA nucleari (snRNA)40 e i piccoli RNA nucleolari (snoRNA)28, mostrano la più alta quantità di struttura, mentre gli RNA che hanno come obiettivo regioni complementari negli acidi nucleici come gli antisenso, i miRNA e un certo numero di RNA non codificanti intergenici lunghi (lincRNA)41,42 presentano la più piccola quantità di struttura43 (Tabella supplementare 1).

In accordo con i nostri risultati, Seemann et al.12 precedentemente osservato una stretta relazione tra legame proteico e conservazione degli elementi strutturali in mRNAs, che si verificano in misura minore in RNAs lunghi non codificanti12. Anche se lincRNAs mostrano una minore quantità di regioni a doppio filamento (più basso in PARS, terzo più basso in DMS), notiamo che alcuni di loro, come ad esempio NEAT144 e XIST27, sono in grado di scaffold assemblaggio della proteina attraverso domini strutturati. Poiché c’è un dibattito in corso sulle differenze strutturali tra trascrizioni codificanti e non codificanti45,46 e la nostra analisi dei dati DMS e PARS rivela risultati contraddittori per specifici tipi di RNA, suggeriamo ulteriori indagini in studi futuri (Fig. 2c; Tabella supplementare 1).

Per indagare le differenze funzionali tra RNA altamente e scarsamente strutturati, abbiamo analizzato i termini GO associati agli RNA meno e più strutturati (100 LS vs. 100 trascrizioni HS) utilizzando l’approccio cleverGO35. Mentre il set LS (14 RNA non codificanti e 86 mRNA) non è associato a specifici cluster di similarità semantica (totale di 36 termini con p value <0.05; test di Bonferroni), il set HS (100 mRNA; totale di 395 termini con p value <0.05 e 103 termini con p value <0.01; test di Bonferroni; Fig. 2d) include 20 cluster distinti. Le cinque categorie principali associate ai cluster e che coprono almeno un quarto delle voci sono: (i) regolazione complessa delle proteine (49/103), (ii) processo metabolico dei nucleosidi (39/103), (iii) risposta cellulare (29/103), (iv) espressione genica (29/103) e (v) targeting delle proteine (28/103). Abbiamo anche ripetuto l’analisi dei termini GO usando come sfondo il 25% di trascrizioni più espresse e abbiamo ottenuto risultati simili (ceppo K562 GENCODE, Metodi, Fig. 4 supplementare).

La cluster analysis rivela l’intrigante scoperta che i trascritti con un forte contenuto strutturale interagiscono maggiormente con i polipeptidi e codificano per proteine coinvolte in funzioni di regolazione e nella formazione di reti di contatto complesse. Data la relazione tra la struttura dell’RNA e il numero di interazioni proteiche (Fig. 1), un’interpretazione preliminare dei nostri risultati è che un alto grado di controllo è richiesto per i geni che coordinano l’attività di un gran numero di reti cellulari47. Così, la nostra analisi suggerisce una proprietà ‘ricorsiva’: trascrizioni altamente contattate codificano per proteine altamente contattate (Fig. 2e)20,48.

Disordine ed elica distinguono dsRNA vs. ssRNA

Per capire la base molecolare dell’interattività guidata dalla struttura delle molecole di RNA, abbiamo analizzato quali proprietà fisico-chimiche delle proteine discriminano meglio i set HS e LS. Abbiamo studiato tutte le 10 variabili utilizzate nell’algoritmo catRAPID (Fig. 2f)13,32 e le abbiamo rimosse una per una per stimare l’impatto sulla previsione delle interazioni RNA-proteine. Abbiamo trovato che la capacità di distinguere tra i set di RNA meno e più strutturati (100 trascrizioni HS e LS; Dati supplementari 3) è più colpita quando la polarità (valore p = 0,28; KS test) e α-elica propensione (valore p = 0,06; KS test) vengono rimossi (Fig. 2f). La proprietà che più significativamente influenza la propensione di legame HS è la polarità, che è arricchito in proteine strutturalmente disordinati49 e anti-correla con idrofobicità che è la chiave nel riconoscimento macro-molecolare (Tabella supplementare 2)50. Per quanto riguarda la propensione α-elica, notiamo che le eliche sono gli elementi strutturali più frequenti coinvolti nella formazione di contatti con regioni a doppio filamento e si verificano in dsRBD e dita di zinco29 (Tabella supplementare 3). La nostra osservazione suggerisce una possibile co-evoluzione tra proteine e RNA: mentre l’RNA adotta forme complesse per esporre le regioni di legame, le proteine cambiano il loro contenuto strutturale. In accordo con la teoria della serratura a chiave51, proponiamo che la selezione naturale favorisca le RBP altamente strutturate come interagenti dei dsRNA.

Abbiamo convalidato l’importanza della polarità proteica e della struttura elicoidale confrontando tre serie di dati di RBP ben studiate (umane e del lievito)52,53,54 e due serie di proteine recuperate da UniProt (tutti gli organismi) come leganti esclusivamente ssRNA (453 proteine) o leganti dsRNA (390 proteine; dati supplementari 4). L’analisi delle proprietà biofisiche con l’approccio cleverMachine55 ha rivelato che i leganti ssRNA e i leganti dsRNA differiscono per due proprietà: disordine e contenuto di α-elica (Fig. 2g). Il confronto dei due insiemi, uno contro l’altro, indicano che le RBP che interagiscono con RNA altamente strutturate sono strutturate e idrofobiche, mentre le RBP disordinate e polari si associano con RNA meno strutturate (Fig. 5 supplementare). Così, la nostra analisi espande ulteriormente ciò che è stato precedentemente riportato per le reti di interazione proteina-proteina, in cui le regioni strutturali disordinate hanno dimostrato di svolgere un ruolo centrale47, e suggerisce nuove regole per l’accoppiamento delle basi nucleotidiche con gli aminoacidi.

Contenuto della struttura dell’RNA e contatto proteico nei chaperon

L’analisi del trascrittoma umano e di tutti gli organismi indicano che gli RNA altamente strutturati sono inclini a interagire con i polipeptidi e, a loro volta, codificano per proteine coinvolte in processi biologici associati a grandi e complesse reti di contatto. Per indagare meglio l’interattività proteica guidata dalla struttura delle molecole di RNA, ci siamo concentrati su una classe di trascrizioni che codificano per proteine che interagiscono con diversi partner. La scelta naturale per questa analisi è il chaperones molecolare, in quanto promuovere il ripiegamento in stato nativo 56 e organizzare l’assemblaggio di fase-separati assemblee RNP 57, soddisfacendo così la proprietà ‘ricorsiva’ presentato in Fig. 2d. eCLIP dati 30 mostrano che la maggior parte delle RNA che codificano per chaperones umani sono coinvolti in interazioni con più proteine (Fig. 6 supplementare). Abbiamo trovato una correlazione significativa tra proteine-RNA e proteine-proteine interazioni annotati in BioGRID (Fig. 3a). Questo risultato conferma che le trascrizioni legate da molte RBP codificano anche per proteine altamente contattate.

Fig. 3
figura3

Relazioni tra struttura dell’RNA e contatti proteici per i chaperon. a Contatti di RNA che codificano per chaperoni proteici, misurati da enhanced CrossLinking and ImmunoPrecipitation (eCLIP)30, e interazioni fisiche delle corrispondenti proteine codificate, raccolte da BioGRID; valore p stimato con test KS. b Confronto tra analisi parallela della struttura dell’RNA (PARS) contenuto strutturale e interazioni fisiche delle proteine codificate, raccolte da BioGRID, per l’intero trascrittoma. Il trascrittoma è stato diviso in cinque set consecutivi contenenti ciascuno il 20% del trascrittoma. I set sono stati selezionati in base al loro contenuto strutturale PARS, la gamma di ogni set da sinistra a destra sono: -10,7 a -4,6; -4,6 a -3,1; -3,1 a -2,4; -2,4 a -1,9; -1,9 a -0,5. L’ultimo boxplot mostra la distribuzione del numero di interagenti fisici recuperati da BioGRID per la famiglia delle proteine chaperone (heat-shock proteins). c La misura PARS del contenuto di struttura secondaria dei trascritti HS (HSP70, rosa) e LS (BRaf, blu). Linee tratteggiate verticali indicano regioni non tradotte (UTR). d PARS contenuto struttura secondaria di trascrizioni HS e LS (valore di p stimato con test KS). e diagramma di Venn che mostra la sovrapposizione tra le interazioni proteiche, misurata da eCLIP, di HS e LS RNAs (valore p empirico <6 × 10-3; stimato confrontando con la distribuzione di 1000 sovrapposizioni di set campionati da eCLIP RBPs). f Predizione della propensione al legame proteico di HS e LS RNAs utilizzando catRAPID13,32 (valore di p stimato con test KS). Per b, d, f, le caselle mostrano l’intervallo interquartile (IQR), la linea centrale rappresenta la mediana, le tacche l’intervallo di confidenza al 95% della mediana, i baffi aggiungono 1,5 volte l’IQR al 75 percentile (limite superiore della casella) e sottraggono 1,5 volte l’IQR dal 25 percentile (limite inferiore della casella). S.d. è mostrato

Per capire se la correlazione tra le interazioni proteina-proteina e proteina-RNA è una proprietà generale o semplicemente una caratteristica della famiglia dei chaperoni, abbiamo analizzato le interazioni del trascrittoma classificate dai punteggi PARS e 24 mRNA che codificano per chaperoni per i quali sono disponibili dati PARS (Genecards; https://www.genecards.org; set ‘HSPs’; metodi, Fig. 3b). Abbiamo trovato una correlazione positiva tra la quantità di struttura RNA e il numero di interattori BioGRID delle proteine codificate (Fig. 7a-b supplementare). Quindi, i nostri calcoli concordano con l’analisi GO (Fig. 2d) e suggeriscono una relazione tra gli mRNA e i loro partner codificanti: RNA altamente strutturati codificano per proteine altamente interagenti.

I dati presentati finora suggeriscono che gli RNA correlati per tipo (es. miRNA, snRNA) o funzione (es. codificanti per chaperoni) condividono caratteristiche strutturali simili (Fig. 2). Quindi, dovrebbe essere possibile stimare le differenze nella rete di interazione di due trascrizioni non correlate analizzando il loro contenuto strutturale, e viceversa. Per testare questa ipotesi, abbiamo selezionato il trascritto altamente strutturato HSP70 (HS RNA, log del punteggio PARS di -1,3 corrispondente al 26% del contenuto a doppio filamento, Fig. 3c) che codifica per un chaperone essenziale per regolare gli assemblaggi di complessi proteici come i cappotti di clatrina58 e i granuli di stress22,57. Come controllo abbiamo scelto l’RNA che codifica per BRaf che è meno strutturato (LS RNA, punteggio di -2,8 che indica il 6% di contenuto a doppio filamento secondo PARS, Fig. 3c-e) e codifica per un oncogene coinvolto nella trasmissione di segnali chimici dall’esterno della cellula al nucleo (il confronto strutturale è confermato dalle previsioni CROSS e dagli esperimenti DMS, come mostrato nella Fig. 8).

Abbiamo trovato che HSP70 ha un maggior numero di partner (30 RBPs identificate da eCLIP) rispetto a BRaf (9 RBPs eCLIP, 6 in comune con HSP70, Fig. 9 supplementare), che è perfettamente in accordo con la proprietà di interattività della proteina guidata dalla struttura. In linea con la tendenza di Fig. 1b, catRAPID indica che le proteine hanno una maggiore propensione a legarsi a HSP70 che BRaf (Fig. 3f). Inoltre, la HSP70 altamente strutturata codifica per una proteina con un maggior numero di interagenti (244 interagenti fisici BioGRID), mentre la BRaf poco strutturata ha un prodotto proteico che si lega ad un insieme più piccolo di molecole (88 interagenti fisici BioGRID). Le nostre osservazioni suggeriscono che un RNA con un gran numero di interazioni è incline ad agire come un regolatore di rete: ipotizziamo che, a causa della maggiore interattività, il trascritto HSP70 potrebbe agire come un chaperone a seconda del contesto.

Quindi, ipotizziamo che un RNA strutturato, a causa del suo più alto potenziale di interazione con le proteine, sia in grado di influenzare la rete di interazione proteica più di un RNA poco strutturato. In un esperimento proof-of-concept, abbiamo usato un composto chimico, isossazolo biotinilato (b-isox) per indurre la formazione di una transizione di fase da liquido a solido di un gruppo di proteine59,60 che abbiamo incubato con trascrizioni HS (HSP70) o LS (BRaf) (Fig. 4a e Fig. 10 supplementare). Abbiamo osservato che HS ha alterato la composizione dell’aggregato proteico più di LS RNA (Fig. 4b e dati supplementari 5). Infatti, quando HS RNA è stato aggiunto, un significativo cambiamento di concentrazione è stato osservato per 29 proteine (Fig. 4c; 21 set ‘rilasciato’, punti neri, e 8 set ‘mantenuto’, punti rossi in Fig. 4b), mentre solo nove proteine sono state identificate nel caso LS RNA. Così, la composizione in presenza di LS RNA è rimasta simile a quella del controllo di fondo (set ‘statico’, punti grigi in Fig. 4b).

Fig. 4
figura4

L’RNA strutturato riduce l’aggregazione delle proteine in vitro. a Biotinylated isoxazole (b-isox)-driven aggregation of HeLa protein lysate in vitro. A sinistra, gel colorati con Coomassie, un esperimento rappresentativo mostrato (i gel non tagliati sono presentati nella Fig. 10 supplementare). Centro, l’intensità della proteina aggregata è stata quantificata e la differenza valutata con test t a due code (p = 1 ×1 0-3; N = 3 replicati biologici mostrati come punti nell’immagine). S.d. è mostrato. Destra, schema sperimentale. L’efficacia di aggregazione è stato testato confrontando il precipitato risultante in presenza o in assenza di b-isox, questo è indicato da a + o a-, rispettivamente. b trame Vulcano indicano i valori p (misura Perseus) dei singoli arricchimenti proteici in b-isox montaggio (N = 4 replicati biologici indipendenti). La soglia di significatività statistica è contrassegnata da una linea orizzontale (vedi anche dati supplementari 5). Punti neri sono proteine con concentrazione significativamente diminuita dopo l’incubazione RNA. Punti rossi sono le proteine con concentrazione significativamente aumentata dopo l’incubazione RNA. c Colore-codificato label-free quantitation (LFQ) intensità delle proteine colpite dal alto strutturato (HS) RNA su una scala dal nero (basso) al rosso (alto). Clustering gerarchico da Perseus è indicato. Per il confronto, le intensità LFQ delle stesse proteine nel controllo e in presenza del LS RNA sono tracciati pure

Abbiamo ragionato che la concorrenza di RNA con la rete di contatto b-isox precipitato59,60 potrebbe essere il risultato di interazioni dirette o indirette proteine-RNA (Fig. 5a). Tuttavia, le previsioni di catRAPID supportano l’ipotesi di un effetto diretto: un aumento della rigorosità sperimentale (Fig. 11 supplementare; Metodi) è anche associato ad un aumento del potere predittivo teorico (Fig. 5b). In accordo con la nostra precedente analisi delle preferenze di legame all’RNA, le proteine rilasciate dopo l’incubazione di HSP70 risultano significativamente prive di polarità (Fig. 5c). Così, il nostro esperimento suggerisce che la struttura-driven interattività proteina di molecole di RNA è attivo ad ogni livello, promuovendo le interazioni individuali e alterando la composizione dei condensati12 (Fig. 2e).

Fig. 5
figura5

Interazioni all’interno del condensato ribonucleoproteico. a Il rilascio delle proteine dall’assemblaggio isossazolo biotinilato (b-isox) potrebbe essere il risultato di: (1) un processo indiretto, risultante da una competizione di interazione tra l’RNA e l’aggregato proteico o (2) un processo diretto, risultante dal sequestro delle proteine da parte dell’RNA. b Le prestazioni di catRAPID migliorano con la severità degli esperimenti b-isox (metodi), suggerendo un reclutamento diretto di proteine salvate dall’RNA altamente strutturato (HS). Il false discovery rate (FDR) diventa altamente significativo per il set sperimentale più rigoroso (FDR = 0,1). c ‘Rilasciato’ proteine (scatola nera) sono meno polari di quelli ‘statici’ (scatola grigia), in accordo con la nostra analisi computazionale (valore p = 4,7 × 10-2, valore p stimato con test KS; vedi anche Fig. 2f, g). Le proteine rilasciate e statiche corrispondono ai punti neri e grigi del pannello destro di Fig. 4b. Le caselle mostrano l’intervallo interquartile (IQR), la linea centrale rappresenta la mediana, le tacche l’intervallo di confidenza al 95% della mediana, i baffi aggiungere 1,5 volte l’IQR al 75 percentile (limite superiore della scatola) e sottrarre 1,5 volte l’IQR dal 25 percentile (limite inferiore della scatola). S.d. è mostrato

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.