Structura ARN-ului determină interacțiunea cu proteinele
ARN-urile puternic structurate se leagă de o cantitate mare de proteine
Cu scopul de a studia modul în care structura ARN-ului influențează legătura cu proteinele, am măsurat cantitatea de regiuni bicatenare din transcriptomul uman8 (Fig. 1a). Am grupat mai întâi ARN-urile, așa cum au fost detectate prin abordarea eCLIP (enhanced crosslinking and immunoprecipitation)30 , în clase bazate pe conținutul structural măsurat prin „analiza paralelă a structurii ARN” (PARS)8 (Fig. suplimentară 1a și Fig. 1b). PARS este o tehnică experimentală care distinge regiunile bicatenare și monocatenare ale ARN folosind activitatea catalitică a două enzime, RNază V1 (capabilă să taie nucleotide bicatenare) și S1 (capabilă să taie nucleotide monocatenare) și pentru care scorurile pozitive indică regiuni bicatenare (a se vedea Ec. (1) în secțiunea Metode)8. Am utilizat apoi predicțiile catRAPID ale interacțiunilor proteină-ARN (disponibile în baza de date RNAct, care conține atât calcule la nivelul proteomului, cât și la nivelul transcriptomului31) și am comparat scorurile de interacțiune ale diferitelor grupuri (HS, conținut structural ridicat, față de LS, conținut structural scăzut) (Fig. 1b). Algoritmul catRAPID32 estimează potențialul de legare prin intermediul van der Waals, al legăturilor de hidrogen și al propensiunilor structurii secundare atât a secvențelor de proteine, cât și a celor de ARN (în total, 10 proprietăți), permițând identificarea partenerilor de legare cu un grad ridicat de încredere. Într-adevăr, așa cum s-a raportat într-o analiză recentă a aproximativ o jumătate de milion de interacțiuni validate experimental31, algoritmul este capabil să separe perechile care interacționează de cele care nu interacționează cu o arie sub curbă (AUC) a curbei caracteristice de operare a receptorului (ROC) de 0,78 (cu o rată de descoperire falsă (FDR) semnificativ mai mică de 0,25 atunci când valorile Z-score sunt >2). Compararea grupurilor de ARN cu conținut structural diferit arată o tendință consecventă în care un conținut structural mai mare în moleculele de ARN duce la scoruri mai mari de interacțiune cu proteinele (Fig. 1b). În ceea ce privește datele PARS, observăm că cantitatea de regiuni bicatenare se corelează slab (<0,10; Pearson) cu lungimea ARN-ului și conținutul de GC, ceea ce indică faptul că acești doi factori contribuie în mod pozitiv la structura secundară prin creșterea dimensiunii spațiului conformațional, precum și a stabilității generale33.
Am repetat analiza cu o abordare fără legătură, RPISeq, care prezice interacțiunile proteină-ARN utilizând modele de secvențe în secvențele de nucleotide și aminoacizi11. RPISeq este alcătuit din două metode bazate pe mașini cu vectori de sprijin (RPISeq-SVM) și pădure aleatorie (RPISeq-RF). Datorită cerințelor specifice de calcul, am aplicat RPISeq la un ansamblu de RBP (50 de proteine cu similaritate de secvență <0,85; http://cd-hit.org/) față de setul HS și LS de la cozile distribuției conținutului structural (100 de transcripte) pentru a estima probabilitățile de legare (Date suplimentare 1). În ambele cazuri, se preconizează că setul HS (RF 0,80, SVM 0,71) se va lega cu probabilități semnificativ mai mari decât setul LS (RF 0,70, SVM 0,54; valoare p <10-5; test Kolmogorov-Smirnov (KS); Fig. suplimentară 1b-c), în concordanță cu analiza catRAPID (Fig. 1b). Astfel, analiza noastră sugerează că conținutul structurii ARN-ului are efect asupra interacțiunii cu proteinele.
Pentru a ne potrivi predicțiile cu datele experimentale, am investigat toate interacțiunile RBP-ARN relevate prin enhanced CrossLinking and ImmunoPrecipitation, eCLIP30 (118 RBP; a se vedea Metode). eCLIP oferă contacte proteice pe ARN-urile țintă la rezoluția nucleotidelor individuale prin ligarea adaptorilor ADN monocatenar cu cod de bare30. În concordanță cu predicțiile catRAPID31 (Fig. 1b), scorurile de legare eCLIP se corelează cu structura secundară PARS, ceea ce indică faptul că propensiunea ARN-ului de a interacționa cu proteinele este proporțională cu cantitatea de structură măsurată la nivelul transcriptomului (Fig. 1c). Observăm că abordările CLIP-seq favorizează, în general, detectarea ARN-ului monocatenar (SS) în detrimentul ARN-ului bicatenar (DS)34 , iar setul de date eCLIP nu este îmbogățit în proteine de legare a ARN-ului bicatenar (9 din 118 sunt atribuite conform UniProt ca legare la ARN ds, 12 din 118 ca legare la ARN ss, utilizând adnotările GO disponibile35), ceea ce indică faptul că rezultatele noastre nu sunt influențate de tipurile de proteine utilizate în analiza noastră.
Pentru a corobora și mai mult faptul că această tendință este autentică și nu doar intrinsecă măsurătorilor PARS, am analizat potențialul de interacțiune cu proteinele din întregul transcriptom uman în raport cu structura secundară a ARN-ului măsurată cu tehnica de modificare cu dimetil sulfat (DMS) (diferit de PARS, valorile ridicate indică regiuni monocatenare; Fig. 1d)9. Această metodă de evaluare a structurii ARN utilizează secvențierea în profunzime pentru a detecta nucleotidele de adenozină și de citetină nepereche. Încă o dată, analiza arată că structura secundară ARN a transcriptelor umane este strâns corelată cu abilitățile de legare a proteinelor.
Am folosit, de asemenea, baza de date POSTAR (care conține >1000 de seturi de date CLIP-seq; http://lulab.life.tsinghua.edu.cn/postar/) pentru a prelua preferințele de legare la ARN ale proteinelor umane (103 experimente, 85 de RBP-uri diferite) măsurate cu PAR-CLIP, secvențiere-CLIP de mare viteză (HITS-CLIP) și CLIP cu rezoluție individuală a nucleotidelor (iCLIP)10. Din cauza diferențelor intrinseci ale abordărilor CLIP (și a altor factori, cum ar fi liniile celulare utilizate), fiecare experiment raportează diferite interacțiuni proteină-ARN10. Cu toate acestea, 77% dintre RBP au preferință pentru ARN cu structură înaltă pentru cel puțin una dintre metodele experimentale (DMS sau PARS; Fig. 1e).
Datorită posibilelor prejudecăți tehnice ale experimentelor de mare randament, am decis să verificăm reproductibilitatea tendinței prin investigarea corelației dintre structura ARN și interacțiunile proteice în cadrul analizelor cu randament redus. Am studiat mai întâi interactomul a opt ARN-uri mari (>1000 nt) ai căror parteneri proteici au fost identificați prin microarray, o abordare fără reticulare21,36,37 (a se vedea Metode). În paralel, am estimat conținutul structural al fiecărui transcript cu ajutorul algoritmului CROSS, care a fost antrenat anterior pe datele SHAPE38 pentru a prezice propensiunea dublu-catenară la rezoluția la nivel de nucleotide. Rezultatele noastre prezentate în Fig. 1f indică faptul că transcriptele foarte structurate au mai multe contacte proteice decât transcriptele slab structurate, ceea ce este pe deplin compatibil cu constatările prezentate în analiza noastră anterioară (Fig. 1b-e).
Ne-am coroborat observațiile noastre prin studierea complexelor RNP depuse în baza de date Protein Data Bank (PDB) (rezoluție cu raze X <2 Å; Date suplimentare 2; a se vedea Metode), care cuprinde 196 de perechi ARN-proteine distincte (>20 de specii) analizate cu diferite tehnici (în principal cu raze X și rezonanță magnetică nucleară (RMN)) de către diferite laboratoare. Măsurând cantitatea de intra-contact ARN (adică cantitatea de structură ARN) și inter-contact (adică aminoacizi) per lanț de nucleotide, am găsit o corelație izbitoare de 0,78 între cele două variabile, ceea ce oferă dovezi convingătoare ale relației lor strânse (Fig. 1g; a se vedea Ecuațiile (2) și (3) din Metode).
Astfel, independent de experiment (PARS, DMS, microarray, X-ray, NMR, eCLIP, PAR-CLIP, HITS-CLIP și iCLIP), de algoritmii utilizați (catRAPID și RPISeq sau CROSS pentru a imita datele SHAPE) sau de organism (baza de date PDB), am găsit o corelație între numărul de interacțiuni proteice și conținutul structural al ARN-ului.
Interactivitatea proteică determinată de structură a tipurilor de ARN
Am investigat în continuare dacă legătura strânsă dintre structura secundară și numărul de interacțiuni proteice este o proprietate a unor tipuri specifice de ARN (Fig. 2a). În acest scop, am comparat structura secundară și interacțiunile proteice ale transcriptelor clasificate în funcție de similaritatea secvenței folosind algoritmul CD-HIT39 (http://cd-hit.org/). Cu un prag de similitudine de 85%, am găsit 22 de clustere (în total 55 de transcripte) cu cel puțin un contact RBP dezvăluit de eCLIP. Am calculat apoi corelația dintre semnalul DMS și interacțiunile proteice eCLIP pentru fiecare cluster și am obținut o corelație negativă în 64% din cazuri. Această constatare indică faptul că, între două transcripte similare, cel cu un conținut structural mai mare are mai multe șanse să aibă un număr mai mare de interacțiuni proteice.
Cele două transcripte care împărtășesc cea mai mare similaritate (99,31%) sunt γ-globinele HBG1 și HBG2 (subunitățile de hemoglobină γ1 și γ2) care sunt exprimate în ficatul fetal, splină și măduva osoasă (NCBI Gene ID: 3048). Varianta de γ-globină cu structură mai înaltă (HBG1) are un număr semnificativ mai mare de interacționari proteici (HBG1, semnal DMS mediu de 0,04, 29 de interacționari; HBG2, semnal DMS mediu de 0,07, 14 interacționari; valoare p = 0,003; test KS; Fig. 2b). În timp ce compoziția nucleotidică a celor două transcripte rămâne aproape aceeași (HBG1:280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), diferențele dintre HBG1 și HBG2 sunt concentrate în regiunile în care structura secundară este modificată (Fig. suplimentară 2). Aceste rezultate indică faptul că interactivitatea proteică este strâns asociată cu modificări conformaționale în elemente ale structurii secundare. În mod interesant, conținutul crescut de dublu catenar în HBG1, în special în 3′-UTR, este însoțit de o acumulare de elemente de reglare a traducerii (Fig. 2b) și de o scădere concomitentă a expresiei (NCBI Gene ID: 3048).
Ne-am întrebat apoi dacă structurile specifice ale ARN-ului sunt implicate în reglarea proteinei. Am împărțit transcriptomul uman în diferite clase și am analizat structura lor secundară, așa cum a fost detectată prin două tehnici experimentale independente, PARS și DMS. Ambele tehnici arată că ARN-urile codificatoare de proteine au cel mai mare conținut structural (Fig. 2c, tabelul suplimentar 1)38. Deși o parte din structura ARNm este concentrată în UTR8, atunci când acestea sunt excluse, distribuția conținutului structural nu se schimbă substanțial (corelația Pearson între transcriptele cu și fără UTR = 0,94; Fig. 3). ARN-urile despre care se știe că interacționează cu proteinele, cum ar fi ARN-urile nucleare mici (snRNAs)40 și ARN-urile nucleolare mici (snoRNAs)28, prezintă cea mai mare cantitate de structură, în timp ce ARN-urile care vizează regiuni complementare din acizii nucleici, cum ar fi ARN antisens, miARN-urile și un număr de ARN-uri intergenice lungi necodificatoare (lincRNAs)41,42 prezintă cea mai mică cantitate de structură43 (tabelul suplimentar 1).
În acord cu constatările noastre, Seemann et al.12 au observat anterior o relație strânsă între legarea de proteine și conservarea elementelor structurale în ARNm, care apar într-o măsură mai mică în cazul ARN-urilor necodificatoare lungi12. Deși lincRNA-urile prezintă o cantitate mai mică de regiuni bicatenare (cea mai mică în PARS, a treia cea mai mică în DMS), observăm că unele dintre ele, cum ar fi, de exemplu, NEAT144 și XIST27, sunt capabile să schelezeze asamblarea proteinelor prin intermediul unor domenii structurate. Deoarece există o dezbatere în curs de desfășurare cu privire la diferențele structurale dintre transcriptele codificatoare și necodificatoare45,46 , iar analiza noastră a datelor DMS și PARS relevă rezultate contradictorii pentru tipuri specifice de ARN, sugerăm investigații suplimentare în cadrul unor studii viitoare (Fig. 2c; Tabelul suplimentar 1).
Pentru a investiga diferențele funcționale dintre ARN-urile înalt și slab structurate, am analizat termenii GO asociați celor mai puțin și mai mult structurate ARN-uri (100 de transcripte LS vs. 100 de transcripte HS) utilizând abordarea cleverGO35. În timp ce setul LS (14 ARN-uri necodificatoare și 86 de ARNm) nu este asociat cu clustere specifice de similaritate semantică (total de 36 de termeni cu valoare p <0,05; test Bonferroni), setul HS (100 de ARNm; total de 395 de termeni cu valoare p <0,05 și 103 termeni cu valoare p <0,01; test Bonferroni; Fig. 2d) include 20 de clustere distincte. Cele cinci categorii principale asociate cu clusterele și care acoperă cel puțin un sfert din intrări sunt următoarele (i) reglarea complexă a proteinelor (49/103), (ii) procesul metabolic al nucleozidelor (39/103), (iii) răspunsul celular (29/103), (iv) expresia genică (29/103) și (v) direcționarea proteinelor (28/103). Am repetat, de asemenea, analiza termenilor GO folosind ca fundal transcriptele cu 25% mai bine exprimate și am obținut rezultate similare (tulpina K562 GENCODE, Methods, Supplementary Fig. 4).
Analiza clusterului relevă constatarea intrigantă că transcriptele cu un conținut structural puternic interacționează mai mult cu polipeptide și codifică proteine implicate în funcții de reglare și în formarea de rețele complexe de contact. Având în vedere relația dintre structura ARN-ului și numărul de interacțiuni proteice (Fig. 1), o interpretare preliminară a rezultatelor noastre este aceea că este necesar un grad ridicat de control pentru genele care coordonează activitatea unui număr mare de rețele celulare47. Astfel, analiza noastră sugerează o proprietate „recursivă”: transcriptele cu un nivel ridicat de contact codifică proteine cu un nivel ridicat de contact (Fig. 2e)20,48.
Dezordinea și helixul disting dsARN față de ssARN
Pentru a înțelege baza moleculară a interactivității determinate de structură a moleculelor de ARN, am analizat ce proprietăți fizico-chimice ale proteinelor discriminează mai bine seturile HS și LS. Am studiat toate cele 10 variabile utilizate în algoritmul catRAPID (Fig. 2f)13,32 și le-am eliminat una câte una pentru a estima impactul asupra predicției interacțiunilor ARN-proteine. Am constatat că capacitatea de a distinge între seturile de ARN-uri cel mai puțin și cel mai structurat (100 de transcripte HS și LS; Date suplimentare 3) este mai afectată atunci când sunt eliminate polaritatea (valoare p = 0,28; test KS) și propensiunea α-helicoidală (valoare p = 0,06; test KS) (Fig. 2f). Proprietatea care afectează în mod mai semnificativ propensiunea de legare a HS este polaritatea, care este îmbogățită în proteinele structural dezordonate49 și care este anticorrelată cu hidrofobicitatea care este esențială în recunoașterea macromoleculară (Tabelul suplimentar 2)50. În ceea ce privește propensiunea α-helicoidală, observăm că elicele sunt cele mai frecvente elemente structurale implicate în formarea contactelor cu regiunile dublu-catenare și apar în dsRBD și în degetele de zinc29 (tabelul suplimentar 3). Observația noastră sugerează o posibilă co-evoluție între proteine și ARN-uri: în timp ce ARN-ul adoptă forme complexe pentru a expune regiunile de legare, proteinele își modifică conținutul structural. În acord cu teoria încuietorii de chei51, propunem ca selecția naturală să favorizeze RBP-urile puternic structurate ca interacționari ai ARN ds.
Am validat importanța polarității și a structurii elicoidale a proteinelor prin compararea a trei seturi de date de RBP-uri bine studiate (umane și de drojdie)52,53,54 și a două seturi de proteine recuperate din UniProt (toate organismele) fie ca fiind exclusiv legători de ARN ss (453 de proteine), fie ca legători de ARN ds (390 de proteine; Date suplimentare 4). Analiza proprietăților biofizice cu ajutorul abordării cleverMachine55 a relevat faptul că legătorii de ssARN și cei de dsARN diferă în ceea ce privește două proprietăți: dezordinea și conținutul de α-helix (Fig. 2g). Comparația celor două seturi, unul față de celălalt, indică faptul că RBP-urile care interacționează cu ARN-uri foarte structurate sunt structurate și hidrofobe, în timp ce RBP-urile dezordonate și polare se asociază cu ARN-uri mai puțin structurate (Fig. Suplimentară 5). Astfel, analiza noastră extinde și mai mult ceea ce a fost raportat anterior pentru rețelele de interacțiune proteină-proteină, în care s-a demonstrat că regiunile structurale dezordonate joacă un rol central47, și sugerează noi reguli pentru împerecherea bazei nucleotidelor cu aminoacizii.
Conținutul structurii ARN-ului și contactul cu proteinele în chaperoni
Analiza transcriptomului uman și a tuturor organismelor indică faptul că ARN-urile foarte structurate sunt predispuse să interacționeze cu polipeptide și, la rândul lor, să codifice pentru proteine implicate în procese biologice asociate cu rețele de contact mari și complexe. Pentru a investiga mai bine interactivitatea proteică determinată de structură a moleculelor de ARN, ne-am concentrat asupra unei clase de transcripte care codifică proteine care interacționează cu mai mulți parteneri. Alegerea naturală pentru această analiză este reprezentată de chaperonii moleculari, deoarece aceștia promovează plierea în starea nativă56 și organizează asamblarea ansamblurilor RNP separate în faze57 , îndeplinind astfel proprietatea „recursivă” prezentată în Fig. 2d. Datele eCLIP30 arată că majoritatea ARN-urilor care codifică chaperoni umani sunt implicate în interacțiuni cu mai multe proteine (Fig. suplimentară 6). Am constatat o corelație semnificativă între interacțiunile proteină-ARN și proteină-proteină adnotate în BioGRID (Fig. 3a). Acest rezultat confirmă faptul că transcriptele legate de multe RBP-uri codifică, de asemenea, proteine cu contacte ridicate.
Pentru a înțelege dacă corelația dintre interacțiunile proteină-proteină și proteină-ARN este o proprietate generală sau pur și simplu o caracteristică a familiei de chaperoni, am analizat interacțiunile transcriptomului clasificate în funcție de scorurile PARS și 24 de ARNm care codifică chaperoni pentru care sunt disponibile date PARS (Genecards; https://www.genecards.org; set „HSPs”; Metode, Fig. 3b). Am constatat o corelație pozitivă între cantitatea de structură ARN și numărul de interacționari BioGRID ai proteinelor codificate (Fig. suplimentară 7a-b). Astfel, calculele noastre sunt în concordanță cu analiza GO (Fig. 2d) și sugerează o relație între ARNm și partenerii lor de codificare: ARN-urile puternic structurate codifică proteine cu interacțiune ridicată.
Datele prezentate până acum sugerează că ARN-urile înrudite prin tip (de exemplu, miARN, snARN) sau funcție (de exemplu, codificarea pentru chaperoni) au caracteristici structurale similare (Fig. 2). Astfel, ar trebui să fie posibil să se estimeze diferențele în rețeaua de interacțiune a două transcripte neînrudite prin analizarea conținutului structural al acestora și viceversa. Pentru a testa această ipoteză, am selectat transcriptul HSP70 foarte structurat (ARN HS, log al scorului PARS de -1,3, corespunzând la 26 % din conținutul dublu catenar, Fig. 3c) care codifică o chaperonă esențială pentru a regla ansamblurile de complexe proteice, cum ar fi învelișurile de clatrină58 și granulele de stres22,57. Ca martor am ales ARN-ul care codifică BRaf, care este mai puțin structurat (ARN LS, scor de -2,8 indicând 6% din conținutul dublu catenar conform PARS, Fig. 3c-e) și care codifică pentru o oncogenă implicată în transmiterea de semnale chimice din afara celulei către nucleu (comparația structurală este confirmată de predicțiile CROSS și de experimentele DMS, după cum se arată în Fig. suplimentară. 8).
Am constatat că HSP70 are un număr mai mare de parteneri (30 RBP identificate prin eCLIP) decât BRaf (9 RBP eCLIP, 6 în comun cu HSP70, Fig. suplimentară 9), ceea ce este perfect în acord cu proprietatea de interactivitate proteică determinată de structură. În concordanță cu tendința din Fig. 1b, catRAPID indică faptul că proteinele au o propensiune mai mare de a se lega de HSP70 decât de BRaf (Fig. 3f). Mai mult, HSP70 foarte bine structurată codifică o proteină cu un număr mai mare de interactori (244 de interactori fizici BioGRID), în timp ce BRaf slab structurat are un produs proteic care se leagă de un set mai mic de molecule (88 de interactori fizici BioGRID). Observațiile noastre sugerează că un ARN cu un număr mare de interacțiuni este predispus să acționeze ca un regulator de rețea: speculăm că, datorită interactivității mai mari, transcriptul HSP70 ar putea acționa ca o chaperonă în funcție de context.
Astfel, emitem ipoteza că un ARN structurat, datorită potențialului său mai mare de interacțiune cu proteinele, este capabil să afecteze rețeaua de interacțiune a proteinelor mai mult decât un ARN slab structurat. Într-un experiment de validare a conceptului, am utilizat un compus chimic, izoxazol biotinilat (b-isox) pentru a induce formarea unei tranziții de fază de la lichid la solid a unui ansamblu de proteine59,60 pe care l-am incubat fie cu transcripții HS (HSP70), fie cu LS (BRaf) (Fig. 4a și Fig. suplimentară 10). Am observat că HS a modificat compoziția agregatului de proteine mai mult decât LS ARN (Fig. 4b și Date suplimentare 5). Într-adevăr, atunci când s-a adăugat ARN HS, s-a observat o modificare semnificativă a concentrației pentru 29 de proteine (Fig. 4c; 21 de seturi „eliberate”, puncte negre, și 8 seturi „păstrate”, puncte roșii în Fig. 4b), în timp ce doar nouă proteine au fost identificate în cazul ARN LS. Astfel, compoziția în prezența ARN-ului LS a rămas similară cu cea a controlului de fond (setul „static”, puncte gri în Fig. 4b).
Ne-am gândit că competiția ARN-ului cu rețeaua de contact a precipitatului b-isox59,60 ar putea fi rezultatul interacțiunilor directe sau indirecte proteină-ARN (Fig. 5a). Cu toate acestea, predicțiile catRAPID susțin ipoteza unui efect direct: o creștere a rigurozității experimentale (Fig. Suplimentară 11; Metode) este, de asemenea, asociată cu o creștere a puterii de predicție teoretică (Fig. 5b). În conformitate cu analiza noastră anterioară a preferințelor de legare a ARN-ului, proteinele eliberate în urma incubării cu HSP70 rezultă semnificativ lipsite de polaritate (Fig. 5c). Astfel, experimentul nostru sugerează că interactivitatea proteică determinată de structura moleculelor de ARN este activă la fiecare nivel, promovând interacțiuni individuale și modificând compoziția condensatelor12 (Fig. 2e).
.