RNA:n rakenne ohjaa vuorovaikutusta proteiinien kanssa
Suurirakenteiset RNA:t sitovat suuren määrän proteiineja
Tarkoituksenamme tutkia, miten RNA:n rakenne vaikuttaa proteiinien sitoutumiseen, mittasimme kaksisäikeisten alueiden määrän ihmisen transkriptomista8 (kuva 1a). Ryhmittelimme ensin RNA:t, jotka havaittiin tehostetun ristisidonnan ja immunoprecipitaation (eCLIP) menetelmällä30 , luokkiin ”RNA:n rakenteen rinnakkaisanalyysillä” (PARS)8 mitatun rakennesisällön perusteella (täydentävät kuvat 1a ja 1b). PARS on kokeellinen tekniikka, jossa RNA:n kaksi- ja yksisäikeiset alueet erotetaan toisistaan kahden entsyymin, RNaasi V1:n (pystyy leikkaamaan kaksisäikeisiä nukleotideja) ja S1:n (pystyy leikkaamaan yksisäikeisiä nukleotideja) katalyyttisen aktiivisuuden avulla. (1) menetelmissä)8. Tämän jälkeen käytimme catRAPID-ennusteita proteiini-RNA-vuorovaikutuksista (saatavilla RNAct-tietokannasta, joka sisältää sekä proteomin laajuisia että transkriptomin laajuisia laskelmia31) ja vertasimme eri ryhmien vuorovaikutuspistemääriä (HS, korkea rakenteellinen pitoisuus, vs. LS, matala rakenteellinen pitoisuus) (kuva 1b). CatRAPID-algoritmi32 arvioi sitoutumispotentiaalin sekä proteiini- että RNA-sekvenssien van der Waalsin, vetysidosten ja sekundäärirakenteiden ominaisuuksien avulla (yhteensä 10 ominaisuutta), mikä mahdollistaa sitoutumiskumppaneiden tunnistamisen suurella varmuudella. Kuten hiljattain tehdyssä noin puolen miljoonan kokeellisesti validoidun vuorovaikutuksen analyysissä31 todettiin, algoritmi pystyy erottelemaan vuorovaikutuksessa olevat ja ei-vuorovaikutuksessa olevat parit siten, että käyrän alle jäävän pinta-alan (AUC) vastaanottimen toimintaominaiskäyrän (ROC) arvo on 0,78 (väärien löydösten osuuden (FDR) ollessa huomattavasti alle 0,25, kun Z-arvot ovat >2). Rakenteeltaan erilaisten RNA-ryhmien vertailu osoittaa johdonmukaisen suuntauksen, jossa RNA-molekyylien suurempi rakenteellinen sisältö johtaa korkeampiin proteiinien vuorovaikutuspisteisiin (kuva 1b). PARS-tietojen osalta havaitsemme, että kaksisäikeisten alueiden määrä korreloi heikosti (<0,10; Pearson) RNA:n pituuden ja GC-pitoisuuden kanssa, mikä osoittaa, että nämä kaksi tekijää vaikuttavat positiivisesti sekundäärirakenteeseen lisäämällä konformaatiotilan kokoa sekä yleistä vakautta33.
Toistimme analyysin toisiinsa liittymättömällä lähestymistavalla, RPISeq:llä, joka ennustaa proteiini-RNA-vuorovaikutukset käyttämällä sekvenssikaavoja nukleotidi- ja aminohapposekvensseissä11. RPISeq koostuu kahdesta tukivektorikoneisiin (RPISeq-SVM) ja satunnaismetsään (RPISeq-RF) perustuvasta menetelmästä. Erityisten laskennallisten vaatimusten vuoksi sovelsimme RPISeq:tä RBP-kokonaisuuteen (50 proteiinia, joiden sekvenssin samankaltaisuus on <0,85; http://cd-hit.org/) HS- ja LS-joukkoa vastaan rakennesisältöjakauman hännistä (100 transkriptiä) sitomistodennäköisyyksien arvioimiseksi (Supplementary Data 1). Molemmissa tapauksissa HS-joukon (RF 0,80, SVM 0,71) ennustetaan sitoutuvan merkitsevästi suuremmilla todennäköisyyksillä kuin LS-joukon (RF 0,70, SVM 0,54; p-arvo <10-5; Kolmogorov-Smirnovin (KS)-testi; Täydentävä kuva 1b-c), mikä on sopusoinnussa catRAPID-analyysin kanssa (kuva 1b). Näin ollen analyysimme viittaa siihen, että RNA:n rakennesisällöllä on vaikutusta vuorovaikutukseen proteiinien kanssa.
Voidaksemme sovittaa ennusteemme yhteen kokeellisten tietojen kanssa tutkimme kaikki RBP-RNA-vuorovaikutukset, jotka paljastuivat tehostetulla ristiinlinkkauksella ja immunoprecipitaatiolla (enhanced CrossLinking and ImmunoPrecipitation, eCLIP30 ) (118 RBP:tä; ks. Menetelmät). eCLIP tuottaa proteiinikontakteja kohderyhmänä olevilla RNA:illa yksilöllisellä nukleotidierottelukyvyllä, joka saavutetaan ligoimalla viivakoodattuja yksijuosteisia dna-adaptereita30. CatRAPID-ennusteiden31 (kuva 1b) mukaisesti eCLIP:n sitoutumispisteet korreloivat PARS-sekundäärirakenteen kanssa, mikä osoittaa, että RNA:n taipumus olla vuorovaikutuksessa proteiinien kanssa on verrannollinen transkriptomin laajuisesti mitatun rakenteen määrään (kuva 1c). Huomaamme, että CLIP-seq-menetelmät suosivat yleisesti yksijuosteisen (SS) RNA:n havaitsemista kaksijuosteisen (DS) RNA:n kustannuksella34 , ja eCLIP-tietokanta ei ole rikastunut kaksijuosteiseen RNA:han sitoutuvien proteiinien osalta (9 proteiinia 118:sta on määritetty UniProtin mukaan dsRNA:han sitoutuviksi ja 12 proteiinia 118:sta ssRNA:han sitoutuviksi, kun käytetään saatavilla olevia GO-annotaatioita35), mikä viittaa siihen, että analyysissämme käytetyt proteiinityypit eivät ole vääristelleet tuloksia.
Vahvistaaksemme edelleen, että suuntaus on aito eikä ainoastaan PARS-mittauksille ominainen, analysoimme koko ihmisen transkriptomin proteiinisidospotentiaalia dimetyylisulfaattimodifikaatiotekniikalla (DMS) mitattua RNA:n sekundäärirakennetta vasten (PARS:stä poiketen korkeat arvot merkitsevät yksisäikeisiä alueita; kuva 1d)9. Tässä RNA:n rakenteen arviointimenetelmässä käytetään syväsekvensointia parittomien adenosiini- ja sytidiininukleotidien havaitsemiseksi. Analyysi osoittaa jälleen kerran, että ihmisen transkriptien RNA:n sekundaarirakenne korreloi tiukasti proteiinien sitoutumiskykyyn.
Käytimme myös POSTAR-tietokantaa (joka sisältää >1000 CLIP-seq-tietosarjaa; http://lulab.life.tsinghua.edu.cn/postar/) hakiaksemme PAR-CLIP:llä, korkean läpimenon sekvensointi-CLIP:llä (Highthroughput sequencing-CLIP) (HITS-CLIP) ja yksilöllisen nukleotidiresoluution omaavalla CLIP:llä (individual nukleotide resolution CLIP, iCLIP) mitattujen ihmisproteiinien RNA:n sitoutumispreferenssejä (103 kokeilua; 85:85 erilaista RBPs:ä)10. CLIP-menetelmien (ja muiden tekijöiden, kuten käytettyjen solulinjojen) luontaisten erojen vuoksi kussakin kokeessa raportoidaan erilaisia proteiini-RNA-vuorovaikutuksia10. Silti 77 %:lla RBP:istä on ainakin yhdessä kokeellisessa menetelmässä (DMS tai PARS; kuva 1e) preferenssi erittäin strukturoituja RNA:ita kohtaan.
Kun otetaan huomioon korkean läpimenon kokeiden mahdolliset tekniset vääristymät, päätimme tarkistaa suuntauksen toistettavuuden tutkimalla RNA:n rakenteen ja proteiinien vuorovaikutusten välistä korrelaatiota matalan läpimenon analyyseissä. Tutkimme ensin kahdeksan suuren (>1000 nt) RNA:n interaktomia, joiden proteiinikumppanit on tunnistettu mikrosirujen avulla, ristisidoksettomalla lähestymistavalla21,36,37 (ks. Menetelmät). Samanaikaisesti arvioimme kunkin transkriptin rakenteellisen sisällön käyttämällä CROSS-algoritmia, joka oli aiemmin koulutettu SHAPE-datalla38 kaksisäikeisyysalttiuden ennustamiseksi nukleotiditason resoluutiolla. Kuvassa 1f esitetyt tuloksemme osoittavat, että hyvin strukturoiduilla transkripteillä on enemmän proteiinikontakteja kuin huonosti strukturoiduilla transkripteillä, mikä on täysin sopusoinnussa aiemmassa analyysissämme esitettyjen havaintojen kanssa (kuvat 1b-e).
Vahvistimme havaintomme tutkimalla Protein Data Bank (PDB) -tietokantaan talletettuja RNP-komplekseja (röntgentarkkuus <2 Å; Supplementary Data 2; ks. menetelmät), joka sisältää 196 erillistä RNA-proteiiniparia (>20 lajia), jotka on analysoitu eri tekniikoilla (pääasiassa röntgen- ja ydinmagneettiresonanssilla (NMR) eri laboratorioissa. Mittaamalla RNA:n sisäisen kosketuksen (eli RNA-rakenteen määrän) ja RNA:n välisen kosketuksen (eli aminohapon) määrää nukleotidiketjua kohti havaitsimme näiden kahden muuttujan välillä silmiinpistävän korrelaation 0,78, mikä antaa vakuuttavan todisteen niiden tiiviistä yhteydestä (kuva 1g; ks. yhtälöt (2) ja (3) menetelmissä).
Havaitsimme siis kokeesta (PARS, DMS, microarray, röntgen, NMR, eCLIP, PAR-CLIP, HITS-CLIP ja iCLIP), käytetyistä algoritmeista (catRAPID ja RPISeq tai CROSS SHAPE-datan jäljittelyyn) tai organismista (PDB-tietokanta) riippumatta korrelaation proteiinien vuorovaikutusten lukumäärän ja RNA:n rakenteellisen sisällön välillä.
RNA-tyyppien rakenteesta johtuva proteiinien vuorovaikutteisuus
Tutkimme seuraavaksi, onko sekundaarirakenteen ja proteiinien vuorovaikutusten määrän välinen tiukka yhteys tiettyjen RNA-tyyppien ominaisuus (kuva 2a). Tätä varten vertasimme sekvenssin samankaltaisuuden mukaan järjestettyjen transkriptien sekundäärirakennetta ja proteiinien vuorovaikutuksia CD-HIT-algoritmilla39 (http://cd-hit.org/). Kun kynnysarvona käytettiin 85 prosentin samankaltaisuutta, löysimme 22 klusteria (yhteensä 55 transkriptiä), joissa oli vähintään yksi eCLIP:n paljastama RBP-kontakti. Tämän jälkeen laskimme DMS-signaalin ja eCLIP-proteiini-interaktioiden välisen korrelaation kunkin klusterin osalta ja saimme negatiivisen korrelaation 64 prosentissa tapauksista. Tämä havainto osoittaa, että kahden samankaltaisen transkriptin välillä sillä, jonka rakenteellinen sisältö on suurempi, on todennäköisemmin suurempi määrä proteiini-interaktioita.
Kaksi transkriptiä, joilla on suurin samankaltaisuus (99,31 %), ovat γ-globiinit HBG1 ja HBG2 (hemoglobiinin alayksiköt γ1 ja γ2), jotka ilmentyvät sikiön maksassa, pernassa ja luuytimessä (NCBI:n geenitunnus: 3048). Korkeamman rakenteen omaavalla γ-globiinivariantilla (HBG1) on huomattavasti enemmän proteiinien vuorovaikuttajia (HBG1, keskimääräinen DMS-signaali 0,04, 29 vuorovaikuttajaa; HBG2, keskimääräinen DMS-signaali 0,07, 14 vuorovaikuttajaa; p-arvo = 0,003; KS-testi; kuva 2b). Vaikka näiden kahden transkriptin nukleotidikoostumus pysyy lähes samana (HBG1: 280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), HBG1:n ja HBG2:n väliset erot keskittyvät alueille, joilla sekundaarirakenne on muuttunut (lisäkuva 2). Nämä tulokset osoittavat, että proteiinien vuorovaikutteisuus liittyy kiinteästi sekundäärirakenteen elementtien konformaatiomuutoksiin. Mielenkiintoista on, että HBG1:n lisääntyneeseen kaksoissäikeisyyspitoisuuteen, erityisesti 3′-UTR:ssä, liittyy translaation säätelyelementtien kasautuminen (kuva 2b) ja samanaikainen ekspression väheneminen (NCBI Gene ID: 3048).
Kysyimme tämän jälkeen, ovatko tietyt RNA:n rakenteet osallisina proteiinien säätelyssä. Jaoimme ihmisen transkriptomin eri luokkiin ja analysoimme niiden sekundaarirakennetta, joka havaittiin kahdella riippumattomalla kokeellisella tekniikalla, PARS:llä ja DMS:llä. Molemmat tekniikat osoittavat, että proteiineja koodaavilla RNA:illa on suurin rakennesisältö (kuva 2c, lisätaulukko 1)38. Vaikka osa mRNA:n rakenteesta on keskittynyt UTR:iin8 , kun ne jätetään pois, rakenteellisen sisällön jakauma ei muutu olennaisesti (Pearsonin korrelaatio transkriptien välillä, joissa on UTR:t ja joissa ei ole UTR:iä = 0,94; täydentävä kuva 3). RNA:t, joiden tiedetään olevan vuorovaikutuksessa proteiinien kanssa, kuten pienet nukleaariset RNA:t (snRNA:t)40 ja pienet nukleolaariset RNA:t (snoRNA:t)28, sisältävät eniten rakennetta, kun taas nukleiinihappojen komplementaarisiin alueisiin kohdistuvissa RNA:issa, kuten antisense-, miRNA:issa ja useissa pitkissä intergeenisissä, ei-koodaavissa RNA:issa (lincRNA:issa)41,42 rakenteen määrä on pienin43 (lisätaulukko 1).
Yhtäpitävästi kuin havaintojemme kanssa ovat myös Seemann ym. 12 havaitsivat aiemmin tiiviin yhteyden proteiinien sitoutumisen ja rakenneosien säilymisen välillä mRNA:ssa, jota esiintyy vähäisemmässä määrin pitkissä ei-koodaavissa RNA:issa12. Vaikka lincRNA:issa on vähemmän kaksisäikeisiä alueita (vähiten PARS:ssä, kolmanneksi vähiten DMS:ssä), toteamme, että jotkin niistä, kuten esimerkiksi NEAT144 ja XIST27, pystyvät rakenteellisten domeenien avulla rakentamaan proteiinien kokoonpanoa. Koska koodaavien ja ei-koodaavien transkriptien rakenteellisista eroista käydään jatkuvasti keskustelua45,46 ja koska DMS- ja PARS-tietojen analyysimme paljastaa ristiriitaisia tuloksia tiettyjen RNA-tyyppien osalta, ehdotamme jatkotutkimuksia tulevissa tutkimuksissa (kuva 2c; lisätaulukko 1).
Tutkiaksemme toiminnallisia eroja erittäin ja heikosti strukturoitujen RNA:iden välillä analysoimme vähiten ja eniten strukturoitujen RNA:iden (100 LS- vs. 100 HS- transkriptiä) kanssa assosioituneita GO-termejä cleverGO35-lähestymistavan avulla. Vaikka LS-joukkoon (14 ei-koodaavaa RNA:ta ja 86 mRNA:ta) ei liity erityisiä semanttisen samankaltaisuuden klustereita (yhteensä 36 termiä, joiden p-arvo on <0,05; Bonferronin testi), HS-joukkoon (100 mRNA:ta; yhteensä 395 termiä, joiden p-arvo on <0,05, ja 103 termiä, joiden p-arvo on <0,01; Bonferronin testi; kuvio 2d) sisältyy 20 erillistä klusteria. Klustereihin liittyvät viisi pääluokkaa, jotka kattavat vähintään neljänneksen merkinnöistä, ovat: (i) monimutkainen proteiinien säätely (49/103), (ii) nukleosidien aineenvaihduntaprosessi (39/103), (iii) soluvaste (29/103), (iv) geeniekspressio (29/103) ja (v) proteiinien kohdentaminen (28/103). Toistimme GO-termistöanalyysin myös käyttämällä taustana 25 prosenttia korkeammin ekspressoituneita transkriptejä ja saimme samankaltaisia tuloksia (K562-kannan GENCODE, Menetelmät, Täydentävä kuva 4).
Klusterianalyysi paljastaa kiehtovan havainnon siitä, että transkriptit, joilla on vahva rakenteellinen sisältö, ovat enemmän vuorovaikutuksessa polypeptidien kanssa ja koodaavat proteiineja, jotka osallistuvat säätelytoimintoihin ja monimutkaisten kontaktiverkostojen muodostamiseen. Kun otetaan huomioon RNA:n rakenteen ja proteiinivuorovaikutusten lukumäärän välinen suhde (kuva 1), yksi alustava tulkinta tuloksistamme on, että suuri määrä kontrollia vaaditaan geeneiltä, jotka koordinoivat suuren määrän soluverkostojen toimintaa47. Näin ollen analyysimme viittaa ”rekursiiviseen” ominaisuuteen: pitkälle kontaktoituneet transkriptit koodaavat pitkälle kontaktoituneita proteiineja (kuva 2e)20,48.
Rakenne- ja kierteisyys erottelevat dsRNA:n vs. ssRNA:n
Ymmärtääksemme RNA-molekyylien rakenteesta johtuvan vuorovaikutteisuuden molekulaarista perustaa analysoimme sitä, mitkä proteiinien fysikaalis-kemiallisista ominaisuuksista erottavat HS- ja LS-joukkueet toisistaan paremmin. Tutkimme kaikki 10 catRAPID-algoritmissa käytettyä muuttujaa (kuva 2f)13,32 ja poistimme ne yksi kerrallaan arvioidaksemme niiden vaikutusta RNA-proteiini-interaktioiden ennustamiseen. Havaitsimme, että kykyyn erottaa toisistaan vähiten ja eniten strukturoidut RNA:t (100 HS- ja LS-transkriptiota; Supplementary Data 3) -joukot vaikuttaa enemmän, kun polariteetti (p-arvo = 0,28; KS-testi) ja α-helikaalinen taipumus (p-arvo = 0,06; KS-testi) poistetaan (kuva 2f). Ominaisuus, joka vaikuttaa merkittävämmin HS:n sitoutumisalttiuteen, on poolisuus, joka on rikastunut rakenteellisesti epäjärjestyksessä olevissa proteiineissa49 ja korreloi vastakkaisesti hydrofobisuuden kanssa, joka on avainasemassa makromolekyylitunnistuksessa (lisätaulukko 2)50. Mitä tulee α-helikaaliseen taipumukseen, huomaamme, että kierteet ovat yleisimpiä rakenneosia, jotka osallistuvat kontaktien muodostamiseen kaksisäikeisten alueiden kanssa, ja niitä esiintyy dsRBD:ssä ja sinkkisormissa29 (lisätaulukko 3). Havaintomme viittaa mahdolliseen yhteisevoluutioon proteiinien ja RNA:iden välillä: samalla kun RNA omaksuu monimutkaisia muotoja paljastaakseen sitoutumisalueita, proteiinit muuttavat rakennesisältöään. Avainlukkoteorian51 kanssa sopusoinnussa ehdotamme, että luonnonvalinta suosii pitkälle rakennettuja RBP:itä dsRNA:iden vuorovaikuttajina.
Validoimme proteiinien napaisuuden ja kierteisen rakenteen merkityksen vertailemalla kolmea hyvin tutkittujen RBP:iden tietokokonaisuutta (ihmis- ja hiivasolujen)52,53,54 ja kahta UniProt-tietokannasta (kaikki organismit) haettua proteiinikokonaisuutta, jotka ovat joko yksinomaan ssRNA:ta sitovia proteiineja (453 proteiinia) tai dsRNA:ta sitovia proteiineja (390 proteiinia; täydentävä data 4). Biofysikaalisten ominaisuuksien analysointi cleverMachine-menetelmällä55 paljasti, että ssRNA-sitojien ja dsRNA-sitojien välillä on kaksi erilaista ominaisuutta: epäjärjestys ja α-helix-pitoisuus (kuva 2g). Näiden kahden joukon vertailu toisiinsa osoittaa, että hyvin strukturoitujen RNA:iden kanssa vuorovaikutuksessa olevat RBP:t ovat strukturoituneita ja hydrofobisia, kun taas epäjärjestyksessä olevat ja pooliset RBP:t assosioituvat vähemmän strukturoitujen RNA:iden kanssa (Täydentävä kuva 5). Näin ollen analyysimme laajentaa entisestään sitä, mitä aiemmin raportoitiin proteiini-proteiini-vuorovaikutusverkostoista, joissa rakenteellisesti epäjärjestyneillä alueilla on osoitettu olevan keskeinen rooli47 , ja ehdottaa uusia sääntöjä nukleotidien emäspareille aminohappojen kanssa.
RNA:n rakennesisällön ja proteiinikontaktien merkitys chaperoneissa
Ihmisen transkriptiomista ja eri organismeista tehty analyysi viittaa siihen, että hyvin strukturoidut RNA:t ovat taipuvaisia olemaan vuorovaikutuksessa polypeptidien kanssa, ja ne vuorostaan koodaavat valkuaisaineiden proteiineja, jotka ovat osallisina biologisissa prosesseissa, jotka liittyvät laajoihin ja monimutkaisiin kontaktiverkostoihin. Tutkiaksemme paremmin RNA-molekyylien rakenteesta johtuvaa proteiinien vuorovaikutteisuutta keskityimme transkriptien luokkaan, joka koodaa useiden kumppaneiden kanssa vuorovaikutuksessa olevia proteiineja. Luonnollinen valinta tähän analyysiin ovat molekulaariset chaperonit, koska ne edistävät taittumista natiiviin tilaan56 ja organisoivat vaiheittain erillisten RNP-kokoonpanojen kokoamista57 ja täyttävät siten kuvassa 2d esitetyn ”rekursiivisen” ominaisuuden. eCLIP-tiedot30 osoittavat, että suurin osa ihmisen chaperoneja koodaavista RNA:ista osallistuu vuorovaikutukseen useiden proteiinien kanssa (täydentävä kuva 6). Löysimme merkittävän korrelaation BioGRIDissä annotoitujen proteiini-RNA- ja proteiini-proteiini-interaktioiden välillä (kuva 3a). a Proteiinikapinoneita koodaavien RNA:iden kontaktit, mitattu tehostetulla ristiinlinkitys- ja immunoprecipitaatiolla (enhanced CrossLinking and ImmunoPrecipitation, eCLIP)30 , ja vastaavien koodattujen proteiinien fysikaaliset interaktiot, jotka on kerätty BioGRIDistä; p-arvo arvioitu KS-testillä. b RNA:n rakenteen rinnakkaisanalyysin (PARS) rakennesisällön ja BioGRIDistä kerättyjen koodattujen proteiinien fysikaalisten interaktioiden vertailu koko transkriptomille. Transkriptomi jaettiin viiteen peräkkäiseen sarjaan, jotka sisälsivät kukin 20 % transkriptomista. Sarjat valittiin niiden PARS-rakennesisällön perusteella, ja kunkin sarjan vaihteluväli vasemmalta oikealle on seuraava: -10,7-4,6; -4,6-3,1; -3,1-2,4; -2,4-1,9; -1,9-0,5. Viimeisessä boxplotissa esitetään BioGRIDistä haettujen fysikaalisten interaktoreiden lukumäärän jakauma chaperoniproteiiniperheelle (lämpösokkiproteiinit). c HS- (HSP70, vaaleanpunainen) ja LS- (BRaf, sininen) transkriptien sekundäärirakennepitoisuuden PARS-mittaus. Pystysuorat katkoviivat osoittavat translaatiota vailla olevat alueet (UTR). d HS- ja LS-transkriptien sekundäärirakenteen PARS-pitoisuus (p-arvo arvioitu KS-testillä). e Venn-diagrammi, joka osoittaa HS- ja LS-RNA:iden eCLIP:llä mitattujen proteiinien vuorovaikutusten päällekkäisyyden (empiirinen p-arvo <6 × 10-3; arvioitu vertaamalla eCLIP RBP:stä poimittujen sarjojen 1000 päällekkäisyyksien jakaumaan). f HS- ja LS-RNA:iden proteiinien sitoutumisalttiuden ennustaminen catRAPID:ia13,32 käyttäen (p-arvo arvioitu KS-testin avulla). Kohdissa b, d, f laatikot osoittavat kvartiilien välisen vaihteluvälin (IQR), keskiviiva edustaa mediaania, lovet mediaanin 95 prosentin luottamusväliä, viikset lisäävät 1,5 kertaa IQR:n 75 prosenttipisteeseen (laatikon yläraja) ja vähentävät 1,5 kertaa IQR:n 25 prosenttipisteestä (laatikon alaraja). S.d. on esitetty
Ymmärtääksemme, onko proteiini-proteiini- ja proteiini-RNA-vuorovaikutusten välinen korrelaatio yleinen ominaisuus vai pelkästään chaperoniperheen ominaisuus, analysoimme PARS-pistemäärien mukaan järjestetyn transkriptomin ja 24 mRNA:n, jotka koodaavat chaperoneja ja joista on saatavissa PARS-tiedot, välisiä vuorovaikutuksia (Genecards; https://www.genecards.org; ”HSPs”-joukko; Menetelmät, kuva 3b). Löysimme positiivisen korrelaation RNA:n rakenteen määrän ja koodattujen proteiinien BioGRID-interaktoreiden määrän välillä (täydentävä kuva 7a-b). Näin ollen laskelmamme ovat sopusoinnussa GO-analyysin kanssa (kuva 2d) ja viittaavat mRNA:n ja niiden koodaavien kumppaneiden väliseen suhteeseen: vahvasti strukturoidut RNA:t koodaavat vahvasti vuorovaikutuksessa olevia proteiineja.
Tähän mennessä esitetyt tiedot viittaavat siihen, että tyypiltään (esim. miRNA:t, snRNA:t) tai funktioltaan (esim. chaperoneja koodaavilla) sukulaisuuteen liittyvillä RNA:illa on samankaltaisia rakenteellisia piirteitä (kuva 2). Näin ollen pitäisi olla mahdollista arvioida eroja kahden toisiinsa liittymättömän transkriptin vuorovaikutusverkossa analysoimalla niiden rakenteellista sisältöä ja päinvastoin. Tämän hypoteesin testaamiseksi valitsimme erittäin rakenteellisen HSP70-transkriptin (HS RNA, PARS-pistemäärän log -1,3, joka vastaa 26:ta prosenttia kaksisäikeisestä sisällöstä, kuva 3c), joka koodaa chaperonia, joka on välttämätön proteiinikompleksien, kuten klatriinikatteiden58 ja stressirakeiden22,57, säätelyssä. Kontrolliksi valitsimme BRafia koodaavan RNA:n, joka on vähemmän strukturoitu (LS RNA, pistemäärä -2,8, mikä osoittaa PARS:n mukaan 6 % kaksisäikeistä pitoisuutta, kuva 3c-e) ja joka koodaa onkogeeniä, joka osallistuu kemiallisten signaalien välittämiseen solun ulkopuolelta tumaan (rakenteellinen vertailu on vahvistettu CROSS-ennusteilla ja DMS-kokeilla, kuten on esitetty täydentävässä kuvassa 3c-e). 8).
Havaitsimme, että HSP70:llä on suurempi määrä yhteistyökumppaneita (30 eCLIP:llä tunnistettua RBP:tä) kuin BRafilla (9 eCLIP:n RBP:tä, 6 yhteistä HSP70:n kanssa, Täydentävä kuva 9), mikä on täysin sopusoinnussa proteiinien rakenteeseen perustuvan vuorovaikutusominaisuuden kanssa. Kuvan 1b suuntauksen mukaisesti catRAPID osoittaa, että proteiineilla on suurempi taipumus sitoutua HSP70:ään kuin BRafiin (kuva 3f). Lisäksi hyvin strukturoitu HSP70 koodaa proteiinia, jolla on suurempi määrä vuorovaikuttajia (244 BioGRID-fysikaalista vuorovaikuttajaa), kun taas huonosti strukturoidulla BRafilla on proteiinituote, joka sitoutuu pienempään joukkoon molekyylejä (88 BioGRID-fysikaalista vuorovaikuttajaa). Havaintomme viittaavat siihen, että RNA, jolla on suuri määrä vuorovaikutussuhteita, on altis toimimaan verkoston säätelijänä: spekuloimme, että suuremman vuorovaikutteisuuden vuoksi HSP70-transkripti voisi toimia chaperonina kontekstista riippuen.
Hypoteesimme on siis, että strukturoitu RNA kykenee suuremman proteiinien vuorovaikutuspotentiaalinsa vuoksi vaikuttamaan proteiinien vuorovaikutusverkostoon enemmän kuin huonosti strukturoitu RNA. Proof-of-concept-kokeessa käytimme kemiallista yhdistettä, biotinyloitua isoksatsolia (b-isox) indusoidaksemme nestemäisestä kiinteään faasimuutoksen muodostumisen proteiinikokoonpanossa59,60, jota inkuboimme joko HS- (HSP70) tai LS- (BRaf) transkriptien kanssa (Kuva 4a ja Täydentävä kuva 10). Havaitsimme, että HS muutti proteiiniaggregaatin koostumusta enemmän kuin LS RNA (kuva 4b ja lisätiedot 5). Kun HS RNA:ta lisättiin, 29 proteiinin konsentraatiossa havaittiin merkittävä muutos (kuva 4c; 21 ”vapautunutta” joukkoa, mustat pisteet, ja 8 ”säilytettyä” joukkoa, punaiset pisteet kuvassa 4b), kun taas LS RNA:n tapauksessa tunnistettiin vain yhdeksän proteiinia. Näin ollen koostumus LS RNA:n läsnä ollessa pysyi samanlaisena kuin taustakontrollissa (’staattinen’ joukko, harmaat pisteet kuvassa 4b).
Johtopäätöksemme oli, että RNA:n kilpaileminen b-isox-saostuman kontaktiverkoston59,60 kanssa voi johtua joko suorista tai epäsuorista proteiinin ja RNA:n välisistä vuorovaikutussuhteista (kuva 5a). CatRAPID-ennusteet tukevat kuitenkin suoran vaikutuksen hypoteesia: kokeellisen tiukkuuden lisääminen (lisäkuva 11; menetelmät) liittyy myös teoreettisen ennustuskyvyn lisääntymiseen (kuva 5b). Aiemman RNA:n sitoutumispreferenssejä koskevan analyysimme mukaisesti HSP70-inkuboinnin yhteydessä vapautuvien proteiinien tulos on merkittävästi polarisoitunut (kuva 5c). Näin ollen kokeemme viittaa siihen, että RNA-molekyylien rakenteeseen perustuva proteiinien vuorovaikutteisuus on aktiivinen kaikilla tasoilla, mikä edistää yksittäisiä vuorovaikutuksia ja muuttaa kondensaattien koostumusta12 (Kuva 2e).