RNA:n rakenne ohjaa vuorovaikutusta proteiinien kanssa

heinä 29, 2021
admin

Suurirakenteiset RNA:t sitovat suuren määrän proteiineja

Tarkoituksenamme tutkia, miten RNA:n rakenne vaikuttaa proteiinien sitoutumiseen, mittasimme kaksisäikeisten alueiden määrän ihmisen transkriptomista8 (kuva 1a). Ryhmittelimme ensin RNA:t, jotka havaittiin tehostetun ristisidonnan ja immunoprecipitaation (eCLIP) menetelmällä30 , luokkiin ”RNA:n rakenteen rinnakkaisanalyysillä” (PARS)8 mitatun rakennesisällön perusteella (täydentävät kuvat 1a ja 1b). PARS on kokeellinen tekniikka, jossa RNA:n kaksi- ja yksisäikeiset alueet erotetaan toisistaan kahden entsyymin, RNaasi V1:n (pystyy leikkaamaan kaksisäikeisiä nukleotideja) ja S1:n (pystyy leikkaamaan yksisäikeisiä nukleotideja) katalyyttisen aktiivisuuden avulla. (1) menetelmissä)8. Tämän jälkeen käytimme catRAPID-ennusteita proteiini-RNA-vuorovaikutuksista (saatavilla RNAct-tietokannasta, joka sisältää sekä proteomin laajuisia että transkriptomin laajuisia laskelmia31) ja vertasimme eri ryhmien vuorovaikutuspistemääriä (HS, korkea rakenteellinen pitoisuus, vs. LS, matala rakenteellinen pitoisuus) (kuva 1b). CatRAPID-algoritmi32 arvioi sitoutumispotentiaalin sekä proteiini- että RNA-sekvenssien van der Waalsin, vetysidosten ja sekundäärirakenteiden ominaisuuksien avulla (yhteensä 10 ominaisuutta), mikä mahdollistaa sitoutumiskumppaneiden tunnistamisen suurella varmuudella. Kuten hiljattain tehdyssä noin puolen miljoonan kokeellisesti validoidun vuorovaikutuksen analyysissä31 todettiin, algoritmi pystyy erottelemaan vuorovaikutuksessa olevat ja ei-vuorovaikutuksessa olevat parit siten, että käyrän alle jäävän pinta-alan (AUC) vastaanottimen toimintaominaiskäyrän (ROC) arvo on 0,78 (väärien löydösten osuuden (FDR) ollessa huomattavasti alle 0,25, kun Z-arvot ovat >2). Rakenteeltaan erilaisten RNA-ryhmien vertailu osoittaa johdonmukaisen suuntauksen, jossa RNA-molekyylien suurempi rakenteellinen sisältö johtaa korkeampiin proteiinien vuorovaikutuspisteisiin (kuva 1b). PARS-tietojen osalta havaitsemme, että kaksisäikeisten alueiden määrä korreloi heikosti (<0,10; Pearson) RNA:n pituuden ja GC-pitoisuuden kanssa, mikä osoittaa, että nämä kaksi tekijää vaikuttavat positiivisesti sekundäärirakenteeseen lisäämällä konformaatiotilan kokoa sekä yleistä vakautta33.

Kuva 1
kuvio1

Proteiinirakenteen määrä korreloi vuorovaikutusten määrän kanssa. a Kumulatiivinen jakaumafunktio (Cumulative Distribution Function, CDF) kaikkien ihmisen RNA:iden sekundäärirakennepitoisuudelle mitattuna rinnakkaisanalyysillä RNA:n rakenteen analysoinnista (PARS)8,69. Pystysuorat viivat osoittavat tietyn osuuden (X %) RNA:ista, joiden sekundaaripitoisuus on alhaisin (LS; sininen), ja saman osuuden, jonka sekundaaripitoisuus on korkein (HS; vaaleanpunainen). b catRAPID-ennusteet proteiinien vuorovaikutuksista ihmisen RNA:iden kanssa PARS:llä mitatun rakennesisällön mukaan järjestettyinä (118 RNA:ta sitovaa proteiinia (RBP:tä), joista on saatavissa myös tehostettua ristiinsidonta- ja immunosakkautusta koskevat tiedot (eCLIP))31. Jakeet 10 %, 15 %, …, 50 % viittaavat samankokoisten HS- ja LS-joukkojen vertailuun. Tulokset osoittavat, että catRAPID pystyy erottamaan HS- ja LS-ryhmät toisistaan merkittävästi ja johdonmukaisesti eri fraktioiden avulla (p-arvo <10-16; Kolmogorov-Smirnovin (KS) testi). Laatikot kuvaavat interkvartiilialuetta (IQR), keskiviiva edustaa mediaania, vispilät lisäävät 1,5 kertaa IQR:n 75 persentiiliin (laatikon yläraja) ja vähentävät 1,5 kertaa IQR:n 25:stä persentiilistä (laatikon alaraja). s.d. on esitetty. c Proteiinien vuorovaikutusten lukumäärän (eCLIP) ja PARS30:llä mitatun rakenteellisen sisällön välinen suhde. Sovitusviiva vastaa kaavaa y = exp(α + βx), jossa α = -0,75; β = 0,67; p-arvo arvioitu KS-testillä. d Proteiinien vuorovaikutusten lukumäärän ja dimetyylisulfaattimodifikaatiolla (DMS)9 mitatun rakennesisällön välinen suhde. Sovitusviiva vastaa kaavaa y = 1/(α + βx), jossa α = 2,60; β = 87,36; p-arvo arvioitu KS-testillä. e RBP:iden rakenteelliset mieltymykset mitattuna kolmella eri CLIP-tekniikalla (valo-aktivoituvalla ribonukleosidivahvisteisella CLIP:llä (PAR-CLIP), korkean läpivirtaustehon sekvensointi-CLIP:llä (HITS-CLIP) ja yksilöllisen nukleotidiresoluution omaavalla CLIP:llä (iCLIP)). Väri ilmaisee kunkin proteiinin RNA-sitoutumispreferenssin: vaaleanpunainen, vahva rakenne; sininen, matala rakenne; harmaa, ei preferenssiä. f Kahdeksan transkriptin rakenteellisen sisällön (icSHAPE-kokeiden CROSS-ennusteet) ja proteiinimikroskooppien osoittamien proteiini-interaktioiden välinen korrelaatio (Pearsonin korrelaatio). s.d. on esitetty. g Proteiini-RNA-komplekseja sisältävien Protein Data Bank (PDB) -rakenteiden analyysi paljastaa trendin proteiinien (inter) ja RNA:n (intra) kontaktien välillä (196 eri paria; Pearsonin korrelaatio)

Toistimme analyysin toisiinsa liittymättömällä lähestymistavalla, RPISeq:llä, joka ennustaa proteiini-RNA-vuorovaikutukset käyttämällä sekvenssikaavoja nukleotidi- ja aminohapposekvensseissä11. RPISeq koostuu kahdesta tukivektorikoneisiin (RPISeq-SVM) ja satunnaismetsään (RPISeq-RF) perustuvasta menetelmästä. Erityisten laskennallisten vaatimusten vuoksi sovelsimme RPISeq:tä RBP-kokonaisuuteen (50 proteiinia, joiden sekvenssin samankaltaisuus on <0,85; http://cd-hit.org/) HS- ja LS-joukkoa vastaan rakennesisältöjakauman hännistä (100 transkriptiä) sitomistodennäköisyyksien arvioimiseksi (Supplementary Data 1). Molemmissa tapauksissa HS-joukon (RF 0,80, SVM 0,71) ennustetaan sitoutuvan merkitsevästi suuremmilla todennäköisyyksillä kuin LS-joukon (RF 0,70, SVM 0,54; p-arvo <10-5; Kolmogorov-Smirnovin (KS)-testi; Täydentävä kuva 1b-c), mikä on sopusoinnussa catRAPID-analyysin kanssa (kuva 1b). Näin ollen analyysimme viittaa siihen, että RNA:n rakennesisällöllä on vaikutusta vuorovaikutukseen proteiinien kanssa.

Voidaksemme sovittaa ennusteemme yhteen kokeellisten tietojen kanssa tutkimme kaikki RBP-RNA-vuorovaikutukset, jotka paljastuivat tehostetulla ristiinlinkkauksella ja immunoprecipitaatiolla (enhanced CrossLinking and ImmunoPrecipitation, eCLIP30 ) (118 RBP:tä; ks. Menetelmät). eCLIP tuottaa proteiinikontakteja kohderyhmänä olevilla RNA:illa yksilöllisellä nukleotidierottelukyvyllä, joka saavutetaan ligoimalla viivakoodattuja yksijuosteisia dna-adaptereita30. CatRAPID-ennusteiden31 (kuva 1b) mukaisesti eCLIP:n sitoutumispisteet korreloivat PARS-sekundäärirakenteen kanssa, mikä osoittaa, että RNA:n taipumus olla vuorovaikutuksessa proteiinien kanssa on verrannollinen transkriptomin laajuisesti mitatun rakenteen määrään (kuva 1c). Huomaamme, että CLIP-seq-menetelmät suosivat yleisesti yksijuosteisen (SS) RNA:n havaitsemista kaksijuosteisen (DS) RNA:n kustannuksella34 , ja eCLIP-tietokanta ei ole rikastunut kaksijuosteiseen RNA:han sitoutuvien proteiinien osalta (9 proteiinia 118:sta on määritetty UniProtin mukaan dsRNA:han sitoutuviksi ja 12 proteiinia 118:sta ssRNA:han sitoutuviksi, kun käytetään saatavilla olevia GO-annotaatioita35), mikä viittaa siihen, että analyysissämme käytetyt proteiinityypit eivät ole vääristelleet tuloksia.

Vahvistaaksemme edelleen, että suuntaus on aito eikä ainoastaan PARS-mittauksille ominainen, analysoimme koko ihmisen transkriptomin proteiinisidospotentiaalia dimetyylisulfaattimodifikaatiotekniikalla (DMS) mitattua RNA:n sekundäärirakennetta vasten (PARS:stä poiketen korkeat arvot merkitsevät yksisäikeisiä alueita; kuva 1d)9. Tässä RNA:n rakenteen arviointimenetelmässä käytetään syväsekvensointia parittomien adenosiini- ja sytidiininukleotidien havaitsemiseksi. Analyysi osoittaa jälleen kerran, että ihmisen transkriptien RNA:n sekundaarirakenne korreloi tiukasti proteiinien sitoutumiskykyyn.

Käytimme myös POSTAR-tietokantaa (joka sisältää >1000 CLIP-seq-tietosarjaa; http://lulab.life.tsinghua.edu.cn/postar/) hakiaksemme PAR-CLIP:llä, korkean läpimenon sekvensointi-CLIP:llä (Highthroughput sequencing-CLIP) (HITS-CLIP) ja yksilöllisen nukleotidiresoluution omaavalla CLIP:llä (individual nukleotide resolution CLIP, iCLIP) mitattujen ihmisproteiinien RNA:n sitoutumispreferenssejä (103 kokeilua; 85:85 erilaista RBPs:ä)10. CLIP-menetelmien (ja muiden tekijöiden, kuten käytettyjen solulinjojen) luontaisten erojen vuoksi kussakin kokeessa raportoidaan erilaisia proteiini-RNA-vuorovaikutuksia10. Silti 77 %:lla RBP:istä on ainakin yhdessä kokeellisessa menetelmässä (DMS tai PARS; kuva 1e) preferenssi erittäin strukturoituja RNA:ita kohtaan.

Kun otetaan huomioon korkean läpimenon kokeiden mahdolliset tekniset vääristymät, päätimme tarkistaa suuntauksen toistettavuuden tutkimalla RNA:n rakenteen ja proteiinien vuorovaikutusten välistä korrelaatiota matalan läpimenon analyyseissä. Tutkimme ensin kahdeksan suuren (>1000 nt) RNA:n interaktomia, joiden proteiinikumppanit on tunnistettu mikrosirujen avulla, ristisidoksettomalla lähestymistavalla21,36,37 (ks. Menetelmät). Samanaikaisesti arvioimme kunkin transkriptin rakenteellisen sisällön käyttämällä CROSS-algoritmia, joka oli aiemmin koulutettu SHAPE-datalla38 kaksisäikeisyysalttiuden ennustamiseksi nukleotiditason resoluutiolla. Kuvassa 1f esitetyt tuloksemme osoittavat, että hyvin strukturoiduilla transkripteillä on enemmän proteiinikontakteja kuin huonosti strukturoiduilla transkripteillä, mikä on täysin sopusoinnussa aiemmassa analyysissämme esitettyjen havaintojen kanssa (kuvat 1b-e).

Vahvistimme havaintomme tutkimalla Protein Data Bank (PDB) -tietokantaan talletettuja RNP-komplekseja (röntgentarkkuus <2 Å; Supplementary Data 2; ks. menetelmät), joka sisältää 196 erillistä RNA-proteiiniparia (>20 lajia), jotka on analysoitu eri tekniikoilla (pääasiassa röntgen- ja ydinmagneettiresonanssilla (NMR) eri laboratorioissa. Mittaamalla RNA:n sisäisen kosketuksen (eli RNA-rakenteen määrän) ja RNA:n välisen kosketuksen (eli aminohapon) määrää nukleotidiketjua kohti havaitsimme näiden kahden muuttujan välillä silmiinpistävän korrelaation 0,78, mikä antaa vakuuttavan todisteen niiden tiiviistä yhteydestä (kuva 1g; ks. yhtälöt (2) ja (3) menetelmissä).

Havaitsimme siis kokeesta (PARS, DMS, microarray, röntgen, NMR, eCLIP, PAR-CLIP, HITS-CLIP ja iCLIP), käytetyistä algoritmeista (catRAPID ja RPISeq tai CROSS SHAPE-datan jäljittelyyn) tai organismista (PDB-tietokanta) riippumatta korrelaation proteiinien vuorovaikutusten lukumäärän ja RNA:n rakenteellisen sisällön välillä.

RNA-tyyppien rakenteesta johtuva proteiinien vuorovaikutteisuus

Tutkimme seuraavaksi, onko sekundaarirakenteen ja proteiinien vuorovaikutusten määrän välinen tiukka yhteys tiettyjen RNA-tyyppien ominaisuus (kuva 2a). Tätä varten vertasimme sekvenssin samankaltaisuuden mukaan järjestettyjen transkriptien sekundäärirakennetta ja proteiinien vuorovaikutuksia CD-HIT-algoritmilla39 (http://cd-hit.org/). Kun kynnysarvona käytettiin 85 prosentin samankaltaisuutta, löysimme 22 klusteria (yhteensä 55 transkriptiä), joissa oli vähintään yksi eCLIP:n paljastama RBP-kontakti. Tämän jälkeen laskimme DMS-signaalin ja eCLIP-proteiini-interaktioiden välisen korrelaation kunkin klusterin osalta ja saimme negatiivisen korrelaation 64 prosentissa tapauksista. Tämä havainto osoittaa, että kahden samankaltaisen transkriptin välillä sillä, jonka rakenteellinen sisältö on suurempi, on todennäköisemmin suurempi määrä proteiini-interaktioita.

Kuva 2
kuvio2

RNA:n rakenteen ohjaaman proteiini-interaktiivisuuden funktionaaliset jalanjäljet. a Kaavio, jossa on esitetty molekyylinsisäisten ja molekyylitason välisten kontaktien rooli RNA-proteiinikompleksissa. Ylhäällä, intramolekulaariset kontaktit. Alhaalla molekyylien väliset kontaktit. Kontaktien lukumäärän vaihteluväli on merkitty sävyillä tummansinisestä (pienin) punaiseen (suurin). b Ylhäällä, rakennepitoisuus (dimetyylisulfaattimodifikaatio (DMS); p-arvo arvioitu KS-testillä). Alhaalla, Proteiinien vuorovaikutukset (tehostettu ristikytkentä ja immunoprecipitaatio (eCLIP) hemoglobiinin alayksikön γ1 (HBG1) (vaaleanpunainen) ja hemoglobiinin alayksikön γ2 (HBG2) (sininen) RNA:iden (99,3 % peräkkäistä identiteettiä); empiirinen p-arvo arvioitiin vertailemalla päällekkäisyyksiä 1000:n eCLIP:stä otetun näytteen päällekkäisyyksien kanssa, jotka on otettu RNA:ta sitovia proteiineja sitovista proteiineista (RNA-binding proteins, RBP). c RNA:n rakenteen (PARS) (vaaleanpunainen) ja DMS:n (sininen) rinnakkaisanalyysi eri RNA-tyyppien rakenteellisesta sisällöstä (Ensembl). d Vähiten ja eniten strukturoitujen RNA:iden (100 vähemmän strukturoitua (LS) vs. 100 paljon strukturoitua (HS) transkriptiä) vähiten ja eniten strukturoitujen RNA:iden (100 vähemmän strukturoitua (LS) vs. 100 paljon strukturoitua (HS) transkriptiota) yhdistettyjen geeniontologian termien semanttinen ryhmittely cleverGO:lla. e Yksittäisten RNA:iden analyysin avulla (Kuvat 1 ja 2b) havaitsimme rakennen sisällön olevan sidoksissa yhteistyökumppaneiden lukumäärään ja RNA:n toimintaan. Analyysimme osoittaa, että toiminnallisesti toisiinsa liittyvillä RNA:illa on samanlainen rakenteellinen sisältö (kuva 2c). Rakenteesta johtuva proteiinien interaktiivisuus on RNA:han liittyvä luontainen ominaisuus, joka voidaan jäljittää millä tahansa säätelytasolla. f Kullakin rivillä esitetään fysikaalis-kemiallisen ominaisuuden poistamisen aiheuttamat catRAPID-vuorovaikutusalttiudet13,32. α-kierteen (Chou) ja poolisuuden (Grantham) poistaminen vähentää kykyä erottaa HS ja LS (p-arvot arvioitu KS-testillä). g multicleverMachine-analyysi fysikaalis-kemiallisista ominaisuuksista kolmesta RBP-sarjasta ja proteiineista, jotka on noteerattu UniProtissa kaksisäikeisten RNA:iden (DS) tai yksisäikeisten RNA:iden (SS) sitojiksi (ks. menetelmät). ”Häiriöalttius” ja ”α-kierre” ovat ominaisuuksia, jotka osoittavat merkittävää eroa ja vastakkaisia tuloksia DS- ja SS-sitojien välillä vähintään kahdessa RBP-tietokannassa (sininen tai vaaleanpunainen väri osoittaa, että DS- tai SS-sitojia on rikastettu tai köyhdytetty; keltainen väri osoittaa, että joukkojen välillä ei ole merkittäviä eroja). Kohdissa b, c laatikot osoittavat kvartiilien välisen vaihteluvälin (IQR), keskiviiva edustaa mediaania, lovet mediaanin 95 prosentin luottamusväliä, viikset lisäävät 1,5 kertaa IQR:n 75 prosenttipisteeseen (laatikon yläraja) ja vähentävät 1,5 kertaa IQR:n 25 prosenttipisteestä (laatikon alaraja). S.d. on esitetty

Kaksi transkriptiä, joilla on suurin samankaltaisuus (99,31 %), ovat γ-globiinit HBG1 ja HBG2 (hemoglobiinin alayksiköt γ1 ja γ2), jotka ilmentyvät sikiön maksassa, pernassa ja luuytimessä (NCBI:n geenitunnus: 3048). Korkeamman rakenteen omaavalla γ-globiinivariantilla (HBG1) on huomattavasti enemmän proteiinien vuorovaikuttajia (HBG1, keskimääräinen DMS-signaali 0,04, 29 vuorovaikuttajaa; HBG2, keskimääräinen DMS-signaali 0,07, 14 vuorovaikuttajaa; p-arvo = 0,003; KS-testi; kuva 2b). Vaikka näiden kahden transkriptin nukleotidikoostumus pysyy lähes samana (HBG1: 280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), HBG1:n ja HBG2:n väliset erot keskittyvät alueille, joilla sekundaarirakenne on muuttunut (lisäkuva 2). Nämä tulokset osoittavat, että proteiinien vuorovaikutteisuus liittyy kiinteästi sekundäärirakenteen elementtien konformaatiomuutoksiin. Mielenkiintoista on, että HBG1:n lisääntyneeseen kaksoissäikeisyyspitoisuuteen, erityisesti 3′-UTR:ssä, liittyy translaation säätelyelementtien kasautuminen (kuva 2b) ja samanaikainen ekspression väheneminen (NCBI Gene ID: 3048).

Kysyimme tämän jälkeen, ovatko tietyt RNA:n rakenteet osallisina proteiinien säätelyssä. Jaoimme ihmisen transkriptomin eri luokkiin ja analysoimme niiden sekundaarirakennetta, joka havaittiin kahdella riippumattomalla kokeellisella tekniikalla, PARS:llä ja DMS:llä. Molemmat tekniikat osoittavat, että proteiineja koodaavilla RNA:illa on suurin rakennesisältö (kuva 2c, lisätaulukko 1)38. Vaikka osa mRNA:n rakenteesta on keskittynyt UTR:iin8 , kun ne jätetään pois, rakenteellisen sisällön jakauma ei muutu olennaisesti (Pearsonin korrelaatio transkriptien välillä, joissa on UTR:t ja joissa ei ole UTR:iä = 0,94; täydentävä kuva 3). RNA:t, joiden tiedetään olevan vuorovaikutuksessa proteiinien kanssa, kuten pienet nukleaariset RNA:t (snRNA:t)40 ja pienet nukleolaariset RNA:t (snoRNA:t)28, sisältävät eniten rakennetta, kun taas nukleiinihappojen komplementaarisiin alueisiin kohdistuvissa RNA:issa, kuten antisense-, miRNA:issa ja useissa pitkissä intergeenisissä, ei-koodaavissa RNA:issa (lincRNA:issa)41,42 rakenteen määrä on pienin43 (lisätaulukko 1).

Yhtäpitävästi kuin havaintojemme kanssa ovat myös Seemann ym. 12 havaitsivat aiemmin tiiviin yhteyden proteiinien sitoutumisen ja rakenneosien säilymisen välillä mRNA:ssa, jota esiintyy vähäisemmässä määrin pitkissä ei-koodaavissa RNA:issa12. Vaikka lincRNA:issa on vähemmän kaksisäikeisiä alueita (vähiten PARS:ssä, kolmanneksi vähiten DMS:ssä), toteamme, että jotkin niistä, kuten esimerkiksi NEAT144 ja XIST27, pystyvät rakenteellisten domeenien avulla rakentamaan proteiinien kokoonpanoa. Koska koodaavien ja ei-koodaavien transkriptien rakenteellisista eroista käydään jatkuvasti keskustelua45,46 ja koska DMS- ja PARS-tietojen analyysimme paljastaa ristiriitaisia tuloksia tiettyjen RNA-tyyppien osalta, ehdotamme jatkotutkimuksia tulevissa tutkimuksissa (kuva 2c; lisätaulukko 1).

Tutkiaksemme toiminnallisia eroja erittäin ja heikosti strukturoitujen RNA:iden välillä analysoimme vähiten ja eniten strukturoitujen RNA:iden (100 LS- vs. 100 HS- transkriptiä) kanssa assosioituneita GO-termejä cleverGO35-lähestymistavan avulla. Vaikka LS-joukkoon (14 ei-koodaavaa RNA:ta ja 86 mRNA:ta) ei liity erityisiä semanttisen samankaltaisuuden klustereita (yhteensä 36 termiä, joiden p-arvo on <0,05; Bonferronin testi), HS-joukkoon (100 mRNA:ta; yhteensä 395 termiä, joiden p-arvo on <0,05, ja 103 termiä, joiden p-arvo on <0,01; Bonferronin testi; kuvio 2d) sisältyy 20 erillistä klusteria. Klustereihin liittyvät viisi pääluokkaa, jotka kattavat vähintään neljänneksen merkinnöistä, ovat: (i) monimutkainen proteiinien säätely (49/103), (ii) nukleosidien aineenvaihduntaprosessi (39/103), (iii) soluvaste (29/103), (iv) geeniekspressio (29/103) ja (v) proteiinien kohdentaminen (28/103). Toistimme GO-termistöanalyysin myös käyttämällä taustana 25 prosenttia korkeammin ekspressoituneita transkriptejä ja saimme samankaltaisia tuloksia (K562-kannan GENCODE, Menetelmät, Täydentävä kuva 4).

Klusterianalyysi paljastaa kiehtovan havainnon siitä, että transkriptit, joilla on vahva rakenteellinen sisältö, ovat enemmän vuorovaikutuksessa polypeptidien kanssa ja koodaavat proteiineja, jotka osallistuvat säätelytoimintoihin ja monimutkaisten kontaktiverkostojen muodostamiseen. Kun otetaan huomioon RNA:n rakenteen ja proteiinivuorovaikutusten lukumäärän välinen suhde (kuva 1), yksi alustava tulkinta tuloksistamme on, että suuri määrä kontrollia vaaditaan geeneiltä, jotka koordinoivat suuren määrän soluverkostojen toimintaa47. Näin ollen analyysimme viittaa ”rekursiiviseen” ominaisuuteen: pitkälle kontaktoituneet transkriptit koodaavat pitkälle kontaktoituneita proteiineja (kuva 2e)20,48.

Rakenne- ja kierteisyys erottelevat dsRNA:n vs. ssRNA:n

Ymmärtääksemme RNA-molekyylien rakenteesta johtuvan vuorovaikutteisuuden molekulaarista perustaa analysoimme sitä, mitkä proteiinien fysikaalis-kemiallisista ominaisuuksista erottavat HS- ja LS-joukkueet toisistaan paremmin. Tutkimme kaikki 10 catRAPID-algoritmissa käytettyä muuttujaa (kuva 2f)13,32 ja poistimme ne yksi kerrallaan arvioidaksemme niiden vaikutusta RNA-proteiini-interaktioiden ennustamiseen. Havaitsimme, että kykyyn erottaa toisistaan vähiten ja eniten strukturoidut RNA:t (100 HS- ja LS-transkriptiota; Supplementary Data 3) -joukot vaikuttaa enemmän, kun polariteetti (p-arvo = 0,28; KS-testi) ja α-helikaalinen taipumus (p-arvo = 0,06; KS-testi) poistetaan (kuva 2f). Ominaisuus, joka vaikuttaa merkittävämmin HS:n sitoutumisalttiuteen, on poolisuus, joka on rikastunut rakenteellisesti epäjärjestyksessä olevissa proteiineissa49 ja korreloi vastakkaisesti hydrofobisuuden kanssa, joka on avainasemassa makromolekyylitunnistuksessa (lisätaulukko 2)50. Mitä tulee α-helikaaliseen taipumukseen, huomaamme, että kierteet ovat yleisimpiä rakenneosia, jotka osallistuvat kontaktien muodostamiseen kaksisäikeisten alueiden kanssa, ja niitä esiintyy dsRBD:ssä ja sinkkisormissa29 (lisätaulukko 3). Havaintomme viittaa mahdolliseen yhteisevoluutioon proteiinien ja RNA:iden välillä: samalla kun RNA omaksuu monimutkaisia muotoja paljastaakseen sitoutumisalueita, proteiinit muuttavat rakennesisältöään. Avainlukkoteorian51 kanssa sopusoinnussa ehdotamme, että luonnonvalinta suosii pitkälle rakennettuja RBP:itä dsRNA:iden vuorovaikuttajina.

Validoimme proteiinien napaisuuden ja kierteisen rakenteen merkityksen vertailemalla kolmea hyvin tutkittujen RBP:iden tietokokonaisuutta (ihmis- ja hiivasolujen)52,53,54 ja kahta UniProt-tietokannasta (kaikki organismit) haettua proteiinikokonaisuutta, jotka ovat joko yksinomaan ssRNA:ta sitovia proteiineja (453 proteiinia) tai dsRNA:ta sitovia proteiineja (390 proteiinia; täydentävä data 4). Biofysikaalisten ominaisuuksien analysointi cleverMachine-menetelmällä55 paljasti, että ssRNA-sitojien ja dsRNA-sitojien välillä on kaksi erilaista ominaisuutta: epäjärjestys ja α-helix-pitoisuus (kuva 2g). Näiden kahden joukon vertailu toisiinsa osoittaa, että hyvin strukturoitujen RNA:iden kanssa vuorovaikutuksessa olevat RBP:t ovat strukturoituneita ja hydrofobisia, kun taas epäjärjestyksessä olevat ja pooliset RBP:t assosioituvat vähemmän strukturoitujen RNA:iden kanssa (Täydentävä kuva 5). Näin ollen analyysimme laajentaa entisestään sitä, mitä aiemmin raportoitiin proteiini-proteiini-vuorovaikutusverkostoista, joissa rakenteellisesti epäjärjestyneillä alueilla on osoitettu olevan keskeinen rooli47 , ja ehdottaa uusia sääntöjä nukleotidien emäspareille aminohappojen kanssa.

RNA:n rakennesisällön ja proteiinikontaktien merkitys chaperoneissa

Ihmisen transkriptiomista ja eri organismeista tehty analyysi viittaa siihen, että hyvin strukturoidut RNA:t ovat taipuvaisia olemaan vuorovaikutuksessa polypeptidien kanssa, ja ne vuorostaan koodaavat valkuaisaineiden proteiineja, jotka ovat osallisina biologisissa prosesseissa, jotka liittyvät laajoihin ja monimutkaisiin kontaktiverkostoihin. Tutkiaksemme paremmin RNA-molekyylien rakenteesta johtuvaa proteiinien vuorovaikutteisuutta keskityimme transkriptien luokkaan, joka koodaa useiden kumppaneiden kanssa vuorovaikutuksessa olevia proteiineja. Luonnollinen valinta tähän analyysiin ovat molekulaariset chaperonit, koska ne edistävät taittumista natiiviin tilaan56 ja organisoivat vaiheittain erillisten RNP-kokoonpanojen kokoamista57 ja täyttävät siten kuvassa 2d esitetyn ”rekursiivisen” ominaisuuden. eCLIP-tiedot30 osoittavat, että suurin osa ihmisen chaperoneja koodaavista RNA:ista osallistuu vuorovaikutukseen useiden proteiinien kanssa (täydentävä kuva 6). Löysimme merkittävän korrelaation BioGRIDissä annotoitujen proteiini-RNA- ja proteiini-proteiini-interaktioiden välillä (kuva 3a). a Proteiinikapinoneita koodaavien RNA:iden kontaktit, mitattu tehostetulla ristiinlinkitys- ja immunoprecipitaatiolla (enhanced CrossLinking and ImmunoPrecipitation, eCLIP)30 , ja vastaavien koodattujen proteiinien fysikaaliset interaktiot, jotka on kerätty BioGRIDistä; p-arvo arvioitu KS-testillä. b RNA:n rakenteen rinnakkaisanalyysin (PARS) rakennesisällön ja BioGRIDistä kerättyjen koodattujen proteiinien fysikaalisten interaktioiden vertailu koko transkriptomille. Transkriptomi jaettiin viiteen peräkkäiseen sarjaan, jotka sisälsivät kukin 20 % transkriptomista. Sarjat valittiin niiden PARS-rakennesisällön perusteella, ja kunkin sarjan vaihteluväli vasemmalta oikealle on seuraava: -10,7-4,6; -4,6-3,1; -3,1-2,4; -2,4-1,9; -1,9-0,5. Viimeisessä boxplotissa esitetään BioGRIDistä haettujen fysikaalisten interaktoreiden lukumäärän jakauma chaperoniproteiiniperheelle (lämpösokkiproteiinit). c HS- (HSP70, vaaleanpunainen) ja LS- (BRaf, sininen) transkriptien sekundäärirakennepitoisuuden PARS-mittaus. Pystysuorat katkoviivat osoittavat translaatiota vailla olevat alueet (UTR). d HS- ja LS-transkriptien sekundäärirakenteen PARS-pitoisuus (p-arvo arvioitu KS-testillä). e Venn-diagrammi, joka osoittaa HS- ja LS-RNA:iden eCLIP:llä mitattujen proteiinien vuorovaikutusten päällekkäisyyden (empiirinen p-arvo <6 × 10-3; arvioitu vertaamalla eCLIP RBP:stä poimittujen sarjojen 1000 päällekkäisyyksien jakaumaan). f HS- ja LS-RNA:iden proteiinien sitoutumisalttiuden ennustaminen catRAPID:ia13,32 käyttäen (p-arvo arvioitu KS-testin avulla). Kohdissa b, d, f laatikot osoittavat kvartiilien välisen vaihteluvälin (IQR), keskiviiva edustaa mediaania, lovet mediaanin 95 prosentin luottamusväliä, viikset lisäävät 1,5 kertaa IQR:n 75 prosenttipisteeseen (laatikon yläraja) ja vähentävät 1,5 kertaa IQR:n 25 prosenttipisteestä (laatikon alaraja). S.d. on esitetty

Ymmärtääksemme, onko proteiini-proteiini- ja proteiini-RNA-vuorovaikutusten välinen korrelaatio yleinen ominaisuus vai pelkästään chaperoniperheen ominaisuus, analysoimme PARS-pistemäärien mukaan järjestetyn transkriptomin ja 24 mRNA:n, jotka koodaavat chaperoneja ja joista on saatavissa PARS-tiedot, välisiä vuorovaikutuksia (Genecards; https://www.genecards.org; ”HSPs”-joukko; Menetelmät, kuva 3b). Löysimme positiivisen korrelaation RNA:n rakenteen määrän ja koodattujen proteiinien BioGRID-interaktoreiden määrän välillä (täydentävä kuva 7a-b). Näin ollen laskelmamme ovat sopusoinnussa GO-analyysin kanssa (kuva 2d) ja viittaavat mRNA:n ja niiden koodaavien kumppaneiden väliseen suhteeseen: vahvasti strukturoidut RNA:t koodaavat vahvasti vuorovaikutuksessa olevia proteiineja.

Tähän mennessä esitetyt tiedot viittaavat siihen, että tyypiltään (esim. miRNA:t, snRNA:t) tai funktioltaan (esim. chaperoneja koodaavilla) sukulaisuuteen liittyvillä RNA:illa on samankaltaisia rakenteellisia piirteitä (kuva 2). Näin ollen pitäisi olla mahdollista arvioida eroja kahden toisiinsa liittymättömän transkriptin vuorovaikutusverkossa analysoimalla niiden rakenteellista sisältöä ja päinvastoin. Tämän hypoteesin testaamiseksi valitsimme erittäin rakenteellisen HSP70-transkriptin (HS RNA, PARS-pistemäärän log -1,3, joka vastaa 26:ta prosenttia kaksisäikeisestä sisällöstä, kuva 3c), joka koodaa chaperonia, joka on välttämätön proteiinikompleksien, kuten klatriinikatteiden58 ja stressirakeiden22,57, säätelyssä. Kontrolliksi valitsimme BRafia koodaavan RNA:n, joka on vähemmän strukturoitu (LS RNA, pistemäärä -2,8, mikä osoittaa PARS:n mukaan 6 % kaksisäikeistä pitoisuutta, kuva 3c-e) ja joka koodaa onkogeeniä, joka osallistuu kemiallisten signaalien välittämiseen solun ulkopuolelta tumaan (rakenteellinen vertailu on vahvistettu CROSS-ennusteilla ja DMS-kokeilla, kuten on esitetty täydentävässä kuvassa 3c-e). 8).

Havaitsimme, että HSP70:llä on suurempi määrä yhteistyökumppaneita (30 eCLIP:llä tunnistettua RBP:tä) kuin BRafilla (9 eCLIP:n RBP:tä, 6 yhteistä HSP70:n kanssa, Täydentävä kuva 9), mikä on täysin sopusoinnussa proteiinien rakenteeseen perustuvan vuorovaikutusominaisuuden kanssa. Kuvan 1b suuntauksen mukaisesti catRAPID osoittaa, että proteiineilla on suurempi taipumus sitoutua HSP70:ään kuin BRafiin (kuva 3f). Lisäksi hyvin strukturoitu HSP70 koodaa proteiinia, jolla on suurempi määrä vuorovaikuttajia (244 BioGRID-fysikaalista vuorovaikuttajaa), kun taas huonosti strukturoidulla BRafilla on proteiinituote, joka sitoutuu pienempään joukkoon molekyylejä (88 BioGRID-fysikaalista vuorovaikuttajaa). Havaintomme viittaavat siihen, että RNA, jolla on suuri määrä vuorovaikutussuhteita, on altis toimimaan verkoston säätelijänä: spekuloimme, että suuremman vuorovaikutteisuuden vuoksi HSP70-transkripti voisi toimia chaperonina kontekstista riippuen.

Hypoteesimme on siis, että strukturoitu RNA kykenee suuremman proteiinien vuorovaikutuspotentiaalinsa vuoksi vaikuttamaan proteiinien vuorovaikutusverkostoon enemmän kuin huonosti strukturoitu RNA. Proof-of-concept-kokeessa käytimme kemiallista yhdistettä, biotinyloitua isoksatsolia (b-isox) indusoidaksemme nestemäisestä kiinteään faasimuutoksen muodostumisen proteiinikokoonpanossa59,60, jota inkuboimme joko HS- (HSP70) tai LS- (BRaf) transkriptien kanssa (Kuva 4a ja Täydentävä kuva 10). Havaitsimme, että HS muutti proteiiniaggregaatin koostumusta enemmän kuin LS RNA (kuva 4b ja lisätiedot 5). Kun HS RNA:ta lisättiin, 29 proteiinin konsentraatiossa havaittiin merkittävä muutos (kuva 4c; 21 ”vapautunutta” joukkoa, mustat pisteet, ja 8 ”säilytettyä” joukkoa, punaiset pisteet kuvassa 4b), kun taas LS RNA:n tapauksessa tunnistettiin vain yhdeksän proteiinia. Näin ollen koostumus LS RNA:n läsnä ollessa pysyi samanlaisena kuin taustakontrollissa (’staattinen’ joukko, harmaat pisteet kuvassa 4b).

Kuva 4
kuva4

Rakenteistettu RNA vähentää proteiinien aggregaatiota in vitro. a Biotinyloidun isoksaatsolin (b-isox) aiheuttama aggregaatio HeLa-proteiinilysaatista in vitro. Vasemmalla, Coomassie-värjätyt geelit, kuvassa yksi edustava koe (rajaamattomat geelit on esitetty lisäkuvassa 10). Keskellä, aggregoituneen proteiinin intensiteetti kvantifioitiin ja ero arvioitiin käyttämällä kaksinapaista t-testiä (p = 1 ×1 0-3; N = 3 biologista toistoa, jotka on esitetty kuvassa pisteinä). S.d. on esitetty. Oikealla, koejärjestely. Aggregaation tehokkuutta testattiin vertaamalla syntynyttä sakkaa b-isoxin läsnäollessa tai puuttuessa, tämä on merkitty vastaavasti a+ tai a-. b Volcano-diagrammit osoittavat yksittäisten proteiinien rikastumisen p-arvot (Perseus-mitta) b-isox-aggregaatiossa (N = 4 riippumatonta biologista toistoa). Tilastollisen merkitsevyyden kynnys on merkitty vaakasuoralla viivalla (ks. myös Supplementary Data 5). Mustat pisteet ovat proteiineja, joiden pitoisuus pieneni merkittävästi RNA-inkuboinnin jälkeen. Punaiset pisteet ovat proteiineja, joiden pitoisuus on noussut merkittävästi RNA-inkuboinnin jälkeen. c Korkearakenteisen (HS) RNA:n vaikutuksen alaisina olevien proteiinien värikoodatut merkinnättömän kvantitatiivisen määrityksen (LFQ) intensiteetit asteikolla mustasta (matala) punaiseen (korkea). Hierarkkinen klusterointi Perseuksen avulla on merkitty. Vertailun vuoksi on piirretty myös samojen proteiinien LFQ-intensiteetit kontrollissa ja LS-RNA:n läsnä ollessa

Johtopäätöksemme oli, että RNA:n kilpaileminen b-isox-saostuman kontaktiverkoston59,60 kanssa voi johtua joko suorista tai epäsuorista proteiinin ja RNA:n välisistä vuorovaikutussuhteista (kuva 5a). CatRAPID-ennusteet tukevat kuitenkin suoran vaikutuksen hypoteesia: kokeellisen tiukkuuden lisääminen (lisäkuva 11; menetelmät) liittyy myös teoreettisen ennustuskyvyn lisääntymiseen (kuva 5b). Aiemman RNA:n sitoutumispreferenssejä koskevan analyysimme mukaisesti HSP70-inkuboinnin yhteydessä vapautuvien proteiinien tulos on merkittävästi polarisoitunut (kuva 5c). Näin ollen kokeemme viittaa siihen, että RNA-molekyylien rakenteeseen perustuva proteiinien vuorovaikutteisuus on aktiivinen kaikilla tasoilla, mikä edistää yksittäisiä vuorovaikutuksia ja muuttaa kondensaattien koostumusta12 (Kuva 2e).

Kuva. 5
kuvio5

Vuorovaikutukset ribonukleoproteiinikondensaatin sisällä. a Proteiinien irtoaminen biotinyloidusta isoksatsoli-kokoonpanosta (biotinylated isoxazole (b-isox)) voi olla seurausta: (1) epäsuorasta prosessista, joka johtuu RNA:n ja proteiinikokoonpanon välisestä vuorovaikutuskilpailusta, tai (2) suorasta prosessista, joka johtuu proteiinien sitomisesta RNA:han. b catRAPIDin suorituskyky paranee b-isox-kokeiden ankaruuden myötä (menetelmät), mikä viittaa korkearakenteisella (HS) RNA:lla pelastettujen proteiinien suoraan rekrytointiin. Väärien löydösten määrä (false discovery rate, FDR) muuttuu erittäin merkittäväksi tiukimmassa koejoukossa (FDR = 0,1). c ”Vapautetut” proteiinit (musta laatikko) ovat vähemmän polaarisia kuin ”staattiset” proteiinit (harmaa laatikko), mikä on sopusoinnussa laskennallisen analyysimme kanssa (p-arvo = 4,7 × 10-2, p-arvo arvioitu KS-testin avulla; ks. myös kuvat 2f, g). Vapautuneet ja staattiset proteiinit vastaavat kuvan 4b oikean paneelin mustia ja harmaita pisteitä. Laatikot kuvaavat kvartiilien välistä vaihteluväliä (IQR), keskiviiva edustaa mediaania, lovet mediaanin 95 prosentin luottamusväliä, viikset lisäävät 1,5 kertaa IQR:n 75 prosenttipisteeseen (laatikon yläraja) ja vähentävät 1,5 kertaa IQR:n 25 prosenttipisteestä (laatikon alaraja). S.d. on esitetty

Vastaa

Sähköpostiosoitettasi ei julkaista.