RNA-struktur styr interaktion med proteiner

jul 29, 2021
admin

Högstrukturerade RNA binder en stor mängd proteiner

För att studera hur RNA-strukturen påverkar proteinbindningen mätte vi mängden dubbelsträngade regioner i det mänskliga transkriptomet8 (fig. 1a). Vi grupperade först RNA:erna, som upptäcktes med hjälp av eCLIP-metoden (enhanced crosslinking and immunoprecipitation) 30, i klasser baserade på det strukturella innehållet som mättes med hjälp av ”parallell analys av RNA-struktur” (PARS)8 (kompletterande fig. 1a och fig. 1b). PARS är en experimentell teknik som skiljer mellan dubbel- och enkelsträngade regioner av RNA med hjälp av den katalytiska aktiviteten hos två enzymer, RNas V1 (som kan skära dubbelsträngade nukleotider) och S1 (som kan skära enkelsträngade nukleotider), och för vilka positiva poäng indikerar dubbelsträngade regioner (se Eq. (1) i Metoder)8. Vi använde sedan catRAPID-prediktioner av protein-RNA-interaktioner (tillgängliga från RNAct-databasen som innehåller både proteomövergripande och transkriptomövergripande beräkningar31) och jämförde interaktionspoängen för olika grupper (HS, högt strukturellt innehåll, jämfört med LS, lågt strukturellt innehåll) (fig. 1b). Algoritmen catRAPID32 uppskattar bindningspotentialen genom van der Waals-, vätebindnings- och sekundärstrukturpropensitivitet för både protein- och RNA-sekvenser (totalt 10 egenskaper), vilket gör det möjligt att identifiera bindningspartners med hög säkerhet. Som rapporterats i en nyligen genomförd analys av cirka en halv miljon experimentellt validerade interaktioner31 kan algoritmen skilja interagerande respektive icke-interagerande par med en area under kurvan (AUC) på 0,78 (med en false discovery rate (FDR) som är betydligt lägre än 0,25 när Z-score-värdena är >2). Jämförelse av RNA-grupper med olika strukturellt innehåll visar en konsekvent trend där högre strukturellt innehåll i RNA-molekyler resulterar i högre poäng för proteininteraktion (fig. 1b). När det gäller PARS-data noterar vi att mängden dubbelsträngade regioner korrelerar svagt (<0,10; Pearsons) med RNA-längd och GC-innehåll, vilket tyder på att dessa två faktorer bidrar positivt till sekundärstrukturen genom att öka storleken på konformationsutrymmet samt den övergripande stabiliteten33.

Figur 1
figur1

Mängden proteinstruktur korrelerar med antalet interaktioner. a Kumulativ fördelningsfunktion (CDF) för sekundärstrukturinnehållet i alla humana RNA:s mätt genom parallell analys av RNA-struktur (PARS)8,69. Vertikala linjer anger en viss fraktion (X %) av RNA med det lägsta sekundära innehållet (LS; blått) och samma fraktion med det högsta sekundära innehållet (HS; rosa). b catRAPID-prediktioner av proteininteraktioner med humana RNA rangordnade efter det strukturella innehållet mätt med PARS (118 RNA-bindande proteiner (RBP) för vilka information om förstärkt korskoppling och immunoprecipitering (eCLIP) också är tillgänglig)31. Fraktionerna 10 %, 15 %, …, 50 % avser jämförelsen mellan lika stora HS- och LS-uppsättningar. Resultaten visar att catRAPID kan särskilja HS- och LS-grupper signifikant och konsekvent genom de olika fraktionerna (p-värde <10-16; Kolmogorov-Smirnov (KS)-test). Ringarna visar interkvartilintervallet (IQR), den centrala linjen representerar medianen, whiskers adderar 1,5 gånger IQR till 75-percentilen (övre gräns i rutan) och subtraherar 1,5 gånger IQR från 25-percentilen (nedre gräns i rutan). s.d. visas. c Sambandet mellan antalet proteininteraktioner (eCLIP) och det strukturella innehållet mätt med PARS30. Anpassningslinjen motsvarar formeln y = exp(α + βx), där α = -0,75; β = 0,67; p-värde uppskattat med KS-test. d Förhållandet mellan antalet proteininteraktioner och strukturellt innehåll mätt med dimetylsulfatmodifiering (DMS)9. Anpassningslinjen motsvarar formeln y = 1/(α + βx), där α = 2,60; β = 87,36; p-värde uppskattat med KS-test. e Strukturella preferenser hos RBP:er mätt med tre olika CLIP-tekniker (fotoaktiverbar ribonukleosidförstärkt CLIP (PAR-CLIP), sekvenserings-CLIP med högt genomflöde (HITS-CLIP) och CLIP med individuell nukleotidupplösning (iCLIP)). Färgen anger RNA-bindningspreferensen för varje protein: rosa, hög strukturerad, blå, låg strukturerad, grå, ingen preferens. f Korrelation mellan strukturellt innehåll (CROSS-prediktioner från icSHAPE-experiment) och proteininteraktioner för åtta transkript som avslöjats med hjälp av proteinmikroarrayer (Pearsons korrelation). s.d. visas. g Analys av strukturer från Protein Data Bank (PDB) som innehåller protein-RNA-komplex avslöjar en trend mellan protein (inter) och RNA (intra) kontakter (196 olika par; Pearsons korrelation)

Vi upprepade analysen med ett obesläktat tillvägagångssätt, RPISeq, som förutspår protein-RNA-interaktioner med hjälp av sekvensmönster i nukleotid- och aminosyrasekvenser11. RPISeq består av två metoder baserade på stödvektormaskiner (RPISeq-SVM) och slumpmässig skog (RPISeq-RF). På grund av specifika beräkningskrav tillämpade vi RPISeq på en ensemble av RBP:er (50 proteiner med sekvenslikhet <0,85; http://cd-hit.org/) mot HS- och LS-uppsättningen från svansarna i fördelningen av strukturinnehållet (100 transkript) för att uppskatta bindningssannolikheterna (Supplementary Data 1). I båda fallen förutses HS-uppsättningen (RF 0,80, SVM 0,71) binda med betydligt högre sannolikhet än LS-uppsättningen (RF 0,70, SVM 0,54; p-värde <10-5; Kolmogorov-Smirnov (KS)-test; kompletterande figur 1b-c), i överensstämmelse med catRAPID-analysen (figur 1b). Vår analys tyder alltså på att RNA-strukturens innehåll har effekt på interaktionen med proteiner.

För att matcha våra förutsägelser med experimentella data undersökte vi alla RBP-RNA-interaktioner som avslöjats genom förstärkt korslänkning och immunoutfällning, eCLIP30 (118 RBP:er; se Metodik). eCLIP ger proteinkontakter på mål-RNA:er med en individuell nukleotidupplösning genom ligering av streckkodade enkelsträngade DNA-adaptrar30. I överensstämmelse med catRAPID-prediktioner31 (fig. 1b) korrelerar eCLIP-bindningspoängen med PARS sekundärstruktur, vilket tyder på att RNA:s benägenhet att interagera med proteiner står i proportion till mängden struktur som mäts i hela transkriptomet (fig. 1c). Vi noterar att CLIP-seq-metoderna i allmänhet gynnar detektion av enkelsträngat (SS) RNA på bekostnad av dubbelsträngat (DS) RNA34 och eCLIP-datasetet är inte anrikat på dubbelsträngat RNA-bindande proteiner (9 av 118 tilldelas enligt UniProt som dsRNA-bindande, 12 av 118 som ssRNA-bindande, med hjälp av tillgängliga GO-annotationer35), vilket tyder på att våra resultat inte är snedvridna av de proteintyper som används i vår analys.

För att ytterligare bekräfta att trenden är äkta och inte bara inneboende i PARS-mätningarna analyserade vi den proteininteragerande potentialen för hela det mänskliga transkriptomet mot RNA:s sekundärstruktur som mäts med dimetylsulfatmodifieringstekniken (DMS) (till skillnad från PARS indikerar höga värden enkelsträngade regioner; Fig. 1d)9. Denna metod för att bedöma RNA-strukturen använder djup sekvensering för att upptäcka oparade adenosin- och cytidinnukleotider. Ännu en gång visar analysen att RNA-sekundärstrukturen hos de mänskliga transkriptionerna är nära korrelerad med förmågan att binda proteiner.

Vi använde också POSTAR-databasen (som innehåller >1000 CLIP-seq-dataset; http://lulab.life.tsinghua.edu.cn/postar/) för att hämta RNA-bindningspreferenserna för humana proteiner (103 experiment, 85 olika RBP:er) som mättes med PAR-CLIP, high-throughput sequencing-CLIP (HITS-CLIP) och CLIP med upplösning av enskilda nukleotider (iCLIP)10 . På grund av inneboende skillnader i CLIP-metoderna (och andra faktorer, t.ex. de använda cellinjerna) rapporterar varje experiment olika protein-RNA-interaktioner10. Ändå har 77 % av RBP:erna preferens för högstrukturerade RNA:er för åtminstone en av de experimentella metoderna (DMS eller PARS; fig. 1e).

Med tanke på möjliga tekniska bias i höggenomströmningsexperiment bestämde vi oss för att verifiera reproducerbarheten av trenden genom att undersöka korrelationen mellan RNA-struktur och proteininteraktioner i låggenomströmningsanalyser. Vi studerade först interactomet av åtta stora (>1000 nt) RNA vars proteinpartners har identifierats genom mikroarray, en tvärbindningsfri metod21,36,37 (se metoder). Parallellt uppskattade vi det strukturella innehållet i varje transkript med hjälp av CROSS-algoritmen som tidigare tränats på SHAPE-data38 för att förutsäga den dubbelsträngade benägenheten på upplösning på nukleotidnivå. Våra resultat som presenteras i fig. 1f visar att högt strukturerade transkript har fler proteinkontakter än dåligt strukturerade transkript, vilket är helt förenligt med de resultat som presenterades i vår tidigare analys (fig. 1b-e).

Vi bekräftade våra observationer genom att studera RNP-komplex som deponerats i databasen Protein Data Bank (PDB) (röntgenupplösning <2 Å; Supplementary Data 2; se Metoder), som består av 196 distinkta RNA-proteinkomplex (>20 arter) som har analyserats med olika tekniker (främst röntgen och nukleär magnetisk resonans (NMR)) av olika laboratorier. Genom att mäta mängden RNA intrakontakt (dvs. mängden RNA-struktur) och interkontakt (dvs. aminosyra) per nukleotidkedja fann vi en slående korrelation på 0,78 mellan de två variablerna, vilket är ett övertygande bevis för att de står i nära relation till varandra (fig. 1g; se ekvationerna (2) och (3) i metoderna).

Oavsett experiment (PARS, DMS, mikroarray, röntgen, NMR, eCLIP, PAR-CLIP, HITS-CLIP och iCLIP), de använda algoritmerna (catRAPID och RPISeq eller CROSS för att efterlikna SHAPE-data) eller organismen (PDB-databasen) fann vi alltså en korrelation mellan antalet proteininteraktioner och RNA:s strukturinnehåll.

Den strukturdrivna proteininteraktiviteten hos RNA-typer

Vi undersökte därefter om den snäva kopplingen mellan sekundärstruktur och antalet proteininteraktioner är en egenskap hos specifika RNA-typer (fig. 2a). I detta syfte jämförde vi sekundärstrukturen och proteininteraktionerna hos transkript som rangordnats efter sekvenslikhet med hjälp av CD-HIT-algoritmen39 (http://cd-hit.org/). Med en tröskel på 85 % likhet hittade vi 22 kluster (totalt 55 transkript) med minst en RBP-kontakt som avslöjats av eCLIP. Vi beräknade sedan korrelationen mellan DMS-signalen och eCLIP-proteininteraktioner för varje kluster och fick en negativ korrelation i 64 % av fallen. Detta resultat indikerar att mellan två liknande transkriptioner är det troligare att den med högre strukturellt innehåll har ett större antal proteininteraktioner.

Fig. 2
figure2

Funktionella fotavtryck av RNA-strukturdriven proteininteraktivitet. a Schema som visar rollen för intra- och intermolekylära kontakter i ett RNA-proteinkomplex. Överst, intramolekylära kontakter. Nederst, intermolekylära kontakter. Antalet kontaktområden anges med nyanser från mörkblått (lägst) till rött (högst). b Uppåt, strukturellt innehåll (dimetylsulfatmodifiering (DMS); p-värde uppskattat med KS-test). Nedre, Proteininteraktioner (förstärkt korslänkning och immunoutfällning (eCLIP) av hemoglobinunderenhet γ1 (HBG1) (rosa) och hemoglobinunderenhet γ2 (HBG2) (blå) RNA (99,3 % sekventiell identitet); det empiriska p-värdet uppskattades genom att jämföra överlappningen med överlappningen av 1 000 prover tagna från eCLIP RNA-bindande proteiner (RBP). c Parallell analys av RNA-struktur (PARS) (rosa) och DMS (blå) strukturellt innehåll av olika RNA-typer (Ensembl). d Semantisk gruppering av genontologiska termer som är associerade med de minst och mest strukturerade RNA:erna (100 mindre strukturerade (LS) jämfört med 100 högstrukturerade (HS) transkriptioner) med hjälp av cleverGO. e Genom analysen av enskilda RNA:er (fig. 1 och 2b) fann vi att det strukturella innehållet är kopplat till antalet partners och funktionen hos ett RNA. Vår analys visar att funktionellt besläktade RNA:er har liknande strukturellt innehåll (fig. 2c). Den strukturdrivna proteininteraktiviteten är en inneboende egenskap som är förknippad med RNA:t och som kan spåras på alla regleringsnivåer. f Varje rad visar catRAPID-interaktionspropensitiviteten som orsakas av att man tar bort en fysikalisk-kemisk egenskap13,32. Borttagandet av α-helix (Chou) och polaritet (Grantham) minskar förmågan att skilja mellan HS och LS (p-värden uppskattade med KS-test). g multicleverMachine-analys av de fysikalisk-kemiska egenskaperna hos tre RBP-uppsättningar och proteiner som är annoterade i UniProt som bindare av dubbelsträngade RNA:er (DS) eller enkelsträngade RNA:er (SS) (se metoder). ’Disorder propensity’ och ’α-helix’ är de egenskaper som visar signifikant skillnad och motsatta resultat mellan DS- och SS-bindare för minst två RBP-databaser (blått eller rosa indikerar att DS eller SS är anrikade eller utarmade; gult indikerar inga signifikanta skillnader mellan uppsättningarna). I b och c visar rutorna interkvartilintervallet (IQR), den centrala linjen representerar medianen, inskärningarna 95 % konfidensintervallet för medianen, whiskrarna adderar 1,5 gånger IQR till 75-percentilen (övre gräns i rutan) och subtraherar 1,5 gånger IQR från 25-percentilen (nedre gräns i rutan). S.d. visas

De två transkriptioner som har störst likhet (99,31 %) är γ-globinerna HBG1 och HBG2 (hemoglobin-underenheterna γ1 och γ2) som uttrycks i fosterlever, mjälte och benmärg (NCBI Gene ID: 3048). γ-globinvarianten med högre struktur (HBG1) har ett betydligt större antal proteininteraktörer (HBG1, genomsnittlig DMS-signal på 0,04, 29 interaktörer; HBG2, genomsnittlig DMS-signal på 0,07, 14 interaktörer; p-värde = 0,003; KS-test; fig. 2b). Medan nukleotidkompositionen för de två transkriptionerna förblir nästan densamma (HBG1:280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a) är skillnaderna mellan HBG1 och HBG2 koncentrerade till regioner där den sekundära strukturen är förändrad (kompletterande fig. 2). Dessa resultat tyder på att proteininteraktivitet är nära förknippad med konformationsförändringar i sekundärstrukturelement. Intressant nog åtföljs det ökade innehållet av dubbelsträngar i HBG1, särskilt i 3′-UTR, av en ackumulering av translationsreglerande element (fig. 2b) och en samtidig minskning av uttrycket (NCBI Gene ID: 3048).

Vi undrade sedan om specifika RNA-strukturer är involverade i proteinregleringen. Vi delade in det mänskliga transkriptomet i olika klasser och analyserade deras sekundärstrukturer som upptäcktes med två oberoende experimentella tekniker, PARS och DMS. Båda teknikerna visar att proteinkodande RNA har det största strukturinnehållet (fig. 2c, kompletterande tabell 1)38. Även om en del av mRNA-strukturen är koncentrerad till UTR:erna8 ändras inte strukturinnehållets fördelning väsentligt när dessa utesluts (Pearsons korrelation mellan transkript med och utan UTR:er = 0,94; kompletterande figur 3). De RNA som är kända för att interagera med proteiner, t.ex. små nukleära RNA (snRNA)40 och små nukleolära RNA (snoRNA)28, uppvisar den högsta mängden struktur, medan RNA som är inriktade på komplementära regioner i nukleinsyror, t.ex. antisense, miRNA och ett antal långa intergena icke-kodande RNA (lincRNA)41,42, uppvisar den minsta mängden struktur43 (kompletterande tabell 1).

I överensstämmelse med våra resultat har Seemann et al.12 tidigare observerat ett nära samband mellan proteinbindning och bevarande av strukturella element i mRNA, vilket förekommer i mindre utsträckning i långa icke-kodande RNA12. Även om lincRNAs uppvisar en lägre mängd dubbelsträngade regioner (lägst i PARS, tredje lägst i DMS) noterar vi att vissa av dem, som till exempel NEAT144 och XIST27, kan ställa in proteinsammansättning genom strukturerade domäner. Eftersom det pågår en debatt om de strukturella skillnaderna mellan kodande och icke-kodande transkript45,46 och vår analys av DMS- och PARS-data avslöjar motstridiga resultat för specifika RNA-typer, föreslår vi ytterligare undersökningar i framtida studier (fig. 2c; kompletterande tabell 1).

För att undersöka de funktionella skillnaderna mellan hög- och dåligt strukturerade RNA:er analyserade vi GO-termer som var associerade med de minst och mest strukturerade RNA:erna (100 LS vs. 100 HS-transkriptioner) med hjälp av cleverGO35-metoden. Medan LS-uppsättningen (14 icke-kodande RNA:er och 86 mRNA:er) inte är förknippad med specifika semantiska likhetskluster (totalt 36 termer med p-värde <0,05; Bonferroni-test), omfattar HS-uppsättningen (100 mRNA:er; totalt 395 termer med p-värde <0,05 och 103 termer med p-värde <0,01; Bonferroni-test; Fig. 2d) 20 tydliga kluster. De fem huvudkategorier som är förknippade med klustren och som täcker minst en fjärdedel av posterna är följande: (i) komplex proteinreglering (49/103), (ii) nukleosidmetabolisk process (39/103), (iii) cellulär respons (29/103), (iv) genuttryck (29/103) och (v) proteinriktning (28/103). Vi upprepade också GO-termsanalysen med de 25 % högre uttryckta transkriptionerna som bakgrund och fick liknande resultat (K562 stam GENCODE, metoder, kompletterande figur 4).

Klusteranalysen avslöjar det fascinerande resultatet att transkriptioner med starkt strukturellt innehåll interagerar mer med polypeptider och kodar för proteiner som är involverade i reglerande funktioner och i bildandet av komplexa kontaktnätverk. Med tanke på förhållandet mellan RNA-struktur och antalet proteininteraktioner (fig. 1) är en preliminär tolkning av våra resultat att det krävs en hög grad av kontroll för gener som samordnar aktiviteten i ett stort antal cellulära nätverk47. Vår analys tyder således på en ”rekursiv” egenskap: transkript med hög kontaktkod kodar för proteiner med hög kontaktkod (fig. 2e)20,48.

Ordning och helix skiljer dsRNA från ssRNA

För att förstå den molekylära grunden för RNA-molekylers strukturdrivna interaktivitet analyserade vi vilka fysikalisk-kemiska egenskaper hos proteinerna som bättre skiljer HS- och LS-uppsättningarna åt. Vi studerade alla tio variabler som används i catRAPID-algoritmen (fig. 2f)13,32 och tog bort dem en efter en för att uppskatta effekten på förutsägelsen av RNA-proteininteraktioner. Vi fann att förmågan att skilja mellan de minst och mest strukturerade RNA-uppsättningarna (100 HS- och LS-transkripter; Supplementary Data 3) påverkas mer när polariteten (p-värde = 0,28; KS-test) och α-helikala benägenheten (p-värde = 0,06; KS-test) tas bort (fig. 2f). Den egenskap som mer signifikant påverkar HS-bindningsbenägenheten är polaritet, som är berikad i strukturellt oordnade proteiner49 och antikorrelerar med hydrofobicitet som är nyckeln till makromolekylärt igenkännande (kompletterande tabell 2)50 . När det gäller den α-helikala benägenheten noterar vi att spiralerna är de mest frekventa strukturella elementen som är involverade i bildandet av kontakter med dubbelsträngade regioner och förekommer i dsRBD och zinkfingrar29 (kompletterande tabell 3). Vår observation tyder på en möjlig samevolution mellan proteiner och RNA: medan RNA antar komplexa former för att exponera bindningsregioner ändrar proteiner sitt strukturella innehåll. I överensstämmelse med teorin om nyckellås51 föreslår vi att det naturliga urvalet gynnar högt strukturerade RBP:er som interagerare av dsRNA:er.

Vi validerade betydelsen av proteinpolaritet och spiralformad struktur genom att jämföra tre dataset med välstuderade RBP:er (människa och jäst)52,53,54 och två uppsättningar av proteiner hämtade från UniProt (alla organismer) som antingen uteslutande ssRNA-bindare (453 proteiner) eller dsRNA-bindare (390 proteiner; kompletterande data 4). Analys av biofysiska egenskaper med cleverMachine-metoden55 visade att ssRNA-bindare och dsRNA-bindare skiljer sig åt när det gäller två egenskaper: oordning och α-helixinnehåll (fig. 2g). Jämförelsen av de två uppsättningarna, den ena mot den andra, visar att RBP:er som interagerar med starkt strukturerade RNA:er är strukturerade och hydrofoba, medan oordnade och polära RBP:er associerar sig med mindre strukturerade RNA:er (kompletterande figur 5). Således utökar vår analys ytterligare vad som tidigare rapporterats för protein-proteininteraktionsnätverk, där strukturellt oordnade regioner har visat sig spela en central roll47 , och föreslår nya regler för nukleotidbasparning med aminosyror.

RNA:s strukturinnehåll och proteinkontakt i chaperoner

Analysen av människans transkriptom och i alla organismer tyder på att högt strukturerade RNA:er har en benägenhet att interagera med polypeptider och i sin tur kodar för proteiner som är involverade i biologiska processer som är förknippade med stora och komplexa kontaktnätverk. För att bättre undersöka den strukturdrivna proteininteraktiviteten hos RNA-molekyler fokuserade vi på en klass av transkript som kodar för proteiner som interagerar med flera partners. Det naturliga valet för denna analys är de molekylära chaperonerna, eftersom de främjar veckning till det nativa tillståndet56 och organiserar sammansättningen av fasseparerade RNP-assembler57 , vilket uppfyller den ”rekursiva” egenskapen som presenteras i figur 2d. eCLIP-data30 visar att de flesta av de RNA som kodar för humana chaperoner är involverade i interaktioner med flera proteiner (kompletterande figur 6). Vi fann en signifikant korrelation mellan protein-RNA- och protein-proteininteraktioner som annoterats i BioGRID (fig. 3a). Detta resultat bekräftar att transkript som binds av många RBP:er också kodar för proteiner med hög kontaktyta.

Fig. 3
figure3

Samband mellan RNA-struktur och proteinkontakter för chaperoner. a Kontakter mellan RNA som kodar för proteinkaperoner, mätt med förstärkt korslänkning och immunoutfällning (eCLIP)30 , och fysiska interaktioner för motsvarande kodade proteiner, insamlade från BioGRID; p-värde uppskattat med KS-test. b Jämförelse mellan parallell analys av RNA-struktur (PARS) strukturellt innehåll och fysiska interaktioner för kodade proteiner, insamlade vid BioGRID, för hela transkriptomet. Transkriptomet delades upp i fem på varandra följande uppsättningar som innehöll vardera 20 % av transkriptomet. Uppsättningarna valdes ut med hänsyn till deras PARS-strukturinnehåll, och intervallet för varje uppsättning från vänster till höger är följande: -10,7 till -4,6; -4,6 till -3,1; -3,1 till -2,4; -2,4 till -1,9; -1,9 till -0,5. Den sista boxplotten visar fördelningen av antalet fysiska interaktörer som hämtas från BioGRID för chaperonproteinfamiljen (värmechockproteiner). c PARS-mätning av sekundärstrukturinnehållet i HS (HSP70, rosa) och LS (BRaf, blå) transkriptioner. Vertikala streckade linjer anger otranslaterade regioner (UTR). d PARS sekundärstrukturinnehåll i HS- och LS-transkripter (p-värde beräknat med KS-test). e Venn-diagram som visar överlappningen mellan proteininteraktioner, mätt med eCLIP, för HS- och LS-RNA (empiriskt p-värde <6 × 10-3; beräknat genom att jämföra med fördelningen av 1 000 överlappningar av uppsättningar som valts ut från eCLIP RBP:s). f Förutsägelse av proteinbindningsbenägenhet för HS- och LS-RNA med hjälp av catRAPID13,32 (p-värde beräknat med KS-test). För b, d, f visar rutorna interkvartilintervallet (IQR), den centrala linjen representerar medianen, inskärningarna 95 % konfidensintervallet för medianen, whiskrarna adderar 1,5 gånger IQR till 75-percentilen (övre gräns i rutan) och subtraherar 1,5 gånger IQR från 25-percentilen (nedre gräns i rutan). S.d. visas

För att förstå om korrelationen mellan protein-protein- och protein-RNA-interaktioner är en allmän egenskap eller helt enkelt ett kännetecken för chaperonfamiljen, analyserade vi interaktioner mellan transkriptomet, rangordnat efter PARS-poäng, och 24 mRNA:er som kodar för chaperoner och för vilka PARS-data finns tillgängliga (Genecards; https://www.genecards.org; ”HSPs”-uppsättning; Metodik, fig. 3b). Vi fann en positiv korrelation mellan mängden RNA-struktur och antalet BioGRID-interaktörer för de kodade proteinerna (kompletterande figur 7a-b). Våra beräkningar stämmer alltså överens med GO-analysen (fig. 2d) och tyder på ett samband mellan mRNA och deras kodande partners: högstrukturerade RNA kodar för höginteragerande proteiner.

De uppgifter som hittills presenterats tyder på att RNA som är besläktade genom typ (t.ex. miRNA, snRNA) eller funktion (t.ex. kodar för chaperoner) har liknande strukturella egenskaper (fig. 2). Det borde således vara möjligt att uppskatta skillnader i interaktionsnätverket för två obesläktade transkript genom att analysera deras strukturella innehåll, och vice versa. För att testa denna hypotes valde vi det mycket strukturerade HSP70-transkriptet (HS RNA, log av PARS-poäng på -1,3 motsvarande 26 % av det dubbelsträngade innehållet, fig. 3c) som kodar för ett chaperon som är viktigt för att reglera proteinkomplex som klatrinhöljen58 och stressgranuler22,57. Som kontroll valde vi det RNA som kodar för BRaf som är mindre strukturerat (LS RNA, poäng på -2,8 vilket indikerar 6 % av det dubbelsträngade innehållet enligt PARS, fig. 3c-e) och som kodar för en onkogen som är involverad i överföringen av kemiska signaler från utsidan av cellen till kärnan (den strukturella jämförelsen bekräftas av CROSS-prediktionerna och DMS-experimenten, vilket framgår av kompletterande figur 3c-e). 8).

Vi fann att HSP70 har ett större antal partners (30 RBP:er identifierade av eCLIP) än BRaf (9 eCLIP RBP:er, 6 gemensamma med HSP70, kompletterande fig. 9), vilket är helt i överensstämmelse med den strukturdrivna proteininteraktivitetsegenskapen. I enlighet med trenden i fig. 1b visar catRAPID att proteiner har en större benägenhet att binda till HSP70 än BRaf (fig. 3f). Dessutom kodar det starkt strukturerade HSP70 för ett protein med ett större antal interaktörer (244 BioGRID fysiska interaktörer), medan det dåligt strukturerade BRaf har en proteinprodukt som binder till en mindre uppsättning molekyler (88 BioGRID fysiska interaktörer). Våra observationer tyder på att ett RNA med ett stort antal interaktioner är benäget att fungera som en nätverksregulator: vi spekulerar i att HSP70-transkriptet, på grund av den högre interaktiviteten, skulle kunna fungera som en chaperon beroende på sammanhanget.

Därmed ställer vi oss bakom hypotesen att ett strukturerat RNA, på grund av sin högre potential för proteininteraktioner, kan påverka proteininteraktionsnätverket mer än ett dåligt strukturerat RNA. I ett proof-of-concept-experiment använde vi en kemisk förening, biotinylerad isoxazol (b-isox) för att inducera bildandet av en fasövergång från flytande till fast fas i en proteingrupp59,60 som vi inkuberade med antingen HS- (HSP70) eller LS (BRaf)-transkripter (fig. 4a och kompletterande fig. 10). Vi observerade att HS förändrade sammansättningen av proteinaggregatet mer än LS RNA (Fig. 4b och Supplementary Data 5). När HS RNA tillsattes observerades faktiskt en signifikant förändring av koncentrationen för 29 proteiner (fig. 4c; 21 ”frigjorda” uppsättningar, svarta prickar, och 8 ”behållna” uppsättningar, röda prickar i fig. 4b), medan endast nio proteiner identifierades i fallet med LS RNA. Sammansättningen i närvaro av LS RNA förblev således likartad den i bakgrundskontrollen (”statisk” uppsättning, grå prickar i fig. 4b).

Fig. 4
figure4

Strukturerat RNA minskar proteinaggregering in vitro. a Biotinylerad isoxazol (b-isox)-driven aggregering av HeLa proteinlysat in vitro. Till vänster, Coomassie-färgade geler, ett representativt experiment visas (obearbetade geler presenteras i den kompletterande fig. 10). Centrum, aggregerad proteinintensitet kvantifierades och skillnaden utvärderades med hjälp av tvåsidigt t-test (p = 1 ×1 0-3; N = 3 biologiska replikat som visas som prickar i bilden). S.d. visas. Till höger, experimentschema. Aggregationseffektiviteten testades genom att jämföra den resulterande utfällningen i närvaro eller frånvaro av b-isox, detta anges med a+ respektive a-. b Vulkanplottar visar p-värdena (Perseus-måttet) för de enskilda proteinberikningarna i b-isox-sammansättningen (N = 4 oberoende biologiska replikat). Tröskelvärdet för statistisk signifikans markeras med en horisontell linje (se även tilläggsdata 5). Svarta prickar är proteiner med signifikant minskad koncentration efter RNA-inkuberingen. Röda prickar är proteiner med signifikant ökad koncentration efter RNA-inkuberingen. c Färgkodad märkningsfri kvantifieringsintensitet (LFQ) för proteiner som påverkas av högstrukturerat (HS) RNA på en skala från svart (låg) till röd (hög). Hierarkisk klustring med hjälp av Perseus anges. För jämförelse plottas LFQ-intensiteterna för samma proteiner i kontroll och i närvaro av LS-RNA också

Vi resonerade att RNA:s konkurrens med b-isox-utfällningens kontaktnätverk59,60 kan vara ett resultat av antingen direkta eller indirekta protein-RNA-interaktioner (fig. 5a). Ändå stöder catRAPID-prediktionerna hypotesen om en direkt effekt: en ökning av den experimentella stringensen (kompletterande fig. 11; metoder) är också förknippad med en ökning av den teoretiska prediktionsförmågan (fig. 5b). I enlighet med vår tidigare analys av RNA-bindningspreferenser resulterar proteiner som frigörs vid HSP70-inkubering betydligt berövade på polaritet (fig. 5c). Vårt experiment tyder således på att den strukturdrivna proteininteraktiviteten hos RNA-molekyler är aktiv på alla nivåer, vilket främjar individuella interaktioner och ändrar sammansättningen av kondensat12 (fig. 2e).

Fig. 5
Figur5

Interaktioner inom ribonukleoproteinkondensatet. a Frigörandet av proteiner från den biotinylerade isoxazolföreningen (b-isox) skulle kunna vara resultatet av: (1) en indirekt process, som beror på en interaktionskonkurrens mellan RNA och proteinaggregatet eller (2) en direkt process, som beror på att protein sekreteras av RNA. b catRAPID-prestanda förbättras med strängare b-isox-experiment (metoder), vilket tyder på en direkt rekrytering av proteiner som räddas av högstrukturerat (HS) RNA. Den falska upptäcktsfrekvensen (FDR) blir mycket signifikant för den mest stringenta experimentuppsättningen (FDR = 0,1). c ”Frigjorda” proteiner (svart ruta) är mindre polära än ”statiska” proteiner (grå ruta), vilket stämmer överens med vår beräkningsanalys (p-värde = 4,7 × 10-2, p-värde uppskattat med KS-test; se även fig. 2f, g). Frigjorda och statiska proteiner motsvarar de svarta och grå prickarna i fig. 4b högra panelen. Rutorna visar interkvartilintervallet (IQR), den centrala linjen representerar medianen, inskärningarna 95 % konfidensintervallet för medianen, whiskrarna adderar 1,5 gånger IQR till 75-percentilen (övre gränsen i rutan) och subtraherar 1,5 gånger IQR från 25-percentilen (nedre gränsen i rutan). S.d. visas

Lämna ett svar

Din e-postadress kommer inte publiceras.