RNA-struktur styrer interaktion med proteiner

jul 29, 2021
admin

Højt strukturerede RNA’er binder en stor mængde proteiner

Med det formål at studere, hvordan RNA-strukturen påvirker proteinbindingen, målte vi mængden af dobbeltstrengede regioner i det menneskelige transkriptom8 (Fig. 1a). Vi grupperede først RNA’erne, som detekteret ved forstærket crosslinking og immunoprecipitation (eCLIP)-tilgang30, i klasser baseret på det strukturelle indhold målt ved “parallel analyse af RNA-struktur” (PARS)8 (Supplerende fig. 1a og fig. 1b) (Supplerende fig. 1a og fig. 1b). PARS er en eksperimentel teknik, der skelner mellem dobbelt- og enkeltstrengede regioner af RNA ved hjælp af den katalytiske aktivitet af to enzymer, RNase V1 (i stand til at skære dobbeltstrengede nukleotider) og S1 (i stand til at skære enkeltstrengede nukleotider), og for hvilke positive scores indikerer dobbeltstrengede regioner (se Eq. (1) i Metoder)8. Vi brugte derefter catRAPID-prædiktioner af protein-RNA-interaktioner (tilgængelige fra RNAct-databasen, der indeholder både proteom-dækkende og transkriptom-dækkende beregninger31 ) og sammenlignede interaktionsscorerne for forskellige grupper (HS, højt strukturindhold, vs. LS, lavt strukturindhold) (fig. 1b). CatRAPID-algoritmen32 estimerer bindingspotentialet gennem van der Waals-, hydrogenbindings- og sekundærstruktur-propensiviteter for både protein- og RNA-sekvenser (i alt 10 egenskaber), hvilket gør det muligt at identificere bindingspartnere med høj grad af sikkerhed. Som rapporteret i en nylig analyse af ca. en halv million eksperimentelt validerede interaktioner31 er algoritmen i stand til at adskille interagerende par fra ikke-interagerende par med et område under kurven (AUC) på 0,78 (med en falsk opdagelsesrate (FDR) signifikant under 0,25, når Z-score-værdierne er >2). Sammenligning af RNA-grupper med forskelligt strukturindhold viser en konsekvent tendens, hvor et højere strukturindhold i RNA-molekyler resulterer i højere proteininteraktionsscorer (fig. 1b). Hvad angår PARS-dataene, bemærker vi, at mængden af dobbeltstrengede regioner korrelerer svagt (<0,10; Pearson’s) med RNA-længde og GC-indhold, hvilket indikerer, at disse to faktorer bidrager positivt til sekundærstrukturen ved at øge størrelsen af konformationsrummet såvel som den overordnede stabilitet33.

Figur 1
Figur1

Mængden af proteinstruktur korrelerer med antallet af interaktioner. a Kumulativ fordelingsfunktion (CDF) for sekundærstrukturindholdet i alle humane RNA’er målt ved parallel analyse af RNA-struktur (PARS)8,69. Lodrette linjer angiver en bestemt brøkdel (X %) af RNA’er med det laveste sekundære indhold (LS; blå) og den samme brøkdel med det højeste sekundære indhold (HS; pink). b catRAPID-prædiktioner af proteininteraktioner med humane RNA’er rangeret efter strukturindhold målt ved PARS (118 RNA-bindende proteiner (RBP’er), for hvilke der også foreligger oplysninger om forbedret krydsbinding og immunoprecipitation (eCLIP))31. Fraktionerne 10 %, 15 %, …, 50 % henviser til sammenligningen mellem HS- og LS-sæt af samme størrelse. Resultaterne viser, at catRAPID er i stand til at skelne signifikant og konsekvent mellem HS- og LS-grupper gennem de forskellige fraktioner (p-værdi <10-16; Kolmogorov-Smirnov (KS)-test). Kasserne viser interkvartilområdet (IQR), den centrale linje repræsenterer medianen, whiskerne lægger 1,5 gange IQR til 75-percentilen (øverste grænse i kassen) og trækker 1,5 gange IQR fra 25-percentilen (nederste grænse i kassen). s.d. er vist. c Forholdet mellem antallet af proteininteraktioner (eCLIP) og det strukturelle indhold målt ved PARS30. Den passende linje svarer til formlen y = exp(α + βx), hvor α = -0,75; β = 0,67; p-værdi estimeret med KS-test. d Forholdet mellem antallet af proteininteraktioner og strukturindholdet målt ved dimethylsulfatmodifikation (DMS)9. Den passende linje svarer til formlen y = 1/(α + βx), hvor α = 2,60; β = 87,36; p-værdi estimeret med KS-test. e Strukturelle præferencer for RBP’er målt med tre forskellige CLIP-teknikker (fotoaktiverbar ribonukleosidforstærket CLIP (PAR-CLIP), high-throughput sequencing-CLIP (HITS-CLIP) og CLIP med individuel nukleotidopløsning (iCLIP)). Farven angiver hvert proteins præference for RNA-binding: pink, højt struktureret; blå, lavt struktureret; grå, ingen præference. f Korrelation mellem strukturelt indhold (CROSS-prædiktioner af icSHAPE-eksperimenter) og proteininteraktioner for otte transskriptioner afsløret ved hjælp af proteinmikroarrays (Pearson-korrelation). s.d. er vist. g Analyse af strukturer fra Protein Data Bank (PDB), der indeholder protein-RNA-komplekser, afslører en tendens mellem protein (inter) og RNA (intra) kontakter (196 forskellige par; Pearsons korrelation)

Vi gentog analysen med en ubeslægtet tilgang, RPISeq, som forudsiger protein-RNA-interaktioner ved hjælp af sekvensmønstre i nukleotid- og aminosyresekvenser11. RPISeq består af to metoder baseret på supportvektormaskiner (RPISeq-SVM) og random forest (RPISeq-RF). På grund af specifikke beregningskrav anvendte vi RPISeq på et ensemble af RBP’er (50 proteiner med sekvenslighed <0,85; http://cd-hit.org/) mod HS- og LS-sættet fra halerne af den strukturelle indholdsfordeling (100 transskriptioner) for at estimere bindingssandsynlighederne (Supplerende data 1). I begge tilfælde forudsiges HS-sættet (RF 0,80, SVM 0,71) at binde med betydeligt højere sandsynligheder end LS-sættet (RF 0,70, SVM 0,54; p-værdi <10-5; Kolmogorov-Smirnov (KS)-test; Supplerende fig. 1b-c), hvilket er i overensstemmelse med catRAPID-analysen (fig. 1b). Således tyder vores analyse på, at RNA-strukturindholdet har effekt på interaktionen med proteiner.

For at matche vores forudsigelser med eksperimentelle data undersøgte vi alle RBP-RNA-interaktioner, der blev afsløret ved forbedret CrossLinking og ImmunoPrecipitation, eCLIP30 (118 RBP’er; se Metoder). eCLIP giver proteinkontakter på mål-RNA’er ved individuel nukleotidopløsning gennem ligering af stregkodede enkeltstrengede DNA-adaptere30. I overensstemmelse med catRAPID-prædiktioner31 (Fig. 1b) korrelerer eCLIP-bindingsscorer med PARS sekundærstruktur, hvilket indikerer, at RNA’s tilbøjelighed til at interagere med proteiner er proportional med mængden af struktur, der er målt transkriptom bredt (Fig. 1c). Vi bemærker, at CLIP-seq-tiltag generelt favoriserer detektion af enkeltstrenget (SS) RNA på bekostning af dobbeltstrenget (DS) RNA34 , og eCLIP-datasættet er ikke beriget med dobbeltstrenget RNA-bindende proteiner (9 ud af 118 tildeles ifølge UniProt som dsRNA-binding, 12 ud af 118 som ssRNA-binding, ved hjælp af tilgængelige GO-annotationer35), hvilket indikerer, at vores resultater ikke er biased af de proteintyper, der er anvendt i vores analyse.

For yderligere at bekræfte, at tendensen er ægte og ikke kun indbygget i PARS-målingerne, analyserede vi det proteininteragerende potentiale for hele det menneskelige transkriptom i forhold til RNA-sekundærstrukturen målt med dimethylsulfatmodifikationsteknikken (DMS) (i modsætning til PARS indikerer høje værdier enkeltstrengede regioner; Fig. 1d)9. Denne metode til vurdering af RNA-strukturen anvender dyb sekventering til at påvise uparrede adenosin- og cytidin-nukleotider. Endnu en gang viser analysen, at den sekundære RNA-struktur af de menneskelige transskriptioner er tæt korreleret med proteinbindende evner.

Vi brugte også POSTAR-databasen (indeholdende >1000 CLIP-seq-datasæt; http://lulab.life.tsinghua.edu.cn/postar/) til at hente de RNA-bindende præferencer for menneskelige proteiner (103 eksperimenter, 85 forskellige RBP’er) målt med PAR-CLIP, high-throughput sequencing-CLIP (HITS-CLIP) og CLIP med individuel nukleotidopløsning (iCLIP)10. På grund af iboende forskelle i CLIP-metoderne (og andre faktorer, f.eks. de anvendte cellelinjer) rapporterer hvert forsøg forskellige protein-RNA-interaktioner10. Alligevel har 77 % af RBP’erne præference for højt strukturerede RNA’er for mindst én af de eksperimentelle metoder (DMS eller PARS; Fig. 1e).

I betragtning af mulige tekniske bias i højgennemgangseksperimenter besluttede vi at verificere reproducerbarheden af tendensen ved at undersøge sammenhængen mellem RNA-struktur og proteininteraktioner i lavgennemgangsanalyser. Vi undersøgte først interactomet af otte store (>1000 nt) RNA’er, hvis proteinpartnere er blevet identificeret ved hjælp af mikroarray, en tværbindingsfri tilgang21,36,37 (se Metoder). Parallelt hermed estimerede vi det strukturelle indhold af hvert transkript ved hjælp af CROSS-algoritmen, som tidligere blev trænet på SHAPE-data38 for at forudsige den dobbeltstrengede tilbøjelighed ved opløsning på nukleotidniveau. Vores resultater, der præsenteres i Fig. 1f, viser, at stærkt strukturerede transkripter har flere proteinkontakter end dårligt strukturerede transkripter, hvilket er fuldt ud foreneligt med de resultater, der blev præsenteret i vores tidligere analyse (Fig. 1b-e).

Vi bekræftede vores observationer gennem undersøgelse af RNP-komplekser deponeret i Protein Data Bank (PDB)-databasen (røntgenopløsning <2 Å; Supplerende data 2; se Metoder), som består af 196 forskellige RNA-proteinpar (>20 arter), der er analyseret med forskellige teknikker (hovedsagelig røntgen og kernemagnetisk resonans (NMR)) af forskellige laboratorier. Ved at måle mængden af RNA intra-kontakt (dvs. mængden af RNA-struktur) og inter-kontakt (dvs. aminosyre) pr. nukleotidkæde fandt vi en slående korrelation på 0,78 mellem de to variabler, hvilket giver et overbevisende bevis for deres tætte sammenhæng (Fig. 1g; se Eks. (2) og (3) i Metoder).

Uafhængigt af eksperimentet (PARS, DMS, mikroarray, røntgen, NMR, eCLIP, PAR-CLIP, HITS-CLIP og iCLIP), de anvendte algoritmer (catRAPID og RPISeq eller CROSS for at efterligne SHAPE-data) eller organismen (PDB-database) fandt vi således en korrelation mellem antallet af proteininteraktioner og RNA-strukturindholdet.

Den strukturdrevne proteininteraktivitet af RNA-typer

Vi undersøgte dernæst, om den tætte forbindelse mellem sekundærstruktur og antallet af proteininteraktioner er en egenskab af specifikke RNA-typer (Fig. 2a). Til dette formål sammenlignede vi sekundærstrukturen og proteininteraktionerne for transskriptioner rangeret efter sekvenslighed ved hjælp af CD-HIT-algoritmen39 (http://cd-hit.org/). Med en tærskel på 85 % lighed fandt vi 22 klynger (i alt 55 transkripter) med mindst én RBP-kontakt afsløret af eCLIP. Vi beregnede derefter korrelationen mellem DMS-signalet og eCLIP-proteininteraktioner for hver klynge og opnåede en negativ korrelation i 64 % af tilfældene. Dette resultat indikerer, at mellem to lignende transskriptioner er det mere sandsynligt, at den med højere strukturindhold har et større antal proteininteraktioner.

Figur 2
figur2

Funktionelle fodaftryk af den RNA-struktur-drevne proteininteraktivitet. a Skema, der viser rollen af intra- og intermolekylære kontakter i et RNA-proteinkompleks. Øverst, intramolekylære kontakter. Nederst, intermolekylære kontakter. Antallet af kontakter er angivet med nuancer fra mørkeblå (lavest) til rød (højest). b Øverst, strukturelt indhold (dimethylsulfatmodifikation (DMS); p-værdi estimeret med KS-test). Nederst, Proteininteraktioner (forbedret CrossLinking og ImmunoPrecipitation (eCLIP) af hæmoglobin underenhed γ1 (HBG1) (pink) og hæmoglobin underenhed γ2 (HBG2) (blå) RNA’er (99,3 % sekventiel identitet); den empiriske p-værdi blev estimeret ved at sammenligne overlapningen med overlapningen af 1000 prøver taget fra eCLIP RNA-bindingsproteiner (RBP’er). c Parallel analyse af RNA-struktur (PARS) (pink) og DMS (blå) strukturelt indhold af forskellige RNA-typer (Ensembl). d Semantisk gruppering af genontologiske termer, der er forbundet med de mindst og mest strukturerede RNA’er (100 mindre strukturerede (LS) vs. 100 højt strukturerede (HS) transkriptioner) ved hjælp af cleverGO. e Gennem analysen af individuelle RNA’er (fig. 1 og 2b) fandt vi, at det strukturelle indhold er forbundet med antallet af partnere og funktionen af et RNA. Vores analyse viser, at funktionelt beslægtede RNA’er har et lignende strukturelt indhold (fig. 2c). Den strukturbestemte proteininteraktivitet er en iboende egenskab, der er knyttet til RNA’et, som kan spores på ethvert reguleringsniveau. f Hver række viser catRAPID-interaktionspropendensiteterne forårsaget af fjernelse af en fysisk-kemisk egenskab13,32. Fjernelse af α-helix (Chou) og polaritet (Grantham) reducerer evnen til at skelne mellem HS og LS (p-værdier estimeret med KS-test). g multicleverMachine-analyse af de fysisk-kemiske egenskaber for tre RBP-sæt og proteiner annoteret i UniProt som bindere af dobbeltstrengede RNA’er (DS) eller enkeltstrengede RNA’er (SS) (se metoder). ‘Disorder propensity’ og ‘α-helix’ er de egenskaber, der viser signifikant forskel og modsatte resultater mellem DS- og SS-bindere for mindst to RBP-databaser (blå eller pink angiver, at DS eller SS er beriget eller depleteret; gul angiver ingen signifikante forskelle mellem sættene). I b og c viser boksene interkvartilintervallet (IQR), den centrale linje repræsenterer medianen, indsnittene 95 % konfidensintervallet for medianen, whiskerne lægger 1,5 gange IQR til 75-percentilen (øverste grænse i boksen) og trækker 1,5 gange IQR fra 25-percentilen (nederste grænse i boksen). S.d. er vist

De to transkripter, der deler den største lighed (99,31 %), er γ-globinerne HBG1 og HBG2 (hæmoglobin-underenhederne γ1 og γ2), der udtrykkes i fosters lever, milt og knoglemarv (NCBI Gene ID: 3048). Den γ-globinvariant med højere struktur (HBG1) har et betydeligt større antal proteininteraktorer (HBG1, gennemsnitligt DMS-signal på 0,04, 29 interaktorer; HBG2, gennemsnitligt DMS-signal på 0,07, 14 interaktorer; p-værdi = 0,003; KS-test; Fig. 2b). Mens nukleotidsammensætningen af de to transskriptioner forbliver næsten den samme (HBG1: 280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), er forskellene mellem HBG1 og HBG2 koncentreret i regioner, hvor den sekundære struktur er ændret (Supplerende figur 2). Disse resultater tyder på, at proteininteraktivitet er tæt forbundet med konformationsændringer i elementer af sekundærstrukturen. Interessant nok ledsages det øgede dobbeltstrengede indhold i HBG1, især i 3′-UTR’en, af en ophobning af translationsregulerende elementer (Fig. 2b) og et samtidigt fald i ekspressionen (NCBI Gene ID: 3048).

Vi spekulerede derefter på, om specifikke RNA-strukturer er involveret i proteinregulering. Vi opdelte det menneskelige transkriptom i forskellige klasser og analyserede deres sekundære struktur som påvist af to uafhængige eksperimentelle teknikker, PARS og DMS. Begge teknikker viser, at protein-kodende RNA’er har det største strukturindhold (Fig. 2c, Supplerende tabel 1)38. Selv om en del af mRNA-strukturen er koncentreret i UTR’erne8, ændres fordelingen af strukturindholdet ikke væsentligt, når disse udelukkes (Pearsons korrelation mellem transskriptioner med og uden deres UTR’er = 0,94; Supplerende figur 3). De RNA’er, der er kendt for at interagere med proteiner, såsom små nukleare RNA’er (snRNA’er)40 og små nukleolære RNA’er (snoRNA’er)28, viser den højeste mængde struktur, mens RNA’er, der er rettet mod komplementære regioner i nukleinsyrer, såsom antisense, miRNA’er og en række lange intergeniske ikke-kodende RNA’er (lincRNA’er)41,42 har den mindste mængde struktur43 (Supplerende tabel 1)

I overensstemmelse med vores resultater har Seemann et al.12 tidligere observeret en tæt sammenhæng mellem proteinbinding og bevarelse af strukturelle elementer i mRNA’er, som forekommer i mindre grad i lange ikke-kodende RNA’er12. Selv om lincRNA’er viser en lavere mængde dobbeltstrengede regioner (lavest i PARS, tredje laveste i DMS), bemærker vi, at nogle af dem, som f.eks. NEAT144 og XIST27, er i stand til at stilladsere proteinmontering gennem strukturerede domæner. Da der er en igangværende debat om de strukturelle forskelle mellem kodende og ikke-kodende transkript45,46 og vores analyse af DMS- og PARS-data afslører modstridende resultater for specifikke RNA-typer, foreslår vi yderligere undersøgelser i fremtidige undersøgelser (Fig. 2c; Supplerende tabel 1).

For at undersøge funktionelle forskelle mellem højt og dårligt strukturerede RNA’er analyserede vi GO-termer, der er forbundet med de mindst og mest strukturerede RNA’er (100 LS vs. 100 HS-transkript) ved hjælp af cleverGO35-tilgangen. Mens LS-sættet (14 ikke-kodende RNA’er og 86 mRNA’er) ikke er forbundet med specifikke semantiske lighedsklynger (i alt 36 termer med p-værdi <0,05; Bonferroni-test), omfatter HS-sættet (100 mRNA’er; i alt 395 termer med p-værdi <0,05 og 103 termer med p-værdi <0,01; Bonferroni-test; Fig. 2d) 20 forskellige klynger. De fem hovedkategorier, der er forbundet med klyngerne og dækker mindst en fjerdedel af posterne, er: (i) kompleks proteinregulering (49/103), (ii) nukleosidmetabolismeproces (39/103), (iii) cellulært respons (29/103), (iv) genekspression (29/103) og (v) proteinmålretning (28/103). Vi gentog også GO-termsanalysen med de 25 % højere udtrykte transkripter som baggrund og opnåede lignende resultater (K562-stamme GENCODE, Metoder, Supplerende fig. 4).

Klyngeanalysen afslører det spændende resultat, at transkripter med et stærkt strukturelt indhold interagerer mere med polypeptider og koder for proteiner, der er involveret i reguleringsfunktioner og i dannelsen af komplekse kontaktnetværk. I betragtning af forholdet mellem RNA-struktur og antallet af proteininteraktioner (fig. 1) er en foreløbig fortolkning af vores resultater, at der kræves en høj grad af kontrol for gener, der koordinerer aktiviteten af et stort antal cellulære netværk47. Således tyder vores analyse på en “rekursiv” egenskab: højt kontaktede transkriptordner koder for højt kontaktede proteiner (Fig. 2e)20,48.

Disorder og helix skelner dsRNA vs. ssRNA

For at forstå det molekylære grundlag for den strukturdrevne interaktivitet af RNA-molekyler analyserede vi, hvilke fysisk-kemiske egenskaber af proteinerne der bedre skelner HS- og LS-sættene. Vi undersøgte alle 10 variabler, der anvendes i catRAPID-algoritmen (fig. 2f)13,32 , og fjernede dem en efter en for at vurdere deres indvirkning på forudsigelsen af RNA-proteininteraktioner. Vi fandt, at evnen til at skelne mellem de mindst og mest strukturerede RNA’er (100 HS- og LS-transkripter; Supplerende data 3) sæt er mere påvirket, når polaritet (p-værdi = 0,28; KS-test) og α-helikal tilbøjelighed (p-værdi = 0,06; KS-test) fjernes (Fig. 2f). Den egenskab, der mere signifikant påvirker HS-bindingstilbøjeligheden, er polaritet, som er beriget i strukturelt uordnede proteiner49 og antikorrelerer med hydrofobicitet, som er nøglen til makromolekylær genkendelse (Supplerende tabel 2)50. Hvad angår α-helikale tilbøjelighed, bemærker vi, at helikserne er de hyppigste strukturelle elementer, der er involveret i dannelsen af kontakter med dobbeltstrengede regioner, og forekommer i dsRBD og zinkfingre29 (Supplerende tabel 3). Vores observation tyder på en mulig co-evolution mellem proteiner og RNA’er: Mens RNA’erne antager komplekse former for at eksponere bindingsregioner, ændrer proteinerne deres strukturelle indhold. I overensstemmelse med teorien om nøglelåse51 foreslår vi, at naturlig udvælgelse favoriserer højt strukturerede RBP’er som interaktorer af dsRNA’er.

Vi validerede betydningen af proteinpolaritet og spiralformet struktur ved at sammenligne tre datasæt af velundersøgte RBP’er (menneske og gær)52,53,54 og to sæt proteiner hentet fra UniProt (alle organismer) som enten udelukkende ssRNA-bindere (453 proteiner) eller dsRNA-bindere (390 proteiner; Supplerende data 4). Analyse af biofysiske egenskaber med cleverMachine-tilgangen55 viste, at ssRNA-bindere og dsRNA-bindere adskiller sig for to egenskaber: uorden og α-helix-indhold (Fig. 2g). Sammenligningen af de to sæt, det ene mod det andet, viser, at RBP’er, der interagerer med stærkt strukturerede RNA’er, er strukturerede og hydrofobiske, mens uordnede og polære RBP’er associerer sig med mindre strukturerede RNA’er (supplerende figur 5). Således udvider vores analyse yderligere, hvad der tidligere blev rapporteret for protein-protein interaktionsnetværk, hvor strukturelt uordnede regioner har vist sig at spille en central rolle47, og foreslår nye regler for nukleotidbasparring med aminosyrer.

RNA-strukturindhold og proteinkontakt i chaperoner

Analysen af det menneskelige transkriptom og på tværs af organismer indikerer, at højt strukturerede RNA’er er tilbøjelige til at interagere med polypeptider og til gengæld koder for proteiner, der er involveret i biologiske processer, der er forbundet med store og komplekse kontaktnetværk. For bedre at undersøge den strukturdrevne proteininteraktivitet af RNA-molekyler fokuserede vi på en klasse af transskriptioner, der koder for proteiner, der interagerer med flere partnere. Det naturlige valg til denne analyse er de molekylære chaperoner, da de fremmer foldning til den native tilstand56 og organiserer samlingen af faseseparerede RNP-samlinger57 og dermed opfylder den “rekursive” egenskab, der er præsenteret i fig. 2d. eCLIP-data30 viser, at de fleste af de RNA’er, der koder for menneskelige chaperoner, er involveret i interaktioner med flere proteiner (Supplerende fig. 6). Vi fandt en signifikant korrelation mellem protein-RNA- og protein-protein-interaktioner annoteret i BioGRID (Fig. 3a). Dette resultat bekræfter, at transkripter, der er bundet af mange RBP’er, også koder for højt kontaktede proteiner.

Figur 3
figur3

Sammenhæng mellem RNA-struktur og proteinkontakter for chaperoner. a Kontakter mellem RNA’er, der koder for proteinchaperoner, målt ved forbedret CrossLinking og ImmunoPrecipitation (eCLIP)30 , og fysiske interaktioner af de tilsvarende kodede proteiner, indsamlet fra BioGRID; p-værdi estimeret med KS-test. b Sammenligning mellem parallel analyse af RNA-struktur (PARS) strukturindhold og fysiske interaktioner af de kodede proteiner, indsamlet ved BioGRID, for hele transkriptomet. Transkriptomet blev opdelt i fem på hinanden følgende sæt, der hver indeholder 20 % af transkriptomet. Sættene blev udvalgt med hensyn til deres PARS-strukturindhold, idet intervallet for hvert sæt fra venstre til højre er følgende: -10,7 til -4,6; -4,6 til -3,1; -3,1 til -2,4; -2,4 til -1,9; -1,9 til -0,5. Den sidste boksplot viser fordelingen af antallet af fysiske interaktorer hentet fra BioGRID for chaperonproteinfamilien (heat-shock-proteiner). c PARS-måling af sekundærstrukturindholdet af HS- (HSP70, pink) og LS (BRaf, blå) transkriptioner. Lodrette stiplede linjer angiver utranslaterede regioner (UTR’er). d PARS sekundærstrukturindholdet af HS- og LS-transkripter (p-værdi vurderet med KS-test). e Venn-diagram, der viser overlapningen mellem proteininteraktioner, målt ved eCLIP, af HS- og LS-RNA’er (empirisk p-værdi <6 × 10-3; estimeret ved sammenligning med fordelingen af 1000 overlapninger af sæt udtaget fra eCLIP RBP’er). f Forudsigelse af proteinbindingstilbøjeligheden af HS- og LS-RNA’er ved hjælp af catRAPID13,32 (p-værdi estimeret med KS-test). For b, d, f viser boksene interkvartilområdet (IQR), den centrale linje repræsenterer medianen, indskæringerne 95 % konfidensintervallet for medianen, whiskerne lægger 1,5 gange IQR til 75 percentilen (øverste grænse i boksen) og trækker 1,5 gange IQR fra 25 percentilen (nederste grænse i boksen). S.d. er vist

For at forstå, om korrelationen mellem protein-protein- og protein-RNA-interaktioner er en generel egenskab eller blot et træk ved chaperonfamilien, analyserede vi interaktioner af transkriptomet rangeret efter PARS-scorer og 24 mRNA’er, der koder for chaperoner, for hvilke PARS-data er tilgængelige (Genecards; https://www.genecards.org; ‘HSPs’-sæt; Metoder, Fig. 3b). Vi fandt en positiv korrelation mellem mængden af RNA-struktur og antallet af BioGRID-interaktorer af de kodede proteiner (Supplerende fig. 7a-b). Vores beregninger stemmer således overens med GO-analysen (Fig. 2d) og tyder på et forhold mellem mRNA og deres kodningspartnere: højt strukturerede RNA’er koder for højt interagerende proteiner.

De hidtil præsenterede data tyder på, at RNA’er, der er beslægtede efter type (f.eks. miRNA, snRNA) eller funktion (f.eks. kodning for chaperoner), deler lignende strukturelle egenskaber (Fig. 2). Det skulle således være muligt at vurdere forskelle i interaktionsnetværket mellem to ikke-relaterede transskriptioner ved at analysere deres strukturelle indhold og omvendt. For at teste denne hypotese valgte vi det meget strukturerede HSP70-transkript (HS RNA, log PARS-score på -1,3 svarende til 26 % af det dobbeltstrengede indhold, Fig. 3c), der koder for en chaperon, der er afgørende for at regulere proteinkompleksassembler såsom clathrincoat58 og stressgranulat22,57. Som kontrol valgte vi det RNA, der koder for BRaf, som er mindre struktureret (LS RNA, score på -2,8 svarende til 6 % dobbeltstrenget indhold ifølge PARS, Fig. 3c-e) og koder for et onkogen, der er involveret i transmissionen af kemiske signaler fra ydersiden af cellen til kernen (den strukturelle sammenligning bekræftes af CROSS-prædiktioner og DMS-eksperimenter, som vist i Supplerende fig. 8).

Vi fandt, at HSP70 har et større antal partnere (30 RBP’er identificeret af eCLIP) end BRaf (9 eCLIP RBP’er, 6 i fællesskab med HSP70, Supplerende Fig. 9), hvilket er helt i overensstemmelse med den strukturdrevne proteininteraktivitetsevne. I overensstemmelse med tendensen i fig. 1b viser catRAPID, at proteinerne har en større tilbøjelighed til at binde til HSP70 end BRaf (fig. 3f). Desuden koder det stærkt strukturerede HSP70 for et protein med et større antal interaktorer (244 BioGRID fysiske interaktorer), mens det dårligt strukturerede BRaf har et proteinprodukt, der binder til et mindre sæt af molekyler (88 BioGRID fysiske interaktorer). Vores observationer tyder på, at et RNA med et stort antal interaktioner er tilbøjeligt til at fungere som netværksregulator: Vi spekulerer i, at HSP70-transkriptet på grund af den højere interaktivitet kan fungere som chaperon afhængigt af konteksten.

Dermed opstiller vi den hypotese, at et struktureret RNA på grund af sit højere protein-interaktionspotentiale er i stand til at påvirke proteininteraktionsnetværket mere end et dårligt struktureret RNA. I et proof-of-concept-eksperiment brugte vi en kemisk forbindelse, biotinyleret isoxazol (b-isox) til at inducere dannelsen af en overgang fra flydende til fast fase i en proteinsamling59,60 , som vi inkuberede med enten HS (HSP70) eller LS (BRaf) transkript (Fig. 4a og Supplerende Fig. 10). Vi observerede, at HS ændrede sammensætningen af proteinaggregatet mere end LS RNA (Fig. 4b og Supplerende data 5). Når HS RNA blev tilsat, blev der faktisk observeret en signifikant ændring af koncentrationen for 29 proteiner (Fig. 4c; 21 “frigjorte” sæt, sorte prikker, og 8 “bevarede” sæt, røde prikker i Fig. 4b), mens der kun blev identificeret ni proteiner i LS RNA-sagen. Sammensætningen i tilstedeværelse af LS RNA forblev således lig med sammensætningen i baggrundskontrollen (‘statisk’ sæt, grå prikker i Fig. 4b).

Figur 4
figur4

Struktureret RNA reducerer proteinaggregation in vitro. a Biotinyleret isoxazol (b-isox)-drevet aggregering af HeLa-proteinlysat in vitro. Til venstre, Coomassie-farvede geler, et repræsentativt eksperiment vist (ubeskårne geler er vist i supplerende figur 10). I midten blev intensiteten af aggregeret protein kvantificeret, og forskellen blev evalueret ved hjælp af tosidet t-test (p = 1 ×1 0-3; N = 3 biologiske replikater vist som prikker i billedet). S.d. er vist. Til højre, forsøgsskema. Aggregeringseffektiviteten blev testet ved at sammenligne det resulterende bundfald i tilstedeværelse eller fravær af b-isox; dette er angivet med a+ eller a-, henholdsvis. b Volcano plots angiver p-værdierne (Perseus-måling) for de individuelle proteinberigelser i b-isox-samlingen (N = 4 uafhængige biologiske replikater). Den statistiske signifikanstærskel er markeret med en vandret linje (se også Supplerende data 5). Sorte prikker er proteiner med signifikant nedsat koncentration efter RNA-inkuberingen. Røde prikker er proteiner med signifikant øget koncentration efter RNA-inkubationen. c Farvekodet labelfri kvantificering (LFQ) af intensiteter af proteiner, der påvirkes af det højstrukturerede (HS) RNA på en skala fra sort (lav) til rød (høj). Hierarkisk clustering ved hjælp af Perseus er angivet. Til sammenligning er LFQ-intensiteterne af de samme proteiner i kontrol og i tilstedeværelse af LS RNA også plottet

Vi ræsonnerede, at RNA’s konkurrence med b-isox-udfældningens kontaktnetværk59,60 kunne være et resultat af enten direkte eller indirekte protein-RNA-interaktioner (Fig. 5a). Alligevel understøtter catRAPID-prædiktionerne hypotesen om en direkte virkning: En stigning i den eksperimentelle stringens (Supplerende fig. 11; Metoder) er også forbundet med en stigning i den teoretiske forudsigelseskraft (Fig. 5b). I overensstemmelse med vores tidligere analyse af RNA-bindingspræferencer resulterer proteiner, der frigives ved HSP70-inkubering, signifikant frataget polaritet (Fig. 5c). Vores eksperiment tyder således på, at den strukturdrevne proteininteraktivitet af RNA-molekyler er aktiv på alle niveauer, idet den fremmer individuelle interaktioner og ændrer sammensætningen af kondensater12 (Fig. 2e).

Fig. 5
Figur5

Interaktioner inden for ribonukleoproteinkondensatet. a Frigivelsen af proteiner fra den biotinylerede isoxazol (b-isox) samling kunne være resultatet af: (1) en indirekte proces, der skyldes en interaktionskonkurrence mellem RNA og proteinaggregatet, eller (2) en direkte proces, der skyldes proteinsekestrering af RNA. b catRAPID-præstationer forbedres med strengheden af b-isox-eksperimenterne (Metoder), hvilket tyder på en direkte rekruttering af proteiner, der er reddet af højstruktureret (HS) RNA. Den falske opdagelsesrate (FDR) bliver meget signifikant for det mest stringente eksperimentelle sæt (FDR = 0,1). c “Frigjorte” proteiner (sort boks) er mindre polære end “statiske” proteiner (grå boks), hvilket er i overensstemmelse med vores beregningsanalyse (p-værdi = 4,7 × 10-2, p-værdi estimeret med KS-test; se også Fig. 2f, g). Frigivne og statiske proteiner svarer til de sorte og grå prikker i fig. 4b højre panel. Kasserne viser interkvartilintervallet (IQR), den centrale linje repræsenterer medianen, indskæringerne 95 % konfidensintervallet for medianen, whiskerne lægger 1,5 gange IQR til 75-percentilen (øverste grænse i kassen) og trækker 1,5 gange IQR fra 25-percentilen (nederste grænse i kassen). S.d. er vist

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.