Struktura RNA ovlivňuje interakci s proteiny

Čvc 29, 2021
admin

Vysoce strukturované RNA vážou velké množství proteinů

S cílem studovat, jak struktura RNA ovlivňuje vazbu na proteiny, jsme měřili množství dvouvláknových oblastí lidského transkriptomu8 (obr. 1a). Nejprve jsme RNA, zjištěné metodou zesíleného síťování a imunoprecipitace (eCLIP)30 , rozdělili do tříd na základě strukturního obsahu měřeného pomocí „paralelní analýzy struktury RNA“ (PARS)8 (doplňkový obr. 1a a obr. 1b). PARS je experimentální technika, která rozlišuje dvouvláknové a jednovláknové oblasti RNA pomocí katalytické aktivity dvou enzymů, RNasy V1 (schopné řezat dvouvláknové nukleotidy) a S1 (schopné řezat jednovláknové nukleotidy), a u níž pozitivní skóre označuje dvouvláknové oblasti (viz obr. 1). (1) v metodách)8. Poté jsme použili catRAPID předpovědi interakcí protein-RNA (dostupné z databáze RNAct, která obsahuje výpočty pro celý proteom i transkriptom31) a porovnali skóre interakcí různých skupin (HS, vysoký obsah struktury, vs. LS, nízký obsah struktury) (obr. 1b). Algoritmus catRAPID32 odhaduje vazebný potenciál prostřednictvím van der Waalsových a vodíkových vazeb a sklonu k sekundární struktuře proteinových i RNA sekvencí (celkem 10 vlastností), což umožňuje identifikovat vazebné partnery s vysokou spolehlivostí. Jak bylo skutečně uvedeno v nedávné analýze přibližně půl milionu experimentálně ověřených interakcí31 , algoritmus je schopen oddělit interagující vs. neinteragující páry s plochou pod křivkou (AUC) křivky ROC (receiver operating characteristic) 0,78 (s mírou falešných objevů (FDR) výrazně nižší než 0,25, pokud jsou hodnoty Z-skóre >2). Srovnání skupin RNA s různým strukturním obsahem ukazuje konzistentní trend, kdy vyšší strukturní obsah v molekulách RNA vede k vyššímu skóre proteinových interakcí (obr. 1b). Pokud jde o údaje PARS, všimli jsme si, že množství dvouvláknových oblastí slabě koreluje (<0,10; Pearsonova) s délkou RNA a obsahem GC, což naznačuje, že tyto dva faktory pozitivně přispívají k sekundární struktuře tím, že zvyšují velikost konformačního prostoru i celkovou stabilitu33.

Obr. 1
obr. 1

Objem struktury proteinu koreluje s počtem interakcí. a Kumulativní distribuční funkce (CDF) pro obsah sekundární struktury všech lidských RNA měřený pomocí paralelní analýzy struktury RNA (PARS)8,69. Svislé čáry označují určitý podíl (X %) RNA s nejnižším sekundárním obsahem (LS; modrá) a stejný podíl s nejvyšším sekundárním obsahem (HS; růžová). b catRAPID předpovědi interakcí proteinů s lidskými RNA seřazené podle strukturního obsahu měřeného pomocí PARS (118 proteinů vázajících RNA (RBP), pro které jsou k dispozici také informace o rozšířeném síťování a imunoprecipitaci (eCLIP))31. Frakce 10 %, 15 %, …, 50 % se týkají srovnání stejně velkých souborů HS a LS. Výsledky ukazují, že catRAPID je schopen významně a konzistentně rozlišit skupiny HS a LS prostřednictvím různých frakcí (hodnota p <10-16; Kolmogorov-Smirnovův (KS) test). Rámečky znázorňují mezikvartilové rozpětí (IQR), středová čára představuje medián, metličky přičítají 1,5násobek IQR k 75. percentilu (horní hranice rámečku) a odečítají 1,5násobek IQR od 25. percentilu (dolní hranice rámečku). s.d. je uvedeno. c Vztah mezi počtem proteinových interakcí (eCLIP) a strukturním obsahem měřeným pomocí PARS30. Fitovací přímka odpovídá vzorci y = exp(α + βx), kde α = -0,75; β = 0,67; p hodnota odhadnuta pomocí KS testu. d Vztah mezi počtem proteinových interakcí a strukturním obsahem měřeným pomocí dimethylsulfátové modifikace (DMS)9. Fitovací přímka odpovídá vzorci y = 1/(α + βx), kde α = 2,60; β = 87,36; p hodnota odhadnutá pomocí KS testu. e Strukturní preference RBP měřené třemi různými technikami CLIP (fotoaktivovatelný ribonukleosidem zesílený CLIP (PAR-CLIP), high-throughput sequencing-CLIP (HITS-CLIP) a CLIP s rozlišením jednotlivých nukleotidů (iCLIP)). Barva označuje preferenci vazby na RNA u každého proteinu: růžová – vysoká struktura; modrá – nízká struktura; šedá – žádná preference. f Korelace mezi strukturním obsahem (předpovědi CROSS z experimentů icSHAPE) a proteinovými interakcemi osmi transkriptů zjištěnými pomocí proteinových mikročipů (Pearsonova korelace). s.d. je uvedeno. g Analýza struktur Protein Data Bank (PDB) obsahujících komplexy protein-RNA odhaluje trend mezi kontakty proteinů (inter) a RNA (intra) (196 různých párů; Pearsonova korelace)

Zopakovali jsme analýzu pomocí nepříbuzného přístupu RPISeq, který předpovídá interakce proteinů a RNA pomocí sekvenčních vzorů v sekvencích nukleotidů a aminokyselin11. RPISeq se skládá ze dvou metod založených na strojích s podpůrnými vektory (RPISeq-SVM) a náhodném lese (RPISeq-RF). Vzhledem ke specifickým výpočetním požadavkům jsme RPISeq použili na soubor RBP (50 proteinů se sekvenční podobností <0,85; http://cd-hit.org/) proti souboru HS a LS z chvostů distribuce strukturního obsahu (100 transkriptů) k odhadu pravděpodobností vazby (doplňková data 1). V obou případech se předpokládá, že sada HS (RF 0,80, SVM 0,71) se bude vázat s výrazně vyšší pravděpodobností než sada LS (RF 0,70, SVM 0,54; hodnota p <10-5; Kolmogorov-Smirnovův (KS) test; doplňkový obr. 1b-c), což je v souladu s analýzou catRAPID (obr. 1b). Naše analýza tedy naznačuje, že obsah struktury RNA má vliv na interakci s proteiny.

Aby se naše předpovědi shodovaly s experimentálními údaji, zkoumali jsme všechny interakce RBP-RNA odhalené metodou enhanced CrossLinking and ImmunoPrecipitation, eCLIP30 (118 RBP; viz Metody). eCLIP poskytuje kontakty proteinů na cílové RNA s rozlišením jednotlivých nukleotidů prostřednictvím ligace čárově kódovaných jednořetězcových adaptérů DNA30. Ve shodě s předpověďmi catRAPID31 (obr. 1b) koreluje vazebné skóre eCLIP se sekundární strukturou PARS, což naznačuje, že sklon RNA k interakci s proteiny je úměrný množství struktury měřené v celém transkriptomu (obr. 1c). Poznamenáváme, že přístupy CLIP-seq obecně upřednostňují detekci jednovláknové (SS) RNA na úkor dvouvláknové (DS) RNA34 a soubor dat eCLIP není obohacen o proteiny vázající dvouvláknovou RNA (9 ze 118 je přiřazeno podle UniProt jako vázající dsRNA, 12 ze 118 jako vázající ssRNA, s využitím dostupných GO anotací35), což naznačuje, že naše výsledky nejsou zkresleny typy proteinů použitých v naší analýze.

Abychom dále potvrdili, že tento trend je skutečný a není vlastní pouze měření PARS, analyzovali jsme potenciál interakce proteinů celého lidského transkriptomu s ohledem na sekundární strukturu RNA měřenou technikou dimethylsulfátové modifikace (DMS) (odlišně od PARS, vysoké hodnoty označují jednovláknové oblasti; obr. 1d)9 . Tato metoda hodnocení struktury RNA využívá hloubkové sekvenování k detekci nepárových adenosinových a cytidinových nukleotidů. Analýza opět ukazuje, že sekundární struktura RNA lidských transkriptů úzce koreluje se schopností vázat proteiny.

Použili jsme také databázi POSTAR (obsahující >1000 datových sad CLIP-seq; http://lulab.life.tsinghua.edu.cn/postar/) k získání preferencí vazby RNA lidských proteinů (103 experimentů, 85 různých RBP) měřených pomocí PAR-CLIP, vysokokapacitního sekvenování-CLIP (HITS-CLIP) a CLIP s rozlišením jednotlivých nukleotidů (iCLIP)10 . Vzhledem k vnitřním rozdílům v přístupech CLIP (a dalším faktorům, jako jsou použité buněčné linie) uvádí každý experiment jiné interakce protein-RNA10. Přesto 77 % RBP dává přednost vysoce strukturované RNA alespoň u jedné z experimentálních metod (DMS nebo PARS; obr. 1e).

Vzhledem k možným technickým zkreslením vysokokapacitních experimentů jsme se rozhodli ověřit reprodukovatelnost trendu zkoumáním korelace mezi strukturou RNA a interakcemi proteinů v nízkokapacitních analýzách. Nejprve jsme studovali interaktom osmi velkých (>1000 nt) RNA, jejichž proteinoví partneři byli identifikováni pomocí microarray, tedy přístupu bez síťování21,36,37 (viz Metody). Současně jsme odhadli strukturní obsah každého transkriptu pomocí algoritmu CROSS, který byl dříve vycvičen na datech SHAPE38 k předpovědi sklonu k dvojvláknům s rozlišením na úrovni nukleotidů. Naše výsledky prezentované na obr. 1f ukazují, že vysoce strukturované transkripty mají více proteinových kontaktů než transkripty špatně strukturované, což je plně v souladu se zjištěními prezentovanými v naší předchozí analýze (obr. 1b-e).

Naše pozorování jsme potvrdili studiem komplexů RNP uložených v databázi Protein Data Bank (PDB) (rentgenové rozlišení <2 Å; doplňková data 2; viz Metody), která obsahuje 196 různých párů RNA-protein (>20 druhů) analyzovaných různými technikami (především rentgenovou a nukleární magnetickou rezonancí (NMR)) různými laboratořemi. Měřením množství intrakontaktu RNA (tj. množství struktury RNA) a interkontaktu (tj. aminokyseliny) na nukleotidový řetězec jsme zjistili nápadnou korelaci 0,78 mezi oběma proměnnými, což poskytuje přesvědčivý důkaz jejich těsného vztahu (obr. 1g; viz rovnice (2) a (3) v Metodách).

Takže nezávisle na experimentu (PARS, DMS, microarray, X-ray, NMR, eCLIP, PAR-CLIP, HITS-CLIP a iCLIP), použitých algoritmech (catRAPID a RPISeq nebo CROSS pro napodobení dat SHAPE) nebo organismu (databáze PDB) jsme zjistili korelaci mezi počtem proteinových interakcí a strukturním obsahem RNA.

Strukturou podmíněná interaktivita proteinů u jednotlivých typů RNA

Dále jsme zjišťovali, zda je úzká vazba mezi sekundární strukturou a počtem proteinových interakcí vlastností specifických typů RNA (obr. 2a). Za tímto účelem jsme porovnali sekundární strukturu a proteinové interakce transkriptů seřazených podle sekvenční podobnosti pomocí algoritmu CD-HIT39 (http://cd-hit.org/). Při prahové hodnotě 85 % podobnosti jsme našli 22 shluků (celkem 55 transkriptů) s alespoň jedním kontaktem RBP odhaleným pomocí eCLIP. Poté jsme pro každý klastr vypočítali korelaci mezi signálem DMS a interakcí s proteiny eCLIP a v 64 % případů jsme získali negativní korelaci. Toto zjištění naznačuje, že mezi dvěma podobnými transkripty má ten s vyšším strukturním obsahem větší pravděpodobnost většího počtu proteinových interakcí.

Obr. 2
obr. 2

Funkční stopy proteinové interaktivity řízené strukturou RNA. a Schéma znázorňující úlohu intra- a intermolekulárních kontaktů v komplexu RNA-protein. Nahoře intramolekulární kontakty. Dole, mezimolekulární kontakty. Rozsah počtu kontaktů je označen odstíny od tmavě modré (nejnižší) po červenou (nejvyšší). b Nahoře, obsah struktury (modifikace dimethylsulfátem (DMS); p hodnota odhadnuta pomocí KS testu). Dole, Proteinové interakce (enhanced CrossLinking and ImmunoPrecipitation (eCLIP) hemoglobinové podjednotky γ1 (HBG1) (růžová) a hemoglobinové podjednotky γ2 (HBG2) (modrá) RNA (99,3 % sekvenční identity); empirická hodnota p byla odhadnuta porovnáním překryvu s překryvem 1000 vzorků odebraných z eCLIP RNA-vazebných proteinů (RBP). c Paralelní analýza strukturního obsahu RNA (PARS) (růžová) a DMS (modrá) různých typů RNA (Ensembl). d Sémantické seskupení termínů genové ontologie spojených s nejméně a nejvíce strukturovanými RNA (100 méně strukturovaných (LS) vs. 100 vysoce strukturovaných (HS) transkriptů) pomocí cleverGO. e Analýzou jednotlivých RNA (obr. 1 a 2b) jsme zjistili, že strukturní obsah souvisí s počtem partnerů a funkcí RNA. Naše analýza ukazuje, že funkčně příbuzné RNA mají podobný strukturní obsah (obr. 2c). Interaktivita proteinů podmíněná strukturou je vnitřní vlastností spojenou s RNA, kterou lze vysledovat na jakékoli regulační úrovni. f Každý řádek ukazuje sklony k interakcím catRAPID způsobené odstraněním fyzikálně-chemické vlastnosti13,32 . Odstranění α-helixu (Chou) a polarity (Grantham) snižuje schopnost rozlišovat mezi HS a LS (p hodnoty odhadnuty pomocí KS testu). g multicleverMachine analýza fyzikálně-chemických vlastností tří sad RBP a proteinů anotovaných v UniProt jako vazebné látky dvouvláknových RNA (DS) nebo jednovláknových RNA (SS) (viz Metody). ‚Disorder propensity‘ a ‚α-helix‘ jsou vlastnosti vykazující významné rozdíly a opačné výsledky mezi DS a SS vazebníky pro alespoň dvě databáze RBP (modrá nebo růžová barva značí, že DS nebo SS jsou obohaceny nebo ochuzeny; žlutá barva značí, že mezi sadami nejsou významné rozdíly). V rámečcích b, c je uvedeno mezikvartilové rozpětí (IQR), středová čára představuje medián, zářezy 95% interval spolehlivosti mediánu, metličky přičítají 1,5násobek IQR k 75 percentilu (horní hranice rámečku) a odečítají 1,5násobek IQR od 25 percentilu (dolní hranice rámečku). S.d. je uvedeno

Dva transkripty sdílející nejvyšší podobnost (99,31 %) jsou γ-globiny HBG1 a HBG2 (hemoglobinové podjednotky γ1 a γ2), které jsou exprimovány ve fetálních játrech, slezině a kostní dřeni (NCBI Gene ID: 3048). Varianta γ-globinu s vyšší strukturou (HBG1) má významně větší počet proteinových interaktérů (HBG1, průměrný DMS signál 0,04, 29 interaktérů; HBG2, průměrný DMS signál 0,07, 14 interaktérů; hodnota p = 0,003; KS test; obr. 2b). Zatímco nukleotidové složení obou transkriptů zůstává téměř stejné (HBG1:280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), rozdíly mezi HBG1 a HBG2 se koncentrují v oblastech, kde je změněna sekundární struktura (doplňkový obr. 2). Tyto výsledky naznačují, že interaktivita proteinů je úzce spojena s konformačními změnami v prvcích sekundární struktury. Zajímavé je, že zvýšený obsah dvouřetězců v HBG1, zejména v 3′-UTR, je doprovázen akumulací translačních regulačních elementů (obr. 2b) a současným poklesem exprese (NCBI Gene ID: 3048).

Poté nás zajímalo, zda se na regulaci proteinu podílejí specifické struktury RNA. Rozdělili jsme lidský transkriptom do různých tříd a analyzovali jejich sekundární strukturu zjištěnou dvěma nezávislými experimentálními technikami, PARS a DMS. Obě techniky ukazují, že největší strukturní obsah mají RNA kódující proteiny (obr. 2c, doplňková tabulka 1)38. Přestože je část struktury mRNA soustředěna v UTR8 , po jejich vyloučení se rozložení strukturního obsahu podstatně nemění (Pearsonova korelace mezi transkripty s UTR a bez nich = 0,94; doplňkový obr. 3). RNA, o nichž je známo, že interagují s proteiny, jako jsou malé jaderné RNA (snRNA)40 a malé nukleolární RNA (snoRNA)28 , vykazují nejvyšší množství struktury, zatímco RNA zaměřené na komplementární oblasti v nukleových kyselinách, jako jsou antisense, miRNA a řada dlouhých intergenních nekódujících RNA (lincRNA)41,42 , se vyznačují nejmenším množstvím struktury43 (doplňková tabulka 1).

V souladu s našimi zjištěními Seemann et al.12 . dříve pozorovali těsný vztah mezi vazbou na proteiny a zachováním strukturních prvků v mRNA, které se v menší míře vyskytují v dlouhých nekódujících RNA12. Ačkoli lincRNA vykazují nižší množství dvouvláknových oblastí (nejnižší u PARS, třetí nejnižší u DMS), poznamenáváme, že některé z nich, jako například NEAT144 a XIST27, jsou schopny skládat lešení pro sestavení proteinu prostřednictvím strukturních domén. Vzhledem k tomu, že probíhá diskuse o strukturních rozdílech mezi kódujícími a nekódujícími transkripty45,46 a naše analýza dat DMS a PARS odhaluje rozporuplné výsledky pro konkrétní typy RNA, navrhujeme další zkoumání v budoucích studiích (obr. 2c; doplňková tabulka 1).

Pro zkoumání funkčních rozdílů mezi vysoce a špatně strukturovanými RNA jsme analyzovali GO termíny spojené s nejméně a nejvíce strukturovanými RNA (100 LS vs. 100 HS transkriptů) pomocí přístupu cleverGO35. Zatímco soubor LS (14 nekódujících RNA a 86 mRNA) není spojen se specifickými klastry sémantické podobnosti (celkem 36 termínů s hodnotou p <0,05; Bonferroniho test), soubor HS (100 mRNA; celkem 395 termínů s hodnotou p <0,05 a 103 termínů s hodnotou p <0,01; Bonferroniho test; obr. 2d) zahrnuje 20 odlišných klastrů. Pět hlavních kategorií spojených s klastry a zahrnujících alespoň čtvrtinu záznamů je následujících: (i) komplexní regulace proteinů (49/103), (ii) nukleosidový metabolický proces (39/103), (iii) buněčná odpověď (29/103), (iv) genová exprese (29/103) a (v) cílení proteinů (28/103). Analýzu GO termínů jsme zopakovali také s použitím 25 % transkriptů s vyšší expresí jako pozadí a získali jsme podobné výsledky (GENCODE kmene K562, Metody, Doplňkový obr. 4).

Klastrová analýza odhaluje zajímavé zjištění, že transkripty se silným strukturním obsahem více interagují s polypeptidy a kódují proteiny zapojené do regulačních funkcí a do tvorby komplexních kontaktních sítí. Vzhledem ke vztahu mezi strukturou RNA a počtem interakcí s proteiny (obr. 1) je jednou z předběžných interpretací našich výsledků to, že u genů, které koordinují činnost velkého počtu buněčných sítí, je vyžadován vysoký stupeň kontroly47. Naše analýza tedy naznačuje „rekurzivní“ vlastnost: vysoce kontaktní transkripty kódují vysoce kontaktní proteiny (obr. 2e)20,48.

Disorder a helix rozlišují dsRNA vs. ssRNA

Abychom pochopili molekulární základ interaktivity molekul RNA řízené strukturou, analyzovali jsme, které fyzikálně-chemické vlastnosti proteinů lépe rozlišují soubory HS a LS. Zkoumali jsme všech 10 proměnných použitých v algoritmu catRAPID (obr. 2f)13,32 a postupně jsme je odstraňovali, abychom odhadli jejich vliv na predikci interakcí RNA s proteiny. Zjistili jsme, že schopnost rozlišovat mezi nejméně a nejvíce strukturovanými soubory RNA (100 HS a LS transkriptů; doplňková data 3) je více ovlivněna, když jsou odstraněny polarita (hodnota p = 0,28; KS test) a α-helikální sklon (hodnota p = 0,06; KS test) (obr. 2f). Vlastnost, která významněji ovlivňuje vazebnou náchylnost HS, je polarita, která je obohacena u strukturně neuspořádaných proteinů49 a antikoreluje s hydrofobicitou, která je klíčová při rozpoznávání makromolekul (doplňková tabulka 2)50 . Co se týče sklonu k α-šroubovici, poznamenáváme, že šroubovice jsou nejčastějšími strukturními prvky podílejícími se na vytváření kontaktů s dvouvláknovými oblastmi a vyskytují se u dsRBD a zinkových prstů29 (doplňková tab. 3). Naše pozorování naznačuje možnou koevoluci mezi proteiny a RNA: zatímco RNA přijímá složité tvary, aby odhalila vazebné oblasti, proteiny mění svůj strukturní obsah. Ve shodě s teorií klíčového zámku51 navrhujeme, že přírodní výběr upřednostňuje vysoce strukturované RBP jako interaktory dsRNA.

Důležitost polarity a šroubovicové struktury proteinů jsme ověřili porovnáním tří souborů dat dobře prozkoumaných RBP (lidských a kvasinkových)52,53,54 a dvou souborů proteinů získaných z UniProt (všechny organismy) buď jako výhradně ssRNA vazebníků (453 proteinů), nebo dsRNA vazebníků (390 proteinů; doplňková data 4). Analýza biofyzikálních vlastností pomocí přístupu cleverMachine55 odhalila, že ssRNA vazebné proteiny a dsRNA vazebné proteiny se liší dvěma vlastnostmi: neuspořádaností a obsahem α-helixů (obr. 2g). Porovnání obou souborů, jednoho proti druhému, naznačuje, že RBP interagující s vysoce strukturovanými RNA jsou strukturované a hydrofobní, zatímco neuspořádané a polární RBP se spojují s méně strukturovanými RNA (doplňkový obr. 5). Naše analýza tedy dále rozšiřuje to, co bylo dříve uvedeno pro sítě interakcí protein-protein, v nichž se ukázalo, že ústřední roli hrají strukturní neuspořádané oblasti47, a naznačuje nová pravidla pro párování nukleotidových bází s aminokyselinami.

Obsah struktury RNA a kontakt s proteiny u chaperonů

Analýza lidského transkriptomu a napříč organismy naznačuje, že vysoce strukturované RNA jsou náchylné k interakcím s polypeptidy a následně kódují proteiny zapojené do biologických procesů spojených s velkými a složitými sítěmi kontaktů. Abychom lépe prozkoumali interaktivitu molekul RNA s proteiny podmíněnou jejich strukturou, zaměřili jsme se na třídu transkriptů kódujících proteiny interagující s několika partnery. Přirozenou volbou pro tuto analýzu jsou molekulární chaperony, protože podporují skládání do nativního stavu56 a organizují sestavování fázově oddělených sestav RNP57 , čímž splňují „rekurzivní“ vlastnost představenou na obr. 2d. Data eCLIP30 ukazují, že většina RNA kódujících lidské chaperony je zapojena do interakcí s více proteiny (doplňkový obr. 6). Zjistili jsme významnou korelaci mezi interakcemi protein-RNA a protein-protein anotovanými v BioGRID (obr. 3a). Tento výsledek potvrzuje, že transkripty vázané mnoha RBP kódují také vysoce kontaktní proteiny.

Obr. 3
obr. 3

Souvislost mezi strukturou RNA a kontakty proteinů pro chaperony. a Kontakty RNA kódující proteinové chaperony, měřené metodou enhanced CrossLinking and ImmunoPrecipitation (eCLIP)30 , a fyzické interakce odpovídajících kódovaných proteinů, shromážděné v BioGRID; p hodnota odhadnuta pomocí KS testu. b Srovnání mezi strukturním obsahem paralelní analýzy struktury RNA (PARS) a fyzickými interakcemi kódovaných proteinů, shromážděnými v BioGRID, pro celý transkriptom. Transkriptom byl rozdělen do pěti po sobě jdoucích sad obsahujících vždy 20 % transkriptomu. Sady byly vybrány s ohledem na jejich strukturní obsah PARS, rozsah každé sady zleva doprava je následující: -10.7 až -4.6; -4.6 až -3.1; -3.1 až -2.4; -2.4 až -1.9; -1.9 až -0.5. Poslední boxplot ukazuje rozložení počtu fyzických interaktorů získaných z BioGRID pro rodinu chaperonových proteinů (heat-shock proteiny). c PARS měření obsahu sekundární struktury transkriptů HS (HSP70, růžová) a LS (BRaf, modrá). Svislé přerušované čáry označují nepřekládané oblasti (UTR). d PARS obsah sekundární struktury HS a LS transkriptů (p hodnota odhadnutá pomocí KS testu). e Vennův diagram znázorňující překrývání proteinových interakcí měřených pomocí eCLIP u HS a LS RNA (empirická hodnota p <6 × 10-3; odhadnuta porovnáním s distribucí 1000 překryvů sad vybraných z eCLIP RBP). f Předpověď náchylnosti HS a LS RNA k vazbě proteinů pomocí catRAPID13,32 (hodnota p odhadnuta pomocí KS testu). V případě b, d, f je v rámečcích uvedeno mezikvartilové rozpětí (IQR), středová čára představuje medián, zářezy 95% interval spolehlivosti mediánu, metličky přičítají 1,5násobek IQR k 75. percentilu (horní hranice rámečku) a odečítají 1,5násobek IQR od 25. percentilu (dolní hranice rámečku). S.d. je uvedeno

Abychom pochopili, zda je korelace mezi interakcemi protein-protein a protein-RNA obecnou vlastností, nebo pouze vlastností rodiny chaperonů, analyzovali jsme interakce transkriptomu seřazené podle skóre PARS a 24 mRNA kódujících chaperony, pro které jsou k dispozici údaje PARS (Genecards; https://www.genecards.org; sada „HSPs“; Metody, obr. 3b). Zjistili jsme pozitivní korelaci mezi množstvím struktury RNA a počtem interaktorů BioGRID kódovaných proteinů (doplňkový obr. 7a-b). Naše výpočty se tedy shodují s analýzou GO (obr. 2d) a naznačují vztah mezi mRNA a jejich kódujícími partnery: vysoce strukturované RNA kódují vysoce interagující proteiny.

Z dosud uvedených údajů vyplývá, že RNA příbuzné podle typu (např. miRNA, snRNA) nebo funkce (např. kódující chaperony) mají podobné strukturní charakteristiky (obr. 2). Mělo by tedy být možné odhadnout rozdíly v interakční síti dvou nepříbuzných transkriptů analýzou jejich strukturního obsahu a naopak. K ověření této hypotézy jsme vybrali vysoce strukturovaný transkript HSP70 (HS RNA, logaritmus PARS skóre -1,3 odpovídající 26 % obsahu dvoušroubovic, obr. 3c) kódující chaperon nezbytný pro regulaci sestav proteinových komplexů, jako jsou klatrinové pláště58 a stresová granula22,57 . Jako kontrolu jsme zvolili RNA kódující BRaf, která je méně strukturovaná (LS RNA, skóre -2,8 označující 6 % dvouvláknového obsahu podle PARS, obr. 3c-e) a kóduje onkogen podílející se na přenosu chemických signálů z vnějšku buňky do jádra (strukturní srovnání potvrzují předpovědi CROSS a experimenty DMS, jak je uvedeno na doplňkovém obr. 3c-e). 8).

Zjistili jsme, že HSP70 má větší počet partnerů (30 RBP identifikovaných pomocí eCLIP) než BRaf (9 eCLIP RBP, 6 společných s HSP70, doplňkový obr. 9), což je v naprostém souladu se strukturou podmíněnou vlastností interaktivity proteinů. V souladu s trendem na obr. 1b catRAPID ukazuje, že proteiny mají větší sklon k vazbě na HSP70 než na BRaf (obr. 3f). Navíc vysoce strukturovaný HSP70 kóduje protein s větším počtem interaktorů (244 fyzických interaktorů BioGRID), zatímco špatně strukturovaný BRaf má proteinový produkt vázající se na menší soubor molekul (88 fyzických interaktorů BioGRID). Naše pozorování naznačují, že RNA s velkým počtem interakcí má sklon působit jako regulátor sítě: spekulujeme, že díky vyšší interaktivitě by mohl transkript HSP70 v závislosti na kontextu fungovat jako chaperon.

Předpokládáme tedy, že strukturovaná RNA je díky vyššímu potenciálu interakcí s proteiny schopna ovlivňovat síť proteinových interakcí více než špatně strukturovaná RNA. V ověřovacím experimentu jsme použili chemickou sloučeninu, biotinylovaný isoxazol (b-isox), abychom vyvolali vznik přechodu z kapalné do pevné fáze proteinové sestavy59,60 , kterou jsme inkubovali s transkripty HS (HSP70) nebo LS (BRaf) (obr. 4a a doplňkový obr. 10). Pozorovali jsme, že HS změnil složení proteinového agregátu více než LS RNA (obr. 4b a doplňková data 5). Při přidání HS RNA byla skutečně pozorována významná změna koncentrace u 29 proteinů (obr. 4c; 21 „uvolněných“ souborů, černé tečky, a 8 „zachovaných“ souborů, červené tečky na obr. 4b), zatímco v případě LS RNA bylo identifikováno pouze devět proteinů. Složení v přítomnosti LS RNA tedy zůstalo podobné jako u kontroly pozadí („statická“ sada, šedé tečky na obr. 4b).

Obr. 4
figure4

Strukturovaná RNA snižuje agregaci proteinů in vitro. a Agregace proteinového lyzátu HeLa in vitro řízená biotinylovaným isoxazolem (b-isox). Vlevo gely obarvené Coomassie, zobrazen jeden reprezentativní experiment (nezkrácené gely jsou uvedeny na doplňkovém obr. 10). Uprostřed, intenzita agregovaných proteinů byla kvantifikována a rozdíl vyhodnocen pomocí dvouvýběrového t-testu (p = 1 ×1 0-3; N = 3 biologické replikace zobrazené jako tečky na obrázku). Je znázorněna střední kvadratická odchylka (S.d.). Vpravo experimentální schéma. Účinnost agregace byla testována porovnáním výsledného precipitátu v přítomnosti nebo nepřítomnosti b-isoxu, to je označeno a+ nebo a-, resp. b Sopečné grafy ukazují p hodnoty (Perseova míra) obohacení jednotlivých proteinů v sestavě b-isoxu (N = 4 nezávislé biologické replikace). Práh statistické významnosti je vyznačen vodorovnou čarou (viz také doplňková data 5). Černé tečky jsou proteiny s významně sníženou koncentrací po inkubaci RNA. Červené tečky jsou proteiny s významně zvýšenou koncentrací po inkubaci RNA. c Barevně kódované intenzity bezznačkové kvantifikace (LFQ) proteinů ovlivněných vysoce strukturovanou (HS) RNA na stupnici od černé (nízká) po červenou (vysoká). Je vyznačeno hierarchické shlukování pomocí programu Perseus. Pro srovnání jsou vyneseny také intenzity LFQ stejných proteinů v kontrole a v přítomnosti LS RNA

Uvažovali jsme, že konkurence RNA s kontaktní sítí b-isox precipitátu59,60 může být důsledkem buď přímých, nebo nepřímých interakcí protein-RNA (obr. 5a). Přesto předpovědi catRAPID podporují hypotézu přímého účinku: zvýšení experimentální přísnosti (doplňkový obr. 11; Metody) je spojeno také se zvýšením teoretické predikční síly (obr. 5b). V souladu s naší předchozí analýzou vazebných preferencí RNA je výsledek proteinů uvolněných po inkubaci HSP70 výrazně zbaven polarity (obr. 5c). Náš experiment tedy naznačuje, že interaktivita proteinů řízená strukturou molekul RNA je aktivní na všech úrovních, podporuje jednotlivé interakce a mění složení kondenzátů12 (obr. 2e).

Obr. 2. 5
obrázek5

Interakce uvnitř ribonukleoproteinového kondenzátu. a Uvolňování proteinů z biotinylované izoxazolové (b-izox) sestavy může být výsledkem: (1) nepřímého procesu, který je výsledkem interakční konkurence mezi RNA a proteinovým agregátem, nebo (2) přímého procesu, který je výsledkem sekvestrace proteinů RNA. b catRAPID se zlepšuje s přísností b-isox experimentů (Metody), což naznačuje přímý nábor proteinů zachráněných vysoce strukturovanou (HS) RNA. Míra falešných objevů (FDR) se stává vysoce významnou pro nejpřísnější experimentální sadu (FDR = 0,1). c „Uvolněné“ proteiny (černý rámeček) jsou méně polární než „statické“ (šedý rámeček), což je v souladu s naší výpočetní analýzou (hodnota p = 4,7 × 10-2, hodnota p odhadnutá pomocí KS testu; viz také obr. 2f, g). Uvolněné a statické proteiny odpovídají černým a šedým tečkám na pravém panelu obr. 4b. Krabičky znázorňují mezikvartilové rozpětí (IQR), středová čára představuje medián, zářezy 95% interval spolehlivosti mediánu, metličky přičítají 1,5násobek IQR k 75. percentilu (horní hranice krabičky) a odečítají 1,5násobek IQR od 25. percentilu (dolní hranice krabičky). S.d. je zobrazeno

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.