Struktura RNA ovlivňuje interakci s proteiny
Vysoce strukturované RNA vážou velké množství proteinů
S cílem studovat, jak struktura RNA ovlivňuje vazbu na proteiny, jsme měřili množství dvouvláknových oblastí lidského transkriptomu8 (obr. 1a). Nejprve jsme RNA, zjištěné metodou zesíleného síťování a imunoprecipitace (eCLIP)30 , rozdělili do tříd na základě strukturního obsahu měřeného pomocí „paralelní analýzy struktury RNA“ (PARS)8 (doplňkový obr. 1a a obr. 1b). PARS je experimentální technika, která rozlišuje dvouvláknové a jednovláknové oblasti RNA pomocí katalytické aktivity dvou enzymů, RNasy V1 (schopné řezat dvouvláknové nukleotidy) a S1 (schopné řezat jednovláknové nukleotidy), a u níž pozitivní skóre označuje dvouvláknové oblasti (viz obr. 1). (1) v metodách)8. Poté jsme použili catRAPID předpovědi interakcí protein-RNA (dostupné z databáze RNAct, která obsahuje výpočty pro celý proteom i transkriptom31) a porovnali skóre interakcí různých skupin (HS, vysoký obsah struktury, vs. LS, nízký obsah struktury) (obr. 1b). Algoritmus catRAPID32 odhaduje vazebný potenciál prostřednictvím van der Waalsových a vodíkových vazeb a sklonu k sekundární struktuře proteinových i RNA sekvencí (celkem 10 vlastností), což umožňuje identifikovat vazebné partnery s vysokou spolehlivostí. Jak bylo skutečně uvedeno v nedávné analýze přibližně půl milionu experimentálně ověřených interakcí31 , algoritmus je schopen oddělit interagující vs. neinteragující páry s plochou pod křivkou (AUC) křivky ROC (receiver operating characteristic) 0,78 (s mírou falešných objevů (FDR) výrazně nižší než 0,25, pokud jsou hodnoty Z-skóre >2). Srovnání skupin RNA s různým strukturním obsahem ukazuje konzistentní trend, kdy vyšší strukturní obsah v molekulách RNA vede k vyššímu skóre proteinových interakcí (obr. 1b). Pokud jde o údaje PARS, všimli jsme si, že množství dvouvláknových oblastí slabě koreluje (<0,10; Pearsonova) s délkou RNA a obsahem GC, což naznačuje, že tyto dva faktory pozitivně přispívají k sekundární struktuře tím, že zvyšují velikost konformačního prostoru i celkovou stabilitu33.
Zopakovali jsme analýzu pomocí nepříbuzného přístupu RPISeq, který předpovídá interakce proteinů a RNA pomocí sekvenčních vzorů v sekvencích nukleotidů a aminokyselin11. RPISeq se skládá ze dvou metod založených na strojích s podpůrnými vektory (RPISeq-SVM) a náhodném lese (RPISeq-RF). Vzhledem ke specifickým výpočetním požadavkům jsme RPISeq použili na soubor RBP (50 proteinů se sekvenční podobností <0,85; http://cd-hit.org/) proti souboru HS a LS z chvostů distribuce strukturního obsahu (100 transkriptů) k odhadu pravděpodobností vazby (doplňková data 1). V obou případech se předpokládá, že sada HS (RF 0,80, SVM 0,71) se bude vázat s výrazně vyšší pravděpodobností než sada LS (RF 0,70, SVM 0,54; hodnota p <10-5; Kolmogorov-Smirnovův (KS) test; doplňkový obr. 1b-c), což je v souladu s analýzou catRAPID (obr. 1b). Naše analýza tedy naznačuje, že obsah struktury RNA má vliv na interakci s proteiny.
Aby se naše předpovědi shodovaly s experimentálními údaji, zkoumali jsme všechny interakce RBP-RNA odhalené metodou enhanced CrossLinking and ImmunoPrecipitation, eCLIP30 (118 RBP; viz Metody). eCLIP poskytuje kontakty proteinů na cílové RNA s rozlišením jednotlivých nukleotidů prostřednictvím ligace čárově kódovaných jednořetězcových adaptérů DNA30. Ve shodě s předpověďmi catRAPID31 (obr. 1b) koreluje vazebné skóre eCLIP se sekundární strukturou PARS, což naznačuje, že sklon RNA k interakci s proteiny je úměrný množství struktury měřené v celém transkriptomu (obr. 1c). Poznamenáváme, že přístupy CLIP-seq obecně upřednostňují detekci jednovláknové (SS) RNA na úkor dvouvláknové (DS) RNA34 a soubor dat eCLIP není obohacen o proteiny vázající dvouvláknovou RNA (9 ze 118 je přiřazeno podle UniProt jako vázající dsRNA, 12 ze 118 jako vázající ssRNA, s využitím dostupných GO anotací35), což naznačuje, že naše výsledky nejsou zkresleny typy proteinů použitých v naší analýze.
Abychom dále potvrdili, že tento trend je skutečný a není vlastní pouze měření PARS, analyzovali jsme potenciál interakce proteinů celého lidského transkriptomu s ohledem na sekundární strukturu RNA měřenou technikou dimethylsulfátové modifikace (DMS) (odlišně od PARS, vysoké hodnoty označují jednovláknové oblasti; obr. 1d)9 . Tato metoda hodnocení struktury RNA využívá hloubkové sekvenování k detekci nepárových adenosinových a cytidinových nukleotidů. Analýza opět ukazuje, že sekundární struktura RNA lidských transkriptů úzce koreluje se schopností vázat proteiny.
Použili jsme také databázi POSTAR (obsahující >1000 datových sad CLIP-seq; http://lulab.life.tsinghua.edu.cn/postar/) k získání preferencí vazby RNA lidských proteinů (103 experimentů, 85 různých RBP) měřených pomocí PAR-CLIP, vysokokapacitního sekvenování-CLIP (HITS-CLIP) a CLIP s rozlišením jednotlivých nukleotidů (iCLIP)10 . Vzhledem k vnitřním rozdílům v přístupech CLIP (a dalším faktorům, jako jsou použité buněčné linie) uvádí každý experiment jiné interakce protein-RNA10. Přesto 77 % RBP dává přednost vysoce strukturované RNA alespoň u jedné z experimentálních metod (DMS nebo PARS; obr. 1e).
Vzhledem k možným technickým zkreslením vysokokapacitních experimentů jsme se rozhodli ověřit reprodukovatelnost trendu zkoumáním korelace mezi strukturou RNA a interakcemi proteinů v nízkokapacitních analýzách. Nejprve jsme studovali interaktom osmi velkých (>1000 nt) RNA, jejichž proteinoví partneři byli identifikováni pomocí microarray, tedy přístupu bez síťování21,36,37 (viz Metody). Současně jsme odhadli strukturní obsah každého transkriptu pomocí algoritmu CROSS, který byl dříve vycvičen na datech SHAPE38 k předpovědi sklonu k dvojvláknům s rozlišením na úrovni nukleotidů. Naše výsledky prezentované na obr. 1f ukazují, že vysoce strukturované transkripty mají více proteinových kontaktů než transkripty špatně strukturované, což je plně v souladu se zjištěními prezentovanými v naší předchozí analýze (obr. 1b-e).
Naše pozorování jsme potvrdili studiem komplexů RNP uložených v databázi Protein Data Bank (PDB) (rentgenové rozlišení <2 Å; doplňková data 2; viz Metody), která obsahuje 196 různých párů RNA-protein (>20 druhů) analyzovaných různými technikami (především rentgenovou a nukleární magnetickou rezonancí (NMR)) různými laboratořemi. Měřením množství intrakontaktu RNA (tj. množství struktury RNA) a interkontaktu (tj. aminokyseliny) na nukleotidový řetězec jsme zjistili nápadnou korelaci 0,78 mezi oběma proměnnými, což poskytuje přesvědčivý důkaz jejich těsného vztahu (obr. 1g; viz rovnice (2) a (3) v Metodách).
Takže nezávisle na experimentu (PARS, DMS, microarray, X-ray, NMR, eCLIP, PAR-CLIP, HITS-CLIP a iCLIP), použitých algoritmech (catRAPID a RPISeq nebo CROSS pro napodobení dat SHAPE) nebo organismu (databáze PDB) jsme zjistili korelaci mezi počtem proteinových interakcí a strukturním obsahem RNA.
Strukturou podmíněná interaktivita proteinů u jednotlivých typů RNA
Dále jsme zjišťovali, zda je úzká vazba mezi sekundární strukturou a počtem proteinových interakcí vlastností specifických typů RNA (obr. 2a). Za tímto účelem jsme porovnali sekundární strukturu a proteinové interakce transkriptů seřazených podle sekvenční podobnosti pomocí algoritmu CD-HIT39 (http://cd-hit.org/). Při prahové hodnotě 85 % podobnosti jsme našli 22 shluků (celkem 55 transkriptů) s alespoň jedním kontaktem RBP odhaleným pomocí eCLIP. Poté jsme pro každý klastr vypočítali korelaci mezi signálem DMS a interakcí s proteiny eCLIP a v 64 % případů jsme získali negativní korelaci. Toto zjištění naznačuje, že mezi dvěma podobnými transkripty má ten s vyšším strukturním obsahem větší pravděpodobnost většího počtu proteinových interakcí.
Dva transkripty sdílející nejvyšší podobnost (99,31 %) jsou γ-globiny HBG1 a HBG2 (hemoglobinové podjednotky γ1 a γ2), které jsou exprimovány ve fetálních játrech, slezině a kostní dřeni (NCBI Gene ID: 3048). Varianta γ-globinu s vyšší strukturou (HBG1) má významně větší počet proteinových interaktérů (HBG1, průměrný DMS signál 0,04, 29 interaktérů; HBG2, průměrný DMS signál 0,07, 14 interaktérů; hodnota p = 0,003; KS test; obr. 2b). Zatímco nukleotidové složení obou transkriptů zůstává téměř stejné (HBG1:280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), rozdíly mezi HBG1 a HBG2 se koncentrují v oblastech, kde je změněna sekundární struktura (doplňkový obr. 2). Tyto výsledky naznačují, že interaktivita proteinů je úzce spojena s konformačními změnami v prvcích sekundární struktury. Zajímavé je, že zvýšený obsah dvouřetězců v HBG1, zejména v 3′-UTR, je doprovázen akumulací translačních regulačních elementů (obr. 2b) a současným poklesem exprese (NCBI Gene ID: 3048).
Poté nás zajímalo, zda se na regulaci proteinu podílejí specifické struktury RNA. Rozdělili jsme lidský transkriptom do různých tříd a analyzovali jejich sekundární strukturu zjištěnou dvěma nezávislými experimentálními technikami, PARS a DMS. Obě techniky ukazují, že největší strukturní obsah mají RNA kódující proteiny (obr. 2c, doplňková tabulka 1)38. Přestože je část struktury mRNA soustředěna v UTR8 , po jejich vyloučení se rozložení strukturního obsahu podstatně nemění (Pearsonova korelace mezi transkripty s UTR a bez nich = 0,94; doplňkový obr. 3). RNA, o nichž je známo, že interagují s proteiny, jako jsou malé jaderné RNA (snRNA)40 a malé nukleolární RNA (snoRNA)28 , vykazují nejvyšší množství struktury, zatímco RNA zaměřené na komplementární oblasti v nukleových kyselinách, jako jsou antisense, miRNA a řada dlouhých intergenních nekódujících RNA (lincRNA)41,42 , se vyznačují nejmenším množstvím struktury43 (doplňková tabulka 1).
V souladu s našimi zjištěními Seemann et al.12 . dříve pozorovali těsný vztah mezi vazbou na proteiny a zachováním strukturních prvků v mRNA, které se v menší míře vyskytují v dlouhých nekódujících RNA12. Ačkoli lincRNA vykazují nižší množství dvouvláknových oblastí (nejnižší u PARS, třetí nejnižší u DMS), poznamenáváme, že některé z nich, jako například NEAT144 a XIST27, jsou schopny skládat lešení pro sestavení proteinu prostřednictvím strukturních domén. Vzhledem k tomu, že probíhá diskuse o strukturních rozdílech mezi kódujícími a nekódujícími transkripty45,46 a naše analýza dat DMS a PARS odhaluje rozporuplné výsledky pro konkrétní typy RNA, navrhujeme další zkoumání v budoucích studiích (obr. 2c; doplňková tabulka 1).
Pro zkoumání funkčních rozdílů mezi vysoce a špatně strukturovanými RNA jsme analyzovali GO termíny spojené s nejméně a nejvíce strukturovanými RNA (100 LS vs. 100 HS transkriptů) pomocí přístupu cleverGO35. Zatímco soubor LS (14 nekódujících RNA a 86 mRNA) není spojen se specifickými klastry sémantické podobnosti (celkem 36 termínů s hodnotou p <0,05; Bonferroniho test), soubor HS (100 mRNA; celkem 395 termínů s hodnotou p <0,05 a 103 termínů s hodnotou p <0,01; Bonferroniho test; obr. 2d) zahrnuje 20 odlišných klastrů. Pět hlavních kategorií spojených s klastry a zahrnujících alespoň čtvrtinu záznamů je následujících: (i) komplexní regulace proteinů (49/103), (ii) nukleosidový metabolický proces (39/103), (iii) buněčná odpověď (29/103), (iv) genová exprese (29/103) a (v) cílení proteinů (28/103). Analýzu GO termínů jsme zopakovali také s použitím 25 % transkriptů s vyšší expresí jako pozadí a získali jsme podobné výsledky (GENCODE kmene K562, Metody, Doplňkový obr. 4).
Klastrová analýza odhaluje zajímavé zjištění, že transkripty se silným strukturním obsahem více interagují s polypeptidy a kódují proteiny zapojené do regulačních funkcí a do tvorby komplexních kontaktních sítí. Vzhledem ke vztahu mezi strukturou RNA a počtem interakcí s proteiny (obr. 1) je jednou z předběžných interpretací našich výsledků to, že u genů, které koordinují činnost velkého počtu buněčných sítí, je vyžadován vysoký stupeň kontroly47. Naše analýza tedy naznačuje „rekurzivní“ vlastnost: vysoce kontaktní transkripty kódují vysoce kontaktní proteiny (obr. 2e)20,48.
Disorder a helix rozlišují dsRNA vs. ssRNA
Abychom pochopili molekulární základ interaktivity molekul RNA řízené strukturou, analyzovali jsme, které fyzikálně-chemické vlastnosti proteinů lépe rozlišují soubory HS a LS. Zkoumali jsme všech 10 proměnných použitých v algoritmu catRAPID (obr. 2f)13,32 a postupně jsme je odstraňovali, abychom odhadli jejich vliv na predikci interakcí RNA s proteiny. Zjistili jsme, že schopnost rozlišovat mezi nejméně a nejvíce strukturovanými soubory RNA (100 HS a LS transkriptů; doplňková data 3) je více ovlivněna, když jsou odstraněny polarita (hodnota p = 0,28; KS test) a α-helikální sklon (hodnota p = 0,06; KS test) (obr. 2f). Vlastnost, která významněji ovlivňuje vazebnou náchylnost HS, je polarita, která je obohacena u strukturně neuspořádaných proteinů49 a antikoreluje s hydrofobicitou, která je klíčová při rozpoznávání makromolekul (doplňková tabulka 2)50 . Co se týče sklonu k α-šroubovici, poznamenáváme, že šroubovice jsou nejčastějšími strukturními prvky podílejícími se na vytváření kontaktů s dvouvláknovými oblastmi a vyskytují se u dsRBD a zinkových prstů29 (doplňková tab. 3). Naše pozorování naznačuje možnou koevoluci mezi proteiny a RNA: zatímco RNA přijímá složité tvary, aby odhalila vazebné oblasti, proteiny mění svůj strukturní obsah. Ve shodě s teorií klíčového zámku51 navrhujeme, že přírodní výběr upřednostňuje vysoce strukturované RBP jako interaktory dsRNA.
Důležitost polarity a šroubovicové struktury proteinů jsme ověřili porovnáním tří souborů dat dobře prozkoumaných RBP (lidských a kvasinkových)52,53,54 a dvou souborů proteinů získaných z UniProt (všechny organismy) buď jako výhradně ssRNA vazebníků (453 proteinů), nebo dsRNA vazebníků (390 proteinů; doplňková data 4). Analýza biofyzikálních vlastností pomocí přístupu cleverMachine55 odhalila, že ssRNA vazebné proteiny a dsRNA vazebné proteiny se liší dvěma vlastnostmi: neuspořádaností a obsahem α-helixů (obr. 2g). Porovnání obou souborů, jednoho proti druhému, naznačuje, že RBP interagující s vysoce strukturovanými RNA jsou strukturované a hydrofobní, zatímco neuspořádané a polární RBP se spojují s méně strukturovanými RNA (doplňkový obr. 5). Naše analýza tedy dále rozšiřuje to, co bylo dříve uvedeno pro sítě interakcí protein-protein, v nichž se ukázalo, že ústřední roli hrají strukturní neuspořádané oblasti47, a naznačuje nová pravidla pro párování nukleotidových bází s aminokyselinami.
Obsah struktury RNA a kontakt s proteiny u chaperonů
Analýza lidského transkriptomu a napříč organismy naznačuje, že vysoce strukturované RNA jsou náchylné k interakcím s polypeptidy a následně kódují proteiny zapojené do biologických procesů spojených s velkými a složitými sítěmi kontaktů. Abychom lépe prozkoumali interaktivitu molekul RNA s proteiny podmíněnou jejich strukturou, zaměřili jsme se na třídu transkriptů kódujících proteiny interagující s několika partnery. Přirozenou volbou pro tuto analýzu jsou molekulární chaperony, protože podporují skládání do nativního stavu56 a organizují sestavování fázově oddělených sestav RNP57 , čímž splňují „rekurzivní“ vlastnost představenou na obr. 2d. Data eCLIP30 ukazují, že většina RNA kódujících lidské chaperony je zapojena do interakcí s více proteiny (doplňkový obr. 6). Zjistili jsme významnou korelaci mezi interakcemi protein-RNA a protein-protein anotovanými v BioGRID (obr. 3a). Tento výsledek potvrzuje, že transkripty vázané mnoha RBP kódují také vysoce kontaktní proteiny.
Abychom pochopili, zda je korelace mezi interakcemi protein-protein a protein-RNA obecnou vlastností, nebo pouze vlastností rodiny chaperonů, analyzovali jsme interakce transkriptomu seřazené podle skóre PARS a 24 mRNA kódujících chaperony, pro které jsou k dispozici údaje PARS (Genecards; https://www.genecards.org; sada „HSPs“; Metody, obr. 3b). Zjistili jsme pozitivní korelaci mezi množstvím struktury RNA a počtem interaktorů BioGRID kódovaných proteinů (doplňkový obr. 7a-b). Naše výpočty se tedy shodují s analýzou GO (obr. 2d) a naznačují vztah mezi mRNA a jejich kódujícími partnery: vysoce strukturované RNA kódují vysoce interagující proteiny.
Z dosud uvedených údajů vyplývá, že RNA příbuzné podle typu (např. miRNA, snRNA) nebo funkce (např. kódující chaperony) mají podobné strukturní charakteristiky (obr. 2). Mělo by tedy být možné odhadnout rozdíly v interakční síti dvou nepříbuzných transkriptů analýzou jejich strukturního obsahu a naopak. K ověření této hypotézy jsme vybrali vysoce strukturovaný transkript HSP70 (HS RNA, logaritmus PARS skóre -1,3 odpovídající 26 % obsahu dvoušroubovic, obr. 3c) kódující chaperon nezbytný pro regulaci sestav proteinových komplexů, jako jsou klatrinové pláště58 a stresová granula22,57 . Jako kontrolu jsme zvolili RNA kódující BRaf, která je méně strukturovaná (LS RNA, skóre -2,8 označující 6 % dvouvláknového obsahu podle PARS, obr. 3c-e) a kóduje onkogen podílející se na přenosu chemických signálů z vnějšku buňky do jádra (strukturní srovnání potvrzují předpovědi CROSS a experimenty DMS, jak je uvedeno na doplňkovém obr. 3c-e). 8).
Zjistili jsme, že HSP70 má větší počet partnerů (30 RBP identifikovaných pomocí eCLIP) než BRaf (9 eCLIP RBP, 6 společných s HSP70, doplňkový obr. 9), což je v naprostém souladu se strukturou podmíněnou vlastností interaktivity proteinů. V souladu s trendem na obr. 1b catRAPID ukazuje, že proteiny mají větší sklon k vazbě na HSP70 než na BRaf (obr. 3f). Navíc vysoce strukturovaný HSP70 kóduje protein s větším počtem interaktorů (244 fyzických interaktorů BioGRID), zatímco špatně strukturovaný BRaf má proteinový produkt vázající se na menší soubor molekul (88 fyzických interaktorů BioGRID). Naše pozorování naznačují, že RNA s velkým počtem interakcí má sklon působit jako regulátor sítě: spekulujeme, že díky vyšší interaktivitě by mohl transkript HSP70 v závislosti na kontextu fungovat jako chaperon.
Předpokládáme tedy, že strukturovaná RNA je díky vyššímu potenciálu interakcí s proteiny schopna ovlivňovat síť proteinových interakcí více než špatně strukturovaná RNA. V ověřovacím experimentu jsme použili chemickou sloučeninu, biotinylovaný isoxazol (b-isox), abychom vyvolali vznik přechodu z kapalné do pevné fáze proteinové sestavy59,60 , kterou jsme inkubovali s transkripty HS (HSP70) nebo LS (BRaf) (obr. 4a a doplňkový obr. 10). Pozorovali jsme, že HS změnil složení proteinového agregátu více než LS RNA (obr. 4b a doplňková data 5). Při přidání HS RNA byla skutečně pozorována významná změna koncentrace u 29 proteinů (obr. 4c; 21 „uvolněných“ souborů, černé tečky, a 8 „zachovaných“ souborů, červené tečky na obr. 4b), zatímco v případě LS RNA bylo identifikováno pouze devět proteinů. Složení v přítomnosti LS RNA tedy zůstalo podobné jako u kontroly pozadí („statická“ sada, šedé tečky na obr. 4b).
Uvažovali jsme, že konkurence RNA s kontaktní sítí b-isox precipitátu59,60 může být důsledkem buď přímých, nebo nepřímých interakcí protein-RNA (obr. 5a). Přesto předpovědi catRAPID podporují hypotézu přímého účinku: zvýšení experimentální přísnosti (doplňkový obr. 11; Metody) je spojeno také se zvýšením teoretické predikční síly (obr. 5b). V souladu s naší předchozí analýzou vazebných preferencí RNA je výsledek proteinů uvolněných po inkubaci HSP70 výrazně zbaven polarity (obr. 5c). Náš experiment tedy naznačuje, že interaktivita proteinů řízená strukturou molekul RNA je aktivní na všech úrovních, podporuje jednotlivé interakce a mění složení kondenzátů12 (obr. 2e).
.