RNA structure drives interaction with proteins

lip 29, 2021
admin

Highly structured RNAs bind a large amount of proteins

W celu zbadania, w jaki sposób struktura RNA wpływa na wiązanie białek, zmierzyliśmy ilość regionów dwuniciowych w ludzkim transkryptomie8 (ryc. 1a). Najpierw pogrupowaliśmy RNA, wykryte metodą wzmocnionego sieciowania i immunoprecypitacji (eCLIP)30, w klasy oparte na zawartości strukturalnej mierzonej metodą „równoległej analizy struktury RNA” (PARS)8 (Supplementary Fig. 1a i Fig. 1b). PARS jest techniką eksperymentalną, która rozróżnia dwuniciowe i jednoniciowe regiony RNA przy użyciu aktywności katalitycznej dwóch enzymów, RNazy V1 (zdolnej do cięcia dwuniciowych nukleotydów) i S1 (zdolnej do cięcia jednoniciowych nukleotydów), dla których pozytywne wyniki wskazują na dwuniciowe regiony (patrz Eq. (1) w Metodach)8. Następnie wykorzystaliśmy przewidywania catRAPID dotyczące interakcji białko-RNA (dostępne w bazie danych RNAct, która zawiera zarówno obliczenia dla całego proteomu, jak i transkryptomu31) i porównaliśmy wyniki interakcji różnych grup (HS, wysoka zawartość strukturalna, vs. LS, niska zawartość strukturalna) (Rys. 1b). Algorytm catRAPID32 szacuje potencjał wiązania poprzez właściwości van der Waalsa, wiązania wodorowego i struktury drugorzędowej zarówno sekwencji białek, jak i RNA (łącznie 10 właściwości), umożliwiając identyfikację partnerów wiążących z dużą pewnością. Rzeczywiście, jak podano w niedawnej analizie około pół miliona eksperymentalnie zwalidowanych interakcji31, algorytm jest w stanie oddzielić pary oddziałujące od nie oddziałujących z obszarem pod krzywą (AUC) krzywej ROC (receiver operating characteristic) wynoszącym 0,78 (przy współczynniku fałszywego odkrycia (FDR) znacznie poniżej 0,25, gdy wartości Z-score są >2). Porównanie grup RNA o różnej zawartości strukturalnej pokazuje spójny trend, w którym wyższa zawartość strukturalna w cząsteczkach RNA skutkuje wyższymi wynikami interakcji białkowych (Rys. 1b). W przypadku danych PARS zauważamy, że ilość regionów dwuniciowych słabo koreluje (<0,10; Pearsona) z długością RNA i zawartością GC, wskazując, że te dwa czynniki pozytywnie wpływają na strukturę drugorzędową, zwiększając rozmiar przestrzeni konformacyjnej, jak również ogólną stabilność33.

Ryc. 1
figura1

Ilość struktury białkowej koreluje z liczbą oddziaływań. a Funkcja rozkładu skumulowanego (CDF) dla zawartości struktury drugorzędowej wszystkich ludzkich RNA mierzonej metodą równoległej analizy struktury RNA (PARS)8,69. Pionowe linie wskazują pewną frakcję (X%) RNA o najniższej zawartości drugorzędowej (LS; niebieski) i taką samą frakcję o najwyższej zawartości drugorzędowej (HS; różowy). b przewidywania catRAPID oddziaływań białek z ludzkimi RNA uszeregowane według zawartości strukturalnej mierzonej przez PARS (118 białek wiążących RNA (RBPs), dla których dostępne są również informacje o wzmocnionym sieciowaniu i immunoprecypitacji (eCLIP))31. Frakcje 10%, 15%, …, 50% odnoszą się do porównania pomiędzy równej wielkości zbiorami HS i LS. Wyniki wskazują, że catRAPID jest w stanie znacząco i konsekwentnie rozróżnić grupy HS i LS poprzez różne frakcje (wartość p <10-16; test Kołmogorowa-Smirnowa (KS)). W ramkach podano rozstęp międzykwartylowy (IQR), linia centralna reprezentuje medianę, w wachlarzach dodano 1,5-krotność IQR do 75 percentyla (górna granica ramki) i odjęto 1,5-krotność IQR od 25 percentyla (dolna granica ramki). s.d. is shown. c Zależność między liczbą interakcji białkowych (eCLIP) a zawartością strukturalną mierzoną przez PARS30. Linia dopasowania odpowiada wzorowi y = exp(α + βx), gdzie α = -0,75; β = 0,67; wartość p oszacowano za pomocą testu KS. d Zależność między liczbą interakcji białkowych a zawartością strukturalną mierzoną za pomocą modyfikacji siarczanem dimetylu (DMS)9. Linia dopasowania odpowiada wzorowi y = 1/(α + βx), gdzie α = 2,60; β = 87,36; wartość p oszacowana testem KS. e Preferencje strukturalne RBPs mierzone trzema różnymi technikami CLIP (fotoaktywowana CLIP wspomagana rybonukleozydami (PAR-CLIP), high-throughput sequencing-CLIP (HITS-CLIP) i CLIP o rozdzielczości pojedynczych nukleotydów (iCLIP)). Kolor wskazuje preferencje wiązania RNA przez każde z białek: różowy – białka o wysokiej strukturze; niebieski – białka o niskiej strukturze; szary – brak preferencji. f Korelacja pomiędzy zawartością strukturalną (przewidywania CROSS z eksperymentów icSHAPE) a oddziaływaniami białkowymi ośmiu transkryptów ujawnionymi za pomocą mikromacierzy białkowych (korelacja Pearsona). s.d.. g Analiza struktur Protein Data Bank (PDB) zawierających kompleksy białko-RNA ujawnia trend pomiędzy kontaktami białkowymi (inter) i RNA (intra) (196 różnych par; korelacja Pearsona)

Powtórzyliśmy analizę przy użyciu niepowiązanego podejścia, RPISeq, które przewiduje interakcje białko-RNA wykorzystując wzorce sekwencji w sekwencjach nukleotydów i aminokwasów11. RPISeq składa się z dwóch metod opartych na maszynach wektorów wspierających (RPISeq-SVM) i lesie losowym (RPISeq-RF). Ze względu na specyficzne wymagania obliczeniowe, zastosowaliśmy RPISeq do zespołu RBPs (50 białek o podobieństwie sekwencji <0,85; http://cd-hit.org/) wobec zbioru HS i LS z ogonów rozkładu zawartości strukturalnej (100 transkryptów) w celu oszacowania prawdopodobieństw wiązania (Supplementary Data 1). W obu przypadkach przewidywano, że zestaw HS (RF 0,80, SVM 0,71) wiąże się z istotnie wyższym prawdopodobieństwem niż zestaw LS (RF 0,70, SVM 0,54; p value <10-5; test Kołmogorowa-Smirnowa (KS); Supplementary Fig. 1b-c), zgodnie z analizą catRAPID (Fig. 1b). Tak więc, nasza analiza sugeruje, że zawartość struktury RNA ma wpływ na interakcje z białkami.

Aby dopasować nasze przewidywania do danych eksperymentalnych, zbadaliśmy wszystkie interakcje RBP-RNA ujawnione przez enhanced CrossLinking and ImmunoPrecipitation, eCLIP30 (118 RBPs; patrz Metody). eCLIP zapewnia kontakty białkowe na docelowych RNA w rozdzielczości pojedynczych nukleotydów poprzez ligację barcodowanych jednoniciowych adapterów DNA30. Zgodnie z przewidywaniami catRAPID31 (ryc. 1b), wyniki wiązania eCLIP korelują z drugorzędową strukturą PARS, co wskazuje, że skłonność RNA do interakcji z białkami jest proporcjonalna do ilości struktury mierzonej transkryptomowo (ryc. 1c). Zauważamy, że podejścia CLIP-seq generalnie faworyzują wykrywanie jednoniciowego (SS) RNA kosztem dwuniciowego (DS) RNA34 , a zbiór danych eCLIP nie jest wzbogacony w białka wiążące dwuniciowe RNA (9 ze 118 jest przypisanych zgodnie z UniProt jako wiązanie dsRNA, 12 ze 118 jako wiązanie ssRNA, przy użyciu dostępnych adnotacji GO35), co wskazuje, że nasze wyniki nie są stronnicze przez typy białek używanych w naszej analizie.

Aby dodatkowo potwierdzić, że trend ten jest prawdziwy, a nie tylko nieodłącznie związany z pomiarami PARS, przeanalizowaliśmy potencjał interakcji białek całego ludzkiego transkryptomu w odniesieniu do struktury drugorzędowej RNA mierzonej techniką modyfikacji siarczanem dimetylu (DMS) (inaczej niż w przypadku PARS, wysokie wartości wskazują na regiony jednoniciowe; ryc. 1d)9. Ta metoda oceny struktury RNA wykorzystuje głębokie sekwencjonowanie do wykrywania niesparowanych nukleotydów adenozyny i cytydyny. Po raz kolejny analiza pokazuje, że struktura drugorzędowa RNA ludzkich transkryptów jest ściśle skorelowana ze zdolnościami wiązania białek.

Użyliśmy również bazy danych POSTAR (zawierającej >1000 zestawów danych CLIP-seq; http://lulab.life.tsinghua.edu.cn/postar/), aby wyszukać preferencje wiązania RNA ludzkich białek (103 eksperymenty, 85 różnych RBPs) mierzone za pomocą PAR-CLIP, high-throughput sequencing-CLIP (HITS-CLIP) i indywidualnej rozdzielczości nukleotydów CLIP (iCLIP)10. Ze względu na wewnętrzne różnice w metodach CLIP (i inne czynniki, takie jak zastosowane linie komórkowe), każdy eksperyment raportuje różne interakcje białko-RNA10. Jednak 77% RBP ma preferencje dla RNA o wysokiej strukturze dla co najmniej jednej z metod eksperymentalnych (DMS lub PARS; Fig. 1e).

Z uwagi na możliwe techniczne błędy w eksperymentach o wysokiej przepustowości, zdecydowaliśmy się zweryfikować odtwarzalność trendu poprzez zbadanie korelacji między strukturą RNA i interakcjami białek w analizach o niskiej przepustowości. Najpierw zbadaliśmy interaktom ośmiu dużych (>1000 nt) RNA, których białkowi partnerzy zostali zidentyfikowani za pomocą mikromacierzy, metodą bezsieciową21,36,37 (patrz Metody). Równolegle oszacowaliśmy zawartość strukturalną każdego transkryptu za pomocą algorytmu CROSS, który został wcześniej wytrenowany na danych SHAPE38, aby przewidzieć skłonność do podwójnej nici z rozdzielczością na poziomie nukleotydów. Nasze wyniki przedstawione na ryc. 1f wskazują, że transkrypty o wysokiej strukturze mają więcej kontaktów z białkami niż transkrypty o słabej strukturze, co jest w pełni zgodne z ustaleniami przedstawionymi w naszej poprzedniej analizie (ryc. 1b-e).

Potwierdziliśmy nasze obserwacje poprzez badanie kompleksów RNP zdeponowanych w bazie danych Protein Data Bank (PDB) (rozdzielczość rentgenowska <2 Å; Supplementary Data 2; patrz Metody), która składa się ze 196 różnych par RNA-białko (>20 gatunków) analizowanych za pomocą różnych technik (głównie rentgenowskich i magnetycznego rezonansu jądrowego (NMR)) przez różne laboratoria. Mierząc ilość RNA wewnątrzkontaktowego (tj. ilość struktury RNA) i międzykontaktowego (tj. aminokwasu) na łańcuch nukleotydowy, znaleźliśmy uderzającą korelację 0,78 między tymi dwiema zmiennymi, co dostarcza przekonujących dowodów na ich ścisły związek (ryc. 1g; patrz równania (2) i (3) w Metodach).

W ten sposób, niezależnie od eksperymentu (PARS, DMS, mikromacierz, X-ray, NMR, eCLIP, PAR-CLIP, HITS-CLIP i iCLIP), zastosowanych algorytmów (catRAPID i RPISeq lub CROSS do naśladowania danych SHAPE) lub organizmu (baza danych PDB), znaleźliśmy korelację między liczbą interakcji białkowych a zawartością strukturalną RNA.

Interaktywność białek napędzana strukturą typów RNA

Następnie zbadaliśmy, czy ścisły związek między strukturą drugorzędową a liczbą interakcji białkowych jest właściwością specyficznych typów RNA (ryc. 2a). W tym celu porównaliśmy strukturę drugorzędową i interakcje białkowe transkryptów uszeregowanych według podobieństwa sekwencji za pomocą algorytmu CD-HIT39 (http://cd-hit.org/). Przy progu 85% podobieństwa znaleźliśmy 22 klastry (łącznie 55 transkryptów) z co najmniej jednym kontaktem RBP ujawnionym przez eCLIP. Następnie obliczyliśmy korelację pomiędzy sygnałem DMS a interakcjami białek eCLIP dla każdego klastra i uzyskaliśmy ujemną korelację w 64% przypadków. To odkrycie wskazuje, że pomiędzy dwoma podobnymi transkryptami, ten o wyższej zawartości strukturalnej ma większą liczbę interakcji białkowych.

Fig. 2
figure2

Funkcjonalne ślady interakcji białkowych napędzanych strukturą RNA. a Schemat pokazujący rolę kontaktów wewnątrz- i międzycząsteczkowych w kompleksie RNA-białko. Góra, kontakty wewnątrzcząsteczkowe. Na dole, kontakty międzycząsteczkowe. Zakres liczby kontaktów oznaczono odcieniami od ciemnoniebieskiego (najniższy) do czerwonego (najwyższy). b Góra, zawartość strukturalna (modyfikacja siarczanem dimetylu (DMS); wartość p oszacowana testem KS). Dół, interakcje białkowe (enhanced CrossLinking and ImmunoPrecipitation (eCLIP) of haemoglobin subunit γ1 (HBG1) (pink) and haemoglobin subunit γ2 (HBG2) (blue) RNAs (99.3% sekwencyjnej identyczności); empiryczna wartość p została oszacowana przez porównanie nakładania się z nakładaniem się 1000 próbek pobranych z eCLIP RNA-binding proteins (RBPs). c Równoległa analiza struktury RNA (PARS) (kolor różowy) i DMS (kolor niebieski) zawartość strukturalna różnych typów RNA (Ensembl). d Semantyczne grupowanie terminów ontologii genowej związanych z najmniej i najbardziej ustrukturyzowanym RNA (100 transkryptów o mniejszej strukturze (LS) vs. 100 transkryptów o dużej strukturze (HS)) przy użyciu cleverGO. e Poprzez analizę poszczególnych RNA (Rys. 1 i 2b) stwierdziliśmy, że zawartość strukturalna jest powiązana z liczbą partnerów i funkcją RNA. Nasza analiza wskazuje, że funkcjonalnie powiązane RNA mają podobną zawartość strukturalną (Rys. 2c). Interaktywność białek uwarunkowana strukturą jest wewnętrzną właściwością związaną z RNA, którą można prześledzić na każdym poziomie regulacyjnym. f Każdy rząd pokazuje skłonności do interakcji catRAPID spowodowane usunięciem właściwości fizykochemicznej13,32. Usunięcie α-helisy (Chou) i polarności (Grantham) zmniejsza zdolność do rozróżniania pomiędzy HS i LS (wartości p oszacowane testem KS). g multicleverMaszynowa analiza właściwości fizykochemicznych trzech zestawów RBP i białek adnotowanych w UniProt jako wiążące dwuniciowe RNA (DS) lub jednoniciowe RNA (SS) (patrz Metody). Skłonność do zaburzeń” i „α-helisa” są właściwościami wykazującymi znaczące różnice i przeciwne wyniki między wiązaniami DS i SS dla co najmniej dwóch baz danych RBP (kolor niebieski lub różowy wskazuje, że DS lub SS są wzbogacone lub zubożone; kolor żółty oznacza brak znaczących różnic między zestawami). W b, c, ramki pokazują zakres międzykwartylowy (IQR), linia centralna reprezentuje medianę, wcięcia 95% przedział ufności mediany, wachlarze dodają 1,5-krotność IQR do 75 percentyla (górna granica ramki) i odejmują 1,5-krotność IQR od 25 percentyla (dolna granica ramki). S.d. is shown

Dwa transkrypty wykazujące największe podobieństwo (99,31%) to γ-globiny HBG1 i HBG2 (podjednostki hemoglobiny γ1 i γ2), które ulegają ekspresji w wątrobie płodowej, śledzionie i szpiku kostnym (NCBI Gene ID: 3048). Wariant γ-globiny o wyższej strukturze (HBG1) ma istotnie większą liczbę białkowych interaktorów (HBG1, średni sygnał DMS 0,04, 29 interaktorów; HBG2, średni sygnał DMS 0,07, 14 interaktorów; wartość p = 0,003; test KS; ryc. 2b). Podczas gdy skład nukleotydowy obu transkryptów pozostaje prawie taki sam (HBG1:280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), różnice pomiędzy HBG1 i HBG2 koncentrują się w regionach, w których struktura drugorzędowa jest zmieniona (Supplementary Fig. 2). Wyniki te wskazują, że interakcyjność białek jest ściśle związana ze zmianami konformacyjnymi w elementach struktury drugorzędowej. Co ciekawe, zwiększonej zawartości dwuniciowej w HBG1, szczególnie w 3′-UTR, towarzyszy akumulacja elementów regulujących translację (ryc. 2b) i jednoczesny spadek ekspresji (NCBI Gene ID: 3048).

Później zastanawialiśmy się, czy specyficzne struktury RNA są zaangażowane w regulację białek. Podzieliliśmy ludzki transkryptom na różne klasy i przeanalizowaliśmy ich strukturę drugorzędową wykrytą przez dwie niezależne techniki eksperymentalne, PARS i DMS. Obie techniki pokazują, że RNA kodujące białka mają największą zawartość strukturalną (Rys. 2c, Tabela 1)38. Chociaż część struktury mRNA jest skoncentrowana w UTRs8, to po ich wyłączeniu rozkład zawartości strukturalnej nie ulega zasadniczej zmianie (korelacja Pearsona między transkryptami z i bez ich UTRs = 0,94; Suplementary Fig. 3). RNA, o których wiadomo, że oddziałują z białkami, takie jak małe jądrowe RNA (snRNA)40 i małe jąderkowe RNA (snoRNA)28, wykazują największą ilość struktury, podczas gdy RNA ukierunkowane na komplementarne regiony w kwasach nukleinowych, takie jak antysensowne, miRNA i szereg długich międzygenowych niekodujących RNA (lincRNA)41,42 charakteryzują się najmniejszą ilością struktury43 (Tabela uzupełniająca 1).

Zgodnie z naszymi wynikami, Seemann i wsp.12 wcześniej zaobserwowali ścisły związek między wiązaniem białek a zachowaniem elementów strukturalnych w mRNA, które w mniejszym stopniu występują w długich niekodujących RNA12. Chociaż lincRNA wykazują mniejszą ilość regionów dwuniciowych (najniższą w PARS, trzecią co do wielkości w DMS), zauważamy, że niektóre z nich, takie jak na przykład NEAT144 i XIST27, są w stanie rusztować montaż białek poprzez ustrukturyzowane domeny. Ponieważ trwa debata na temat różnic strukturalnych między transkryptami kodującymi i niekodującymi45,46, a nasza analiza danych DMS i PARS ujawnia sprzeczne wyniki dla określonych typów RNA, sugerujemy dalsze badania w przyszłych badaniach (ryc. 2c; Tabela uzupełniająca 1).

Aby zbadać różnice funkcjonalne między wysoko i słabo ustrukturyzowanymi RNA, przeanalizowaliśmy terminy GO związane z najmniej i najbardziej ustrukturyzowanymi RNA (100 transkryptów LS vs. 100 transkryptów HS) przy użyciu podejścia cleverGO35. Podczas gdy zestaw LS (14 niekodujących RNA i 86 mRNA) nie jest związany z określonymi klastrami podobieństwa semantycznego (łącznie 36 terminów o wartości p <0,05; test Bonferroniego), zestaw HS (100 mRNA; łącznie 395 terminów o wartości p <0,05 i 103 terminy o wartości p <0,01; test Bonferroniego; ryc. 2d) zawiera 20 wyraźnych klastrów. Pięć głównych kategorii związanych z tymi klastrami i obejmujących co najmniej jedną czwartą wpisów to: (i) złożona regulacja białek (49/103), (ii) proces metabolizmu nukleozydów (39/103), (iii) odpowiedź komórkowa (29/103), (iv) ekspresja genów (29/103) i (v) ukierunkowanie białek (28/103). Powtórzyliśmy również analizę terminów GO używając jako tła transkryptów o 25% wyższej ekspresji i uzyskaliśmy podobne wyniki (szczep K562 GENCODE, Methods, Supplementary Fig. 4).

Analiza skupień ujawnia intrygujące odkrycie, że transkrypty o silnej zawartości strukturalnej wchodzą w większe interakcje z polipeptydami i kodują białka zaangażowane w funkcje regulacyjne i w tworzenie złożonych sieci kontaktów. Biorąc pod uwagę związek między strukturą RNA a liczbą interakcji białkowych (ryc. 1), jedną ze wstępnych interpretacji naszych wyników jest to, że wysoki stopień kontroli jest wymagany dla genów, które koordynują aktywność dużej liczby sieci komórkowych47. W ten sposób nasza analiza sugeruje „rekurencyjną” właściwość: wysoce kontaktowe transkrypty kodują wysoce kontaktowe białka (ryc. 2e)20,48.

Nieuporządkowanie i helisa wyróżniają dsRNA vs ssRNA

Aby zrozumieć molekularne podstawy napędzanej strukturą interaktywności cząsteczek RNA, przeanalizowaliśmy, które właściwości fizykochemiczne białek lepiej rozróżniają zestawy HS i LS. Zbadaliśmy wszystkie 10 zmiennych używanych w algorytmie catRAPID (Rys. 2f)13,32 i usuwaliśmy je jedna po drugiej, aby oszacować ich wpływ na przewidywanie oddziaływań RNA z białkami. Stwierdziliśmy, że zdolność do rozróżniania najmniej i najbardziej ustrukturyzowanych zestawów RNA (100 transkryptów HS i LS; Supplementary Data 3) jest bardziej zaburzona po usunięciu polarności (wartość p = 0,28; test KS) i skłonności do α-helikaliów (wartość p = 0,06; test KS) (ryc. 2f). Właściwością, która w bardziej znaczący sposób wpływa na skłonność do wiązania HS jest polarność, która jest wzbogacona w białkach strukturalnie nieuporządkowanych49 i antykoreluje z hydrofobowością, która jest kluczowa w rozpoznawaniu makromolekularnym (Supplementary Table 2)50. Co do skłonności α-helikalnej, zauważamy, że heliksy są najczęstszymi elementami strukturalnymi zaangażowanymi w tworzenie kontaktów z regionami dwuniciowymi i występują w dsRBD i palcach cynkowych29 (Tabela 3). Nasza obserwacja sugeruje możliw± koewolucję białek i RNA: podczas gdy RNA przybiera złożone kształty w celu odsłonięcia regionów wi±ż±cych, białka zmieniaj± swoj± zawarto¶ć strukturaln±. Zgodnie z teorią zamka kluczowego51, proponujemy, że selekcja naturalna faworyzuje wysoce ustrukturyzowane RBP jako interaktory dsRNA.

Weryfikowaliśmy znaczenie polarności białek i struktury helikalnej, porównując trzy zestawy danych dobrze zbadanych RBPs (ludzkie i drożdżowe)52,53,54 oraz dwa zestawy białek pobranych z UniProt (wszystkie organizmy) jako wyłącznie wiążące ssRNA (453 białka) lub wiążące dsRNA (390 białek; Dane uzupełniające 4). Analiza właściwości biofizycznych za pomocą metody cleverMachine55 wykazała, że białka wiążące ssRNA i wiążące dsRNA różnią się dwiema właściwościami: nieporządkiem i zawartością helisy α (Rys. 2g). Porównanie tych dwóch zestawów, jeden przeciw drugiemu, wskazuje, że RBP oddziałujące z RNA o wysokiej strukturze są uporządkowane i hydrofobowe, podczas gdy nieuporządkowane i polarne RBP wiążą się z RNA o mniejszej strukturze (Supplementary Fig. 5). Tak więc nasza analiza rozszerza to, co zostało wcześniej zgłoszone dla sieci interakcji białko-białko, w których wykazano, że strukturalne nieuporządkowane regiony odgrywają główną rolę47, i sugeruje nowe zasady parowania zasad nukleotydowych z aminokwasami.

Zawartość struktury RNA i kontakt z białkami w chaperonach

Analiza ludzkiego transkryptomu i u różnych organizmów wskazuje, że wysoce ustrukturyzowane RNA są skłonne do interakcji z polipeptydami, a z kolei kodują białka zaangażowane w procesy biologiczne związane z dużymi i złożonymi sieciami kontaktów. Aby lepiej zbadać zależną od struktury interakcję białek z cząsteczkami RNA, skupiliśmy się na klasie transkryptów kodujących białka oddziałujące z kilkoma partnerami. Naturalnym wyborem do tej analizy są chaperony molekularne, ponieważ promują one fałdowanie do stanu natywnego56 i organizują składanie rozdzielonych fazowo zespołów RNP57, spełniając w ten sposób „rekurencyjną” właściwość przedstawioną na Rys. 2d. Dane eCLIP30 pokazują, że większość RNA kodujących ludzkie chaperony jest zaangażowana w interakcje z wieloma białkami (Supplementary Fig. 6). Stwierdziliśmy istotną korelację pomiędzy oddziaływaniami białko-RNA i białko-białko anotowanymi w BioGRID (Rys. 3a). Wynik ten potwierdza, że transkrypty wiązane przez wiele RBPs kodują również wysoce kontaktowe białka.

Fig. 3
figure3

Relationship between RNA structure and protein contacts for chaperones. a Kontakty RNA kodującego białka chaperonów, mierzone metodą enhanced CrossLinking and ImmunoPrecipitation (eCLIP)30, oraz fizyczne interakcje odpowiadających im kodowanych białek, zebrane w BioGRID; wartość p oszacowana testem KS. b Porównanie pomiędzy zawartością strukturalną równoległej analizy struktury RNA (PARS) a fizycznymi interakcjami kodowanych białek, zebranymi w BioGRID, dla całego transkryptomu. Transkryptom został podzielony na pięć kolejnych zestawów zawierających po 20% transkryptomu. Zestawy zostały wybrane pod względem zawartości strukturalnej PARS, zakres każdego zestawu od lewej do prawej to: -10,7 do -4,6; -4,6 do -3,1; -3,1 do -2,4; -2,4 do -1,9; -1,9 do -0,5. Ostatni boxplot pokazuje rozkład liczby fizycznych interaktorów wyszukanych z BioGRID dla rodziny białek chaperonowych (heat-shock proteins). c Pomiar PARS zawartości struktur drugorzędowych transkryptów HS (HSP70, różowy) i LS (BRaf, niebieski). Pionowe przerywane linie wskazują regiony nieulegające translacji (UTR). d Pomiar PARS zawartości struktury drugorzędowej transkryptów HS i LS (wartość p oszacowana testem KS). e Diagram Venn przedstawiający nakładanie się interakcji białkowych, mierzonych za pomocą eCLIP, RNA HS i LS (empiryczna wartość p <6 × 10-3; oszacowana przez porównanie z rozkładem 1000 nakładających się zestawów próbkowanych z eCLIP RBPs). f Przewidywanie skłonności do wiązania białek przez RNA HS i LS za pomocą catRAPID13,32 (wartość p oszacowana testem KS). Dla b, d, f, ramki pokazują przedział międzykwartylowy (IQR), linia centralna reprezentuje medianę, wcięcia 95% przedział ufności mediany, wachlarze dodają 1,5-krotność IQR do 75 percentyla (górna granica ramki) i odejmują 1,5-krotność IQR od 25 percentyla (dolna granica ramki). S.d. is shown

Aby zrozumieć, czy korelacja między interakcjami białko-białko i białko-RNA jest ogólną właściwością, czy po prostu cechą rodziny chaperonów, przeanalizowaliśmy interakcje transkryptomu uszeregowanego według wyników PARS i 24 mRNA kodujących chaperony, dla których dostępne są dane PARS (Genecards; https://www.genecards.org; zestaw „HSPs”; Metody, ryc. 3b). Stwierdziliśmy pozytywną korelację pomiędzy ilością struktury RNA a liczbą interaktorów BioGRID kodowanych białek (Supplementary Fig. 7a-b). Tak więc, nasze obliczenia zgadzają się z analizą GO (Rys. 2d) i sugerują związek pomiędzy mRNA i ich partnerami kodującymi: wysoko ustrukturyzowane RNA kodują wysoko oddziałujące białka.

Przedstawione do tej pory dane sugerują, że RNA powiązane ze względu na typ (np. miRNA, snRNA) lub funkcję (np. kodujące chaperony) mają podobne cechy strukturalne (Rys. 2). Tak więc powinno być możliwe oszacowanie różnic w sieci interakcji dwóch niespokrewnionych transkryptów poprzez analizę ich zawartości strukturalnej, i odwrotnie. Aby sprawdzić tę hipotezę, wybraliśmy wysoce strukturalny transkrypt HSP70 (HS RNA, log PARS score -1,3 odpowiadający 26% zawartości dwuniciowej, Rys. 3c) kodujący chaperon niezbędny do regulacji zespołów kompleksów białkowych, takich jak płaszcze klathrynowe58 i granule stresowe22,57. Jako kontrolę wybraliśmy RNA kodujące BRaf, które jest mniej strukturalne (LS RNA, wynik -2,8 wskazujący na 6% zawartości dwuniciowej wg PARS, Rys. 3c-e) i kodujące onkogen zaangażowany w przekazywanie sygnałów chemicznych spoza komórki do jądra (porównanie strukturalne potwierdzają przewidywania CROSS i eksperymenty DMS, jak pokazano na Rys. 8. 8).

Stwierdziliśmy, że HSP70 ma większą liczbę partnerów (30 RBPs zidentyfikowanych przez eCLIP) niż BRaf (9 RBPs eCLIP, 6 wspólnych z HSP70, Supplementary Fig. 9), co doskonale zgadza się z właściwością interakcyjności białek sterowaną strukturą. Zgodnie z trendem przedstawionym na Rys. 1b, catRAPID wskazuje, że białka mają większą skłonność do wiązania się z HSP70 niż z BRaf (Rys. 3f). Co więcej, wysoko ustrukturyzowany HSP70 koduje białko o większej liczbie interaktorów (244 interaktory fizyczne BioGRID), podczas gdy słabo ustrukturyzowany BRaf posiada produkt białkowy wiążący się z mniejszym zestawem cząsteczek (88 interaktorów fizycznych BioGRID). Nasze obserwacje sugerują, że RNA z dużą liczbą interakcji jest skłonny do działania jako regulator sieci: spekulujemy, że z powodu wyższej interaktywności, transkrypt HSP70 może działać jako chaperon w zależności od kontekstu.

W związku z tym stawiamy hipotezę, że uporządkowany RNA, z powodu wyższego potencjału interakcji z białkami, jest w stanie wpływać na sieć interakcji białkowych bardziej niż słabo uporządkowany RNA. W eksperymencie typu proof-of-concept użyliśmy związku chemicznego, biotynylowanego izoksazolu (b-isox), aby wywołać tworzenie się przejścia fazowego ciecz-ciało stałe zespołu białek59,60, który inkubowaliśmy z transkryptami HS (HSP70) lub LS (BRaf) (Fig. 4a i Supplementary Fig. 10). Zaobserwowaliśmy, że HS zmienił skład agregatu białkowego bardziej niż LS RNA (Fig. 4b i Dane uzupełniające 5). Istotnie, po dodaniu HS RNA zaobserwowano znaczącą zmianę stężenia dla 29 białek (Rys. 4c; 21 zestawów „uwolnionych”, czarne kropki, i 8 zestawów „zachowanych”, czerwone kropki na Rys. 4b), podczas gdy tylko dziewięć białek zostało zidentyfikowanych w przypadku LS RNA. Tak więc skład w obecności LS RNA pozostał podobny do składu kontroli tła (’statyczny’ zestaw, szare kropki na Rys. 4b).

Ryc. 4
figure4

Strukturalny RNA zmniejsza agregację białek in vitro. a Biotynylowany izoksazol (b-isox)-driven aggregation of HeLa protein lysate in vitro. Po lewej, żele barwione koomazolem, pokazano jeden reprezentatywny eksperyment (nieprzycięte żele są przedstawione na Rys. 10). Centrum, intensywność zagregowanego białka została określona ilościowo, a różnica oceniona za pomocą testu t z dwoma ogonami (p = 1 ×1 0-3; N = 3 repliki biologiczne pokazane jako kropki na obrazie). S.d. jest pokazane. Po prawej, schemat eksperymentalny. Skuteczność agregacji badano porównując wynikowy osad w obecności lub nieobecności b-isox, jest to oznaczone odpowiednio przez a+ lub a-. b Wykresy wulkaniczne wskazują wartości p (miara Perseusza) poszczególnych białek wzbogacających się w zespół b-isox (N = 4 niezależne replikacje biologiczne). Próg istotności statystycznej jest zaznaczony linią poziomą (patrz również Supplementary Data 5). Czarne kropki to białka o znacząco obniżonym stężeniu po inkubacji RNA. Czerwone kropki oznaczają białka o znacząco zwiększonym stężeniu po inkubacji RNA. c Intensywności kwantyfikacji bez etykiet (LFQ) białek, na które wpływ miało wysokostrukturalne (HS) RNA, oznaczono kolorami w skali od czarnego (niskie) do czerwonego (wysokie). Wskazane jest hierarchiczne grupowanie przez Perseus. Dla porównania, intensywności LFQ tych samych białek w kontroli i w obecności LS RNA są również wykreślone

Sądziliśmy, że konkurencja RNA z siecią kontaktów precypitatu b-isox59,60 może być wynikiem bezpośrednich lub pośrednich interakcji białko-RNA (Rys. 5a). Jednak przewidywania catRAPID wspierają hipotezę bezpośredniego efektu: wzrost rygorystyczności eksperymentalnej (Supplementary Fig. 11; Methods) jest również związany ze wzrostem teoretycznej mocy predykcyjnej (Fig. 5b). Zgodnie z naszą wcześniejszą analizą preferencji wiązania RNA, białka uwolnione po inkubacji z HSP70 są znacząco pozbawione polarności (Rys. 5c). Tak więc, nasz eksperyment sugeruje, że napędzana strukturą interakcja białek z cząsteczkami RNA jest aktywna na każdym poziomie, promując indywidualne interakcje i zmieniając skład kondensatów12 (ryc. 2e).

Fig. 5
figure5

Interakcje w obrębie kondensatu rybonukleoproteinowego. a Uwolnienie białek z biotynylowanego zespołu izoksazolu (b-isox) może być wynikiem: (1) procesu pośredniego, wynikającego z konkurencji interakcyjnej pomiędzy RNA a agregatem białek lub (2) procesu bezpośredniego, wynikającego z sekwestracji białek przez RNA. b Wydajność catRAPID poprawia się wraz z rygorystycznością eksperymentów b-isox (Metody), sugerując bezpośrednią rekrutację białek ratowanych przez RNA o wysokiej strukturze (HS). Współczynnik fałszywego odkrycia (FDR) staje się wysoce znaczący dla najbardziej rygorystycznego zestawu eksperymentalnego (FDR = 0.1). c Białka „uwolnione” (czarna ramka) są mniej polarne niż „statyczne” (szara ramka), zgodnie z naszą analizą obliczeniową (wartość p = 4.7 × 10-2, wartość p oszacowana za pomocą testu KS; patrz również Rys. 2f, g). Białka uwalniane i statyczne odpowiadają czarnym i szarym kropkom na prawym panelu Rys. 4b. Ramki pokazują zakres międzykwartylowy (IQR), linia centralna reprezentuje medianę, wcięcia 95% przedział ufności mediany, wachlarze dodają 1,5-krotność IQR do 75 percentyla (górna granica ramki) i odejmują 1,5-krotność IQR od 25 percentyla (dolna granica ramki). S.d. jest pokazane

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.