Estrutura do RNA conduz a interação com proteínas

Jul 29, 2021
admin

RNAs altamente estruturados ligam uma grande quantidade de proteínas

Com o objetivo de estudar como a estrutura do RNA influencia a ligação protéica, medimos a quantidade de regiões de dupla cadeia do transcriptoma humano8 (Fig. 1a). Primeiro agrupamos os RNAs, conforme detectado pela abordagem de reticulação e imunoprecipitação (eCLIP)30 , em classes baseadas no conteúdo estrutural medido pela ‘análise paralela da estrutura do RNA’ (PARS)8 (Fig. 1a e Fig. 1b complementares). PARS é uma técnica experimental que distingue regiões de dupla e única cadeia de RNA usando a atividade catalítica de duas enzimas, RNase V1 (capaz de cortar nucleotídeos de dupla cadeia) e S1 (capaz de cortar nucleotídeos de cadeia única) e para as quais pontuações positivas indicam regiões de dupla cadeia (ver Eq. (1) em Métodos)8. Em seguida, usamos as previsões catRAPID das interações proteína-RNA (disponíveis na base de dados RNAct que contém cálculos de proteoma e transcriptoma31) e comparamos os escores de interação de diferentes grupos (HS, alto conteúdo estrutural, vs. LS, baixo conteúdo estrutural) (Fig. 1b). O algoritmo catRAPID32 estima o potencial de ligação através de van der Waals, ligação de hidrogênio e propensões de estrutura secundária de ambas as seqüências de proteínas e RNA (total de 10 propriedades), permitindo a identificação de parceiros de ligação com alta confiança. De fato, como relatado em uma análise recente de cerca de meio milhão de interações validadas experimentalmente31 , o algoritmo é capaz de separar pares interativos versus pares não interativos com uma curva de característica operacional receptora (ROC) de 0,78 (com taxa de falsa descoberta (FDR) significativamente abaixo de 0,25 quando os valores Z-score são >2). A comparação de grupos de RNA com diferentes conteúdos estruturais mostra uma tendência consistente na qual maiores conteúdos estruturais nas moléculas de RNA resultam em maiores escores de interação protéica (Fig. 1b). Quanto aos dados PARS, notamos que a quantidade de regiões de dupla cadeia se correlaciona de forma fraca (<0,10; Pearson’s) com o comprimento de RNA e o conteúdo de GC, indicando que estes dois fatores contribuem positivamente para a estrutura secundária ao aumentar o tamanho do espaço conformacional, bem como a estabilidade geral33.

Fig. 1
figurar1

A quantidade de estrutura proteica correlaciona-se com o número de interações. a Função de distribuição cumulativa (CDF) para o conteúdo da estrutura secundária de todos os RNA humanos medidos pela análise paralela da estrutura do RNA (PARS)8,69. Linhas verticais indicam uma certa fração (X%) dos RNAs com o menor conteúdo secundário (LS; azul) e a mesma fração com o maior conteúdo secundário (HS; rosa). b previsões catRAPID de interações protéicas com RNAs humanos classificadas por conteúdo estrutural medido por PARS (118 proteínas de ligação ao RNA (RBPs) para as quais também está disponível informação de reticulação e imunoprecipitação (eCLIP) melhorada)31. As frações 10%, 15%, …, 50% referem-se à comparação entre os conjuntos HS e LS de tamanho igual. Os resultados indicam que a catRAPID é capaz de distinguir grupos HS e LS de forma significativa e consistente através das diferentes frações (valor de p <10-16; teste Kolmogorov-Smirnov (KS)). As caixas mostram o intervalo interquartil (IQR), a linha central representa a mediana, os bigodes adicionam 1,5 vezes o IQR ao percentil 75 (limite superior da caixa) e subtraem 1,5 vezes o IQR ao percentil 25 (limite inferior da caixa). s.d. é mostrado. c Relação entre o número de interações proteicas (eCLIP) e o conteúdo estrutural medido pelo PARS30. A linha de ajuste corresponde à fórmula y = exp(α + βx), onde α = -0,75; β = 0,67; valor de p estimado com o teste KS. d Relação entre o número de interações protéicas e o conteúdo estrutural medido pela modificação do sulfato de dimetila (DMS)9. A linha de ajuste corresponde à fórmula y = 1/(α + βx), onde α = 2,60; β = 87,36; valor de p estimado com o teste KS. e Preferências estruturais de RBPs medidas com três técnicas diferentes de CLIP (CLIP com ribonucleosídeo fotoativável (PAR-CLIP), CLIP com seqüenciamento de alto rendimento (HITS-CLIP) e CLIP com resolução de nucleotídeos individuais (iCLIP)). A cor indica a preferência de ligação RNA de cada proteína: rosa, estrutura alta; azul, estrutura baixa; cinza, sem preferência. f Correlação entre conteúdo estrutural (CROSS predições de experimentos icSHAPE) e interações protéicas de oito transcrições reveladas por microarrays de proteínas (correlação de Pearson). s.d. é mostrado. g Análise das estruturas do Banco de Dados de Proteínas (PDB) contendo complexos proteína-RNA revela uma tendência entre contatos proteicos (inter) e RNA (intra) (196 pares diferentes; correlação de Pearson)

Repetimos a análise com uma abordagem não relacionada, RPISeq, que prevê interações proteína-RNA usando padrões de seqüência em seqüências de nucleotídeos e aminoácidos11. RPISeq é composto por dois métodos baseados em máquinas vetoriais de suporte (RPISeq-SVM) e floresta aleatória (RPISeq-RF). Devido a requisitos computacionais específicos, aplicamos RPISeq a um conjunto de RBPs (50 proteínas com semelhança de sequência <0,85; http://cd-hit.org/) contra o conjunto HS e LS das caudas da distribuição do conteúdo estrutural (100 transcrições) para estimar as probabilidades de ligação (Dados Suplementares 1). Em ambos os casos, prevê-se que o conjunto HS (RF 0,80, SVM 0,71) se ligue com probabilidades significativamente maiores do que o conjunto LS (RF 0,70, SVM 0,54; valor de p <10-5; teste Kolmogorov-Smirnov (KS); Suplemento Fig. 1b-c), de acordo com a análise catRAPID (Fig. 1b). Assim, a nossa análise sugere que o conteúdo da estrutura do RNA tem efeito na interacção com as proteínas.

Para comparar as nossas previsões com os dados experimentais, investigámos todas as interacções RBP-RNA reveladas por CrossLinking melhorado e ImmunoPrecipitation, eCLIP30 (118 RBPs; ver Métodos). O eCLIP fornece contactos proteicos nos RNAs alvo com resolução de nucleótidos individuais através da ligação de adaptadores de ADN de cadeia única com código de barras30. De acordo com as previsões catRAPID31 (Fig. 1b), os escores de ligação eCLIP correlacionam-se com a estrutura secundária PARS, o que indica que a propensão do RNA para interagir com proteínas é proporcional à quantidade de estrutura medida no transcriptoma largo (Fig. 1c). Observamos que o CLIP-seq em geral favorece a detecção de RNA de cadeia única (SS) em detrimento do RNA de cadeia dupla (DS)34 e o conjunto de dados eCLIP não é enriquecido em proteínas de cadeia dupla ligadas ao RNA (9 de 118 são atribuídas de acordo com UniProt como dsRNA binding, 12 de 118 como ssRNA binding, usando anotações GO disponíveis35), o que indica que nossos resultados não são tendenciosos pelos tipos de proteínas usados em nossa análise.

Para confirmar ainda mais que a tendência é genuína e não apenas intrínseca às medidas PARS, analisamos o potencial de interação protéica de todo o transcriptoma humano contra a estrutura secundária do RNA medida com a técnica de modificação do dimetil sulfato (DMS) (diferentemente do PARS, valores altos indicam regiões de cadeia única; Fig. 1d)9. Este método de avaliação da estrutura do RNA emprega sequenciamento profundo para detectar adenosina e nucleotídeos de ctidina não pareados. Mais uma vez, a análise mostra que a estrutura secundária do RNA das transcrições humanas está estreitamente correlacionada com as habilidades de ligação de proteínas.

Também usamos o banco de dados POSTAR (contendo conjuntos de dados >1000 CLIP-seq; http://lulab.life.tsinghua.edu.cn/postar/) para recuperar as preferências de ligação do RNA das proteínas humanas (103 experimentos, 85 RBPs diferentes) medidas com PAR-CLIP, CLIP de seqüenciamento de alto rendimento (HITS-CLIP) e CLIP de resolução de nucleotídeos individuais (iCLIP)10. Devido a diferenças intrínsecas nas abordagens CLIP (e outros fatores, como as linhas celulares empregadas), cada experimento relata diferentes interações proteína-RNA10. Contudo, 77% dos RBPs têm preferência por RNAs altamente estruturados para pelo menos um dos métodos experimentais (DMS ou PARS; Fig. 1e).

Dados possíveis vieses técnicos de experimentos de alto rendimento, decidimos verificar a reprodutibilidade da tendência investigando a correlação entre a estrutura do RNA e as interações protéicas em análises de baixo rendimento. Primeiro estudamos a interação de oito grandes (>1000 nt) RNA cujos parceiros protéicos foram identificados por microarranjo, uma abordagem sem reticulação21,36,37 (ver Métodos). Em paralelo, estimamos o conteúdo estrutural de cada transcrição usando o algoritmo CROSS que foi previamente treinado em dados SHAPE38 para prever a dupla propensão a nível de nucleotídeos. Nossos resultados apresentados na Fig. 1f indicam que transcrições altamente estruturadas possuem mais contatos protéicos do que transcrições mal estruturadas, o que é totalmente compatível com os resultados apresentados em nossa análise anterior (Fig. 1b-e).

Corroboramos nossas observações através do estudo dos complexos RNP depositados no banco de dados do Banco de Dados de Proteínas (PDB) (resolução de raios X <2 Å; Dados Suplementares 2; ver Métodos), que é composto de 196 pares distintos de proteínas RNA (>20 espécies) analisados com diferentes técnicas (principalmente raios X e ressonância magnética nuclear (RNM)) por diferentes laboratórios. Medindo a quantidade de RNA intra-contato (ou seja, quantidade de estrutura de RNA) e inter-contato (ou seja, aminoácido) por cadeia de nucleotídeos, encontramos uma correlação marcante de 0,78 entre as duas variáveis, o que fornece evidências convincentes de sua estreita relação (Fig. 1g; ver Eqs. (2) e (3) em Métodos).

Assim, independentemente do experimento (PARS, DMS, microarray, X-ray, NMR, eCLIP, PAR-CLIP, HITS-CLIP e iCLIP), dos algoritmos empregados (catRAPID e RPISeq ou CROSS para imitar dados SHAPE) ou do organismo (banco de dados PDB), encontramos uma correlação entre o número de interações protéicas e o conteúdo estrutural do RNA.

A interatividade protéica estrutural dos tipos de RNA

A seguir investigamos se a estreita ligação entre a estrutura secundária e o número de interações protéicas é uma propriedade de tipos específicos de RNA (Fig. 2a). Com este objetivo, comparamos a estrutura secundária e as interações protéicas das transcrições classificadas por similaridade de seqüência usando o algoritmo CD-HIT39 (http://cd-hit.org/). Com um limiar de 85% de similaridade, encontramos 22 clusters (total de 55 transcrições) com pelo menos um contato RBP revelado pelo eCLIP. Calculamos então a correlação entre o sinal DMS e as interações da proteína eCLIP para cada cluster e obtivemos uma correlação negativa em 64% dos casos. Este achado indica que entre duas transcrições semelhantes aquela com maior conteúdo estrutural é mais provável que tenha um maior número de interações protéicas.

Fig. 2
figure2

Functional footprints of the RNA structure-driven protein interactivity. a Scheme showing the role of intra- and intermolecular contacts in a RNA-protein complex. Topo, contatos intramoleculares. Inferior, contatos intermoleculares. O número de contatos é indicado com tons de azul escuro (mais baixo) a vermelho (mais alto). b Para cima, conteúdo estrutural (modificação de dimetil sulfato (DMS); valor de p estimado com o teste KS). Inferior, Interacções proteicas (melhor reticulação e imuno-precipitação (eCLIP) da subunidade de hemoglobina γ1 (HBG1) (rosa) e subunidade de hemoglobina γ2 (HBG2) (azul) RNAs (99,3% da identidade sequencial); o valor empírico de p foi estimado comparando a sobreposição com o de 1000 amostras retiradas das proteínas de ligação RNA (RBPs) da eCLIP. c Análise paralela da estrutura do RNA (PARS) (rosa) e conteúdo estrutural de DMS (azul) de diferentes tipos de RNA (Ensembl). d Agrupamento semântico de termos ontológicos gênicos associados aos RNAs menos e mais estruturados (100 menos estruturados (LS) vs. 100 transcrições de alta estrutura (HS)) usando o cleverGO. e Através da análise de RNAs individuais (Figs. 1 e 2b) encontramos que o conteúdo estrutural está ligado ao número de parceiros e função de um RNA. Nossa análise indica que os RNAs funcionalmente relacionados têm conteúdo estrutural similar (Fig. 2c). A interatividade protéica orientada pela estrutura é uma propriedade intrínseca associada ao RNA que pode ser rastreada em qualquer nível regulatório. f Cada linha mostra as propensões de interação catRAPID causadas pela remoção de uma propriedade físico-química13,32. A remoção de α-helix (Chou) e polaridade (Grantham) reduz a capacidade de distinguir entre HS e LS (valores de p estimados com o teste KS). g análise multiculomáquina das propriedades físico-químicas de três conjuntos de RBP e proteínas anotadas em UniProt como aglutinantes de RNAs (DS) de cadeia dupla ou RNAs (SS) de cadeia simples (ver Métodos). A ‘Propensão a desordens’ e a ‘α-helix’ são as propriedades que mostram diferenças significativas e resultados opostos entre os conjuntos de RBPs e as ligas de SS para pelo menos dois bancos de dados de RBPs (azul ou rosa indicam que DS ou SS estão enriquecidos ou esgotados; amarelo indica que não há diferenças significativas entre os conjuntos). Em b, c, as caixas mostram o intervalo interquartil (IQR), a linha central representa a mediana, os entalhes o intervalo de confiança de 95% da mediana, os bigodes adicionam 1,5 vezes o IQR ao percentil 75 (limite superior da caixa) e subtraem 1,5 vezes o IQR ao percentil 25 (limite inferior da caixa). S.d. é mostrado

As duas transcrições que partilham a maior similaridade (99,31%) são o γ-globins HBG1 e HBG2 (subunidades de hemoglobina γ1 e γ2) que são expressos em fígado, baço e medula fetal (NCBI Gene ID: 3048). A variante γ-globina com estrutura mais elevada (HBG1) tem um número significativamente maior de interautores proteicos (HBG1, sinal médio DMS de 0,04, 29 interautores; HBG2, sinal médio DMS de 0,07, 14 interautores; valor de p = 0,003; teste KS; Fig. 2b). Enquanto a composição dos nucleotídeos das duas transcrições permanece praticamente a mesma (HBG1:280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), as diferenças entre o HBG1 e o HBG2 estão concentradas em regiões onde a estrutura secundária é alterada (Suplemento Fig. 2). Estes resultados indicam que a interatividade proteica está fortemente associada a mudanças conformacionais em elementos da estrutura secundária. Curiosamente, o aumento do conteúdo de cadeia dupla no HBG1, especialmente no 3′-UTR, é acompanhado por uma acumulação de elementos reguladores de translação (Fig. 2b) e uma concomitante diminuição da expressão (NCBI Gene ID: 3048).

Perguntamo-nos então se estruturas específicas de RNA estão envolvidas na regulação proteica. Dividimos o transcriptoma humano em diferentes classes e analisamos sua estrutura secundária como detectada por duas técnicas experimentais independentes, PARS e DMS. Ambas as técnicas mostram que os RNA codificadores de proteínas têm o maior conteúdo estrutural (Fig. 2c, Tabela Suplementar 1)38. Embora parte da estrutura do mRNA esteja concentrada nos UTRs8, quando estes são excluídos, a distribuição do conteúdo estrutural não muda substancialmente (correlação de Pearson entre transcrições com e sem os seus UTRs = 0,94; Suplemento Fig. 3). Os RNAs conhecidos por interagir com proteínas, como pequenos RNA nucleares (snRNAs)40 e pequenos RNAs nucleolares (snoRNAs)28, mostram a maior quantidade de estrutura, enquanto os RNAs que visam regiões complementares em ácidos nucléicos como o antisense, miRNAs e um número de RNAs longos intergênicos não-codificadores (lincRNAs)41,42 apresentam a menor quantidade de estrutura43 (Tabela Suplementar 1).

Em concordância com nossos achados, Seemann et al.12 observaram anteriormente uma estreita relação entre a ligação protéica e a conservação de elementos estruturais nos RNAs, que ocorrem em menor grau nos RNAs longos não codificadores12. Embora os lincRNAs mostrem uma menor quantidade de regiões de cadeia dupla (menor em PARS, terceira menor em DMS), observamos que alguns deles, como por exemplo NEAT144 e XIST27, são capazes de montagem de proteína de andaime através de domínios estruturados. Como existe um debate contínuo sobre as diferenças estruturais entre transcrições codificadas e não codificadas45,46 e a nossa análise dos dados DMS e PARS revela resultados contraditórios para tipos específicos de RNA, sugerimos mais investigações em estudos futuros (Fig. 2c; Tabela Complementar 1).

Para investigar diferenças funcionais entre RNAs altamente e mal estruturados, analisamos termos GO associados aos RNAs menos e mais estruturados (100 LS vs. 100 transcrições HS) utilizando a abordagem inteligenteGO35. Enquanto o conjunto de LS (14 RNAs sem codificação e 86 mRNAs) não está associado a clusters específicos de similaridade semântica (total de 36 termos com valor de p <0,05; teste de Bonferroni), o conjunto de HS (100 mRNAs; total de 395 termos com valor de p <0,05 e 103 termos com valor de p <0,01; teste de Bonferroni; Fig. 2d) inclui 20 clusters distintos. As cinco categorias principais associadas aos clusters e que cobrem pelo menos um quarto das entradas são: (i) regulação proteica complexa (49/103), (ii) processo metabólico de nucleósidos (39/103), (iii) resposta celular (29/103), (iv) expressão gênica (29/103) e (v) direcionamento proteico (28/103). Também repetimos a análise do termo GO usando como pano de fundo as transcrições expressas 25% maiores e obtivemos resultados semelhantes (K562 strain GENCODE, Methods, Supplementary Fig. 4).

A análise de agrupamento revela o achado intrigante de que transcrições com forte conteúdo estrutural interagem mais com polipéptidos e código para proteínas envolvidas em funções regulatórias e na formação de redes de contato complexas. Dada a relação entre a estrutura do RNA e o número de interações proteicas (Fig. 1), uma interpretação preliminar dos nossos resultados é que um alto grau de controle é necessário para genes que coordenam a atividade de um grande número de redes celulares47. Assim, nossa análise sugere uma propriedade ‘recursiva’: código de transcrição altamente contactado para proteínas de alto contato (Fig. 2e)20,48.

Desordem e hélice distinguem dsRNA vs. ssRNA

Para entender a base molecular da interatividade estrutural das moléculas de RNA, analisamos quais propriedades físico-químicas das proteínas melhor discriminam os conjuntos HS e LS. Estudamos todas as 10 variáveis utilizadas no algoritmo catRAPID (Fig. 2f)13,32 e as removemos uma a uma para estimar o impacto na predição das interações RNA-proteína. Verificamos que a capacidade de distinguir entre os conjuntos de RNAs menos e mais estruturados (100 transcrições HS e LS; Dados Suplementares 3) é mais afetada quando a polaridade (valor de p = 0,28; teste KS) e α – propensão helicoidal (valor de p = 0,06; teste KS) são removidos (Fig. 2f). A propriedade que mais significativamente afeta a propensão de ligação HS é a polaridade, que é enriquecida em proteínas estruturalmente desordenadas49 e anti-correlatos com hidrofobicidade que é fundamental no reconhecimento macromolecular (Tabela Complementar 2)50. Quanto à propensão helicoidal α, notamos que as hélices são os elementos estruturais mais freqüentes envolvidos na formação de contatos com regiões de dupla corda e ocorrem em dsRBD e dedos de zinco29 (Tabela Suplementar 3). Nossa observação sugere uma possível co-evolução entre proteínas e RNAs: enquanto o RNA adota formas complexas para expor as regiões de ligação, as proteínas alteram seu conteúdo estrutural. De acordo com a teoria da chave de bloqueio51, propomos que a seleção natural favorece RBPs altamente estruturadas como interautores de dsRNAs.

Validamos a importância da polaridade proteica e da estrutura helicoidal, comparando três conjuntos de dados de RBPs (humano e levedura)52,53,54 e dois conjuntos de proteínas recuperados de UniProt (todos os organismos) como aglutinantes exclusivos de ssRNA (453 proteínas) ou aglutinantes de dsRNA (390 proteínas; Dados Suplementares 4). A análise das propriedades biofísicas com a abordagem cleverMachine55 revelou que os ligantes de ssRNA e dsRNA aglutinantes diferem para duas propriedades: desordem e teor de hélice α (Fig. 2g). A comparação dos dois conjuntos, um contra o outro, indica que os RBPs interagindo com RNAs altamente estruturados são estruturados e hidrofóbicos, enquanto os RBPs desordenados e polares associam-se com RNAs menos estruturados (Suplemento Fig. 5). Assim, nossa análise expande ainda mais o que foi relatado anteriormente para as redes de interação proteína-proteína, nas quais regiões desordenadas estruturalmente têm demonstrado desempenhar um papel central47, e sugere novas regras para emparelhamento de bases de nucleotídeos com aminoácidos.

Conteúdo de estrutura de RNA e contato proteico em chaperones

A análise do transcriptoma humano e entre organismos indica que RNAs altamente estruturados são propensos a interagir com polipéptidos e, por sua vez, código para proteínas envolvidas em processos biológicos associados a grandes e complexas redes de contato. Para melhor investigar a interatividade protéica estrutural das moléculas de RNA, nós focamos em uma classe de codificação de transcrições para proteínas interagindo com vários parceiros. A escolha natural para esta análise são as chaperones moleculares, pois elas promovem o dobramento para o estado nativo56 e organizam a montagem de montagens de RNPs separados por fases57, cumprindo assim a propriedade ‘recursiva’ apresentada na Fig. 2d. Os dados do eCLIP30 mostram que a maioria da codificação de RNAs para chaperones humanos está envolvida em interações com múltiplas proteínas (Suplemento da Fig. 6). Encontramos uma correlação significativa entre as interações proteína-RNA e proteína-proteína anotada no BioGRID (Fig. 3a). Este resultado confirma que transcrições ligadas por muitos RBPs também codificam proteínas altamente contactadas.

Fig. 3
figure3

Relação entre a estrutura do RNA e os contactos protéicos para chaperones. a Contatos dos RNAs codificados para chaperones de proteínas, medidos através de CrossLinking melhorado e ImmunoPrecipitação (eCLIP)30, e interações físicas das proteínas codificadas correspondentes, coletadas do BioGRID; valor de p estimado com o teste KS. b Comparação entre a análise paralela da estrutura do RNA (PARS) e as interações físicas das proteínas codificadas, coletadas no BioGRID, para todo o transcriptoma. A transcriptoma foi dividida em cinco conjuntos consecutivos contendo cada 20% da transcriptoma. Os conjuntos foram selecionados quanto ao seu conteúdo estrutural PARS, sendo o alcance de cada conjunto da esquerda para a direita: -10,7 a -4,6; -4,6 a -3,1; -3,1 a -2,4; -2,4 a -1,9; -1,9 a -0,5. O último boxplot mostra a distribuição do número de interatores físicos recuperados do BioGRID para a família de proteínas chaperone (proteínas de choque térmico). c PARS medição do conteúdo da estrutura secundária das transcrições HS (HSP70, rosa) e LS (BRaf, azul). As linhas tracejadas verticais indicam regiões não traduzidas (UTRs). d PARS conteúdo da estrutura secundária das transcrições de HS e LS (valor de p estimado com o teste KS). e Diagrama Venn mostrando a sobreposição entre as interações proteicas, medidas pelo eCLIP, de HS e LS RNAs (valor empírico de p <6 × 10-3; estimado por comparação com a distribuição de 1000 sobreposições de conjuntos amostrados de RBPs do eCLIP). f Previsão da propensão de ligação proteica de HS e LS RNAs usando o catRAPID13,32 (valor de p estimado com o teste KS). Para b, d, f, as caixas mostram o intervalo interquartil (IQR), a linha central representa a mediana, os entalhes o intervalo de confiança de 95% da mediana, os bigodes adicionam 1,5 vezes o IQR ao percentil 75 (limite superior da caixa) e subtraem 1,5 vezes o IQR ao percentil 25 (limite inferior da caixa). S.d. é mostrado

Para entender se a correlação entre as interações proteína-proteína e proteína-RNA é uma propriedade geral ou simplesmente uma característica da família chaperone, nós analisamos as interações do transcriptoma classificado pelos escores PARS e 24 mRNAs codificação para chaperones para os quais os dados PARS estão disponíveis (Genecards; https://www.genecards.org; ‘HSPs’ conjunto; Métodos, Fig. 3b). Encontramos uma correlação positiva entre a quantidade de estrutura de RNA e o número de interautores BioGRID das proteínas codificadas (Suplemento, Fig. 7a-b). Assim, nossos cálculos concordam com a análise GO (Fig. 2d) e sugerem uma relação entre mRNA e seus parceiros codificadores: código RNAs altamente estruturado para proteínas altamente interativas.

Os dados apresentados até o momento sugerem que RNAs relacionados por tipo (ex. miRNA, snRNA) ou função (ex. codificação para chaperones) compartilham características estruturais similares (Fig. 2). Assim, deve ser possível estimar as diferenças na rede de interação de duas transcrições não relacionadas, analisando seu conteúdo estrutural e vice-versa. Para testar essa hipótese, selecionamos a transcrição altamente estruturada da HSP70 (HS RNA, log do escore PARS de -1,3 correspondente a 26% do conteúdo de dupla cadeia, Fig. 3c) codificação para uma chaperone essencial para regular montagens de complexos protéicos como camadas de clathrin58 e grânulos de tensão22,57. Como controle escolhemos a codificação do RNA para BRaf que é menos estruturada (RNA LS, escore de -2,8 indicando 6% do conteúdo de dupla corda de acordo com PARS, Fig. 3c-e) e codificação para um oncogene envolvido na transmissão de sinais químicos de fora da célula para o núcleo (a comparação estrutural é confirmada pelas previsões CROSS e experimentos DMS, como mostrado na Fig. Complementar. 8).

Nós descobrimos que a HSP70 tem um número maior de parceiros (30 RBPs identificados pelo eCLIP) do que o BRaf (9 eCLIP RBPs, 6 em comum à HSP70, Suplemento Fig. 9), o que está perfeitamente de acordo com a propriedade de interatividade protéica orientada pela estrutura. De acordo com a tendência da Fig. 1b, a catRAPID indica que as proteínas têm maior propensão a se ligar à HSP70 do que o BRaf (Fig. 3f). Além disso, os códigos HSP70 altamente estruturados para uma proteína com maior número de interações (244 interações físicas BioGRID), enquanto o BRaf mal estruturado tem um produto protéico ligando-se a um conjunto menor de moléculas (88 interações físicas BioGRID). Nossas observações sugerem que um RNA com um grande número de interações é propenso a agir como um regulador de rede: especulamos que, por causa da maior interatividade, a transcrição da HSP70 poderia atuar como um acompanhante dependendo do contexto.

Assim, colocamos a hipótese de que um RNA estruturado, por causa de seu maior potencial de interação protéica, é capaz de afetar a rede de interação protéica mais do que um RNA mal estruturado. Em um experimento de prova de conceito, usamos um composto químico, isoxazol biotinilado (b-isox) para induzir a formação de uma transição de fase líquida para sólida de um conjunto proteico59,60 que incubamos com transcrições HS (HSP70) ou LS (BRaf) (Fig. 4a e Suplemento Fig. 10). Observamos que a SH alterou a composição do agregado proteico mais do que o RNA do LS (Fig. 4b e Dados Suplementares 5). De fato, quando o RNA SH foi adicionado, uma mudança significativa de concentração foi observada para 29 proteínas (Fig. 4c; 21 conjunto ‘liberado’, pontos pretos, e 8 conjunto ‘mantido’, pontos vermelhos na Fig. 4b), enquanto apenas nove proteínas foram identificadas no caso do RNA LS. Assim, a composição em presença do RNA do LS permaneceu semelhante à do controle de fundo (conjunto ‘estático’, pontos cinzas na Fig. 4b).

Fig. 4
figure4

RNA estruturado reduz a agregação protéica in vitro. a Agregação de isoxazol biotinilado (b-isox)-driven do lisado de proteína de HeLa in vitro. Esquerda, géis Coomassie-stained, um experimento representativo mostrado (géis não-colhidos são apresentados na Fig. 10 Suplementar). Centro, a intensidade da proteína agregada foi quantificada e a diferença avaliada pelo teste t de duas caudas (p = 1 ×1 0-3; N = 3 réplicas biológicas mostradas como pontos na imagem). S.d. é mostrada. Direito, esquema experimental. A eficácia da agregação foi testada comparando o precipitado resultante na presença ou ausência de b-isox, isto é indicado por a+ ou a-, respeitavelmente. b As parcelas de vulcão indicam os valores de p (medida de Perseus) do enriquecimento proteico individual no conjunto b-isox (N = 4 réplicas biológicas independentes). O limiar de significância estatística é marcado por uma linha horizontal (ver também Dados Suplementares 5). Os pontos negros são proteínas com concentração significativamente reduzida após a incubação do RNA. Os pontos vermelhos são proteínas com concentração significativamente aumentada após a incubação do RNA. c Quantificação sem rótulo com código de cores (LFQ) das intensidades de proteínas afectadas pelo RNA estruturado alto (HS) numa escala de preto (baixo) a vermelho (alto). O agrupamento hierárquico por Perseus é indicado. Para comparação, as intensidades de LFQ das mesmas proteínas em controle e na presença do RNA LS também são plotadas

Apesamos que a competição do RNA com a rede de contato b-isox precipitado59,60 poderia ser o resultado de interações diretas ou indiretas proteína-RNA (Fig. 5a). Ainda assim, as previsões catRAPID apóiam a hipótese de um efeito direto: um aumento no rigor experimental (Suplementar Fig. 11; Métodos) também está associado a um aumento no poder preditivo teórico (Fig. 5b). De acordo com nossa análise anterior das preferências de ligação do RNA, proteínas liberadas na incubação da HSP70 resultam significativamente privadas de polaridade (Fig. 5c). Assim, nosso experimento sugere que a interatividade protéica estrutural das moléculas de RNA é ativa em todos os níveis, promovendo interações individuais e alterando a composição dos condensados12 (Fig. 2e).

Fig. 5
figurar5

Interacções dentro do condensado de ribonucleoproteína. a A libertação de proteínas do conjunto de isoxazol biotinilado (b-isox) pode ser o resultado de: (1) um processo indireto, resultante de uma competição de interação entre o RNA e o agregado protéico ou (2) um processo direto, resultante do seqüestro de proteínas pelo RNA. b os desempenhos do catRAPID melhoram com o rigor das experiências b-isox (Métodos), sugerindo um recrutamento direto de proteínas resgatadas por RNA (HS) de alta estrutura. A taxa de falsa descoberta (FDR) torna-se altamente significativa para o conjunto de experimentos mais estringentes (FDR = 0,1). c As proteínas ‘liberadas’ (caixa preta) são menos polares que as ‘estáticas’ (caixa cinza), de acordo com nossa análise computacional (valor de p = 4,7 × 10-2, valor de p estimado com o teste KS; ver também Fig. 2f, g). As proteínas liberadas e estáticas correspondem aos pontos pretos e cinzentos do painel direito da Fig. 4b. As caixas mostram o intervalo interquartílico (IQR), a linha central representa a mediana, os entalhes o intervalo de confiança de 95% da mediana, os bigodes adicionam 1,5 vezes o IQR ao percentil 75 (limite superior da caixa) e subtraem 1,5 vezes o IQR ao percentil 25 (limite inferior da caixa). S.d. é mostrado

Deixe uma resposta

O seu endereço de email não será publicado.