Estrutura do RNA conduz a interação com proteínas
RNAs altamente estruturados ligam uma grande quantidade de proteínas
Com o objetivo de estudar como a estrutura do RNA influencia a ligação protéica, medimos a quantidade de regiões de dupla cadeia do transcriptoma humano8 (Fig. 1a). Primeiro agrupamos os RNAs, conforme detectado pela abordagem de reticulação e imunoprecipitação (eCLIP)30 , em classes baseadas no conteúdo estrutural medido pela ‘análise paralela da estrutura do RNA’ (PARS)8 (Fig. 1a e Fig. 1b complementares). PARS é uma técnica experimental que distingue regiões de dupla e única cadeia de RNA usando a atividade catalítica de duas enzimas, RNase V1 (capaz de cortar nucleotídeos de dupla cadeia) e S1 (capaz de cortar nucleotídeos de cadeia única) e para as quais pontuações positivas indicam regiões de dupla cadeia (ver Eq. (1) em Métodos)8. Em seguida, usamos as previsões catRAPID das interações proteína-RNA (disponíveis na base de dados RNAct que contém cálculos de proteoma e transcriptoma31) e comparamos os escores de interação de diferentes grupos (HS, alto conteúdo estrutural, vs. LS, baixo conteúdo estrutural) (Fig. 1b). O algoritmo catRAPID32 estima o potencial de ligação através de van der Waals, ligação de hidrogênio e propensões de estrutura secundária de ambas as seqüências de proteínas e RNA (total de 10 propriedades), permitindo a identificação de parceiros de ligação com alta confiança. De fato, como relatado em uma análise recente de cerca de meio milhão de interações validadas experimentalmente31 , o algoritmo é capaz de separar pares interativos versus pares não interativos com uma curva de característica operacional receptora (ROC) de 0,78 (com taxa de falsa descoberta (FDR) significativamente abaixo de 0,25 quando os valores Z-score são >2). A comparação de grupos de RNA com diferentes conteúdos estruturais mostra uma tendência consistente na qual maiores conteúdos estruturais nas moléculas de RNA resultam em maiores escores de interação protéica (Fig. 1b). Quanto aos dados PARS, notamos que a quantidade de regiões de dupla cadeia se correlaciona de forma fraca (<0,10; Pearson’s) com o comprimento de RNA e o conteúdo de GC, indicando que estes dois fatores contribuem positivamente para a estrutura secundária ao aumentar o tamanho do espaço conformacional, bem como a estabilidade geral33.
Repetimos a análise com uma abordagem não relacionada, RPISeq, que prevê interações proteína-RNA usando padrões de seqüência em seqüências de nucleotídeos e aminoácidos11. RPISeq é composto por dois métodos baseados em máquinas vetoriais de suporte (RPISeq-SVM) e floresta aleatória (RPISeq-RF). Devido a requisitos computacionais específicos, aplicamos RPISeq a um conjunto de RBPs (50 proteínas com semelhança de sequência <0,85; http://cd-hit.org/) contra o conjunto HS e LS das caudas da distribuição do conteúdo estrutural (100 transcrições) para estimar as probabilidades de ligação (Dados Suplementares 1). Em ambos os casos, prevê-se que o conjunto HS (RF 0,80, SVM 0,71) se ligue com probabilidades significativamente maiores do que o conjunto LS (RF 0,70, SVM 0,54; valor de p <10-5; teste Kolmogorov-Smirnov (KS); Suplemento Fig. 1b-c), de acordo com a análise catRAPID (Fig. 1b). Assim, a nossa análise sugere que o conteúdo da estrutura do RNA tem efeito na interacção com as proteínas.
Para comparar as nossas previsões com os dados experimentais, investigámos todas as interacções RBP-RNA reveladas por CrossLinking melhorado e ImmunoPrecipitation, eCLIP30 (118 RBPs; ver Métodos). O eCLIP fornece contactos proteicos nos RNAs alvo com resolução de nucleótidos individuais através da ligação de adaptadores de ADN de cadeia única com código de barras30. De acordo com as previsões catRAPID31 (Fig. 1b), os escores de ligação eCLIP correlacionam-se com a estrutura secundária PARS, o que indica que a propensão do RNA para interagir com proteínas é proporcional à quantidade de estrutura medida no transcriptoma largo (Fig. 1c). Observamos que o CLIP-seq em geral favorece a detecção de RNA de cadeia única (SS) em detrimento do RNA de cadeia dupla (DS)34 e o conjunto de dados eCLIP não é enriquecido em proteínas de cadeia dupla ligadas ao RNA (9 de 118 são atribuídas de acordo com UniProt como dsRNA binding, 12 de 118 como ssRNA binding, usando anotações GO disponíveis35), o que indica que nossos resultados não são tendenciosos pelos tipos de proteínas usados em nossa análise.
Para confirmar ainda mais que a tendência é genuína e não apenas intrínseca às medidas PARS, analisamos o potencial de interação protéica de todo o transcriptoma humano contra a estrutura secundária do RNA medida com a técnica de modificação do dimetil sulfato (DMS) (diferentemente do PARS, valores altos indicam regiões de cadeia única; Fig. 1d)9. Este método de avaliação da estrutura do RNA emprega sequenciamento profundo para detectar adenosina e nucleotídeos de ctidina não pareados. Mais uma vez, a análise mostra que a estrutura secundária do RNA das transcrições humanas está estreitamente correlacionada com as habilidades de ligação de proteínas.
Também usamos o banco de dados POSTAR (contendo conjuntos de dados >1000 CLIP-seq; http://lulab.life.tsinghua.edu.cn/postar/) para recuperar as preferências de ligação do RNA das proteínas humanas (103 experimentos, 85 RBPs diferentes) medidas com PAR-CLIP, CLIP de seqüenciamento de alto rendimento (HITS-CLIP) e CLIP de resolução de nucleotídeos individuais (iCLIP)10. Devido a diferenças intrínsecas nas abordagens CLIP (e outros fatores, como as linhas celulares empregadas), cada experimento relata diferentes interações proteína-RNA10. Contudo, 77% dos RBPs têm preferência por RNAs altamente estruturados para pelo menos um dos métodos experimentais (DMS ou PARS; Fig. 1e).
Dados possíveis vieses técnicos de experimentos de alto rendimento, decidimos verificar a reprodutibilidade da tendência investigando a correlação entre a estrutura do RNA e as interações protéicas em análises de baixo rendimento. Primeiro estudamos a interação de oito grandes (>1000 nt) RNA cujos parceiros protéicos foram identificados por microarranjo, uma abordagem sem reticulação21,36,37 (ver Métodos). Em paralelo, estimamos o conteúdo estrutural de cada transcrição usando o algoritmo CROSS que foi previamente treinado em dados SHAPE38 para prever a dupla propensão a nível de nucleotídeos. Nossos resultados apresentados na Fig. 1f indicam que transcrições altamente estruturadas possuem mais contatos protéicos do que transcrições mal estruturadas, o que é totalmente compatível com os resultados apresentados em nossa análise anterior (Fig. 1b-e).
Corroboramos nossas observações através do estudo dos complexos RNP depositados no banco de dados do Banco de Dados de Proteínas (PDB) (resolução de raios X <2 Å; Dados Suplementares 2; ver Métodos), que é composto de 196 pares distintos de proteínas RNA (>20 espécies) analisados com diferentes técnicas (principalmente raios X e ressonância magnética nuclear (RNM)) por diferentes laboratórios. Medindo a quantidade de RNA intra-contato (ou seja, quantidade de estrutura de RNA) e inter-contato (ou seja, aminoácido) por cadeia de nucleotídeos, encontramos uma correlação marcante de 0,78 entre as duas variáveis, o que fornece evidências convincentes de sua estreita relação (Fig. 1g; ver Eqs. (2) e (3) em Métodos).
Assim, independentemente do experimento (PARS, DMS, microarray, X-ray, NMR, eCLIP, PAR-CLIP, HITS-CLIP e iCLIP), dos algoritmos empregados (catRAPID e RPISeq ou CROSS para imitar dados SHAPE) ou do organismo (banco de dados PDB), encontramos uma correlação entre o número de interações protéicas e o conteúdo estrutural do RNA.
A interatividade protéica estrutural dos tipos de RNA
A seguir investigamos se a estreita ligação entre a estrutura secundária e o número de interações protéicas é uma propriedade de tipos específicos de RNA (Fig. 2a). Com este objetivo, comparamos a estrutura secundária e as interações protéicas das transcrições classificadas por similaridade de seqüência usando o algoritmo CD-HIT39 (http://cd-hit.org/). Com um limiar de 85% de similaridade, encontramos 22 clusters (total de 55 transcrições) com pelo menos um contato RBP revelado pelo eCLIP. Calculamos então a correlação entre o sinal DMS e as interações da proteína eCLIP para cada cluster e obtivemos uma correlação negativa em 64% dos casos. Este achado indica que entre duas transcrições semelhantes aquela com maior conteúdo estrutural é mais provável que tenha um maior número de interações protéicas.
As duas transcrições que partilham a maior similaridade (99,31%) são o γ-globins HBG1 e HBG2 (subunidades de hemoglobina γ1 e γ2) que são expressos em fígado, baço e medula fetal (NCBI Gene ID: 3048). A variante γ-globina com estrutura mais elevada (HBG1) tem um número significativamente maior de interautores proteicos (HBG1, sinal médio DMS de 0,04, 29 interautores; HBG2, sinal médio DMS de 0,07, 14 interautores; valor de p = 0,003; teste KS; Fig. 2b). Enquanto a composição dos nucleotídeos das duas transcrições permanece praticamente a mesma (HBG1:280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), as diferenças entre o HBG1 e o HBG2 estão concentradas em regiões onde a estrutura secundária é alterada (Suplemento Fig. 2). Estes resultados indicam que a interatividade proteica está fortemente associada a mudanças conformacionais em elementos da estrutura secundária. Curiosamente, o aumento do conteúdo de cadeia dupla no HBG1, especialmente no 3′-UTR, é acompanhado por uma acumulação de elementos reguladores de translação (Fig. 2b) e uma concomitante diminuição da expressão (NCBI Gene ID: 3048).
Perguntamo-nos então se estruturas específicas de RNA estão envolvidas na regulação proteica. Dividimos o transcriptoma humano em diferentes classes e analisamos sua estrutura secundária como detectada por duas técnicas experimentais independentes, PARS e DMS. Ambas as técnicas mostram que os RNA codificadores de proteínas têm o maior conteúdo estrutural (Fig. 2c, Tabela Suplementar 1)38. Embora parte da estrutura do mRNA esteja concentrada nos UTRs8, quando estes são excluídos, a distribuição do conteúdo estrutural não muda substancialmente (correlação de Pearson entre transcrições com e sem os seus UTRs = 0,94; Suplemento Fig. 3). Os RNAs conhecidos por interagir com proteínas, como pequenos RNA nucleares (snRNAs)40 e pequenos RNAs nucleolares (snoRNAs)28, mostram a maior quantidade de estrutura, enquanto os RNAs que visam regiões complementares em ácidos nucléicos como o antisense, miRNAs e um número de RNAs longos intergênicos não-codificadores (lincRNAs)41,42 apresentam a menor quantidade de estrutura43 (Tabela Suplementar 1).
Em concordância com nossos achados, Seemann et al.12 observaram anteriormente uma estreita relação entre a ligação protéica e a conservação de elementos estruturais nos RNAs, que ocorrem em menor grau nos RNAs longos não codificadores12. Embora os lincRNAs mostrem uma menor quantidade de regiões de cadeia dupla (menor em PARS, terceira menor em DMS), observamos que alguns deles, como por exemplo NEAT144 e XIST27, são capazes de montagem de proteína de andaime através de domínios estruturados. Como existe um debate contínuo sobre as diferenças estruturais entre transcrições codificadas e não codificadas45,46 e a nossa análise dos dados DMS e PARS revela resultados contraditórios para tipos específicos de RNA, sugerimos mais investigações em estudos futuros (Fig. 2c; Tabela Complementar 1).
Para investigar diferenças funcionais entre RNAs altamente e mal estruturados, analisamos termos GO associados aos RNAs menos e mais estruturados (100 LS vs. 100 transcrições HS) utilizando a abordagem inteligenteGO35. Enquanto o conjunto de LS (14 RNAs sem codificação e 86 mRNAs) não está associado a clusters específicos de similaridade semântica (total de 36 termos com valor de p <0,05; teste de Bonferroni), o conjunto de HS (100 mRNAs; total de 395 termos com valor de p <0,05 e 103 termos com valor de p <0,01; teste de Bonferroni; Fig. 2d) inclui 20 clusters distintos. As cinco categorias principais associadas aos clusters e que cobrem pelo menos um quarto das entradas são: (i) regulação proteica complexa (49/103), (ii) processo metabólico de nucleósidos (39/103), (iii) resposta celular (29/103), (iv) expressão gênica (29/103) e (v) direcionamento proteico (28/103). Também repetimos a análise do termo GO usando como pano de fundo as transcrições expressas 25% maiores e obtivemos resultados semelhantes (K562 strain GENCODE, Methods, Supplementary Fig. 4).
A análise de agrupamento revela o achado intrigante de que transcrições com forte conteúdo estrutural interagem mais com polipéptidos e código para proteínas envolvidas em funções regulatórias e na formação de redes de contato complexas. Dada a relação entre a estrutura do RNA e o número de interações proteicas (Fig. 1), uma interpretação preliminar dos nossos resultados é que um alto grau de controle é necessário para genes que coordenam a atividade de um grande número de redes celulares47. Assim, nossa análise sugere uma propriedade ‘recursiva’: código de transcrição altamente contactado para proteínas de alto contato (Fig. 2e)20,48.
Desordem e hélice distinguem dsRNA vs. ssRNA
Para entender a base molecular da interatividade estrutural das moléculas de RNA, analisamos quais propriedades físico-químicas das proteínas melhor discriminam os conjuntos HS e LS. Estudamos todas as 10 variáveis utilizadas no algoritmo catRAPID (Fig. 2f)13,32 e as removemos uma a uma para estimar o impacto na predição das interações RNA-proteína. Verificamos que a capacidade de distinguir entre os conjuntos de RNAs menos e mais estruturados (100 transcrições HS e LS; Dados Suplementares 3) é mais afetada quando a polaridade (valor de p = 0,28; teste KS) e α – propensão helicoidal (valor de p = 0,06; teste KS) são removidos (Fig. 2f). A propriedade que mais significativamente afeta a propensão de ligação HS é a polaridade, que é enriquecida em proteínas estruturalmente desordenadas49 e anti-correlatos com hidrofobicidade que é fundamental no reconhecimento macromolecular (Tabela Complementar 2)50. Quanto à propensão helicoidal α, notamos que as hélices são os elementos estruturais mais freqüentes envolvidos na formação de contatos com regiões de dupla corda e ocorrem em dsRBD e dedos de zinco29 (Tabela Suplementar 3). Nossa observação sugere uma possível co-evolução entre proteínas e RNAs: enquanto o RNA adota formas complexas para expor as regiões de ligação, as proteínas alteram seu conteúdo estrutural. De acordo com a teoria da chave de bloqueio51, propomos que a seleção natural favorece RBPs altamente estruturadas como interautores de dsRNAs.
Validamos a importância da polaridade proteica e da estrutura helicoidal, comparando três conjuntos de dados de RBPs (humano e levedura)52,53,54 e dois conjuntos de proteínas recuperados de UniProt (todos os organismos) como aglutinantes exclusivos de ssRNA (453 proteínas) ou aglutinantes de dsRNA (390 proteínas; Dados Suplementares 4). A análise das propriedades biofísicas com a abordagem cleverMachine55 revelou que os ligantes de ssRNA e dsRNA aglutinantes diferem para duas propriedades: desordem e teor de hélice α (Fig. 2g). A comparação dos dois conjuntos, um contra o outro, indica que os RBPs interagindo com RNAs altamente estruturados são estruturados e hidrofóbicos, enquanto os RBPs desordenados e polares associam-se com RNAs menos estruturados (Suplemento Fig. 5). Assim, nossa análise expande ainda mais o que foi relatado anteriormente para as redes de interação proteína-proteína, nas quais regiões desordenadas estruturalmente têm demonstrado desempenhar um papel central47, e sugere novas regras para emparelhamento de bases de nucleotídeos com aminoácidos.
Conteúdo de estrutura de RNA e contato proteico em chaperones
A análise do transcriptoma humano e entre organismos indica que RNAs altamente estruturados são propensos a interagir com polipéptidos e, por sua vez, código para proteínas envolvidas em processos biológicos associados a grandes e complexas redes de contato. Para melhor investigar a interatividade protéica estrutural das moléculas de RNA, nós focamos em uma classe de codificação de transcrições para proteínas interagindo com vários parceiros. A escolha natural para esta análise são as chaperones moleculares, pois elas promovem o dobramento para o estado nativo56 e organizam a montagem de montagens de RNPs separados por fases57, cumprindo assim a propriedade ‘recursiva’ apresentada na Fig. 2d. Os dados do eCLIP30 mostram que a maioria da codificação de RNAs para chaperones humanos está envolvida em interações com múltiplas proteínas (Suplemento da Fig. 6). Encontramos uma correlação significativa entre as interações proteína-RNA e proteína-proteína anotada no BioGRID (Fig. 3a). Este resultado confirma que transcrições ligadas por muitos RBPs também codificam proteínas altamente contactadas.
Para entender se a correlação entre as interações proteína-proteína e proteína-RNA é uma propriedade geral ou simplesmente uma característica da família chaperone, nós analisamos as interações do transcriptoma classificado pelos escores PARS e 24 mRNAs codificação para chaperones para os quais os dados PARS estão disponíveis (Genecards; https://www.genecards.org; ‘HSPs’ conjunto; Métodos, Fig. 3b). Encontramos uma correlação positiva entre a quantidade de estrutura de RNA e o número de interautores BioGRID das proteínas codificadas (Suplemento, Fig. 7a-b). Assim, nossos cálculos concordam com a análise GO (Fig. 2d) e sugerem uma relação entre mRNA e seus parceiros codificadores: código RNAs altamente estruturado para proteínas altamente interativas.
Os dados apresentados até o momento sugerem que RNAs relacionados por tipo (ex. miRNA, snRNA) ou função (ex. codificação para chaperones) compartilham características estruturais similares (Fig. 2). Assim, deve ser possível estimar as diferenças na rede de interação de duas transcrições não relacionadas, analisando seu conteúdo estrutural e vice-versa. Para testar essa hipótese, selecionamos a transcrição altamente estruturada da HSP70 (HS RNA, log do escore PARS de -1,3 correspondente a 26% do conteúdo de dupla cadeia, Fig. 3c) codificação para uma chaperone essencial para regular montagens de complexos protéicos como camadas de clathrin58 e grânulos de tensão22,57. Como controle escolhemos a codificação do RNA para BRaf que é menos estruturada (RNA LS, escore de -2,8 indicando 6% do conteúdo de dupla corda de acordo com PARS, Fig. 3c-e) e codificação para um oncogene envolvido na transmissão de sinais químicos de fora da célula para o núcleo (a comparação estrutural é confirmada pelas previsões CROSS e experimentos DMS, como mostrado na Fig. Complementar. 8).
Nós descobrimos que a HSP70 tem um número maior de parceiros (30 RBPs identificados pelo eCLIP) do que o BRaf (9 eCLIP RBPs, 6 em comum à HSP70, Suplemento Fig. 9), o que está perfeitamente de acordo com a propriedade de interatividade protéica orientada pela estrutura. De acordo com a tendência da Fig. 1b, a catRAPID indica que as proteínas têm maior propensão a se ligar à HSP70 do que o BRaf (Fig. 3f). Além disso, os códigos HSP70 altamente estruturados para uma proteína com maior número de interações (244 interações físicas BioGRID), enquanto o BRaf mal estruturado tem um produto protéico ligando-se a um conjunto menor de moléculas (88 interações físicas BioGRID). Nossas observações sugerem que um RNA com um grande número de interações é propenso a agir como um regulador de rede: especulamos que, por causa da maior interatividade, a transcrição da HSP70 poderia atuar como um acompanhante dependendo do contexto.
Assim, colocamos a hipótese de que um RNA estruturado, por causa de seu maior potencial de interação protéica, é capaz de afetar a rede de interação protéica mais do que um RNA mal estruturado. Em um experimento de prova de conceito, usamos um composto químico, isoxazol biotinilado (b-isox) para induzir a formação de uma transição de fase líquida para sólida de um conjunto proteico59,60 que incubamos com transcrições HS (HSP70) ou LS (BRaf) (Fig. 4a e Suplemento Fig. 10). Observamos que a SH alterou a composição do agregado proteico mais do que o RNA do LS (Fig. 4b e Dados Suplementares 5). De fato, quando o RNA SH foi adicionado, uma mudança significativa de concentração foi observada para 29 proteínas (Fig. 4c; 21 conjunto ‘liberado’, pontos pretos, e 8 conjunto ‘mantido’, pontos vermelhos na Fig. 4b), enquanto apenas nove proteínas foram identificadas no caso do RNA LS. Assim, a composição em presença do RNA do LS permaneceu semelhante à do controle de fundo (conjunto ‘estático’, pontos cinzas na Fig. 4b).
Apesamos que a competição do RNA com a rede de contato b-isox precipitado59,60 poderia ser o resultado de interações diretas ou indiretas proteína-RNA (Fig. 5a). Ainda assim, as previsões catRAPID apóiam a hipótese de um efeito direto: um aumento no rigor experimental (Suplementar Fig. 11; Métodos) também está associado a um aumento no poder preditivo teórico (Fig. 5b). De acordo com nossa análise anterior das preferências de ligação do RNA, proteínas liberadas na incubação da HSP70 resultam significativamente privadas de polaridade (Fig. 5c). Assim, nosso experimento sugere que a interatividade protéica estrutural das moléculas de RNA é ativa em todos os níveis, promovendo interações individuais e alterando a composição dos condensados12 (Fig. 2e).