La estructura del ARN impulsa la interacción con las proteínas
Los ARN altamente estructurados se unen a una gran cantidad de proteínas
Con el objetivo de estudiar cómo la estructura del ARN influye en la unión a las proteínas, medimos la cantidad de regiones de doble cadena del transcriptoma humano8 (Fig. 1a). En primer lugar, agrupamos los ARN, detectados por el enfoque de reticulación e inmunoprecipitación mejorada (eCLIP)30 , en clases basadas en el contenido estructural medido por el «análisis paralelo de la estructura del ARN» (PARS)8 (Fig. 1a y Fig. 1b suplementarias). El PARS es una técnica experimental que distingue las regiones de doble y simple cadena del ARN utilizando la actividad catalítica de dos enzimas, la RNasa V1 (capaz de cortar nucleótidos de doble cadena) y la S1 (capaz de cortar nucleótidos de simple cadena) y para la cual las puntuaciones positivas indican regiones de doble cadena (véase la Ec. (1) en Métodos)8. A continuación, utilizamos las predicciones de catRAPID de las interacciones proteína-ARN (disponibles en la base de datos RNAct, que contiene cálculos tanto a nivel del proteoma como del transcriptoma31) y comparamos las puntuaciones de interacción de los diferentes grupos (HS, alto contenido estructural, frente a LS, bajo contenido estructural) (Fig. 1b). El algoritmo catRAPID32 estima el potencial de unión a través de las propensiones de van der Waals, de los enlaces de hidrógeno y de las estructuras secundarias de las secuencias de proteínas y de ARN (un total de 10 propiedades), lo que permite identificar a los socios de unión con gran confianza. De hecho, como se informó en un análisis reciente de cerca de medio millón de interacciones validadas experimentalmente31, el algoritmo es capaz de separar los pares que interactúan de los que no lo hacen con un área bajo la curva (AUC) de la característica operativa del receptor (ROC) de 0,78 (con una tasa de falsos descubrimientos (FDR) significativamente inferior a 0,25 cuando los valores de Z-score son >2). La comparación de los grupos de ARN con diferente contenido estructural muestra una tendencia consistente en la que un mayor contenido estructural en las moléculas de ARN da lugar a mayores puntuaciones de interacción con proteínas (Fig. 1b). En cuanto a los datos del PARS, observamos que la cantidad de regiones de doble cadena se correlaciona débilmente (<0,10; Pearson’s) con la longitud del ARN y el contenido de GC, lo que indica que estos dos factores contribuyen positivamente a la estructura secundaria aumentando el tamaño del espacio conformacional así como la estabilidad general33.
Repetimos el análisis con un enfoque no relacionado, RPISeq, que predice las interacciones de proteína-ARN utilizando patrones de secuencia en las secuencias de nucleótidos y aminoácidos11. RPISeq se compone de dos métodos basados en máquinas de vectores de apoyo (RPISeq-SVM) y bosques aleatorios (RPISeq-RF). Debido a los requisitos computacionales específicos, aplicamos RPISeq a un conjunto de RBPs (50 proteínas con similitud de secuencia <0,85; http://cd-hit.org/) contra el conjunto HS y LS de las colas de la distribución de contenido estructural (100 transcripciones) para estimar las probabilidades de unión (Datos suplementarios 1). En ambos casos, se predice que el conjunto HS (RF 0,80, SVM 0,71) se une con probabilidades significativamente mayores que el conjunto LS (RF 0,70, SVM 0,54; valor p <10-5; prueba de Kolmogorov-Smirnov (KS); Fig. suplementaria 1b-c), de acuerdo con el análisis catRAPID (Fig. 1b). Por lo tanto, nuestro análisis sugiere que el contenido de la estructura del ARN tiene efecto en la interacción con las proteínas.
Para hacer coincidir nuestras predicciones con los datos experimentales, investigamos todas las interacciones RBP-ARN reveladas por la técnica de reticulación e inmunoprecipitación mejorada, eCLIP30 (118 RBPs; ver Métodos). eCLIP proporciona contactos de proteínas en ARNs diana a resolución de nucleótidos individuales a través de la ligadura de adaptadores de ADN monocatenario con código de barras30. De acuerdo con las predicciones de catRAPID31 (Fig. 1b), las puntuaciones de unión de eCLIP se correlacionan con la estructura secundaria de PARS, lo que indica que la propensión del ARN a interactuar con las proteínas es proporcional a la cantidad de estructura medida en todo el transcriptoma (Fig. 1c). Observamos que los enfoques CLIP-seq en general favorecen la detección de ARN monocatenario (SS) a expensas de ARN bicatenario (DS)34 y el conjunto de datos eCLIP no está enriquecido en proteínas de unión a ARN bicatenario (9 de 118 se asignan según UniProt como unión a dsRNA, 12 de 118 como unión a ssRNA, utilizando las anotaciones GO disponibles35), lo que indica que nuestros resultados no están sesgados por los tipos de proteínas utilizados en nuestro análisis.
Para corroborar aún más que la tendencia es genuina y no sólo intrínseca a las mediciones de PARS, analizamos el potencial de interacción con proteínas de todo el transcriptoma humano frente a la estructura secundaria del ARN medida con la técnica de modificación con dimetil sulfato (DMS) (a diferencia de PARS, los valores altos indican regiones monocatenarias; Fig. 1d)9. Este método de evaluación de la estructura del ARN emplea la secuenciación profunda para detectar los nucleótidos de adenosina y citidina no apareados. Una vez más, el análisis muestra que la estructura secundaria del ARN de los transcritos humanos está estrechamente correlacionada con las capacidades de unión a proteínas.
También utilizamos la base de datos POSTAR (que contiene >1000 conjuntos de datos CLIP-seq; http://lulab.life.tsinghua.edu.cn/postar/) para recuperar las preferencias de unión al ARN de las proteínas humanas (103 experimentos, 85 RBP diferentes) medidas con PAR-CLIP, secuenciación de alto rendimiento-CLIP (HITS-CLIP) y CLIP de resolución individual de nucleótidos (iCLIP)10. Debido a las diferencias intrínsecas de los enfoques CLIP (y a otros factores, como las líneas celulares empleadas), cada experimento informa de diferentes interacciones proteína-ARN10. Sin embargo, el 77% de las RBP tienen preferencia por los ARN altamente estructurados para al menos uno de los métodos experimentales (DMS o PARS; Fig. 1e).
Dados los posibles sesgos técnicos de los experimentos de alto rendimiento, decidimos verificar la reproducibilidad de la tendencia investigando la correlación entre la estructura del ARN y las interacciones de las proteínas en los análisis de bajo rendimiento. Primero estudiamos el interactoma de ocho ARNs grandes (>1000 nt) cuyos socios proteicos han sido identificados por microarray, un enfoque libre de reticulación21,36,37 (ver Métodos). Paralelamente, estimamos el contenido estructural de cada transcripción utilizando el algoritmo CROSS que fue previamente entrenado en datos SHAPE38 para predecir la propensión a la doble cadena a nivel de resolución de nucleótidos. Nuestros resultados presentados en la Fig. 1f indican que los transcritos altamente estructurados tienen más contactos proteicos que los transcritos pobremente estructurados, lo cual es totalmente compatible con los hallazgos presentados en nuestro análisis anterior (Fig. 1b-e).
Corroboramos nuestras observaciones mediante el estudio de los complejos RNP depositados en la base de datos del Banco de Datos de Proteínas (PDB) (resolución de rayos X <2 Å; Datos Suplementarios 2; ver Métodos), que se compone de 196 pares distintos de ARN-proteínas (>20 especies) analizados con diferentes técnicas (principalmente rayos X y resonancia magnética nuclear (RMN)) por diferentes laboratorios. Al medir la cantidad de ARN intracontacto (es decir, la cantidad de estructura de ARN) e intercontacto (es decir, de aminoácidos) por cadena de nucleótidos, encontramos una sorprendente correlación de 0,78 entre las dos variables, lo que proporciona pruebas convincentes de su estrecha relación (Fig. 1g; véanse las ecuaciones (2) y (3) en Métodos).
Así, independientemente del experimento (PARS, DMS, microarray, rayos X, NMR, eCLIP, PAR-CLIP, HITS-CLIP e iCLIP), de los algoritmos empleados (catRAPID y RPISeq o CROSS para imitar los datos SHAPE) o del organismo (base de datos PDB), encontramos una correlación entre el número de interacciones proteicas y el contenido estructural del ARN.
La interactividad proteica impulsada por la estructura de los tipos de ARN
A continuación investigamos si el estrecho vínculo entre la estructura secundaria y el número de interacciones proteicas es una propiedad de tipos específicos de ARN (Fig. 2a). Para ello, comparamos la estructura secundaria y las interacciones proteicas de los transcritos clasificados por similitud de secuencia utilizando el algoritmo CD-HIT39 (http://cd-hit.org/). Con un umbral de similitud del 85%, encontramos 22 grupos (un total de 55 transcritos) con al menos un contacto RBP revelado por eCLIP. A continuación, calculamos la correlación entre la señal DMS y las interacciones proteicas de eCLIP para cada clúster y obtuvimos una correlación negativa en el 64% de los casos. Este hallazgo indica que entre dos transcritos similares el que tiene un mayor contenido estructural es más probable que tenga un mayor número de interacciones proteicas.
Los dos transcritos que comparten la mayor similitud (99,31%) son las γ-globinas HBG1 y HBG2 (subunidades de hemoglobina γ1 y γ2) que se expresan en el hígado, el bazo y la médula ósea del feto (NCBI Gene ID: 3048). La variante de γ-globina con mayor estructura (HBG1) tiene un número significativamente mayor de interactuantes proteicos (HBG1, señal DMS media de 0,04, 29 interactuantes; HBG2, señal DMS media de 0,07, 14 interactuantes; valor p = 0,003; prueba KS; Fig. 2b). Mientras que la composición nucleotídica de los dos transcritos sigue siendo casi la misma (HBG1:280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), las diferencias entre HBG1 y HBG2 se concentran en las regiones en las que la estructura secundaria está alterada (Fig. 2 suplementaria). Estos resultados indican que la interactividad de la proteína está estrechamente asociada a los cambios conformacionales en los elementos de la estructura secundaria. Curiosamente, el aumento del contenido de doble cadena en HBG1, especialmente en el 3′-UTR, va acompañado de una acumulación de elementos reguladores de la traducción (Fig. 2b) y una disminución concomitante de la expresión (NCBI Gene ID: 3048).
A continuación, nos preguntamos si hay estructuras específicas de ARN implicadas en la regulación de las proteínas. Dividimos el transcriptoma humano en diferentes clases y analizamos su estructura secundaria detectada por dos técnicas experimentales independientes, PARS y DMS. Ambas técnicas muestran que los ARN codificadores de proteínas tienen el mayor contenido estructural (Fig. 2c, Tabla Suplementaria 1)38. Aunque parte de la estructura del ARNm se concentra en las UTRs8, cuando éstas se excluyen, la distribución del contenido estructural no cambia sustancialmente (correlación de Pearson entre los transcritos con y sin sus UTRs = 0,94; Fig. suplementaria 3). Los ARNs conocidos por interactuar con las proteínas, como los ARNs nucleares pequeños (snRNAs)40 y los ARNs nucleolares pequeños (snoRNAs)28, muestran la mayor cantidad de estructura, mientras que los ARNs que se dirigen a regiones complementarias en los ácidos nucleicos, como los antisentido, los miRNAs y una serie de ARNs intergénicos largos no codificantes (lincRNAs)41,42 presentan la menor cantidad de estructura43 (Tabla Suplementaria 1).
De acuerdo con nuestros hallazgos, Seemann et al.12 observaron previamente una estrecha relación entre la unión a proteínas y la conservación de elementos estructurales en los ARNm, que se dan en menor medida en los ARN no codificantes largos12. Aunque los lincRNAs muestran una menor cantidad de regiones de doble cadena (la más baja en PARS, la tercera más baja en DMS), observamos que algunos de ellos, como por ejemplo NEAT144 y XIST27, son capaces de andamiar el ensamblaje de proteínas a través de dominios estructurados. Dado que existe un debate en curso sobre las diferencias estructurales entre los transcritos codificantes y no codificantes45,46 y que nuestro análisis de los datos de DMS y PARS revela resultados contradictorios para tipos específicos de ARN, sugerimos que se realicen más investigaciones en futuros estudios (Fig. 2c; Tabla Suplementaria 1).
Para investigar las diferencias funcionales entre los ARN muy y poco estructurados, analizamos los términos GO asociados a los ARN menos y más estructurados (100 transcritos LS frente a 100 HS) utilizando el enfoque cleverGO35. Mientras que el conjunto LS (14 ARN no codificantes y 86 ARNm) no está asociado a clústeres específicos de similitud semántica (total de 36 términos con valor p <0,05; prueba de Bonferroni), el conjunto HS (100 ARNm; total de 395 términos con valor p <0,05 y 103 términos con valor p <0,01; prueba de Bonferroni; Fig. 2d) incluye 20 clústeres distintos. Las cinco categorías principales asociadas a los clusters y que abarcan al menos una cuarta parte de las entradas son (i) regulación de proteínas complejas (49/103), (ii) proceso metabólico de nucleósidos (39/103), (iii) respuesta celular (29/103), (iv) expresión génica (29/103) y (v) orientación de proteínas (28/103). También repetimos el análisis de términos GO utilizando como fondo los transcritos con un 25% más de expresión y obtuvimos resultados similares (cepa K562 GENCODE, Métodos, Fig. Suplementaria 4).
El análisis de clústeres revela el intrigante hallazgo de que los transcritos con fuerte contenido estructural interactúan más con los polipéptidos y codifican proteínas implicadas en funciones reguladoras y en la formación de complejas redes de contacto. Dada la relación entre la estructura del ARN y el número de interacciones proteicas (Fig. 1), una interpretación preliminar de nuestros resultados es que se requiere un alto grado de control para los genes que coordinan la actividad de un gran número de redes celulares47. Así, nuestro análisis sugiere una propiedad «recursiva»: los transcritos altamente contactados codifican proteínas altamente contactadas (Fig. 2e)20,48.
El desorden y la hélice distinguen el dsRNA frente al ssRNA
Para comprender la base molecular de la interactividad impulsada por la estructura de las moléculas de ARN, analizamos qué propiedades fisicoquímicas de las proteínas discriminan mejor los conjuntos HS y LS. Estudiamos las 10 variables utilizadas en el algoritmo catRAPID (Fig. 2f)13,32 y las eliminamos una por una para estimar el impacto en la predicción de las interacciones ARN-proteína. Encontramos que la capacidad de distinguir entre los conjuntos de ARN menos y más estructurados (100 transcritos HS y LS; Datos Suplementarios 3) se ve más afectada cuando se eliminan la polaridad (valor p = 0,28; prueba KS) y la propensión α-hélica (valor p = 0,06; prueba KS) (Fig. 2f). La propiedad que afecta más significativamente a la propensión de unión a la HS es la polaridad, que se enriquece en las proteínas estructuralmente desordenadas49 y se anticorrelaciona con la hidrofobicidad que es clave en el reconocimiento macromolecular (Tabla Suplementaria 2)50. En cuanto a la propensión α-helicoidal, observamos que las hélices son los elementos estructurales más frecuentes implicados en la formación de contactos con regiones de doble cadena y se dan en dsRBD y dedos de zinc29 (Tabla Suplementaria 3). Nuestra observación sugiere una posible coevolución entre proteínas y ARN: mientras el ARN adopta formas complejas para exponer las regiones de unión, las proteínas cambian su contenido estructural. De acuerdo con la teoría de la cerradura de la llave51, proponemos que la selección natural favorece a las RBPs altamente estructuradas como interactuantes de los dsRNAs.
Validamos la importancia de la polaridad de la proteína y de la estructura helicoidal comparando tres conjuntos de datos de RBPs bien estudiadas (humanas y de levadura)52,53,54 y dos conjuntos de proteínas recuperadas de UniProt (todos los organismos) como ligantes exclusivamente de ssRNA (453 proteínas) o de dsRNA (390 proteínas; Datos Suplementarios 4). El análisis de las propiedades biofísicas con el enfoque cleverMachine55 reveló que los fijadores de ssRNA y los fijadores de dsRNA difieren en dos propiedades: el desorden y el contenido de α-helix (Fig. 2g). La comparación de los dos conjuntos, uno frente al otro, indica que las RBP que interactúan con ARN altamente estructurados son estructuradas e hidrofóbicas, mientras que las RBP desordenadas y polares se asocian con ARN menos estructurados (Fig. suplementaria 5). Por lo tanto, nuestro análisis amplía lo informado anteriormente para las redes de interacción proteína-proteína, en las que se ha demostrado que las regiones desordenadas estructurales desempeñan un papel central47, y sugiere nuevas reglas para el emparejamiento de bases de nucleótidos con aminoácidos.
Contenido de la estructura del ARN y contacto con proteínas en las chaperonas
El análisis del transcriptoma humano y a través de los organismos indica que los ARN altamente estructurados son propensos a interactuar con los polipéptidos y, a su vez, codifican proteínas involucradas en procesos biológicos asociados con redes de contacto grandes y complejas. Para investigar mejor la interactividad proteica impulsada por la estructura de las moléculas de ARN, nos centramos en una clase de transcritos que codifican proteínas que interactúan con varios socios. La elección natural para este análisis son las chaperonas moleculares, ya que promueven el plegado al estado nativo56 y organizan el ensamblaje de conjuntos de RNP separados por fases57, cumpliendo así la propiedad «recursiva» presentada en la Fig. 2d. Los datos de eCLIP30 muestran que la mayoría de los ARN que codifican chaperonas humanas están implicados en interacciones con múltiples proteínas (Fig. 6 suplementaria). Encontramos una correlación significativa entre las interacciones proteína-ARN y proteína-proteína anotadas en BioGRID (Fig. 3a). Este resultado confirma que los transcritos unidos por muchas RBP también codifican proteínas altamente contactadas.