La estructura del ARN impulsa la interacción con las proteínas

Jul 29, 2021
admin

Los ARN altamente estructurados se unen a una gran cantidad de proteínas

Con el objetivo de estudiar cómo la estructura del ARN influye en la unión a las proteínas, medimos la cantidad de regiones de doble cadena del transcriptoma humano8 (Fig. 1a). En primer lugar, agrupamos los ARN, detectados por el enfoque de reticulación e inmunoprecipitación mejorada (eCLIP)30 , en clases basadas en el contenido estructural medido por el «análisis paralelo de la estructura del ARN» (PARS)8 (Fig. 1a y Fig. 1b suplementarias). El PARS es una técnica experimental que distingue las regiones de doble y simple cadena del ARN utilizando la actividad catalítica de dos enzimas, la RNasa V1 (capaz de cortar nucleótidos de doble cadena) y la S1 (capaz de cortar nucleótidos de simple cadena) y para la cual las puntuaciones positivas indican regiones de doble cadena (véase la Ec. (1) en Métodos)8. A continuación, utilizamos las predicciones de catRAPID de las interacciones proteína-ARN (disponibles en la base de datos RNAct, que contiene cálculos tanto a nivel del proteoma como del transcriptoma31) y comparamos las puntuaciones de interacción de los diferentes grupos (HS, alto contenido estructural, frente a LS, bajo contenido estructural) (Fig. 1b). El algoritmo catRAPID32 estima el potencial de unión a través de las propensiones de van der Waals, de los enlaces de hidrógeno y de las estructuras secundarias de las secuencias de proteínas y de ARN (un total de 10 propiedades), lo que permite identificar a los socios de unión con gran confianza. De hecho, como se informó en un análisis reciente de cerca de medio millón de interacciones validadas experimentalmente31, el algoritmo es capaz de separar los pares que interactúan de los que no lo hacen con un área bajo la curva (AUC) de la característica operativa del receptor (ROC) de 0,78 (con una tasa de falsos descubrimientos (FDR) significativamente inferior a 0,25 cuando los valores de Z-score son >2). La comparación de los grupos de ARN con diferente contenido estructural muestra una tendencia consistente en la que un mayor contenido estructural en las moléculas de ARN da lugar a mayores puntuaciones de interacción con proteínas (Fig. 1b). En cuanto a los datos del PARS, observamos que la cantidad de regiones de doble cadena se correlaciona débilmente (<0,10; Pearson’s) con la longitud del ARN y el contenido de GC, lo que indica que estos dos factores contribuyen positivamente a la estructura secundaria aumentando el tamaño del espacio conformacional así como la estabilidad general33.

Fig. 1
figura1

La cantidad de estructura de la proteína se correlaciona con el número de interacciones. a Función de distribución acumulativa (CDF) para el contenido de estructura secundaria de todos los ARN humanos medidos mediante el análisis paralelo de la estructura del ARN (PARS)8,69. Las líneas verticales indican una determinada fracción (X%) de ARN con el menor contenido secundario (LS; azul) y la misma fracción con el mayor contenido secundario (HS; rosa). b Predicciones catRAPID de las interacciones de las proteínas con los ARN humanos clasificadas por el contenido estructural medido por PARS (118 proteínas de unión a ARN (RBP) para las que también se dispone de información de reticulación e inmunoprecipitación mejorada (eCLIP))31. Las fracciones 10%, 15%, …, 50% se refieren a la comparación entre conjuntos HS y LS de igual tamaño. Los resultados indican que catRAPID es capaz de distinguir los grupos HS y LS de forma significativa y consistente a través de las diferentes fracciones (valor p <10-16; prueba de Kolmogorov-Smirnov (KS)). Los recuadros muestran el rango intercuartil (IQR), la línea central representa la mediana, los bigotes suman 1,5 veces el IQR al percentil 75 (límite superior del recuadro) y restan 1,5 veces el IQR del percentil 25 (límite inferior del recuadro). c Relación entre el número de interacciones proteicas (eCLIP) y el contenido estructural medido por PARS30. La línea de ajuste corresponde a la fórmula y = exp(α + βx), donde α = -0,75; β = 0,67; valor p estimado con la prueba KS. d Relación entre el número de interacciones proteicas y el contenido estructural medido por modificación con dimetil sulfato (DMS)9. La línea de ajuste corresponde a la fórmula y = 1/(α + βx), donde α = 2,60; β = 87,36; valor p estimado con la prueba KS. e Preferencias estructurales de las RBP medidas con tres técnicas CLIP diferentes (CLIP potenciada por ribonucleósidos fotoactivables (PAR-CLIP), CLIP de secuenciación de alto rendimiento (HITS-CLIP) y CLIP de resolución de nucleótidos individuales (iCLIP)). El color indica la preferencia de unión al ARN de cada proteína: rosa, muy estructurada; azul, poco estructurada; gris, sin preferencia. f Correlación entre el contenido estructural (predicciones CROSS de los experimentos icSHAPE) y las interacciones proteicas de ocho transcritos reveladas por los microarrays de proteínas (correlación de Pearson). g El análisis de las estructuras del Banco de Datos de Proteínas (PDB) que contienen complejos de proteína-ARN revela una tendencia entre los contactos de proteína (inter) y ARN (intra) (196 pares diferentes; correlación de Pearson)

Repetimos el análisis con un enfoque no relacionado, RPISeq, que predice las interacciones de proteína-ARN utilizando patrones de secuencia en las secuencias de nucleótidos y aminoácidos11. RPISeq se compone de dos métodos basados en máquinas de vectores de apoyo (RPISeq-SVM) y bosques aleatorios (RPISeq-RF). Debido a los requisitos computacionales específicos, aplicamos RPISeq a un conjunto de RBPs (50 proteínas con similitud de secuencia <0,85; http://cd-hit.org/) contra el conjunto HS y LS de las colas de la distribución de contenido estructural (100 transcripciones) para estimar las probabilidades de unión (Datos suplementarios 1). En ambos casos, se predice que el conjunto HS (RF 0,80, SVM 0,71) se une con probabilidades significativamente mayores que el conjunto LS (RF 0,70, SVM 0,54; valor p <10-5; prueba de Kolmogorov-Smirnov (KS); Fig. suplementaria 1b-c), de acuerdo con el análisis catRAPID (Fig. 1b). Por lo tanto, nuestro análisis sugiere que el contenido de la estructura del ARN tiene efecto en la interacción con las proteínas.

Para hacer coincidir nuestras predicciones con los datos experimentales, investigamos todas las interacciones RBP-ARN reveladas por la técnica de reticulación e inmunoprecipitación mejorada, eCLIP30 (118 RBPs; ver Métodos). eCLIP proporciona contactos de proteínas en ARNs diana a resolución de nucleótidos individuales a través de la ligadura de adaptadores de ADN monocatenario con código de barras30. De acuerdo con las predicciones de catRAPID31 (Fig. 1b), las puntuaciones de unión de eCLIP se correlacionan con la estructura secundaria de PARS, lo que indica que la propensión del ARN a interactuar con las proteínas es proporcional a la cantidad de estructura medida en todo el transcriptoma (Fig. 1c). Observamos que los enfoques CLIP-seq en general favorecen la detección de ARN monocatenario (SS) a expensas de ARN bicatenario (DS)34 y el conjunto de datos eCLIP no está enriquecido en proteínas de unión a ARN bicatenario (9 de 118 se asignan según UniProt como unión a dsRNA, 12 de 118 como unión a ssRNA, utilizando las anotaciones GO disponibles35), lo que indica que nuestros resultados no están sesgados por los tipos de proteínas utilizados en nuestro análisis.

Para corroborar aún más que la tendencia es genuina y no sólo intrínseca a las mediciones de PARS, analizamos el potencial de interacción con proteínas de todo el transcriptoma humano frente a la estructura secundaria del ARN medida con la técnica de modificación con dimetil sulfato (DMS) (a diferencia de PARS, los valores altos indican regiones monocatenarias; Fig. 1d)9. Este método de evaluación de la estructura del ARN emplea la secuenciación profunda para detectar los nucleótidos de adenosina y citidina no apareados. Una vez más, el análisis muestra que la estructura secundaria del ARN de los transcritos humanos está estrechamente correlacionada con las capacidades de unión a proteínas.

También utilizamos la base de datos POSTAR (que contiene >1000 conjuntos de datos CLIP-seq; http://lulab.life.tsinghua.edu.cn/postar/) para recuperar las preferencias de unión al ARN de las proteínas humanas (103 experimentos, 85 RBP diferentes) medidas con PAR-CLIP, secuenciación de alto rendimiento-CLIP (HITS-CLIP) y CLIP de resolución individual de nucleótidos (iCLIP)10. Debido a las diferencias intrínsecas de los enfoques CLIP (y a otros factores, como las líneas celulares empleadas), cada experimento informa de diferentes interacciones proteína-ARN10. Sin embargo, el 77% de las RBP tienen preferencia por los ARN altamente estructurados para al menos uno de los métodos experimentales (DMS o PARS; Fig. 1e).

Dados los posibles sesgos técnicos de los experimentos de alto rendimiento, decidimos verificar la reproducibilidad de la tendencia investigando la correlación entre la estructura del ARN y las interacciones de las proteínas en los análisis de bajo rendimiento. Primero estudiamos el interactoma de ocho ARNs grandes (>1000 nt) cuyos socios proteicos han sido identificados por microarray, un enfoque libre de reticulación21,36,37 (ver Métodos). Paralelamente, estimamos el contenido estructural de cada transcripción utilizando el algoritmo CROSS que fue previamente entrenado en datos SHAPE38 para predecir la propensión a la doble cadena a nivel de resolución de nucleótidos. Nuestros resultados presentados en la Fig. 1f indican que los transcritos altamente estructurados tienen más contactos proteicos que los transcritos pobremente estructurados, lo cual es totalmente compatible con los hallazgos presentados en nuestro análisis anterior (Fig. 1b-e).

Corroboramos nuestras observaciones mediante el estudio de los complejos RNP depositados en la base de datos del Banco de Datos de Proteínas (PDB) (resolución de rayos X <2 Å; Datos Suplementarios 2; ver Métodos), que se compone de 196 pares distintos de ARN-proteínas (>20 especies) analizados con diferentes técnicas (principalmente rayos X y resonancia magnética nuclear (RMN)) por diferentes laboratorios. Al medir la cantidad de ARN intracontacto (es decir, la cantidad de estructura de ARN) e intercontacto (es decir, de aminoácidos) por cadena de nucleótidos, encontramos una sorprendente correlación de 0,78 entre las dos variables, lo que proporciona pruebas convincentes de su estrecha relación (Fig. 1g; véanse las ecuaciones (2) y (3) en Métodos).

Así, independientemente del experimento (PARS, DMS, microarray, rayos X, NMR, eCLIP, PAR-CLIP, HITS-CLIP e iCLIP), de los algoritmos empleados (catRAPID y RPISeq o CROSS para imitar los datos SHAPE) o del organismo (base de datos PDB), encontramos una correlación entre el número de interacciones proteicas y el contenido estructural del ARN.

La interactividad proteica impulsada por la estructura de los tipos de ARN

A continuación investigamos si el estrecho vínculo entre la estructura secundaria y el número de interacciones proteicas es una propiedad de tipos específicos de ARN (Fig. 2a). Para ello, comparamos la estructura secundaria y las interacciones proteicas de los transcritos clasificados por similitud de secuencia utilizando el algoritmo CD-HIT39 (http://cd-hit.org/). Con un umbral de similitud del 85%, encontramos 22 grupos (un total de 55 transcritos) con al menos un contacto RBP revelado por eCLIP. A continuación, calculamos la correlación entre la señal DMS y las interacciones proteicas de eCLIP para cada clúster y obtuvimos una correlación negativa en el 64% de los casos. Este hallazgo indica que entre dos transcritos similares el que tiene un mayor contenido estructural es más probable que tenga un mayor número de interacciones proteicas.

Fig. 2
figure2

Huellas funcionales de la interactividad proteica impulsada por la estructura del ARN. a Esquema que muestra el papel de los contactos intra e intermoleculares en un complejo ARN-proteína. Arriba, contactos intramoleculares. Abajo, contactos intermoleculares. El número de contactos se indica con tonos que van del azul oscuro (el más bajo) al rojo (el más alto). b Arriba, Contenido estructural (modificación con dimetil sulfato (DMS); valor p estimado con la prueba KS). Abajo, Interacciones proteicas (reticulación e inmunoprecipitación mejorada (eCLIP) de los ARN de la subunidad γ1 de la hemoglobina (HBG1) (rosa) y de la subunidad γ2 de la hemoglobina (HBG2) (azul) (99,3% de identidad secuencial); el valor p empírico se estimó comparando el solapamiento con el de 1.000 muestras tomadas de proteínas de unión al ARN (RBP) de eCLIP. c Análisis paralelo de la estructura del ARN (PARS) (rosa) y del contenido estructural del DMS (azul) de diferentes tipos de ARN (Ensembl). d Agrupación semántica de los términos de la ontología génica asociados a los ARN menos y más estructurados (100 transcritos menos estructurados (LS) frente a 100 transcritos altamente estructurados (HS)) utilizando cleverGO. e Mediante el análisis de los ARN individuales (Figs. 1 y 2b) descubrimos que el contenido estructural está relacionado con el número de socios y la función de un ARN. Nuestro análisis indica que los ARN relacionados funcionalmente tienen un contenido estructural similar (Fig. 2c). La interactividad proteica impulsada por la estructura es una propiedad intrínseca asociada al ARN que puede ser rastreada en cualquier nivel de regulación. f Cada fila muestra las propensiones de interacción catRAPID causadas por la eliminación de una propiedad fisicoquímica13,32. La eliminación de la α-hélice (Chou) y la polaridad (Grantham) reducen la capacidad de distinguir entre HS y LS (valores de p estimados con la prueba KS). g análisis multicleverMachine de las propiedades fisicoquímicas de tres conjuntos de RBP y proteínas anotadas en UniProt como aglutinantes de ARNs de doble cadena (DS) o de cadena simple (SS) (ver Métodos). La «propensión al desorden» y la «α-hélice» son las propiedades que muestran diferencias significativas y resultados opuestos entre los ligantes DS y SS para al menos dos bases de datos de RBP (el azul o el rosa indican que DS o SS están enriquecidos o agotados; el amarillo indica que no hay diferencias significativas entre los conjuntos). En b, c, los recuadros muestran el rango intercuartil (IQR), la línea central representa la mediana, las muescas el intervalo de confianza del 95% de la mediana, los bigotes suman 1,5 veces el IQR al percentil 75 (límite superior del recuadro) y restan 1,5 veces el IQR al percentil 25 (límite inferior del recuadro). Se muestra la d.s.

Los dos transcritos que comparten la mayor similitud (99,31%) son las γ-globinas HBG1 y HBG2 (subunidades de hemoglobina γ1 y γ2) que se expresan en el hígado, el bazo y la médula ósea del feto (NCBI Gene ID: 3048). La variante de γ-globina con mayor estructura (HBG1) tiene un número significativamente mayor de interactuantes proteicos (HBG1, señal DMS media de 0,04, 29 interactuantes; HBG2, señal DMS media de 0,07, 14 interactuantes; valor p = 0,003; prueba KS; Fig. 2b). Mientras que la composición nucleotídica de los dos transcritos sigue siendo casi la misma (HBG1:280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), las diferencias entre HBG1 y HBG2 se concentran en las regiones en las que la estructura secundaria está alterada (Fig. 2 suplementaria). Estos resultados indican que la interactividad de la proteína está estrechamente asociada a los cambios conformacionales en los elementos de la estructura secundaria. Curiosamente, el aumento del contenido de doble cadena en HBG1, especialmente en el 3′-UTR, va acompañado de una acumulación de elementos reguladores de la traducción (Fig. 2b) y una disminución concomitante de la expresión (NCBI Gene ID: 3048).

A continuación, nos preguntamos si hay estructuras específicas de ARN implicadas en la regulación de las proteínas. Dividimos el transcriptoma humano en diferentes clases y analizamos su estructura secundaria detectada por dos técnicas experimentales independientes, PARS y DMS. Ambas técnicas muestran que los ARN codificadores de proteínas tienen el mayor contenido estructural (Fig. 2c, Tabla Suplementaria 1)38. Aunque parte de la estructura del ARNm se concentra en las UTRs8, cuando éstas se excluyen, la distribución del contenido estructural no cambia sustancialmente (correlación de Pearson entre los transcritos con y sin sus UTRs = 0,94; Fig. suplementaria 3). Los ARNs conocidos por interactuar con las proteínas, como los ARNs nucleares pequeños (snRNAs)40 y los ARNs nucleolares pequeños (snoRNAs)28, muestran la mayor cantidad de estructura, mientras que los ARNs que se dirigen a regiones complementarias en los ácidos nucleicos, como los antisentido, los miRNAs y una serie de ARNs intergénicos largos no codificantes (lincRNAs)41,42 presentan la menor cantidad de estructura43 (Tabla Suplementaria 1).

De acuerdo con nuestros hallazgos, Seemann et al.12 observaron previamente una estrecha relación entre la unión a proteínas y la conservación de elementos estructurales en los ARNm, que se dan en menor medida en los ARN no codificantes largos12. Aunque los lincRNAs muestran una menor cantidad de regiones de doble cadena (la más baja en PARS, la tercera más baja en DMS), observamos que algunos de ellos, como por ejemplo NEAT144 y XIST27, son capaces de andamiar el ensamblaje de proteínas a través de dominios estructurados. Dado que existe un debate en curso sobre las diferencias estructurales entre los transcritos codificantes y no codificantes45,46 y que nuestro análisis de los datos de DMS y PARS revela resultados contradictorios para tipos específicos de ARN, sugerimos que se realicen más investigaciones en futuros estudios (Fig. 2c; Tabla Suplementaria 1).

Para investigar las diferencias funcionales entre los ARN muy y poco estructurados, analizamos los términos GO asociados a los ARN menos y más estructurados (100 transcritos LS frente a 100 HS) utilizando el enfoque cleverGO35. Mientras que el conjunto LS (14 ARN no codificantes y 86 ARNm) no está asociado a clústeres específicos de similitud semántica (total de 36 términos con valor p <0,05; prueba de Bonferroni), el conjunto HS (100 ARNm; total de 395 términos con valor p <0,05 y 103 términos con valor p <0,01; prueba de Bonferroni; Fig. 2d) incluye 20 clústeres distintos. Las cinco categorías principales asociadas a los clusters y que abarcan al menos una cuarta parte de las entradas son (i) regulación de proteínas complejas (49/103), (ii) proceso metabólico de nucleósidos (39/103), (iii) respuesta celular (29/103), (iv) expresión génica (29/103) y (v) orientación de proteínas (28/103). También repetimos el análisis de términos GO utilizando como fondo los transcritos con un 25% más de expresión y obtuvimos resultados similares (cepa K562 GENCODE, Métodos, Fig. Suplementaria 4).

El análisis de clústeres revela el intrigante hallazgo de que los transcritos con fuerte contenido estructural interactúan más con los polipéptidos y codifican proteínas implicadas en funciones reguladoras y en la formación de complejas redes de contacto. Dada la relación entre la estructura del ARN y el número de interacciones proteicas (Fig. 1), una interpretación preliminar de nuestros resultados es que se requiere un alto grado de control para los genes que coordinan la actividad de un gran número de redes celulares47. Así, nuestro análisis sugiere una propiedad «recursiva»: los transcritos altamente contactados codifican proteínas altamente contactadas (Fig. 2e)20,48.

El desorden y la hélice distinguen el dsRNA frente al ssRNA

Para comprender la base molecular de la interactividad impulsada por la estructura de las moléculas de ARN, analizamos qué propiedades fisicoquímicas de las proteínas discriminan mejor los conjuntos HS y LS. Estudiamos las 10 variables utilizadas en el algoritmo catRAPID (Fig. 2f)13,32 y las eliminamos una por una para estimar el impacto en la predicción de las interacciones ARN-proteína. Encontramos que la capacidad de distinguir entre los conjuntos de ARN menos y más estructurados (100 transcritos HS y LS; Datos Suplementarios 3) se ve más afectada cuando se eliminan la polaridad (valor p = 0,28; prueba KS) y la propensión α-hélica (valor p = 0,06; prueba KS) (Fig. 2f). La propiedad que afecta más significativamente a la propensión de unión a la HS es la polaridad, que se enriquece en las proteínas estructuralmente desordenadas49 y se anticorrelaciona con la hidrofobicidad que es clave en el reconocimiento macromolecular (Tabla Suplementaria 2)50. En cuanto a la propensión α-helicoidal, observamos que las hélices son los elementos estructurales más frecuentes implicados en la formación de contactos con regiones de doble cadena y se dan en dsRBD y dedos de zinc29 (Tabla Suplementaria 3). Nuestra observación sugiere una posible coevolución entre proteínas y ARN: mientras el ARN adopta formas complejas para exponer las regiones de unión, las proteínas cambian su contenido estructural. De acuerdo con la teoría de la cerradura de la llave51, proponemos que la selección natural favorece a las RBPs altamente estructuradas como interactuantes de los dsRNAs.

Validamos la importancia de la polaridad de la proteína y de la estructura helicoidal comparando tres conjuntos de datos de RBPs bien estudiadas (humanas y de levadura)52,53,54 y dos conjuntos de proteínas recuperadas de UniProt (todos los organismos) como ligantes exclusivamente de ssRNA (453 proteínas) o de dsRNA (390 proteínas; Datos Suplementarios 4). El análisis de las propiedades biofísicas con el enfoque cleverMachine55 reveló que los fijadores de ssRNA y los fijadores de dsRNA difieren en dos propiedades: el desorden y el contenido de α-helix (Fig. 2g). La comparación de los dos conjuntos, uno frente al otro, indica que las RBP que interactúan con ARN altamente estructurados son estructuradas e hidrofóbicas, mientras que las RBP desordenadas y polares se asocian con ARN menos estructurados (Fig. suplementaria 5). Por lo tanto, nuestro análisis amplía lo informado anteriormente para las redes de interacción proteína-proteína, en las que se ha demostrado que las regiones desordenadas estructurales desempeñan un papel central47, y sugiere nuevas reglas para el emparejamiento de bases de nucleótidos con aminoácidos.

Contenido de la estructura del ARN y contacto con proteínas en las chaperonas

El análisis del transcriptoma humano y a través de los organismos indica que los ARN altamente estructurados son propensos a interactuar con los polipéptidos y, a su vez, codifican proteínas involucradas en procesos biológicos asociados con redes de contacto grandes y complejas. Para investigar mejor la interactividad proteica impulsada por la estructura de las moléculas de ARN, nos centramos en una clase de transcritos que codifican proteínas que interactúan con varios socios. La elección natural para este análisis son las chaperonas moleculares, ya que promueven el plegado al estado nativo56 y organizan el ensamblaje de conjuntos de RNP separados por fases57, cumpliendo así la propiedad «recursiva» presentada en la Fig. 2d. Los datos de eCLIP30 muestran que la mayoría de los ARN que codifican chaperonas humanas están implicados en interacciones con múltiples proteínas (Fig. 6 suplementaria). Encontramos una correlación significativa entre las interacciones proteína-ARN y proteína-proteína anotadas en BioGRID (Fig. 3a). Este resultado confirma que los transcritos unidos por muchas RBP también codifican proteínas altamente contactadas.

Fig. 3
figure3

Relación entre la estructura del ARN y los contactos proteicos para las chaperonas. a Contactos de los ARN que codifican chaperonas proteicas, medidos mediante CrossLinking e InmunoPrecipitación mejorada (eCLIP)30, e interacciones físicas de las correspondientes proteínas codificadas, recogidas en BioGRID; valor p estimado con la prueba KS. b Comparación entre el contenido estructural del análisis paralelo de la estructura del ARN (PARS) y las interacciones físicas de las proteínas codificadas, recogidas en BioGRID, para todo el transcriptoma. El transcriptoma se dividió en cinco conjuntos consecutivos que contenían cada uno el 20% del transcriptoma. Los conjuntos se seleccionaron en función de su contenido estructural PARS, el rango de cada conjunto de izquierda a derecha son: -10,7 a -4,6; -4,6 a -3,1; -3,1 a -2,4; -2,4 a -1,9; -1,9 a -0,5. El último boxplot muestra la distribución del número de interactores físicos recuperados de BioGRID para la familia de proteínas chaperonas (proteínas de choque térmico). c Medición PARS del contenido de estructura secundaria de los transcritos HS (HSP70, rosa) y LS (BRaf, azul). Las líneas verticales discontinuas indican las regiones no traducidas (UTR). d Contenido de estructura secundaria PARS de los transcritos HS y LS (valor p estimado con la prueba KS). e Diagrama de Venn que muestra el solapamiento entre las interacciones proteicas, medidas por eCLIP, de los ARNs HS y LS (valor p empírico <6 × 10-3; estimado por comparación con la distribución de 1000 solapamientos de conjuntos muestreados de RBPs eCLIP). f Predicción de la propensión de unión a proteínas de los ARNs HS y LS utilizando catRAPID13,32 (valor p estimado con la prueba KS). Para b, d, f, los recuadros muestran el rango intercuartil (IQR), la línea central representa la mediana, las muescas el intervalo de confianza del 95% de la mediana, los bigotes suman 1,5 veces el IQR al percentil 75 (límite superior del recuadro) y restan 1,5 veces el IQR del percentil 25 (límite inferior del recuadro). Para entender si la correlación entre las interacciones proteína-proteína y proteína-ARN es una propiedad general o simplemente una característica de la familia de las chaperonas, analizamos las interacciones del transcriptoma clasificadas por las puntuaciones PARS y 24 ARNm que codifican chaperonas para las que se dispone de datos PARS (Genecards; https://www.genecards.org; conjunto ‘HSPs’; Métodos, Fig. 3b). Encontramos una correlación positiva entre la cantidad de estructura del ARN y el número de interactores de BioGRID de las proteínas codificadas (Fig. suplementaria 7a-b). Así, nuestros cálculos coinciden con el análisis GO (Fig. 2d) y sugieren una relación entre los ARNm y sus socios codificantes: los ARN altamente estructurados codifican proteínas altamente interactuantes.

Los datos presentados hasta ahora sugieren que los ARN relacionados por tipo (por ejemplo, miARN, snARN) o función (por ejemplo, codificación de chaperonas) comparten características estructurales similares (Fig. 2). Así, debería ser posible estimar las diferencias en la red de interacción de dos transcritos no relacionados analizando su contenido estructural, y viceversa. Para probar esta hipótesis, seleccionamos el transcrito HSP70 altamente estructurado (ARN HS, log de la puntuación PARS de -1,3 correspondiente al 26% del contenido de doble cadena, Fig. 3c) que codifica una chaperona esencial para regular los ensamblajes de complejos proteicos como las capas de clatrina58 y los gránulos de estrés22,57. Como control elegimos el ARN que codifica para BRaf que está menos estructurado (ARN LS, puntuación de -2,8 que indica un 6% de contenido de doble cadena según PARS, Fig. 3c-e) y que codifica para un oncogén implicado en la transmisión de señales químicas desde el exterior de la célula al núcleo (la comparación estructural está confirmada por las predicciones de CROSS y los experimentos de DMS, como se muestra en la Fig. Suplementaria. 8).

Descubrimos que HSP70 tiene un mayor número de socios (30 RBPs identificadas por eCLIP) que BRaf (9 RBPs de eCLIP, 6 en común con HSP70, Fig. Suplementaria 9), lo que concuerda perfectamente con la propiedad de interactividad de la proteína impulsada por su estructura. De acuerdo con la tendencia de la Fig. 1b, catRAPID indica que las proteínas tienen una mayor propensión a unirse a HSP70 que a BRaf (Fig. 3f). Además, la altamente estructurada HSP70 codifica una proteína con un mayor número de interacciones (244 interacciones físicas BioGRID), mientras que la poco estructurada BRaf tiene un producto proteico que se une a un conjunto menor de moléculas (88 interacciones físicas BioGRID). Nuestras observaciones sugieren que un ARN con un gran número de interacciones es propenso a actuar como regulador de la red: especulamos que, debido a la mayor interactividad, el transcrito HSP70 podría actuar como chaperón dependiendo del contexto.

Por lo tanto, nuestra hipótesis es que un ARN estructurado, debido a su mayor potencial de interacción con proteínas, es capaz de afectar a la red de interacción de proteínas más que un ARN mal estructurado. En un experimento de prueba de concepto, utilizamos un compuesto químico, isoxazol biotinilado (b-isox) para inducir la formación de una transición de fase líquida a sólida de un conjunto de proteínas59,60 que incubamos con transcritos HS (HSP70) o LS (BRaf) (Fig. 4a y Fig. 10 suplementaria). Observamos que el HS alteró la composición del agregado proteico más que el ARN LS (Fig. 4b y Datos Suplementarios 5). De hecho, cuando se añadió ARN HS, se observó un cambio significativo en la concentración de 29 proteínas (Fig. 4c; 21 del conjunto «liberado», puntos negros, y 8 del conjunto «mantenido», puntos rojos en la Fig. 4b), mientras que sólo se identificaron nueve proteínas en el caso del ARN LS. Así, la composición en presencia del ARN LS se mantuvo similar a la del control de fondo (conjunto «estático», puntos grises en la Fig. 4b).

Fig. 4
figure4

El ARN estructurado reduce la agregación de proteínas in vitro. a Agregación impulsada por isoxazol biotinilado (b-isox) del lisado de proteínas HeLa in vitro. Izquierda, geles teñidos con Coomassie, se muestra un experimento representativo (los geles sin recortar se presentan en la Fig. 10 suplementaria). Centro, se cuantificó la intensidad de la proteína agregada y se evaluó la diferencia mediante una prueba t de dos colas (p = 1 ×1 0-3; N = 3 réplicas biológicas mostradas como puntos en la imagen). Se muestra la s.d. A la derecha, esquema experimental. La eficacia de la agregación se comprobó comparando el precipitado resultante en presencia o ausencia de b-isox, lo que se indica con a+ o a-, respectivamente. b Los gráficos de volcán indican los valores p (medida de Perseo) de los enriquecimientos individuales de proteínas en el ensamblaje de b-isox (N = 4 réplicas biológicas independientes). El umbral de significación estadística está marcado por una línea horizontal (véase también el dato suplementario 5). Los puntos negros son proteínas con una concentración significativamente reducida tras la incubación de ARN. Los puntos rojos son proteínas con una concentración significativamente mayor después de la incubación de ARN. c Intensidades de cuantificación sin etiquetas (LFQ) codificadas por colores de las proteínas afectadas por el ARN de alta estructura (HS) en una escala de negro (bajo) a rojo (alto). Se indica la agrupación jerárquica por Perseus. Para comparar, las intensidades de LFQ de las mismas proteínas en control y en presencia del ARN de alta estructura también se representan

Nos planteamos que la competencia del ARN con la red de contactos del precipitado b-isox59,60 podría ser el resultado de interacciones directas o indirectas entre proteínas y ARN (Fig. 5a). Sin embargo, las predicciones de catRAPID apoyan la hipótesis de un efecto directo: un aumento de la rigurosidad experimental (Supplementary Fig. 11; Methods) se asocia también con un aumento del poder predictivo teórico (Fig. 5b). De acuerdo con nuestro análisis previo de las preferencias de unión a ARN, las proteínas liberadas tras la incubación de HSP70 resultan significativamente privadas de polaridad (Fig. 5c). Así, nuestro experimento sugiere que la interactividad proteica impulsada por la estructura de las moléculas de ARN está activa en todos los niveles, promoviendo interacciones individuales y alterando la composición de los condensados12 (Fig. 2e).

Fig. 5
Fig. 5

Interacciones dentro del condensado de ribonucleoproteínas. a La liberación de proteínas del conjunto de isoxazoles biotinilados (b-isox) podría ser el resultado de: (1) un proceso indirecto, resultante de una competencia de interacción entre el ARN y el agregado de proteínas o (2) un proceso directo, resultante del secuestro de proteínas por el ARN. b El rendimiento de catRAPID mejora con el rigor de los experimentos b-isox (Métodos), lo que sugiere un reclutamiento directo de las proteínas rescatadas por el ARN de alta estructura (HS). La tasa de falsos descubrimientos (FDR) se vuelve altamente significativa para el conjunto experimental más estricto (FDR = 0,1). c Las proteínas «liberadas» (recuadro negro) son menos polares que las «estáticas» (recuadro gris), de acuerdo con nuestro análisis computacional (valor p = 4,7 × 10-2, valor p estimado con la prueba KS; véase también la Fig. 2f, g). Las proteínas liberadas y estáticas corresponden a los puntos negros y grises del panel derecho de la Fig. 4b. Los recuadros muestran el rango intercuartil (IQR), la línea central representa la mediana, las muescas el intervalo de confianza del 95% de la mediana, los bigotes suman 1,5 veces el IQR al percentil 75 (límite superior del recuadro) y restan 1,5 veces el IQR al percentil 25 (límite inferior del recuadro). Se muestra la d.s.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.