RNA-Struktur treibt Interaktion mit Proteinen an

Jul 29, 2021
admin

Hochstrukturierte RNAs binden eine große Menge an Proteinen

Um zu untersuchen, wie die RNA-Struktur die Proteinbindung beeinflusst, haben wir die Menge der doppelsträngigen Regionen des menschlichen Transkriptoms8 gemessen (Abb. 1a). Zunächst gruppierten wir die RNAs, die mit der Methode des Enhanced Crosslinking and Immunoprecipitation (eCLIP)30 nachgewiesen wurden, in Klassen, die auf dem strukturellen Gehalt basierten, der mit der „parallelen Analyse der RNA-Struktur“ (PARS)8 gemessen wurde (ergänzende Abb. 1a und Abb. 1b). PARS ist ein experimentelles Verfahren, das doppel- und einzelsträngige RNA-Regionen anhand der katalytischen Aktivität von zwei Enzymen, RNase V1 (kann doppelsträngige Nukleotide schneiden) und S1 (kann einzelsträngige Nukleotide schneiden), unterscheidet und bei dem positive Werte doppelsträngige Regionen anzeigen (siehe Gl. (1) in Methoden)8. Anschließend verwendeten wir catRAPID-Vorhersagen von Protein-RNA-Interaktionen (verfügbar in der RNAct-Datenbank, die sowohl proteomweite als auch transkriptomweite Berechnungen enthält31) und verglichen die Interaktionswerte verschiedener Gruppen (HS, hoher Strukturgehalt, vs. LS, niedriger Strukturgehalt) (Abb. 1b). Der catRAPID-Algorithmus32 schätzt das Bindungspotenzial durch Van-der-Waals-, Wasserstoffbrückenbindungs- und Sekundärstrukturneigungen sowohl von Protein- als auch von RNA-Sequenzen (insgesamt 10 Eigenschaften) und ermöglicht die Identifizierung von Bindungspartnern mit hoher Sicherheit. Wie in einer kürzlich durchgeführten Analyse von etwa einer halben Million experimentell validierter Interaktionen31 berichtet wurde, ist der Algorithmus in der Lage, interagierende von nicht interagierenden Paaren mit einer Fläche unter der Receiver Operating Characteristic (ROC)-Kurve (AUC) von 0,78 zu unterscheiden (mit einer Falschentdeckungsrate (FDR) von deutlich unter 0,25, wenn die Z-Score-Werte >2 sind). Der Vergleich von RNA-Gruppen mit unterschiedlichem Strukturgehalt zeigt einen konsistenten Trend, bei dem ein höherer Strukturgehalt in RNA-Molekülen zu höheren Proteininteraktionswerten führt (Abb. 1b). Wie bei den PARS-Daten stellen wir fest, dass die Menge der doppelsträngigen Regionen schwach (<0,10; Pearson’s) mit der RNA-Länge und dem GC-Gehalt korreliert, was darauf hindeutet, dass diese beiden Faktoren positiv zur Sekundärstruktur beitragen, indem sie die Größe des Konformationsraums sowie die Gesamtstabilität erhöhen33.

Abb. 1
Abb. 1

Die Menge der Proteinstruktur korreliert mit der Anzahl der Interaktionen. a Kumulative Verteilungsfunktion (CDF) für den Sekundärstrukturgehalt aller menschlichen RNAs, gemessen durch parallele Analyse der RNA-Struktur (PARS)8,69. Vertikale Linien zeigen einen bestimmten Anteil (X %) von RNAs mit dem niedrigsten Sekundärgehalt (LS; blau) und denselben Anteil mit dem höchsten Sekundärgehalt (HS; rosa) an. b catRAPID-Vorhersagen von Proteininteraktionen mit menschlichen RNAs, geordnet nach dem mit PARS gemessenen Strukturgehalt (118 RNA-bindende Proteine (RBPs), für die auch Informationen über Enhanced Crosslinking and Immunoprecipitation (eCLIP) verfügbar sind)31. Die Fraktionen 10%, 15%, …, 50% beziehen sich auf den Vergleich zwischen gleich großen HS- und LS-Sets. Die Ergebnisse zeigen, dass catRAPID in der Lage ist, HS- und LS-Gruppen signifikant und konsistent durch die verschiedenen Fraktionen zu unterscheiden (p-Wert <10-16; Kolmogorov-Smirnov (KS)-Test). Die Kästchen zeigen den Interquartilsbereich (IQR), die zentrale Linie stellt den Median dar, die Whisker addieren das 1,5-fache des IQR zum 75-Perzentil (obere Grenze des Kästchens) und subtrahieren das 1,5-fache des IQR vom 25-Perzentil (untere Grenze des Kästchens). s.d. ist angegeben. c Beziehung zwischen der Anzahl der Proteininteraktionen (eCLIP) und dem mit PARS30 gemessenen Strukturgehalt. Die Anpassungslinie entspricht der Formel y = exp(α + βx), wobei α = -0,75; β = 0,67; p-Wert geschätzt mit KS-Test. d Beziehung zwischen der Anzahl der Proteininteraktionen und dem Strukturgehalt, gemessen durch Dimethylsulfatmodifikation (DMS)9. Die Anpassungslinie entspricht der Formel y = 1/(α + βx), wobei α = 2,60; β = 87,36; p-Wert geschätzt mit KS-Test. e Strukturelle Präferenzen von RBPs, gemessen mit drei verschiedenen CLIP-Techniken (photoaktivierbare Ribonukleosid-verstärkte CLIP (PAR-CLIP), Hochdurchsatz-Sequenzierungs-CLIP (HITS-CLIP) und CLIP mit individueller Nukleotidauflösung (iCLIP)). Die Farbe gibt die RNA-Bindungspräferenz jedes Proteins an: rosa, stark strukturiert; blau, schwach strukturiert; grau, keine Präferenz. f Korrelation zwischen Strukturgehalt (CROSS-Vorhersagen von icSHAPE-Experimenten) und Proteininteraktionen von acht Transkripten, die durch Protein-Mikroarrays (Pearson-Korrelation) ermittelt wurden. s.d. ist dargestellt. g Die Analyse von Protein Data Bank (PDB)-Strukturen, die Protein-RNA-Komplexe enthalten, zeigt einen Trend zwischen Protein- (inter) und RNA- (intra) Kontakten (196 verschiedene Paare; Pearson-Korrelation)

Wir wiederholten die Analyse mit einem nicht verwandten Ansatz, RPISeq, der Protein-RNA-Interaktionen anhand von Sequenzmustern in Nukleotid- und Aminosäuresequenzen vorhersagt11. RPISeq besteht aus zwei Methoden, die auf Support-Vektor-Maschinen (RPISeq-SVM) und Random Forest (RPISeq-RF) basieren. Aufgrund spezifischer rechnerischer Anforderungen haben wir RPISeq auf ein Ensemble von RBPs (50 Proteine mit Sequenzähnlichkeit <0,85; http://cd-hit.org/) gegen den HS- und LS-Satz aus den Schwänzen der strukturellen Inhaltsverteilung (100 Transkripte) angewandt, um die Bindungswahrscheinlichkeiten zu schätzen (ergänzende Daten 1). In beiden Fällen wird für den HS-Satz (RF 0,80, SVM 0,71) eine signifikant höhere Bindungswahrscheinlichkeit vorhergesagt als für den LS-Satz (RF 0,70, SVM 0,54; p-Wert <10-5; Kolmogorov-Smirnov (KS)-Test; ergänzende Abb. 1b-c), in Übereinstimmung mit der catRAPID-Analyse (Abb. 1b). Unsere Analyse deutet also darauf hin, dass die RNA-Struktur Auswirkungen auf die Interaktion mit Proteinen hat.

Um unsere Vorhersagen mit experimentellen Daten abzugleichen, untersuchten wir alle RBP-RNA-Interaktionen, die durch Enhanced CrossLinking and ImmunoPrecipitation, eCLIP30 (118 RBPs; siehe Methoden) aufgedeckt wurden. eCLIP liefert Proteinkontakte auf Ziel-RNAs mit individueller Nukleotidauflösung durch Ligation von barcodierten einzelsträngigen DNA-Adaptern30. In Übereinstimmung mit den catRAPID-Vorhersagen31 (Abb. 1b) korrelieren die eCLIP-Bindungswerte mit der PARS-Sekundärstruktur, was darauf hindeutet, dass die Neigung der RNA, mit Proteinen zu interagieren, proportional zur Menge der transkriptomweit gemessenen Struktur ist (Abb. 1c). Wir stellen fest, dass die CLIP-seq-Ansätze im Allgemeinen die Erkennung von einzelsträngiger (SS) RNA auf Kosten von doppelsträngiger (DS) RNA34 begünstigen und dass der eCLIP-Datensatz nicht mit doppelsträngigen RNA-bindenden Proteinen angereichert ist (9 von 118 sind laut UniProt als dsRNA-bindend, 12 von 118 als ssRNA-bindend eingestuft, unter Verwendung verfügbarer GO-Annotationen35), was darauf hindeutet, dass unsere Ergebnisse nicht durch die in unserer Analyse verwendeten Proteintypen verzerrt sind.

Um weiter zu bestätigen, dass der Trend echt ist und nicht nur mit den PARS-Messungen zusammenhängt, analysierten wir das Protein-Interaktionspotenzial des gesamten menschlichen Transkriptoms anhand der RNA-Sekundärstruktur, die mit der Dimethylsulfat-Modifikationstechnik (DMS) gemessen wurde (anders als bei PARS weisen hohe Werte auf einzelsträngige Regionen hin; Abb. 1d)9. Bei dieser Methode zur Bewertung der RNA-Struktur werden ungepaarte Adenosin- und Cytidin-Nukleotide mit Hilfe von Deep Sequencing nachgewiesen. Die Analyse zeigt einmal mehr, dass die RNA-Sekundärstruktur der menschlichen Transkripte eng mit den Proteinbindungsfähigkeiten korreliert.

Wir nutzten auch die POSTAR-Datenbank (die >1000 CLIP-seq-Datensätze enthält; http://lulab.life.tsinghua.edu.cn/postar/), um die RNA-Bindungspräferenzen menschlicher Proteine (103 Experimente, 85 verschiedene RBPs) abzurufen, die mit PAR-CLIP, Hochdurchsatz-Sequenzierungs-CLIP (HITS-CLIP) und CLIP mit individueller Nukleotidauflösung (iCLIP)10 gemessen wurden. Aufgrund von Unterschieden in den CLIP-Ansätzen (und anderen Faktoren, wie z. B. den verwendeten Zelllinien) berichtet jedes Experiment über unterschiedliche Protein-RNA-Interaktionen10. Dennoch haben 77 % der RBPs bei mindestens einer der experimentellen Methoden (DMS oder PARS; Abb. 1e) eine Vorliebe für hochstrukturierte RNAs.

Angesichts möglicher technischer Verzerrungen bei Hochdurchsatz-Experimenten beschlossen wir, die Reproduzierbarkeit des Trends zu überprüfen, indem wir die Korrelation zwischen RNA-Struktur und Protein-Interaktionen in Niedrigdurchsatz-Analysen untersuchten. Zunächst untersuchten wir das Interaktom von acht großen (>1000 nt) RNAs, deren Proteinpartner mittels Microarray, einem vernetzungsfreien Ansatz21,36,37, identifiziert wurden (siehe Methoden). Parallel dazu schätzten wir den strukturellen Gehalt jedes Transkripts mit dem CROSS-Algorithmus, der zuvor auf SHAPE-Daten38 trainiert wurde, um die Doppelstrangneigung auf Nukleotidebene vorherzusagen. Unsere in Abb. 1f dargestellten Ergebnisse zeigen, dass hoch strukturierte Transkripte mehr Proteinkontakte aufweisen als schlecht strukturierte Transkripte, was mit den Ergebnissen unserer früheren Analyse (Abb. 1b-e) voll kompatibel ist.

Wir bestätigten unsere Beobachtungen durch die Untersuchung von RNP-Komplexen, die in der Protein Data Bank (PDB)-Datenbank hinterlegt sind (Röntgenauflösung <2 Å; Supplementary Data 2; siehe Methoden), die 196 verschiedene RNA-Protein-Paare (>20 Spezies) umfasst, die mit verschiedenen Techniken (hauptsächlich Röntgen und Kernspinresonanz (NMR)) von verschiedenen Labors analysiert wurden. Bei der Messung der Menge des RNA-Intrakontakts (d. h. der Menge der RNA-Struktur) und des Interkontakts (d. h. der Aminosäure) pro Nukleotidkette fanden wir eine auffällige Korrelation von 0,78 zwischen den beiden Variablen, was ein überzeugender Beweis für ihre enge Beziehung ist (Abb. 1g; siehe Gleichungen (2) und (3) in Methoden).

Unabhängig vom Experiment (PARS, DMS, Microarray, Röntgen, NMR, eCLIP, PAR-CLIP, HITS-CLIP und iCLIP), den verwendeten Algorithmen (catRAPID und RPISeq oder CROSS zur Nachahmung von SHAPE-Daten) oder dem Organismus (PDB-Datenbank) fanden wir also eine Korrelation zwischen der Anzahl der Proteininteraktionen und dem RNA-Strukturgehalt.

Die strukturbedingte Proteininteraktivität von RNA-Typen

Als nächstes untersuchten wir, ob die enge Verbindung zwischen Sekundärstruktur und Anzahl der Proteininteraktionen eine Eigenschaft bestimmter RNA-Typen ist (Abb. 2a). Zu diesem Zweck verglichen wir die Sekundärstruktur und die Proteininteraktionen von Transkripten, die mit dem CD-HIT-Algorithmus39 (http://cd-hit.org/) nach Sequenzähnlichkeit geordnet waren. Bei einem Schwellenwert von 85 % Ähnlichkeit fanden wir 22 Cluster (insgesamt 55 Transkripte) mit mindestens einem durch eCLIP aufgedeckten RBP-Kontakt. Anschließend berechneten wir die Korrelation zwischen dem DMS-Signal und den eCLIP-Proteininteraktionen für jeden Cluster und erhielten in 64 % der Fälle eine negative Korrelation. Dieser Befund deutet darauf hin, dass zwischen zwei ähnlichen Transkripten dasjenige mit höherem Strukturgehalt mit größerer Wahrscheinlichkeit eine größere Anzahl von Proteininteraktionen aufweist.

Abb. 2
Abb. 2

Funktionale Fußabdrücke der RNA-Struktur-gesteuerten Proteininteraktivität. a Schema, das die Rolle der intra- und intermolekularen Kontakte in einem RNA-Protein-Komplex zeigt. Oben: intramolekulare Kontakte. Unten, intermolekulare Kontakte. Die Anzahl der Kontakte ist mit Schattierungen von dunkelblau (niedrigste) bis rot (höchste) angegeben. b Oben: Struktureller Gehalt (Dimethylsulfatmodifikation (DMS); p-Wert geschätzt mit KS-Test). Unten, Proteininteraktionen (Enhanced CrossLinking and ImmunoPrecipitation (eCLIP) von Hämoglobin-Untereinheit γ1 (HBG1) (rosa) und Hämoglobin-Untereinheit γ2 (HBG2) (blau) RNAs (99,3 % sequenzielle Identität); der empirische p-Wert wurde durch Vergleich der Überlappung mit der von 1000 Proben aus eCLIP RNA-bindenden Proteinen (RBPs) geschätzt. c Parallele Analyse der RNA-Struktur (PARS) (rosa) und des DMS (blau) Strukturgehalts verschiedener RNA-Typen (Ensembl). d Semantische Gruppierung von Gen-Ontology-Terms, die mit den am wenigsten und am meisten strukturierten RNAs assoziiert sind (100 weniger strukturierte (LS) vs. 100 hoch strukturierte (HS) Transkripte) unter Verwendung von cleverGO. e Durch die Analyse einzelner RNAs (Abb. 1 und 2b) haben wir festgestellt, dass der Strukturgehalt mit der Anzahl der Partner und der Funktion einer RNA verknüpft ist. Unsere Analyse zeigt, dass funktionell verwandte RNAs einen ähnlichen Strukturgehalt aufweisen (Abb. 2c). Die strukturbedingte Proteininteraktivität ist eine mit der RNA verbundene intrinsische Eigenschaft, die auf jeder regulatorischen Ebene nachverfolgt werden kann. f Jede Zeile zeigt die catRAPID-Interaktionsneigungen, die durch das Entfernen einer physikochemischen Eigenschaft verursacht werden13,32. Die Entfernung von α-Helix (Chou) und Polarität (Grantham) verringert die Fähigkeit, zwischen HS und LS zu unterscheiden (p-Werte geschätzt mit KS-Test). g multicleverMachine-Analyse der physikalisch-chemischen Eigenschaften von drei RBP-Sets und Proteinen, die in UniProt als Binder von doppelsträngigen RNAs (DS) oder einzelsträngigen RNAs (SS) annotiert sind (siehe Methoden). Störungsneigung“ und „α-Helix“ sind die Eigenschaften, die signifikante Unterschiede und entgegengesetzte Ergebnisse zwischen DS- und SS-Bindern für mindestens zwei RBP-Datenbanken zeigen (blau oder rosa zeigen an, dass DS oder SS angereichert oder abgereichert sind; gelb zeigt keine signifikanten Unterschiede zwischen den Gruppen an). In b, c zeigen die Kästchen den Interquartilsbereich (IQR), die Mittellinie stellt den Median dar, die Kerben das 95%-Konfidenzintervall des Medians, die Whisker addieren das 1,5-fache des IQR zum 75-Perzentil (obere Grenze des Kästchens) und subtrahieren das 1,5-fache des IQR vom 25-Perzentil (untere Grenze des Kästchens). S.d. wird angezeigt

Die beiden Transkripte mit der größten Ähnlichkeit (99,31 %) sind die γ-Globine HBG1 und HBG2 (Hämoglobin-Untereinheiten γ1 und γ2), die in fetaler Leber, Milz und Knochenmark exprimiert werden (NCBI-Gen-ID: 3048). Die γ-Globin-Variante mit höherer Struktur (HBG1) hat eine signifikant größere Anzahl von Proteininteraktoren (HBG1, durchschnittliches DMS-Signal von 0,04, 29 Interaktoren; HBG2, durchschnittliches DMS-Signal von 0,07, 14 Interaktoren; p-Wert = 0,003; KS-Test; Abb. 2b). Während die Nukleotidzusammensetzung der beiden Transkripte nahezu gleich bleibt (HBG1: 280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a), konzentrieren sich die Unterschiede zwischen HBG1 und HBG2 auf Regionen, in denen die Sekundärstruktur verändert ist (ergänzende Abb. 2). Diese Ergebnisse deuten darauf hin, dass die Proteininteraktivität eng mit Konformationsänderungen in Elementen der Sekundärstruktur verbunden ist. Interessanterweise geht der erhöhte Doppelstranggehalt in HBG1, insbesondere in der 3′-UTR, mit einer Anhäufung von translationsregulatorischen Elementen (Abb. 2b) und einer gleichzeitigen Abnahme der Expression einher (NCBI Gene ID: 3048).

Wir haben uns dann gefragt, ob spezifische RNA-Strukturen an der Proteinregulation beteiligt sind. Wir teilten das menschliche Transkriptom in verschiedene Klassen ein und analysierten ihre Sekundärstruktur, die mit zwei unabhängigen experimentellen Techniken, PARS und DMS, ermittelt wurde. Beide Techniken zeigen, dass proteinkodierende RNAs den größten Strukturgehalt aufweisen (Abb. 2c, ergänzende Tabelle 1)38. Obwohl ein Teil der mRNA-Struktur in den UTRs8 konzentriert ist, ändert sich die Verteilung des Strukturgehalts nicht wesentlich, wenn diese ausgeschlossen werden (Pearson-Korrelation zwischen Transkripten mit und ohne ihre UTRs = 0,94; ergänzende Abb. 3). Die RNAs, von denen bekannt ist, dass sie mit Proteinen interagieren, wie z. B. kleine nukleäre RNAs (snRNAs)40 und kleine nukleolare RNAs (snoRNAs)28, weisen den höchsten Strukturgehalt auf, während RNAs, die auf komplementäre Regionen in Nukleinsäuren abzielen, wie z. B. Antisense-, miRNAs und eine Reihe von langen intergenen nicht-kodierenden RNAs (lincRNAs)41,42, den geringsten Strukturgehalt aufweisen43 (ergänzende Tabelle 1).

In Übereinstimmung mit unseren Ergebnissen haben Seemann et al.12 beobachteten zuvor eine enge Beziehung zwischen Proteinbindung und Erhaltung von Strukturelementen in mRNAs, die in geringerem Maße in langen nicht-kodierenden RNAs vorkommen12. Obwohl lincRNAs eine geringere Anzahl doppelsträngiger Regionen aufweisen (die geringste in PARS, die drittniedrigste in DMS), stellen wir fest, dass einige von ihnen, wie z. B. NEAT144 und XIST27, in der Lage sind, den Zusammenbau von Proteinen durch strukturierte Domänen zu unterstützen. Da es eine anhaltende Debatte über die strukturellen Unterschiede zwischen kodierenden und nicht-kodierenden Transkripten45,46 gibt und unsere Analyse der DMS- und PARS-Daten widersprüchliche Ergebnisse für bestimmte RNA-Typen offenbart, schlagen wir weitere Untersuchungen in zukünftigen Studien vor (Abb. 2c; ergänzende Tabelle 1).

Um funktionelle Unterschiede zwischen hoch und schlecht strukturierten RNAs zu untersuchen, analysierten wir GO-Terme, die mit den am wenigsten und am meisten strukturierten RNAs (100 LS vs. 100 HS-Transkripte) verbunden sind, unter Verwendung des cleverGO35-Ansatzes. Während der LS-Satz (14 nicht-kodierende RNAs und 86 mRNAs) nicht mit spezifischen semantischen Ähnlichkeitsclustern assoziiert ist (insgesamt 36 Begriffe mit einem p-Wert <0,05; Bonferroni-Test), umfasst der HS-Satz (100 mRNAs; insgesamt 395 Begriffe mit einem p-Wert <0,05 und 103 Begriffe mit einem p-Wert <0,01; Bonferroni-Test; Abb. 2d) 20 verschiedene Cluster. Die fünf Hauptkategorien, die mit den Clustern verbunden sind und mindestens ein Viertel der Einträge abdecken, sind: (i) komplexe Proteinregulation (49/103), (ii) Nukleosid-Stoffwechselprozess (39/103), (iii) zelluläre Reaktion (29/103), (iv) Genexpression (29/103) und (v) Protein-Targeting (28/103). Wir wiederholten die GO-Term-Analyse auch, indem wir als Hintergrund die 25 % höher exprimierten Transkripte verwendeten, und erhielten ähnliche Ergebnisse (K562-Stamm GENCODE, Methoden, ergänzende Abb. 4).

Die Cluster-Analyse offenbart die verblüffende Erkenntnis, dass Transkripte mit starkem Strukturgehalt mehr mit Polypeptiden interagieren und für Proteine kodieren, die an regulatorischen Funktionen und der Bildung komplexer Kontaktnetzwerke beteiligt sind. Angesichts der Beziehung zwischen RNA-Struktur und Anzahl der Proteininteraktionen (Abb. 1) lautet eine vorläufige Interpretation unserer Ergebnisse, dass ein hohes Maß an Kontrolle für Gene erforderlich ist, die die Aktivität einer großen Anzahl von zellulären Netzwerken koordinieren47. Unsere Analyse deutet also auf eine „rekursive“ Eigenschaft hin: stark kontaktierte Transkripte kodieren für stark kontaktierende Proteine (Abb. 2e)20,48.

Unordnung und Helix unterscheiden dsRNA von ssRNA

Um die molekulare Grundlage der strukturbedingten Interaktivität von RNA-Molekülen zu verstehen, analysierten wir, welche physikochemischen Eigenschaften der Proteine die HS- und LS-Sätze besser unterscheiden. Wir untersuchten alle 10 Variablen, die im catRAPID-Algorithmus (Abb. 2f)13,32 verwendet werden, und entfernten sie nacheinander, um die Auswirkungen auf die Vorhersage von RNA-Protein-Wechselwirkungen abzuschätzen. Wir fanden heraus, dass die Fähigkeit, zwischen den am wenigsten und am meisten strukturierten RNAs (100 HS- und LS-Transkripte; ergänzende Daten 3) zu unterscheiden, stärker beeinträchtigt wird, wenn die Polarität (p-Wert = 0,28; KS-Test) und die α-Helixneigung (p-Wert = 0,06; KS-Test) entfernt werden (Abb. 2f). Die Eigenschaft, die sich am stärksten auf die HS-Bindungsneigung auswirkt, ist die Polarität, die in strukturell ungeordneten Proteinen49 angereichert ist und mit der Hydrophobizität antikorreliert, die für die makromolekulare Erkennung entscheidend ist (ergänzende Tabelle 2)50. Was die Neigung zu α-Helices betrifft, so stellen wir fest, dass Helices die häufigsten Strukturelemente sind, die an der Bildung von Kontakten mit Doppelstrangregionen beteiligt sind und in dsRBD und Zinkfingern29 vorkommen (ergänzende Tabelle 3). Unsere Beobachtung deutet auf eine mögliche Koevolution zwischen Proteinen und RNAs hin: Während die RNA komplexe Formen annimmt, um Bindungsregionen freizulegen, ändern Proteine ihren strukturellen Inhalt. In Übereinstimmung mit der Schlüssel-Schloss-Theorie51 schlagen wir vor, dass die natürliche Selektion hochstrukturierte RBPs als Interaktoren von dsRNAs begünstigt.

Wir validierten die Bedeutung der Proteinpolarität und der Helixstruktur durch den Vergleich von drei Datensätzen gut untersuchter RBPs (Mensch und Hefe)52,53,54 und zwei Sätzen von Proteinen, die von UniProt abgerufen wurden (alle Organismen), entweder als ausschließliche ssRNA-Binder (453 Proteine) oder dsRNA-Binder (390 Proteine; ergänzende Daten 4). Die Analyse der biophysikalischen Eigenschaften mit dem cleverMachine-Ansatz55 ergab, dass sich ssRNA-Binder und dsRNA-Binder in zwei Eigenschaften unterscheiden: Unordnung und α-Helixgehalt (Abb. 2g). Der Vergleich der beiden Gruppen miteinander zeigt, dass RBPs, die mit stark strukturierten RNAs interagieren, strukturiert und hydrophob sind, während ungeordnete und polare RBPs mit weniger strukturierten RNAs assoziieren (ergänzende Abb. 5). Damit erweitert unsere Analyse die bisherigen Erkenntnisse über Protein-Protein-Interaktionsnetzwerke, in denen strukturell ungeordnete Regionen eine zentrale Rolle spielen47, und legt neue Regeln für die Paarung von Nukleotidbasen mit Aminosäuren nahe.

RNA-Strukturgehalt und Proteinkontakt in Chaperonen

Die Analyse des menschlichen Transkriptoms und von Organismen insgesamt deutet darauf hin, dass stark strukturierte RNAs dazu neigen, mit Polypeptiden zu interagieren und ihrerseits für Proteine kodieren, die an biologischen Prozessen beteiligt sind, die mit großen und komplexen Kontaktnetzwerken verbunden sind. Um die strukturbedingte Proteininteraktivität von RNA-Molekülen besser untersuchen zu können, haben wir uns auf eine Klasse von Transkripten konzentriert, die für Proteine kodieren, die mit mehreren Partnern interagieren. Die natürliche Wahl für diese Analyse sind die molekularen Chaperone, da sie die Faltung in den nativen Zustand56 fördern und den Zusammenbau phasengetrennter RNP-Assemblies57 organisieren und damit die in Abb. 2d dargestellte „rekursive“ Eigenschaft erfüllen. eCLIP-Daten30 zeigen, dass die meisten RNAs, die für menschliche Chaperone kodieren, an Interaktionen mit mehreren Proteinen beteiligt sind (ergänzende Abb. 6). Wir fanden eine signifikante Korrelation zwischen Protein-RNA- und Protein-Protein-Interaktionen, die in BioGRID annotiert wurden (Abb. 3a). Dieses Ergebnis bestätigt, dass Transkripte, die von vielen RBPs gebunden werden, auch für hoch kontaktierte Proteine kodieren.

Abb. 3
Abbildung3

Beziehung zwischen RNA-Struktur und Proteinkontakten für Chaperone. a Kontakte von RNAs, die für Protein-Chaperone kodieren, gemessen durch Enhanced CrossLinking and ImmunoPrecipitation (eCLIP)30, und physikalische Interaktionen der entsprechenden kodierten Proteine, gesammelt von BioGRID; p-Wert geschätzt mit KS-Test. b Vergleich zwischen der parallelen Analyse der RNA-Struktur (PARS), strukturellem Inhalt und physikalischen Interaktionen der kodierten Proteine, gesammelt bei BioGRID, für das gesamte Transkriptom. Das Transkriptom wurde in fünf aufeinanderfolgende Sets aufgeteilt, die jeweils 20 % des Transkriptoms enthalten. Die Gruppen wurden nach ihrem PARS-Strukturgehalt ausgewählt, wobei der Bereich jeder Gruppe von links nach rechts wie folgt aussieht -10,7 bis -4,6; -4,6 bis -3,1; -3,1 bis -2,4; -2,4 bis -1,9; -1,9 bis -0,5. Der letzte Boxplot zeigt die Verteilung der Anzahl der physikalischen Interaktoren aus BioGRID für die Familie der Chaperonproteine (Hitzeschockproteine). c PARS-Messung des Sekundärstrukturgehalts von HS (HSP70, rosa) und LS (BRaf, blau) Transkripten. Vertikale gestrichelte Linien kennzeichnen die untranslatierten Regionen (UTRs). d PARS-Sekundärstrukturgehalt von HS- und LS-Transkripten (p-Wert geschätzt mit KS-Test). e Venn-Diagramm, das die Überlappung zwischen den mit eCLIP gemessenen Proteininteraktionen von HS- und LS-RNAs zeigt (empirischer p-Wert <6 × 10-3; geschätzt durch Vergleich mit der Verteilung von 1000 Überlappungen von Sets, die aus eCLIP RBPs ausgewählt wurden). f Vorhersage der Proteinbindungsneigung von HS- und LS-RNAs mit catRAPID13,32 (p-Wert geschätzt mit KS-Test). Für b, d, f zeigen die Kästchen den Interquartilsbereich (IQR), die Mittellinie stellt den Median dar, die Kerben das 95%-Konfidenzintervall des Medians, die Whisker addieren das 1,5-fache des IQR zum 75-Perzentil (obere Grenze des Kästchens) und subtrahieren das 1,5-fache des IQR vom 25-Perzentil (untere Grenze des Kästchens). S.d. ist angegeben

Um zu verstehen, ob die Korrelation zwischen Protein-Protein- und Protein-RNA-Interaktionen eine allgemeine Eigenschaft oder einfach ein Merkmal der Chaperon-Familie ist, analysierten wir Interaktionen des Transkriptoms, geordnet nach PARS-Scores, und 24 mRNAs, die für Chaperone kodieren, für die PARS-Daten verfügbar sind (Genecards; https://www.genecards.org; ‚HSPs‘-Set; Methoden, Abb. 3b). Wir fanden eine positive Korrelation zwischen der Menge der RNA-Struktur und der Anzahl der BioGRID-Interaktoren der kodierten Proteine (ergänzende Abb. 7a-b). Unsere Berechnungen stimmen also mit der GO-Analyse (Abb. 2d) überein und deuten auf eine Beziehung zwischen mRNA und ihren kodierenden Partnern hin: Hochstrukturierte RNAs kodieren für hoch interagierende Proteine.

Die bisher vorgestellten Daten legen nahe, dass RNAs, die nach Typ (z. B. miRNA, snRNA) oder Funktion (z. B. Kodierung für Chaperone) verwandt sind, ähnliche strukturelle Merkmale aufweisen (Abb. 2). Daher sollte es möglich sein, Unterschiede im Interaktionsnetzwerk zweier nicht verwandter Transkripte durch die Analyse ihres strukturellen Gehalts abzuschätzen, und umgekehrt. Um diese Hypothese zu testen, wählten wir das hochstrukturierte HSP70-Transkript (HS-RNA, logarithmischer PARS-Score von -1,3 entsprechend 26 % Doppelstranganteil, Abb. 3c), das für ein Chaperon kodiert, das für die Regulierung von Proteinkomplexen wie Clathrin-Mänteln58 und Stressgranula22,57 wichtig ist. Als Kontrolle wählten wir die RNA, die für BRaf kodiert, die weniger strukturiert ist (LS-RNA, Score von -2,8, was 6 % Doppelstranggehalt nach PARS anzeigt, Abb. 3c-e) und für ein Onkogen kodiert, das an der Übertragung chemischer Signale von außerhalb der Zelle zum Zellkern beteiligt ist (der strukturelle Vergleich wird durch CROSS-Vorhersagen und DMS-Experimente bestätigt, wie in der ergänzenden Abb. 8 gezeigt. 8).

Wir fanden heraus, dass HSP70 eine größere Anzahl von Partnern hat (30 RBPs, die durch eCLIP identifiziert wurden) als BRaf (9 eCLIP RBPs, 6 gemeinsam mit HSP70, siehe ergänzende Abb. 9), was perfekt mit der strukturbedingten Eigenschaft der Proteininteraktivität übereinstimmt. Im Einklang mit dem Trend von Abb. 1b zeigt catRAPID, dass Proteine eine größere Neigung haben, an HSP70 zu binden als an BRaf (Abb. 3f). Darüber hinaus kodiert das hoch strukturierte HSP70 für ein Protein mit einer größeren Anzahl von Interaktoren (244 BioGRID physische Interaktoren), während das schlecht strukturierte BRaf ein Proteinprodukt hat, das an eine kleinere Anzahl von Molekülen bindet (88 BioGRID physische Interaktoren). Unsere Beobachtungen deuten darauf hin, dass eine RNA mit einer großen Anzahl von Interaktionen dazu neigt, als Netzwerkregulator zu fungieren: Wir spekulieren, dass das HSP70-Transkript aufgrund seiner höheren Interaktivität je nach Kontext als Chaperon fungieren könnte.

Wir stellen also die Hypothese auf, dass eine strukturierte RNA aufgrund ihres höheren Proteininteraktionspotenzials das Proteininteraktionsnetzwerk stärker beeinflussen kann als eine schlecht strukturierte RNA. In einem Proof-of-Concept-Experiment verwendeten wir eine chemische Verbindung, biotinyliertes Isoxazol (b-Isox), um die Bildung eines Phasenübergangs vom flüssigen zum festen Zustand einer Proteinanordnung59,60 zu induzieren, die wir entweder mit HS- (HSP70) oder LS- (BRaf) Transkripten inkubierten (Abb. 4a und ergänzende Abb. 10). Wir beobachteten, dass HS die Zusammensetzung des Proteinaggregats stärker veränderte als LS-RNA (Abb. 4b und ergänzende Daten 5). In der Tat wurde bei Zugabe von HS-RNA eine signifikante Konzentrationsänderung bei 29 Proteinen beobachtet (Abb. 4c; 21 ‚freigesetzte‘, schwarze Punkte, und 8 ‚beibehaltene‘, rote Punkte in Abb. 4b), während im Fall von LS-RNA nur neun Proteine identifiziert wurden. Somit blieb die Zusammensetzung in Anwesenheit von LS-RNA ähnlich wie die der Hintergrundkontrolle („statischer“ Satz, graue Punkte in Abb. 4b).

Abbildung 4
Abbildung 4

Strukturierte RNA reduziert die Proteinaggregation in vitro. a Biotinylierte Isoxazol (b-isox)-getriebene Aggregation von HeLa-Protein-Lysat in vitro. Links: Coomassie-gefärbte Gele, ein repräsentatives Experiment (nicht beschnittene Gele sind in der ergänzenden Abb. 10 dargestellt). In der Mitte wurde die Intensität des aggregierten Proteins quantifiziert und der Unterschied mit einem zweiseitigen t-Test ausgewertet (p = 1 ×1 0-3; N = 3 biologische Replikate, dargestellt als Punkte im Bild). S.d. wird gezeigt. Rechts, Versuchsschema. Die Aggregationswirksamkeit wurde durch den Vergleich des resultierenden Präzipitats in Anwesenheit bzw. Abwesenheit von b-isox getestet, was durch a+ bzw. a- angezeigt wird. b Vulkanplots zeigen die p-Werte (Perseus-Maß) der einzelnen Proteinanreicherungen bei der b-isox-Assemblierung (N = 4 unabhängige biologische Wiederholungen). Die statistische Signifikanzschwelle ist durch eine horizontale Linie markiert (siehe auch ergänzende Daten 5). Schwarze Punkte sind Proteine mit signifikant verringerter Konzentration nach der RNA-Inkubation. Rote Punkte sind Proteine mit signifikant erhöhter Konzentration nach der RNA-Inkubation. c Farbkodierte Intensitäten der markierungsfreien Quantifizierung (LFQ) von Proteinen, die von der hochstrukturierten (HS) RNA betroffen sind, auf einer Skala von schwarz (niedrig) bis rot (hoch). Hierarchisches Clustering durch Perseus ist angegeben. Zum Vergleich sind die LFQ-Intensitäten derselben Proteine in der Kontrolle und in Gegenwart der LS-RNA ebenfalls dargestellt

Wir vermuteten, dass die Konkurrenz der RNA mit dem b-Isox-Präzipitat-Kontaktnetzwerk59,60 entweder auf direkte oder indirekte Protein-RNA-Interaktionen zurückzuführen sein könnte (Abb. 5a). Die catRAPID-Vorhersagen stützen jedoch die Hypothese eines direkten Effekts: Eine Erhöhung der experimentellen Stringenz (ergänzende Abb. 11; Methoden) geht auch mit einer Erhöhung der theoretischen Vorhersagekraft einher (Abb. 5b). In Übereinstimmung mit unserer früheren Analyse der RNA-Bindungspräferenzen weisen die nach HSP70-Inkubation freigesetzten Proteine eine deutlich geringere Polarität auf (Abb. 5c). Unser Experiment deutet also darauf hin, dass die strukturbedingte Proteininteraktivität von RNA-Molekülen auf jeder Ebene aktiv ist, indem sie individuelle Interaktionen fördert und die Zusammensetzung von Kondensaten verändert12 (Abb. 2e).

Abb. 5
Abbildung5

Interaktionen innerhalb des Ribonukleoprotein-Kondensats. a Die Freisetzung von Proteinen aus dem biotinylierten Isoxazol (b-isox) könnte das Ergebnis sein von: (1) ein indirekter Prozess, der aus einer Interaktionskonkurrenz zwischen RNA und dem Proteinaggregat resultiert, oder (2) ein direkter Prozess, der aus der Sequestrierung von Proteinen durch RNA resultiert. b Die Leistung von catRAPID verbessert sich mit der Stringenz der b-isox-Experimente (Methoden), was auf eine direkte Rekrutierung von Proteinen hindeutet, die durch hochstrukturierte (HS) RNA gerettet werden. Die Falschentdeckungsrate (FDR) wird bei der strengsten Versuchsreihe (FDR = 0,1) hochsignifikant. c „Freigesetzte“ Proteine (schwarzer Kasten) sind weniger polar als „statische“ (grauer Kasten), in Übereinstimmung mit unserer rechnerischen Analyse (p-Wert = 4,7 × 10-2, p-Wert geschätzt mit KS-Test; siehe auch Abb. 2f, g). Die freigesetzten und statischen Proteine entsprechen den schwarzen und grauen Punkten in Abb. 4b rechts. Die Kästchen zeigen den Interquartilsbereich (IQR), die Mittellinie den Median, die Kerben das 95%-Konfidenzintervall des Medians, die Whisker addieren das 1,5-fache des IQR zum 75-Perzentil (Obergrenze des Kästchens) und subtrahieren das 1,5-fache des IQR vom 25-Perzentil (Untergrenze des Kästchens). S.d. wird angezeigt

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.