RNA structure drives interaction with proteins
Highly structured RNAs bind the large amount of proteins
RNA構造がタンパク質との結合にどのように影響するかを調べる目的で、ヒトのトランスクリプトーム8(図1a)の二本鎖領域の量を測定しました。 まず、enhanced crosslinking and immunoprecipitation(eCLIP)法30で検出したRNAを、「Parallel Analysis of RNA Structure」(PARS)8で測定した構造量に基づいてクラス分けした(補足図1aおよび図1b)。 PARSは、RNase V1(二本鎖を切断可能)とS1(一本鎖を切断可能)という2つの酵素の触媒活性を用いてRNAの二本鎖と一本鎖の領域を区別する実験手法で、正のスコアは二本鎖領域を示す(式(1)参照)。 (1)を参照)8。 次に、タンパク質-RNA相互作用のcatRAPID予測(プロテオーム全体とトランスクリプトーム全体の計算を含むRNActデータベースから入手可能31)を用い、異なるグループ(HS、高構造量、 vs. LS、低構造量)の相互作用スコアを比較しました(図1b)。 catRAPIDアルゴリズム32 は、タンパク質とRNA配列のファンデルワールス、水素結合、二次構造傾向を通じて結合能を推定し(合計10特性)、高い信頼性で結合相手を同定することができます。 実際、実験的に検証された約50万の相互作用の最近の解析で報告されたように31、このアルゴリズムは、0.78の曲線下面積(AUC)受信者動作特性(ROC)曲線(Zスコア値が>2のとき、偽発見率(FDR)は0.25より大幅に低い)で相互作用対非相互作用対を分離することが可能である。 構造含量の異なるRNA群を比較すると、RNA分子の構造含量が高いほどタンパク質相互作用のスコアが高くなるという一貫した傾向が見られた(図1b)。 PARSのデータに関しては、二本鎖領域の量がRNAの長さおよびGC含量と弱い相関(<0.10;ピアソン)を示し、これらの二つの要因が全体の安定性とともにコンフォーメーション空間のサイズを大きくすることによって二次構造に積極的に寄与していることを示していることに注目している33。
塩基配列およびアミノ酸配列の配列パターンを使用してタンパク質-RNA相互作用を予測する、関連しないアプローチ、RPISeqで分析を繰り返した11。 RPISeqはサポートベクターマシン(RPISeq-SVM)とランダムフォレスト(RPISeq-RF)に基づく2つの手法で構成されている。 特定の計算要件のため、構造内容分布のテールからのHSおよびLSセット(100転写物)に対してRBPのアンサンブル(配列類似度<0.85;http://cd-hit.org/の50タンパク質)にRPISeqを適用して結合確率を推定した(補遺データ1)。 いずれの場合も、HSセット(RF 0.80, SVM 0.71)はLSセット(RF 0.70, SVM 0.54; p値 <10-5; Kolmogorov-Smirnov (KS) test; 補足図1b-c)より有意に高い確率で結合すると予測されており、catRAPID解析(図1b)と一致した。
我々の予測を実験データと一致させるために、我々はeCLIP30 (enhanced CrossLinking and ImmunoPrecipitation, 118 RBP; Methods参照)によって明らかになった全てのRBP-RNA相互作用を調査した30。 catRAPIDの予測31(図1b)と一致するように、eCLIPの結合スコアはPARSの二次構造と相関しており、これはRNAがタンパク質と相互作用する傾向がトランスクリプトーム全体で測定した構造の量に比例していることを示しています(図1c)。 CLIP-seqアプローチは一般的に一本鎖(SS)RNAの検出に有利で、二本鎖(DS)RNAは犠牲になること34、そしてeCLIPデータセットは二本鎖RNA結合タンパク質に富んでいない(UniProtに従って、118のうち9がdsRNA結合、118のうち12がssRNA結合として割り当てられる、GO注釈あり35)ことに留意し、我々の結果が解析で用いたタンパク質タイプによって偏らないことを示しています。
この傾向が本物であり、PARS測定にのみ固有のものではないことをさらに裏付けるために、ジメチル硫酸修飾(DMS)技術で測定したRNA二次構造(PARSとは異なり、高い値は一本鎖領域を示す;図1d)9に対してヒト全体のトランスクリプトームのタンパク質相互作用能を分析した。 このRNA構造評価法は、ディープシーケンスを用いて、対になっていないアデノシンやシチジンのヌクレオチドを検出する方法です。 また、POSTARデータベース(>1000件のCLIP-seqデータセットを含む、http://lulab.life.tsinghua.edu.cn/postar/)を用いて、PAR-CLIP、HITS-CLIP、iCLIPで測定したヒトタンパク質(85種類のRBP)のRNA結合嗜好を検索した10。 CLIP手法の本質的な違い(および使用する細胞株などの他の要因)により、各実験で異なるタンパク質-RNA相互作用が報告されています10。 しかし、77%のRBPは少なくとも一つの実験方法(DMSまたはPARS;図1e)において、高構造RNAを選好した。
ハイスループット実験では技術的バイアスが起こりうるため、ロースループット分析でRNA構造とタンパク質相互作用の相関を調べることにより、傾向の再現性を確認することにした。 まず、マイクロアレイによってタンパク質パートナーが同定された8つの大きな(>1000 nt)RNAのインタラクトームを、クロスリンキングフリーのアプローチで調べた21,36,37(方法論参照)。 それと並行して、以前SHAPEデータ38で学習させたCROSSアルゴリズムを用いて各転写物の構造内容を推定し、ヌクレオチドレベルの分解能で二本鎖の傾向を予測した。 図1fに示した結果は、高度に構造化された転写産物は、構造化されていない転写産物に比べて、より多くのタンパク質との接触を持つことを示しており、これは、前回の解析(図1b-e)で示された結果と完全に一致するものです。
私たちは、タンパク質データバンク(PDB)データベース(X線分解能<2Å、補足データ2、方法参照)に登録されたRNP複合体の研究を通じて、この観察を裏付けました。このデータベースには、主にX線や核磁気共鳴(NMR)という異なる技術で分析された196種類のRNA-タンパク質ペア(>20種類)が含まれています。 ヌクレオチド鎖ごとのRNAのイントラコンタクト(=RNA構造の量)とインターコンタクト(=アミノ酸の量)を測定したところ、2つの変数の間に0.78という驚くべき相関が見られ、両者が密接に関係していることを示す有力な証拠が得られた(図1g;方法の式(2)と式(3)参照)。
このように、実験(PARS、DMS、マイクロアレイ、X線、NMR、eCLIP、PAR-CLIP、HITS-CLIP、iCLIP)、採用アルゴリズム(SHAPEデータを模倣するcatRAPIDとRPISeqまたはCROSS)、生物(PDBデータベース)とは無関係に、タンパク質相互作用数とRNA構造含有率との間に相関関係が見出されたのである。
RNAタイプの構造駆動型タンパク質相互作用
次に、二次構造とタンパク質相互作用の数の間の緊密なリンクが、特定のRNAタイプの特性であるかどうかを調査した(図2a)。 この目的のために、CD-HITアルゴリズム39(http://cd-hit.org/)を用いて配列の類似性でランク付けした転写産物の二次構造とタンパク質相互作用を比較した。 類似度85%を閾値として、eCLIPで明らかになったRBP接触が少なくとも1つある22のクラスタ(合計55の転写産物)を見いだしました。 次に、各クラスタについてDMSシグナルとeCLIPタンパク質相互作用の相関を計算したところ、64%のケースで負の相関が得られました。 この発見は、2つの類似した転写物間で、構造的含量の高い方がより多くのタンパク質相互作用を有する可能性が高いことを示している。
最も高い類似性(99.31%)を共有する2つの転写物は、胎児の肝臓、脾臓および骨髄で発現するγ-グロービンHBG1およびHBG2(ヘモグロビンサブユニットγ1とγ2)である(NCBI Gene ID: 3048)。 より高い構造を持つγ-グロビン変異体(HBG1)は、タンパク質相互作用体の数が有意に多い(HBG1、平均DMSシグナル0.04、相互作用体29、HBG2、平均DMSシグナル0.07、相互作用体14、p値=0.003、KS検定、図2b)。 2つの転写産物のヌクレオチド組成はほぼ同じままであるが(HBG1: 280c, 463c, 514t, 552a, 575g; HBG2: 280t, 463g, 514g, Δ552a, 574a)、HBG1とHBG2の違いは二次構造が変化した領域に集中している(補足図2)。 これらの結果は、タンパク質の相互作用が二次構造の要素の構造変化と密接に関連していることを示している。 興味深いことに、HBG1、特に3′-UTRにおける二本鎖含量の増加は、翻訳調節要素の蓄積(図2b)とそれに伴う発現量の減少を伴う(NCBI Gene ID: 3048)。
次に、特定のRNA構造がタンパク質制御に関与しているかどうかを検討した。 我々はヒトのトランスクリプトームを異なるクラスに分け、PARSとDMSという二つの独立した実験手法で検出される二次構造を分析した。 どちらの技術も、タンパク質コードRNAが最も大きな構造含有量を持つことを示している(図2c、補足表1)38。 mRNAの構造の一部はUTRに集中しているが8、これらを除外しても、構造内容の分布は大きく変わらない(UTRを持つ転写産物と持たない転写産物のピアソンの相関=0.94;補足図3)。 小核RNA(snRNA)40や小核球RNA(snoRNA)28など、タンパク質と相互作用することが知られているRNAは構造量が多く、アンチセンス、miRNA、多くの長い遺伝子間非コードRNA(lincRNA)41,42など核酸中の相補領域を標的とするRNAは構造量が最も少ない43 (Supplementary Table 1)。 は、タンパク質結合とmRNAの構造要素の保存の間に密接な関係があることを以前に観察しており、これはlong non-coding RNAではあまり見られないものである12。 lincRNAは二本鎖領域の量が少ない(PARSで最も少なく、DMSで3番目に少ない)ものの、例えばNEAT144やXIST27のように、構造化ドメインを通してタンパク質集合の足場となるものがあることに注目しています。 また、DMSとPARSのデータを解析したところ、特定のRNAタイプで矛盾する結果が得られたため、今後の研究においてさらなる調査を行うことを提案する(図2c;補足表1)。 LSセット(14の非コードRNAと86のmRNA)は、特定の意味的類似性クラスタと関連していない(p値<0.05の合計36用語;ボンフェローニ検定)一方で、HSセット(100のmRNA;p値<0.05の合計395用語およびp値<0.01の103用語;ボンフェローニ検定;図2d)には20個の異なるクラスタが含まれていた。 クラスターに関連し、エントリーの少なくとも4分の1をカバーする5つの主要なカテゴリは、次のとおりです。 (i) 複雑なタンパク質制御 (49/103), (ii) ヌクレオシド代謝過程 (39/103), (iii) 細胞応答 (29/103), (iv) 遺伝子発現 (29/103) および (v) タンパク質標的化 (28/103). また、25%高発現の転写産物をバックグラウンドとしてGO用語解析を繰り返したところ、同様の結果が得られた(K562株GENCODE、方法、補足図4)。
クラスター解析により、強い構造内容を持つ転写産物はポリペプチドとより相互作用し、制御機能や複雑な接触ネットワークの形成に関わるタンパク質をコードするという興味深い発見がなされた。 RNA構造とタンパク質相互作用の数の関係(図1)を考えると、今回の結果の予備的解釈として、多数の細胞内ネットワークの活動を調整する遺伝子には高度な制御が必要であると考えられる47。 したがって、我々の分析は「再帰的」特性を示唆している:高度に接触した転写物は高度に接触したタンパク質をコードする(図2e)20,48。
乱れとらせんがdsRNAとssRNAを区別する
RNA分子の構造駆動型相互作用の分子基盤を理解するために、タンパク質のどの物理化学特性がHSとLSセットをよく識別するのかを分析した。 我々は、catRAPIDアルゴリズム(図2f)13,32で使用されている10個の変数全てを調べ、一つずつ削除してRNA-タンパク質相互作用の予測に与える影響を推定した。 その結果、極性(p値=0.28;KS検定)とα-helical propensity(p値=0.06;KS検定)を取り除くと、最も構造の弱いRNA(100 HSとLS転写物;補足データ3)セットを区別する能力がより影響を受けることがわかりました(図2f)。 HS結合性向により大きな影響を与える特性は極性であり、これは構造的に無秩序なタンパク質に富み49、マクロ分子認識の鍵となる疎水性と反相関している(補足表2)50。 また、α-helical傾向については、dsRBDやジンクフィンガーにおいて、二本鎖領域との接触に最も頻繁に見られる構造要素であることに注目した29 (Supplementary Table 3)。 RNAが結合領域を露出させるために複雑な形状をとる一方で、タンパク質はその構造内容を変化させるという、タンパク質とRNAの共進化の可能性が示唆された。 キーロック理論51と一致するように、我々は自然選択が二本鎖RNAの相互作用体として高度な構造のRBPを好むことを提案する。
我々は、よく研究されたRBPの三つのデータセット(ヒトと酵母)52、53、54とUniProtから検索した二つのタンパク質セット(全ての生物)を、ssRNAのみ結合体(453タンパク質)と二本鎖RNA結合体(390タンパク質;補足資料4)のいずれかと比較して、タンパク質極性とヘリックス構造の重要性を確認した。 cleverMachineアプローチ55による生物物理学的特性の解析の結果、ssRNA結合分子とdsRNA結合分子は、乱れとα-ヘリックス量の2つの特性で異なることが判明した(図2g)。 2つのセットを互いに比較したところ、高度に構造化されたRNAと相互作用するRBPは構造化され疎水性であり、無秩序で極性のあるRBPは構造化されていないRNAと結合することが示された(補足図5)。 このように、我々の解析は、構造的無秩序領域が中心的な役割を果たすことが示されているタンパク質-タンパク質相互作用ネットワークについて以前に報告された内容をさらに拡大し47、ヌクレオチド塩基とアミノ酸のペアリングに関する新しいルールを示唆している。
RNA 構造量とシャペロンにおけるタンパク質接触
人間のトランスクリプトームと生物全体の解析は、高い構造のRNAがポリペプチドと相互作用しやすく、それが、大規模かつ複雑な接触ネットワークと関係する生体プロセスに関わるタンパク質にコードされていることを示唆している。 RNA分子の構造駆動型タンパク質相互作用をより詳しく調べるために、複数のパートナーと相互作用するタンパク質をコードする転写産物に注目しました。 分子シャペロンは、ネイティブな状態へのフォールディングを促進し56、相分離したRNPの集合体を組織化し57、図2dで示した「再帰的」特性を満たすため、この分析に適した分子である。eCLIPデータ30から、ヒトシャペロンをコードするRNAのほとんどが複数のタンパク質と相互作用していることがわかった(補足図6)。 BioGRIDでアノテーションされたタンパク質-RNA相互作用とタンパク質-タンパク質相互作用の間に有意な相関を見いだしました(図3a)。 この結果は、多くのRBPが結合する転写産物が、接触性の高いタンパク質もコードしていることを裏付けている。
タンパク質-タンパク質およびタンパク質-RNA相互作用の相関が一般的な特性であるか、単にシャペロン群の特徴であるかを理解するために、PARSスコアによってランク付けされたトランスクリプトームとPARSデータが利用できるシャペロンをコードする24種のmRNAの相互作用を分析した (Genecards; https://www.genecards.org; ‘HSPs’ セット;方法、図3b). RNAの構造量と、コードされたタンパク質のBioGRIDインタラクター数との間に正の相関を見出した(補足図7a-b)。 このように、我々の計算はGO解析(図2d)と一致し、mRNAとそのコードパートナーとの関係を示唆している:高度に構造化されたRNAは高度に相互作用するタンパク質をコードする。
これまでに紹介したデータは、タイプ(例:miRNA、snRNA)または機能(例:シャペロンのコード)により関連付けられたRNAが類似の構造特性を共有していることを示している(図2)。 したがって、2つの無関係な転写産物の構造内容を分析することで、相互作用ネットワークの違いを推定することができるはずであり、その逆もまた可能です。 この仮説を検証するために、クラスリンコート58やストレス顆粒22,57のようなタンパク質複合体集合体を制御するのに不可欠なシャペロンをコードする高構造HSP70転写物(HS RNA、PARSスコア対数が-1.3、二本鎖含量26%に相当)を選んだ(図3C)。 対照として、構造化されていないBRafをコードするRNA(LS RNA、PARSによる二本鎖含量6%を示すスコア-2.8、図3c-e)を選び、細胞外から核への化学信号の伝達に関与する癌遺伝子をコードした(構造比較はCROSS予測およびDMS実験により確認した、補図に示す通りである)。 8122)。HSP70はBRaf(eCLIP RBP 9個、HSP70と共通6個、補足図9)よりも多くのパートナー(eCLIPで特定された30個のRBP)を持っており、これは構造主導のタンパク質相互作用特性と完全に一致している。 図1bの傾向と同様に、catRAPIDは、タンパク質がBRafよりもHSP70に結合する傾向が大きいことを示している(図3f)。 さらに、高度に構造化されたHSP70は、より多くの相互作用因子(244 BioGRID物理的相互作用因子)を持つタンパク質をコードしているのに対し、構造化されていないBRafは、より少ない分子群(88 BioGRID物理的相互作用因子)に結合するタンパク質製品を持つことがわかった。 このことから、構造化RNAはタンパク質との相互作用の可能性が高いため、構造化されていないRNAよりもタンパク質相互作用のネットワークに影響を与えることができると推測された
。 そこで、ビオチン化イソキサゾール(b-isox)という化合物を用いて、HS(HSP70)またはLS(BRaf)の転写産物とインキュベートしたタンパク質集合体の液相から固相への転移を誘導した(図4aおよび補足図10)。 その結果、HSはLSよりもタンパク質凝集体の組成を変化させることがわかった(図4bおよび補足データ5)。 実際、HS RNAを添加した場合、29個のタンパク質で濃度の有意な変化が観察された(図4c;図4bの黒い点が21個の「放出」セット、赤い点が8個の「保持」セット)のに対し、LS RNAの場合には9個のタンパク質のみが確認された。 したがって、LS RNAの存在下での組成は、バックグラウンドコントロール(「静的」セット、図4bの灰色の点)と同様であった。
我々は、RNAとb-isox沈殿接触ネットワーク59、60の競合は、直接または間接のタンパク質-RNA相互作用によるものと推論した(図5a)。 しかし、catRAPIDの予測は直接効果という仮説を支持しています。実験的な厳密さ(補足図11;方法論)の増加は、理論的な予測力の増加にも関連しています(図5b)。 また、我々が以前行ったRNA結合嗜好性の解析と同様に、HSP70のインキュベーションによって放出されたタンパク質は、極性を著しく失った結果となった(図5c)。 このように、我々の実験は、RNA分子の構造駆動型タンパク質相互作用があらゆるレベルで活性化し、個々の相互作用を促進し、凝縮体の組成を変化させることを示唆している12 (図2e)。 5
Interactions within the ribonucleoprotein condensate. a ビオチン化イソキサゾール (b-isox) 集合体からのタンパク質の放出は、以下の結果であると思われる。 (1)RNAとタンパク質凝集体の相互作用の競合による間接的なプロセス、または(2)RNAによるタンパク質の封じ込めによる直接的なプロセスの結果であると考えられる。 b catRAPIDの性能はb-isox実験の厳しさに応じて向上し(Methods)、高構造化(HS)RNAによって救出されたタンパク質の直接的なリクルートメントが示唆される。 c 「放出」タンパク質(黒枠)は「静止」タンパク質(灰色枠)よりも極性が低く、我々の計算機解析と一致している(p値=4.7×10-2、p値はKS検定で推定、図2f、gも参照)。 放出タンパク質と静止タンパク質は、図4bの右側パネルの黒丸と灰丸に相当する。 箱は四分位範囲(IQR)、中心線は中央値、切り欠きは中央値の95%信頼区間、ひげは75%にIQRの1.5倍を加え(箱の上限)、25%からIQRの1.5倍を差し引く(箱の下限)ことを示しています。 S.d.は
と表示されている。