MIRNA過剰発現によってダウンレギュレートされた転写物を同定するRNA-seq
miRNAの標的転写物への結合が必ずしも遺伝子発現ダウンレギュレーションをもたらすとは限らないことは十分に確立されている。 実際、クリップ分析によって明らかにされたように、ほとんどの観察されたmiRNA結合事象は、機能的な結果をほとんど有さない。 したがって、miRNA結合のみに焦点を当てることは、機能的miRNA標的、すなわちダウンレギュレートされた標的の予測のための限られた値を有する。 この懸念を緩和するために、本発明者らは、RNA−seqを用いたmiRNAによる標的下方制御を直接決定した。 全体的な研究デザインは、追加のファイル1:図S1に要約されています。 最初のステップとして、2 5個のmiRNAを、陰性対照RNAと共に、トランスフェクションによってHela細胞中で個別に過剰発現させた。 これらの2 5個のmiRNAを表1に列挙する。 MiRNAの過剰発現の影響は、RNA-seq実験によってトランスクリプトームレベルでプロファイリングされました。 実験的変異を制御するために、各miRNAを異なる日に重複して細胞にトランスフェクトし、RNA−seqライブラリー構築および配列決定実行もまた、異なる日に重複して実施した。 合計で、1.5億の読み取りは、52RNAサンプルの発現プロファイリングのために生成されました。 プロファイリングデータは、追加ファイル2:表S1に示されています。 全ての配列決定データを組み合わせて、miRNA過剰発現によって下方制御された遺伝子を同定した。 本発明者らの分析では、少なくとも1つのmiRNA種子結合部位を含み、複製された実験の両方において少なくとも4 0%下方制御された転写物を、miRNA標的と 対照的に、少なくとも1種の種子部位を含むが、発現変化を有さなかった転写物は、非標的対照として指定される。 このようにして、2 2 4 0および4 1 2 7のmiRNA標的および非標的対照を、それぞれRNA−seqによって同定した。 具体的には、平均して各miRNAについて同定された9 0個の標的があり、標的数は、個々のmiRNAの間でかなり異なる(1 1〜2 0 6の範囲、表1)。
標的のダウンレギュレーションに対するmiRNAシードタイプの影響
これまでの研究では、6-mer、7-mer、または8-merのmiRNAシード配列に一致するものを含む、いくつかの主要なタイプの正規miRNA標的部位が同定されている(表2)。 配列保存分析は、より長いmiRNA種子にペアリングする標的部位は、種全体でより保存されているため、善意のmiRNA標的である可能性が高いことを示唆した。 シード型強度のこの仮説はまた、ターゲットのダウンレギュレーションのコンテキストで異種マイクロアレイデータセットを分析することによ しかし、各シードタイプの寄与を正確に定量化するためには、さらなる分析が必要です。 我々の新たに生成された大規模なRNA-seqデータセットは、均一な実験条件下で評価25mirnaを包含し、定量的にターゲットのダウンレギュレーションに異なるmiRNAシーズの強さを評価するためのユニークな機会を提供しました。 具体的には、非標的部位と比較して、ダウンレギュレートされた標的部位における各種子タイプの濃縮を評価した。
表2および図に示すように。 1a、seed6は、すべてのダウンレギュレートされたターゲットの86%で同定された最も一般的なタイプです。 しかしながら、その短い長さのために、seed6はまた、非標的部位の3 6%に非特異的に存在し、その結果、最も低い種子濃縮率をもたらす(表2の2.4 0)。 もう一方の端では、seed8a1は6の濃縮の比率の最も選択的なタイプ、です。83とダウンレギュレートされたターゲットの30%に存在しています。 すべての7-mer種子の中で、seed7bおよびseed7a1は同様の濃縮比を有し、どちらもseed7aの比よりも高い.
別のタイプの8-mer種子、seed8は、すべての7-mer種子の比よりも高い5.48の二番目に高い濃縮比を有する。 標的部位における末端a塩基と末端塩基の一致の潜在的な寄与をさらに区別するために、本発明者らは、5’末端Uを有さない8つのmiRNAに排他的に焦点 1b)。 全ての2 5個のmiRNAと比較した場合、本発明者らは、miRNAのこのサブセットから、それぞれ、seed7bおよびSeed8a1について同様の濃縮比を観察した(表2)。 これらの結果は、miRNAへのペアリング状態にかかわらず、標的部位における末端Aの存在が標的ダウンレギュレーションに関連しているため、末端A-U完全一致は標的認識にほとんど影響を及ぼさないことを示唆している。 興味深いことに、我々はまた、このmiRNAサブセットからseed8のための劇的に減少した濃縮比を観察した。 実際、seed8比(3.32)はseed7bのそれよりもさらに低い(表2)。 したがって、A-U以外の完全な端末一致は、標的認識に有害である(寄与するのではなく)。 シード分析に基づいて、ターゲット予測モデリングのために、seed8a1、seed7b、seed7a1を含む3つの最強のシードタイプに焦点を当てることにしました。 一緒に組み合わせると、これらの3つの種子タイプは、ダウンレギュレート転写物の3′-UTRの76%で同定された。
ターゲットのダウンレギュレーションとクリップ結合データを組み合わせて、共通のターゲティング機能を特定する
miRNAの過剰発現研究と共通の関心事の一つは、ターゲット転写物内の正確なmiRNA結合部位を特定することが困難であるということです。 この懸念を緩和するために、我々は、標準的な7-merまたは8-merシードサイトの存在に基づいて候補標的サイトを同定した。 MiRNAの過剰発現解析とは対照的に、クリップ結紮研究は、同じRISC複合体中のmiRNAとその同族の標的部位を架橋することによって、標的転写物中のmiRNA結合部位を明確に同定することができる。 しかしながら、MIRNA標的結合の機能的帰結は、CLIPによって同定されるように、容易に決定することができない。 したがって、クリップ結合およびmiRNA過剰発現法の両方に長所と短所があり、各方法のみがmiRNA標的調節の重要な側面、すなわち標的結合および機能抑制をそれぞれ示している。
我々の分析では、miRNA結合とその後の標的ダウンレギュレーションの両方を含む機能的標的調節の特徴である共通の特徴を同定することに興味があります。 最近のターゲット予測分析では、我々は複数の公共クリップ結紮研究から派生したmiRNAターゲット結合データセットをコンパイルしています。 標的転写物中のmiRNAおよびその同族の結合部位の両方が、同じRISC複合体への架橋によって明確に同定することができるので、CLIPライゲーション法は、従来のCLIP法 本研究では、クリップ結合データセットは、さらにmiRNAの結合と標的抑制の両方に共通しているターゲティング機能を識別するために、新しいmiRNA過剰発現デー このようにして、CLIPおよびmiRNA過剰発現試験の両方から同定された4 7 7 4個の標的部位および8 0 8 1個の非標的部位を組み合わせて、その後の特徴分析で評価した。結合されたデータセット内の
標的部位と非標的部位を比較して、miRNA標的調節に一般的に関連する特徴を同定した。 これらの機能は、追加ファイル3:表S2に記載されています。 MiRNA標的部位が進化的に保存されていることは十分に確立されている。 我々の研究では、2つの補完的なアプローチを使用して目標保全を評価しました。 まず、我々は100ウェイマルチゲノムアライメントからphyloPスコアによって決定されるように、種子結合位置と隣接位置の間の保存スコアの差を計算した。 第二に、我々はまた、全体の種子サイト(7-merまたは8-mer)は、単語検索によって複数の種にわたって発見されているかどうかを決定しました。 両方の保存分析は、標的部位が非標的部位と比較して非常に有意に保存されていることを示した。 実際には、種子の保全は、miRNAの過剰発現とクリップ結合データを別々に、または組み合わせて分析したかどうか、最も有意に濃縮された機能の一つでした。 具体的には、保存されたseed8a1は、標的部位において最も濃縮されていた(p=2.8e−245は種間種子一致によって、p=7.3e-218はphyloPスコアによってそれぞれ)。 もう一方の端では、非保存SEED7A1が最も枯渇したseedタイプであった(seed matchによる9.5E-134およびphyloPスコアによるp=1.3E−138、それぞれ)。 種子保全に加えて、両方のデータセットに一般的に見られる他の多くの特徴がありました。 例えば、miRNA標的部位は、より短い3′-UTR配列と優先的に関連し(p=4.7E-126)、それらは3′-UTR配列の末端に向かって(p=5.4E−66)、長い転写物の中心から離れて(p=2.5E-87)
多くの類似点にもかかわらず、miRNAの過剰発現とクリップ結合データの間には明確な違いもあります。 一つの顕著な例は、標的部位のGC含量に関連している。 非標的部位と比較して、標的部位GC含有量は、クリップ結合データにおいてはるかに低かった(p=1。9E−1 4 6)であるが、miRNA過剰発現データではわずかに低いだけである(p=2. Cヌクレオチドの枯渇は両データセットで中等度であった。 したがって、二つのデータセット間のGCコンテンツの抜本的な違いは、主に過剰発現データ(p=7.7E−137)とは対照的に、クリップデータ(p=1.2E−19)のGヌクレオチド 一つの可能な説明は、clip研究で使用されるRNase T1に関連している可能性があり、gヌクレオチドを優先的に切断し、配列決定読み取りにおける内部Gの枯渇をもたらす。 しかしながら、gはまた、miRNA過剰発現データにおいて枯渇されたが、中程度にしかないので、Gの濃縮は、miRISC複合体による標的部位結合を妨げることもまた 別の興味深い特徴は、種子/標的二重鎖の自由エネルギーによって決定されるような、種子結合安定性である。 種子結合安定性は、miRNA過剰発現データ(p=2.5E−12)で好まれたが、クリップ結合データ(p=5.4E−26)では好まれなかった。 全体として、この特徴は、2つのデータセットを結合したときには有意ではなくなりました(p=0.26)。
共通のターゲティング機能を持つターゲット予測モデルの開発
追加ファイル3:表S2に記載されているすべてのmiRNAターゲティング機能は、アルゴリズム開発のためのサポートベクターマシン(SVM)フレームワークでモデル化された。 さらに,再帰的特徴除去(RFE)解析を行い,モデル性能への独立した寄与に対する各特徴の相対的重要性をランク付けした。 このRFE評価では、すべての特徴をSVMを使用してまとめて分析しました。 具体的には、最初のステップとして、最も重要でない特徴が特定され、その後モデルから削除されました。 次に、残りの特徴を評価して、除去のための第二の最も重要でない特徴を同定した。 この評価プロセスは、1つの特徴が1つの特徴だけが残るまで、各反復から1つの特徴を排除して繰り返されました。 RFEアプローチは、モデルに含まれる個々の特徴の独立した寄与を理解するのに役立ちます。 表3は、RFE分析による上位20のターゲティング機能をまとめたものです。 すべての機能の完全なRFEランクは、追加ファイル3:表S2に記載されています。 前のセクションで提示された特徴分析と一致して、複数の種子保全特徴は、最も影響力のある特徴として保存されたseed8a1で、RFE分析によって最 最終的なSVMモデルでは、統計的に有意なものと有意でないものの両方を含む96のすべての機能が予測モデルを構築するために統合され、MirTarget v4.0と命名 グリッドを用いてSVMカーネル関数の最適パラメータを決定するために五重交差検証を行った。libsvmパッケージのpyツール。 その後、予測の信頼性を表すためのスコアリングスキームが開発されました。 各候補ターゲットサイトについて、MirTargetは、前述のように、SVMモデリングツールlibsvmから導出された確率スコア(0-1の範囲)を計算します。 このターゲットサイトのスコアは、予測精度の統計的評価を反映しています。 個々の標的部位スコアに基づいて、MirTargetは、次の式を使用して3′-UTR内のすべての部位スコアを組み合わせることにより、遺伝子がmiRNA標的であるかどうかを予:
ここで、nは、3’−UTR中の候補標的部位の数を表し、Piは、Mirtargetによって推定される各部位の確率スコアを表す。 ほとんどの標的遺伝子は、1つの部位のみを含み、したがって、最終的な標的スコアは、n=1の同じ式を用いて計算される。 MirTargetスコアは、予測された目標の相対的な有意性をランク付けするために使用されました。 このようにして、我々はmiRNAターゲットのゲノムワイド予測のためのMirTargetを採用しました。 全ての予測された標的は、miRDB(<9 6 5 2>)に提示される。
独立した実験データを用いたアルゴリズム評価
アルゴリズム開発における共通の懸念の一つは、モデルが訓練データではうまく機能するが、独立した目に見えないデータではうまく機能しないということである。 したがって、MirTargetの性能を評価する最良の方法は、それを独立した実験データに適用することです。 本研究では、不均一な実験データは、クリップ結合とmiRNAノックダウン実験の両方から生成されたものを含むアルゴリズム評価のために解析されました。 MirTargetのパフォーマンスは、TargetScan7.0、DIANA-MicroT、miRanda(mirSVR)、およびPITAを含む他の4つの確立されたアルゴリズムとも比較されました。 これらのアルゴリズムは、最も人気のあるmiRNAターゲット予測ツールの一つであり、トランスクリプトーム全体の予測データは、それぞれのwebサイトか
クリップ配列データによる検証
Chi et al. miRNA標的転写産物の実験的同定のためのHITS-CLIP法を開拓した。 この方法では、マウス脳のmiRISCに関連するmRNA転写物をプルダウンするために、架橋免疫沈降を行った。 次に、これらのmRNA転写タグ、すなわち、AgoによってRnase消化から保護された短いRNA断片を同定するために、高スループット配列決定を行った。 Chi et al. 一般に、転写物タグは種子結合部位を中心とすることが示されている。 このヒットクリップデータセットは、さらに潜在的なmiRNA標的部位を同定するために我々の研究で分析した。 全体として、886の潜在的な標的部位は、六つの最も豊富に発現miRNAのシードマッチング配列に基づいて同定された。 陰性対照として、潜在的な非標的配列のセットはまた、以下の基準に基づいて選択された:(1)彼らはHITS-CLIP実験で同定された任意の配列タグと重複しないと(2) これらの非標的部位から、シード一致配列を有する8 8 9を陰性対照として選択した。
我々の分析では、MirTarget、TargetScan、DIANA-MicroT、miRanda、PITAを含む五つの計算アルゴリズムの性能は、HITS-CLIPによって明らかにされたように、ターゲットと非ターゲットを区別する能力を比較 ROC分析は、予測アルゴリズムの全体的な感度および特異性を評価するために行われた。 図に示すように。 図2Aに示すように、Mirtargetは最高の性能を有し、ROC曲線下面積(AUC)は0.7 8である。 DIANA-MicroTは2番目に優れた性能を持っています(AUC=0.73)。 興味深いことに、DIANA-MicroTはクリップ結合データを用いた訓練によって開発されたが、他の公開アルゴリズムはmiRNA過剰発現データを用いて訓練された。 したがって、DIANA-MicroTがクリップ試験データに比較的よく適合することは驚くべきことではありません。 ROC解析のほかに,予測の精度を評価するための精度リコール(P r)曲線も構築した。 PR曲線は、一般的に、リコール率(すべての真陽性の間で識別された真陽性の割合)に関連して、予測精度(すべての予測陽性の間で真陽性の割合)を決定する 図に示すように。 2bでは、MirTargetは五つのアルゴリズムの中で最高の性能を持っています。 特に、MirTargetの精度は、リコール率が20%以下の場合に90%以上になります。 これは、MirTargetが高信頼予測(すなわち、高い予測スコア)に対して特に正確であることを示しています。
miRNAノックダウンデータ
ターゲット予測アルゴリズムとの検証も、ターゲット発現の変化のコンテキストで評価されました。 この比較解析では,Hafnerらによる公開miRNAノックダウン研究を用いてアルゴリズムを評価した。 . その公開研究では、著者らは同時にアンチセンス阻害剤によって25mirnaの機能を抑制し、マイクロアレイを用いた標的RNA発現への影響を評価した。 これらのmiRNAによって標的とされる遺伝子は、miRNA阻害のために上方制御されることが予想された。 我々の分析では、ターゲット予測スコアとターゲット表現のアップレギュレーションとの相関を評価しました。 図に示すように。 図3Aを参照すると、他のアルゴリズムと比較して、Mirtargetによって計算された予測スコアは、遺伝子発現の上方制御に対して最も高い相関を有する。 さらに、我々はまた、研究者が特に信頼性の高い標的候補に興味を持っているように、個々のアルゴリズムによるトップランクの予測のための遺伝子発現の変化を評価しました。 この目的のために、我々は、各アルゴリズムによって平均してmiRNAあたり100トップランクの予測標的を評価しました。 相関分析と一致して、Mirtargetによって予測された標的は、他のアルゴリズムによって予測された標的と比較して、平均して最も上方制御された(図1 0A)。 3b)。