RNA-seq zur Identifizierung von Transkripten, die durch miRNA-Überexpression herunterreguliert werden
Es ist allgemein bekannt, dass die Bindung einer miRNA an ihr Zieltranskript nicht notwendigerweise zu einer Herunterregulierung der Genexpression führt. Tatsächlich haben die meisten beobachteten miRNA-Bindungsereignisse, wie durch CLIP-Analyse aufgedeckt, nur geringe funktionelle Konsequenzen . Daher hat die Konzentration auf die miRNA-Bindung allein einen begrenzten Wert für die Vorhersage funktioneller miRNA-Ziele, d. H. herunterregulierter Ziele. Um diese Besorgnis zu lindern, haben wir die Zielabregulierung durch miRNA mit RNA-seq direkt bestimmt. Das gesamte Studiendesign ist in der zusätzlichen Datei 1 zusammengefasst: Abbildung S1. Im ersten Schritt wurden 25 miRNAs zusammen mit einer negativen Kontroll-RNA in HeLa-Zellen durch Transfektion einzeln überexprimiert. Diese 25 miRNAs sind in Tabelle 1 aufgeführt. Der Einfluss der miRNA-Überexpression wurde auf Transkriptomebene durch RNA-seq-Experimente profiliert. Um experimentelle Variationen zu kontrollieren, wurde jede miRNA an verschiedenen Tagen doppelt in Zellen transfiziert, und RNA-seq-Bibliothekskonstruktions- und Sequenzierungsläufe wurden ebenfalls an verschiedenen Tagen doppelt durchgeführt. Insgesamt wurden 1,5 Milliarden Reads für das Expressionsprofil von 52 RNA-Proben generiert. Die Profildaten sind in der zusätzlichen Datei 2: Tabelle S1 dargestellt. Alle Sequenzierungsdaten wurden kombiniert, um die durch miRNA-Überexpression herunterregulierten Gene zu identifizieren. In unserer Analyse werden Transkripte, die mindestens eine miRNA-Samenbindungsstelle enthalten und in beiden duplizierten Experimenten um mindestens 40% herunterreguliert wurden, als miRNA-Targets bezeichnet. Im Gegensatz dazu werden Transkripte, die mindestens 1 Seedstelle enthalten, aber keine Expressionsänderung aufweisen, als Nichtzielkontrollen bezeichnet. Auf diese Weise wurden 2240 und 4127 miRNA-Targets und Nicht-Target-Kontrollen durch RNA-seq identifiziert. Konkret wurden für jede miRNA im Durchschnitt 90 Targets identifiziert, und die Targetzahlen variieren erheblich zwischen den einzelnen miRNAs (von 11 bis 206, Tabelle 1).
Der Einfluss von miRNA-Seedtypen auf die Ziel-Downregulation
Frühere Studien haben mehrere Haupttypen von kanonischen miRNA-Zielstellen identifiziert, einschließlich solcher, die mit den 6-mer-, 7-mer- oder 8-Mer-miRNA-Seedsequenzen übereinstimmen (Tabelle 2). Die Sequenzerhaltungsanalyse ergab, dass Zielstellen, die mit längeren miRNA-Samen verbunden sind, artenübergreifend besser konserviert sind und daher eher echte miRNA-Ziele sind . Diese Hypothese zur Seedtypstärke wurde auch durch die Analyse heterogener Microarray-Datensätze im Rahmen der Target-Downregulation bestätigt . Es sind jedoch weitere Analysen erforderlich, um den Beitrag jeder Saatgutart genau zu quantifizieren. Unser neu generierter groß angelegter RNA-seq-Datensatz, der 25 miRNAs umfasst, die unter einheitlichen experimentellen Bedingungen bewertet wurden, bot eine einzigartige Gelegenheit, die Stärke verschiedener miRNA-Samen bei der Ziel-Downregulation quantitativ zu bewerten. Insbesondere haben wir die Anreicherung jeder Saatgutart an herunterregulierten Zielstandorten im Vergleich zu Nicht-Zielstandorten bewertet.
Wie in Tabelle 2 und Fig. 1a, seed6 ist der häufigste Typ, identifiziert in 86% aller herunterregulierten Ziele. Aufgrund seiner kurzen Länge ist seed6 jedoch auch in 36% der Nichtzielstellen unspezifisch vorhanden, was zu dem niedrigsten Saatgutanreicherungsverhältnis führt (2,40 in Tabelle 2). Am anderen Ende ist seed8A1 der selektivste Typ mit einem Anreicherungsverhältnis von 6.83 und ist in 30% der herunterregulierten Ziele enthalten. Unter allen 7-mer-Samen haben seed7b und seed7A1 ähnliche Anreicherungsverhältnisse, die beide höher sind als das Verhältnis für seed7a.
Eine andere Art von 8-mer-Samen, Seed8, hat das zweithöchste Anreicherungsverhältnis von 5,48, was höher ist als die Verhältnisse für alle 7-mer-Samen. Um den potentiellen Beitrag der terminalen Basenübereinstimmung von der terminalen A-Base in der Zielstelle weiter zu unterscheiden, konzentrierten wir uns ausschließlich auf 8 miRNAs, die kein 5′-Ende U haben (Abb. 1b). Im Vergleich zu allen 25 miRNAs beobachteten wir ähnliche Anreicherungsverhältnisse für seed7b bzw. seed8A1 aus dieser Teilmenge von miRNAs (Tabelle 2). Diese Ergebnisse deuten darauf hin, dass die perfekte Übereinstimmung von Terminal A bis U nur geringe Auswirkungen auf die Zielerkennung hat, da das Vorhandensein von Terminal A an Zielstellen, unabhängig von seinem Paarungsstatus mit der miRNA, mit einer Zielabregulierung verbunden ist. Interessanterweise beobachteten wir auch ein dramatisch verringertes Anreicherungsverhältnis für Seed8 aus dieser miRNA-Teilmenge. Tatsächlich ist das Seed8-Verhältnis (3,32) sogar niedriger als das für seed7b (Tabelle 2). Daher ist eine andere perfekte Terminalübereinstimmung als A-U schädlich (anstatt zur Zielerkennung beizutragen). Basierend auf der Seed-Analyse haben wir uns entschieden, uns auf 3 stärkste Seed-Typen zu konzentrieren, einschließlich seed8A1, seed7b und seed7A1, für die Zielvorhersagemodellierung. Zusammengenommen wurden diese 3 Samentypen in der 3′-UTR von 76% der herunterregulierten Transkripte identifiziert.
Kombination von Target-Downregulation und CLIP-Bindungsdaten zur Identifizierung gemeinsamer Targeting-Merkmale
Ein häufiges Problem bei miRNA-Überexpressionsstudien besteht darin, dass es schwierig ist, die genaue miRNA-Bindungsstelle innerhalb des Zieltranskripts zu lokalisieren. Um diese Bedenken auszuräumen, haben wir potenzielle Zielstandorte basierend auf dem Vorhandensein kanonischer 7-Mer- oder 8-Mer-Seed-Standorte identifiziert. Im Gegensatz zur miRNA-Überexpressionsanalyse sind CLIP-Ligationsstudien in der Lage, miRNA-Bindungsstellen im Zieltranskript eindeutig zu identifizieren, indem sie die miRNA und ihre verwandte Zielstelle im selben RISC-Komplex vernetzen. Die funktionelle Konsequenz der miRNA-Zielbindung, wie sie durch CLIP identifiziert wird, kann jedoch nicht leicht bestimmt werden. Somit haben sowohl CLIP-Bindungs- als auch miRNA-Überexpressionsverfahren Vor- und Nachteile, und jede Methode allein zeigt nur einen wichtigen Aspekt der miRNA-Zielregulation, d. H. Zielbindung bzw. funktionelle Unterdrückung.
In unserer Analyse sind wir daran interessiert, gemeinsame Merkmale zu identifizieren, die für die funktionelle Zielregulation charakteristisch sind, einschließlich sowohl der miRNA-Bindung als auch der anschließenden Ziel-Downregulation. In einer kürzlich durchgeführten Zielvorhersageanalyse haben wir einen miRNA-Zielbindungsdatensatz zusammengestellt, der aus mehreren öffentlichen CLIP-Ligationsstudien abgeleitet wurde . Die CLIP-Ligationsmethode wird gegenüber herkömmlichen CLIP-Methoden als vorteilhaft angesehen, da sowohl die miRNA als auch ihre verwandte Bindungsstelle im Zieltranskript durch Vernetzung mit demselben RISC-Komplex eindeutig identifiziert werden können. In der vorliegenden Studie wurde der CLIP-Bindungs-Datensatz weiter mit neuen miRNA-Überexpressionsdaten kombiniert, um Targeting-Merkmale zu identifizieren, die sowohl der miRNA-Bindung als auch der Zielsuppression gemeinsam sind. Auf diese Weise wurden 4774 Zielstellen und 8081 Nicht-Zielstellen, die sowohl aus CLIP- als auch aus miRNA-Überexpressionsstudien identifiziert wurden, kombiniert und in einer anschließenden Merkmalsanalyse bewertet.
Ziel- und Nichtzielstellen im kombinierten Datensatz wurden verglichen, um die Merkmale zu identifizieren, die häufig mit der miRNA-Zielregulation verbunden sind. Diese Merkmale sind in der Zusatzdatei 3: Tabelle S2 aufgeführt. Es ist bekannt, dass miRNA-Zielstellen evolutionär konserviert sind . In unserer Studie haben wir die Zielerhaltung mit zwei komplementären Ansätzen bewertet. Zuerst berechneten wir den Unterschied in den Erhaltungswerten zwischen Samenbindungspositionen und flankierenden Positionen, wie er durch phyloP-Werte aus der 100-Wege-Multigenom-Ausrichtung bestimmt wurde . Zweitens haben wir auch festgestellt, ob die gesamte Samenstelle (7-mer oder 8-mer) durch Wortsuche über mehrere Arten hinweg gefunden wird. Beide Erhaltungsanalysen zeigten, dass Zielgebiete im Vergleich zu Nichtzielgebieten sehr signifikant konserviert waren. Tatsächlich gehörte die Samenkonservierung zu den am deutlichsten angereicherten Merkmalen, unabhängig davon, ob miRNA-Überexpression und CLIP-Bindungsdaten separat oder in Kombination analysiert wurden. Insbesondere war konserviertes seed8A1 an den Zielstellen am stärksten angereichert (p = 2.8E−245 durch artenübergreifende Saatgutübereinstimmung bzw. p = 7.3E-218 durch phyloP−Score). Auf der anderen Seite war nicht konservierter seed7A1 der am stärksten abgereicherte Samentyp (9,5 E-134 nach Seed Match bzw. p = 1,3 E−138 nach phyloP Score). Neben der Saatgutkonservierung gab es viele andere Merkmale, die in beiden Datensätzen häufig vorkommen. Zum Beispiel wurden miRNA-Zielstellen bevorzugt mit kürzeren 3′-UTR-Sequenzen assoziiert (p = 4,7 E−126), und sie wurden eher gegen Ende der 3′-UTR−Sequenz (p = 5,4 E−66) und weg vom Zentrum langer Transkripte gefunden (p = 2,5 E-87).
Trotz vieler Ähnlichkeiten gibt es auch deutliche Unterschiede zwischen miRNA-Überexpression und CLIP-Bindungsdaten. Ein prominentes Beispiel bezieht sich auf den GC-Inhalt der Zielsite. Im Vergleich zu Nichtzielstellen war der GC-Gehalt der Zielstelle in den Clipbindungsdaten viel niedriger (p = 1.9E-146), aber nur geringfügig niedriger in miRNA−Überexpressionsdaten (p = 2,1E-10). Die Depletion von C-Nukleotid war in beiden Datensätzen moderat. Somit war der drastische Unterschied im GC-Gehalt zwischen den beiden Datensätzen hauptsächlich das Ergebnis einer viel stärkeren Verzerrung gegen G-Nukleotid in den CLIP−Daten (p = 7,7 E−137) im Gegensatz zu den Überexpressionsdaten (p = 1,2 E-19). Eine mögliche Erklärung könnte mit der in CLIP-Studien verwendeten RNase T1 zusammenhängen, die bevorzugt an G-Nukleotid schneidet, was zu einer Verarmung des internen G bei Sequenzierungslesungen führt. Es könnte jedoch auch zutreffen, dass die Anreicherung von G die Bindung der Zielstelle durch den miRISC-Komplex behindert, da G auch in miRNA-Überexpressionsdaten abgereichert war, wenn auch nur mäßig. Ein weiteres interessantes Merkmal ist die Stabilität der Samenbindung, die durch die freie Energie des Seed / Target-Duplexes bestimmt wird. Die Stabilität der Samenbindung wurde in den Daten zur miRNA-Überexpression begünstigt (p = 2,5 E−12), in den Daten zur CLIP−Bindung jedoch benachteiligt (p = 5,4E-26). Insgesamt war dieses Merkmal nicht mehr signifikant, wenn die beiden Datensätze kombiniert wurden (p = 0,26).
Entwicklung eines Zielvorhersagemodells mit gemeinsamen Targeting-Merkmalen
Alle miRNA-Targeting-Merkmale, wie in zusätzlicher Datei 3: Tabelle S2 aufgeführt, wurden in einem SVM-Framework (Support Vector Machine) für die Algorithmenentwicklung modelliert. Darüber hinaus haben wir auch eine rekursive Merkmaleliminierungsanalyse (RFE) durchgeführt, um die relative Bedeutung jedes Merkmals für seinen unabhängigen Beitrag zur Modellleistung zu bewerten. In dieser RFE-Bewertung wurden alle Merkmale gemeinsam mit SVM analysiert. Konkret wurde als erster Schritt das am wenigsten wichtige Merkmal identifiziert und anschließend aus dem Modell entfernt. Als nächstes wurden die verbleibenden Merkmale ausgewertet, um das zweitwichtigste Merkmal für die Eliminierung zu identifizieren. Dieser Auswerteprozess wurde wiederholt, wobei ein Merkmal aus jeder Iteration eliminiert wurde, bis nur noch ein Merkmal übrig blieb. Der RFE-Ansatz hilft, den unabhängigen Beitrag einzelner Merkmale zu verstehen, die im Modell enthalten sind. Tabelle 3 fasst 20 erstklassige Targeting-Funktionen nach RFE-Analyse zusammen. Die vollständigen RFE-Ränge aller Merkmale sind in der zusätzlichen Datei 3: Tabelle S2 aufgeführt. In Übereinstimmung mit der Merkmalsanalyse, die im vorherigen Abschnitt vorgestellt wurde, wurden mehrere Saatgutkonservierungsmerkmale nach RFE-Analyse als die höchsten eingestuft, wobei konserviertes Saatgut8a1 das wirkungsvollste Merkmal war. In unserem endgültigen SVM-Modell wurden alle 96 Funktionen, einschließlich statistisch signifikanter und nicht signifikanter Funktionen, für die Erstellung des Vorhersagemodells integriert, das wir MirTarget v4.0 nannten. Eine fünffache Kreuzvalidierung wurde durchgeführt, um die optimalen Parameter für die SVM-Kernelfunktion unter Verwendung des Gitters zu bestimmen.py-Tool im libsvm-Paket. Anschließend wurde ein Bewertungsschema entwickelt, um das Vertrauen der Vorhersage darzustellen. Für jede Kandidatenzielstelle berechnet MirTarget einen Wahrscheinlichkeitswert (im Bereich von 0-1), der wie zuvor beschrieben aus dem SVM-Modellierungstool libsvm abgeleitet wurde . Dieser Ziel-Site-Score spiegelt die statistische Bewertung der Vorhersagegenauigkeit wider. Basierend auf individuellen Ziel-Site-Scores sagt MirTarget voraus, ob ein Gen ein miRNA-Ziel ist, indem alle Site-Scores innerhalb der 3′-UTR unter Verwendung der folgenden Formel kombiniert werden:
wobei n die Anzahl der Kandidatenzielstandorte in der 3′-UTR darstellt und Pi die Wahrscheinlichkeitsbewertung für jeden Standort darstellt, wie von MirTarget geschätzt. Die meisten Zielgene enthalten nur eine Stelle, und daher wird der endgültige Zielwert unter Verwendung derselben Gleichung mit n = 1 berechnet. MirTarget-Scores wurden verwendet, um die relative Signifikanz der vorhergesagten Ziele zu bewerten. Auf diese Weise haben wir MirTarget zur genomweiten Vorhersage von miRNA-Targets eingesetzt. Alle vorhergesagten Ziele werden in miRDB (http://mirdb.org) dargestellt.
Algorithmusbewertung mit unabhängigen experimentellen Daten
Ein häufiges Problem bei der Algorithmenentwicklung ist, dass ein Modell möglicherweise gut mit den Trainingsdaten funktioniert, aber nicht so gut mit unabhängigen unsichtbaren Daten. Daher wäre der beste Weg, die Leistung von MirTarget zu bewerten, die Anwendung auf unabhängige experimentelle Daten. In der vorliegenden Studie wurden heterogene experimentelle Daten für die Algorithmusbewertung analysiert, einschließlich derjenigen, die sowohl aus CLIP-Bindungs- als auch aus miRNA-Knockdown-Experimenten generiert wurden. Die Leistung von MirTarget wurde auch mit vier anderen etablierten Algorithmen verglichen, darunter TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) und PITA. Diese Algorithmen gehören zu den beliebtesten Tools zur Vorhersage von miRNA-Zielen, und transkriptomweite Vorhersagedaten können problemlos von den jeweiligen Websites heruntergeladen werden.
Validierung mit CLIP-seq-Daten
Chi et al. Pionier der HITS-CLIP-Methode zur experimentellen Identifizierung von miRNA-Zieltranskripten . Mit dieser Methode führten sie eine Vernetzung der Immunpräzipitation durch, um mRNA-Transkripte, die mit dem miRISC im Mausgehirn assoziiert waren, herunterzuziehen. Anschließend wurde eine Hochdurchsatzsequenzierung durchgeführt, um diese mRNA-Transkript-Tags, d. H. Kurze RNA-Fragmente, die durch Ago vor dem RNase-Verdau geschützt sind, zu identifizieren. In: Chi et al. gezeigt, dass im Allgemeinen die Transkript-Tags auf den Seed-Bindungsstellen zentriert sind . Dieser HITS-CLIP-Datensatz wurde in unserer Studie weiter analysiert, um potenzielle miRNA-Zielstellen zu identifizieren. Insgesamt wurden 886 potenzielle Zielstellen basierend auf den Seed-Matching-Sequenzen für die sechs am häufigsten exprimierten miRNAs identifiziert. Als Negativkontrollen wurde auch ein Satz potenzieller Nichtzielsequenzen basierend auf den folgenden Kriterien ausgewählt: (1) Sie überlappen sich nicht mit Sequenztags, die im HITS-CLIP-Experiment identifiziert wurden, und (2) Sie stammen aus Transkripten mit nachweisbaren Expressionsniveaus, wie sie durch Mikroarrays aufgedeckt wurden. Aus diesen Nichtzielstellen wurden 889 mit Seed-Matching-Sequenzen als Negativkontrollen ausgewählt.
In unserer Analyse wurde die Leistung von fünf Rechenalgorithmen, einschließlich MirTarget, TargetScan, DIANA-MicroT, miRanda und PITA, bewertet, indem ihre Fähigkeit verglichen wurde, Ziele von Nichtzielen zu unterscheiden, wie durch HITS-CLIP gezeigt. Die ROC-Analyse wurde durchgeführt, um die Gesamtsensitivität und Spezifität der Vorhersagealgorithmen zu bewerten. Wie in Fig. 2a hat MirTarget die beste Leistung mit einer Fläche unter der ROC-Kurve (AUC) von 0,78. DIANA-MicroT hat die zweitbeste Leistung (AUC = 0,73). Interessanterweise wurde DIANA-MicroT durch Training mit CLIP-Bindungsdaten entwickelt, während andere öffentliche Algorithmen mit miRNA-Überexpressionsdaten trainiert wurden. Daher ist es nicht verwunderlich, dass DIANA-MicroT relativ gut auf CLIP-Testdaten passt. Neben der ROC-Analyse haben wir auch Precision-Recall (PR) -Kurven konstruiert, um die Genauigkeit der Vorhersage zu bewerten. PR-Kurven werden üblicherweise in der Algorithmusauswertung verwendet, um die Vorhersagegenauigkeit (Anteil der wahr positiven Ergebnisse unter allen vorhergesagten positiven Ergebnissen) in Bezug auf die Rückrufrate (Anteil der identifizierten wahr positiven Ergebnisse unter allen wahr positiven Ergebnissen) zu bestimmen. Wie in Fig. 2b hat MirTarget die beste Leistung unter allen fünf Algorithmen. Insbesondere liegt die Genauigkeit für MirTarget bei über 90%, wenn die Rückrufrate unter 20% liegt. Dies zeigt an, dass MirTarget besonders genau für Vorhersagen mit hoher Konfidenz (d. H. Hohe Vorhersagewerte) ist.
Validierung mit miRNA-Knockdown-Daten
Zielvorhersagealgorithmen wurden auch im Zusammenhang mit Änderungen der Zielexpression bewertet. In dieser vergleichenden Analyse haben wir die Algorithmen anhand einer öffentlichen miRNA-Knockdown-Studie von Hafner et al. . In dieser öffentlichen Studie unterdrückten die Autoren gleichzeitig die Funktionen von 25 miRNAs durch Antisense-Inhibitoren und bewerteten den Einfluss auf die Ziel-RNA-Expression mit Microarrays. Es wurde erwartet, dass Gene, auf die diese miRNAs abzielen, aufgrund der miRNA-Hemmung hochreguliert werden. In unserer Analyse haben wir die Korrelation zwischen den Zielvorhersagewerten und der Hochregulierung der Zielexpression bewertet. Wie in Fig. 3a, im Vergleich zu anderen Algorithmen, Die von MirTarget berechneten Vorhersagewerte weisen die höchste Korrelation zur Hochregulierung der Genexpression auf. Darüber hinaus haben wir auch Veränderungen der Genexpression für Top-Ranking-Vorhersagen durch einzelne Algorithmen bewertet, da Forscher besonders an hochkonfidenten Zielkandidaten interessiert sind. Zu diesem Zweck haben wir 100 Top-Ranking prognostizierte Ziele pro miRNA im Durchschnitt von jedem Algorithmus ausgewertet. In Übereinstimmung mit der Korrelationsanalyse wurden die von MirTarget vorhergesagten Ziele im Vergleich zu denen, die von anderen Algorithmen vorhergesagt wurden, im Durchschnitt am stärksten hochreguliert (Abb. 3b).