Genomweite Vorhersage von cis-regulatorischen Regionen mit überwachten Deep-Learning-Methoden

Deep Learning unterscheidet aktive Enhancer und Promotoren genau vom Hintergrund

Wir untersuchten die Fähigkeit von Deep-Learning-Modellen, Enhancer und Promotoren zu trennen und sie von anderen Regionen und zwischen Aktivitätszuständen zu unterscheiden. Wir trainierten ein tiefes Feedforward-neuronales Netzwerk über unsere ausgewogenen markierten Trainingssätze, um unsere (unsymmetrischen) Testsätze von jedem gut charakterisierten Zelltyp vorherzusagen, und wiederholten den Vorgang 100 Mal. Das Deep-Modell verwendet experimentell abgeleitete Merkmale über genomische Regionen als Ein- und Ausgabeklassenbezeichnungen dieser Regionen mit Wahrscheinlichkeiten (siehe zusätzliche Datei 1: Tabelle S1 für die Gesamtzahl der Stichproben jeder Klasse und zusätzliche Datei 1: Tabelle S2 für die Anzahl der verfügbaren Merkmale; siehe Methoden). Der Einfachheit halber bezeichnen wir im Folgenden den aktiven Enhancer, den aktiven Promotor, das aktive Exon, den inaktiven Enhancer, den inaktiven Promotor, das inaktive Exon und die unbekannte (oder uncharakterisierte) Region als A-E, A-P, A-X, I-E, I-P, I-X bzw. UK. Unter der Annahme, dass aktive CRRs eine Transkription durchlaufen, bezieht sich aktiv auf Regionen, in denen im Fokusgewebe KEINE Transkriptinitiierungsereignisse beobachtet werden, während sich inaktiv auf Regionen bezieht, die in anderen Geweben, jedoch nicht im Fokusgewebe, nachgewiesen werden. Wir haben die mittlere klassenweise Rate (d. h. b. gemittelte Empfindlichkeiten aller Klassen), Fläche unter der Empfänger-Betriebskennlinie (auROC) und Fläche unter der Precision-Recall-Kurve (auPRC) in Fig. 1 und Zusatzdatei 1: Abbildung S1.

Es gibt vier Aspekte der Ergebnisse, die wir hervorheben, die die Fähigkeit unseres überwachten Deep-Learning-Ansatzes bestätigen, zwischen CRRs-Klassen und Hintergrund zu unterscheiden. Zunächst können wir zwischen aktiven Enhancern und Promotoren (A-E versus A-P) unterscheiden (Abb. 1a). Wir haben A-E und A-P als positive bzw. negative Trainingsklassen verwendet. Insgesamt haben wir festgestellt, dass A-E und A-P stark trennbar sind. Zweitens können wir aktive und inaktive CRRs (entweder Enhancer oder Promotoren) unterscheiden. Aus Fig. 1b und zusätzliche Datei 1: Abbildung S1A, kann beobachtet werden, dass mittlere auPRCs auf GM12878, HelaS3, HepG2 und K562, die die größten Trainingssätze haben, über 0,95 mit kleinen Varianzen für Enhancer und Promotoren liegen. Im Rest dieses Papiers schließen wir A549- und MCF7-Zelllinien in den meisten Analysen aufgrund der begrenzten Datenverfügbarkeit aus. Drittens ist es nicht unerwartet schwierig, zwischen inaktiven Enhancern und Promotoren zu unterscheiden (Zusätzliche Datei 1: Abbildung S1B). Sieben der mittleren klassenweisen Raten für die acht Zelltypen waren niedriger als 0,80. Während es einige Hinweise darauf gibt, dass ein Teil der inaktiven Promotoren eine gewisse Maschinerie aufweist, war es unsere Erwartung, dass solche Regionen weitgehend keine starke Transkriptionsfaktorbindung oder geeignete epigenetische Signaturen aufweisen, um ein Modell zu informieren. Viertens testeten wir die Anwendbarkeit der Vorhersage von A-E und A-P aus der Super Background (BG) -Klasse, die I-E, I-P, A-X, I-X und UK zusammenführt (Abb. 1c). Die Ergebnisse auf sechs Zelltypen waren vielversprechend, alle überschritten 0,80 auPRC. Wenn A-E und A-P weiter zu einer Superklasse (A-E+A-P) zusammengeführt werden, wird eine höhere Leistung erreicht (Zusätzliche Datei 1: Abbildung S1C). Alle auPRCs auf diesen sechs Zelltypen gingen über 0,89 auPRC hinaus. Darüber hinaus haben wir auch eine Random-Forest-Methode, einen weiteren State-of-the-Art-Klassifikator, an unseren markierten Daten getestet. Eine ähnliche Leistung wurde bei allen sechs Versuchseinstellungen erzielt. Die Random-Forest-Methode zeigte eine etwas bessere Leistung für A549- und MCF7-Datensätze, die beide eine geringe Anzahl von Enhancern aufweisen. In der Erwartung, dass mehr annotierte Enhancer verfügbar werden, werden wir MLP weiterhin verwenden und andere Deep-Learning-Ansätze wie Convolutional Neural Networks und Recurrent Neural Networks untersuchen.

DECRES bietet eine höhere Sensitivität und Präzision für mit FANTOM annotierte Regionen

Um den relativen Nutzen unserer überwachten Deep-Methode für die CRR-Vorhersage zu bewerten, haben wir sie mit den unüberwachten kombinierten Methoden ChromHMM und ChromHMM-Segway verglichen, wobei FANTOM-Annotationen für fünf verfügbare Zelltypen als Referenz verwendet wurden. Sie wurden auf unausgeglichenen Sets verglichen, die den wahren genomischen Hintergrund widerspiegelten. Die Ergebnisse sind in Fig. 2a, die Radardiagramme anzeigt, bei denen die Leistung umso besser ist, je größer und konvexer der Bereich ist. Es ist intuitiv, dass überwachte Ansätze bevorzugt werden, wenn die Trainingsdaten ausreichen. Darüber hinaus wurden beide unbeaufsichtigten Methoden vor der Veröffentlichung der FANTOM5-Daten entwickelt und sind daher benachteiligt. Diese Anmerkungen werden jedoch von der Community häufig verwendet, und daher ist die relative Leistung von DECRES im Vergleich zum Standard von Interesse. Insgesamt beobachten wir, dass DECRES ChromHMM und kombinierte Methoden übertrifft, die wiederum eine ähnliche Leistung erbringen. Diese unbeaufsichtigten Verfahren weisen durchweg geringere Sensitivitäten für die aktive Enhancer-Detektion auf (p = 5.57E-5 und 9.90E-5 für DECRES versus HHMM bzw. für den kombinierten Two Tailed Student’s t-Test; siehe Abb. 2b) und geringerer Genauigkeit für den aktiven Promotornachweis (p=7,36E-5 und 2,33E-4 für DECRES versus HHMM bzw. kombinierter Two Tailed Student’s t-Test; siehe Abb. 2b). Mit ChromHMM, die aktive enhancer empfindlichkeit reicht von 16.5% zu 48.4% (zahlen sind konsistent mit die test auf KODIEREN aktive enhancer berichtet in), während unsere tiefe modell reicht von 69% (K562) zu 88.8% (GM12878). Darüber hinaus erreicht ChromHMM eine maximale Präzision von 49.8% für die Vorhersage des aktiven Promotors, während das Maximum für DECRES bei 84,3% liegt.

Bewertung der DECRES-Leistung mit unabhängigen experimentellen Daten

Da sich die erste Bewertung auf die FANTOM eRNA-basierte Annotation von CRRs konzentrierte, der Art von Daten, die zum Trainieren unseres überwachten Modells verwendet wurden, wollten wir die Leistung anhand von Daten bewerten, die mit alternativen Methoden generiert wurden. Wir haben zwei unabhängige Sammlungen von laborvalidierten Enhancern identifiziert, um die Leistung von DECRES weiter zu bewerten: eine CRE-Seq-Sammlung von Regionen, die in K562-Zellen getestet wurden, und MPRA-Sammlungen (Massively Parallel Reporter Assay), die in K562- und HepG2-Zellen getestet wurden. In beiden Fällen kann der Satz von Regionen, die die Expression nicht lenken, durch die bewerteten Methoden falsch vorhergesagt werden, kann aber auch die Tatsache widerspiegeln, dass die experimentellen Verfahren nur ein kleines Segment regulatorischer DNA umfassen und dass Plasmid-basierte Assays die Chromatineigenschaften nicht rekapitulieren. Angesichts der Art der Daten gehen wir davon aus, dass ein Teil der experimentellen Negative echte regulatorische Regionen sind.

In der ersten unabhängigen Gruppe wurden Teilmengen von vorhergesagten K562-Enhancern und negativen Regionen (wie durch die kombinierte HHMM- und Segway-Methode vorhergesagt) im Labor unter Verwendung von CRE-seq . In dieser Studie wurden nur 33% der „kombinierten“ vorhergesagten regulatorischen Regionen im Experiment als positiv befunden, verglichen mit 7% für den negativen Satz. Unter Verwendung von Decresultaten an allen verfügbaren aktiven regulatorischen Regionen von K562-Zellen validierten wir daher unsere Methode an 386 Regionen, die eine aktive Enhancer-Aktivität in K562 zeigten, wie durch CRE-seq im Vergleich zu den 298 Kontrollregionen validiert (Zusätzliche Datei 1: Tabelle S3). In Übereinstimmung mit den obigen Ergebnissen wurde eine Sensitivität von 65,5% (254/386) für die experimentell validierten Regionen erfolgreich als A-E vorhergesagt; Die restlichen 132 Regionen wurden als Hintergrund vorhergesagt (keine wurden als Promotoren klassifiziert). Für die 812 getesteten Vorhersagen, die im CRE-seq-Experiment inaktiv waren, klassifizierte DECRES 53,3% (433/812) als positiv. Für die 298 negativen Kontrollregionen sagte DECRES voraus, dass alle negativ waren (einschließlich der 16, die im CRE-seq-Experiment aktiv waren). Wichtig ist, dass mit steigenden DECRES-Werten die Qualität der Vorhersagen zunimmt. Wir zeichneten das Histogramm der DECRES-Mitgliedschaftswerte von 254 und 433 experimentell positiven und negativen kombinierten Enhancern, die von DECRES als A-Es vorhergesagt wurden (Zusätzliche Datei 1: Abbildung S2). Die Verteilungen sind signifikant unterschiedlich (p = 0.014, zweiseitiger Mann-Whitney-Rank-Test).

Die zweite unabhängige Sammlung, in der K562 und HepG2-spezifischer „starker Enhancer“ (wie von HHMM vorhergesagt) mit vorhergesagten TF-Bindungsstellen für zellselektives TFs unter Verwendung eines Massively parallel Reporter Assay (MPRA) getestet wurden. Nur bei 41% der Enhancer konnte eine signifikante Expression nachgewiesen werden (p = 0,05, zweiseitiger Mann-Whitney-Rank-Test). Wir haben DECRES verwendet, um die Klassen der MPRA-positiven und MPRA-negativen Enhancer vorherzusagen. Unser Ergebnis in zusätzlicher Datei 1: Tabelle S3 zeigt, dass 98,4% (120/122) und 97.8% (182/186) der MPRA-positiven Enhancer wurden jeweils als A-Es von DECRES für K562- und HepG2-Zellen vorhergesagt, während 92,3% (179/194) und 81,3% (217/267) der MPRA-negativen Enhancer immer noch als A-Es für K562 bzw. HepG2 vorhergesagt wurden, jedoch mit unterschiedlichen Verteilungen der DECRES-Scores (p = 4,8 E-6 und p = 2,3 E-6 für K562 bzw. HepG2, zweiseitiger Mann-Whitney-Rank-Test) (Zusätzliche Datei 1: Abbildung S2). In Übereinstimmung mit den anderen unabhängigen Daten ist es wahrscheinlicher, dass sie positiv sind, je höher die DECRES-Werte sind.

Beurteilung des Nutzens von DNA-Sequenzeigenschaften für die Leistung von DECRES

Jüngste Studien bestätigten, dass DNA-Sequenzeigenschaften für die Erkennung von Promotoren und Enhancern und die Unterscheidung zwischen aktiven und inaktiven regulatorischen Sequenzen unter Verwendung von String-Sequenzkernen nützlich sein können. Dies baut auf der seit langem anerkannten Fähigkeit zur Einbeziehung von CpG-Inseln als Merkmale zur Verbesserung der Promotorvorhersage auf . Wir wollten herausfinden, ob DNA-Sequenzmerkmale informativ sein können, um zwischen Promotoren und Enhancern sowie zwischen aktiven und inaktiven Klassen zu unterscheiden. Wir haben das Modell mit 351 Sequenzmerkmalen (ursprünglich in verwendet) in mehreren Szenarien trainiert. Die Ergebnisse sind in Abb. 3 und Zusatzdatei 1: Abbildung S3. Zunächst wird ein auf Sequenzmerkmale beschränktes Deep-Verfahren zur Unterscheidung von A-E und A-P (Fig. 3a) lieferte auPRCs von 0,8567 auf 0,9370, was bestätigt, dass Sequenzattribute tatsächlich aussagekräftig sind. Zweitens haben Sequenzmerkmale einen begrenzten Nutzen für die Unterscheidung zwischen aktiven und inaktiven Zuständen von Enhancern und Promotoren, was logisch ist; während die experimentell abgeleiteten Merkmale sie stark trennen könnten (p = 1.90E-08 und 5.06E-08 für Enhancer bzw. Promotoren, two-tailed Student’s t-Test; siehe Abb. 3b und Zusatzdatei 1: Abbildung S3A). Die Verwendung von Sequenzmerkmalen ohne experimentelle Merkmale hat eine geringere Leistung bei der Klassifizierung von A-E, A-P und BG über alle acht Zelltypen hinweg (p = 1,86E-09, two-tailed Student’s t-Test; siehe Abb. 3c). Schließlich wurden durch die Kombination von experimentellen und Sequenzmerkmalen keine besseren Ergebnisse erzielt (p=2,79E-01, 6,56E-01 und 1,17E-01 in Fig. 3, zwei-tailed Student t-Test).

Hauptmerkmale für die DECRES-Leistung

Da die Erstellung experimenteller Daten zeitaufwändig und teuer sein kann, haben wir versucht, den minimalen Satz von Merkmalen zu bestimmen, die für die CRR-Vorhersage aus rechnerischer Sicht am aussagekräftigsten sind. Wir verwendeten randomisierte Deep Feature Selection (randomisierte DFS oder RDFS) und Random Forest (RF) Modelle (siehe Methoden) für Zwei-Klassen- und Drei-Klassen-Klassifikationen (A-E versus A-P versus BG) auf vier Zelltypen (GM12878, HelaS3, HepG2 und K562), die 72-135 Funktionen zur Verfügung haben.

Abbildung 4a und zusätzliche Datei 1: Abbildung S4A zeigen die von randomisiertem DFS und Random Forest für die Drei-Klassen-Klassifikation ermittelten Werte für die Merkmalsbedeutung an. Die mit diesen Methoden erzeugten Merkmalswichtigkeitswerte sollten unterschiedlich interpretiert werden. Ähnlich wie bei einer Vorwärtsauswahl spiegeln die Feature-Wichtigkeitswerte aus randomisierten DFS wider, welche Features in der frühen Phase des Sparse-Modells bevorzugt werden, während der Wichtigkeitswert eines Features nach Random Forest die Rolle dieses Features im Kontext seiner Verwendung mit allen anderen Features angibt. Die Verwendung beider Methoden in dieser Studie ermöglicht es uns daher, unterschiedliche Einblicke in die Daten zu erhalten. In unseren Experimenten können beide Methoden die wichtigsten Merkmale erfassen, die durch Wichtigkeitswerte über alle vier Zelllinien angezeigt werden. Zum Beispiel stimmen beide Methoden überein, dass Pol2, H3K4me1, Taf1 und H3K27ac nützlich sind, um aktive Enhancer und Promotoren vom Hintergrund in der GM12878-Zelllinie zu unterscheiden. In einigen Fällen ergänzen sich die verschiedenen Maßnahmen. Zum Beispiel werden H3K4me2 und H4K20me1 durch das randomisierte DFS als Schlüsselmerkmale markiert, was überzeugend ist, wie durch die Boxplots in zusätzlicher Datei 1: Abbildung S4B und Abbildung S6-S13 angezeigt, aber von Random Forest übersehen wird. Tbp wurde durch Random Forest in GM12878- und HelaS3-Zellen hervorgehoben, aber nicht durch randomisiertes DFS aufgenommen. Die Untersuchung der Boxplots dieses Merkmals in zusätzlicher Datei 1: Abbildungen S6 und S7 zeigt, dass dieses Merkmal diskriminierend ist, um aktive Enhancer und Promotoren vom Hintergrund zu unterscheiden, aber es gibt keinen dramatischen Unterschied zwischen aktiven Enhancern und Promotoren. Wichtige Merkmale, die in ein Random-Forest-Modell integriert sind, dürfen erst in einer späteren Phase des DFS-Prozesses integriert werden. Zum Beispiel wurde in der K562-Zelllinie C-Myc durch Random Forest hervorgehoben, was in der Tat vernünftig ist, wie in zusätzlicher Datei 1: Abbildung S12 gezeigt und nicht als anfängliches Merkmal im DFS-Prozess ausgewählt wurde.

Für die Entwicklung von Methoden des maschinellen Lernens in der Genomannotation verringert die Minimierung der Anzahl der erforderlichen Merkmale die Kosten und erhöht die Kapazität für die biologische Interpretation. Abbildung 4b und zusätzliche Datei 1: Abbildung S5B zeigen die Änderungen der Test-auPRCs, wenn die Anzahl der ausgewählten Merkmale für die Drei-Klassen- bzw. Zwei-Klassen-Klassifikationen zunimmt. In beiden Fällen steigen die Test-auPRCs für die ersten Funktionen und dann für die Leistungsplateaus dramatisch an. Beim Vergleich der randomisierten DFS-Kurven mit den Random Forest-Kurven können wir feststellen, dass es keine einzige optimale Kurve gibt. Für eine gute Vorhersageleistung reichen einige wenige Schlüsselmerkmale aus. Um eine optimale Anzahl der benötigten Merkmale zu definieren, passen wir die Kurven in Abb. 4b und zusätzliche Datei 1: Abbildung S5B und wählte den Schnittpunkt für eine Linie mit einer Steigung von 0,5 auf den randomisierten DFS-Kurven (siehe Methoden). Für die CRR-Vorhersage mit zwei Klassen (6 Merkmale) sind weniger Merkmale erforderlich als für Modelle mit drei Klassen, die zwischen A-E, A-P und Hintergrund unterscheiden sollen (10 Merkmale).

Die Verteilungen der Top-Ten-Merkmale für Drei-Klassen-Vorhersagen (A-E, A-P und BG) sind in zusätzlicher Datei 1: Abbildung S4B angegeben. Unter Verwendung der Top-Ten-Merkmale für jede Zelle wurden auPRCs von 0,9022, 0,9156, 0,8651 und 0,8565 für GM12878, HelaS3, HepG2 bzw. K562 erreicht. Die Hälfte dieser Top-Merkmale sind Histonmodifikationen, von denen H3K4me1, H3K4ME2, H3K4me3 und H3K27me3 in Übereinstimmung mit dem vorhandenen Wissen häufig ausgewählte Merkmale für die Drei-Klassen-Modelle waren . Unter den Transkriptionsfaktoren (einschließlich Cofaktoren) werden häufig Taf1 und p300 sowie RNA-Polymerase II (Pol2) ausgewählt, was ebenfalls mit dem vorhandenen Wissen übereinstimmt .

Zusätzliche Datei 1: Abbildung S5C zeigt Boxplots der sechs wichtigsten ausgewählten Features durch randomisierte DFS für Vorhersagen mit zwei Klassen. Unter Verwendung dieser Merkmale wurden auPRCs von 0,9561, 0,9627, 0,926 und 0,9555 auf den vier Zelltypen erhalten. Bei den meisten Features sind die Wertebereiche in A-E und A-P relativ zu den Hintergrundkategorien erhöht. Die Hälfte der ausgewählten Merkmale sind DNase-Seq- und Histon-Modifikations-ChIP-Seq-Daten, einschließlich H3K4me2, H3K27ac und H3K27me3. Die Boxplots dieser Features zeigen, dass sie A-E und A-P vom Hintergrund unterscheiden .

Die Mehrheit der genomweiten Vorhersagen von DECRES wird durch andere Methoden unterstützt

Wir trainierten 2- und 3-Klassen-Multilayer-Perzeptron (MLP) -Modelle (siehe Methoden) unter Verwendung aller Referenzdaten für das Training, um CRRs über das gesamte Genom für sechs Zelltypen vorherzusagen (A549 und MCF7 wurden ausgeschlossen). Das 2-Klassen-Modell identifizierte 227.332 CRRs (benachbarte Regionen wurden zusammengeführt), die 4,8% des Genoms einnehmen (zusätzliche Datei 1: Tabelle S4). Insgesamt wurden 9153 CRRs in allen sechs Zelltypen ubiquitär vorhergesagt. Für die 3-Klassen-Vorhersage erhielten wir 301.650 A-E-Regionen (6,8% des Genoms) und 26.555 A-P-Regionen (0,6% des Genoms) zusammen mit 11.886 ubiquitären A-Es und 3678 ubiquitären A-Ps. Die genomweiten Vorhersagen für alle sechs Zelltypen sind in zusätzlicher Datei 2 verfügbar.

Als nächstes untersuchten wir die Überlappung unserer vorhergesagten CRRs mit den kombinierten und dReg-Vorhersagen für GM12878, HelaS3 und K562. Die Mehrheit der von DECRES vorhergesagten CRRs überschneidet sich mit den Ergebnissen von Combined oder dReg, insbesondere 86,13%, 76,13% und 83,63% für GM12878, HelaS3 und K562 (Abb. 5). Eine Teilmenge (13,87% bei GM12878, 23,87% bei HelaS3 und 16,37% bei K562) der DECRES-Vorhersagen überschneiden sich nicht mit den Vorhersagen der beiden anderen Tools. Insbesondere ein großer Teil der kombinierten Vorhersagen (56.78% auf HelaS3, 55.99% auf GM12878 und 36.36% auf K562) überschneiden sich nicht mit denen der überwachten Methoden, was mit der niedrigen beobachteten Validierungsrate übereinstimmt . Darüber hinaus haben DECRES-Vorhersagen tendenziell eine feinere Auflösung sowohl für AP- als auch für E-Regionen (siehe zusätzliche Datei 1: Abbildung S14 für ein Beispiel).

Wir haben untersucht, wie viele unserer genomweiten Vorhersagen vom VISTA-Enhancer-Set unterstützt werden . Trotz der Tatsache, dass die Mehrheit der VISTA-Enhancer über die gesamte Entwicklung hinweg extrem konserviert ist, stellen wir immer noch fest, dass sich 37,1% (850/2.293) der experimentell bestätigten und unbestätigten VISTA-Enhancer mit den vorhergesagten A-Es überschneiden, während sich nur 4,8% (110/2.293) dieser VISTA-Enhancer mit den vorhergesagten A-Ps überschneiden. Die Ergebnisse für experimentell bestätigte VISTA-Enhancer sind ähnlich (482/1.196 = 40,30% und 60/1.196 = 5,02% überlappen A-Es bzw. A-Ps), was darauf hindeutet, dass unsere vorhergesagten aktiven Enhancer echte Enhancer-Funktionen haben. Ein Teil der VISTA-Enhancer, die unsere Vorhersagen nicht überlappen, könnte spezifisch während der Entwicklung oder in anderen Zelltypen als unseren Fokuszelllinien aktiv sein.

DECRES erweitert den FANTOM Enhancer Atlas

Aufgrund der begrenzten Tiefe der CAGE-Signale für eRNAs wurde ein Teil der aktiven (oder transkribierten) Enhancer in der ursprünglichen Zusammenstellung des Enhancer Atlas nicht erkannt. Daher haben wir versucht, zusätzliche teilweise unterstützte Enhancer zu identifizieren, für die eRNA-Signale unter den ursprünglichen Atlas-Schwellenwerten lagen . In der vorherigen Arbeit wurden insgesamt 200.171 bidirektional transkribierte (BDT) Loci im gesamten menschlichen Genom unter Verwendung von CAGE-Tags von 808 Zelltypen und Geweben nachgewiesen. Nach Ausschluss von BDT-Loci innerhalb von Exons blieb ein teilweise unterstützter Satz von 102.021 BDT-Regionen übrig, von denen 43.011 ausgeglichene Loci (ähnliche eRNA-Spiegel auf beiden Seiten) den FANTOM-Enhancer-Atlas bilden . Um zu untersuchen, ob für jeden der sechs Zelltypen mehr aktive Enhancer-Kandidaten nachgewiesen werden können, trainierten wir ein MLP auf seine aktiven Atlasregionen und prognostizierten Klassen für alle 102.021 BDT-Stellen. Unter den 102.021 BDT-Loci wurden die meisten als negative Regionen in einer bestimmten Zelle klassifiziert (Zusätzliche Datei 1: Tabelle S5), während im Durchschnitt 13.316 als A-Es und nur 834 als A-Ps pro Zelltyp vorhergesagt wurden. Eine beträchtliche Anzahl (durchschnittlich 6535) inaktiver Enhancer im ursprünglichen Enhancer-Atlas wurde von unserem Modell als aktiv vorhergesagt (Zusätzliche Datei 1: Tabelle S6), was mit der Annahme übereinstimmt, dass die BDT-Daten für eine bestimmte Stichprobe unvollständig sind. Im Durchschnitt wurden 5514 BDT-Loci, die vom ursprünglichen Atlas ausgeschlossen wurden, als A-Es pro Zelltyp vorhergesagt. Über die sechs analysierten Zelltypen wurden insgesamt 38.601 BDT-Loci als A-Es vorhergesagt (Zusätzliche Datei 3), von denen 16.988 eine Erweiterung des ursprünglichen FANTOM Enhancer Atlas darstellen. Beachten Sie, dass 21.398 von 43.011 Enhancern aus dem ursprünglichen FANTOM Enhancer Atlas in den sechs hier analysierten Zellen nicht als aktiv vorhergesagt werden, aber diese Regionen können in den anderen 802 Zellen aktiv sein, für die unzureichende Merkmale zu analysieren sind.

Rechnerische Validierung der DECRES-Vorhersage mittels Funktions- und Motivanreicherungsanalyse

Wir führten eine funktionelle Anreicherungsanalyse der genomweit vorhergesagten A-Es und A-Ps mit GREAT durch . Für GM12878-Zellen sind 79% der vorhergesagten Enhancer-Regionen mehr als 5 Kilobasenpaare (kbps) vom Gen-TSSs entfernt (Zusätzliche Datei 1: Abbildung S15A), während 47% der vorhergesagten Promotoren weniger als 5 kbps vom annotierten Gen-TSSs entfernt sind (Zusätzliche Datei 1: Abbildung S15B). Ähnliche Statistiken wurden für die verbleibenden fünf Zelltypen erhalten. Annotationsanalysen der GM12878-spezifischen CRRs zeigen, dass proximale Gene assoziiert sind mit: Immunantwort aus Anmerkungen zur Genontologie (GO) (Zusätzliche Datei 1: Abbildung S15C); B-Zell-Signalwege aus Anmerkungen zum MSigDB-Signalweg (zusätzliche Datei 1: Abbildung S15D); und Leukämie aus Anmerkungen zur Krankheitsontologie (Zusätzliche Datei 1: Abbildung S15E). Die Ergebnisse stimmen mit der lymphoblastoiden Linie der Zellen überein. Als nächstes führten wir eine Analyse der funktionellen Anreicherung der BDT-unterstützten vorhergesagten Enhancer durch, die zuvor nicht im FANTOM Enhancer Atlas („nicht im Atlas“) gemeldet wurden. Die Ergebnisse stimmen vollständig mit der obigen Analyse überein (Zusätzliche Datei 1: Abbildung S16).

Wir führten weiterhin Motivanreicherungsanalysen an den vorhergesagten zellspezifischen CRRs und Nicht-in-Atlas-Enhancern mit HOMER durch . Die vorhergesagten Regionen werden für Motive angereichert, die JASPAR-Bindungsprofilen ähnlich sind (Zusätzliche Datei 1: Abbildung S15F und Abbildungen S16-S26), die beide mit TFs assoziiert sind, die allgemeine Zellprozesse aufrechterhalten, und TFs mit selektiven Rollen in zellbezogenen Funktionen. So wurden Motive für Jun-, Fos- und Ets-bezogene Faktoren in Regionen aller sechs Zelltypen angereichert. Diese TFs regulieren allgemeine zelluläre Prozesse wie Differenzierung, Proliferation oder Apoptose . Zellgerechte TF-Anreicherungen wurden für jede Zelle beobachtet (zusammengefasst in Zusatzdatei 1: Tabelle S7). Zum Beispiel werden RUNX1 und andere Runt-bezogene Faktoren, die eine entscheidende Rolle bei der Hämatopoese spielen, in GM12878 beobachtet (Zusätzliche Datei 1: Abbildung S15F und Abbildung S16) . C / EBP-bezogene Faktoren, die Gene regulieren, die an Immun- und Entzündungsreaktionen beteiligt sind, werden im Gebärmutterhals exprimiert (Zusätzliche Datei 1: Abbildungen S17 und S18) . HNF1A-, HNF1B-, FOXA1-, FOXA2-, HNF4A- und HNF4G-Faktoren regulieren leberspezifische Gene (Zusätzliche Datei 1: Abbildungen S19 und S20) . NFY-Faktoren kooperieren mit GATA1, um die erythroidspezifische Transkription in K562 zu vermitteln (Zusätzliche Datei 1: Abbildungen S25 und S26) .

Wir führten eine Funktions- und Anreicherungsanalyse der A-E- und A-P-Vorhersagen aus der kombinierten Methode durch und berichten die Ergebnisse in der zusätzlichen Datei 1: Abbildungen S27-S30. Die meisten der durch die kombinierte Methode vorhergesagten Promotoren sind distal zu bekannten Gen-TSSs, die Enhancern ähnlich sind. Beispielsweise befinden sich auf der Zelllinie GM12878 nur 22% der kombinierten Promotoren weniger als 5 kbp neben dem annotierten Gen TSSs, verglichen mit 47% der DECRES-Promotoren. Darüber hinaus ergab die Funktionsanalyse der durch die kombinierte Methode vorhergesagten CRRs viel weniger oder null signifikante Terme für den biologischen Prozess, den MSigDB-Signalweg und die Krankheitsontologie als die DECRES-Vorhersagen. Die Ergebnisse der Motivanalyse beider Methoden sind konsistent.