Przewidywanie regionów cis-regulacyjnych przy użyciu nadzorowanych metod głębokiego uczenia

głębokie uczenie dokładnie odróżnia aktywne wzmacniacze i promotory od tła

zbadaliśmy możliwości modeli głębokiego uczenia w celu oddzielenia wzmacniaczy i promotorów oraz odróżnienia ich od innych regionów i stanów aktywności. Przeszkoliliśmy sieć neuronową deep feedforward na naszych zbalansowanych zestawach treningowych, aby przewidzieć nasze (niezrównoważone) zestawy testów z każdego dobrze scharakteryzowanego typu komórki, powtarzając procedurę 100 razy. Model deep przyjmuje eksperymentalnie wyprowadzone cechy nad regionami genomowymi jako etykiety klas wejść i wyjść tych regionów z prawdopodobieństwem (patrz dodatkowy plik 1: Tabela S1 dla całkowitej liczby próbek każdej klasy i dodatkowy plik 1: Tabela S2 dla liczby dostępnych funkcji; patrz metody). Dla wygody narracji, poniżej określamy aktywny wzmacniacz, aktywny promotor, aktywny ekson, nieaktywny wzmacniacz, nieaktywny promotor, nieaktywny ekson i Nieznany (lub nietypowy) region jako odpowiednio A-E, A-P, A-X, I-E, I-P, I-X i UK. Przy założeniu, że aktywne CRR przechodzą transkrypcję, aktywne odnosi się do regionów, w których obserwuje się zdarzenia inicjacji transkrypcji w klatce w tkance ogniska, podczas gdy nieaktywne odnosi się do regionów wykrytych w innych tkankach, ale nie w tkance ogniska. Zanotowaliśmy średnią stawkę klasową (tj. uśrednione czułości wszystkich klas), obszar pod krzywą charakterystyki działania odbiornika (auROC) oraz obszar pod krzywą precyzji-przypomnienia (auprc) na Fig. 1 i dodatkowy plik 1: Rysunek S1.

Fig. 1
figurka1

Średnia wydajność i odchylenie standardowe 100 przebiegów przy użyciu modelu MLP na naszych odpowiednio pobranych partycjach testowych pociągów ośmiu typów komórek. a klasyfikacja A-E versus a-P. b klasyfikacja A-E versus I – E. C klasyfikacja A-E versus A-P versus BG. MLP: Wielowarstwowa percepcja, RF: losowy Las, A-E: aktywny wzmacniacz, A-P: aktywny promotor, A-X: Aktywny Ekson, I-E: nieaktywny wzmacniacz, I-P: nieaktywny promotor, i-X: nieaktywny Ekson, UK: Nieznany lub nietypowy, BG: I-E+I-P+A-X+I-X + UK

istnieją cztery aspekty wyników, które podkreślamy, które potwierdzają zdolność naszego nadzorowanego podejścia do głębokiego uczenia się do rozróżniania klas CRR i tła. Po pierwsze, jesteśmy w stanie rozróżnić aktywne wzmacniacze i promotory (A-E versus A-P) (rys. 1a). Stosowaliśmy odpowiednio A-E i A-P jako pozytywne i negatywne zajęcia szkoleniowe. Ogólnie rzecz biorąc, odkryliśmy, że A-E i A-P są wysoce rozdzielne. Po drugie, możemy wyróżnić aktywne i nieaktywne CRR (albo wzmacniacze, albo promotory). Z Fot. 1B i dodatkowy plik 1: Rysunek S1A, można zaobserwować, że średnie auprc na GM12878, HelaS3, HepG2 i K562, które mają największe zestawy treningowe, są powyżej 0,95 z małymi różnicami zarówno dla wzmacniaczy, jak i promotorów. W dalszej części artykułu wykluczamy linie komórkowe A549 i MCF7 w większości analiz ze względu na ograniczoną dostępność danych. Po trzecie, nie nieoczekiwanie, trudno jest rozróżnić nieaktywne wzmacniacze i promotory (dodatkowy plik 1: Rysunek S1B). Siedem średnich klas dla ośmiu typów komórek było niższych niż 0,80. Chociaż istnieją pewne przesłanki wskazujące, że część nieaktywnych promotorów ma pewne mechanizmy, to spodziewaliśmy się, że takie regiony w dużej mierze nie będą wykazywały silnego wiązania czynnika transkrypcyjnego lub odpowiednich podpisów epigenetycznych, aby poinformować model. Po czwarte, przetestowaliśmy możliwość przewidywania A-E i A-P z klasy super background (BG) łączącej I-E, I-P, A-X, I-X i UK (rys. 1c). Wyniki na sześciu typach komórek były obiecujące, wszystkie przekroczyły 0,80 auPRC. Jeśli A-E i A-P są dalej połączone, tworząc super klasę (A-E+A-P), uzyskuje się wyższą wydajność (dodatkowy plik 1: Rysunek S1C). Wszystkie auprc na tych sześciu typach komórek przekroczyły 0,89 auPRC. Co więcej, przetestowaliśmy również metodę losowego lasu, kolejny najnowocześniejszy klasyfikator, na naszych oznakowanych danych. Podobną wydajność uzyskano na wszystkich sześciu eksperymentalnych Ustawieniach. Metoda random forest wykazywała nieco lepszą wydajność dla zestawów danych A549 i MCF7, które mają niską liczbę wzmacniaczy. W oczekiwaniu, że coraz więcej adnotowanych wzmacniaczy stanie się dostępnych, będziemy nadal korzystać z MLP i badać inne podejścia do głębokiego uczenia, takie jak konwolucyjne sieci neuronowe i nawracające sieci neuronowe.

DECRES zapewnia wyższą czułość i precyzję w regionach z adnotacjami FANTOM

aby ocenić względną użyteczność naszej nadzorowanej metody głębokiej do przewidywania CRR, porównaliśmy ją z metodami połączonymi ChromHMM i Chromhmm-Segway bez nadzoru przy użyciu adnotacji FANTOM na pięciu dostępnych typach komórek jako odniesienia. Porównano je na niezrównoważonych zestawach odzwierciedlających prawdziwe tło genomowe. Wyniki są porównywane na Fig. 2A, który wyświetla wykresy radarowe, w których im większy i bardziej wypukły jest obszar, tym lepsza wydajność. Intuicyjne jest to, że preferowane są podejścia nadzorowane, gdy wystarczające są oznakowane dane treningowe. Ponadto obie metody bez nadzoru zostały opracowane przed publicznym udostępnieniem danych FANTOM5 i dlatego są w niekorzystnej sytuacji. Jednak adnotacje te są szeroko stosowane przez społeczność i dlatego względna wydajność DECRES w stosunku do standardu jest interesująca. Ogólnie rzecz biorąc, zauważamy, że DECRES przewyższa ChromHMM i połączone metody, które z kolei zapewniają podobną wydajność. Te nienadzorowane metody konsekwentnie mają mniejszą wrażliwość na aktywne wykrywanie wzmacniaczy (p = 5.57E-5 i 9.90 E-5 dla DECRES kontra ChromHMM i połączone odpowiednio, dwa ogony studenta t-test; patrz Fig. 2b) i mniejsza precyzja dla aktywnego wykrywania promotora (p=7,36 E-5 i 2,33 E – 4 dla DECRES w porównaniu z ChromHMM i połączone odpowiednio, dwuogonowy test t Studenta; patrz Fig. 2b). Przy użyciu ChromHMM czułość aktywnego wzmacniacza waha się od 16,5% do 48,4% (liczby są zgodne z testem na ENCODE predicated enhancers opisanym w ), podczas gdy nasz model deep waha się od 69% (K562) do 88,8% (GM12878). Ponadto ChromHMM osiąga maksymalną precyzję 49.8% dla aktywnego przewidywania promotora, podczas gdy maksimum dla DECRES wynosi 84,3%.

Fig. 2
figurka2

Porównanie metody nadzorowanej (DECRES) i metody nienadzorowanej (ChromHMM i kombinowanej) na pięciu zestawach badań fantomowych na mapach radarowych (a) i testach istotności (b). Segmentacje ENCODE zostały pobrane z . Ponownie oznaczyliśmy adnotacje ChromHMM i połączyliśmy. Dla segmentacji ChromHMM klasy TSS, Tssf i PromF zostały połączone do A-P; klasy Enh, ENF, EnhW, EnhWF zostały połączone do A-E; reszta została oznaczona przez BG. Podczas przetwarzania połączonych adnotacji, TSS i PF zostały ponownie oznakowane na A-P; E, a my zostaliśmy ponownie oznakowani Na A-E; a reszta na BG. Wartości p w (b) uzyskano z dwuogonowego testu t Studenta na wszystkich typach komórek. W nawiasach podano oznaczenia wartości statystycznych

Ocena wydajności DECRES za pomocą niezależnych danych eksperymentalnych

ponieważ wstępna ocena koncentrowała się na adnotacji CRR opartej na FANTOM eRNA, rodzaju danych wykorzystywanych do szkolenia naszego nadzorowanego modelu, staraliśmy się ocenić wydajność na danych generowanych metodami alternatywnymi. Zidentyfikowaliśmy dwie niezależne Kolekcje zatwierdzonych laboratoryjnie wzmacniaczy w celu dalszej oceny działania DECRES: a Cre-seq collection of regions tested in k562 cells and MPRA (massively parallel reporter assay) collections tested in k562 and HepG2 cells . W obu przypadkach zestaw regionów, które nie wykazują bezpośredniej ekspresji, może być fałszywie przewidywany za pomocą ocenianych metod, ale może również odzwierciedlać fakty, że procedury eksperymentalne obejmują tylko mały segment regulatorowego DNA i że testy oparte na plazmidzie nie podsumowują właściwości chromatyny. Biorąc pod uwagę charakter danych, przewidujemy, że część negatywów eksperymentalnych będzie w dobrej wierze regionami regulacyjnymi.

w pierwszym niezależnym zestawie, podgrupy przewidywanych wzmacniaczy K562 i regionów ujemnych (zgodnie z przewidywaniami przy użyciu połączonej metody ChromHMM i Segwaya) oceniano w laboratorium przy użyciu CRE-seq . W badaniu tym tylko 33% „połączonych” przewidywanych regionów regulacyjnych okazało się pozytywne w eksperymencie, w porównaniu do 7% dla zestawu negatywnego. Stosując DECRES przeszkolony na wszystkich dostępnych aktywnych regionach regulacyjnych komórek K562, zwalidowaliśmy naszą metodę na 386 regionach wykazujących aktywną aktywność wzmacniającą w K562, zgodnie z walidacją CRE-seq w porównaniu z 298 regionami kontrolnymi(dodatkowy plik 1: Tabela S3). Wysoce zgodne z powyższymi wynikami, czułość 65,5% (254/386) dla regionów zwalidowanych doświadczalnie z powodzeniem przewidywano jako A-E; Pozostałe 132 regiony przewidywano jako tła (żaden z nich nie był klasyfikowany jako promotory). Dla 812 badanych prognoz, które były nieaktywne w eksperymencie CRE-seq, DECRES sklasyfikował 53,3% (433/812) jako pozytywne. Dla 298 regionów kontroli ujemnej, decres przewidywał, że wszystkie będą ujemne (w tym 16, które były aktywne w eksperymencie CRE-seq). Co ważne, wraz ze wzrostem wyników DECRES wzrasta jakość prognoz. Narysowaliśmy histogram wyników członkostwa DECRES 254 i 433 eksperymentalnie dodatnich i ujemnych połączonych wzmacniaczy, które były przewidywane jako A-Es przez DECRES (dodatkowy plik 1: Rysunek S2). Rozkłady są znacząco różne (p = 0 . 014, dwustronny test rangi Manna-Whitneya).

druga niezależna kolekcja, w której k562 i „silny wzmacniacz” specyficzny dla HepG2 (zgodnie z przewidywaniami ChromHMM) zawierające przewidywane miejsca wiązania TF dla TFs selektywnego dla komórek była badana przy użyciu massively parallel reporter assay (MPRA) . Stwierdzono znamienną ekspresję jedynie 41% wzmacniaczy (p = 0,05, dwustronny test rangi Manna-Whitneya). Użyliśmy DECRES do przewidywania klas wzmacniaczy MPRA dodatnich i MPRA ujemnych. Nasz wynik w dodatkowym pliku 1: Tabela S3 pokazuje, że 98,4% (120/122) i 97.8% (182/186) dodatnich wzmacniaczy MPRA przewidywano odpowiednio jako A-Es dla komórek K562 i HepG2, podczas gdy 92,3% (179/194) i 81,3% (217/267) ujemnych wzmacniaczy MPRA nadal przewidywano jako A-Es dla odpowiednio K562 i HepG2, ale z różnymi rozkładami punktacji DECRES (p= 4,8 E-6 i p= 2,3 E-6 dla k562 i HepG2 odpowiednio, dwustronny test rangi Manna-Whitneya) (dodatkowy plik 1: Rysunek S2). Zgodnie z innymi niezależnymi danymi, im wyższy wynik DECRES, tym bardziej prawdopodobne jest, że będzie pozytywny.

Ocena przydatności właściwości sekwencji DNA do działania DECRES

ostatnie badania potwierdziły , że właściwości sekwencji DNA mogą być przydatne do rozpoznawania promotorów i wzmacniaczy oraz do rozróżniania aktywnych i nieaktywnych sekwencji regulatorowych przy użyciu jąder sekwencji łańcuchowych. Opiera się to na uznanej od dawna zdolności do włączania Wysp CpG jako funkcji poprawiających przewidywanie promotorów . Próbowaliśmy ustalić, czy cechy sekwencji DNA mogą być pouczające w celu rozróżnienia pomiędzy promotorami i wzmacniaczami oraz między klasami aktywnymi i nieaktywnymi. Trenowaliśmy model z funkcjami sekwencji 351 (pierwotnie używanymi w) w wielu scenariuszach. Wyniki są wyświetlane na Rys. 3 i dodatkowy plik 1: Rysunek S3. Po pierwsze, głęboka metoda ograniczona do funkcji sekwencji do rozróżniania A-E i A-P (rys. 3A) dostarczono auprc od 0,8567 do 0,9370, potwierdzając, że atrybuty sekwencji są rzeczywiście pouczające. Po drugie, cechy sekwencji mają ograniczoną użyteczność do rozróżniania Stanów aktywnych i nieaktywnych wzmacniaczy i promotorów, co jest logiczne; podczas gdy eksperymentalnie pochodne cechy mogłyby je znacznie oddzielić (p = 1,90 E-08 i 5.06E-08 dla wzmacniaczy i promotorów odpowiednio, dwuogonowy test t Studenta; patrz Fig. 3b i dodatkowy plik 1: Rysunek S3A). Wykorzystanie cech sekwencji przy braku cech eksperymentalnych ma niższą wydajność w klasyfikacji A-E, A-P I BG we wszystkich ośmiu typach komórek (p=1,86 E-09, dwuogonowy test t Studenta; patrz Fig. 3c). Ostatecznie lepsze wyniki nie zostały osiągnięte przez połączenie cech eksperymentalnych i sekwencyjnych (P=2,79 E-01, 6,56 E-01 i 1,17 E-01 na Fig. 3, dwuogonowy test t Studenta).

Fig. 3
figurka3

porównując średnie auprc ponad 100 resampling i przekwalifikowanie na naszych regionach oznakowanych przy użyciu różnych zestawów funkcji. „Eksperymentalny” oznacza nasz eksperymentalnie wyprowadzony zestaw funkcji sekwencjonowania nowej generacji. „Sekwencja” oznacza zbiór 351 właściwości sekwencji używanych w . „Sekwencja eksperymentalna+” oznacza kombinację tych dwóch zestawów. a. porównanie trzech zestawów funkcji w A-E versus A-P. B. porównanie trzech zestawów funkcji w A-E versus I-E. C. porównanie trzech zestawów funkcji w A-E versus A-P versus BG. Wartości p w każdej legendzie uzyskano za pomocą dwuogonowego testu t Studenta w celu porównania wyników „eksperymentalnych”z wynikami „eksperymentalnych+Sekwencja”i „Sekwencja”, odpowiednio

Kluczowe cechy wydajności DECRES

ponieważ dane eksperymentalne mogą być czasochłonne i kosztowne w produkcji, staraliśmy się określić minimalny zestaw cech najbardziej informacyjnych dla prognozy CRR z perspektywy obliczeniowej. Użyliśmy randomized deep feature selection (randomized DFS lub OPB) i random forest (RF) modele (patrz metody) dla dwóch klas i trzech klas (A-E versus A-P versus BG) klasyfikacje na czterech typach komórek (GM12878, HelaS3, HepG2 i K562), które mają 72-135 funkcje dostępne.

rysunek 4a i dodatkowy plik 1: Rysunek S4A wyświetlają wyniki znaczenia funkcji odkryte przez randomizowane DFS i losowy Las dla klasyfikacji trzech klas. Punktacja znaczenia funkcji wytwarzana tymi metodami powinna być różnie interpretowana. Podobnie jak w przypadku selekcji do przodu, oceny ważności funkcji z randomizowanych plików DFS odzwierciedlają, które cechy są preferowane na wczesnym etapie modelu sparse, podczas gdy Ocena ważności funkcji przez losowy Las wskazuje rolę tej funkcji w kontekście jej wykorzystania ze wszystkimi innymi funkcjami. Tak więc zastosowanie obu metod w tym badaniu pozwala nam uzyskać różne wgląd w dane. W naszych eksperymentach obie metody mogą uchwycić najważniejsze cechy, na co wskazują wyniki ważności we wszystkich czterech liniach komórkowych. Na przykład, obie metody zgadzają się, że Pol2, H3k4me1, Taf1 i H3K27ac są użyteczne do odróżnienia aktywnych wzmacniaczy i promotorów od tła w linii komórkowej GM12878. W niektórych przypadkach poszczególne środki wzajemnie się uzupełniają. Na przykład H3K4me2 i H4k20me1 są oznaczone jako kluczowe cechy przez randomizowane DFS, co jest przekonujące, jak wskazują wykresy pudełkowe w dodatkowym pliku 1: Rysunek S4B i rysunek S6-S13, ale są pomijane przez losowy Las. Tbp został wyróżniony przez losowy las w komórkach GM12878 i HelaS3, ale nie został wychwycony przez randomizowane DFS. Badanie Wykresów pola tej funkcji w dodatkowym pliku 1: figury S6 i S7 ujawnia, że cecha ta jest rozróżniająca w celu odróżnienia aktywnych wzmacniaczy i promotorów od tła, ale nie ma dramatycznej różnicy między aktywnymi wzmacniaczami i promotorami. Ważne cechy włączone do modelu losowego lasu nie mogą być włączone do ostatniego etapu procesu DFS. Na przykład, w linii komórek k562, C-Myc był podkreślany przez losowy Las, co jest rzeczywiście uzasadnione, jak pokazano w dodatkowym pliku 1: Rysunek S12 i nie zostało wybrane jako początkowa cecha w procesie DFS.

Fig. 4
figurka4

znaczenie funkcji i wydajność klasyfikacji w scenariuszu 3-klasowym (A-E versus A-P versus BG). znaczenie funkcji odkryte przez randomized DFS (OPB) i random forest (RF) na GM12878. Random forest ’ s feature importance scores zostały znormalizowane w celu lepszego porównania z randomizowanymi DFS. b auPRC a liczba funkcji zawartych w piecach OPB i RF. Zaznaczone punkty wskazują, gdzie znajduje się linia o nachyleniu 0.5 przecina dopasowaną krzywą

w celu opracowania metod uczenia maszynowego w adnotacji genomu minimalizacja liczby wymaganych funkcji zmniejsza koszty i zwiększa zdolność do interpretacji biologicznej. Rysunek 4b i dodatkowy plik 1: Rysunek S5B pokazują zmiany auprc w miarę wzrostu liczby wybranych cech odpowiednio dla klasyfikacji trzyklasowej i dwuklasowej. W obu przypadkach, test auprc zwiększyć dramatycznie dla początkowych cech, a następnie wydajność plateaus. Porównując randomizowane krzywe DFS z losowymi krzywymi leśnymi, widzimy, że nie ma jednej optymalnej krzywej. Kilka kluczowych funkcji wystarcza do dobrego przewidywania wydajności. Aby określić optymalną liczbę potrzebnych funkcji, dopasowujemy krzywe na Rys. 4B i dodatkowy plik 1: Rysunek S5B i wybrano punkt przecięcia linii o nachyleniu 0,5 na krzywych DFS (patrz metody). Mniej funkcji jest potrzebnych do dwuklasowego przewidywania CRR (6 cech) w porównaniu z modelami trzyklasowymi przeznaczonymi do rozróżnienia między A-E, A-P i tła (10 cech).

dystrybucje dziesięciu najlepszych funkcji dla przewidywań trójklasowych (A-E, A-P I BG) podano w dodatkowym pliku 1: Rysunek S4B. korzystając z dziesięciu najlepszych funkcji dla każdej komórki, auprc wynoszące 0,9022, 0,9156, 0,8651 i 0,8565 uzyskano odpowiednio na GM12878, HelaS3, HepG2 i K562. Połowa z tych najlepszych cech to modyfikacje histonów, z których h3k4me1, h3k4me2, H3K4me3 i H3K27me3 były powszechnie wybranymi cechami dla modeli trzyklasowych, zgodnie z istniejącą wiedzą . Wśród czynników transkrypcyjnych (w tym współczynników) często wybiera się Taf1 i p300, a także polimerazę RNA II (Pol2), co jest również zgodne z istniejącą wiedzą .

dodatkowy plik 1: Rysunek S5C pokazuje wykresy pól sześciu najlepszych wybranych funkcji przez randomizowane DFS dla prognoz dwuklasowych. Korzystając z tych funkcji, auprc wynoszące 0,9561, 0,9627, 0,926 i 0,9555 uzyskano odpowiednio dla czterech typów komórek. W przypadku większości funkcji zakresy wartości są podwyższone w A-E i A-P w stosunku do kategorii tła. Połowa wybranych funkcji to DNase-seq i histone modification ChIP-seq data, w tym h3k4me2, H3K27ac i H3K27me3. Wykresy pól tych cech wskazują, że odróżniają A-E i A-P od tła .

większość prognoz dotyczących całego genomu DECRES jest wspierana przez inne metody

trenowaliśmy 2 – i 3-klasowe modele wielowarstwowego perceptronu (MLP) (patrz metody), wykorzystując wszystkie dane referencyjne (oznakowane) do szkolenia, w celu przewidywania CRR w całym genomie dla sześciu typów komórek (wykluczono A549 i MCF7). W modelu 2-klasowym zidentyfikowano 227 332 CRR (sąsiednie regiony zostały połączone), które zajmują 4,8% genomu (dodatkowy plik 1: Tabela S4). Łącznie przewidywano 9153 CRR we wszystkich sześciu typach komórek. Dla prognozy 3-klasowej otrzymaliśmy 301 650 regionów A-E (6,8% genomu) i 26 555 regionów A-P (0,6% genomu) wraz z 11 886 wszechobecnymi a-Es i 3678 wszechobecnymi A-Ps. Przewidywania dotyczące całego genomu dla wszystkich sześciu typów komórek są dostępne w dodatkowym pliku 2.

następnie zbadaliśmy pokrywanie się naszych przewidywanych CRR z prognozami kombinowanymi i dReg dla GM12878, HelaS3 i K562. Większość CRR przewidywanych przez DECRES pokrywają się z wynikami albo połączone lub dReg, w szczególności 86.13%, 76.13% i 83.63% dla GM12878, HelaS3 i k562, odpowiednio (rys. 5). Podzbiór (13,87% na GM12878, 23,87% na HelaS3 i 16,37% na K562) prognoz DECRES nie pokrywają się z prognozami z pozostałych dwóch narzędzi. W szczególności duża część połączonych prognoz (56,78% w przypadku HelaS3, 55,99% w przypadku GM12878 i 36.36% na K562) nie pokrywają się z metodami nadzorowanymi, co jest zgodne z niskim obserwowanym wskaźnikiem walidacji . Ponadto przewidywania DECRES mają zwykle lepszą rozdzielczość zarówno dla regionów a-P, jak i A-E (patrz dodatkowy plik 1: Rysunek S14 na przykład).

Fig. 5
figurka5

umowy DECRES CRRs z Combined i dReg CRRs dotyczące odpowiednio trzech typów komórek (a: GM12878, b: HelaS3, c: K562). Segmentacje TSS, PF, E I WE z połączonych zostały ponownie oznaczone do CRR. Aktywne elementy regulacji transkrypcji (Tres) przewidywane przez dReg zostały przemianowane na CRRs

zbadaliśmy, ile spośród naszych prognoz dotyczących całego genomu jest wspieranych przez zestaw VISTA enhancer . Pomimo faktu, że większość ulepszaczy VISTA są bardzo zachowane w całym rozwoju, nadal stwierdzamy,że 37.1% (850/2, 293) potwierdzonych eksperymentalnie i niepotwierdzonych ulepszaczy VISTA pokrywają się z przewidywanymi a-Es,podczas gdy zaledwie 4.8% (110/2, 293) tych ulepszaczy VISTA pokrywają się z przewidywanymi A-Ps. Wyniki potwierdzonych doświadczalnie wzmacniaczy VISTA są podobne (482/1,196 = 40,30% i 60/1,196 = 5,02% pokrywają się odpowiednio z A-Es i A-Ps), co sugeruje, że nasze przewidywane aktywne wzmacniacze mają rzeczywiste funkcje wzmacniające. Część wzmacniaczy VISTA, które nie nakładają się na nasze prognozy, może być aktywna szczególnie podczas rozwoju lub w innych typach komórek niż nasze linie komórkowe.

DECRES rozszerza Atlas wzmacniacza FANTOM

ze względu na ograniczoną głębokość sygnałów klatkowych dla eRNAs, część aktywnych (lub transkrybowanych) wzmacniaczy nie zostanie wykryta w oryginalnej kompilacji atlasu wzmacniacza. W związku z tym staraliśmy się zidentyfikować dodatkowe częściowo obsługiwane wzmacniacze, dla których sygnały eRNA były poniżej pierwotnych ustawień progowych atlas . W poprzedniej pracy wykryto łącznie 200 171 loci transkrypcji dwukierunkowej (BDT) w ludzkim genomie, przy użyciu znaczników klatkowych 808 typów komórek i tkanek. Po wyłączeniu loci BDT w eksonach pozostał częściowo wspierany zestaw 102 021 regionów BDT, z czego 43 011 zrównoważonych loci (podobne poziomy eRNA po obu stronach) tworzą Atlas fantomowy . W celu zbadania, czy można wykryć bardziej aktywnych kandydatów na wzmacniacze dla każdego z sześciu typów komórek, przeszkoliliśmy MLP w aktywnych regionach atlasu i przewidywaliśmy klasy dla wszystkich 102 021 miejsc BDT. Spośród 102 021 loci BDT większość z nich została sklasyfikowana jako regiony ujemne w danej komórce (plik dodatkowy 1: Tabela S5), podczas gdy średnio 13 316 przewidywano jako A-Es, a tylko 834 przewidywano jako A-Ps na typ komórki. Znaczna liczba (średnio 6535) nieaktywnych wzmacniaczy w oryginalnym atlasie wzmacniacza została przewidziana jako aktywna przez nasz model (dodatkowy plik 1: Tabela S6), zgodnie z założeniem, że dane BDT są niekompletne dla danej próbki. Średnio 5514 loci BDT wykluczonych przez oryginalny atlas, przewidywano jako A-Es na typ komórki. W sześciu analizowanych typach komórek przewidywano łącznie 38 601 loci BDT jako A-Es (dodatkowy plik 3), z czego 16 988 stanowi rozwinięcie oryginalnego atlasu Fantom enhancer. Zauważ, że 21 398 z 43 011 wzmacniaczy z oryginalnego atlasu FANTOM enhancer nie przewiduje się jako aktywnych w sześciu analizowanych tu komórkach, ale te regiony mogą być aktywne w innych komórkach 802, dla których istnieją niewystarczające cechy do analizy.

obliczeniowa Walidacja predykcji DECRES przy użyciu analizy wzbogacenia Funkcjonalnego i motywu

przeprowadziliśmy analizę wzbogacenia funkcjonalnego na przewidywanych a-Es i A-Ps w całym genomie przy użyciu GREAT . Dla komórek GM12878, 79% przewidywanych regionów wzmacniających jest oddalonych o więcej niż 5 par kilobaz (kbps) od genu TSSs (dodatkowy plik 1: Rysunek S15A), podczas gdy 47% przewidywanych promotorów jest mniej niż 5 kbps od adnotowanego genu TSSs (dodatkowy plik 1: Rysunek S15b). Podobne statystyki uzyskano dla pozostałych pięciu typów komórek. Analizy adnotacji specyficznych dla GM12878 CRR wykazują, że geny proksymalne są związane z: odpowiedzią immunologiczną z ontologii genów (go) adnotacjami (plik dodatkowy 1: Rysunek S15C); szlakami sygnałowymi komórek B z adnotacjami Szlaku Msigdb (plik dodatkowy 1: Rysunek S15d); oraz białaczką z adnotacjami ontologii choroby (plik dodatkowy 1: Rysunek S15e). Wyniki są zgodne z linią limfoblastoidalną komórek. Następnie przeprowadziliśmy analizę wzbogacenia funkcjonalnego na wspieranych przez BDT predicted enhancers, które nie były wcześniej zgłaszane w Atlasie wzmacniacza FANTOM („not in atlas”). Wyniki są w pełni zgodne z powyższą analizą (dodatkowy plik 1: Rysunek S16).

następnie przeprowadziliśmy analizę wzbogacania motywów na przewidywanych specyficznych dla komórek CRR i wzmacniaczach Nie-w-Atlasie przy użyciu Homera . Przewidywane regiony są wzbogacone o motywy podobne do profili wiązania JASPAR (dodatkowy plik 1: Rysunek S15F i rysunki S16-S26), zarówno związane z TFs utrzymującymi ogólne procesy komórkowe, jak i TFs z selektywnymi rolami w funkcjach związanych z komórkami. Na przykład motywy dla czynników związanych z Jun -, Fos – i Ets zostały wzbogacone w regionach ze wszystkich sześciu typów komórek. Te TFs regulują ogólne postępy komórkowe, takie jak różnicowanie, proliferacja lub apoptoza . Dla każdej komórki zaobserwowano odpowiednie dla komórek wzbogacenie TF (podsumowano w dodatkowym pliku 1: Tabela S7). Na przykład w GM12878 obserwuje się RUNX1 i inne czynniki związane z Runt, które odgrywają kluczową rolę w hematopoezie (dodatkowy plik 1: Rysunek S15F i rysunek S16). Czynniki związane z C / EBP, które regulują geny biorące udział w odpowiedzi immunologicznej i zapalnej, są wyrażone w szyjce macicy (dodatkowy plik 1: figury S17 i S18). Czynniki HNF1A, HNF1B, FOXA1, FOXA2, HNF4A i hnf4g regulują geny specyficzne dla wątroby (dodatkowy plik 1: rysunki S19 i S20). Czynniki NFY współpracują z GATA1 w celu pośredniczenia w transkrypcji specyficznej dla erytroidów w K562 (dodatkowy plik 1: rysunki S25 i S26) .

przeprowadziliśmy analizę funkcjonalną i wzbogacającą prognoz A-E i A-P z metody łączonej, a wyniki przedstawiliśmy w dodatkowym pliku 1: rys. S27-S30. Większość przewidywanych promotorów metodą łączoną jest dystalna do znanego genu TSSs, który jest podobny do wzmacniaczy. Na przykład na linii komórkowej GM12878 tylko 22% połączonych promotorów znajduje się mniej niż 5 kbp w stosunku do adnotowanego genu TSSs, w porównaniu do 47% promotorów DECRES. Co więcej, analiza funkcjonalna CRR przewidywanych metodą łączoną zwracała znacznie mniej lub zero istotnych terminów dla procesu biologicznego GO, szlaku msigdb i ontologii choroby niż przewidywania DECRES. Wyniki analizy motywów obu metod są spójne.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

Previous post projektowanie FMEA (DFMEA)
Next post Reddit ' s Female Dating Strategy zamienia miłość w grę. Działa?