Genomu-široký předpověď cis-regulačních oblastí použití pod dohledem hluboké učení metody

Hluboké učení přesně rozlišuje aktivní stimulátory a stimulátory od pozadí

zkoumali Jsme schopnost hluboké učení modely oddělit stimulátory a stimulátory, a odlišit je od jiných regionech a mezi aktivitou státy. Trénovali jsme hluboké dopřednou neuronovou síť nad našimi vyvážené označeny školení sady předvídat naše (nevyvážený) testovací soupravy z každého no-charakterizovat typ buněk, opakováním postupu 100 krát. Hluboké model bere experimentálně odvozené funkce přes genomové regiony jako vstupy a výstupy třídy štítky těchto regionů s pravděpodobnosti (viz Další soubor 1: Tabulka č. 1 celkový počet vzorků z každé třídy a Doplňující soubor 1: Tabulka S2 pro počet dostupných funkcí; viz Metody). Pro narativní pohodlí, dále máme na mysli aktivní zesilovač, aktivní promotér, aktivní exon, neaktivní enhancer, neaktivní promotér, neaktivní exon, a neznámé (nebo uncharacterized) region jako-E, A-P, A-X, I-E, I-P, I-X, a velké BRITÁNII, resp. Za předpokladu, že aktivní zástupců práv dítěte probíhá transkripce, aktivní, se vztahuje na regiony, v nichž CAGE přepis zahájení události jsou pozorovány v tkáni zaměření, zatímco neaktivní týká regionů detekována v jiných tkáních, ale ne v zaměření tkáně. Zaznamenali jsme střední třídu (tj. průměrná citlivost všech tříd), plocha pod křivkou provozní charakteristiky přijímače (auROC)a plocha pod křivkou přesného vyvolání (auPRC) na obr. 1 a další soubor 1: obrázek S1.

obr. 1
1

střední výkon a směrodatná odchylka 100 spouští pomocí MKP model na našem respektive zařazených do vlaku-test oddílů z osmi typů buněk. a klasifikace výkony A-e versus A-P. B klasifikace výkony A-e versus I-E. C klasifikace výkony A-e versus A-P versus BG. MLP: Vícevrstvé Vnímání, RF: Random Forest, A-E: Aktivní Enhancer,-P: Aktivní Promotér,-X: Aktivní Exon, I-E: Neaktivní Enhancer, I-P: Neaktivní Pořadatel, I-X: Neaktivní Exon, spojené KRÁLOVSTVÍ: Neznámý nebo Uncharacterized, BG: I-E+-P+-X+I-X+UK

K dispozici jsou čtyři aspekty výsledků, které jsme upozornit, což potvrzují kapacity našich dohlíží hluboké učení rozlišovat mezi třídami zástupců práv dítěte a pozadí. Nejprve jsme schopni rozlišit mezi aktivními zesilovači a promotory (A-e versus A-P) (obr. 1a). Použili jsme A-E A A-P jako pozitivní a negativní tréninkové třídy. Celkově jsme zjistili, že A-E A A-P jsou vysoce oddělitelné. Za druhé, můžeme rozlišit aktivní a neaktivní CRR (buď zesilovače nebo promotory). Z Obr. 1b a Další soubor 1: Obrázek S1A, je možné pozorovat, že tím auPRCs na GM12878, HelaS3, HepG2, a K562, které mají největší výcvikové sady jsou výše 0.95 s malými rozdíly pro oba stimulátory a stimulátory. Ve zbytku tohoto článku vyloučíme buněčné linie A549 a MCF7 ve většině analýz kvůli omezené dostupnosti dat. Zatřetí, ne neočekávaně, je obtížné rozlišit mezi neaktivními zesilovači a promotory(další soubor 1: obrázek S1B). Sedm z průměrných tříd pro osm typů buněk bylo nižší než 0,80. Zatímco tam jsou některé náznaky, že část neaktivní promotéři mají některé stroje současnosti, byla to naše očekávání, že těchto regionech bude do značné míry nevykazují silné transkripční faktor závazné nebo vhodné epigenetické podpisy informovat modelu. Za čtvrté, jsme testovali použitelnost předpovídání A-E a-P ze super pozadí (BG), třída, spojujících I-E, I-P, A-X,-X, a velké BRITÁNII (Obr. 1c). Výsledky na šesti typech buněk byly slibné, všechny překročily 0, 80 auPRC. Pokud jsou A-E A A-P dále sloučeny a tvoří super třídu (A-E+A-P), je dosaženo vyššího výkonu (další soubor 1: obrázek S1C). Všechny auprc na těchto šesti typech buněk přesáhly 0,89 auPRC. Dále jsme na našich označených datech testovali metodu náhodného lesa, další nejmodernější klasifikátor. Podobný výkon byl dosažen na všech šesti experimentálních nastaveních. Metoda náhodného lesa vykazovala mírně lepší výkon pro datové sady A549 a MCF7, které mají nízký počet zesilovačů. V očekávání, že budou k dispozici další anotované zesilovače, budeme pokračovat v používání MLP a zkoumání dalších přístupů hlubokého učení, jako jsou konvoluční neuronové sítě a opakující se neuronové sítě.

DECRES dává vyšší citlivost a přesnost na FANTOM komentovaný regionů

posoudit relativní užitečnost našeho hluboko pod dohledem metoda pro CRR predikce, jsme ve srovnání s bez dozoru ChromHMM a ChromHMM-Segway Kombinované metody pomocí FANTOM popisy na pěti dostupných typů buněk jako odkaz. Byly porovnány na nevyvážených sadách odrážejících skutečné genomické pozadí. Výsledky jsou porovnány na obr. 2a, který zobrazuje radarové grafy, kde čím větší a konvexnější je oblast, tím lepší je výkon. Je intuitivní, že přístupy pod dohledem jsou upřednostňovány, pokud jsou dostatečné údaje o školení. Kromě toho byly obě metody bez dozoru vyvinuty před zveřejněním údajů FANTOM5, a jsou proto znevýhodněny. Nicméně, tyto anotace jsou široce používány komunitou, a proto je zajímavý relativní výkon DECRES vůči standardu. Celkově pozorujeme, že DECRES překonává ChromHMM a kombinované metody, které zase poskytují podobný výkon. Tyto metody bez dozoru mají trvale nižší citlivost pro aktivní detekci zesilovačů (p = 5.57E-5 a 9.90 E-5 pro DECRES versus ChromHMM a kombinované, dva sledoval studentův t-test; viz obr. 2b) a nižší přesnost pro aktivní promotor detekce (p=7.36 E-5 a 2.33 E-4 pro DECRES versus ChromHMM a Kombinované respektive dva sledoval studentův t-test; viz Obr. 2b). Pomocí ChromHMM, aktivní zesilovač, citlivost se pohybuje od 16,5% 48.4% (čísla jsou v souladu s testem na KÓDOVÁNÍ předpověděl, stimulátory hlášeny v ), zatímco naše hluboké modelu se pohybuje v rozmezí od 69% (K562) na 88,8% (GM12878). ChromHMM navíc dosahuje maximální přesnosti 49.8% pro predikci aktivního promotoru, zatímco maximum pro DECRES je 84,3%.

obr. 2
obrázek 2

Srovnání dohledem metoda (DECRES) a neřízené metody (ChromHMM a v Kombinaci) na pět FANTOM komentovaný testovací sady v radarové mapy (a) a testy významnosti (b). Segmentace kódování byly staženy z. Znovu jsme označili anotace ChromHMM a kombinovali. Pro ChromHMM segmenty, Tss, TssF, a PromF třídy byly sloučeny A-P, Pos, EnhF, EnhW, EnhWF třídy byly sloučeny do-E; a zbytek byl označen BG. Při zpracování kombinovaných anotací byly TSS a PF znovu označeny na A-P; E a my jsme byli znovu označeni na A-E; a zbytek na BG. P-hodnoty v (b) byly získány z dvouocasého Studentova t-testu na všech typech buněk. Známky ze statistiky hodnoty jsou uvedeny v hranatých závorkách

Hodnocení DECRES výkon s nezávislými experimentální data

Jako počáteční hodnocení se zaměřil na FANTOM eRNA-na základě anotace zástupců práv dítěte, druh údajů použitých pro náš vlak pod dohledem model, jsme se snažili zhodnotit výkon na údaje získané pomocí alternativní metody. Identifikovali jsme dvě nezávislé sbírky laboratorně ověřených zesilovačů pro další posouzení výkonu DEKRES: CRE-seq kolekce oblastí testovaných v buňkách K562 a MPRA (massively parallel reporter assay) sbírky testované v buňkách K562 a HepG2 . V obou případech, soubor regionů, které nebudou přímé vyjádření může být falešně předpověděl hodnoceny metody, ale může také odrážet skutečnosti, že experimentální postupy obsahují pouze malý segment regulační DNA a plazmidu založené na testech není rekapitulovat chromatinu vlastnosti. Vzhledem k povaze údajů, předpokládáme, že část experimentálních negativů bude v dobré víře regulační regiony.

V první nezávislý soubor, podmnožiny předpověděl K562 stimulátory a negativní regiony (jak předpovídal v Kombinaci ChromHMM a Segway metoda) byly vyhodnoceny v laboratoři pomocí CRE-seq . V této studii bylo zjištěno, že pouze 33% „kombinovaných“ předpovězených regulačních oblastí je v experimentu pozitivní, ve srovnání se 7% pro negativní soubor. Pomocí DECRES trénoval na všech dostupných aktivních regulačních oblastech K562 buňky, proto jsme se potvrzuje naši metodu na 386 regionů, ukazující aktivní stimulátor aktivity v K562 jako ověřena CRE-seq ve srovnání s 298 kontrolní oblasti (Další soubor 1: Tabulka S3). Vysoce konzistentní s výsledky výše, citlivost 65,5% (254/386) pro experimentálně ověřena regiony byly úspěšně předpověděl jako E-E, zbývající 132 regionech byly vytipovány jako pozadí (žádný byly klasifikovány jako stimulátory). U 812 testovaných předpovědí, které byly neaktivní v experimentu CRE-seq, DECRES klasifikoval 53,3% (433/812) jako pozitivní. U 298 negativních kontrolních oblastí DECRES předpověděl, že všechny jsou negativní (včetně 16, které byly aktivní v experimentu CRE-seq). Důležité je, jak se skóre DECRES zvyšuje, kvalita předpovědí se zvyšuje. Nakreslila histogram DECRES členství skóre 254 a 433 experimentálně pozitivní a negativní Kombinované zesilovače, které byly vytipovány jako-Es tím, DECRES (Další soubor 1: Obrázek S2). Distribuce jsou výrazně odlišné (p = 0.014, oboustranný Mann-Whitney rank test).

druhý nezávislý sbírku, v níž K562 a HepG2-specifické „silný enhancer“ (jak předpovídal ChromHMM) obsahující předpokládané TF vazebných míst na buňku-selektivní TFs byly testovány pomocí masivně paralelního reporter assay (MPRA) . Bylo zjištěno, že pouze 41% zesilovačů je významně exprimováno (p = 0,05, oboustranný Mann-Whitneyho rank test). Použili jsme DECRES k předpovědi tříd MPRA pozitivních a MPRA negativních zesilovačů. Náš výsledek v dalším souboru 1: tabulka S3 ukazuje, že 98,4% (120/122)a 97.8% (182/186) MPRA pozitivní stimulátory byly respektive předpovídá-Es tím, DECRES pro K562 a buněk HepG2, zatímco 92.3% (179/194) a 81.3% (217/267) MPRA negativní stimulátory jsou stále předpokládá jako-Es pro K562 a HepG2, respektive, ale s jinou distribucí DECRES skóre (p= 4.8 E-6 a p= 2.3 E-6, K562 a HepG2 respektive, oboustranný Mann-Whitney rank test) (Další soubor 1: Obrázek S2). V souladu s ostatními nezávislými údaji, čím vyšší skóre DECRES, tím je pravděpodobnější, že budou pozitivní.

Hodnocení utility DNA sekvence vlastnosti na výkon DECRES

Nedávná studie potvrdila, že DNA sekvence vlastnosti mohou být užitečné pro rozpoznání promotorů a enhancerů a diskriminace mezi aktivní a neaktivní regulační sekvence pomocí řetězce sekvence jádra. To staví na dlouho uznávané kapacitě pro zahrnutí ostrovů CpG jako funkcí pro zlepšení predikce promotorů . Snažili jsme se zjistit, zda funkce sekvence DNA mohou být informativní pro rozlišení mezi promotory a zesilovači, a mezi aktivními a neaktivními třídami. Vyškolili jsme model s 351 sekvenčními funkcemi (původně používanými v) ve více scénářích. Výsledky jsou zobrazeny na obr. 3 a další soubor 1: obrázek S3. Za prvé, hluboká metoda omezená na sekvenční znaky pro rozlišování A-E A A-P (obr. 3A) dodáno auPRCs od 0.8567 do 0.9370, což potvrzuje, že atributy sekvence jsou skutečně informativní. Za druhé, pořadí funkce mají omezený nástroj pro rozlišování mezi aktivní a neaktivní stavy stimulátory a stimulátory, což je logické, zatímco experimentálně odvozené vlastnosti vysoce mohl oddělit (p=1.90 E-08 a 5.06E-08 pro zesilovače a promotory, dvouocasý studentův t-test; viz obr. 3b a další soubor 1: obrázek S3A). Pomocí sekvence funkcí v nepřítomnosti experimentální funkce má nižší výkon při klasifikaci A-E, A-P a BG všech osm typů buněk (p=1.86 E-09, dvoustranný studentův t-test; viz Obr. 3c). Konečně, lepších výsledků bylo dosaženo tím, že kombinuje experimentální a posloupnost funkcí (p=2.79 E-01, 6.56 E-01 a 1.17 E-01 Obr. 3, dvouocasý studentův t-test).

obr. 3
číslo3

porovnání průměrných auprcs přes 100 převzorkování a rekvalifikace na našich označených regionech pomocí různých sad funkcí. „Experimentální“ znamená naši experimentálně odvozenou sadu funkcí sekvenování nové generace. „Sekvencí“ se rozumí sada 351 sekvenčních vlastností použitých v. „Experimentální + sekvence“znamená kombinaci těchto dvou sad. a. Srovnání tří funkcí sady v-E versus-P. b. Srovnání tří funkcí sady v-E versus I-E. c. Srovnání tří funkcí sady v-E versus-P versus BG. P-hodnoty v každé legendy byly získány pomocí dvoustranný studentův t-test k porovnání „Experimentální“-na základě výsledků s „Experimentální+Sekvence“-na základě „Sekvence“-na základě výsledků, resp.

Klíčové vlastnosti pro DECRES výkon

Jako experimentální data mohou být časově náročné a drahé na výrobu, snažili jsme se určit minimální sadu funkcí, nejvíce informativní pro CRR predikce z výpočetního hlediska. Použili jsme randomizované hluboké výběru funkce (randomizované DFS nebo RBP) a random forest (RF) modely (viz Metody) pro dvě třídy a tři třídy (A-E versus-P versus BG) klasifikace na čtyři typy buněk (GM12878, HelaS3, HepG2, a K562), které mají 72-135 funkce jsou k dispozici.

Obrázek 4a a Další soubor 1: Obrázek S4A zobrazení funkce význam skóre objeven náhodně DFS a náhodný les pro tři třídy klasifikace. Skóre důležitosti funkcí vytvořené těmito metodami by mělo být interpretováno odlišně. Podobné k přední výběr, funkce, význam, výsledky z randomizované DFS odrážejí funkce, které jsou velmi populární v rané fázi řídké model, zatímco význam skóre funkce random forest naznačuje roli této funkce v kontextu jeho použití s všechny ostatní funkce. Použití obou metod v této studii nám tedy umožňuje získat různé pohledy na data. V našich experimentech mohou obě metody zachytit nejdůležitější rysy, jak je naznačeno skóre důležitosti ve všech čtyřech buněčných liniích. Například, obě metody se shodují, že Pol2, H3K4me1, Taf1, a H3K27ac jsou užitečné pro rozlišování aktivní stimulátory a stimulátory od pozadí v GM12878 buněčné linie. V některých případech se různá opatření vzájemně doplňují. Například, H3K4me2 a H4K20me1 jsou označeny jako klíčové vlastnosti, které randomizované DFS, které je přesvědčivé jak je uvedeno na krabici pozemky v Další soubor 1: Obrázek S4B a Obrázek S6-S13, ale jsou přehlíženy random forest. Tbp byl zvýrazněn náhodným lesem v buňkách GM12878 a HelaS3, ale nebyl zachycen randomizovaným DFS. Zkoumání krabicové grafy této funkce na Další soubor 1: Údaje S6 a S7 odhaluje, že tato funkce je diskriminační rozlišit aktivní stimulátory a stimulátory od pozadí, ale není to dramatický rozdíl mezi aktivní stimulátory a stimulátory. Důležité funkce začleněné do náhodného modelu lesa nemusí být začleněny až do druhé fáze procesu DFS. Například v buněčné linii K562 byl C-Myc zdůrazněn náhodným lesem, což je skutečně rozumné, jak ukazuje další soubor 1: obrázek S12 a nebyl vybrán jako počáteční prvek v procesu DFS.

obr. 4
figure4

Funkce, význam a klasifikace výkonu v 3-třídy (A-E versus-P versus BG) scénář. význam funkce objevený randomizovaným DFS (RDFS) a náhodným lesem (RF) na GM12878. Skóre důležitosti funkcí náhodného lesa bylo normalizováno pro lepší srovnání s randomizovanými DFS. b auPRC versus počet funkcí začleněných do RDFS a RF. Anotované body označují, kde je čára se sklonem 0.5 protíná vybavené křivky

Pro rozvoj metod strojového učení v genomu anotace, čímž se minimalizuje počet funkcí vyžaduje snižuje náklady a zvyšuje kapacitu pro biologické interpretace. Obrázek 4b a Další soubor 1: Obrázek S5B ukázat změny test auPRCs jako čísla vybraných funkcí zvýšení pro tři třídy a dvě třídy klasifikací. V obou případech se testovací auprc dramaticky zvyšují pro počáteční funkce, pak výkonové plošiny. Porovnáním randomizovaných křivek DFS s náhodnými křivkami lesa vidíme, že neexistuje jediná optimální křivka. Několik klíčových funkcí je dostačující pro dobrý výkon predikce. Chcete-li definovat optimální počet potřebných funkcí, přizpůsobíme křivky na obr. 4b a další soubor 1: obrázek S5B a vybral průsečík pro přímku se sklonem 0,5 na randomizovaných křivkách DFS (viz metody). Méně funkcí jsou potřeba dvě třídy CRR predikce (6 funkcí) ve srovnání s tři-class modely určené k rozlišení mezi A-E, A-P, a zázemí (10 funkcí).

distribucí z deseti funkce pro tři třídy předpovědi (A-E, A-P, a BG) jsou uvedeny v Doplňující soubor 1: Obrázek S4B. Pomocí deseti funkce pro každou buňku, auPRCs z 0.9022, 0.9156, 0.8651, a 0.8565 bylo dosaženo na GM12878, HelaS3, HepG2, a K562, resp. Polovina z těchto top funkce jsou modifikace histonů, které H3K4me1, H3K4me2, H3K4me3, a H3K27me3 byly běžně vybrané funkce pro tři třídy modelů, v dohodě s existující znalostí . Mezi transkripční faktory (včetně co-faktory), Taf1 a p300, stejně jako RNA polymeráza II (Pol2), jsou často vybrány, což je rovněž v souladu s existující znalostí .

další soubor 1: obrázek S5C ukazuje pole grafy prvních šesti vybraných funkcí randomizovanými DFS pro předpovědi dvou tříd. Pomocí těchto vlastností byly získány auPRCs 0,9561, 0,9627, 0,926 a 0,9555 na čtyřech typech buněk. U většiny funkcí jsou rozsahy hodnot zvýšeny v A-E A A-P vzhledem k kategoriím pozadí. Polovina vybraných funkcí jsou DNase-seq a histone modifikace chip-seq data včetně H3K4me2, H3K27ac a H3K27me3. Krabicové grafy těchto funkcí naznačují, že odlišují A-E A A-P od pozadí .

většina DECRES genomu-široký předpovědi jsou podporovány jiné metody

Jsme trénovali 2 – a 3-třída multilayer perceptron (MLP) modely (viz Metody), pomocí všechny reference (označení) údaje za školení, za účelem odhadu zástupců práv dítěte přes celý genom pro šest typů buněk (A549 a MCF7 byly vyloučeny). Model třídy 2 identifikoval 227 332 CRR (sousední oblasti byly sloučeny), které zabírají 4, 8% genomu (další soubor 1: tabulka S4). Celkem 9153 CRR bylo všudypřítomně předpovězeno ve všech šesti typech buněk. Pro 3-predikce třída, jsme získali 301,650 A-E regionů (6,8% genomu) a 26,555 A-P regionů (0,6% genomu) spolu s 11,886 všudypřítomné A-Es a 3678 všudypřítomné A-Ps. Předpovědi pro celý genom pro všech šest typů buněk jsou k dispozici v dalším souboru 2.

dále jsme zkoumali překrývají naší předpověděl zástupců práv dítěte s Kombinovaným a dReg předpovědi na GM12878, HelaS3, a K562. Většina zástupců práv dítěte předpovídal DECRES překrývají s výsledky z buď v Kombinaci nebo dReg, konkrétně 86.13%, 76.13%, a 83.63% pro GM12878, HelaS3, a K562, respektive (Obr. 5). Podmnožina (13.87% na GM12878, 23.87% na HelaS3, a 16.37% na K562) DECRES předpovědi se nepřekrývají s předpovědí z dalších dvou nástrojů. Zejména, velká část Kombinované předpovědi (56.78% na HelaS3, 55.99% na GM12878, a 36.36% na K562) se nepřekrývají s metodami z kontrolovaných metod, což je v souladu s nízkou pozorovanou mírou validace . Kromě toho mají předpovědi DECRES tendenci mít jemnější rozlišení pro oblasti A-P I A-E (viz další soubor 1: obrázek S14 pro příklad).

obr. 5
figure5

Dohod DECRES zástupců práv dítěte s Kombinovaným a dReg zástupců práv dítěte na tři typy buněk (a: GM12878, b: HelaS3, c: K562), resp. TSS, PF, E, a segmentace WE z kombinovaných byly znovu označeny na CRRs. Aktivní transkripční regulační prvky (TREs) předpovídal dReg byl přejmenován zástupců práv dítěte

zkoumali Jsme, jak mnoho z našeho genomu-široký předpovědi jsou podporovány VISTA zesilovač sada . Navzdory skutečnosti, že většina VISTA zesilovače jsou velmi konzervované napříč vývoje, jsme stále najít, že 37.1% (850/2,293) experimentálně potvrzeno a nepotvrzená VISTA zvyšující se překrývají s předpovídali,-Es, zatímco pouze 4.8% (110/2,psč 293) z těchto VISTA zvyšující se překrývají s předpovídali-Ps. Výsledky experimentálně potvrzeno VISTA stimulátory jsou podobné (482/1,196 = 40.30% a 60/1,196 = 5.02% překrývat-Es a-Ps, respektive), což naznačuje, že předpokládaná aktivní enhancery mají skutečné enhancer funkce. Podíl VISTA stimulátory nepřekrývají naše předpovědi by mohlo být aktivní konkrétně během vývoje nebo v jiné buněčné typy než naše zaměření buněčných linií.

DECRES rozšiřuje FANTOM enhancer atlas

Vzhledem k omezené hloubce KLEC signály pro eRNAs, část aktivní (nebo přepisu) stimulátory nebyla detekována v původním sestavování enhancer atlas. Proto jsme se snažili identifikovat další částečně podporované zesilovače, pro které byly signály eRNA pod původním nastavením prahové hodnoty atlasu . V předchozí práci bylo v lidském genomu detekováno celkem 200 171 obousměrně transkribovaných (BDT) lokusů pomocí klecových značek 808 buněčných typů a tkání. Po vyloučení BDT loci v exons, částečně podporované sada 102,021 BDT regionech zůstaly, z nichž 43,011 vyvážené loci (podobné eRNA úrovně na obou stranách) představují FANTOM enhancer atlas . S cílem zjistit, zda se více aktivní enhancer kandidáti mohou být detekovány na každé z šesti typů buněk, jsme trénovali MLP na jeho aktivní atlas regionů, a predikovaných tříd pro všechny 102,021 BDT stránky. Mezi 102 021 lokusy BDT byla většina klasifikována jako negativní oblasti v dané buňce (další soubor 1: Tabulka S5), zatímco v průměru bylo 13 316 předpovězeno jako A-Es a pouze 834 bylo předpovězeno jako a-Ps na typ buňky. Značný počet (6535 v průměru) neaktivní stimulátory v původním enhancer atlas byly vytipovány jako aktivní tím, že náš model (Další soubor 1: Tabulka S6), v souladu s předpokladem, že BDT údaje jsou neúplné pro daný vzorek. V průměru 5514 BDT lokusů vyloučených původním atlasem bylo předpovězeno jako A-Es na typ buňky. V průběhu šesti analyzovaných typů buněk, celkem 38,601 BDT loci byly vytipovány jako-Es (Další soubor 3), z nichž 16,988 představují rozšíření původního FANTOM enhancer atlas. Všimněte si, že 21,398 z 43,011 zesilovačů z původní FANTOM enhancer atlas nejsou předpověděl jako aktivní v šesti buňky analyzovány, ale tyto oblasti mohou být aktivní v jiných 802 buňky, pro které existuje nedostatečná funkce pro analýzu.

Výpočetní validace DECRES je predikce pomocí funkční a motiv obohacení analýzy

provedli Jsme funkční obohacení analýzy genomu-široký předpovídali,-Es a-Ps pomocí SKVĚLÉ . Pro GM12878 buněk, 79% z předpokládané enhancer regiony jsou více než 5 kilobase páry (kb / s) od genu TSSs (Další soubor 1: Obrázek S15A), zatímco 47% z předpokládané organizace jsou méně než 5 kb / s do komentovaný gen TSSs (Další soubor 1: Obrázek S15B). Podobné statistiky byly získány pro zbývajících pět typů buněk. Anotace analýzy GM12878-specifické zástupců práv dítěte ukazují, že proximální geny jsou spojeny s: imunitní odpověď z gene ontology (GO) poznámky (Doplňující soubor 1: Obrázek S15C); B buňky signálních drah od MSigDB Cesta poznámky (Doplňující soubor 1: Obrázek S15D); a leukémie z onemocnění ontologie poznámky (Doplňující soubor 1: Obrázek S15E). Výsledky jsou v souladu s lymfoblastoidní linií buněk. Dále jsme provedli analýzu funkčního obohacení na predikovaných zesilovačích podporovaných BDT, které nebyly dříve hlášeny v atlasu enhanceru FANTOM („not in atlas“). Výsledky jsou plně v souladu s výše uvedenou analýzou (další soubor 1: obrázek S16).

dále jsme provedli analýzu obohacení motivem na predikovaných CRR specifických pro buňky a zesilovačích ne v atlasu pomocí Homeru . Předpokládané regiony jsou obohaceny o motivy podobné JASPAR závazné profily (Další soubor 1: Obrázek S15F a Čísla S16-S26), oba spojené s TFs zachování obecné buněčné procesy a TFs s selektivní role v buňce-souvisejících funkcí. Například, motivy pro Jun -, Fos -, a faktory související s Ets byly obohaceny v regionech ze všech šesti typů buněk. Tyto TFs regulují obecné buněčné progrese, jako je diferenciace, proliferace nebo apoptóza . Pro každou buňku bylo pozorováno obohacení TF odpovídající buňce (shrnuto v dalším souboru 1: tabulka S7). Například, RUNX1 a další Skrčka-související faktory, které hrají klíčovou roli v hematopoézou, jsou pozorovány v GM12878 (Další soubor 1: Obrázek S15F a Obrázek S16) . Faktory související s C / EBP, které regulují geny podílející se na imunitní a zánětlivé odpovědi, jsou exprimovány v děložním čípku (další soubor 1: Obrázky S17 a S18). HNF1A, HNF1B, FOXA1, FOXA2, HNF4A a HNF4G faktory regulují geny specifické pro játra (další soubor 1: Obrázky S19 a S20). NFY faktory spolupracovat s GATA1 zprostředkovat erytroidních-specifické transkripce v K562 (Další soubor 1: Údaje S25 a S26) .

provedli Jsme funkční a obohacení analýzy na A-E a-P předpovědi z Kombinované metody , a výsledky v Další soubor 1: Údaje S27-S30. Většina předpokládaných promotorů kombinovanou metodou je distální ke známým genovým TSS, což je podobné zesilovačům. Například na buněčné linii GM12878, pouze 22% Kombinované pořadatelé se nachází méně než 5 kb k komentovaný gen TSSs, ve srovnání s 47% DECRES organizací. Navíc, funkční analýzu zástupců práv dítěte předpovídal Kombinovaná metoda se vrátil mnohem méně nebo žádné významné podmínky pro biologický proces, MSigDB dráhy, a onemocnění ontologie než DECRES předpovědi. Výsledky analýzy motivů obou metod jsou konzistentní.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

Previous post Design FMEA (DFMEA)
Next post Reddit'strategie seznamování žen mění lásku ve hru. Funguje to?