A cisz-szabályozó régiók genomszintű előrejelzése felügyelt deep learning módszerekkel / BMC bioinformatika

a Deep learning pontosan megkülönbözteti az aktív fokozókat és promotereket a háttérből

megvizsgáltuk a deep learning modellek azon képességét, hogy elkülönítsék a fokozókat és a promótereket, és megkülönböztessék őket más régióktól és aktivitási állapotoktól. Egy mély előremenő neurális hálózatot képeztünk a kiegyensúlyozott címkézett képzési készleteinken, hogy megjósoljuk a (kiegyensúlyozatlan) tesztkészleteinket minden jól jellemzett sejttípusból, 100-szor megismételve az eljárást. A deep modell kísérletileg levezetett jellemzőket vesz fel a genomi régiók felett, mint ezeknek a régióknak a bemeneti és kimeneti osztálycímkéit valószínűségekkel (lásd az 1. kiegészítő fájl: S1 táblázat az egyes osztályok mintáinak teljes számát, és az 1. kiegészítő fájl: S2 táblázat az elérhető funkciók számát; lásd a módszereket). Az elbeszélés kényelme érdekében a továbbiakban az active enhancer, active promoter, active exon, inactive enhancer, inactive promoter, inactive exon és ismeretlen (vagy nem jellemzett) régióra utalunk, mint A-E, A-P, A-X, I-E, I-P, I-X, illetve UK. Feltételezve, hogy az aktív CRR-k transzkripción mennek keresztül, az active azokra a régiókra vonatkozik, amelyekben a sejt transzkriptum iniciációs eseményei figyelhetők meg a fókusz szövetében, míg az inaktív más szövetekben észlelt régiókra utal, de nem a fókuszszövetben. Feljegyeztük az átlagos osztályonkénti arányt (pl. az összes osztály átlagolt érzékenysége), a vevő működési jellemző görbéje (auROC) alatti terület, valamint a precíziós visszahívási görbe (Auprc) alatti terület. 1 és további fájl 1: ábra S1.

az általunk kiemelt eredményeknek négy aspektusa van, amelyek megerősítik a felügyelt mély tanulási megközelítésünk képességét a CRR-k és a háttér osztályainak megkülönböztetésére. Először is meg tudjuk különböztetni az aktív erősítőket és a promótereket (A-E versus A-P) (ábra. 1a). Az A-E-t és az A-P-t pozitív és negatív képzési osztályként használtuk. Összességében azt találtuk, hogy az A-E és az A-P nagyon elválasztható. Másodszor, meg tudjuk különböztetni az aktív és az inaktív CRR-eket (akár fokozók, akár promóterek). Tól Ábra. 1b és további fájl 1: S1A ábra, megfigyelhető, hogy a GM12878, HelaS3, HepG2 és K562 átlagos auprc-k, amelyek a legnagyobb képzési készletekkel rendelkeznek, 0,95 felett vannak, kis eltérésekkel mind az erősítők, mind a promóterek számára. A tanulmány többi részében a legtöbb elemzésben kizárjuk az A549 és az MCF7 sejtvonalakat, mivel az adatok korlátozott rendelkezésre állnak. Harmadszor, nem váratlanul, nehéz különbséget tenni az inaktív fokozók és a promóterek között (1.kiegészítő fájl: S1B ábra). A nyolc sejttípus átlagos osztályonkénti aránya közül hét alacsonyabb volt, mint 0,80. Bár vannak arra utaló jelek, hogy az inaktív promóterek egy részének van valamilyen gépe, elvárásunk volt, hogy az ilyen régiók nagyrészt nem mutatnak erős transzkripciós faktorkötést vagy megfelelő epigenetikus aláírásokat a modell tájékoztatásához. Negyedszer, teszteltük az alkalmazhatóságát előrejelzésére A-E és A-P A super háttér (BG) osztály összevonása I-E, I-P, A-X, I-X, és az Egyesült Királyságban (ábra. 1c). Hat sejttípus eredményei ígéretesek voltak, mindegyik meghaladta a 0,80 auPRC-t. Ha az A-E-t és az A-P-t tovább egyesítjük, hogy egy szuperosztályt képezzünk (A-E+A-P), akkor nagyobb teljesítmény érhető el (további fájl 1: S1C ábra). A hat sejttípus összes auprc-je meghaladta a 0,89 auprc-t. Továbbá, teszteltünk egy random forest módszert is, egy másik korszerű osztályozó, címkézett adatainkon. Hasonló teljesítményt kaptunk mind a hat kísérleti beállításnál. A random forest módszer valamivel jobb teljesítményt mutatott az A549 és az MCF7 adatkészletek esetében, amelyek mindkét esetben alacsony számú FOKOZÓVAL rendelkeznek. Arra számítva, hogy több kommentált fokozó válik elérhetővé, folytatjuk az MLP használatát és más mély tanulási megközelítések, például konvolúciós neurális hálózatok és visszatérő neurális hálózatok feltárását.

a DECRES nagyobb érzékenységet és pontosságot biztosít a FANTOM annotált régiókban

a felügyelt mély módszer relatív hasznosságának felmérése érdekében a CRR előrejelzéséhez összehasonlítottuk a felügyelet nélküli ChromHMM és ChromHMM-Segway kombinált módszerekkel, amelyek FANTOM annotációkat használtak öt elérhető sejttípuson referenciaként. Kiegyensúlyozatlan halmazokon hasonlították össze őket, amelyek tükrözik a valódi genomi hátteret. Az eredményeket az ábrán hasonlítjuk össze. 2a, amely radar diagramokat jelenít meg, ahol minél nagyobb és domborúbb a terület, annál jobb a teljesítmény. Intuitív, hogy a felügyelt megközelítéseket részesítik előnyben, ha a címkézett képzési adatok elegendőek. Ezenkívül mindkét felügyelet nélküli módszert a FANTOM5 adatok nyilvános közzététele előtt fejlesztették ki, ezért hátrányos helyzetben vannak. Ezeket a kommentárokat azonban a közösség széles körben használja, ezért érdekes a DECRES szabványhoz viszonyított teljesítménye. Összességében megfigyeljük, hogy a DECRES felülmúlja a ChromHMM-et és a kombinált módszereket, amelyek viszont hasonló teljesítményt nyújtanak. Ezeknek a felügyelet nélküli módszereknek következetesen alacsonyabb az érzékenysége az aktív fokozó kimutatására (p = 5.57E-5 és 9.90 E-5 A DECRES versus ChromHMM és kombinált rendre, két farkú diák t-teszt; lásd ábra. 2b) és alacsonyabb pontosság az aktív promoter detektáláshoz (p=7,36 E-5 és 2,33 E-4 A DECRES versus ChromHMM és kombinált, Kétfarkú diák t-tesztje; Lásd az ábrát. 2b). A ChromHMM használatával az active enhancer érzékenysége 16,5% – tól 48,4% – ig terjed (a számok összhangban vannak a kódolás előrejelzett fokozóinak tesztjével ), míg mély modellünk 69% – tól (K562) 88,8% – ig (GM12878) terjed. Ezenkívül a ChromHMM maximális pontossága 49.8% az aktív promoter előrejelzéshez, míg a DECRE-k maximális értéke 84,3%.

a DECRES teljesítményének értékelése független kísérleti adatokkal

mivel a kezdeti értékelés a CRRS FANTOM eRNA-alapú annotációjára összpontosított, a felügyelt modellünk kiképzéséhez használt adatok típusára törekedtünk az alternatív módszerekkel generált adatok teljesítményének értékelésére. Két független laboratóriumi validált fokozót azonosítottunk a DECRES teljesítményének további értékelése érdekében: a k562 sejtekben tesztelt régiók CRE-seq gyűjteménye, valamint a k562 és HepG2 sejtekben tesztelt MPRA (massively parallel reporter assay) gyűjtemények . Mindkét esetben az expressziót nem irányító régiók halmaza hamisan megjósolható az értékelt módszerekkel, de tükrözheti azt a tényt is, hogy a kísérleti eljárások csak a szabályozó DNS kis szegmensét tartalmazzák, és hogy a plazmid alapú vizsgálatok nem foglalják össze a kromatin tulajdonságait. Tekintettel az adatok jellegére, arra számítunk, hogy a kísérleti negatívok egy része jóhiszemű szabályozási régiók.

az első független csoportban az előre jelzett K562 fokozók és negatív régiók részhalmazait (a kombinált ChromHMM és Segway módszerrel előre jelezve) a laboratóriumban CRE-seq alkalmazásával értékelték . Ebben a tanulmányban a “kombinált” előrejelzett szabályozási régióknak csak 33% – A bizonyult pozitívnak a kísérletben, szemben a negatív halmaz 7% – ával. A K562 sejtek összes rendelkezésre álló aktív szabályozó régióján képzett DECRE-k felhasználásával ezért 386 régióban validáltuk módszerünket aktív fokozó aktivitás a K562 – ben a CRE-seq validálta a 298 kontroll régióhoz képest (kiegészítő fájl 1: S3 táblázat). Nagyon összhangban a fenti eredményekkel, a kísérletileg validált régiók 65,5%-os érzékenységét (254/386) sikeresen megjósolták A-E-ként; a fennmaradó 132 régiót háttérként jósolták (egyiket sem sorolták be promóterek). A CRE-seq kísérletben inaktív 812 tesztelt előrejelzés esetében a DECRES 53,3% – ot (433/812) pozitívnak minősített. A 298 negatív kontroll régió esetében a DECRES azt jósolta, hogy mind negatív lesz (beleértve a CRE-seq kísérletben aktív 16-ot is). Fontos, hogy a DECRES pontszámok emelkedésével az előrejelzések minősége növekszik. A DECRES tagsági pontszámainak hisztogramját 254 és 433 kísérletileg pozitív és negatív kombinált FOKOZÓVAL rajzoltuk meg, amelyeket a DECRES A-Es-ként jósolt meg (további fájl 1: S2 ábra). Az eloszlások jelentősen különböznek (p = 0.014, kétoldalas Mann-Whitney rang teszt).

a második független gyűjtemény, amelyben K562 és HepG2-specifikus “erős enhancer” (a ChromHMM előrejelzése szerint), amely sejtszelektív TF-kötő helyeket tartalmazott, masszívan párhuzamos riporter assay (MPRA) segítségével tesztelték . A fokozóknak csak 41% – át mutatták ki szignifikánsan expresszálva (p = 0,05, kétoldalas Mann-Whitney rank teszt). DECRES-t használtunk az MPRA pozitív és MPRA negatív fokozók osztályainak előrejelzésére. Eredményünk további fájl 1: táblázat S3 azt mutatja, hogy 98,4% (120/122) és 97.Az MPRA-pozitív fokozók 8%-a (182/186) a DECRES szerint a-Es volt a K562 és HepG2 sejtek esetében, míg az MPRA-negatív fokozók 92,3%-a (179/194) és 81,3%-a (217/267) továbbra is A-Es volt a K562 és HepG2 esetében, de a DECRES pontszámok eltérő eloszlása mellett (p= 4,8 E-6 és p= 2,3 E-6 a K562 és HepG2 esetében k562, illetve HepG2, kétoldalas Mann-Whitney rank teszt) (1.kiegészítő fájl: S2 ábra). A többi független adattal összhangban, minél magasabb a DECRES pontszám, annál valószínűbb, hogy pozitívak.

a DNS-szekvencia tulajdonságainak hasznosságának értékelése a DECRE-k teljesítményén

a legújabb tanulmányok megerősítették , hogy a DNS-szekvencia tulajdonságai hasznosak lehetnek a promoterek és fokozók felismerésében, valamint az aktív és inaktív szabályozó szekvenciák megkülönböztetésében a karakterlánc-szekvenciamagok felhasználásával. Ez a CpG-szigetek beépítésének régóta elismert képességére épül, mint a promóter előrejelzésének javítását szolgáló jellemzőkre . Arra törekedtünk, hogy meghatározzuk, hogy a DNS-szekvencia jellemzői informatívak lehetnek-e a promoterek és az enhancerek, valamint az aktív és az inaktív osztályok megkülönböztetésére. Mi képzett modell 351 szekvencia jellemzői (eredetileg használt) több forgatókönyv. Az eredmények az ábrán láthatók. 3 és további fájl 1: ábra S3. Először is, egy mély módszer korlátozódik szekvencia jellemzői megkülönböztetésére A-E és A-P (ábra. 3A) szállított auprc-k 0,8567 – től 0,9370-ig, megerősítve, hogy a szekvencia attribútumok valóban informatívak. Másodszor, a szekvenciajellemzők korlátozott hasznossággal rendelkeznek az erősítők és promóterek aktív és inaktív állapotainak megkülönböztetésére, ami logikus; míg a kísérletileg levezetett jellemzők nagymértékben elválaszthatják őket (p=1,90 E-08 és 5.06E-08 fokozók, illetve promóterek esetében, Kétfarkú hallgatói t-teszt; lásd az ábrát. 3b és további 1. fájl: S3A ábra). A szekvencia jellemzők használata kísérleti jellemzők hiányában alacsonyabb teljesítményt nyújt az A-E, A-P és BG osztályozásában mind a nyolc sejttípusban (p=1,86 E-09, Kétfarkú diák t-teszt; lásd az ábrát. 3c). Végül nem sikerült jobb eredményeket elérni a kísérleti és szekvencia jellemzők kombinálásával (P=2,79 E-01, 6,56 E-01 és 1,17 E-01 ábra. 3, Kétfarkú hallgatói t-teszt).

a DECRES teljesítményének főbb jellemzői

mivel a kísérleti adatok előállítása időigényes és költséges lehet, arra törekedtünk, hogy meghatározzuk a CRR előrejelzéséhez leginkább informatív funkciók minimális készletét számítási szempontból. Randomizált deep feature selection (randomizált DFS vagy RDFS) és random forest (RF) modelleket (lásd módszerek) használtunk két-és háromosztályú (A-E versus A-P versus BG) osztályozásokhoz négy sejttípuson (GM12878, HelaS3, HepG2 és K562), amelyek 72-135 funkcióval rendelkeznek.

4a. Ábra és további 1. fájl: az S4A. ábra a randomizált DFS és random forest által a háromosztályos osztályozáshoz felfedezett jellemző fontossági pontszámokat mutatja. Az ezekkel a módszerekkel előállított jellemző fontossági pontszámokat eltérően kell értelmezni. Az előremutató kiválasztáshoz hasonlóan a randomizált DF-ek jellemző fontossági pontszámai tükrözik, hogy mely funkciókat részesítik előnyben a ritka modell korai szakaszában, míg a véletlenszerű erdő által adott funkció fontossági pontszáma jelzi ennek a funkciónak a szerepét az összes többi funkcióval való használata összefüggésében. Így mindkét módszer használata ebben a tanulmányban lehetővé teszi számunkra, hogy különböző betekintést nyerjünk az adatokba. Kísérleteinkben mindkét módszer képes megragadni a legfontosabb jellemzőket, amint azt a fontossági pontszámok jelzik mind a négy sejtvonalon. Például mindkét módszer egyetért abban, hogy a Pol2, a H3K4me1, a Taf1 és a H3K27ac hasznos az aktív erősítők és promoterek megkülönböztetésére a GM12878 sejtvonal hátterétől. Egyes esetekben a különböző intézkedések kiegészítik egymást. Például a h3k4me2 és a H4K20me1 kulcsfontosságú jellemzőként vannak megjelölve a randomizált DFS által, ami meggyőző, amint azt az 1.további fájl: S4B Ábra és S6-S13 ábra négyzetdiagramjai jelzik, de a véletlenszerű erdő figyelmen kívül hagyja őket. A Tbp-t a GM12878 és HelaS3 sejtekben random forest jelölte ki, de a randomizált DFS nem vette fel. Az 1. kiegészítő fájlban: az S6 és S7 ábrákon ennek a funkciónak a dobozdiagramjait vizsgálva kiderül, hogy ez a funkció diszkriminatív az aktív fokozók és promóterek megkülönböztetésére a háttérből, de nincs drámai különbség az aktív fokozók és a promóterek között. A véletlenszerű erdőmodellbe beépített fontos jellemzők a DFS-folyamat utolsó szakaszáig nem építhetők be. Például a K562 cellavonalban a C-Myc-t véletlenszerű erdő hangsúlyozta, ami valóban ésszerű, amint azt a kiegészítő fájl 1: S12 ábra mutatja, és nem választották ki a DFS folyamat kezdeti jellemzőjeként.

a gépi tanulási módszerek fejlesztése a genom annotációban, a szükséges jellemzők számának minimalizálása csökkenti a költségeket és növeli a biológiai értelmezés képességét. 4B ábra és 1. kiegészítő fájl: az S5B ábra a teszt auprc-k változásait mutatja, mivel a kiválasztott jellemzők száma növekszik a három, illetve a két osztályú osztályozásoknál. Mindkét esetben a teszt auprc-k drámai módon növekednek a kezdeti jellemzők, majd a teljesítmény-fennsíkok szempontjából. Összehasonlítva a randomizált DFS görbéket a véletlenszerű erdei görbékkel, láthatjuk, hogy nincs egyetlen optimális görbe. Néhány kulcsfontosságú funkció elegendő a jó előrejelzési teljesítményhez. A szükséges funkciók optimális számának meghatározásához illesszük az ábrán látható görbéket. 4b és további fájl 1: ábra S5B és kiválasztotta a metszéspont egy vonal meredeksége 0,5 A randomizált DFS görbék (lásd módszerek). Kevesebb funkcióra van szükség a kétosztályú CRR előrejelzéshez (6 jellemző), mint az A-E, A-P és a háttér (10 jellemző) megkülönböztetésére szolgáló háromosztályos modellekhez.

a háromosztályú előrejelzések (A-E, A-P és BG) tíz legjobb tulajdonságának eloszlását az 1. további fájl tartalmazza: S4B ábra.Az egyes cellák tíz legjobb tulajdonságának felhasználásával 0,9022, 0,9156, 0,8651 és 0,8565 auprc-ket értek el GM12878, HelaS3, HepG2 és K562. Ezeknek a legfontosabb funkcióknak a fele hisztonmódosítás, amelyek közül a h3k4me1, a H3K4me2, a H3K4me3 és a H3K27me3 általánosan kiválasztott funkciók voltak a három osztályú modellekhez, a meglévő ismeretekkel összhangban . A transzkripciós faktorok (beleértve a társfaktorokat is) közül a Taf1 és a p300, valamint az RNS polimeráz II (Pol2) gyakran kiválasztásra kerülnek, ami szintén összhangban van a meglévő ismeretekkel .

további fájl 1: ábra S5C mutatja doboz telkek az első hat kiválasztott funkciók randomizált DFS két osztályú előrejelzések. Ezen tulajdonságok felhasználásával a négy sejttípuson 0,9561, 0,9627, 0,926, illetve 0,9555 auprc-ket kaptunk. A legtöbb funkció esetében az értéktartományok A-E és A-P értékekben emelkednek a háttérkategóriákhoz képest. A kiválasztott funkciók fele a DNase-seq és a hiszton módosító ChIP-seq adatok, beleértve a H3K4me2, H3K27ac és H3K27me3 adatokat. Ezeknek a jellemzőknek a dobozdiagramjai azt jelzik, hogy megkülönböztetik az A-E-t és az A-P-t a háttértől .

a DECRES genomszintű előrejelzéseinek többségét más módszerek is alátámasztják

2-és 3 – osztályú többrétegű perceptron (MLP) modelleket képeztünk ki (lásd a módszereket) az összes referencia (címkézett) adat felhasználásával a képzéshez, hogy a CRR-eket a teljes genomban megjósoljuk hat sejttípusra (az A549-et és az MCF7-et kizárták). A 2 osztályú modell 227 332 CRR-t azonosított (a szomszédos régiókat egyesítették), amelyek a genom 4,8% – át foglalják el (további 1.fájl: S4 táblázat). Összesen 9153 CRR-t jósoltak mindenütt mind a hat sejttípusban. A 3-osztályú előrejelzéshez 301 650 A-E régiót (a genom 6,8%-a) és 26 555 A-P régiót (a genom 0,6%-A), valamint 11 886 mindenütt jelen lévő A-Es és 3678 mindenütt jelen lévő A-Ps-t kaptunk. A genom egészére vonatkozó előrejelzések mind a hat sejttípusra további fájlban érhetők el 2.

ezután megvizsgáltuk az előrejelzett CRR-ek átfedését a GM12878, HelaS3 és K562 kombinált és dReg-előrejelzéseivel. A DECRES által előrejelzett CRR-ek többsége átfedésben van a kombinált vagy a dReg eredményeivel, konkrétan 86,13%, 76,13% és 83,63% a GM12878, HelaS3 és K562 esetében (ábra. 5). A DECRES-előrejelzések egy részhalmaza (13,87% a GM12878-on, 23,87% a HelaS3-on és 16,37% a K562-en) nem fedi át a másik két eszköz előrejelzéseit. Nevezetesen a kombinált előrejelzések nagy része (56,78% a HelaS3-on, 55,99% a GM12878-on és 36.36% a K562-nél) nem fedik át a felügyelt módszerek eredményeit, ami összhangban van az alacsony megfigyelt validálási arányával . Ezenkívül a DECRES-előrejelzések általában finomabb felbontással rendelkeznek mind az A-P, mind az A-E régiók esetében (lásd További fájl 1: ábra S14 egy példa).

megvizsgáltuk, hogy a GENOMRA kiterjedő előrejelzéseink közül hányat támogat a VISTA enhancer készlet . Annak ellenére, hogy a VISTA-fokozók többsége rendkívül konzervált a fejlesztés során,még mindig azt találjuk, hogy a kísérletileg megerősített és meg nem erősített VISTA-fokozók 37.1% – a (850/2,293) átfedésben van az előre jelzett A-Es-vel, míg ezeknek a VISTA-fokozóknak csupán 4.8% – A (110/2, 293) átfedésben van az előre jelzett a-Ps-sel. A kísérletileg megerősített VISTA-fokozók eredményei hasonlóak (482/1,196 = 40,30% és 60/1, 196 = 5, 02% átfedés az A-Es és az A-Ps között), ami arra utal, hogy az előre jelzett aktív fokozóinknak valódi fokozó funkciói vannak. A JÓSLATAINKAT nem átfedő VISTA-fokozók egy része kifejezetten a fejlesztés során vagy más sejttípusokban lehet aktív, mint a fókuszsejtvonalak.

DECRES kiterjeszti a FANTOM enhancer atlas-t

az Erna-K KETRECJELEINEK korlátozott mélysége miatt az aktív (vagy átírt) fokozók egy részét nem észlelték az enhancer atlas eredeti összeállításában. Ezért arra törekedtünk, hogy azonosítsunk további, részben támogatott fokozókat, amelyeknél az eRNA jelek az eredeti atlas küszöbérték alatt voltak . Az előző munkában összesen 200 171 kétirányú transzkripciós (BDT) lókuszt detektáltak az emberi genomban, 808 sejttípus és szövet KETRECCÍMKÉINEK felhasználásával. Az EXONOKON belüli BDT lókuszok kizárása után 102 021 BDT régió részben támogatott halmaza maradt meg, ebből 43 011 kiegyensúlyozott lókusz (mindkét oldalon hasonló eRNA-szint) alkotja a FANTOM enhancer atlas-t . Annak vizsgálata érdekében, hogy a hat sejttípus mindegyikében kimutathatók-e aktívabb enhancer jelöltek, MLP-t képeztünk az aktív atlas-régióira, és előrejeleztük az osztályokat mind a 102 021 BDT-helyre. A 102 021 BDT lókusz közül a legtöbbet negatív régióknak minősítették egy adott cellában (további 1. fájl: Táblázat S5), míg átlagosan 13 316-ot jósoltak a-Es-ként, és sejttípusonként csak 834-et jósoltak a-Ps-ként. Az eredeti enhancer atlas inaktív fokozóinak jelentős számát (átlagosan 6535) modellünk aktívnak jósolta (1. kiegészítő fájl: S6 táblázat), összhangban azzal a feltételezéssel, hogy a BDT-adatok hiányosak bármely adott minta esetében. Átlagosan az eredeti atlasz által kizárt 5514 BDT lókuszt sejttípusonként A-Es-ként jósolták meg. A hat elemzett sejttípus közül összesen 38 601 BDT lókuszt jósoltak A-Es-ként (további Fájl 3), ebből 16 988 az eredeti FANTOM enhancer atlas bővítését jelenti. Vegye figyelembe, hogy az eredeti FANTOM enhancer atlas 21 398 43 011 fokozójából nem jósolják aktívnak az itt elemzett hat sejtben, de ezek a régiók aktívak lehetnek a többi 802 sejtben, amelyek elemzésére nincs megfelelő jellemző.

Decres előrejelzésének számítási validálása funkcionális és motívum dúsítási elemzéssel

funkcionális dúsítási elemzést végeztünk a genom egészére előre jelzett A-Es és A-Ps-en a GREAT használatával . A GM12878 sejtek esetében az előrejelzett fokozó régiók 79% – a több mint 5 kilobázis pár (kbps) távol van a gén TSSs-től (további fájl 1: S15A ábra), míg az előrejelzett promoterek 47% – A kevesebb, mint 5 kbps a jegyzetekkel ellátott tsss génhez (további fájl 1: S15b ábra). Hasonló statisztikákat kaptunk a fennmaradó öt sejttípusra. A GM12878-specifikus CRR-ek annotációs elemzései azt mutatják, hogy a proximális gének a következőkhöz kapcsolódnak: immunválasz a gén ontológiai (GO) annotációkból (további fájl 1: S15C ábra); B-sejt jelátviteli utak az MSigDB útvonal annotációiból (további fájl 1: S15D Ábra); és leukémia a betegség ontológiai annotációiból (további fájl 1: S15E ábra). Az eredmények összhangban vannak a sejtek limfoblasztoid vonalával. Ezután funkcionális dúsítási elemzést végeztünk a BDT által támogatott előrejelzett fokozókon, amelyekről korábban nem számoltak be a FANTOM enhancer atlas (“nem atlaszban”). Az eredmények teljes mértékben összhangban vannak a fenti elemzéssel (1.kiegészítő fájl: S16 ábra).

továbbá elvégeztük a motif dúsítási elemzést az előre jelzett sejtspecifikus CRR-Eken és a nem atlaszban lévő fokozókon HOMER alkalmazásával . Az előrejelzett régiók a JASPAR kötési profilokhoz hasonló motívumokkal gazdagodnak (további fájl 1: S15F Ábra és S16-S26 ábra), mind az Általános sejtfolyamatokat fenntartó TFs-hez, mind a sejthez kapcsolódó funkciókban szelektív szerepet játszó TFs-hez kapcsolódnak. Például A Jun-, Fos-és Ets-faktorok motívumai mind a hat sejttípus régióiban gazdagodtak. Ezek a TF-ek szabályozzák az Általános sejt előrehaladást, például differenciálódást, proliferációt vagy apoptózist . Sejt-megfelelő TF dúsítást figyeltek meg minden sejtnél (összefoglalva az 1.kiegészítő fájlban: S7 táblázat). Például a RUNX1 és más, a vérképzésben döntő szerepet játszó Runt-hoz kapcsolódó tényezők a GM12878-ban figyelhetők meg (további fájl 1: S15F Ábra és S16 ábra) . Az immunválaszokban és gyulladásos válaszokban részt vevő géneket szabályozó C / EBP-vel kapcsolatos tényezők a méhnyakban fejeződnek ki (további fájl 1: S17 és S18 ábrák) . A hnf1a, HNF1B, FOXA1, FOXA2, HNF4A és HNF4G faktorok szabályozzák a májspecifikus géneket (további 1 .fájl: S19 és S20 adatok). Az NFY faktorok együttműködnek a GATA1-gyel, hogy közvetítsék az eritroid-specifikus transzkripciót a K562-ben (további 1 .fájl: S25 és S26 ábrák).

funkcionális és dúsítási elemzést végeztünk az A-E és A-P előrejelzéseken a kombinált módszerből , és az eredményeket az 1.kiegészítő fájlban: S27-S30 ábrák. A kombinált módszerrel előre jelzett promoterek többsége disztális az ismert gén TSSs-től, amely hasonló az erősítőkhöz. Például a GM12878 sejtvonalon a kombinált promotereknek csak 22% – A található kevesebb, mint 5 kbp a jegyzetekkel ellátott tsss génhez képest, szemben a DECRES promoterek 47% – ával. Ezenkívül a kombinált módszerrel megjósolt CRR-ek funkcionális elemzése sokkal kevesebb vagy nulla szignifikáns kifejezést adott a GO biológiai folyamatára, az MSigDB útvonalra és a betegség ontológiájára, mint a DECRES-előrejelzések. Mindkét módszer motívumelemzési eredményei következetesek.

a cisz-szabályozó régiók genomszintű előrejelzése felügyelt deep learning módszerekkel