Cis-säätelyalueiden genominlaajuinen ennustaminen käyttäen valvottuja syväoppimismenetelmiä / BMC bioinformatiikka

Syväoppiminen erottaa tarkasti aktiiviset tehostajat ja edistäjät taustasta

selvitimme syväoppimisen mallien kykyä erottaa tehostajat ja edistäjät muista alueista ja toimintavaltioista. Koulutimme syväsyöttöhermoverkon tasapainotettujen merkittyjen koulutussarjojen yli ennustamaan (epätasapainoiset) testisarjamme jokaisesta hyvin luonnehditusta solutyypistä toistaen toimenpiteen 100 kertaa. Deep-mallissa kokeellisesti johdetut ominaisuudet genomialueiden yli näiden alueiden tuloiksi ja tuotoksiksi todennäköisyyksillä (KS.Lisätiedosto 1: taulukko S1 kunkin luokan näytteiden kokonaismäärästä ja Lisätiedosto 1: taulukko S2 käytettävissä olevien ominaisuuksien määrästä; KS. menetelmät). Kerronnan helppouden vuoksi viittaamme jäljempänä aktiiviseen tehostajaan, aktiiviseen edistäjään, aktiiviseen eksoniin, inaktiiviseen tehostajaan, inaktiiviseen edistäjään, inaktiiviseen eksoniin ja tuntemattomaan (tai luokittelemattomaan) alueeseen A-E, A-P, A-X, I-E, I-P, I-X ja UK. Olettaen, että aktiiviset CRR: t käyvät läpi transkription, active koskee alueita, joilla häkin transkription aloitustapahtumia havaitaan focus-kudoksessa, kun taas inaktiivinen viittaa muihin kudoksiin havaittuihin alueisiin, mutta ei focus-kudokseen. Kirjasimme luokan keskiarvon (ts. kaikkien luokkien keskimääräiset herkkyydet), vastaanottimen toiminta-ominaiskäyrän (auROC) alla oleva alue ja tarkkuuskutsukäyrän (auprc) alla oleva alue kuviossa. 1 ja Lisätiedosto 1: kuva S1.

on neljä näkökohtaa tuloksia, jotka korostamme, jotka vahvistavat valmiudet meidän valvottu syväoppimisen lähestymistapa erottaa luokkien CRR ja tausta. Ensinnäkin pystymme erottamaan aktiiviset tehostajat ja edistäjät (A-E vs. A-P) (kuva. 1 A). Käytimme A-E: tä positiivisena ja A-P: tä negatiivisena harjoitusluokkana. Kaiken kaikkiaan A-E ja A-P ovat hyvin erotettavissa toisistaan. Toiseksi voimme erottaa aktiiviset ja inaktiiviset CRR: t (joko tehostajat tai promoottorit). Figistä. 1b ja Lisätiedosto 1: kuva S1A, voidaan havaita, että GM12878: n, HelaS3: n, HepG2: n ja K562: n keskimääräiset auprc: t, joilla on suurimmat koulutussarjat, ovat yli 0,95 pienillä variansseilla sekä tehostajille että promoottoreille. Tämän paperin loppuosassa jätämme A549-ja MCF7-solulinjat pois useimmista analyyseistä johtuen rajoitetusta tiedon saatavuudesta. Kolmanneksi, ei odottamatta, on vaikea erottaa inaktiivisia tehostajia ja edistäjiä (Lisätiedosto 1: kuva S1B). Kahdeksan solutyypin luokkakohtaisista keskiarvoista seitsemän oli alle 0,80. Vaikka on joitakin viitteitä siitä, että osalla toimimattomista promoottoreista on joitakin koneita läsnä, odotimme, että tällaisilla alueilla ei juurikaan esiinny vahvaa transkriptiotekijää sitovaa tekijää tai sopivia epigeneettisiä allekirjoituksia mallin ilmoittamiseksi. Neljänneksi testasimme A-E: n ja A-P: n ennustamisen sovellettavuutta super background (BG)-luokasta yhdistämällä I-E, I-P, A-X, I-X ja UK (Fig. 1c). Tulokset kuudella solutyypillä olivat lupaavia, kaikki ylittivät 0,80 auPRC: n. Jos A-E ja A-P yhdistetään edelleen superluokaksi (A-E+A-P), saavutetaan parempi suorituskyky (Lisätiedosto 1: kuva S1C). Näiden kuuden solutyypin kaikki auprc: t ylittivät 0,89 auPRC: n rajan. Lisäksi testasimme merkityillä tiedoillamme myös satunnaismetsämenetelmää, toista huipputason luokittelijaa. Samanlainen suorituskyky saatiin kaikilla kuudella koeasetuksella. Satunnaismetsämenetelmällä saavutettiin hieman parempi suorituskyky a549-ja MCF7-aineistoille, joissa molemmissa on vähän tehostajia. Odottaessamme, että lisää merkittyjä tehostajia on tulossa saataville, jatkamme MLP: n käyttöä ja tutkimme muita syväoppimisen lähestymistapoja, kuten convolutionaalisia neuroverkostoja ja toistuvia neuroverkostoja.

DECRES antaa suuremman herkkyyden ja tarkkuuden FANTOM-merkinnöillä varustetuille alueille

arvioidaksemme valvotun syvämenetelmämme suhteellista käyttökelpoisuutta CRR: n ennustamisessa vertasimme sitä valvomattomiin Kromhmm-ja ChromHMM-Segway-yhdistettyihin menetelmiin, joissa käytettiin viitteenä FANTOM-merkintöjä viidellä saatavilla olevalla solutyypillä. Niitä verrattiin tasapainottomiin sarjoihin, jotka kuvastivat todellista genomitaustaa. Tuloksia verrataan Fig. 2A, joka näyttää tutkakartat missä suurempi ja kuperampi alue on, sitä parempi suorituskyky. On intuitiivista, että valvottuja lähestymistapoja suositaan, kun merkittyjä koulutustietoja on riittävästi. Lisäksi molemmat valvomattomat menetelmät kehitettiin ennen FANTOM5: n tietojen julkistamista, joten ne ovat epäedullisessa asemassa. Nämä merkinnät ovat kuitenkin laajalti käytössä yhteisössä, ja siksi DECRE: n suhteellinen suorituskyky standardiin nähden on kiinnostava. Kaiken kaikkiaan toteamme, että DECRES päihittää ChromHMM: n ja yhdistetyt menetelmät, jotka puolestaan tuottavat samanlaisen suorituskyvyn. Näillä valvomattomilla menetelmillä on johdonmukaisesti vähemmän herkkyyksiä aktiivisen tehostajan havaitsemiseen (p = 5.57E-5 ja 9.90 E-5 DECRES vs. ChromHMM ja yhdistetty vastaavasti, kaksi tailed opiskelijan t-testi; KS.Kuva. 2b) ja pienempi tarkkuus aktiivisen promoottorin havaitsemiseen (P=7.36 E-5 ja 2.33 E-4, DECRES vs. ChromHMM ja yhdistetty vastaavasti, kahden pyrstön opiskelijan t-testi; KS.Kuva. 2b). ChromHMM: n avulla aktiivisen tehostajan herkkyys vaihtelee 16,5%: sta 48,4%: iin (luvut ovat yhdenmukaisia ennustettujen tehostajien koodaustestin kanssa ), kun taas syvä mallimme vaihtelee 69%: sta (K562) 88,8%: iin (GM12878). Lisäksi ChromHMM saavuttaa maksimitarkkuuden 49.8% aktiivisen promoottorin ennusteessa, kun taas DECRESIN enimmäisarvo on 84,3%.

DECRES: n suorituskyvyn arviointi riippumattomilla kokeellisilla tiedoilla

koska alustava arviointi keskittyi Fantom eRNA-pohjaiseen CRRs: n merkintätapaan, joka on tietotyyppi, jota käytetään valvotun mallimme kouluttamiseen, pyrimme arvioimaan suorituskykyä vaihtoehtoisilla menetelmillä tuotetuilla tiedoilla. Tunnistimme kaksi riippumatonta laboratoriovarmennettujen tehostajien kokoelmaa DECRES: n suorituskyvyn arvioimiseksi: CRE-seq-kokoelma alueita, jotka on testattu K562-soluissa ja MPRA (massively parallel reporter assay) – kokoelmissa, jotka on testattu K562-ja HepG2-soluissa . Molemmissa tapauksissa alueet, jotka eivät suoranaisesti ilmaise, voidaan arvioida väärin arvioiduilla menetelmillä, mutta ne voivat myös heijastaa tosiasioita siitä, että kokeellisiin menetelmiin sisältyy vain pieni osa säätelevää DNA: ta ja että plasmidipohjaisissa määrityksissä ei kerrata kromatiinin ominaisuuksia. Kun otetaan huomioon tietojen luonne, odotamme osan kokeellisista negatiiveista olevan vilpittömässä mielessä toimivia sääntelyalueita.

ensimmäisessä riippumattomassa ryhmässä arvioitiin laboratoriossa CRE-seq: n avulla ennustettujen k562: n tehostajien ja negatiivisten alueiden osajoukot (jotka ennustettiin yhdistetyllä Kromhmm-ja Segway-menetelmällä). Kyseisessä tutkimuksessa vain 33 prosenttia ”yhdistetyistä” ennustetuista sääntelyalueista todettiin kokeessa positiivisiksi, kun negatiivinen joukko oli 7 prosenttia. Käyttämällä DECRES-koulutusta kaikilla käytettävissä olevilla k562-solujen aktiivisilla säätelyalueilla, validoimme menetelmämme 386 alueella, jotka osoittavat aktiivista tehostavaa aktiivisuutta k562: ssa, kuten Cre-seq on validoinut verrattuna 298: aan kontrollialueeseen (Lisätiedosto 1: taulukko S3). Hyvin yhdenmukaisesti edellä esitettyjen tulosten kanssa kokeellisesti validoitujen alueiden 65,5 prosentin (254/386) herkkyyden ennustettiin olevan A-E; loput 132 aluetta ennustettiin Tausta-alueiksi (yhtäkään aluetta ei luokiteltu edistäjiksi). Niistä 812 testatusta ennusteesta, jotka olivat toimimattomia CRE-seq-kokeessa, DECRES luokitteli 53,3% (433/812) positiivisiksi. 298 negatiivisen kontrollialueen osalta DECRES ennusti kaikkien olevan negatiivisia (mukaan lukien ne 16, jotka olivat aktiivisia CRE-seq-kokeessa). Tärkeää on, että DECRESIN pisteiden noustessa ennusteiden laatu paranee. Piirsimme decres-jäsenyyspisteiden histogrammin 254 ja 433 kokeellisesti positiivisista ja negatiivisista yhdistetyistä tehostajista, jotka DECRES ennusti a-Es: ksi (Lisätiedosto 1: kuva S2). Jakaumat ovat merkittävästi erilaisia (p = 0.014, kaksipuolinen Mann-Whitney rank test).

toinen riippumaton kokoelma, jossa testattiin K562-ja HepG2-spesifinen ”vahva tehostaja” (Kromhmm: n ennustamana), joka sisälsi ennustettuja TF-sitoutumispaikkoja soluselektiiviselle TFs: lle massiivisesti rinnakkaisella reporter-määrityksellä (mpra) . Vain 41%: lla tehostajista havaittiin merkitsevästi ilmaistu (p = 0, 05, kaksipuolinen Mann-Whitney rank-testi). Käytimme DECRES: iä MPRA-positiivisten ja MPRA-negatiivisten tehostajien luokkien ennustamiseen. Tuloksemme Lisätiedostossa 1: taulukko S3 osoittaa, että 98,4% (120/122) ja 97.MPRA-positiivisista tehostajista 8%: n (182 / 186) ennustettiin olevan A-Es K562-ja HepG2-solujen osalta, kun taas MPRA-negatiivisista tehostajista 92, 3%: n (179 / 194) ja 81, 3%: n (217 / 267) ennustettiin edelleen olevan A-Es K562: n ja HepG2: n osalta, mutta DECRES-pisteiden eri jakaumissa (p= 4, 8 E-6 ja p= 2, 3 e-6: n osalta k562 ja HepG2, kaksipuolinen Mann-Whitney rank-testi) (lisätiedosto 1: kuva S2). Muiden riippumattomien tietojen mukaisesti, mitä korkeammat DECRES-pisteet ovat, sitä todennäköisemmin ne ovat positiivisia.

DNA-sekvenssin ominaisuuksien hyödyllisyyden arvioiminen DECRES

viimeaikaiset tutkimukset vahvistivat , että DNA-sekvenssin ominaisuudet voivat olla hyödyllisiä promoottoreiden ja tehostajien tunnistamisessa sekä aktiivisten ja inaktiivisten säätelysekvenssien erottelussa merkkijonosekvenssiytimiä käyttäen. Tämä perustuu pitkään tunnustettuun kykyyn sisällyttää CpG-saaria ominaisuuksiksi promoottoreiden ennustamisen parantamiseksi . Yritimme selvittää, voivatko DNA-sekvenssin ominaisuudet olla informatiivisia, jotta voidaan erottaa promoottorit ja tehostajat sekä aktiiviset ja passiiviset luokat. Koulutimme mallin 351 sekvenssiominaisuuksilla (alun perin käytetty ) useissa skenaarioissa. Tulokset näkyvät kuvassa. 3 ja Lisätiedosto 1: kuva S3. Ensinnäkin syvä menetelmä, joka rajoittuu sekvenssin ominaisuuksiin A-E: n ja A-P: n erottelemiseksi (Kuva. 3a) toimitti auprc: t 0.8567: stä 0.9370: een ja vahvisti, että sekvenssin ominaisuudet ovat todellakin informatiivisia. Toiseksi sekvenssiominaisuuksilla on rajallinen hyöty erottaa tehostajien ja promoottoreiden aktiiviset ja inaktiiviset tilat, mikä on loogista; kun taas kokeellisesti johdetut ominaisuudet voivat erottaa ne hyvin toisistaan (p=1,90 E-08 ja 5.06E-08 tehostajien ja promoottoreiden osalta kaksihäntäisen opiskelijan t-testi; KS.Kuva. 3b ja Lisätiedosto 1: kuva S3A). Sekvenssiominaisuuksien käyttäminen kokeellisten ominaisuuksien puuttuessa heikentää A-E: n, A-P: n ja BG: n luokitusta kaikissa kahdeksassa solutyypissä (p=1,86 e-09, kaksihäntäisen opiskelijan t-testi; KS.Kuva. 3c). Parempia tuloksia ei lopulta saatu yhdistämällä kokeellisia ja sekvenssiominaisuuksia (P=2,79 E-01, 6,56 e-01 ja 1,17 e-01 kuviossa. 3, kaksihäntäisen opiskelijan t-testi).

keskeiset ominaisuudet DECRES suorituskyky

koska Kokeellinen data voi olla aikaa vievää ja kallista tuottaa, pyrimme määrittämään minimaalinen joukko ominaisuuksia eniten informatiivinen CRR ennustaminen laskennallisesta näkökulmasta. Käytimme randomized deep feature selection (randomized DFS tai RDFS) ja random forest (RF) malleja (katso menetelmät) kahden ja kolmen luokan (A-E vs. A-P vs. BG) luokitukset nelisolutyypit (GM12878, HelaS3, HepG2, ja K562), joissa on 72-135 ominaisuuksia käytettävissä.

Kuva 4a ja Lisätiedosto 1: kuva S4A näyttää satunnaistettujen DFS: n ja random Forestin kolmen luokan luokittelussa löytämät ominaisuuspisteet. Näiden menetelmien tuottamia ominaisuuspisteitä on tulkittava eri tavoin. Kuten eteenpäin valinta, ominaisuus tärkeyspisteet satunnaistettu DFS heijastaa mitkä ominaisuudet ovat suositeltavia varhaisessa vaiheessa harva malli, kun taas merkitys pisteet ominaisuus random forest osoittaa roolin tämän ominaisuuden yhteydessä sen käyttöä kaikkien muiden ominaisuuksien kanssa. Näin molempien menetelmien käyttö tässä tutkimuksessa antaa meille mahdollisuuden saada erilaisia näkemyksiä aineistosta. Meidän kokeissa, molemmat menetelmät voivat kaapata tärkeimmät ominaisuudet, kuten on osoitettu tärkeyspisteet kaikilla neljällä solulinjalla. Esimerkiksi molemmat menetelmät ovat yhtä mieltä siitä, että Pol2, H3K4me1, Taf1 ja H3K27ac ovat hyödyllisiä erotettaessa aktiiviset tehostajat ja promoottorit taustasta GM12878-solulinjassa. Joissakin tapauksissa eri toimenpiteet täydentävät toisiaan. Esimerkiksi h3k4me2 ja H4K20me1 merkitään keskeisiksi ominaisuuksiksi satunnaistetuilla DFS: llä, mikä on vakuuttavaa, kuten Lisätiedostossa 1 olevat ruutukaaviot osoittavat: Kuva S4B ja kuva S6-S13, mutta satunnaismetsät eivät huomioi niitä. Tbp korostui satunnaisessa metsässä GM12878: ssa ja HelaS3: ssa, mutta satunnaistetut DFS: t eivät poimineet sitä. Tarkastelemalla tämän ominaisuuden ruutukaavioita lisätiedostossa 1: luvut S6 ja S7 osoittavat, että tämä ominaisuus on erotteleva, jotta aktiiviset tehostajat ja edistäjät voidaan erottaa taustasta, mutta aktiivisten tehostajien ja edistäjien välillä ei ole dramaattista eroa. Satunnaismetsämalliin sisällytetyt tärkeät ominaisuudet voidaan sisällyttää vasta DFS-prosessin loppuvaiheessa. Esimerkiksi K562-solulinjassa C-Myc: tä korosti random forest, joka on todellakin kohtuullinen, kuten Lisätiedostossa 1: Kuvassa S12 osoitetaan, eikä sitä valittu DFS-prosessin alustavaksi ominaisuudeksi.

genomilisaation koneoppimismenetelmien kehittämisessä tarvittavien ominaisuuksien määrän minimointi vähentää kustannuksia ja lisää kykyä biologiseen tulkintaan. Kuva 4b ja Lisätiedosto 1: kuva S5B osoittavat testiauprc-arvojen muutokset, kun valittujen ominaisuuksien määrä kasvaa kolmen ja kahden luokan luokituksissa. Molemmissa tapauksissa, testi auPRCs kasvaa dramaattisesti alkuperäisen ominaisuuksia, sitten suorituskyky tasankoja. Kun verrataan satunnaistettuja DFS-käyriä satunnaisiin metsäkäyriin, voidaan todeta, ettei ole olemassa yhtä optimaalista käyrää. Muutamia keskeisiä ominaisuuksia riittää hyvä ennustus suorituskykyä. Määritellä optimaalinen määrä ominaisuuksia tarvitaan, sovimme käyrät kuvassa. 4b ja Lisätiedosto 1: kuva S5B ja valitaan leikkauspiste suoralle, jonka kaltevuus on 0,5 satunnaistetuissa DFS-käyrissä (KS.menetelmät). Kahden luokan vakavaraisuusasetuksen ennustamiseen tarvitaan vähemmän ominaisuuksia (6 ominaisuutta) verrattuna kolmen luokan malleihin, joiden tarkoituksena on erottaa A-E, A-P ja tausta (10 ominaisuutta).

kolmen luokan ennusteiden kymmenen parhaan ominaisuuden jakaumat (A-E, A-P ja BG) on esitetty lisätiedostossa 1: kuva S4B. käyttämällä kunkin solun kymmenen parasta ominaisuutta AUPRC: t 0.9022, 0.9156, 0.8651 ja 0.8565 saavutettiin GM12878: lla, HelaS3: lla, HepG2: lla ja K562: lla. Puolet näistä huippuominaisuuksista ovat histonimuunnoksia, joista h3k4me1, H3K4me2, H3K4me3 ja h3k27me3 olivat yleisesti valittuja ominaisuuksia kolmiluokkaisiin malleihin, yhteisymmärryksessä olemassa olevan tiedon kanssa . Transkriptiotekijöistä (mukaan lukien co-tekijät) valitaan usein Taf1 ja p300 sekä RNA polymeraasi II (Pol2), mikä on myös yhdenmukaista olemassa olevan tiedon kanssa .

Lisätiedosto 1: kuva S5C näyttää satunnaistetuilla DFS: llä kuuden parhaan valitun ominaisuuden ruutukaaviot kahden luokan ennusteille. Näiden ominaisuuksien avulla saatiin auprc: t 0.9561, 0.9627, 0.926 ja 0.9555 nelosolutyypeille vastaavasti. Useimpien ominaisuuksien arvojen vaihteluvälit ovat koholla A-E: ssä ja A-P: ssä suhteessa taustaluokkiin. Puolet valituista ominaisuuksista ovat dnase-seq-ja histone modification ChIP-seq-tietoja, kuten H3K4me2, H3K27ac ja H3K27me3. Näiden piirteiden laatikkokaaviot osoittavat, että ne erottavat A-E: n ja A-P: n taustasta .

suurin osa DECRESIN genominlaajuisista ennusteista on tuettu muilla menetelmillä

koulutimme 2-ja 3 – luokan monikerroksisia perceptron (MLP)-malleja (KS.menetelmät) käyttäen kaikkia viitteellisiä (merkittyjä) koulutustietoja, jotta voitiin ennustaa CRR: t koko genomissa kuudelle solutyypille (a549 ja MCF7 jätettiin pois). 2-luokan mallissa tunnistettiin 227 332 CRR: ää (vierekkäiset alueet yhdistettiin), jotka vievät 4,8% genomista (Lisätiedosto 1: taulukko S4). Yhteensä 9153 Vakavaraisuusriskiä ennustettiin kaikkialla kaikissa kuudessa solutyypissä. 3-luokan ennustusta varten saimme 301 650 A-E-aluetta (6,8% genomista) ja 26 555 A-P-aluetta (0,6% genomista) sekä 11 886 ubiquitous A-Es ja 3678 ubiquitous a-Ps. Genomin laajuiset ennusteet kaikille kuudelle solutyypille ovat saatavilla lisätiedostossa 2.

seuraavaksi tarkastelimme ennustettujen vakavaraisuusvaatimusten päällekkäisyyttä GM12878: n, HelaS3: n ja K562: n yhdistettyjen ja dReg-ennusteiden kanssa. Suurin osa Decres: n ennustamista Vakavaraisuusrekistereistä on päällekkäisiä joko yhdistetyn tai drg: n tulosten kanssa, erityisesti 86,13% GM12878: n, 76,13%: n ja 83,63%: n GM12878: n, HelaS3: n ja K562: n osalta (Kuva. 5). Osajoukko (13,87% GM12878: lla, 23,87% HelaS3: lla ja 16,37% K562: lla) DECRES-ennusteista ei ole päällekkäinen kahden muun työkalun ennusteiden kanssa. Erityisesti suuri osa yhdistetyistä ennusteista (56,78% HelaS3: lla, 55,99% GM12878: lla ja 36.36% k562: sta) eivät ole päällekkäisiä valvottujen menetelmien kanssa, mikä on yhdenmukaista sen alhaisen havaitun validointiosuuden kanssa . Lisäksi DECRES-ennusteilla on yleensä hienompi resoluutio sekä A-P-että A-E-alueilla (KS.Lisätiedosto 1: esimerkki kuvasta S14).

selvitimme, kuinka moni genominlaajuisista ennusteistamme saa tukea Vistan tehostajajoukosta . Huolimatta siitä, että suurin osa VISTA tehostajat ovat erittäin säilytetty koko kehityksen, olemme edelleen sitä mieltä,että 37.1% (850/2, 293) kokeellisesti vahvistettu ja vahvistamaton VISTA tehostajia päällekkäisiä ennustettu a-Es,kun taas vain 4.8% (110/2, 293) näistä VISTA tehostajia päällekkäisiä ennustettu a-Ps. Tulokset kokeellisesti vahvistettu VISTA tehostajia ovat samanlaisia (482/1,196 = 40.30% ja 60/1,196 = 5.02% päällekkäisyys A-Es ja A-Ps, vastaavasti), mikä viittaa siihen, että ennustettu aktiivinen tehostajia on todellinen tehostajana toimintoja. Osa Vistan tehostajista, jotka eivät ole päällekkäisiä ennusteidemme kanssa, voi olla aktiivisia nimenomaan kehityksen aikana tai muissa solutyypeissä kuin fokussolulinjoissamme.

DECRES laajentaa FANTOM enhancer Atlaksen

koska ERNAS: n häkin signaalit ovat rajalliset, osaa aktiivisista (tai litteroiduista) tehostajista ei ole havaittu enhancer Atlaksen alkuperäisessä kokoelmassa. Siksi pyrimme tunnistamaan muita osittain tuettuja tehostimia, joiden eRNA-signaalit olivat alkuperäisten atlas-kynnysasetusten alapuolella . Edellisessä työssä ihmisen genomissa havaittiin yhteensä 200 171 kaksisirkkaista (BDT) lokusta käyttäen 808 solutyypin ja kudoksen HÄKKILAPPUJA. Kun BDT-lokukset oli jätetty eksonien ulkopuolelle, jäljelle jäi osittain tuettu joukko 102 021 BDT-aluetta, joista 43 011 tasapainoista lokusta (samanlaiset eRNA-tasot molemmin puolin) muodostavat Fantomin tehostajan Atlaksen . Jotta voitaisiin tutkia, voidaanko kullekin kuudelle solutyypille havaita aktiivisempia tehostajaehdokkaita, koulutimme MLP: n sen aktiivisille atlas-alueille ja ennustimme luokat kaikille 102 021 BDT-alueelle. Niistä 102,021 BDT loci, useimmat luokiteltiin negatiivisiksi alueiksi tietyssä solussa (Lisätiedosto 1: Taulukko S5), kun taas keskimäärin 13 316 ennustettiin a-Es: ksi ja vain 834 ennustettiin a-Ps: ksi solutyyppiä kohti. Merkittävä määrä (keskimäärin 6535) inaktiivisia tehostajia alkuperäisessä enhancer atlas-kartastossa ennustettiin aktiiviseksi mallillamme (Lisätiedosto 1: taulukko S6), mikä vastaa oletusta, että BDT-tiedot ovat epätäydellisiä minkä tahansa näytteen osalta. Keskimäärin 5514 BDT-lokusta, jotka jätettiin alkuperäisen Atlasin ulkopuolelle, ennustettiin A-Es solutyyppiä kohti. Kuudesta analysoidusta solutyypistä ennustettiin yhteensä 38 601 BDT-lokusta a-Es: ksi (Lisätiedosto 3), joista 16 988 edustaa alkuperäisen FANTOM enhancer Atlaksen laajennusta. Huomaa, että 21 398 alkuperäisen FANTOM enhancer Atlaksen 43 011 tehostajasta ei ole ennustettu olevan aktiivisia tässä analysoiduissa kuudessa solussa, mutta nämä alueet saattavat olla aktiivisia muissa 802 solussa, joiden analysointiin ei ole riittäviä ominaisuuksia.

DECRESIN ennusteen laskennallinen validointi funktionaalisen ja motifisen rikastusanalyysin avulla

suoritimme funktionaalisen rikastusanalyysin genomin laajuisista ennusteista a-Es ja A-Ps käyttäen suurta . GM12878-solujen osalta 79 prosenttia ennustetuista tehostaja-alueista on yli 5 kilobaasiparin (kbps) päässä geenien TSSs: stä (Lisätiedosto 1: kuva S15A), kun taas 47 prosenttia ennustetuista edistäjistä on alle 5 kbps merkittyyn geenien TSSs: ään (lisätiedosto 1: kuva S15b). Samanlaisia tilastoja saatiin myös muista viidestä solutyypistä. GM12878-spesifisten CRR: ien merkintäanalyysit osoittavat, että proksimaaliset geenit liittyvät seuraaviin: immuunivaste geenien ontologiasta (Lisätiedosto 1: kuva S15C); B-solujen signalointireitit MSigDB-Reittihuomautuksista (Lisätiedosto 1: kuva S15d); ja leukemia tautiontologiasta (Lisätiedosto 1: kuva s15e). Tulokset vastaavat solujen lymfoblastoidilinjaa. Seuraavaksi teimme funktionaalisen rikastusanalyysin BDT: n tukemille ennustetuille tehostajille, joita ei ole aiemmin raportoitu FANTOM enhancer atlas-julkaisussa (”not in atlas”). Tulokset ovat täysin yhdenmukaisia edellä esitetyn analyysin kanssa (Lisätiedosto 1: kuva S16).

suoritimme lisäksi motif-rikastusanalyysin ennustetuista Solupesifisistä CRR-ja NOT-in-atlas-tehostajista Homerin avulla . Ennustetut alueet on rikastettu Jaspar-sidontaprofiilien kaltaisiin kuvioihin (Lisätiedosto 1: kuva S15F ja luvut S16-S26), jotka molemmat liittyvät TFS: ään, joka ylläpitää yleisiä soluprosesseja, ja TFS: ään, jolla on selektiivinen rooli soluun liittyvissä toiminnoissa. Esimerkiksi Jun-, Fos-ja Ets-tekijöihin liittyvät motiivit rikastuivat alueilla kaikista kuudesta solutyypistä. Nämä TFs säätelevät yleistä solujen etenemistä, kuten erilaistumista, proliferaatiota tai apoptoosia . Soluun soveltuvia TF-rikastuksia havaittiin jokaisessa solussa (tiivistelmä lisätiedostossa 1: taulukko S7). Esimerkiksi RUNX1: tä ja muita Runtiin liittyviä tekijöitä, joilla on ratkaiseva merkitys hematopoieesin kannalta, on havaittu gm12878: ssa (Lisätiedosto 1: kuva S15F ja kuva S16) . C / EBP: hen liittyvät tekijät, jotka säätelevät immuuni-ja tulehdusvasteisiin liittyviä geenejä, ilmaistaan kohdunkaulassa (Lisätiedosto 1: kuvat S17 ja S18) . Hnf1a, HNF1B, FOXA1, FOXA2, HNF4A ja HNF4G-tekijät säätelevät maksaspesifisiä geenejä (Lisätiedosto 1: kuvat S19 ja S20) . NFY-tekijät toimivat yhteistyössä gata1: n kanssa erytroidispesifisen transkription välittämiseksi k562: ssa (Lisätiedosto 1: kuvat S25 ja S26) .

suoritimme yhdistetyn menetelmän A-E-ja A-P-ennusteiden funktionaali-ja rikastusanalyysin ja raportoimme tulokset lisätiedostossa 1: luvut S27-S30. Suurin osa yhdistelmämenetelmällä ennustetuista promoottoreista distaalistuu tunnetulle geenin TSSs: lle, joka muistuttaa tehostajia. Esimerkiksi SOLULINJALLA GM12878 vain 22 prosenttia yhdistetyistä promoottoreista sijaitsee alle 5 kbp: n etäisyydellä merkityistä geeneistä TSSs, kun taas DECRES-promoottoreista 47 prosenttia. Lisäksi funktionaalinen analyysi CRRs ennustetaan yhdistetyn menetelmän palasi paljon vähemmän tai nolla merkittäviä termejä GO biologinen prosessi, MSigDB reitti, ja taudin ontologia kuin DECRES ennusteita. Molempien menetelmien motif-analyysin tulokset ovat yhdenmukaiset.

cis-säätelyalueiden Genominlaajuinen ennustaminen käyttäen valvottuja syväoppimismenetelmiä