Genomomfattande förutsägelse av cis-regulatoriska regioner med hjälp av övervakade djupa inlärningsmetoder

djupinlärning skiljer exakt aktiva förstärkare och promotorer från bakgrunden

vi undersökte kapaciteten hos djupa inlärningsmodeller för att separera förstärkare och promotorer, och för att skilja dem från andra regioner och mellan aktivitetstillstånd. Vi tränade ett djupt feedforward neuralt nätverk över våra balanserade märkta träningssatser för att förutsäga våra (obalanserade) testuppsättningar från varje väl karakteriserad celltyp och upprepa proceduren 100 gånger. Den djupa modellen tar experimentellt härledda funktioner över genomiska regioner som in-och utgångar klassetiketter för dessa regioner med sannolikheter (se ytterligare fil 1: Tabell S1 för det totala antalet prover av varje klass och ytterligare fil 1: Tabell S2 för antalet tillgängliga funktioner; se metoder). För berättande bekvämlighet hänvisar vi nedan till aktiv förstärkare, aktiv promotor, aktiv exon, inaktiv förstärkare, inaktiv promotor, inaktiv exon och okänd (eller okarakteriserad) region som A-E, A-P, A-X, I-e, I-P, I-X respektive UK. Under antagandet att aktiva CRRs genomgår transkription gäller active för regioner där burtranskriptionsinitieringshändelser observeras i fokusvävnaden, medan inaktiv avser regioner som detekteras i andra vävnader, men inte i fokusvävnaden. Vi registrerade den genomsnittliga klassvisa räntan (dvs. auroc (receiver operating characteristic curve) och området under precision-recall curve (auPRC) i Fig. 1 och ytterligare fil 1: figur S1.

Fig. 1
figur1

genomsnittlig prestanda och standardavvikelse på 100 körningar med MLP-modellen på våra provtagna tågtestpartitioner av åtta celltyper. a klassificering föreställningar av A-E kontra A-P. B klassificering föreställningar av A-E kontra I-E. C klassificering föreställningar av A-E kontra A-P kontra BG. MLP: Multilayer Perception, RF: Random Forest, A-E: aktiv förstärkare, A-P: aktiv promotor, A-X: aktiv Exon, I-E: inaktiv förstärkare, I-P: inaktiv promotor, I-X: inaktiv Exon, UK: okänd eller Okarakteriserad, BG: I-E + I-P + A-X + i-X + UK

det finns fyra aspekter av resultaten som vi lyfter fram, som bekräftar kapaciteten hos vår övervakade djupa inlärningsmetod för att skilja mellan klasser av CRRs och bakgrund. Först kan vi skilja mellan aktiva förstärkare och promotorer (A-E kontra A-P) (Fig. 1a). Vi använde A – E och A-P som positiva respektive negativa träningskurser. Sammantaget fann vi att A – E och A-P är mycket separerbara. För det andra kan vi skilja aktiva och inaktiva CRRs (antingen förstärkare eller promotorer). Från Fig. 1b och ytterligare fil 1: figur S1A, det kan observeras att de genomsnittliga auprc: erna på GM12878, HelaS3, HepG2 och K562, som har de största träningsuppsättningarna, är över 0,95 med små variationer för både förstärkare och promotorer. I resten av detta dokument utesluter vi a549-och MCF7-cellinjer i de flesta analyser på grund av begränsad datatillgänglighet. För det tredje, inte oväntat, är det svårt att skilja mellan inaktiva förstärkare och promotorer (ytterligare fil 1: figur S1B). Sju av de genomsnittliga klassvisa räntorna för de åtta celltyperna var lägre än 0,80. Medan det finns några indikationer på att en del av inaktiva promotorer har några maskiner närvarande, var det vår förväntan att sådana regioner i stor utsträckning inte kommer att uppvisa stark transkriptionsfaktorbindning eller lämpliga epigenetiska signaturer för att informera en modell. För det fjärde testade vi tillämpligheten av att förutsäga A-E och A-P från super background (BG)-klassen sammanslagning I-e, I-P, A-X, i-X och UK (Fig. 1c). Resultaten på sex celltyper var lovande, alla översteg 0.80 auPRC. Om A – E och A-P slås samman ytterligare för att bilda en superklass (A-E+A-P) uppnås högre prestanda (ytterligare fil 1: figur S1C). Alla auprc på dessa sex celltyper gick utöver 0,89 auPRC. Dessutom testade vi också en slumpmässig skogsmetod, en annan toppmodern klassificerare, på våra märkta data. Liknande prestanda erhölls på alla sex experimentella inställningar. Random forest-metoden uppvisade något bättre prestanda för a549-och MCF7-dataset, som båda har lågt antal förstärkare. I förväntan att fler kommenterade förstärkare blir tillgängliga kommer vi att fortsätta använda MLP och utforska andra djupa inlärningsmetoder som konvolutionella neurala nätverk och återkommande neurala nätverk.

DECRES ger högre känslighet och precision på FANTOM-kommenterade regioner

för att bedöma den relativa nyttan av vår övervakade djupa metod för CRR-förutsägelse jämförde vi den med de oövervakade ChromHMM-och ChromHMM-Segway-kombinerade metoderna med FANTOM-anteckningar på fem tillgängliga celltyper som referens. De jämfördes på obalanserade uppsättningar som återspeglar den sanna genomiska bakgrunden. Resultaten jämförs i Fig. 2a som visar radardiagram där ju större och mer konvex området är, desto bättre prestanda. Det är intuitivt att övervakade tillvägagångssätt föredras när märkta träningsdata är tillräckliga. Dessutom utvecklades båda oövervakade metoderna före offentliggörande av FANTOM5-data och är därför missgynnade. Dessa anteckningar används emellertid i stor utsträckning av samhället och därmed är DECRES relativa prestanda till standarden av intresse. Sammantaget observerar vi att DECRES överträffar ChromHMM och kombinerade metoder som i sin tur ger liknande prestanda. Dessa oövervakade metoder har konsekvent lägre känslighet för aktiv förstärkardetektering (p = 5.57E – 5 och 9.90 E-5 för DECRES kontra ChromHMM och kombinerade respektive två tailed Studentens t-test; se Fig. 2B) och lägre precision för aktiv promotordetektering (p=7,36 E-5 och 2,33 E-4 för DECRES kontra Kromhmm respektive kombinerad, två tailed Studentens t-test; se Fig. 2b). Med hjälp av ChromHMM varierar active enhancer-känsligheten från 16.5% till 48.4% (siffrorna överensstämmer med testet på koda förutspådda förstärkare rapporterade i ), medan vår djupa modell sträcker sig från 69% (K562) till 88.8% (GM12878). Dessutom uppnår ChromHMM en maximal precision på 49.8% för aktiv promotor förutsägelse, medan det maximala för DECRES är 84,3%.

Fig. 2
figur2

jämförelse av övervakad metod (DECRES) och oövervakade metoder (ChromHMM och kombinerad) på fem FANTOM-annoterade testuppsättningar i radardiagram (a) och signifikanstester (b). Koda segmenteringar hämtades från . Vi märkte om anteckningarna av ChromHMM och kombinerade. För ChromHMM-segmenteringar slogs TSS -, tssf-och PromF-klasserna samman till A-P; ENH -, EnhF -, EnhW -, EnhWF-klasserna slogs samman till A-E; och resten betecknades av BG. Vid bearbetning av de kombinerade anteckningarna märktes TSS och PF om till A-P; E och vi märktes om till A-E; och resten till BG. P-värdena i (b) erhölls från två-tailed Studentens t-test på alla celltyper. Tecknen på statistiska värden anges inom parentes

utvärdering av DECRES-prestanda med oberoende experimentella data

eftersom den första utvärderingen fokuserade på FANTOM eRNA-baserad anteckning av CRRs, den typ av data som används för att träna vår övervakade modell, försökte vi bedöma prestanda på data som genererats av alternativa metoder. Vi identifierade två oberoende samlingar av laboratorievaliderade förstärkare för att ytterligare bedöma DECRES prestanda: en Cre-seq-samling av regioner testade i k562-celler och mpra-samlingar (massively parallel reporter assay) testade i k562-och HepG2-celler . I båda fallen kan uppsättningen regioner som misslyckas med att rikta uttryck felaktigt förutsägas av de bedömda metoderna, men kan också återspegla fakta att de experimentella procedurerna endast inkluderar ett litet segment av reglerande DNA och att plasmidbaserade analyser inte rekapitulerar kromatinegenskaper. Med tanke på dataens natur förutser vi att en del av de experimentella negativen är bona fide regleringsregioner.

i den första oberoende uppsättningen bedömdes delmängder av förutsagda k562-förstärkare och negativa regioner (som förutsagts av den kombinerade Kromhmm-och Segway-metoden) i laboratoriet med hjälp av CRE-seq . I den studien visade sig endast 33% av de ”kombinerade” förutsagda regleringsregionerna vara positiva i experimentet, jämfört med 7% för den negativa uppsättningen. Med hjälp av DECRES utbildade på alla tillgängliga aktiva regulatoriska regioner i K562-celler validerade vi därför vår metod på 386-regioner som visar aktiv förbättringsaktivitet i K562 som validerad av CRE-seq jämfört med de 298 kontrollregionerna (ytterligare fil 1: Tabell S3). Mycket konsekvent med resultaten ovan förutspåddes en känslighet på 65,5% (254/386) för de experimentellt validerade regionerna framgångsrikt som A-E; de återstående 132 regionerna förutspåddes som bakgrund (ingen klassificerades som promotorer). För de 812 testade förutsägelserna som var inaktiva i Cre-seq-experimentet klassificerade DECRES 53,3% (433/812) som positiva. För de 298 negativa kontrollregionerna förutspådde DECRES att alla var negativa (inklusive de 16 som var aktiva i Cre-seq-experimentet). Det är viktigt att när DECRES-poängen stiger ökar kvaliteten på förutsägelserna. Vi ritade histogrammet av DECRES-medlemskapspoäng på 254 och 433 experimentellt positiva och negativa kombinerade förstärkare som förutspåddes som A-Es av DECRES (ytterligare fil 1: figur S2). Fördelningarna är signifikant olika (p = 0.014, dubbelsidig Mann-Whitney rang test).

den andra oberoende samlingen, där K562 och HepG2-specifik ”stark förstärkare” (som förutsagt av Kromhmm) innehållande förutsagda TF-bindningsställen för cellselektiva TFs testades med användning av en massivt parallell reporter-analys (MPRA) . Endast 41% av förstärkarna detekterades för att uttryckas signifikant (p = 0,05, tvåsidigt Mann-Whitney rank-test). Vi använde DECRES för att förutsäga klasserna av mpra-positiva och mpra-negativa förstärkare. Vårt resultat i ytterligare fil 1: Tabell S3 visar att 98.4% (120/122) och 97.8% (182/186) av mpra-positiva förstärkare förutspåddes vara A-Es av DECRES för K562-och HepG2-celler, medan 92,3% (179/194) och 81,3% (217/267) av mpra-negativa förstärkare fortfarande förutspåddes som A-Es för K562 respektive HepG2, men med olika fördelningar av DECRES-poäng (p= 4,8 E-6 och p= 2,3 E-6 för k562 respektive HepG2, dubbelsidig Mann-Whitney rank test) (ytterligare fil 1: figur S2). I överensstämmelse med de andra oberoende uppgifterna, ju högre DECRES poäng desto mer sannolikt är de positiva.

bedömning av nyttan av DNA-sekvensegenskaper på prestanda för DECRES

nya studier bekräftade att DNA-sekvensegenskaper kan vara användbara för erkännande av promotorer och förstärkare , och diskrimineringen mellan aktiva och inaktiva regulatoriska sekvenser med hjälp av strängsekvenskärnor. Detta bygger på den länge erkända kapaciteten för att inkludera CPG-öar som funktioner för att förbättra promotorns förutsägelse . Vi försökte bestämma om DNA-sekvensfunktioner kan vara informativa för att skilja mellan promotorer och förstärkare och mellan aktiva och inaktiva klasser. Vi tränade modellen med 351 sekvensfunktioner (som ursprungligen användes i ) i flera scenarier. Resultaten visas i Fig. 3 och ytterligare fil 1: figur S3. Först en djup metod begränsad till sekvensfunktioner för att diskriminera A – E och A-P (Fig. 3A) levererade auPRCs från 0.8567 till 0.9370, vilket bekräftar att sekvensattribut verkligen är informativa. För det andra har sekvensfunktioner ett begränsat verktyg för att skilja mellan aktiva och inaktiva tillstånd av förstärkare och promotorer, vilket är logiskt; medan de experimentellt härledda funktionerna kan skilja dem mycket (p=1,90 E-08 och 5.06E-08 för förstärkare respektive promotorer, två-tailed Studentens t-test; se Fig. 3b och ytterligare fil 1: figur S3A). Att använda sekvensfunktioner i frånvaro av experimentella funktioner har en lägre prestanda vid klassificering av A-E, A-P och BG över alla åtta celltyper (p=1.86 e-09, två-tailed Studentens t-test; se Fig. 3c). Slutligen uppnåddes inte bättre resultat genom att kombinera experimentella och sekvensfunktioner (p=2,79 E-01, 6,56 E-01 och 1,17 E-01 i Fig. 3, två-tailed Studentens t-test).

Fig. 3
figur3

jämföra de genomsnittliga auPRCs över 100 sampling och omskolning på våra märkta regioner med hjälp av olika funktionsuppsättningar. ”Experimentell” betyder vår experimentellt härledda nästa generations sekvenseringsfunktionsuppsättning. ”Sekvens” betyder uppsättningen av 351 sekvensegenskaper som används i . ”Experimentell + sekvens” betyder kombinationen av dessa två uppsättningar. a. jämförelse av de tre funktionsuppsättningarna i A-E kontra A-P. B. jämförelse av de tre funktionsuppsättningarna i A-E kontra I-E. C. jämförelse av de tre funktionsuppsättningarna i A-E kontra A-P kontra BG. P-värdena i varje legend erhölls med användning av två-tailed Studentens t-test för att jämföra ”experimentella” – baserade resultat med”experimentella+sekvens ”-baserade respektive”sekvens” -baserade resultat

nyckelfunktioner för DECRES prestanda

eftersom experimentella data kan vara tidskrävande och dyra att producera, försökte vi bestämma den minsta uppsättningen funktioner som är mest informativa för CRR-förutsägelse ur ett beräkningsperspektiv. Vi använde randomized deep feature selection (randomized DFS eller RDFS) och random forest (RF) modeller (se metoder) för två-klass och tre-klass (A-E kontra A-P kontra BG) klassificeringar på fyra celltyper (GM12878, HelaS3, HepG2 och K562) som har 72-135 funktioner tillgängliga.

figur 4a och ytterligare fil 1: figur S4A visar funktionen betydelse poäng upptäcktes av randomiserade DFS och random forest för tre-klass klassificering. Funktionen betydelse poäng som produceras av dessa metoder bör tolkas på olika sätt. I likhet med ett framåtval återspeglar funktionen betydelse poäng från randomiserade DFS vilka funktioner som föredras i det tidiga skedet av den glesa modellen, medan betydelsen av en funktion av random forest indikerar rollen för denna funktion i samband med dess användning med alla andra funktioner. Genom att använda båda metoderna i denna studie kan vi således få olika insikter i data. I våra experiment kan båda metoderna fånga de viktigaste funktionerna som indikeras av viktiga poäng över alla fyra cellinjerna. Till exempel är båda metoderna överens om att Pol2, H3K4me1, Taf1 och H3K27ac är användbara för att skilja aktiva förstärkare och promotorer från bakgrunden i gm12878-cellinjen. I vissa fall kompletterar de olika åtgärderna varandra. Till exempel markeras H3K4me2 och H4K20me1 som nyckelfunktioner av den randomiserade DFS, vilket är övertygande som indikeras av rutan tomter i ytterligare fil 1: figur S4B och figur S6-S13, men förbises av slumpmässig skog. Tbp lyfts fram av random forest i gm12878-och HelaS3-celler, men plockades inte upp av randomiserade DFS. Undersöka rutan tomter av denna funktion i ytterligare fil 1: figurerna S6 och S7 avslöjar att denna funktion är diskriminerande att skilja aktiva förstärkare och initiativtagare från bakgrunden, men det finns inte en dramatisk skillnad mellan aktiva förstärkare och initiativtagare. Viktiga funktioner som ingår i en slumpmässig skogsmodell får inte införlivas förrän i ett senare skede av DFS-processen. Till exempel i k562-cellinjen betonades C-Myc av random forest, vilket verkligen är rimligt som visas i ytterligare fil 1: figur S12 och valdes inte som en initial funktion i DFS-processen.

Fig. 4
figur4

funktion betydelse och klassificeringsprestanda i 3-klass (A-E kontra A-P kontra BG) scenario. en funktion betydelse upptäcktes av randomiserade DFS (RDFS) och random forest (RF) på GM12878. Random forest har betydelse poäng normaliserades till för bättre jämförelse med randomiserade DFS. b auPRC kontra antalet funktioner som ingår i RDF och RF. De kommenterade punkterna anger var en linje med lutning 0.5 Skär en monterad kurva

för utveckling av maskininlärningsmetoder i genomanteckning minskar kostnaden och ökar kapaciteten för biologisk tolkning genom att minimera antalet funktioner som krävs. Figur 4b och ytterligare fil 1: figur S5B visar ändringarna av test auPRCs som antalet valda funktioner ökar för tre-klass och två-klass klassificeringar, respektive. I båda fallen ökar test auPRCs dramatiskt för de ursprungliga funktionerna, sedan prestanda platåer. Genom att jämföra de randomiserade DFS-kurvorna med de slumpmässiga skogskurvorna kan vi se att det inte finns någon enda optimal kurva. Några viktiga funktioner är tillräckliga för en bra förutsägelse prestanda. För att definiera ett optimalt antal funktioner som behövs passar vi kurvorna i Fig. 4B och ytterligare fil 1: figur S5B och valde skärningspunkten för en linje med lutning på 0,5 på de randomiserade DFS-kurvorna (se metoder). Färre funktioner behövs för TVÅKLASSIG CRR-förutsägelse (6 funktioner) jämfört med treklassiga modeller avsedda att skilja mellan A-E, A-P och bakgrund (10 funktioner).

fördelningarna av de tio bästa funktionerna för treklassiga förutsägelser (A-E, A-P och BG) ges i ytterligare fil 1: figur S4B. med hjälp av de tio bästa funktionerna för varje cell uppnåddes auPRCs av 0.9022, 0.9156, 0.8651 och 0.8565 på GM12878, HelaS3, HepG2 respektive K562. Hälften av dessa toppfunktioner är histonmodifieringar, varav H3K4me1, H3K4me2, H3K4me3 och H3K27me3 vanligtvis valdes ut för treklassmodellerna, i överensstämmelse med befintlig kunskap . Bland transkriptionsfaktorer (inklusive kofaktorer) väljs ofta Taf1 och p300, liksom RNA-polymeras II (Pol2), vilket också överensstämmer med befintlig kunskap .

ytterligare fil 1: figur S5C visar box tomter av de sex utvalda funktioner av randomiserade DFS för två-klass förutsägelser. Med hjälp av dessa funktioner erhölls auPRCs av 0,9561, 0,9627, 0,926 respektive 0,9555 på de fyra celltyperna. För de flesta funktioner höjs värdena i A-E och A-P i förhållande till bakgrundskategorierna. Hälften av de valda funktionerna är DNase-seq och histone modification ChIP-seq-data inklusive H3K4me2, H3K27ac och H3K27me3. Låddiagrammen för dessa funktioner indikerar att de skiljer A-E och A-P från bakgrunden .

majoriteten av DECRES genomomfattande förutsägelser stöds av andra metoder

vi tränade 2 – och 3-Klass multilayer perceptron (MLP) modeller (se metoder) med all referens (märkt) data för träning, för att förutsäga CRRs över hela genomet för sex celltyper (A549 och MCF7 utesluts). 2-klassmodellen identifierade 227 332 CRRs (angränsande regioner slogs samman), som upptar 4,8% av genomet (ytterligare fil 1: Tabell S4). Totalt 9153 CRRs förutspåddes allestädes närvarande i alla sex celltyper. För 3-klassens förutsägelse erhöll vi 301 650 A – E-regioner (6,8% av genomet) och 26 555 A-P-regioner (0,6% av genomet) tillsammans med 11 886 allestädes närvarande A-Es och 3678 allestädes närvarande a-Ps. Genomomfattande förutsägelser för alla sex celltyper finns i ytterligare Fil 2.

därefter undersökte vi överlappningen av våra förutsagda CRRs med de kombinerade och dReg-förutsägelserna på GM12878, HelaS3 och K562. Majoriteten av CRRs som förutses av DECRES överlappar resultaten från antingen kombinerad eller dReg, specifikt 86.13%, 76.13% och 83.63% för GM12878, HelaS3 respektive K562 (Fig. 5). En delmängd (13,87% på GM12878, 23,87% på HelaS3 och 16,37% på K562) av DECRES-förutsägelser överlappar inte med förutsägelser från de andra två verktygen. I synnerhet en stor del av de kombinerade förutsägelserna (56,78% på HelaS3, 55,99% på GM12878 och 36.36% på K562) överlappar inte med de från de övervakade metoderna, vilket överensstämmer med dess låga observerade valideringshastighet . Dessutom tenderar DECRES-förutsägelser att ha en finare upplösning för både A-P och A-E-regioner (se ytterligare fil 1: figur S14 för ett exempel).

Fig. 5
figur5

avtal mellan Decres CRRs och Combined och dReg CRRs om tre celltyper (a: GM12878, b: HelaS3, c: K562). TSS -, PF -, E-och WE-segmenteringarna från kombinerade märktes om till CRRs. De aktiva transkriptionella regleringselementen (TREs) som DREG förutspådde döptes om till CRRs

vi undersökte hur många bland våra genomomfattande förutsägelser som stöds av VISTA enhancer set . Trots det faktum att majoriteten av VISTA-förstärkarna är extremt bevarade över utvecklingen, finner vi fortfarande att 37.1% (850/2,293) av experimentellt bekräftade och obekräftade VISTA-förstärkare överlappar de förutsagda A-Es, medan bara 4.8% (110/2,293) av dessa VISTA-förstärkare överlappar den förutsagda a-Ps. Resultaten för experimentellt bekräftade VISTA-förstärkare är likartade (482/1,196 = 40.30% och 60/1, 196 = 5.02% överlappar A-Es respektive a-Ps), vilket tyder på att våra förutsagda aktiva förstärkare har verkliga förbättringsfunktioner. En del av VISTA-förstärkarna som inte överlappar våra förutsägelser kan vara aktiva specifikt under utveckling eller i andra celltyper än våra fokuscellinjer.

DECRES utökar FANTOM enhancer atlas

på grund av det begränsade djupet av BURSIGNALER för eRNAs, kommer en del aktiva (eller transkriberade) förstärkare inte att ha upptäckts i den ursprungliga sammanställningen av enhancer atlas. Därför försökte vi identifiera ytterligare delvis stödda förstärkare för vilka eRNA-signalerna var under de ursprungliga atlas-tröskelinställningarna . I det tidigare arbetet detekterades totalt 200 171 dubbelriktad transkriberad (BDT) loci över det mänskliga genomet med hjälp av BURTAGGAR av 808 celltyper och vävnader. Efter att ha uteslutit BDT-loci inom exoner återstod en delvis stödd uppsättning av 102 021 BDT-regioner, varav 43 011 balanserade loci (liknande eRNA-nivåer på båda sidor) utgör FANTOM enhancer atlas . För att undersöka om mer aktiva förbättringskandidater kan detekteras för var och en av de sex celltyperna tränade vi en MLP på dess aktiva atlasregioner och förutspådde klasser för alla 102,021 BDT-platser. Bland de 102 021 BDT-loci klassificerades de flesta som negativa regioner i en given cell (ytterligare fil 1: Tabell S5), medan i genomsnitt 13 316 förutspåddes som A-Es och endast 834 förutspåddes som A-Ps per celltyp. Ett betydande antal (6535 i genomsnitt) inaktiva förstärkare i den ursprungliga enhancer atlas förutspåddes som aktiva av vår modell (ytterligare fil 1: Tabell S6), i överensstämmelse med antagandet att BDT-data är ofullständiga för ett givet prov. I genomsnitt 5514 BDT loci uteslutna av den ursprungliga atlas, förutspåddes som A-Es per celltyp. Under de sex analyserade celltyperna förutspåddes totalt 38 601 BDT-loci som A-Es (ytterligare fil 3), varav 16 988 representerar en expansion av den ursprungliga FANTOM enhancer atlas. Observera att 21 398 av 43 011 förstärkare från den ursprungliga FANTOM enhancer atlas inte förutses som aktiva i de sex celler som analyseras här, men dessa regioner kan vara aktiva i de andra 802 cellerna för vilka det finns otillräckliga funktioner att analysera.

Beräkningsvalidering av DECRES förutsägelse med funktionell och motivberikningsanalys

vi utförde funktionell anrikningsanalys på genomövergripande förutspådda A-Es och A-Ps med stor . För gm12878-celler är 79% av förutsagda förstärkarregioner mer än 5 kilobaspar (kbps) bort från Gen TSSs (ytterligare fil 1: figur S15A), medan 47% av förutsagda promotorer är mindre än 5 kbps till den kommenterade genen TSSs (ytterligare fil 1: figur S15B). Liknande statistik erhölls för de återstående fem celltyperna. Annoteringsanalyser av Gm12878-specifika CRRs visar att proximala gener är associerade med: immunsvar från Gen ontologi (GO) anteckningar (ytterligare fil 1: figur S15C); B-cellsignalvägar från Msigdb-väganteckningar (ytterligare fil 1: figur S15D); och leukemi från sjukdom ontologi anteckningar (ytterligare fil 1: figur S15E). Resultaten överensstämmer med cellens lymfoblastoidlinje. Därefter utförde vi funktionell anrikningsanalys på BDT-stödda förutspådda förstärkare som inte tidigare rapporterats i FANTOM enhancer atlas (”inte i atlas”). Resultaten överensstämmer helt med ovanstående analys (ytterligare fil 1: figur S16).

vi utförde vidare motivberikningsanalys på de förutsagda cellspecifika CRRs och icke-atlasförstärkare med HOMER . De förutsagda regionerna berikas för motiv som liknar JASPAR-bindningsprofiler (ytterligare fil 1: figur S15F och figurer S16-S26) båda associerade med TFs som upprätthåller allmänna cellprocesser och TFs med selektiva roller i cellrelaterade funktioner. Till exempel, motiv för Jun -, Fos -, och Ets-relaterade faktorer berikades i regioner från alla sex celltyper. Dessa TFs reglerar allmänna cellulära framsteg såsom differentiering, proliferation eller apoptos . Cellanpassade TF-berikningar observerades för varje cell (sammanfattas i ytterligare fil 1: Tabell S7). Till exempel observeras RUNX1 och andra Runt-relaterade faktorer, som spelar avgörande roller vid hematopoies, i GM12878 (tilläggsfil 1: figur S15F och figur S16) . C / EBP-relaterade faktorer som reglerar gener som är involverade i immun-och inflammatoriska svar uttrycks i livmoderhalsen (ytterligare fil 1: figurerna S17 och S18) . Hnf1a, HNF1B, FOXA1, FOXA2, HNF4A och hnf4g faktorer reglerar leverspecifika gener (ytterligare fil 1: figurerna S19 och S20) . Nfy-faktorer samarbetar med GATA1 för att förmedla erytroidspecifik transkription i K562 (ytterligare fil 1: figurerna S25 och S26) .

vi utförde funktionella och anrikningsanalys på A-E och A-P förutsägelser från den kombinerade metoden , och rapportera resultaten i ytterligare fil 1: figurerna S27-S30. De flesta av de förutsagda promotorerna med den kombinerade metoden är distala till känd gen TSSs, vilket liknar förstärkare. Till exempel på cellinjen GM12878 ligger endast 22% av de kombinerade promotorerna mindre än 5 kbp till den kommenterade genen TSSs, jämfört med 47% av DECRES-promotorerna. Dessutom återvände funktionell analys på CRRs som förutspåddes av den kombinerade metoden mycket mindre eller noll signifikanta termer för GO biologisk process, msigdb-väg och sjukdom ontologi än DECRES-förutsägelserna. Motivanalysresultaten för båda metoderna är konsekventa.

Lämna ett svar

Din e-postadress kommer inte publiceras.

Previous post Design FMEA (DFMEA)
Next post Reddit ' s kvinnliga Dating strategi förvandlar kärlek till ett spel. Fungerar det?