genom-wide prediksjon av cis-regulatoriske regioner ved hjelp av overvåket dyp læring metoder

Dyp læring nøyaktig skiller aktive forsterkere og arrangører fra bakgrunn

vi undersøkte kapasiteten til dype læringsmodeller for å skille forsterkere og arrangører, og for å skille dem fra andre regioner og mellom aktivitetstilstander. Vi trente et dypt feedforward nevralt nettverk over våre balansert merkede treningssett for å forutsi våre (ubalanserte) testsett fra hver godt karakterisert celletype, og gjenta prosedyren 100 ganger. Den dype modellen tar eksperimentelt avledede funksjoner over genomiske regioner som innganger og utganger klasseetiketter av disse regionene med sannsynligheter (se Tilleggsfil 1: Tabell S1 for totalt antall prøver av hver klasse og Tilleggsfil 1: Tabell S2 for antall tilgjengelige funksjoner; se Metoder). For fortellende bekvemmelighet refererer vi heretter til aktiv forsterker, aktiv promoter, aktiv ekson, inaktiv forsterker, inaktiv promoter, inaktiv ekson og ukjent (eller ukarakterisert) region som Henholdsvis A-E, A-P, A-X, I-e, I-P, i-X og UK. Under antagelsen om at aktive Crr-er gjennomgår transkripsjon, gjelder aktiv for regioner der BUR-transkripsjonsinitieringshendelser observeres i fokusvevet, mens inaktive refererer til regioner som oppdages i andre vev, men ikke i fokusvevet. Vi registrerte gjennomsnittlig klassevis rate (dvs. gjennomsnittlig følsomhet i alle klasser), område under mottakerens driftskarakteristiske kurve (auroc) og området under presisjonskurven (auPRC) I Fig. 1 Og Tilleggsfil 1: Figur S1.

Fig. 1
figur1

Gjennomsnittlig ytelse og standardavvik på 100 løp ved HJELP AV MLP-modellen på våre henholdsvis samplede togtestpartisjoner av åtte celletyper. A Klassifisering forestillinger Av A-E versus A-P. b Klassifisering forestillinger Av A-E versus I-E. C Klassifisering forestillinger Av A-E versus A-P versus BG. MLP: Flerlags Oppfatning, RF: Tilfeldig Skog, A-E: Aktiv Enhancer, A-P: Aktiv Promoter, A-X: Aktiv Exon, I-E: Inaktiv Enhancer, I-P: Inaktiv Promoter, I-X: Inaktiv Exon, UK: Ukjent eller Ukarakterisert, BG: I-e + I-P + A-X + I-x + UK

det er fire aspekter av resultatene som vi fremhever, som bekrefter kapasiteten til vår veiledet dyp læring tilnærming for å skille mellom klasser Av CRRs og bakgrunn. For det første er vi i stand til å skille mellom aktive forsterkere og promotorer (A-e versus A-P) (Fig. 1a). Vi brukte A-E og A-P som henholdsvis positive og negative treningsklasser. Samlet sett fant Vi At A-E og A-P er svært separerbare. For det andre kan vi skille mellom aktive Og inaktive Crr-Er(enten forsterkere eller promotorer). Fra Fig. 1b Og Tilleggsfil 1: Figur S1A, det kan observeres at gjennomsnittlig auPRCs PÅ GM12878, HelaS3, HepG2 og K562, som har de største treningssettene, er over 0,95 med små avvik for både forsterkere og promotorer. I resten av denne artikkelen ekskluderer Vi A549-og MCF7-cellelinjer i de fleste analyser på grunn av begrenset datatilgjengelighet. For det tredje, ikke uventet, er det vanskelig å skille mellom inaktive forsterkere og promotorer (Tilleggsfil 1: Figur S1B). Syv av de gjennomsnittlige klassevisene for de åtte celletypene var lavere enn 0.80. Mens det er noen indikasjoner på at en del av inaktive arrangører har noen maskiner til stede, var det vår forventning om at slike regioner i stor grad ikke vil vise sterk transkripsjonsfaktorbinding eller passende epigenetiske signaturer for å informere en modell. Fjerde, vi testet anvendelsen av forutsi A-E og A-P fra super bakgrunn (bg) klasse sammenslåing I-E, I-P, A-X, I-X, OG UK (Fig. 1c). Resultatene på seks celletyper var lovende, alle oversteg 0.80 auPRC. Hvis A-E og A-P slås sammen for å danne en superklasse (A-E+A-P), oppnås høyere ytelse (Tilleggsfil 1: Figur S1C). Alle auPRCs på disse seks celletyper gikk utover 0.89 auPRC. Videre testet vi også en tilfeldig skogsmetode, en annen toppmoderne klassifikator, på våre merkede data. Lignende ytelse ble oppnådd på alle seks eksperimentelle innstillinger. Random forest-metoden viste litt bedre ytelse For a549 og MCF7 datasett, som begge har lavt antall forsterkere. I forventning om at flere annoterte forsterkere blir tilgjengelige, vil VI fortsette Å bruke MLP og utforske andre dype læringsmetoder som innviklede nevrale nettverk og tilbakevendende nevrale nettverk.

DECRES gir høyere følsomhet og presisjon PÅ FANTOM annotated regioner

for å vurdere den relative nytten av vår overvåket dyp metode for CRR prediksjon, vi sammenlignet Det med de uten tilsyn ChromHMM Og ChromHMM-Segway Kombinerte metoder ved HJELP FANTOM merknader på fem tilgjengelige celletyper som referanse. De ble sammenlignet på ubalanserte sett som gjenspeiler den sanne genomiske bakgrunnen. Resultatene er sammenlignet I Fig. 2a som viser radardiagrammer hvor jo større og mer konvekse området er, desto bedre ytelse. Det er intuitivt at overvåkede tilnærminger foretrekkes når merket treningsdata er tilstrekkelig. Videre ble begge uovervåkede metoder utviklet før offentlig utgivelse AV FANTOM5-dataene og er derfor ulempe. Imidlertid er disse merknadene mye brukt av samfunnet, og dermed er DEN relative ytelsen TIL DECRES til standarden av interesse. Samlet sett observerer VI AT DECRES overgår ChromHMM og Kombinerte metoder som igjen gir lignende ytelse. Disse ikke-overvåkede metodene har konsekvent lavere følsomhet for aktiv enhancer deteksjon (p = 5.57E-5 og 9.90 E-5 FOR DEKRES versus ChromHMM og Kombinert henholdsvis to tailed Studentens T-test; Se Fig. 2b) og lavere presisjon for aktiv promoter deteksjon (p=7,36 E-5 og 2,33 E-4 FOR DEKRES versus ChromHMM og Kombinert henholdsvis to tailed Studentens T-test; Se Fig. 2b). Ved Hjelp Av ChromHMM, den aktive enhancer følsomhet varierer fra 16,5% til 48,4% (tall er i samsvar med testen PÅ KODE spådd enhancers rapportert i ), mens vår dype modellen varierer fra 69% (K562) til 88,8% (GM12878). Dessuten Oppnår ChromHMM en maksimal presisjon på 49.8% for aktiv promoter prediksjon, mens maksimum FOR DECRES er på 84,3%.

Fig. 2
figur2

Sammenligning av overvåket metode (DECRES) og uovervåkede metoder (ChromHMM og Kombinert) på fem FANTOM annoterte testsett i radardiagrammer (a) og signifikans tester (b). KODESEGMENTASJONENE ble lastet ned fra . Vi relabelled merknadene Til ChromHMM Og Kombinert. For ChromHMM segmentations, Tss, TssF, Og PromF klasser ble slått sammen Til A-P; enh, Enh, EnhW, Enchwf klasser ble slått sammen Til A-E; og resten ble betegnet AV BG. VED behandling Av De Kombinerte merknadene ble TSS og PF relabelled Til A-P; E og VI ble relabelled Til A-E; og resten TIL BG. P-verdiene i (b) ble oppnådd fra to-tailed Studentens t-test på alle celletyper. Tegnene på statistiske verdier er angitt i parentes

Evaluering AV DECRES ytelse med uavhengige eksperimentelle data

som den første evalueringen fokuserte PÅ FANTOM erna-basert merknad Av CRRs, typen data som brukes til å trene vår overvåkede modell, søkte vi å vurdere ytelse på data generert av alternative metoder. Vi identifiserte to uavhengige samlinger av laboratorievaliderte forsterkere for ytterligere å vurdere YTELSEN TIL DEKRES: EN CRE-seq samling av regioner testet I k562 celler og mpra (massively parallel reporter assay) samlinger testet I K562 og HepG2 celler . I begge tilfeller kan settet av regioner som ikke direkte uttrykk, feilaktig forutsies av de vurderte metodene, men kan også gjenspeile fakta om at eksperimentelle prosedyrer bare inkluderer et lite segment av regulatorisk DNA, og at plasmid-baserte analyser ikke rekapitulerer kromatinegenskaper. Gitt arten av dataene, forventer vi en del av de eksperimentelle negativene å være bona fide regulatoriske regioner.

i det første uavhengige settet ble undergrupper av forventede k562-forsterkere og negative regioner (som spådd Ved Den Kombinerte Kromhmm-og Segway-metoden) vurdert i laboratoriet ved BRUK AV CRE-seq . I den studien ble bare 33% av de» Kombinerte » forutsagte regulatoriske regionene funnet å være positive i forsøket, sammenlignet med 7% for det negative settet. VED Å bruke DECRES opplært på Alle tilgjengelige aktive reguleringsregioner Av k562-celler, validerte vi derfor vår metode på 386-regioner som viste aktiv enhanceraktivitet I K562 som validert AV CRE-seq sammenlignet med 298-kontrollregionene (Tilleggsfil 1: Tabell S3). Svært konsistent med resultatene ovenfor ble en sensitivitet på 65,5% (254/386) for de eksperimentelt validerte regionene vellykket spådd Som A-E; de resterende 132 regionene ble spådd som bakgrunn (ingen ble klassifisert som promotorer). FOR de 812 testede spådommene som var inaktive I CRE-seq-eksperimentet, klassifiserte DECRES 53.3% (433/812) som positive. FOR de 298 negative kontrollområdene forutslo DECRES alle å være negative (inkludert de 16 som var aktive i CRE-seq-eksperimentet). Viktigere, SOM DECRES score stige, kvaliteten på spådommer øke. Vi trakk histogrammet AV DECRES medlemskap score på 254 og 433 eksperimentelt positive Og negative Kombinerte forsterkere som ble spådd Som A-Es AV DECRES (Tilleggsfil 1: Figur S2). Fordelingen er signifikant forskjellig (p = 0.014, tosidig Mann-Whitney rang test).

den andre uavhengige samlingen, Der K562 og HepG2-spesifikke «strong enhancer» (som spådd Av ChromHMM) som inneholder spådde tf-bindingssteder for celle-selektive TFs ble testet ved hjelp av en massively parallel reporter assay (MPRA) . Bare 41% av forsterkerne ble påvist å være signifikant uttrykt(p = 0,05, tosidig Mann-Whitney rank test). VI brukte DECRES til å forutsi klassene AV mpra positive og mpra negative forsterkere. Vårt resultat I Tilleggsfil 1: Tabell S3 viser at 98.4% (120/122) og 97.8% (182/186) av mpra-positive forsterkere ble henholdsvis spådd Å være A-Es VED DEKRES For k562-og HepG2-celler, mens 92,3% (179/194) og 81,3% (217/267) av mpra-negative forsterkere fortsatt ble spådd som A-Es for Henholdsvis k562 og HepG2, men med forskjellige fordelinger AV DEKRESSKÅR (p= 4,8 E-6 og p= 2,3 E-6 for k562 og hepg2 henholdsvis tosidig MANN-WHITNEY rang test) (tilleggsfil 1: Figur S2). I samsvar med de andre uavhengige dataene, jo høyere DECRES score jo mer sannsynlig er de å være positive.

Vurdering av NYTTEN AV DNA-sekvensegenskaper på YTELSEN TIL DECRES

Nyere studier bekreftet AT DNA-sekvensegenskaper kan være nyttige for anerkjennelse av promotorer og forsterkere , og diskrimineringen mellom aktive og inaktive regulatoriske sekvenser ved bruk av streng sekvenskjerner. Dette bygger på den lenge anerkjente kapasiteten for inkludering Av CpG-øyer som funksjoner for å forbedre promotor prediksjon . VI søkte å avgjøre OM DNA-sekvensfunksjoner kan være informative for å skille mellom promotorer og forsterkere, og mellom aktive og inaktive klasser. Vi trente modellen med 351 sekvensfunksjoner (opprinnelig brukt i ) i flere scenarier. Resultatene vises I Fig. 3 Og Tilleggsfil 1: Figur S3. Først en dyp metode begrenset til sekvensfunksjoner for å diskriminere A-E og A-P (Fig. 3a) leverte auPRCs fra 0.8567 til 0.9370, som bekrefter at sekvensattributtene faktisk er informative. For det andre har sekvensfunksjoner et begrenset verktøy for å skille mellom aktive og inaktive tilstander av forsterkere og promotorer, noe som er logisk; mens de eksperimentelt avledede funksjonene kan skille dem sterkt (p=1.90 E-08 og 5.06E – 08 for forsterkere og promotorer henholdsvis to-tailed Studentens T-test; Se Fig. 3b Og Tilleggsfil 1: Figur S3A). Bruk av sekvensfunksjoner i fravær av eksperimentelle funksjoner har en lavere ytelse ved klassifisering Av A-E, A-P og BG på tvers av alle åtte celletyper (p=1.86 E-09, to-tailed Studentens T-test; Se Fig. 3c). Til slutt ble bedre resultater ikke oppnådd ved å kombinere eksperimentelle og sekvensfunksjoner (p=2,79 E-01, 6,56 E-01 og 1,17 E-01 I Fig. 3, to-tailed Studentens T-test).

Fig. 3
figur3

Sammenligning av gjennomsnittlig auPRCs over 100 resampling og omskolering på våre merkede områder ved hjelp av ulike funksjonssett. «Eksperimentell» betyr vårt eksperimentelt avledede neste generasjons sekvenseringsfunksjonssett. «Sekvens» betyr settet med 351 sekvensegenskaper som brukes i . «Eksperimentell + Sekvens» betyr kombinasjonen av disse to settene. sammenligning av de tre funksjonssettene I A-e versus A-P. B. Sammenligning av de tre funksjonssettene i A-e versus I-E. C. Sammenligning av de tre funksjonssettene I A-e versus A-P versus BG. P-verdiene i hver legende ble oppnådd ved hjelp av to-tailed Studentens t-test for å sammenligne «Eksperimentelle»-baserte resultater med Henholdsvis «Eksperimentell+Sekvens»-baserte og «Sekvens»-baserte resultater

Viktige funksjoner for DECRES ytelse

som eksperimentelle data kan være tidkrevende og dyre å produsere, søkte vi å bestemme det minimale settet av funksjoner som er mest informative for CRR-prediksjon fra et beregningsperspektiv. Vi brukte randomiserte dype funksjonsvalg (randomiserte DFS eller RDFS) og random forest (RF) modeller (se Metoder) for to-klasse og tre-klasse (A-e versus A-P versus BG) klassifikasjoner på fire celletyper (GM12878, HelaS3, HepG2 og K562) som har 72-135 funksjoner tilgjengelig.

Figur 4a og Tilleggsfil 1: Figur S4A viser funksjonens viktige poeng oppdaget av randomisert DFS og tilfeldig skog for tre-klasse klassifisering. Funksjonen betydning score produsert av disse metodene bør tolkes annerledes. I likhet med et fremovervalg, reflekterer funksjonens viktighetspoeng fra randomisert DFS hvilke funksjoner som foretrekkes i den tidlige fasen av den sparsomme modellen, mens betydningen av en funksjon av random forest indikerer rollen til denne funksjonen i sammenheng med bruken av den med alle andre funksjoner. Ved å bruke begge metodene i denne studien kan vi dermed få forskjellig innsikt i dataene. I våre eksperimenter kan begge metodene fange opp de viktigste funksjonene som angitt av viktighetsscore på tvers av alle fire cellelinjer. For eksempel er begge metodene enige om At Pol2, H3K4me1, Taf1 Og H3K27ac er nyttige for å skille aktive forsterkere og promotorer fra bakgrunnen I GM12878 cellelinje. I noen tilfeller utfyller de ulike tiltakene hverandre. For eksempel er H3K4me2 Og H4K20me1 merket som nøkkelfunksjoner av randomisert DFS, som er overbevisende som angitt av boksplottene I tilleggsfil 1: Figur S4B og Figur S6-S13, men overses av tilfeldig skog. Tbp ble fremhevet av tilfeldig skog I GM12878 og HelaS3 celler, men ble ikke plukket opp av randomisert DFS. Undersøke boksen plott av denne funksjonen I Ekstra fil 1: Tall S6 Og S7 avslører at denne funksjonen er diskriminerende å skille aktive enhancers og arrangører fra bakgrunnen, men det er ikke en dramatisk forskjell mellom aktive enhancers og arrangører. Viktige funksjoner som er innlemmet i en tilfeldig skogsmodell, kan ikke innlemmes før et siste stadium av DFS-prosessen. For Eksempel, I k562 cellelinje Ble C-Myc understreket av random forest, som faktisk er rimelig som vist I Tilleggsfil 1: Figur S12 og ble ikke valgt som en innledende funksjon I DFS-prosessen.

Fig. 4
figur4

Har betydning og klassifisering ytelse i 3-klasse (A-e versus A-P versus BG) scenario. En Funksjon betydning oppdaget av randomisert DFS (RDFS) og tilfeldig skog (RF) PÅ GM12878. Random forest har betydning score ble normalisert til for bedre sammenligning med randomisert DFS. b auPRC versus antall funksjoner innlemmet I RDFS OG RF. De annoterte punktene angir hvor en linje med helling 0.5 skjærer en montert kurve

for utvikling av maskinlæringsmetoder i genomannotasjon, minimerer antall funksjoner som kreves, kostnadene og øker kapasiteten til biologisk tolkning. Figur 4b Og Tilleggsfil 1: Figur S5B viser endringene av test auPRCs som antall utvalgte funksjoner øker for henholdsvis tre-klasse og to-klasse klassifikasjoner. I begge tilfeller, test auPRCs øke dramatisk for de første funksjonene, deretter ytelse platåer. Sammenligning av de randomiserte dfs-kurver med tilfeldige skogkurver, kan vi se at det ikke er noen optimal kurve. Noen viktige funksjoner er tilstrekkelig for en god prediksjon ytelse. For å definere et optimalt antall funksjoner som trengs, passer vi kurvene I Fig. 4b Og Tilleggsfil 1: Figur S5B og valgt skjæringspunktet for en linje med helling på 0,5 på de randomiserte dfs-kurvene (se Metoder). Færre funksjoner er nødvendig for to-klasse CRR prediksjon (6 funksjoner) sammenlignet med tre-klasse modeller ment å skille Mellom A-E, A-P og bakgrunn (10 funksjoner).

fordelingene av de ti beste funksjonene for tre-klasse spådommer (A-E, A-P og BG) er gitt I Tilleggsfil 1: Figur S4b. ved å Bruke de ti beste funksjonene for hver celle ble auPRCs av 0.9022, 0.9156, 0.8651 og 0.8565 oppnådd på HENHOLDSVIS GM12878, HelaS3, HepG2 og K562. Halvparten av disse toppfunksjonene er histonmodifikasjoner, hvorav H3K4me1, H3K4me2, H3K4me3 og H3K27me3 ofte ble valgt for de tre klassemodellene, i samsvar med eksisterende kunnskap . Blant transkripsjonsfaktorer (inkludert ko-faktorer) velges Ofte Taf1 og p300, SAMT Rna-polymerase II (Pol2), som også er i samsvar med eksisterende kunnskap .

Tilleggsfil 1: Figur S5C viser boksplott av de seks beste utvalgte funksjonene ved randomisert DFS for to-klasse spådommer. Ved hjelp av disse funksjonene ble auPRCs av 0,9561, 0,9627, 0,926 og 0,9555 oppnådd på henholdsvis fire celletyper. For de fleste funksjoner er verdiområdene forhøyet I A-E og A-P i forhold til bakgrunnskategoriene. Halvparten av de valgte funksjonene Er DNase-seq og histone modifikasjon ChIP-seq data inkludert H3K4me2, H3K27ac, Og H3K27me3. Boksplottene til disse funksjonene indikerer at De skiller A-E og A-P fra bakgrunnen .

flertallet AV DECRES ‘ genomspådommer støttes av andre metoder

vi trente 2 – og 3-klassers flerlags perceptron (MLP) – modeller (Se Metoder) ved å bruke alle referansedata (merket) for trening, for å forutsi Crr-er over hele genomet for seks celletyper (A549 og MCF7 ble ekskludert). 2-klassemodellen identifiserte 227 332 Crr (tilstøtende regioner ble fusjonert), som opptar 4,8% av genomet (Tilleggsfil 1: Tabell S4). Totalt 9153 Crr ble allestedsnærværende spådd på tvers av alle seks celletyper. For 3-klassens prediksjon oppnådde vi 301,650 A – e-regioner (6,8% av genomet) og 26,555 A-P-regioner (0,6% av genomet) sammen med 11,886 allestedsnærværende A-Es og 3678 allestedsnærværende A-Ps. Genomspådommer for alle seks celletyper er tilgjengelige I Tilleggsfil 2.

deretter undersøkte vi overlappingen av våre forventede Crr med Kombinert og dReg-spådommer PÅ GM12878, HelaS3 og K562. Flertallet Av CRRs spådd AV DECRES overlapper med resultatene Fra Enten Kombinert eller dReg, spesielt 86.13%, 76.13% og 83.63% for HENHOLDSVIS GM12878, HelaS3 og K562 (Fig. 5). En undergruppe (13.87% PÅ GM12878, 23.87% På HelaS3, og 16.37% På K562) AV DECRES spådommer ikke overlapper med spådommer fra de to andre verktøyene. Spesielt en stor del Av De Kombinerte spådommene (56.78% På HelaS3, 55.99% PÅ GM12878 og 36.36% På K562) overlapper ikke med de fra de overvåkede metodene, noe som er i samsvar med den lave observerte valideringsfrekvensen . VIDERE HAR DECRES-spådommer en tendens til å ha en finere oppløsning for Både A-P og A-e-regioner (se Tilleggsfil 1: Figur S14 for et eksempel).

Fig. 5
figur5

Avtaler AV DECRES CRRs med Kombinert Og dReg CRRs på tre celletyper (A: GM12878, b: HelaS3, c: K562), henholdsvis. Tss, PF, E, OG VI segmentations Fra Kombinert ble relabelled Til CRRs. De aktive transkripsjonelle regulatoriske elementene (TREs) spådd av dReg ble omdøpt Til CRRs

Vi undersøkte hvor mange av våre genomspådommer som STØTTES av VISTA enhancer-settet . Til tross for at flertallet AV VISTA enhancers er ekstremt bevart over utvikling,finner vi fortsatt at 37.1% (850/2, 293) av eksperimentelt bekreftet og ubekreftet VISTA enhancers overlapper med spådd A-Es,mens bare 4.8% (110/2, 293) AV DISSE VISTA enhancers overlapper med spådd A-Ps. Resultatene for eksperimentelt bekreftet VISTA enhancers er like (482/1,196 = 40.30% og 60/1, 196 = 5.02% overlapper A-Es og A-Ps, henholdsvis), noe som tyder på at våre spådde aktive enhancers har reell enhancer funksjoner. En del AV VISTA-forsterkerne som ikke overlapper våre spådommer, kan være aktive spesielt under utvikling eller i andre celletyper enn våre fokuscellelinjer.

DECRES utvider FANTOM enhancer atlas

på grunn av den begrensede dybden AV BURSIGNALER for eRNAs, vil en del av aktive (eller transkriberte) forsterkere ikke ha blitt oppdaget i den opprinnelige samlingen av enhancer atlas. Derfor søkte vi å identifisere flere delvis støttede forsterkere for hvilke erna-signaler var under de opprinnelige atlas-terskelinnstillingene . I det forrige arbeidet ble totalt 200 171 toveis transkriberte (BDT) loci detektert over det menneskelige genomet, ved HJELP AV BURETIKETTER av 808 celletyper og vev. Etter å ha ekskludert bdt loci innenfor exons, ble et delvis støttet sett med 102 021 bdt-regioner igjen, hvorav 43 011 balanserte loci (lignende erna-nivåer på begge sider) utgjør FANTOM enhancer atlas . For å undersøke om mer aktive forsterkerkandidater kan oppdages for hver av de seks celletypene, trente VI EN MLP på sine aktive atlas-regioner og spådde klasser for alle 102.021 bdt-steder. Blant DE 102.021 bdt loci ble de fleste klassifisert som negative regioner i en gitt celle (Tilleggsfil 1: Tabell S5), mens i gjennomsnitt 13 316 ble spådd Som A-Es og bare 834 ble spådd som A-Ps per celletype. Et betydelig antall (6535 i gjennomsnitt) inaktive forsterkere i den opprinnelige enhancer atlas ble spådd som aktiv av vår modell (Tilleggsfil 1: Tabell S6), i samsvar med antagelsen OM AT bdt-data er ufullstendige for en gitt prøve. I gjennomsnitt 5514 bdt loci ekskludert av den opprinnelige atlas, ble spådd Som A-Es per celletype. Over de seks analyserte celletyper ble totalt 38 601 bdt loci spådd Som A-Es (Tilleggsfil 3), hvorav 16 988 representerer en utvidelse av den opprinnelige FANTOM enhancer atlas. Merk at 21,398 av 43,011 enhancers fra den opprinnelige FANTOM enhancer atlas ikke er spådd som aktiv i de seks cellene analysert her, men disse regionene kan være aktive i de andre 802 celler som det er utilstrekkelige funksjoner for å analysere.

Beregningsvalidering AV DECRES prediksjon ved hjelp av funksjonell og motiv berikelse analyse

vi utførte funksjonell berikelse analyse på genom-wide spådd A-Es og A-Ps ved HJELP AV STOR . FOR GM12878 celler, 79% av spådd enhancer regioner er mer enn 5 kilobase par (kbps) unna genet TSSs (Tilleggsfil 1: Figur S15A), mens 47% av spådde arrangører er mindre enn 5 kbps til annotert genet TSSs (Tilleggsfil 1: Figur S15B). Lignende statistikk ble oppnådd for de resterende fem celletyper. Annotasjonsanalyser av GM12878-spesifikke Crr-er viser at proksimale gener er knyttet til: immunrespons fra gene ontology (GO) – merknader (tilleggsfil 1: Figur S15c); b-cellesignalveier fra MSigDB-pathway-merknader (Tilleggsfil 1: Figur S15d); og leukemi fra sykdoms ontologi-merknader (Tilleggsfil 1: Figur S15e). Resultatene er i samsvar med lymfoblastoidlinjen til cellene. Deretter utførte vi funksjonell berikingsanalyse på bdt-støttede spådde forsterkere som ikke tidligere er rapportert I FANTOM enhancer atlas («ikke i atlas»). Resultatene er helt i samsvar med analysen ovenfor (Tilleggsfil 1: Figur S16).

vi utførte videre motiv berikelse analyse på spådd celle-spesifikke CRRs og ikke-i-atlas enhancers BRUKER HOMER . De forutsagte områdene er beriket for motiver som LIGNER på jaspar-bindingsprofiler (Tilleggsfil 1: Figur S15F og Figur S16-S26) både knyttet Til tfs som opprettholder generelle celleprosesser og TFs med selektive roller i cellerelaterte funksjoner. For Eksempel ble motiver For Jun -, Fos-og Ets-relaterte faktorer beriket i regioner fra alle seks celletyper. Disse TFs regulere generelle cellulære skrider som differensiering, proliferasjon, eller apoptose . Celletilpassede tf-anrikninger ble observert for hver celle (oppsummert I Tilleggsfil 1: Tabell S7). FOR EKSEMPEL OBSERVERES RUNX1 og Andre Runt-relaterte faktorer, som spiller avgjørende roller i hematopoiesis, I GM12878 (Tilleggsfil 1: Figur S15F og Figur S16). C / KBP-relaterte faktorer som regulerer gener involvert i immun – og betennelsesreaksjoner uttrykkes i livmorhalsen (Tilleggsfil 1: Tall S17 og S18). Hnf1a, HNF1B, FOXA1, FOXA2, HNF4A og HNF4G-faktorer regulerer leverspesifikke gener (Tilleggsfil 1: Tall S19 og S20). NFY-faktorer samarbeider med GATA1 for å formidle erytroid-spesifikk transkripsjon I K562 (Tilleggsfil 1: Tall S25 og S26).

vi utførte funksjonelle og berikelsesanalyser på a-E og A-P-prediksjonene fra Den Kombinerte metoden, og rapporterer resultatene I tilleggsfil 1: Tall S27-S30. De fleste av de forutsagte promotorene Ved Den Kombinerte metoden er distale til kjente gen-TSSs, som ligner på forsterkere. FOR eksempel PÅ CELLELINJE GM12878 er bare 22% Av De Kombinerte promotorene plassert mindre enn 5 kbp til det annoterte genet TSSs, sammenlignet med 47% AV DECRES-promotorene. Dess, funksjonell analyse På CRRs spådd Av Den Kombinerte metoden returnert mye mindre eller null signifikante vilkår FOR GO biologisk prosess, MSigDB vei, og sykdom ontologi enn DECRES spådommer. Motivanalyseresultatene fra begge metodene er konsistente.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.

Previous post Design FMEA (DFMEA)
Next post Reddit ' S Kvinnelig Dating Strategi blir kjærlighet til et spill. Virker det?