genom-dækkende forudsigelse af cis-regulerende regioner ved hjælp af overvågede dybe læringsmetoder

dyb læring skelner nøjagtigt aktive forstærkere og promotorer fra baggrunden

vi undersøgte kapaciteten hos dybe læringsmodeller til at adskille forstærkere og promotorer og skelne dem fra andre regioner og mellem aktivitetstilstande. Vi trænede et dybt fremadgående neuralt netværk over vores afbalancerede mærkede træningssæt for at forudsige vores (ubalancerede) testsæt fra hver velkarakteriseret celletype og gentage proceduren 100 gange. Den dybe model tager eksperimentelt afledte funktioner over genomiske regioner som input-og outputklasseetiketter for disse regioner med sandsynligheder (se yderligere fil 1: tabel S1 for det samlede antal prøver i hver klasse og yderligere fil 1: tabel S2 for antallet af tilgængelige funktioner; Se metoder). For narrativ bekvemmelighed henviser vi herefter til aktiv forstærker, aktiv promotor, aktiv ekson, inaktiv forstærker, inaktiv promotor, inaktiv ekson og ukendt (eller ukarakteriseret) region som henholdsvis A-E, A-P, A-E, I-e, I-p, I-H og UK. Under den antagelse, at aktive CRR ‘ er gennemgår transkription, gælder aktiv for regioner, hvor BURTRANSKRIPTINITIERINGSHÆNDELSER observeres i fokusvævet, mens inaktiv refererer til regioner, der er påvist i andre væv, men ikke i fokusvævet. Vi registrerede den gennemsnitlige klassvise Sats (dvs. auroc) og området under precision-recall-kurven (auPRC) i Fig. 1 og yderligere fil 1: Figur S1.

Fig. 1
figur1

gennemsnitlig ydelse og standardafvigelse på 100 kørsler ved hjælp af MLP-modellen på vores henholdsvis samplede togtestpartitioner af otte celletyper. a Klassificeringsopførelser af A-E versus A-P. B Klassificeringsopførelser af A-E versus I-E. C Klassificeringsopførelser af A-E versus A-P versus BG. MLP: Multilayer Perception, RF: tilfældig Skov, A-E: Aktiv forstærker, A-P: aktiv promotor, A-E: Aktiv Ekson, I-E: inaktiv forstærker, I-P: inaktiv promotor, i-E: inaktiv Ekson, UK: ukendt eller Ukarakteriseret, BG: I-E+I-P+A-H+I-H+UK

der er fire aspekter af de resultater, vi fremhæver, som bekræfter kapaciteten i vores overvågede dybe læringsmetode til at skelne mellem klasser af CRR ‘ er og baggrund. For det første er vi i stand til at skelne mellem aktive forstærkere og promotorer (A-E versus A-P) (Fig. 1a). Vi brugte A – E og A-P som henholdsvis positive og negative træningskurser. Samlet set fandt vi, at A – E og A-P er meget adskillelige. For det andet kan vi skelne mellem aktive og inaktive CRR ‘ er (enten forstærkere eller promotorer). Fra Fig. 1B og yderligere fil 1: Figur S1A, det kan observeres, at gennemsnitlige auprc ‘ er på GM12878, HelaS3, HepG2 og K562, som har de største træningssæt, er over 0,95 med små afvigelser for både forstærkere og promotorer. I resten af dette papir udelukker vi a549-og MCF7-cellelinjer i de fleste analyser på grund af begrænset datatilgængelighed. For det tredje er det ikke uventet vanskeligt at skelne mellem inaktive forstærkere og promotorer (yderligere fil 1: Figur S1B). Syv af de gennemsnitlige klassvise satser for de otte celletyper var lavere end 0,80. Mens der er nogle indikationer på, at en del af inaktive promotorer har noget maskineri til stede, det var vores forventning om, at sådanne regioner stort set ikke vil udvise stærk transkriptionsfaktorbinding eller passende epigenetiske signaturer for at informere en model. For det fjerde testede vi anvendeligheden af at forudsige A-E og A-P fra super background-klassen (BG), der fusionerer I-E, I-P, A-H, I-H og UK (Fig. 1c). Resultaterne på seks celletyper var lovende, alle oversteg 0,80 auPRC. Hvis A – E og A-P flettes yderligere for at danne en superklasse (A-E+A-P), opnås højere ydelse (yderligere fil 1: Figur S1C). Alle auprc ‘ er på disse seks celletyper gik ud over 0,89 auprc. Desuden testede vi også en tilfældig skovmetode, en anden avanceret klassifikator, på vores mærkede data. Lignende ydeevne blev opnået på alle seks eksperimentelle indstillinger. Random forest-metoden udviste lidt bedre ydelse for a549-og MCF7-datasæt, som begge har et lavt antal forstærkere. I forventning om, at flere kommenterede forstærkere bliver tilgængelige, vil vi fortsætte med at bruge MLP og udforske andre dybe læringsmetoder såsom indviklede neurale netværk og tilbagevendende neurale netværk.

DECRES giver højere følsomhed og præcision på FANTOM annoterede regioner

for at vurdere den relative nytte af vores overvågede dybe metode til CRR-forudsigelse sammenlignede vi den med de ikke-overvågede ChromHMM-og ChromHMM-Segge kombinerede metoder ved hjælp af FANTOM-annoteringer på fem tilgængelige celletyper som reference. De blev sammenlignet på ubalancerede sæt, der afspejler den sande genomiske baggrund. Resultaterne sammenlignes i Fig. 2a, der viser radardiagrammer, hvor jo større og mere konveks området er, desto bedre er ydeevnen. Det er intuitivt, at overvågede tilgange foretrækkes, når mærkede træningsdata er tilstrækkelige. Desuden blev begge ikke-overvågede metoder udviklet inden offentliggørelsen af FANTOM5-dataene og er derfor dårligere stillet. Imidlertid, disse anmærkninger bruges i vid udstrækning af samfundet, og derfor er den relative præstation af DECRES til standarden af interesse. Samlet set bemærker vi, at DECRES overgår ChromHMM og kombinerede metoder, som igen leverer lignende ydeevne. Disse ikke-overvågede metoder har konsekvent lavere følsomheder for aktiv enhancer detektion (p = 5.57E – 5 og 9.90 E-5 for DECRES versus ChromHMM og kombineret henholdsvis to tailed studerendes t-test; Se Fig. 2b) og lavere præcision til aktiv promotordetektion (p=7,36 E-5 og 2,33 E-4 for DECRES versus ChromHMM og kombineret henholdsvis to halede studerendes t-test; Se Fig. 2b). Ved hjælp af ChromHMM varierer den aktive forstærker følsomhed fra 16,5% til 48,4% (tal er i overensstemmelse med testen på ENCODE forudsagte forstærkere rapporteret i ), mens vores dybe model varierer fra 69% (K562) til 88,8% (GM12878). Desuden opnår ChromHMM en maksimal præcision på 49.8% for aktiv promotor forudsigelse, mens maksimum for DECRES er på 84.3%.

Fig. 2
figur2

sammenligning af den overvågede metode (DECRES) og ikke-overvågede metoder (ChromHMM og kombineret) på fem FANTOM-annoterede testsæt i radardiagrammer (A) og signifikansprøver (b). De ENCODE segmenteringer blev hentet fra . Vi ommærkede annotationerne af ChromHMM og kombineret. For ChromHMM-segmenteringer blev TSS -, Tssf-og PromF-klasserne fusioneret til A-P; enh -, EnhF -, enhv -, enhv-klasserne blev fusioneret til A-E; og resten blev betegnet af BG. Ved behandling af de kombinerede anmærkninger blev TSS og PF ommærket til A-P; E og vi blev ommærket til A-E; og resten til BG. P-værdierne i (b) blev opnået fra to-tailed studerendes t-test på alle celletyper. Tegnene på statistiske værdier er angivet i parentes

evaluering af DECRES-ydeevne med uafhængige eksperimentelle data

da den indledende evaluering fokuserede på FANTOM eRNA-baseret annotation af CRRs, typen af data, der blev brugt til at træne vores overvågede model, forsøgte vi at vurdere ydeevnen på data genereret ved alternative metoder. Vi identificerede to uafhængige samlinger af laboratorievaliderede forstærkere for yderligere at vurdere præstationen af DECRES: en samling af regioner testet i k562 celler og MPRA (massively parallel reporter assay) samlinger testet i k562 og HepG2 celler . I begge tilfælde kan det sæt regioner, der ikke direkte ekspression, forudsiges fejlagtigt ved de vurderede metoder, men kan også afspejle de kendsgerninger, at de eksperimentelle procedurer kun inkluderer et lille segment af regulatorisk DNA, og at plasmidbaserede analyser ikke rekapitulerer kromatinegenskaber. I betragtning af arten af dataene forventer vi, at en del af de eksperimentelle negativer er bona fide regulerende regioner.

i det første uafhængige sæt blev undergrupper af forudsagte k562-forstærkere og negative regioner (som forudsagt ved den kombinerede Kromhmm-og Segvejsmetode) vurderet i laboratoriet ved hjælp af CRE-sekv . I denne undersøgelse viste det sig, at kun 33% af de “kombinerede” forudsagte reguleringsregioner var positive i eksperimentet sammenlignet med 7% for det negative sæt. Ved hjælp af DECRES uddannet på alle tilgængelige aktive reguleringsregioner i k562-celler validerede vi derfor vores metode på 386 regioner, der viser aktiv forstærkeraktivitet i K562 som valideret af CRE-sek sammenlignet med de 298 kontrolregioner (yderligere fil 1: tabel S3). Meget i overensstemmelse med ovenstående resultater blev en følsomhed på 65,5% (254/386) for de eksperimentelt validerede regioner med succes forudsagt som A-e; de resterende 132 regioner blev forudsagt som baggrund (ingen blev klassificeret som promotorer). For de 812 testede forudsigelser, der var inaktive i CRE-sekv-eksperimentet, klassificerede DECRES 53,3% (433/812) som positive. For de 298 negative kontrolregioner forudsagde DECRES, at alle var negative (inklusive de 16, der var aktive i CRE-sekv-eksperimentet). Det er vigtigt, at når DECRES-scoringerne stiger, øges kvaliteten af forudsigelserne. Vi tegnede histogrammet for DECRES-medlemsresultater på 254 og 433 eksperimentelt positive og negative kombinerede forstærkere, der blev forudsagt som A-Es af DECRES (yderligere fil 1: Figur S2). Distributionerne er signifikant forskellige (p = 0.014, tosidet Mann-Hvidney rang test).

den anden uafhængige samling, hvor K562 og HepG2-specifik “stærk forstærker” (som forudsagt af ChromHMM) indeholdende forudsagte TF-bindingssteder for celleselektive TF ‘ er blev testet ved hjælp af et massivt parallelt reporterassay (MPRA) . Kun 41% af forstærkerne blev påvist at være signifikant udtrykt (p = 0,05, tosidet Mann-Hvidney rank test). Vi brugte DECRES til at forudsige klasserne af MPRA-positive og MPRA-negative forstærkere. Vores resultat i yderligere fil 1: tabel S3 viser, at 98,4% (120/122) og 97.8% (182/186) af de MPRA-positive forstærkere blev henholdsvis forudsagt at være A-Es ved DECRES for k562-og HepG2-celler, mens 92,3% (179/194) og 81,3% (217/267) af de MPRA-negative forstærkere stadig blev forudsagt som A-Es for henholdsvis k562 og HepG2, men med forskellige fordelinger af DECRES-score (p= 4,8 E-6 og p= 2,3 E-6 for k562 og HepG2 henholdsvis tosidet Mann-HVIDNEY rank test) (yderligere fil 1: Figur S2). I overensstemmelse med de andre uafhængige data, jo højere DECRES scorer, desto mere sandsynligt er de at være positive.

vurdering af nytten af DNA-sekvensegenskaber ved udførelsen af DECRES

nylige undersøgelser bekræftede , at DNA-sekvensegenskaber kan være nyttige til genkendelse af promotorer og forstærkere og diskrimination mellem aktive og inaktive regulatoriske sekvenser ved hjælp af strengsekvenskerner. Dette bygger på den længe anerkendte kapacitet til inkludering af CpG-øer som funktioner til forbedring af promotor forudsigelse . Vi forsøgte at afgøre, om DNA-sekvensfunktioner kan være informative for at skelne mellem promotorer og forstærkere og mellem aktive og inaktive klasser. Vi trænede modellen med 351 sekvensfunktioner (oprindeligt brugt i ) i flere scenarier. Resultaterne vises i Fig. 3 og yderligere fil 1: Figur S3. For det første en dyb metode begrænset til sekvensfunktioner til diskriminering af A-E og A-P (Fig. 3A) leverede auPRCs fra 0.8567 til 0.9370, hvilket bekræfter, at sekvensattributter faktisk er informative. For det andet har sekvensfunktioner et begrænset værktøj til at skelne mellem aktive og inaktive tilstande af forstærkere og promotorer, hvilket er logisk; mens de eksperimentelt afledte funktioner i høj grad kunne adskille dem (p=1,90 E-08 og 5.06E – 08 for forstærkere og promotorer henholdsvis to-tailed studerendes t-test; se Fig. 3b og yderligere fil 1: Figur S3A). Brug af sekvensfunktioner i fravær af eksperimentelle funktioner har en lavere ydelse ved klassificering af A-E, A-P og BG på tværs af alle otte celletyper (p=1,86 E-09, to-halet studerendes t-test; Se Fig. 3c). Endelig blev der ikke opnået bedre resultater ved at kombinere eksperimentelle og sekvensfunktioner (p=2,79 E-01, 6,56 E-01 og 1,17 E-01 i Fig. 3, to-tailed studerendes t-test).

Fig. 3
figur3

sammenligning af de gennemsnitlige auPRCs over 100 resampling og omskoling på vores mærkede regioner ved hjælp af forskellige funktionssæt. “Eksperimentel” betyder vores eksperimentelt afledte næste generations sekventeringsfunktionssæt. “Sekvens” betyder det sæt af 351 sekvensegenskaber, der anvendes i . “Eksperimentel + sekvens” betyder kombinationen af disse to sæt. a. sammenligning af de tre funktionssæt i A-E versus A-P. B. sammenligning af de tre funktionssæt i A-E versus I-E. C. sammenligning af de tre funktionssæt i A-E versus A-P versus BG. P-værdierne i hver legende blev opnået ved hjælp af to-halet studerendes t-test for at sammenligne “eksperimentelle”-baserede resultater med henholdsvis “eksperimentelle+sekvens”-baserede og “sekvens” – baserede resultater

nøglefunktioner til DECRES performance

da eksperimentelle data kan være tidskrævende og dyre at producere, forsøgte vi at bestemme det minimale sæt funktioner, der var mest informative til CRR-forudsigelse fra et beregningsperspektiv. Vi brugte randomiseret dyb funktionsvalg (randomiseret DFS eller RDFS) og tilfældig skov (RF) modeller (se metoder) til to-klasse og tre-klasse (A-E versus A-P versus BG) klassifikationer på fire celletyper (GM12878, HelaS3, HepG2 og K562), som har 72-135 tilgængelige funktioner.

figur 4a og yderligere fil 1: Figur S4A vise funktionen betydning scoringer opdaget af randomiserede DFS og tilfældig skov for tre-klasse klassificering. De funktionsværdier, der produceres ved disse metoder, skal fortolkes forskelligt. I lighed med et fremadvalg afspejler funktionsvigtighedsscore fra randomiserede DFS, hvilke funktioner der foretrækkes i den tidlige fase af den sparsomme model, mens vigtighedsscore for en funktion ved tilfældig skov angiver denne funktions rolle i sammenhæng med dens anvendelse med alle andre funktioner. Ved hjælp af begge metoder i denne undersøgelse kan vi således få forskellige indsigter i dataene. I vores eksperimenter kan begge metoder fange de vigtigste funktioner som angivet af vigtighedsscore på tværs af alle fire cellelinjer. For eksempel er begge metoder enige om, at Pol2, H3K4me1, Taf1 og H3K27ac er nyttige til at skelne aktive forstærkere og promotorer fra baggrunden i gm12878 cellelinje. I nogle tilfælde supplerer de forskellige foranstaltninger hinanden. For eksempel er H3K4me2 og H4K20me1 markeret som Nøglefunktioner af de randomiserede DFS, hvilket er overbevisende som angivet af boksens plot i yderligere fil 1: Figur S4B og figur S6-S13, men overses af tilfældig skov. Tbp blev fremhævet af tilfældig skov i gm12878 og HelaS3 celler, men blev ikke afhentet af randomiserede DFS. Undersøgelse af kasseplottene for denne funktion i yderligere fil 1: tal S6 og S7 afslører, at denne funktion er diskriminerende for at skelne aktive forstærkere og promotorer fra baggrunden, men der er ikke en dramatisk forskel mellem aktive forstærkere og promotorer. Vigtige funktioner, der er indarbejdet i en tilfældig skovmodel, må ikke inkorporeres før et sidste trin i DFS-processen. For eksempel i k562 cellelinje, C-Myc blev understreget af tilfældig skov, hvilket faktisk er rimeligt som vist i yderligere fil 1: Figur S12 og blev ikke valgt som en indledende funktion i DFS-processen.

Fig. 4
figur4

Feature betydning og klassificering ydeevne i 3-klasse (A-E versus A-P versus BG) scenario. en funktion betydning opdaget af randomiserede DFS (RDFS) og random forest (RF) på GM12878. Den tilfældige Skovs funktion vigtighedsscore blev normaliseret til for bedre sammenligning med randomiserede DFS. b auPRC versus antallet af funktioner, der er indarbejdet i RDFS og RF. De annoterede punkter angiver, hvor en linje med hældning 0.5 skærer en monteret kurve

til udvikling af maskinindlæringsmetoder i genom-annotation reducerer minimering af antallet af krævede funktioner omkostningerne og øger kapaciteten til biologisk fortolkning. Figur 4b og yderligere fil 1: Figur S5B viser ændringerne af test auPRCs, da antallet af valgte funktioner stiger for henholdsvis tre-klasse og to-klasse klassifikationer. I begge tilfælde, test auPRCs stige dramatisk for de oprindelige funktioner, derefter ydeevne plateauer. Sammenligning af de randomiserede DFS-kurver med de tilfældige skovkurver kan vi se, at der ikke er nogen enkelt optimal kurve. Et par nøglefunktioner er tilstrækkelige til en god forudsigelsesydelse. For at definere et optimalt antal nødvendige funktioner passer vi kurverne i Fig. 4B og yderligere fil 1: Figur S5B og valgte skæringspunktet for en linje med hældning på 0,5 på de randomiserede DFS-kurver (se metoder). Færre funktioner er nødvendige for to-klasse CRR forudsigelse (6 funktioner) sammenlignet med tre-klasse modeller beregnet til at skelne mellem A-E, A-P og baggrund (10 funktioner).

fordelingen af de ti bedste funktioner til forudsigelser i tre klasser (A-E, A-P og BG) er angivet i yderligere fil 1: Figur S4B. ved hjælp af de ti bedste funktioner for hver celle blev auprc ‘ er på henholdsvis 0,9022, 0,9156, 0,8651 og 0,8565 opnået på GM12878, HelaS3, HepG2 og K562. Halvdelen af disse topfunktioner er histonmodifikationer, hvoraf H3K4me1, H3K4me2, H3K4me3 og H3K27me3 var almindeligt udvalgte funktioner til de tre klassemodeller i overensstemmelse med eksisterende viden . Blandt transkriptionsfaktorer (inklusive cofaktorer) vælges Taf1 og p300 såvel som RNA-polymerase II (Pol2) ofte, hvilket også er i overensstemmelse med eksisterende viden .

yderligere fil 1: Figur S5C viser boks plots af de øverste seks udvalgte funktioner ved randomiserede DFS for to-klasse forudsigelser. Ved hjælp af disse funktioner blev auprc ‘ er på henholdsvis 0,9561, 0,9627, 0,926 og 0,9555 opnået på de fire celletyper. For de fleste funktioner hæves værdierne i A-E og A-P i forhold til baggrundskategorierne. Halvdelen af de valgte funktioner er DNase-sek og histon modifikation ChIP-sek data, herunder H3K4me2, H3K27ac og H3K27me3. Kasseplottene med disse funktioner indikerer, at de adskiller A-E og A-P fra baggrunden .

størstedelen af DECRES ‘s genomdækkende forudsigelser understøttes af andre metoder

vi trænede 2-og 3 – klasse flerlags perceptron (MLP) modeller (se metoder) ved hjælp af alle referencedata (mærket) til træning for at forudsige CRR’ er på tværs af hele genomet for seks celletyper (a549 og MCF7 blev udelukket). 2-klassemodellen identificerede 227.332 CRR ‘ er (tilstødende regioner blev fusioneret), som optager 4,8% af genomet (yderligere fil 1: tabel S4). I alt 9153 CRR ‘ er blev allestedsnærværende forudsagt på tværs af alle seks celletyper. Til 3-klasses forudsigelse opnåede vi 301.650 A-E-regioner (6,8% af genomet) og 26.555 A-P-regioner (0,6% af genomet) sammen med 11.886 allestedsnærværende A-Es og 3678 allestedsnærværende a-Ps. De genom-dækkende forudsigelser for alle seks celletyper er tilgængelige i yderligere fil 2.

dernæst undersøgte vi overlapningen af vores forudsagte CRR ‘ er med de kombinerede og dReg forudsigelser om GM12878, HelaS3 og K562. Størstedelen af CRR ‘ er forudsagt af DECRES overlapper resultaterne fra enten kombineret eller dReg, specifikt 86,13%, 76,13% og 83,63% for henholdsvis gm12878, HelaS3 og K562 (Fig. 5). En delmængde (13.87% på GM12878, 23.87% på HelaS3 og 16.37% på K562) af decres forudsigelser overlapper ikke med forudsigelser fra de to andre værktøjer. Især en stor del af de kombinerede forudsigelser (56.78% på HelaS3, 55.99% på GM12878OG 36.36% for K562) overlapper ikke med dem fra de overvågede metoder, hvilket er i overensstemmelse med dens lave observerede valideringshastighed . Desuden har DECRES-forudsigelser en tendens til at have en finere opløsning for både A-P og A-E-regioner (se yderligere fil 1: Figur S14 for et eksempel).

Fig. 5
figur5

aftaler mellem Decres CRRs og de kombinerede CRRs og dReg CRRs om henholdsvis tre celletyper (a: GM12878, B: HelaS3, c: K562). TSS, PF, E og vi segmenteringer fra Kombineret blev ommærket til CRRs. De aktive transkriptionelle regulatoriske elementer (TREs) forudsagt af dReg blev omdøbt til CRRs

vi undersøgte, hvor mange blandt vores genom-dækkende forudsigelser understøttes af VISTA enhancer-Sættet . På trods af at størstedelen af VISTA-forstærkere er ekstremt konserverede på tværs af udviklingen, finder vi stadig,at 37.1% (850/2.293) af eksperimentelt bekræftede og ubekræftede VISTA-forstærkere overlapper med de forudsagte A-Es, mens kun 4.8% (110/2. 293) af disse VISTA-forstærkere overlapper med den forudsagte a-Ps. Resultaterne for eksperimentelt bekræftede VISTA-forstærkere er ens (482/1,196 = 40,30% og 60/1,196 = 5,02% overlapper henholdsvis A-Es og A-Ps), hvilket antyder, at vores forudsagte aktive forstærkere har reelle forstærkerfunktioner. En del af VISTA-forstærkere, der ikke overlapper vores forudsigelser, kan være aktive specifikt under udvikling eller i andre celletyper end vores fokuscellelinjer.

DECRES udvider FANTOM enhancer atlas

på grund af den begrænsede dybde af BURSIGNALER for eRNAs, vil en del af aktive (eller transkriberede) forstærkere ikke være blevet detekteret i den originale samling af enhancer atlas. Derfor forsøgte vi at identificere yderligere delvist understøttede forstærkere, for hvilke eRNA-signaler var under de oprindelige atlas-tærskelindstillinger . I det foregående arbejde blev i alt 200.171 tovejs transkriberede (BDT) loci detekteret på tværs af det humane genom ved hjælp af BURMÆRKER på 808 celletyper og væv. Efter at have ekskluderet BDT loci inden for eksoner forblev et delvist understøttet sæt på 102.021 BDT-regioner, hvoraf 43.011 afbalancerede loci (lignende eRNA-niveauer på begge sider) udgør FANTOM enhancer atlas . For at undersøge, om der kan påvises flere aktive forstærkerkandidater for hver af de seks celletyper, trænede vi en MLP på dens aktive atlasregioner og forudsagde klasser for alle 102.021 BDT-steder. Blandt de 102.021 BDT loci blev de fleste klassificeret som negative regioner i en given celle (yderligere fil 1: Tabel S5), mens der i gennemsnit blev forudsagt 13.316 som A-Es, og kun 834 blev forudsagt som A-Ps pr.celletype. Et betydeligt antal (6535 i gennemsnit) inaktive forstærkere i det originale enhancer atlas blev forudsagt som aktive af vores model (yderligere fil 1: tabel S6), i overensstemmelse med antagelsen om, at BDT-data er ufuldstændige for en given prøve. I gennemsnit blev 5514 BDT loci ekskluderet af det oprindelige atlas forudsagt som A-Es pr.celletype. I løbet af de seks analyserede celletyper blev i alt 38.601 BDT loci forudsagt som A-Es (yderligere fil 3), hvoraf 16.988 repræsenterer en udvidelse af originalen FANTOM enhancer atlas. Bemærk, at 21.398 ud af 43.011 forstærkere fra det originale FANTOM enhancer atlas ikke forudsiges som aktive i de seks celler, der analyseres her, men disse regioner kan være aktive i de andre 802 celler, for hvilke der er utilstrækkelige funktioner til at analysere.

Beregningsvalidering af DECRES ‘ Forudsigelse ved hjælp af funktionel og motivberigelsesanalyse

vi udførte funktionel berigelsesanalyse på det genomdækkende forudsagte a-Es og A-Ps ved hjælp af GREAT . For gm12878-celler er 79% af de forudsagte forstærkerregioner mere end 5 kilobasepar (kbps) væk fra Gen-TSS ‘er (yderligere fil 1: Figur S15A), mens 47% af de forudsagte promotorer er mindre end 5 kbps til det annoterede gen-TSS’ er (yderligere fil 1: Figur S15B). Lignende statistikker blev opnået for de resterende fem celletyper. Annotationsanalyser af de GM12878-specifikke CRR ‘ er viser, at proksimale gener er forbundet med: immunrespons fra Gen-ontologi (GO) – annoteringer (yderligere fil 1: Figur S15C); B-cellesignaleringsveje fra msigdb-sti-annoteringer (yderligere fil 1: Figur S15D); og leukæmi fra sygdom ontologi-annoteringer (yderligere fil 1: Figur S15E). Resultaterne er i overensstemmelse med lymfoblastoidlinjen af cellerne. Dernæst udførte vi funktionel berigelsesanalyse på de BDT-understøttede forudsagte forstærkere, der ikke tidligere er rapporteret i FANTOM enhancer atlas (“ikke i atlas”). Resultaterne er helt i overensstemmelse med ovenstående analyse (yderligere fil 1: Figur S16).

vi udførte yderligere motivberigelsesanalyse på de forudsagte cellespecifikke CRR ‘ er og ikke-i-atlas-forstærkere ved hjælp af HOMER . De forudsagte regioner er beriget for motiver svarende til JASPAR-bindingsprofiler (yderligere fil 1: Figur S15F og figurer S16-S26), der begge er forbundet med TFs, der opretholder generelle celleprocesser og TFs med selektive roller i cellerelaterede funktioner. For eksempel blev motiver til Jun-, Fos-og Ets-relaterede faktorer beriget i regioner fra alle seks celletyper. Disse TF ‘ er regulerer generelle cellulære fremskridt, såsom differentiering, proliferation eller apoptose . Celle-passende TF-berigelser blev observeret for hver celle (opsummeret i yderligere fil 1: tabel S7). For eksempel observeres RUNKS1 og andre Runt-relaterede faktorer, som spiller afgørende roller i hæmatopoiesis, i GM12878 (yderligere fil 1: Figur S15F og figur S16) . C / EBP-relaterede faktorer, der regulerer gener involveret i immun-og inflammatoriske reaktioner, udtrykkes i livmoderhalsen (yderligere fil 1: Figur S17 og S18) . Hnf1a, HNF1B, RÆVE1, RÆVE2, HNF4A og hnf4g-faktorer regulerer leverspecifikke gener (yderligere fil 1: Figur S19 og S20) . NFY-faktorer samarbejder med GATA1 for at formidle erythroid-specifik transkription i K562 (yderligere fil 1: figurer S25 og S26) .

vi udførte funktionel og berigelsesanalyse på A-E og A-P forudsigelser fra den kombinerede metode og rapporterer resultaterne i yderligere fil 1: tal S27-S30. De fleste af de forudsagte promotorer ved den kombinerede metode er distale til kendte gen-TSS ‘ er, hvilket svarer til forstærkere. For eksempel på cellelinie GM12878 er kun 22% af de kombinerede promotorer placeret mindre end 5 kbp til det annoterede gen TSSs sammenlignet med 47% af DECRES-promotorerne. I øvrigt, funktionel analyse af CRRs forudsagt af den kombinerede metode returnerede meget mindre eller nul signifikante udtryk for GO biologisk proces, msigdb vej, og sygdom ontologi end DECRES forudsigelser. Motivanalyseresultaterne for begge metoder er konsistente.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

Previous post Design FMEA (DFMEA)
Next post Reddit ' s Kvindelige Dating strategi forvandler kærlighed til et spil. Virker det?