Genome-wide prediction of cis-regulatory regions using supervised deep learning methods

Deep learning onderscheidt actieve versterkers en promotors nauwkeurig van achtergrond

we onderzochten de capaciteit van deep learning modellen om versterkers en promotors te scheiden, en om ze te onderscheiden van andere regio ‘ s en tussen activiteitstoestanden. We trainden een diep feedforward neuraal netwerk over onze gebalanceerde gelabelde trainingssets om onze (ongebalanceerde) testsets van elk goed gekarakteriseerd celtype te voorspellen, waarbij de procedure 100 keer werd herhaald. Het deep model neemt experimenteel afgeleide kenmerken over genomische regio ’s als in-en uitgangen klasse labels van deze regio’ s met waarschijnlijkheden (zie aanvullend bestand 1: tabel S1 voor het totale aantal monsters van elke klasse en aanvullend bestand 1: tabel S2 voor het aantal beschikbare kenmerken; Zie methoden). Voor verhalend gemak verwijzen we hierna naar actieve versterker, actieve promotor, actieve exon, inactieve versterker, inactieve promotor, inactieve exon en onbekende (of niet-gekarakteriseerde) regio als respectievelijk A-E, A-P, A-X, I-E, I-P, I-X en UK. In de veronderstelling dat actieve CRR ’s transcriptie ondergaan, is actief van toepassing op regio’ s waarin KOOISTRANSCRIPT initiatie gebeurtenissen worden waargenomen in het weefsel van focus, terwijl inactief verwijst naar regio ‘ s gedetecteerd in andere weefsels, maar niet in het focusweefsel. We noteerden de gemiddelde klasse-wijze tarief (d.w.z. gemiddelde gevoeligheden van alle klassen), gebied onder de bedieningskarakteristiek van de ontvanger (auroc) en het gebied onder de precisieherroephoogte (auPRC) in Fig. 1 en aanvullend bestand 1: Figuur S1.

Fig. 1
figuur 1

gemiddelde prestaties en standaardafwijking van 100 runs met behulp van het MLP-model op onze respectievelijk bemonsterde trein-test partities van acht celtypen. a classificatie prestaties van A-E versus a-P. B classificatie prestaties van A-E versus I-E. c classificatie prestaties van A-E versus A-P versus BG. MLP: Multilayer Perception, RF: Random Forest, A-E: Active Enhancer, A-P: Active promotor, A-X: Active Exon, I – E: Inactive Enhancer, I-P: Inactive promotor, I-X: Inactive Exon, UK: Unknown or Unkaracterized, BG: I-E+I-P+A-X+I-X+UK

er zijn vier aspecten van de resultaten die we benadrukken, die de capaciteit van onze gecontroleerde diep leren benadering bevestigen om onderscheid te maken tussen klassen van CRR ‘ s en achtergrond. Ten eerste kunnen we onderscheid maken tussen actieve versterkers en promotors (A-E versus A-P) (Fig. 1 bis). We gebruikten A-E en A-P als respectievelijk positieve en negatieve trainingsklassen. Over het algemeen vonden we dat A-E en A-P zeer scheidbaar zijn. Ten tweede kunnen we actieve en inactieve CRR ‘ s onderscheiden (zowel versterkers als promotors). Van Fig. 1b en aanvullend dossier 1: Figuur S1A, kan worden opgemerkt dat de gemiddelde auPRCs op GM12878, HelaS3, HepG2, en K562, die de grootste trainingssets hebben, boven 0.95 met kleine variaties voor zowel versterkers als promotors zijn. In de rest van dit artikel sluiten we a549-en MCF7-cellijnen uit in de meeste analyses vanwege de beperkte beschikbaarheid van gegevens. Ten derde, niet onverwacht, is het moeilijk om onderscheid te maken tussen inactieve enhancers en promotors (aanvullend bestand 1: Figuur S1B). Zeven van de gemiddelde klasse-wijze tarieven voor de acht celtypes waren lager dan 0,80. Hoewel er enkele aanwijzingen zijn dat een deel van de inactieve promotors een aantal machines aanwezig heeft, was het onze verwachting dat dergelijke regio ‘ s grotendeels geen sterke transcriptiefactor-binding of geschikte epigenetische signaturen zullen vertonen om een model te informeren. Ten vierde testten we de toepasbaarheid van het voorspellen van A-E en A-P vanuit de super background (BG) klasse die I-E, I-P, A-X, I-X en UK samenvoegt (Fig. 1c). De resultaten op zes celtypes waren veelbelovend, alle overschreden 0,80 auPRC. Als A-E en A-P verder worden samengevoegd tot een superklasse (A-E+A-P), worden hogere prestaties bereikt (aanvullend bestand 1: Figuur S1C). Alle auprc ‘ s op deze zes celtypes gingen verder dan 0.89 auPRC. Daarnaast hebben we ook een random forest-methode, een andere state-of-the-art classifier, getest op onze gelabelde gegevens. Vergelijkbare prestaties werden verkregen op alle zes experimentele instellingen. De random forest methode vertoonde iets betere prestaties voor a549 en MCF7 datasets, die beide een laag aantal enhancers hebben. In de verwachting dat meer geannoteerde enhancers beschikbaar komen, zullen we MLP blijven gebruiken en andere deep learning benaderingen zoals convolutionele neurale netwerken en terugkerende neurale netwerken verkennen.

DECRES geeft een hogere gevoeligheid en precisie op FANTOM geannoteerde gebieden

om het relatieve Nut van onze gecontroleerde diepe methode voor CRR voorspelling te beoordelen, hebben we deze vergeleken met de niet-gecontroleerde ChromHMM en ChromHMM-Segway gecombineerde methoden waarbij FANTOM annotaties op vijf beschikbare celtypes als referentie werden gebruikt. Ze werden vergeleken op onevenwichtige verzamelingen die de ware genomische achtergrond weerspiegelen. De resultaten worden vergeleken in Fig. 2a die radarkaarten toont waar hoe groter en convex het gebied is, hoe beter de prestaties. Het is intuïtief dat begeleide benaderingen de voorkeur krijgen wanneer gelabelde trainingsgegevens voldoende zijn. Bovendien werden beide methoden zonder toezicht ontwikkeld voordat de FANTOM5-gegevens openbaar werden gemaakt en zijn ze daarom in het nadeel. Nochtans, worden deze annotaties wijd gebruikt door de Gemeenschap en vandaar is de relatieve prestaties van DECRES aan de norm van belang. Over het algemeen zien we dat DECRES beter presteert dan ChromHMM en gecombineerde methoden die op hun beurt vergelijkbare prestaties leveren. Deze ongecontroleerde methoden hebben consequent lagere gevoeligheden voor actieve enhancer detectie (p = 5.57E-5 en 9.90 E-5 voor DECRES versus ChromHMM en gecombineerd respectievelijk, tweestaart Student T-test; zie Fig. 2b) en lagere precisie voor actieve promotor detectie (p = 7,36 E-5 en 2,33 E-4 voor DECRES versus ChromHMM en gecombineerd respectievelijk, tweestaart Student T-test; zie Fig. 2b). Met behulp van ChromHMM, de actieve Enhancer gevoeligheid varieert van 16,5% tot 48,4% (aantallen zijn consistent met de test op coderen voorspelde enhancers gemeld in ), terwijl ons diepe model varieert van 69% (K562) tot 88,8% (GM12878). Bovendien behaalt ChromHMM een maximale precisie van 49.8% voor voorspelling van de actieve promotor, terwijl het maximum voor DECRES 84,3% is.

Fig. 2
figuur 2

vergelijking van de onder toezicht staande methode (DECRES) en de methoden zonder toezicht (ChromHMM en gecombineerd) op vijf met FANTOM geannoteerde testsets in radarkaarten (A) en significantieproeven (b). De coderingssegmentaties zijn gedownload van . We herlabels de annotaties van ChromHMM en gecombineerd. Voor ChromHMM-segmentaties werden de klassen Tss, Tssf en PromF samengevoegd tot A-P; De klassen Enh, EnhF, EnhW en Enhw werden samengevoegd tot A-E; en de rest werd aangeduid door BG. Bij het verwerken van de gecombineerde annotaties werden TSS en PF opnieuw gelabeld naar A-P; E en wij werden opnieuw gelabeld naar A-E; en de rest naar BG. De p-waarden in (b) werden verkregen uit tweestaart Student t-test op alle celtypen. De tekens van de statistische waarden staan tussen haakjes

evaluatie van de prestaties van DECRES met onafhankelijke experimentele gegevens

aangezien de eerste evaluatie gericht was op FANTOM eRNA-gebaseerde annotatie van CRR ‘ s, het type gegevens dat gebruikt werd om ons onder toezicht staande model te trainen, hebben we getracht de prestaties te beoordelen op gegevens die door alternatieve methoden zijn gegenereerd. We identificeerden twee onafhankelijke collecties van laboratorium gevalideerde versterkers om de prestaties van DECRES verder te beoordelen: een CRE-seq verzameling van gebieden getest in k562 cellen en mpra (massively parallel reporter assay) collecties getest in k562 en HepG2 cellen . In beide gevallen kan de reeks regio ‘ s die niet direct tot expressie komen vals worden voorspeld door de beoordeelde methoden, maar kan het ook de feiten weerspiegelen dat de experimentele procedures slechts een klein segment van regulerend DNA omvatten en dat op plasmiden gebaseerde analyses de chromatineeigenschappen niet recapituleren. Gezien de aard van de gegevens, verwachten we dat een deel van de experimentele negatieven bonafide regulerende regio ‘ s zijn.

in de eerste onafhankelijke set werden deelverzamelingen van voorspelde k562-versterkers en negatieve regio ‘ s (zoals voorspeld door de gecombineerde ChromHMM-en Segway-methode) beoordeeld in het laboratorium met CRE-seq . In dat onderzoek bleek slechts 33% van de “gecombineerde” voorspelde regelgevingsgebieden positief te zijn in het experiment, tegenover 7% voor de negatieve reeks. Met behulp van DECRES getraind op alle beschikbare actieve regulerende regio ’s van k562 cellen, hebben we daarom onze methode gevalideerd op 386 regio’ s die actieve enhancer activiteit tonen in K562 zoals gevalideerd door CRE-seq in vergelijking met de 298 controle regio ‘ s (aanvullend bestand 1: tabel S3). In hoge mate in overeenstemming met bovenstaande resultaten werd een gevoeligheid van 65,5% (254/386) voor de experimenteel gevalideerde regio ’s met succes voorspeld als A-E; de overige 132 regio’ s werden voorspeld als achtergrond (geen enkele werd geclassificeerd als promotor). Voor de 812 geteste voorspellingen die inactief waren in het CRE-seq experiment, decres geclassificeerd 53,3% (433/812) als positief. Voor de 298 negatieve controlegebieden voorspelde DECRES dat alles negatief was (inclusief de 16 die actief waren in het CRE-seq-experiment). Belangrijk is dat naarmate de scores stijgen, de kwaliteit van de voorspellingen toeneemt. We tekenden het histogram van DECRES lidmaatschap scores van 254 en 433 experimenteel positieve en negatieve gecombineerde versterkers die werden voorspeld als A-Es door DECRES (aanvullend bestand 1: Figuur S2). De verdelingen zijn significant verschillend (p = 0.014, tweezijdige Mann-Whitney rank test).

de tweede onafhankelijke verzameling, waarin K562 en HepG2-specifieke “sterke versterker” (zoals voorspeld door ChromHMM) met voorspelde TF-bindingsplaatsen voor celselectieve TFs werden getest met behulp van een massively parallel reporter assay (MPRA) . Slechts 41% van de versterkers bleek significant tot expressie te komen (p = 0,05, tweezijdige Mann-Whitney rank test). We gebruikten DECRES om de klassen van de mpra positieve en MPRA negatieve versterkers te voorspellen. Ons resultaat In aanvullend bestand 1: tabel S3 laat zien dat 98,4% (120/122) en 97.8% (182/186) van de MPRA positieve versterkers werden respectievelijk voorspeld te worden A-Es van DECRES voor K562 en HepG2 cellen, terwijl van 92,3% (179/194) en 81.3% (217/267) van de MPRA negatieve versterkers waren nog voorspeld als Een-Es voor K562 en HepG2, respectievelijk, maar met verschillende distributies van DECRES-scores (p= 4.8 E-6 en p= 2.3 E-6 voor K562 en HepG2 respectievelijk tweezijdige Mann-Whitney rank test) (Extra bestand 1: Figuur S2). In overeenstemming met de andere onafhankelijke gegevens, hoe hoger de DECRES scores, hoe groter de kans dat ze positief zijn.

beoordeling van het nut van DNA-sequentieeigenschappen op de prestaties van DECRES

recente studies bevestigden dat DNA-sequentieeigenschappen nuttig kunnen zijn voor de herkenning van promotors en versterkers , en het onderscheid tussen actieve en inactieve regulerende sequenties met behulp van stringsequentiekernen. Dit bouwt voort op de reeds lang erkende capaciteit voor het opnemen van CpG-eilanden als functies om de voorspelling van de promotor te verbeteren . We probeerden te bepalen of de eigenschappen van de DNA-sequentie informatief kunnen zijn om onderscheid te maken tussen promotors en versterkers, en tussen actieve en inactieve klassen. We trainden het model met 351 sequence features (oorspronkelijk gebruikt in ) in meerdere scenario ‘ s. Resultaten worden weergegeven in Fig. 3 en aanvullend bestand 1: Figuur S3. Ten eerste, een diepe methode beperkt tot sequentiekenmerken voor het onderscheiden van A-E en A-P (Fig. 3a) geleverd auPRCs van 0,8567 tot 0,9370, bevestiging dat sequence attributen zijn inderdaad informatief. Ten tweede hebben sequentiekenmerken een beperkt nut om onderscheid te maken tussen actieve en inactieve toestanden van enhancers en promotors, wat logisch is; terwijl de experimenteel afgeleide kenmerken hen sterk zouden kunnen scheiden (p=1,90 E-08 en 5.06E-08 voor respectievelijk versterkers en promotors, tweestaart Student ‘ S t-test; zie Fig. 3b en aanvullend bestand 1: Figuur S3A). Het gebruik van sequentiekenmerken in de afwezigheid van experimentele kenmerken heeft een lagere prestatie in het classificeren van A-E, A-P en BG over alle acht celtypen (p=1,86 E-09, tweestaart Student t-test; zie Fig. 3c). Ten slotte werden geen betere resultaten bereikt door het combineren van experimentele en sequentiekenmerken (P = 2,79 E-01, 6,56 E-01 en 1,17 E-01 in Fig. 3, tweestaart Student t-test).

Fig. 3
figuur 3

vergelijking van de gemiddelde auPRCs meer dan 100 resampling en omscholing op onze gelabelde regio ‘ s met behulp van verschillende feature sets. “Experimenteel” betekent onze experimenteel afgeleide next generation sequencing feature set. “Sequentie”: de verzameling van 351 sequentieeigenschappen die wordt gebruikt in . “Experimentele + reeks” betekent de combinatie van deze twee verzamelingen. a. vergelijking van de drie feature sets in A-E versus a-P. B. vergelijking van de drie feature sets in A-E versus I-E. c. vergelijking van de drie feature sets in A-E versus A-P versus BG. De p-waarden in elke legende werden verkregen met behulp van tweestaart Student t-test te vergelijken “experimentele” – gebaseerde resultaten met”experimentele+sequentie “-gebaseerde en”sequentie” -gebaseerde resultaten, respectievelijk

belangrijkste kenmerken voor DECRES performance

omdat experimentele gegevens tijdrovend en duur kunnen zijn om te produceren, probeerden we de minimale set van functies te bepalen die het meest informatief zijn voor CRR-voorspelling vanuit een computationeel perspectief. We gebruikten randomized deep feature selection (randomized DFS of RDFS) en random forest (RF) modellen (zie methoden) voor twee-klasse en drie-Klasse (A-E versus A-P versus BG) classificaties op vier celtypen (Gm12878, HelaS3, HepG2, en K562) die 72-135 functies beschikbaar.

figuur 4a en aanvullend bestand 1: Figuur S4A geeft de functiebelangsscores weer die zijn ontdekt door gerandomiseerde DFS en random forest voor de classificatie met drie klassen. De functiebelangsscores die door deze methoden worden geproduceerd, moeten anders worden geïnterpreteerd. Net als bij een doorstuurselectie geven de functiebelangsscores van gerandomiseerde DFS aan welke functies de voorkeur krijgen in de vroege fase van het sparse-model, terwijl de belangsscore van een functie door random forest de rol van deze functie aangeeft in de context van het gebruik ervan met alle andere functies. Het gebruik van beide methoden in deze studie stelt ons in staat om verschillende inzichten in de data te krijgen. In onze experimenten kunnen beide methoden de belangrijkste kenmerken vastleggen, zoals aangegeven door belangsscores over alle vier cellijnen. Bijvoorbeeld, zijn beide methodes het erover eens dat Pol2, H3k4me1, Taf1, en H3K27ac nuttig zijn voor het onderscheiden van actieve versterkers en promotors van de achtergrond in de cellijn van GM12878. In sommige gevallen vullen de verschillende maatregelen elkaar aan. Bijvoorbeeld, H3K4me2 en H4K20me1 worden gemarkeerd als belangrijke functies door de gerandomiseerde DFS, wat overtuigend is zoals aangegeven door de box plots in aanvullend bestand 1: Figuur S4B en figuur S6-S13, maar worden over het hoofd gezien door random forest. Tbp werd gemarkeerd door random forest in gm12878 en HelaS3 cellen, maar werd niet opgepikt door gerandomiseerde DFS. Het onderzoeken van de box plots van deze functie in aanvullend bestand 1: figuren S6 en S7 blijkt dat deze functie discriminatief is om actieve versterkers en promotors te onderscheiden van achtergrond, maar er is geen dramatisch verschil tussen actieve versterkers en promotors. Belangrijke functies die in een willekeurig forest-model zijn opgenomen, mogen pas in een laatste fase van het DFS-proces worden opgenomen. Bijvoorbeeld, in k562 cellijn, werd c-Myc benadrukt door random forest, wat inderdaad redelijk is zoals getoond in aanvullend bestand 1: Figuur S12 en werd niet geselecteerd als een eerste functie in het DFS-proces.

Fig. 4
figuur 4

functie belang en classificatie prestaties in de 3-klasse (A-E versus A-P versus BG) scenario. een functie belang ontdekt door randomized DFS (RDFS) en random forest (RF) op GM12878. De functiebelangsscores van het willekeurige forest werden genormaliseerd voor een betere vergelijking met gerandomiseerde DFS. B auPRC versus het aantal functies opgenomen in de DTO ‘ s en RF. De geannoteerde punten geven aan waar een lijn met Helling 0.5 snijdt een passende kromme

voor de ontwikkeling van machine het leren methodes in genoomannotatie, het minimaliseren van het aantal vereiste eigenschappen verlaagt kosten en verhoogt de capaciteit voor biologische interpretatie. Figuur 4b en aanvullend bestand 1: Figuur S5B toont de veranderingen van de test auPRCs als het aantal geselecteerde functies toeneemt voor respectievelijk de drie-klasse en twee-klasse classificaties. In beide gevallen, test auPRCs drastisch te verhogen voor de eerste functies, dan prestaties plateaus. Als we de gerandomiseerde DFS-curves vergelijken met de willekeurige forest-curves, zien we dat er geen enkele optimale curve is. Een paar belangrijke kenmerken zijn voldoende voor een goede voorspelling prestaties. Om een optimaal aantal functies te definiëren, passen we de curves in Fig. 4b en aanvullend bestand 1: Figuur S5B en selecteerde het snijpunt voor een lijn met helling van 0,5 op de gerandomiseerde DFS curves (zie methoden). Er zijn minder functies nodig voor CRR-voorspelling van twee klassen (6 functies) in vergelijking met modellen van drie klassen die bedoeld zijn om onderscheid te maken tussen A-E, A-P en achtergrond (10 functies).

de distributies van de top tien functies voor drie-klasse voorspellingen (A-E, A-P, en BG) worden gegeven in aanvullend bestand 1: Figuur S4B. met behulp van de top tien functies voor elke cel, auPRCs van 0,9022, 0,9156, 0,8651, en 0,8565 werden bereikt op respectievelijk GM12878, HelaS3, HepG2 en K562. De helft van deze topfuncties zijn histone modificaties, waarvan H3K4me1, H3K4me2, H3K4me3 en H3K27me3 vaak werden geselecteerd functies voor de drie-klasse modellen, in overeenstemming met de bestaande kennis . Onder transcriptiefactoren (met inbegrip van co-factoren), worden Taf1 en p300, evenals RNA-polymerase II (Pol2), vaak geselecteerd, die ook met bestaande kennis consistent is .

aanvullend bestand 1: Figuur S5C toont kaderdiagrammen van de top zes geselecteerde kenmerken door gerandomiseerde DFS voor twee-klasse voorspellingen. Gebruikend deze eigenschappen, werden auPRCs van 0.9561, 0.9627, 0.926, en 0.9555 verkregen op de vier celtypes, respectievelijk. Voor de meeste functies worden de waarden in A-E en A-P verhoogd ten opzichte van de achtergrondcategorieën. De helft van de geselecteerde eigenschappen zijn DNase-seq en histone-de Spaander-seq gegevens met inbegrip van H3K4me2, H3K27ac, en H3K27me3. De vakdiagrammen van deze kenmerken geven aan dat ze A-E en A-P onderscheiden van achtergrond .

het merendeel van de genoombrede voorspellingen van DECRES wordt ondersteund door andere methoden

we trainden 2-en 3 – klasse multilayer percepttron (MLP) modellen (zie methoden) met behulp van alle referentie (gelabelde) gegevens voor training, om CRR ‘ s te voorspellen over het gehele genoom voor zes celtypen (a549 en MCF7 werden uitgesloten). Het 2-klasse model identificeerde 227.332 CRRs (aangrenzende gebieden werden samengevoegd), die 4,8% van het genoom bezetten (aanvullend dossier 1: tabel S4). Een totaal van 9153 CRR ‘ s werden alom voorspeld over alle zes celtypes. Voor de 3-klasse voorspelling, we verkregen 301.650 A-E regio ’s (6,8% van het genoom) en 26.555 A-P regio’ s (0,6% van het genoom) samen met 11.886 alomtegenwoordige a-Es en 3678 alomtegenwoordige A-Ps. De genoom – brede voorspellingen voor alle zes celtypes zijn beschikbaar in aanvullend dossier 2.

vervolgens onderzochten we de overlapping van onze voorspelde CRR ‘ s met de gecombineerde en dregvoorspellingen op GM12878, HelaS3 en K562. De meerderheid van de door DECRES voorspelde CRR ‘ s overlappen met de resultaten van gecombineerde of dReg, in het bijzonder 86,13%, 76,13% en 83,63% voor respectievelijk Gm12878, HelaS3 en K562 (Fig. 5). Een deelverzameling (13,87% op Gm12878, 23,87% op HelaS3, en 16,37% op K562) van DECRES voorspellingen overlappen niet met voorspellingen van de andere twee instrumenten. Met name een groot deel van de gecombineerde voorspellingen (56,78% op HelaS3, 55,99% op GM12878, en 36.36% op K562) niet overlappen met die van de onder toezicht staande methoden, wat consistent is met het lage waargenomen validatiepercentage . Bovendien hebben DECRES-voorspellingen meestal een fijnere resolutie voor zowel A-P-als A-E-regio ‘ s (zie aanvullend bestand 1: Figuur S14 voor een voorbeeld).

Fig. 5
figuur 5

overeenkomsten van de DECRES CRR ’s met de gecombineerde en dReg CRR’ s op drie celtypen (a: GM12878, B: HelaS3, c: K562), respectievelijk. De TSS -, PF -, E-en WE-segmentaties van gecombineerd werden opnieuw gelabeld naar CRR ‘ s. De active transcriptional regulatory elements (TREs) voorspeld door dReg werden omgedoopt tot CRR ‘ s

we onderzochten hoeveel van onze genoombrede voorspellingen worden ondersteund door de VISTA enhancer set . Ondanks het feit dat de meerderheid van de VISTA-versterkers extreem behouden blijft bij de ontwikkeling, vinden we nog steeds dat 37,1% (850/2,293) van experimenteel bevestigde en onbevestigde VISTA-versterkers overlappen met de voorspelde A-Es, terwijl slechts 4,8% (110/2,293) van deze VISTA-versterkers overlappen met de voorspelde A-PS. De resultaten voor experimenteel bevestigde VISTA versterkers zijn vergelijkbaar (482/1,196 = 40,30% en 60/1,196 = 5,02% overlappen respectievelijk A-Es en A-Ps), wat erop wijst dat onze voorspelde actieve versterkers echte versterkerfuncties hebben. Een deel van de VISTA-versterkers die onze voorspellingen niet overlappen, kan specifiek actief zijn tijdens de ontwikkeling of in andere celtypen dan onze focuscellijnen.

DECRES breidt de FANTOM enhancer atlas

uit vanwege de beperkte diepte van KOOISIGNALEN voor eRNAs, zal een deel van actieve (of getranscribeerde) versterkers niet zijn gedetecteerd in de oorspronkelijke compilatie van de enhancer atlas. Daarom hebben we gezocht naar extra gedeeltelijk ondersteunde versterkers waarvoor eRNA-signalen onder de oorspronkelijke atlas-drempelwaarden lagen . In het vorige werk, werden een totaal van 200.171 bidirectioneel getranscribeerd (BDT) loci ontdekt over het menselijke genoom, gebruikend KOOIMERKEN van 808 celtypes en weefsels. Na uitsluiting van BDT-loci binnen exons, bleef een gedeeltelijk ondersteunde set van 102.021 BDT-regio ‘ s over, waarvan 43.011 evenwichtige loci (vergelijkbare eRNA-niveaus aan beide zijden) de FANTOM enhancer atlas vormen . Om te onderzoeken of meer actieve enhancer kandidaten kunnen worden gedetecteerd voor elk van de zes celtypen, hebben we een MLP getraind op de actieve atlas regio ‘ s, en voorspelde klassen voor alle 102.021 BDT sites. Onder de 102.021 BDT loci, de meeste werden geclassificeerd als negatieve gebieden in een bepaalde cel (extra bestand 1: Tabel S5), terwijl gemiddeld 13.316 werden voorspeld als A-Es en slechts 834 werden voorspeld als A-Ps per celtype. Een aanzienlijk aantal (gemiddeld 6535) inactieve versterkers in de oorspronkelijke enhancer atlas werd voorspeld als actief door ons model (aanvullend bestand 1: tabel S6), in overeenstemming met de aanname dat BDT-gegevens onvolledig zijn voor een bepaalde steekproef. Gemiddeld 5514 BDT loci uitgesloten door de oorspronkelijke atlas, werden voorspeld als A-Es per celtype. Over de zes geanalyseerde celtypes werd een totaal van 38.601 BDT loci voorspeld als A-Es (aanvullend bestand 3), waarvan 16.988 een uitbreiding van de oorspronkelijke Fantom enhancer atlas vertegenwoordigen. Merk op dat 21.398 van de 43.011 versterkers uit de oorspronkelijke Fantom enhancer atlas niet voorspeld worden als actief in de zes cellen die hier geanalyseerd worden, maar deze gebieden kunnen actief zijn in de andere 802 cellen waarvoor er onvoldoende functies zijn om te analyseren.

computationele validatie van de voorspelling van DECRES met behulp van functionele en motiefverrijkingsanalyse

we hebben functionele verrijkingsanalyse uitgevoerd op de genoombrede voorspelde a-Es en A-Ps met behulp van GREAT . Voor gm12878-cellen is 79% van de voorspelde versterkerregio ‘ s meer dan 5 kilobaseparen (kbps) verwijderd van Gen-tsss (aanvullend dossier 1: Figuur S15A), terwijl 47% van de voorspelde promotors minder dan 5 kbps zijn aan het geannoteerde gen-tsss (aanvullend dossier 1: Figuur S15b). Vergelijkbare statistieken werden verkregen voor de resterende vijf celtypes. Annotatieanalyses van de Gm12878-specifieke CRR ‘ s tonen aan dat proximale genen geassocieerd zijn met: immune response from gene ontology (GO) annotaties (Additional file 1: Figure S15C); B cell signal pathways from MSigDB Pathway annotations (Additional file 1: Figure s15d); en leukemie van disease ontology annotaties (Additional file 1: Figure S15e). De resultaten komen overeen met de lymfoblastoïde afkomst van de cellen. Vervolgens hebben we functionele verrijkingsanalyse uitgevoerd op de BDT-ondersteunde voorspelde versterkers die niet eerder werden gerapporteerd in de FANTOM enhancer atlas (“niet in atlas”). De resultaten zijn volledig in overeenstemming met de bovenstaande analyse (aanvullend bestand 1: Figuur S16).

verder voerden we motiefverrijkingsanalyse uit op de voorspelde celspecifieke CRR ‘ s en niet-in-atlas versterkers met behulp van HOMER . De voorspelde regio ‘ s zijn verrijkt voor motieven vergelijkbaar met Jaspar bindingsprofielen (aanvullend bestand 1: Figuur S15F en figuren S16-S26) beide geassocieerd met TFS handhaven van algemene celprocessen en TFs met selectieve rollen in cel-gerelateerde functies. Bijvoorbeeld, werden de motieven voor Jun -, Fos -, en Ets-gerelateerde factoren verrijkt in gebieden van alle zes celtypes. Deze TFs regelen algemene cellulaire vooruitgang zoals differentiatie, proliferatie, of apoptosis . Cel-geschikte TF verrijkingen werden waargenomen voor elke cel (samengevat in aanvullend bestand 1: tabel S7). Bijvoorbeeld, RUNX1 en andere Runt-gerelateerde factoren, die cruciale rollen in hematopoëse spelen, worden waargenomen in GM12878 (aanvullend dossier 1: Figuur S15f en figuur S16) . C / EBP-gerelateerde factoren die genen die betrokken zijn bij immuunresponsen en ontstekingsreacties reguleren worden uitgedrukt in baarmoederhals (aanvullend bestand 1: figuren S17 en S18) . De factoren HNF1A, HNF1B, FOXA1, FOXA2, HNF4A en HNF4G regelen leverspecifieke genen (aanvullend dossier 1: figuren S19 en S20) . NFY factoren werken samen met GATA1 om erytroïde-specifieke transcriptie in K562 te bemiddelen (aanvullend bestand 1: figuren S25 en S26) .

we hebben functionele en verrijkingsanalyse uitgevoerd op de A-E en A-P voorspellingen van de gecombineerde methode , en de resultaten gerapporteerd in aanvullend bestand 1: figuren S27-S30. De meeste voorspelde promotors met de gecombineerde methode zijn distaal aan bekende gen-tsss, wat vergelijkbaar is met versterkers. Bijvoorbeeld op cellijn GM12878, wordt slechts 22% van de gecombineerde promotors gevestigd minder dan 5 kbp aan het geannoteerde gen tsss, in vergelijking met 47% van de promotors DECRES. Bovendien, functional analysis on the CRRs voorspelde by the Combined method returned much less or zero significant terms for GO biological process, MSigDB pathway, and disease ontology than the decres predictions. De resultaten van de motifanalyse van beide methoden zijn consistent.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

Previous post Design FMEA (DFMEA)
Next post France Travel Blog