Genome-wide previsione di cis-regolatori regioni che hanno supervisionato profonda metodi di apprendimento

Profondità di apprendimento distinguere con la massima precisione attivi promotori e promotori di sfondo

Abbiamo studiato la capacità di apprendimento profondo modelli per separare i promotori e fondatori, per distinguerle da altre regioni, e tra le attività degli stati membri. Abbiamo addestrato una rete neurale feedforward profonda sui nostri set di allenamento bilanciati etichettati per prevedere i nostri set di test (sbilanciati) da ciascun tipo di cellula ben caratterizzato, ripetendo la procedura 100 volte. Il modello deep prende le caratteristiche derivate sperimentalmente sulle regioni genomiche come etichette di classe di input e output di queste regioni con probabilità (vedere File aggiuntivo 1: Tabella S1 per il numero totale di campioni di ciascuna classe e file aggiuntivo 1: Tabella S2 per il numero di funzionalità disponibili; vedere Metodi). Per comodità narrativa, di seguito ci riferiamo a enhancer attivo, promotore attivo, esone attivo, enhancer inattivo, promotore inattivo, esone inattivo e regione sconosciuta (o non caratterizzata) come A-E, A-P, A-X, I-E, I-P, I-X e UK, rispettivamente. Nell’ipotesi che i CRR attivi siano sottoposti a trascrizione, active si applica alle regioni in cui si osservano eventi di inizio trascrizione della GABBIA nel tessuto di messa a fuoco, mentre inattivo si riferisce alle regioni rilevate in altri tessuti, ma non nel tessuto di messa a fuoco. Abbiamo registrato il tasso medio per classe (cioè sensibilità media di tutte le classi), area sotto la curva caratteristica di funzionamento del ricevitore (auROC), e l’area sotto la curva di richiamo di precisione (auPRC) in Fig. 1 e file aggiuntivo 1: Figura S1.

Fig. 1
figura1

Prestazioni medie e deviazione standard di 100 esecuzioni utilizzando il modello MLP sulle nostre partizioni train-test campionate rispettivamente di otto tipi di celle. a Prestazioni di classificazione di A-E versus A-P. b Prestazioni di classificazione di A-E versus I-E. c Prestazioni di classificazione di A-E versus A-P versus BG. PML: Multistrato di Percezione, RF: Random Forest, A-E: Active Enhancer, Un-P: Attivo Promotore, A-X: Attivo Esone, I-E: Inattivo Enhancer, I-P: Inattivo Promotore, I-X: Inattivo Esone, regno UNITO: Unknown o Atipici, BG: I-E+I-P+A-X+-X+regno UNITO

Ci sono quattro aspetti dei risultati che si evidenziano, in cui si afferma la capacità che la nostra supervisione profondo di apprendimento in grado di distinguere tra le classi di CRRs e sfondo. In primo luogo, siamo in grado di distinguere tra enhancers attivi e promotori (A-E versus A-P) (Fig. 1 bis). Abbiamo usato A – E e A-P come classi di allenamento positive e negative, rispettivamente. Nel complesso, abbiamo scoperto che A-E e A-P sono altamente separabili. In secondo luogo, possiamo distinguere i CRR attivi e inattivi (esaltatori o promotori). Da Fig. 1b e file aggiuntivo 1: Figura S1A, si può osservare che gli AUPRCS medi su GM12878, HelaS3, HepG2 e K562, che hanno i set di allenamento più grandi, sono superiori a 0,95 con piccole variazioni sia per gli esaltatori che per i promotori. Nel resto di questo articolo, escludiamo le linee cellulari A549 e MCF7 nella maggior parte delle analisi a causa della limitata disponibilità dei dati. In terzo luogo, non inaspettatamente, è difficile distinguere tra esaltatori inattivi e promotori (file aggiuntivo 1: Figura S1B). Sette dei tassi medi in base alla classe per gli otto tipi di cellule erano inferiori a 0,80. Mentre ci sono alcune indicazioni che una parte dei promotori inattivi hanno alcuni macchinari presenti, era la nostra aspettativa che tali regioni in gran parte non esibiranno un forte legame con il fattore di trascrizione o firme epigenetiche appropriate per informare un modello. In quarto luogo, abbiamo testato l’applicabilità di predire A-E e A-P dalla classe super background (BG) che unisce I-E, I-P, A-X, I-X e UK (Fig. 1c). I risultati su sei tipi di cellule erano promettenti, tutti hanno superato 0.80 auPRC. Se A-E e A-P vengono uniti ulteriormente per formare una super classe (A-E+A-P), si ottengono prestazioni più elevate (File aggiuntivo 1: Figura S1C). Tutti gli AUPRC su questi sei tipi di cellule sono andati oltre 0,89 auPRC. Inoltre, abbiamo anche testato un metodo random forest, un altro classificatore all’avanguardia, sui nostri dati etichettati. Prestazioni simili sono state ottenute su tutte e sei le impostazioni sperimentali. Il metodo random forest ha mostrato prestazioni leggermente migliori per i set di dati A549 e MCF7, che hanno entrambi un basso numero di enhancer. In attesa che gli enhancer più annotati stiano diventando disponibili, continueremo a utilizzare MLP ed esplorare altri approcci di apprendimento profondo come le reti neurali convoluzionali e le reti neurali ricorrenti.

DECRES offre maggiore sensibilità e precisione sulle regioni annotate FANTOM

Per valutare l’utilità relativa del nostro metodo supervisionato deep per la previsione CRR, lo abbiamo confrontato con i metodi combinati ChromHMM e ChromHMM-Segway non supervisionati utilizzando le annotazioni FANTOM su cinque tipi di celle disponibili come riferimento. Sono stati confrontati su set sbilanciati che riflettono il vero background genomico. I risultati sono confrontati in Fig. 2a che visualizza i grafici radar in cui più grande e più convessa è l’area, migliori sono le prestazioni. È intuitivo che gli approcci supervisionati sono preferiti quando i dati di allenamento etichettati sono sufficienti. Inoltre, entrambi i metodi non supervisionati sono stati sviluppati prima del rilascio pubblico dei dati FANTOM5 e sono quindi svantaggiati. Tuttavia, queste annotazioni sono ampiamente utilizzate dalla comunità e quindi la prestazione relativa dei DECRES allo standard è di interesse. Nel complesso, osserviamo che DECRES supera ChromHMM e metodi combinati che a loro volta offrono prestazioni simili. Questi metodi non supervisionati hanno costantemente sensibilità inferiori per il rilevamento di enhancer attivo (p = 5.57E – 5 e 9.90 E-5 per DECRES contro ChromHMM e combinati rispettivamente, t-test dello studente a due code; vedere Fig. 2b) e precisione inferiore per il rilevamento attivo del promotore (p = 7.36 E-5 e 2.33 E-4 per DECRES rispetto a ChromHMM e combinati rispettivamente, test t a due code dello studente; vedere Fig. 2 ter). Utilizzando ChromHMM, la sensibilità attiva enhancer varia dal 16,5% al 48,4% (i numeri sono coerenti con il test sugli enhancer previsti di ENCODE riportati in ), mentre il nostro modello deep varia dal 69% (K562) all ‘ 88,8% (GM12878). Inoltre, ChromHMM raggiunge una precisione massima di 49.8% per la previsione del promotore attivo, mentre il massimo per DECRES è dell ‘ 84,3%.

Fig. 2
figura2

Confronto tra il metodo supervisionato (DECRES) e i metodi non supervisionati (ChromHMM e combinati) su cinque set di test annotati FANTOM in grafici radar (a) e test di significatività (b). Le segmentazioni di codifica sono state scaricate da . Abbiamo rietichettato le annotazioni di ChromHMM e combinato. Per le segmentazioni ChromHMM, le classi Tss, TssF e PromF sono state fuse in A-P; le classi Enh, EnhF, EnhW, EnhWF sono state fuse in A-E; e il resto era indicato da BG. Durante l’elaborazione delle annotazioni combinate, TSS e PF sono stati rietichettati in A-P; E e siamo stati rietichettati in A-E; e il resto in BG. I valori p in (b) sono stati ottenuti dal test t dello studente a due code su tutti i tipi di cellule. I segni dei valori statistici sono indicati tra parentesi

Valutazione delle prestazioni DECRES con dati sperimentali indipendenti

Poiché la valutazione iniziale si è concentrata sull’annotazione FANTOM eRNA dei CRRS, il tipo di dati utilizzati per addestrare il nostro modello supervisionato, abbiamo cercato di valutare le prestazioni sui dati generati con metodi alternativi. Abbiamo identificato due collezioni indipendenti di enhancer convalidati in laboratorio per valutare ulteriormente le prestazioni di DECRES: una collezione CRE-seq di regioni testate nelle cellule K562 e collezioni MPRA (massively parallel reporter assay) testate nelle cellule K562 e HepG2 . In entrambi i casi, l’insieme delle regioni che non riescono a dirigere l’espressione può essere falsamente previsto dai metodi valutati, ma può anche riflettere i fatti che le procedure sperimentali includono solo un piccolo segmento di DNA regolatorio e che i test basati su plasmidi non ricapitolano le proprietà della cromatina. Data la natura dei dati, prevediamo che una parte dei negativi sperimentali siano regioni regolatorie in buona fede.

Nel primo set indipendente, sottoinsiemi di potenziatori K562 previsti e regioni negative (come previsto dal metodo combinato ChromHMM e Segway) sono stati valutati in laboratorio utilizzando CRE-seq . In quello studio, solo il 33% delle regioni regolatorie previste” combinate ” è risultato positivo nell’esperimento, rispetto al 7% per l’insieme negativo. Utilizzando DECRES addestrati su tutte le regioni regolatorie attive disponibili delle cellule K562, abbiamo quindi convalidato il nostro metodo su 386 regioni che mostrano attività di enhancer attivo in K562 come convalidato da CRE-seq rispetto alle 298 regioni di controllo (File aggiuntivo 1: Tabella S3). Altamente coerente con i risultati di cui sopra, una sensibilità del 65,5% (254/386) per le regioni validate sperimentalmente è stata predetta con successo come A-E; le restanti 132 regioni sono state predette come sfondo (nessuna è stata classificata come promotori). Per le 812 previsioni testate che erano inattive nell’esperimento CRE-seq, DECRES ha classificato il 53,3% (433/812) come positivo. Per le 298 regioni di controllo negative, DECRES ha previsto che tutte fossero negative (incluse le 16 che erano attive nell’esperimento CRE-seq). È importante sottolineare che, con l’aumento dei punteggi DECRES, la qualità delle previsioni aumenta. Abbiamo disegnato l’istogramma dei punteggi di adesione DECRES di 254 e 433 potenziatori combinati sperimentalmente positivi e negativi che sono stati previsti come A-Es da DECRES (File aggiuntivo 1: Figura S2). Le distribuzioni sono significativamente diverse (p = 0.014, a due lati Mann-Whitney rank test).

La seconda collezione indipendente, in cui K562 e HepG2-specifico “forte enhancer” (come previsto da ChromHMM) contenente previsto TF siti di legame per TFS cellulare selettiva sono stati testati utilizzando un massively parallel reporter assay (MPRA) . Solo il 41% degli esaltatori è stato rilevato come espresso in modo significativo (p = 0,05, test di Mann-Whitney a due lati). Abbiamo usato DECRES per prevedere le classi degli esaltatori MPRA positivi e MPRA negativi. Il nostro risultato nel file aggiuntivo 1: La tabella S3 mostra che 98.4% (120/122) e 97.8% (182/186) del MPRA rinforzatori positivi sono stati rispettivamente previsto per essere Un Es da DECRES per K562 e cellule HepG2, mentre 92.3% (179/194) e l ‘ 81,3% (217/267) del MPRA negativo esaltatori erano ancora previsti A-Es per K562 e HepG2, rispettivamente, ma con diverse distribuzioni di DECRES punteggi (p= 4.8 E-6 e p= 2.3 E-6 per K562 e HepG2, rispettivamente, su due lati di Mann-Whitney rank test) (file Aggiuntive 1: Figura S2). Coerentemente con gli altri dati indipendenti, maggiore è il punteggio dei DECRES, maggiore è la probabilità che siano positivi.

Valutare l’utilità delle proprietà della sequenza del DNA sulle prestazioni dei DECRES

Recenti studi hanno confermato che le proprietà della sequenza del DNA possono essere utili per il riconoscimento di promotori e potenziatori e la discriminazione tra sequenze regolatorie attive e inattive utilizzando kernel di sequenza di stringhe. Questo si basa sulla capacità a lungo riconosciuta per l’inclusione delle isole CpG come funzionalità per migliorare la previsione del promotore . Abbiamo cercato di determinare se le caratteristiche della sequenza del DNA possono essere informative per distinguere tra promotori e potenziatori e tra classi attive e inattive. Abbiamo addestrato il modello con 351 funzioni di sequenza (originariamente utilizzate in) in più scenari. I risultati vengono visualizzati in Fig. 3 e file aggiuntivo 1: Figura S3. In primo luogo, un metodo profondo limitato alle caratteristiche di sequenza per discriminare A-E e A-P (Fig. 3a) ha consegnato auPRCs da 0.8567 a 0.9370, confermando che gli attributi di sequenza sono effettivamente informativi. In secondo luogo, le caratteristiche di sequenza hanno un’utilità limitata per distinguere tra stati attivi e inattivi di esaltatori e promotori, il che è logico; mentre le caratteristiche derivate sperimentalmente potrebbero separarle altamente (p=1.90 E-08 e 5.06E-08 per esaltatori e promotori rispettivamente, t-test dello studente a due code; vedere Fig. 3b e file aggiuntivo 1: Figura S3A). L’utilizzo di funzioni di sequenza in assenza di funzionalità sperimentali ha prestazioni inferiori nella classificazione di A-E, A-P e BG su tutti gli otto tipi di celle (p = 1.86 E-09, test t di studente a due code; vedere Fig. 3 quater). Infine, risultati migliori non sono stati raggiunti combinando caratteristiche sperimentali e di sequenza (p = 2.79 E-01, 6.56 E-01 e 1.17 E-01 in Fig. 3, t-test dello studente a due code).

Fig. 3
figura3

Confrontando le AUPRCS medie su 100 ricampionamento e riqualificazione sulle nostre regioni etichettate utilizzando diversi set di funzionalità. “Sperimentale” significa il nostro set di funzionalità di sequenziamento di nuova generazione derivato sperimentalmente. “Sequenza” indica l’insieme di 351 proprietà di sequenza utilizzate in . “Sequenza sperimentale+” indica la combinazione di questi due insiemi. a. Confronto dei tre set di funzionalità in A-E rispetto a A-P. b. Confronto dei tre set di funzionalità in A-E rispetto a I-E. c. Confronto dei tre set di funzionalità in A-E rispetto a A-P rispetto a BG. I valori di p in ogni leggenda sono stati ottenuti utilizzando due code t-test di Student per confrontare “Sperimentale”a base di risultati Sperimentali+Sequenza”-based ” e “Sequenza”a base di risultati, rispettivamente

le caratteristiche principali per DECRES prestazioni

Come i dati sperimentali possono essere che richiede tempo e costoso da produrre, abbiamo cercato di determinare l’insieme minimo di caratteristiche più informativa per CRR di stima da una prospettiva computazionale. Abbiamo usato randomized deep feature selection (randomized DFS o RDFS) e random forest (RF) modelli (vedi Metodi) per due classi e tre classi (A-E contro A-P contro BG) classificazioni su quattro tipi di cellule (GM12878, HelaS3, HepG2, e K562) che hanno 72-135 caratteristiche disponibili.

Figura 4a e file aggiuntivo 1: La figura S4A visualizza i punteggi di importanza delle funzionalità scoperti da DFS randomizzati e random forest per la classificazione a tre classi. I punteggi di importanza caratteristica prodotti da questi metodi dovrebbero essere interpretati in modo diverso. Simile a una selezione in avanti, i punteggi di importanza caratteristica da DFS randomizzati riflettono quali caratteristiche sono preferite nella fase iniziale del modello sparse, mentre il punteggio di importanza di una caratteristica da foresta casuale indica il ruolo di questa caratteristica nel contesto del suo utilizzo con tutte le altre caratteristiche. Pertanto, l’utilizzo di entrambi i metodi in questo studio ci consente di ottenere informazioni diverse sui dati. Nei nostri esperimenti, entrambi i metodi possono catturare le caratteristiche più importanti come indicato dai punteggi di importanza su tutte e quattro le linee cellulari. Ad esempio, entrambi i metodi concordano sul fatto che Pol2, H3K4me1, Taf1 e H3K27ac sono utili per distinguere gli esaltatori attivi e i promotori dallo sfondo nella linea cellulare GM12878. In alcuni casi, le diverse misure si completano a vicenda. Ad esempio, H3K4me2 e H4K20me1 sono contrassegnati come caratteristiche chiave dal DFS randomizzato, che è convincente come indicato dai grafici a caselle nel file aggiuntivo 1: Figura S4B e Figura S6-S13, ma sono trascurati dalla foresta casuale. Tbp è stato evidenziato dalla foresta casuale nelle celle GM12878 e HelaS3, ma non è stato rilevato da DFS randomizzato. Esaminando i riquadri di questa funzione nel file aggiuntivo 1: Figure S6 e S7 rivela che questa funzione è discriminatoria per distinguere gli esaltatori attivi e promotori da sfondo, ma non c’è una differenza drammatica tra gli esaltatori attivi e promotori. Le caratteristiche importanti incorporate in un modello di foresta casuale non possono essere incorporate fino a un’ultima fase del processo DFS. Ad esempio, nella linea di cella K562, C-Myc è stato enfatizzato da random forest, che è effettivamente ragionevole come mostrato nel file aggiuntivo 1: Figura S12 e non è stato selezionato come caratteristica iniziale nel processo DFS.

Fig. 4
figura4

Importanza delle caratteristiche e prestazioni di classificazione nello scenario di classe 3 (A-E versus A-P versus BG). un’importanza caratteristica scoperto da randomized DFS (RDFS) e random forest (RF) su GM12878. I punteggi di importanza delle caratteristiche della foresta casuale sono stati normalizzati per un migliore confronto con DFS randomizzati. b auPRC rispetto al numero di funzionalità incorporate in RDFS e RF. I punti annotati indicano dove una linea con pendenza 0.5 interseca una curva montata

Per lo sviluppo di metodi di apprendimento automatico nell’annotazione del genoma, riducendo al minimo il numero di funzionalità richieste diminuisce il costo e aumenta la capacità di interpretazione biologica. Figura 4b e file aggiuntivo 1: La figura S5B mostra le modifiche degli AUPRCS di prova all’aumentare del numero di funzioni selezionate per le classificazioni a tre e a due classi, rispettivamente. In entrambi i casi, i test auPRCs aumentano drasticamente per le caratteristiche iniziali, quindi gli altipiani delle prestazioni. Confrontando le curve DFS randomizzate con le curve foresta casuale, possiamo vedere che non esiste una singola curva ottimale. Alcune caratteristiche chiave sono sufficienti per una buona prestazione di previsione. Per definire un numero ottimale di caratteristiche necessarie, inseriamo le curve in Fig. 4b e file aggiuntivo 1: Figura S5B e selezionato il punto di intersezione per una linea con pendenza di 0,5 sulle curve DFS randomizzate (vedere Metodi). Sono necessarie meno funzioni per la previsione CRR a due classi (6 caratteristiche) rispetto ai modelli a tre classi destinati a distinguere tra A-E, A-P e background (10 caratteristiche).

Le distribuzioni delle prime dieci funzionalità per le previsioni di tre classi (A-E, A-P e BG) sono fornite nel file aggiuntivo 1: Figura S4B. Utilizzando le prime dieci funzionalità per ogni cella, auPRCs di 0.9022, 0.9156, 0.8651 e 0.8565 sono state raggiunte rispettivamente su GM12878, HelaS3, HepG2 e K562. La metà di queste caratteristiche principali sono modifiche istoniche, di cui H3K4me1, H3K4me2, H3K4me3 e H3K27me3 sono state comunemente selezionate per i modelli a tre classi, in accordo con le conoscenze esistenti . Tra i fattori di trascrizione (inclusi i co-fattori), Taf1 e p300, così come l’RNA polimerasi II (Pol2), sono spesso selezionati, il che è anche coerente con le conoscenze esistenti .

File aggiuntivo 1: La figura S5C mostra i riquadri delle prime sei funzionalità selezionate da DFS randomizzati per le previsioni di due classi. Utilizzando queste caratteristiche, auPRCs di 0.9561, 0.9627, 0.926, e 0.9555 sono stati ottenuti sui quattro tipi di cellule, rispettivamente. Per la maggior parte delle funzionalità, gli intervalli di valori sono elevati in A-E e A-P rispetto alle categorie di sfondo. La metà delle caratteristiche selezionate sono DNase-seq e istone modifica ChIP-seq dati tra cui H3K4me2, H3K27ac, e H3K27me3. I grafici a riquadri di queste caratteristiche indicano che distinguono A – E e A-P dallo sfondo .

La maggior parte delle previsioni genomiche di DECRES sono supportate da altri metodi

Abbiamo addestrato modelli perceptron multistrato di 2 e 3 classi (vedi Metodi) utilizzando tutti i dati di riferimento (etichettati) per la formazione, al fine di prevedere i CRR sull’intero genoma per sei tipi di cellule (A549 e MCF7 sono stati esclusi). Il modello a 2 classi ha identificato 227.332 CRR (le regioni adiacenti sono state unite), che occupano il 4,8% del genoma (file aggiuntivo 1: Tabella S4). Un totale di 9153 CRR sono stati predetti in modo ubiquitario in tutti e sei i tipi di cellule. Per la previsione di classe 3, abbiamo ottenuto 301.650 regioni A-E (6,8% del genoma) e 26.555 regioni A-P (0,6% del genoma) insieme a 11.886 ubiquitous A-Es e 3678 ubiquitous A-Ps. Le previsioni a livello genomico per tutti e sei i tipi di cellule sono disponibili nel file aggiuntivo 2.

Successivamente, abbiamo esaminato la sovrapposizione dei nostri CRR previsti con le previsioni combinate e dReg su GM12878, HelaS3 e K562. La maggior parte dei CRR previsti dai DECRES si sovrappongono ai risultati di combinazione o dReg, in particolare 86,13%, 76,13% e 83,63% per GM12878, HelaS3 e K562, rispettivamente (Fig. 5). Un sottoinsieme (13,87% su GM12878, 23,87% su HelaS3 e 16,37% su K562) delle previsioni DECRES non si sovrappongono alle previsioni degli altri due strumenti. In particolare, gran parte delle previsioni combinate (56,78% su HelaS3, 55,99% su GM12878 e 36.36% su K562) non si sovrappongono a quelli dei metodi supervisionati, il che è coerente con il suo basso tasso di convalida osservato . Inoltre, le previsioni DECRES tendono ad avere una risoluzione più fine per entrambe le regioni A-P e A-E (vedere il file aggiuntivo 1: Figura S14 per un esempio).

Fig. 5
figura5

Accordi dei CRR DECRES con i CRR combinato e dReg su tre tipi di cellule (a: GM12878, b: HelaS3, c: K562), rispettivamente. Le segmentazioni TSS, PF, E e WE di Combined sono state rietichettate in CRRS. Gli elementi regolatori trascrizionali attivi (TREs) previsti da dReg sono stati rinominati in CRRs

Abbiamo studiato quanti tra le nostre previsioni a livello genomico sono supportati dal set VISTA enhancer . Nonostante il fatto che la maggior parte degli esaltatori di VISTA siano estremamente conservati in tutto lo sviluppo, troviamo ancora che il 37,1% (850/2.293) degli esaltatori di VISTA confermati sperimentalmente e non confermati si sovrappongono agli A-Es previsti,mentre solo il 4,8% (110/2. 293) di questi esaltatori di VISTA si sovrappongono agli A-Ps previsti. I risultati per gli enhancer VISTA confermati sperimentalmente sono simili (482/1,196 = 40,30% e 60/1,196 = 5,02% si sovrappongono rispettivamente A-Es e A-Ps), il che suggerisce che i nostri enhancer attivi previsti hanno funzioni di enhancer reali. Una parte dei potenziatori di VISTA che non si sovrappongono alle nostre previsioni potrebbe essere attiva specificamente durante lo sviluppo o in altri tipi di cellule rispetto alle nostre linee cellulari di messa a fuoco.

DECRES estende il FANTOM enhancer atlas

A causa della limitata profondità dei segnali di GABBIA per eRNAs, una parte degli enhancer attivi (o trascritti) non sarà stata rilevata nella compilazione originale dell’enhancer atlas. Quindi, abbiamo cercato di identificare ulteriori potenziatori parzialmente supportati per i quali i segnali eRNA erano al di sotto delle impostazioni di soglia atlas originali . Nel lavoro precedente, un totale di 200.171 loci bidirezionalmente trascritti (BDT) sono stati rilevati in tutto il genoma umano, utilizzando tag GABBIA di 808 tipi di cellule e tessuti. Dopo aver escluso i loci BDT all’interno degli esoni, è rimasto un set parzialmente supportato di 102.021 regioni BDT, di cui 43.011 loci bilanciati (livelli di eRNA simili su entrambi i lati) costituiscono l’atlante di FANTOM enhancer . Al fine di indagare se più candidati enhancer attivi possono essere rilevati per ciascuno dei sei tipi di cellule, abbiamo addestrato un MLP sulle sue regioni atlas attivi, e classi previste per tutti i 102.021 siti BDT. Tra i 102.021 loci BDT, la maggior parte sono stati classificati come regioni negative in una data cella (file aggiuntivo 1: Tabella S5), mentre in media 13.316 sono stati previsti come A-Es e solo 834 sono stati previsti come A-Ps per tipo di cella. Un numero sostanziale (6535 in media) di enhancer inattivi nell’atlante originale di enhancer è stato previsto come attivo dal nostro modello (file aggiuntivo 1: Tabella S6), coerente con l’ipotesi che i dati BDT siano incompleti per un dato campione. In media 5514 loci BDT esclusi dall’atlante originale, sono stati previsti come A-Es per tipo di cella. Sui sei tipi di cellule analizzati, un totale di 38.601 loci BDT sono stati previsti come A-Es (file aggiuntivo 3), di cui 16.988 rappresentano un’espansione dell’originale FANTOM enhancer atlas. Si noti che 21.398 dei 43.011 potenziatori dell’originale FANTOM enhancer atlas non sono previsti come attivi nelle sei cellule analizzate qui, ma queste regioni potrebbero essere attive nelle altre 802 cellule per le quali ci sono caratteristiche inadeguate da analizzare.

Validazione computazionale della previsione di DECRES utilizzando l’analisi di arricchimento funzionale e motif

Abbiamo eseguito l’analisi di arricchimento funzionale sulle A-Es e A-Ps previste a livello genomico utilizzando GREAT . Per le cellule GM12878, il 79% delle regioni enhancer previste sono più di 5 coppie kilobase (kbps) di distanza dal gene TSSs (file aggiuntivo 1: Figura S15A), mentre il 47% dei promotori previsti sono meno di 5 kbps al gene annotato TSSs (File aggiuntivo 1: Figura S15B). Statistiche simili sono state ottenute per i restanti cinque tipi di cellule. Le analisi di annotazione dei CRR specifici per GM12878 mostrano che i geni prossimali sono associati a: risposta immunitaria da annotazioni di ontologia genica (GO) (file aggiuntivo 1: Figura S15C); Percorsi di segnalazione delle cellule B da annotazioni di percorso MSigDB (file aggiuntivo 1: Figura S15D); e leucemia da annotazioni di ontologia della malattia (File aggiuntivo 1: Figura S15E). I risultati sono coerenti con il lignaggio linfoblastoideo delle cellule. Successivamente, abbiamo eseguito l’analisi di arricchimento funzionale sugli enhancer predetti supportati da BDT non precedentemente riportati nell’atlante FANTOM enhancer (“not in atlas”). I risultati sono pienamente coerenti con l’analisi di cui sopra (File aggiuntivo 1: Figura S16).

Abbiamo inoltre effettuato l’analisi di arricchimento del motivo sui CRR specifici delle cellule previsti e sugli esaltatori non in atlas utilizzando HOMER . Le regioni previste sono arricchite per motivi simili ai profili di rilegatura JASPAR (file aggiuntivo 1: Figura S15F e figure S16-S26) entrambi associati a TFs che mantengono processi cellulari generali e TFS con ruoli selettivi nelle funzioni correlate alla cella. Ad esempio, i motivi per i fattori correlati a Jun, Fos e Ets sono stati arricchiti in regioni di tutti e sei i tipi di cellule. Questi TFs regolano i progressi cellulari generali come differenziazione, proliferazione o apoptosi . Sono stati osservati arricchimenti TF appropriati per ogni cella (riassunti nel file aggiuntivo 1: Tabella S7). Ad esempio, RUNX1 e altri fattori correlati a Runt, che svolgono un ruolo cruciale nell’ematopoiesi, sono osservati in GM12878 (File aggiuntivo 1: Figura S15F e Figura S16) . I fattori correlati a C / EBP che regolano i geni coinvolti nelle risposte immunitarie e infiammatorie sono espressi nella cervice (file aggiuntivo 1: Figure S17 e S18). I fattori HNF1A, HNF1B, FOXA1, FOXA2, HNF4A e HNF4G regolano i geni specifici del fegato (file aggiuntivo 1: Figure S19 e S20) . I fattori NFY cooperano con GATA1 per mediare la trascrizione eritroide-specifica in K562 (file aggiuntivo 1: Figure S25 e S26) .

Abbiamo eseguito analisi funzionali e di arricchimento sulle previsioni A-E e A-P dal metodo combinato e riportiamo i risultati nel file aggiuntivo 1: Figure S27-S30. La maggior parte dei promotori previsti dal metodo combinato sono distali al gene noto TSSs, che è simile agli esaltatori. Ad esempio sulla linea cellulare GM12878, solo il 22% dei promotori combinati si trova a meno di 5 kbp rispetto al gene annotato TSSs, rispetto al 47% dei promotori DECRES. Inoltre, l’analisi funzionale sui CRR previsti dal metodo combinato ha restituito termini molto meno o zero significativi per il processo biologico GO, la via MSigDB e l’ontologia della malattia rispetto alle previsioni DECRES. I risultati dell’analisi del motivo di entrambi i metodi sono coerenti.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

Previous post Design FMEA (DFMEA)
Next post Reddit ' s Femminile Incontri Strategia trasforma l’amore in un gioco. Funziona?