Genome-wide previsão de cis-regulatórios regiões supervisionado profunda métodos de aprendizagem

aprendizagem Profunda com precisão distingue ativos aperfeiçoadores e promotores de fundo

investigamos a capacidade de aprendizado profundo modelos para separar potenciadores e promotores, e para distingui-las de outras regiões e entre a atividade estados. Treinamos uma rede neural de alimentação profunda sobre os nossos balanceados conjuntos de treinamento rotulado para prever os nossos (desequilibrados) conjuntos de teste de cada tipo de célula bem caracterizado, repetindo o procedimento 100 vezes. O profundo modelo leva experimentalmente características derivadas através de regiões genômicas como entradas e saídas de classe etiquetas destas regiões, com probabilidades (ver arquivo Adicionais 1: Tabela de S1 para o número total de amostras de cada classe e de arquivo Adicionais 1: Tabela de S2 para o número de recursos disponíveis; ver Métodos). Por conveniência narrativa, a seguir nos referimos ao potenciador ativo, promotor ativo, exon ativo, potenciador inativo, promotor inativo, exon inativo e Região desconhecida (ou não caracterizada) como a-E, a-P, A-X, I-E, I-P, I-X e Reino Unido, respetivamente. No pressuposto de que as RCR activas estão a ser transcritas, o active aplica-se a regiões em que os eventos de iniciação da transcrição em gaiola são observados no tecido do foco, enquanto os inactivos se referem a regiões detectadas noutros tecidos, mas não no tecido do foco. Nós registramos a taxa média de classe-sábia (i.e. sensibilidades médias de todas as classes), área sob a curva característica de funcionamento do receptor (auROC) e área sob a curva de recolha de precisão (auPRC) na Fig. 1 e Ficheiro adicional 1: Figura S1.

Fig. 1
Figura 1

desempenho médio e desvio-padrão de 100 ensaios utilizando o modelo MLP nas nossas divisórias de ensaio do comboio, respectivamente, de oito tipos de células. um desempenho de classificação de A-E versus a-P. b de A-E versus I-E. C de A-E versus A-P versus BG. MLP: Conjunto Multilayer da Percepção, RF: Random Forest,-E: Active Enhancer, Um-P: Ativo Promotor, A-X: Ativa Exão, I-E: Inativo Enhancer, I-P: Inativo Promotor, I-X: Inativo Exão, reino UNIDO: Desconhecido ou Descaracterizada, BG: eu-E+I-P+A-X+I-X+UK

Há quatro aspectos a resultados que podemos destacar, que afirmam a capacidade de nossa supervisionado profunda abordagem de aprendizagem para distinguir entre as classes de CRRs e plano de fundo. Primeiro, somos capazes de distinguir entre potenciadores ativos e promotores (a-e versus A-P) (Fig. 1a). Usámos a-E E A-P Como aulas de treino positivas e negativas, respectivamente. No geral, descobrimos que A-E E A-P são altamente separáveis. Em segundo lugar, podemos distinguir CRR ativos e inativos (potenciadores ou promotores). Da Fig. 1b e de arquivo Adicionais 1: Figura S1A, pode ser observado que significa auPRCs no GM12878, HelaS3, HepG2, e K562, que têm o maior de conjuntos de treinamento, são acima de 0,95, com pequenos desvios para tanto potenciadores e promotores. No resto deste artigo, excluímos linhas celulares A549 e MCF7 na maioria das análises devido à disponibilidade limitada de dados. Em terceiro lugar, não inesperadamente, é difícil distinguir entre intensificadores inactivos e promotores (ficheiro adicional 1: Figura S1B). Sete das taxas médias de classe para os oito tipos de células foram inferiores a 0,80. Embora haja algumas indicações de que uma parte dos promotores inativos tem algumas máquinas presentes, foi nossa expectativa de que essas regiões em grande parte não exibirão um forte fator de transcrição vinculante ou assinaturas epigenéticas adequadas para informar um modelo. Em quarto lugar, testamos a aplicabilidade da previsão de A – E E A-P a partir da classe super background (BG) que se fundem I-e, I-P, A-X, I-X e UK (Fig. 1c). Os resultados em seis tipos de células foram promissores, todos ultrapassando 0,80 auPRC. Se A-E E A-P forem fundidos para formar uma super classe (A-E+A-P), maior desempenho é alcançado (arquivo adicional 1: Figura S1C). Todos os auPRCs destes seis tipos de células foram além de 0,89 auPRC. Além disso, também testamos um método de floresta aleatória, outro classificador de última geração, em nossos dados rotulados. Similar performance was obtained on all six experimental settings. O método random forest exibiu um desempenho ligeiramente melhor para os conjuntos de dados A549 e MCF7, que ambos têm um baixo número de realçadores. Na expectativa de que mais realçadores anotados estejam se tornando disponíveis, continuaremos usando o MLP e explorando outras abordagens de aprendizagem profunda, tais como redes neurais convolucionais e redes neurais recorrentes.

DECRES dá maior sensibilidade e precisão no FANTOM anotada regiões

avaliar a relativa utilidade dos nossos supervisionado profunda método para CRR previsão, comparamos com a vigilância ChromHMM e ChromHMM-Segway métodos Combinados usando FANTOM anotações em cinco tipos de células como referência. Eles foram comparados em conjuntos desequilibrados refletindo o verdadeiro fundo genômico. Os resultados são comparados na Fig. 2a que exibe gráficos de radar onde quanto maior e mais convexa a área é, melhor o desempenho. É intuitivo que abordagens supervisionadas são preferidas quando os dados de formação rotulados são suficientes. Além disso, ambos os métodos não supervisionados foram desenvolvidos antes da divulgação pública dos dados FANTOM5 e, portanto, estão em desvantagem. No entanto, estas anotações são amplamente utilizadas pela comunidade e, portanto, o desempenho relativo de DECIRES para o padrão é de interesse. De um modo geral, observamos que a DECREFORMS supera o Cromhmm e os métodos combinados que, por sua vez, oferecem desempenho semelhante. Estes métodos não supervisionados têm sistematicamente sensibilidades mais baixas para a detecção de potenciadores ativos (p = 5.57E-5 e 9.90 e-5 para DECIRES versus Cromhmm e combinados, respectivamente, o teste t de dois estudantes de cauda; ver Fig. 2b) e menor precisão para a detecção activa do promotor (p=7, 36 e-5 e 2, 33 e-4 para valores versus Cromhmm e combinados, respectivamente, o teste T de dois estudantes de cauda; ver Fig. 2b). Usando o ChromHMM, a sensibilidade do potenciador ativo varia de 16,5% a 48,4% (os números são consistentes com o teste em codificadores previstos relatados em), enquanto o nosso modelo profundo varia de 69% (K562) a 88,8% (GM12878). Além disso, o Cromhmm atinge uma precisão máxima de 49.8% para a previsão do promotor activo, enquanto o máximo para os prejuízos é de 84,3%.

Fig. 2
a figura2

Comparação do método supervisionado (DECRES) e supervisionada métodos (ChromHMM e Combinado) em cinco FANTOM anotada conjuntos de teste em gráficos de radar (um) e testes de significância (b). As segmentações de codificações foram baixadas de . Nós renomeamos as anotações de Cromhmm e combinadas. Para as segmentações Cromhmm, as classes Tss, TssF e PromF foram fundidas para a-P; As classes Enh, EnhF, EnhW, EnhWF foram fundidas para a-E; e o resto foi denotado por BG. Ao processar as anotações combinadas, TSS e PF foram renomeados para a-P; E E nós fomos renomeados para A-E; e o resto para BG. Os valores de p na alínea b) foram obtidos a partir do teste t do aluno de duas caudas em todos os tipos de células. Os sinais dos valores de estatística são indicadas entre parênteses

Avaliação de DECRES desempenho independente com dados experimentais

Como o de avaliação inicial focada no FANTOM eRNA baseado anotação de CRRs, o tipo de dados usados para treinar o nosso supervisionado modelo, procurou-se avaliar o desempenho em dados gerados por métodos alternativos. Identificamos duas coleções independentes de realçadores validados em laboratório para avaliar ainda mais o desempenho de: a CRE-seq collection of regions tested in K562 cells and MPRA (massively parallel reporter assay) collections tested in K562 and HepG2 cells . Em ambos os casos, o conjunto de regiões que não a expressão direta pode ser falsamente previstos pelos métodos avaliados, mas podem também refletir os fatos de que os procedimentos experimentais incluem apenas um pequeno segmento de DNA regulador e que plasmídeo baseado em ensaios não recapitular cromatina propriedades. Dada a natureza dos dados, prevemos que uma parte dos negativos experimentais sejam regiões regulatórias de boa fé.

In the first independent set, subsets of predicted K562 enhancers and negative regions (as predicted by the Combined ChromHMM and Segway method) were assessed in the laboratory using CRE-seq . Nesse estudo, apenas 33% das regiões regulatórias previstas” combinadas ” foram consideradas positivas na experiência, em comparação com 7% para o conjunto negativo. Utilizando números formados em todas as regiões reguladoras activas disponíveis de células K562, validámos o nosso método em 386 regiões que apresentavam actividade activista em K562, conforme validado por CRE-seq em comparação com as 298 regiões de controlo (ficheiro adicional 1: Quadro S3). Muito consistente com os resultados acima, uma sensibilidade de 65,5% (254/386) para as regiões experimentalmente validadas foi prevista com sucesso como a-E; as restantes 132 regiões foram previstas como antecedentes (nenhuma foi classificada como promotora). Para as 812 previsões testadas que estavam inativas no experimento CRE-seq, DECRES classificou 53,3% (433/812) como positivo. No que se refere às 298 regiões de controlo negativo, A DECRES previu que todas fossem negativas (incluindo as 16 que participaram na experiência CRE-seq). O que é importante é que, à medida que as perdas aumentam, a qualidade das previsões aumenta. Nós desenhamos o histograma das Pontuações de membros da DECRES de 254 e 433 potenciadores combinados experimentalmente positivos e negativos que foram previstos como a-Es pela DECRES (arquivo adicional 1: Figura S2). As distribuições são significativamente diferentes (p = 0.014, two-sided Mann-Whitney rank test).

The second independent collection, in which K562 and HepG2-specific “strong enhancer” (as predicted by ChromHMM) containing predicted TF binding sites for cell-selective TFs were tested using a massively parallel reporter assay (MPRA) . Apenas 41% dos realçadores foram detectados como sendo expressados significativamente (p = 0,05, teste de Mann-Whitney de dois lados). Usámos decis para prever as classes dos potenciadores positivos e negativos MPRA. Nosso resultado em arquivo adicional 1: A tabela S3 mostra que 98,4% (120/122) e 97.8% (182/186) do MPRA positivo potenciadores foram de, respectivamente, previsto para ser de Um-Es, por DECRES para K562 e células HepG2, enquanto de 92,3% (179/194) e 81,3% (217/267) do MPRA negativo potenciadores ainda estavam previstas como Uma-Es para K562 e HepG2, respectivamente, mas com diferentes distribuições de DECRES escores (p= 4.8 E-6 e p= 2.3 E-6 para K562 e HepG2, respectivamente, de dois lados de Mann-Whitney rank test) (arquivo Adicionais 1: Figura S2). Consistente com os outros dados independentes, quanto maior a pontuação DECRES, maior a probabilidade de serem positivos.Estudos recentes confirmaram que as propriedades da sequência de ADN podem ser úteis para o reconhecimento de promotores e potenciadores , e a discriminação entre sequências reguladoras activas e inactivas utilizando núcleos de sequências de cordas. Isso se baseia na reconhecida capacidade de inclusão das Ilhas CpG como características para melhorar a previsão do promotor . Procurámos determinar se as características da sequência de ADN podem ser informativas para distinguir entre promotores e potenciadores, e entre classes activas e inactivas. Treinamos o modelo com 351 características de sequência (originalmente usado em) em vários cenários. Os resultados são apresentados na Fig. 3 E ficheiro adicional 1: Figura S3. Primeiro, um método profundo restrito a características de sequência para discriminar A-E E A-P (Fig. 3a) entregues auPRCs de 0.8567 a 0.9370, confirmando que os atributos de sequência são de facto informativos. Em segundo lugar, características de sequência têm uma utilidade limitada para distinguir entre Estados ativos e inativos de potenciadores e promotores, o que é lógico; enquanto as características derivadas experimentalmente poderiam altamente separá-los (p=1,90 e-08 e 5.6E-08 para potenciadores e promotores, respectivamente, teste t do estudante de duas caudas; ver Fig. 3B e Ficheiro adicional 1: Figura S3A). Usando características de sequência na ausência de características experimentais tem um desempenho menor na classificação de A-E, A-P e BG em todos os oito tipos de células (p=1.86 e-09, teste T de estudante de duas caudas; ver Fig. 3c). Finalmente, melhores resultados não foram alcançados combinando características experimentais e sequenciais (p=2, 79 e-01, 6, 56 e-01 e 1, 17 e-01 na Fig. 3, teste t do aluno de duas caudas).

Fig. 3
figueiraura3

Comparando a média auPRCs mais de 100 reamostragem e reciclagem em nosso rotulados de regiões usando diferentes conjuntos de recursos. “Experimental” significa o nosso conjunto de recursos de sequenciamento de próxima geração derivado experimentalmente. “Sequência”, o conjunto de 351 propriedades de sequência utilizadas em . “Sequência + Experimental”, a combinação destes dois conjuntos. um. Comparação dos três conjuntos de funcionalidade em Um-E contra Um-P. b. Comparação dos três conjuntos de funcionalidades em Um E versus I-E. c. Comparação dos três conjuntos de funcionalidades em Um E versus A-P versus VERSO. Os p-valores em cada legenda foram obtidos utilizando bicaudal, teste t de Student para comparar “Experimental”baseado em resultados “Experimentais+Sequência”e baseada em “Sequência”baseado em resultados, respectivamente

as principais características para DECRES de desempenho

Como dados experimentais pode ser demorado e caro para produzir, procurou-se determinar o conjunto mínimo de características mais informativas para CRR predição a partir de uma perspectiva computacional. Usamos randomizados profunda de seleção de características (randomizado DFS ou RDFS) e aleatório floresta (RF) modelos (ver Métodos) para duas de classe e de três classes (A-E versus A-P versus VERSO) classificações em quatro tipos de células (GM12878, HelaS3, HepG2, e K562), que tem 72-135 recursos disponíveis.

Figure 4a and Additional file 1: Figure S4A display the feature importance scores discovered by randomized DFS and random forest for the three-class classification. As pontuações de importância das características produzidas por estes métodos devem ser interpretadas de forma diferente. Semelhante a uma seleção para a frente, as pontuações de importância do recurso de DFS aleatorizados refletem quais características são preferidas na fase inicial do modelo esparso, enquanto a pontuação de importância de um recurso por floresta aleatória indica o papel deste recurso no contexto de seu uso com todas as outras características. Assim, o uso de ambos os métodos neste estudo nos permite ganhar diferentes insights sobre os dados. Em nossos experimentos, ambos os métodos podem capturar as características mais importantes, como indicado pelas pontuações de importância em todas as quatro linhas celulares. Por exemplo, ambos os métodos concordam que Pol2, H3K4me1, Taf1 e H3K27ac são úteis para distinguir potenciadores e promotores ativos do fundo na linha celular GM12878. Em alguns casos, as diferentes medidas complementam-se. Por exemplo, H3K4me2 e H4K20me1 são marcados como características-chave pelos DFS aleatorizados, o que é convincente como indicado pelas parcelas box no arquivo adicional 1: Figura S4B e figura S6-S13, mas são negligenciados por floresta aleatória. A Tbp foi destacada pela random forest em células GM12878 e HelaS3, mas não foi captada por DFS aleatorizados. Examinando as parcelas de caixa desta característica no ficheiro adicional 1: As Figuras S6 e S7 revelam que esta característica é discriminatória para distinguir realçadores activos e promotores do fundo, mas não há uma diferença dramática entre realçadores activos e promotores. As características importantes incorporadas num modelo florestal Aleatório só podem ser incorporadas numa última fase do processo DFS. Por exemplo, na linha de células K562, C-Myc foi enfatizado por random forest, o que é de fato razoável como mostrado no arquivo adicional 1: Figura S12 e não foi selecionado como uma característica inicial no processo DFS.

Fig. 4
Figura 4

característica importância e desempenho de classificação no cenário de 3 classes (A-E versus A-P versus BG). a Feature importance discovered by randomized DFS (RDFS) and random forest (RF) on GM12878. As pontuações de importância das características da floresta aleatória foram normalizadas para melhor comparação com os DFS aleatorizados. B auPRC versus o número de características incorporadas nos FTR e RF. Os pontos anotados indicam onde se encontra uma linha com o declive 0.5 intersecta uma curva ajustada

para o desenvolvimento de métodos de aprendizagem de máquinas na anotação do genoma, minimizando o número de características necessárias diminui o custo e aumenta a capacidade de interpretação biológica. Figura 4b e Ficheiro adicional 1: A Figura S5B mostra as alterações dos auprcs de ensaio à medida que o número de características seleccionadas aumenta para as classificações de três classes e de duas classes, respectivamente. Em ambos os casos, teste auPRCs aumenta dramaticamente para as características iniciais, em seguida, plateia de desempenho. Comparando as curvas DFS aleatórias com as curvas da floresta aleatória, podemos ver que não há uma única curva ótima. Algumas características-chave são suficientes para um bom desempenho de previsão. Para definir um número ideal de recursos necessários, encaixamos as curvas na figura. 4B e Ficheiro adicional 1: A Figura S5B e seleccionou o ponto de intersecção para uma linha com um declive de 0,5 nas curvas DFS aleatórias (ver Métodos). São necessárias menos características para a previsão de CRR de duas classes (6 características) em comparação com modelos de três classes destinados a distinguir entre A-E, A-P e fundo (10 características).

As distribuições dos dez melhores características para três classes de previsões (A-E, A-P e VERSO) são fornecidos no arquivo Adicionais 1: Figura S4B. Usando os dez melhores características para cada célula, auPRCs de 0.9022, 0.9156, 0.8651, e 0.8565 foram atingidos, em GM12878, HelaS3, HepG2, e K562, respectivamente. Metade dessas principais características são modificações do histone, das quais H3K4me1, H3K4me2, H3K4me3, e H3K27me3 foram características comumente selecionadas para os modelos de três classes, de acordo com o conhecimento existente . Entre os fatores de transcrição (incluindo co-fatores), Taf1 e p300, bem como RNA polimerase II (Pol2), são freqüentemente selecionados, o que também é consistente com o conhecimento existente .

ficheiro adicional 1: A Figura S5C mostra gráficos das seis principais características seleccionadas por DFS aleatorizados para previsões de duas classes. Usando estas características, auPRCs de 0.9561, 0.9627, 0.926 e 0.9555 foram obtidos nos quatro tipos de células, respectivamente. Para a maioria das características, os intervalos de valores são elevados em A-E E A-P em relação às categorias de fundo. Metade das características selecionadas são DNase-seq e histone modification ChIP-seq dados, incluindo H3K4me2, H3K27ac e H3K27me3. As parcelas de caixa destas características indicam que eles distinguem A-E E A-P do fundo .

A maioria dos DECRES do genome-wide previsões são suportados por outros métodos de

treinamos 2 – e 3-classe multilayer perceptron (MLP) modelos (ver Métodos), utilizando tudo de referência (rotulados) de dados para o treinamento, a fim de prever CRRs de todo o genoma para seis tipos de células (A549 e MCF7 foram excluídos). O modelo de 2 classes identificou 227,332 CRRs (regiões adjacentes foram fundidas), que ocupam 4,8% do genoma (arquivo adicional 1: Tabela S4). Um total de 9153 CRRs foram ubiquitosamente previstos em todos os seis tipos de células. Para a previsão de 3 classes, obtivemos 301.650 regiões A-E (6,8% do genoma) e 26.555 regiões A-P (0,6% do genoma) juntamente com 11.886 a-Es omnipresentes e 3678 a-Ps onipresentes. As previsões para todo o genoma para todos os seis tipos de células estão disponíveis no arquivo adicional 2.

em seguida, examinamos a sobreposição de nossas CRRs previstas com as previsões combinadas e dReg sobre GM12878, HelaS3 e K562. A maioria dos CRRs previsto por DECRES sobreposição com os resultados a partir de um Combinado ou borra, especificamente 86.13%, 76.13%, e 83.63% para GM12878, HelaS3, e K562, respectivamente (Fig. 5). Um subconjunto (13,87% em GM12878, 23,87% em HelaS3, e 16,37% em K562) de previsões de DECRES não se sobrepõem com previsões das outras duas ferramentas. Notavelmente, uma grande parte das previsões combinadas (56,78% em HelaS3, 55,99% em GM12878 e 36.36% em K562) não se sobrepõem às dos métodos supervisionados, o que é consistente com a sua baixa taxa de validação observada . Além disso, as previsões DECRES tendem a ter uma resolução mais fina para as regiões A-P E A-E (ver ficheiro adicional 1: Figura S14, por exemplo).

Fig. 5
a figura5

Acordos de DECRES CRRs com o Combinado e borra de CRRs em três tipos de células (uma: GM12878, b: HelaS3, c: K562), respectivamente. A TSS, PF, e, e nós segmentações do combinado foram renomeadas para CRRs. Os elementos reguladores transcritionais ativos (TREs) previstos por dReg foram renomeados para CRRs

nós investigamos quantos entre nossas previsões genômicas são suportadas pelo conjunto VISTA enhancer . Apesar do fato de que a maioria dos realçadores do VISTA são extremamente conservados em todo o desenvolvimento, ainda encontramos que 37,1% (850/2,293) dos realçadores do VISTA confirmados experimentalmente e não confirmados sobrepõem-se com o a-Es previsto, enquanto apenas 4,8% (110/2,293) destes realçadores do VISTA sobrepõem-se com o a-Ps previsto. Os resultados para realçadores VISTA confirmados experimentalmente são similares (482/1,196 = 40.30% e 60/1,196 = 5,02% sobrepõem A-Es e a-Ps, respectivamente), o que sugere que os nossos realçadores ativos previstos têm funções real potenciador. Uma proporção dos realçadores VISTA que não se sobrepõem às nossas previsões poderia estar activa especificamente durante o desenvolvimento ou em outros tipos de células que não as nossas linhas de células de foco.

DECRES estende o Atlas potenciador FANTOM

devido à profundidade limitada dos sinais da gaiola para eRNAs, uma porção de realçadores ativos (ou transcritos) não terá sido detectada na compilação original do atlas potenciador. Assim, procurámos identificar potenciadores adicionais parcialmente suportados para os quais os sinais eRNA estavam abaixo dos parâmetros iniciais do atlas. No trabalho anterior, um total de 200.171 loci bidireccionalmente transcritos (BDT) foram detectados através do genoma humano, usando tags em gaiola de 808 tipos de células e tecidos. Depois de excluir o loci BDT dentro de exons, um conjunto parcialmente apoiado de 102,021 regiões BDT permaneceu, dos quais 43,011 loci balanceado (níveis eRNA semelhantes em ambos os lados) constituem o Atlas potenciador FANTOM . A fim de investigar se os candidatos mais ativos potenciadores podem ser detectados para cada um dos seis tipos de células, nós treinamos um MLP em suas regiões ativas atlas, e as classes previstas para todos os sites 102,021 BDT. Entre os 102.021 BDT loci, a maioria foi classificada como regiões negativas numa dada célula (ficheiro adicional 1: Tabela S5), enquanto em média 13,316 foram previstos como a-Es e apenas 834 foram previstos como a-Ps por tipo de célula. Um número substancial (6535 em média) de intensificadores inativos no atlas do potenciador original foram previstos como ativos pelo nosso modelo (arquivo adicional 1: Tabela S6), consistente com a suposição de que os dados de BDT são incompletos para qualquer amostra dada. Em média, 5514 BDT loci excluídos pelo atlas original, foram previstos como a-Es por tipo de célula. Ao longo dos seis tipos de células analisadas, um total de 38.601 BDT loci foram previstos como a-Es (arquivo adicional 3), dos quais 16.988 representam uma expansão do Atlas potenciador FANTOM original. Note que 21.398 de 43.011 potenciadores do Atlas potenciador FANTOM original não são previstos como ativos nas seis células analisadas aqui, mas estas regiões podem estar ativas nas outras 802 células para as quais existem recursos inadequados para analisar.

validação computacional da previsão de DEZES usando análise de enriquecimento funcional e motif

realizamos análise de enriquecimento funcional no genoma previsto a-Es e a-Ps usando GREAT . Para GM12878 células, 79% do previsto enhancer regiões são mais de 5 kilobase pares (kbps) do gene TSSs (arquivo Adicionais 1: Figura S15A), enquanto 47% do previsto promotores estão a menos de 5 kbps a anotada gene TSSs (arquivo Adicionais 1: Figura S15B). Foram obtidas estatísticas semelhantes para os restantes cinco tipos de células. As análises de anotação das RCR específicas do GM12878 mostram que os genes proximais estão associados a: resposta imunitária das anotações de ontologia genética (GO) (ficheiro adicional 1: Figura S15C); B vias de sinalização celular a partir das anotações da Via MSigDB (ficheiro adicional 1: Figura S15D); e leucemia das anotações de ontologia da doença (ficheiro adicional 1: Figura s15e). Os resultados são consistentes com a linhagem linfoblastóide das células. Em seguida, realizamos uma análise de enriquecimento funcional nos potenciadores previstos suportados pelo BDT não relatados anteriormente no atlas do potenciador FANTOM (“not in atlas”). Os resultados são totalmente consistentes com a análise acima (arquivo adicional 1: Figura S16).

procedemos ainda a uma análise do enriquecimento do motivo nas CRRs específicas das células previstas e nos potenciadores não integrados no atlas utilizando HOMER . As regiões previstas são enriquecidas para motivos semelhantes aos perfis de ligação JASPAR (ficheiro adicional 1: Figura S15F e figuras S16-S26), ambos associados à manutenção de processos celulares gerais e TFs com papéis selectivos em funções relacionadas com células. Por exemplo, motivos para fatores relacionados com Jun, Fos e Ets foram enriquecidos em regiões de todos os seis tipos de células. Estes TFs regulam os progressos celulares gerais, tais como diferenciação, proliferação ou apoptose . Foram observados enriquecimentos de FT adequados às células para cada célula (resumidos no ficheiro adicional 1: Tabela S7). Por exemplo, o RUNX1 e outros fatores relacionados ao Runt, que desempenham papéis cruciais na hematopoiese, são observados no GM12878 (arquivo adicional 1: Figura S15F e figura S16) . Os factores relacionados com o C / EBP que regulam os genes envolvidos nas respostas imunitárias e inflamatórias são expressos no colo do útero (ficheiro adicional 1: figuras S17 e S18) . Hnf1a, HNF1B, FOXA1, FOXA2, HNF4A, e fatores HNF4G regulam genes específicos do fígado (arquivo adicional 1: figuras S19 e S20) . Os factores NFY cooperam com o GATA1 para mediar a transcrição específica do eritroido em K562 (ficheiro adicional 1: figuras S25 e S26) .

realizámos uma análise funcional e de enriquecimento das previsões A-E E A-P do método combinado , e reportámos os resultados no ficheiro adicional 1: figuras S27-S30. A maioria dos promotores previstos pelo método combinado são distais a TSSs de genes conhecidos, que é semelhante aos potenciadores. Por exemplo, na linha celular GM12878, apenas 22% dos promotores combinados estão localizados a menos de 5 kbp do gene anotado TSSs, em comparação com 47% dos promotores DECRES. Além disso, a análise funcional sobre as CRR previstas pelo método combinado devolveu termos muito menos ou zero significantes para o processo biológico GO, via MSigDB, e ontologia da doença do que as previsões DECRES. Os resultados da análise de motivos de ambos os métodos são consistentes.

Deixe uma resposta

O seu endereço de email não será publicado.

Previous post Design FMEA (DFMEA)
Next post France Travel Blog