Predicción de todo el genoma de regiones reguladoras de cis utilizando métodos de aprendizaje profundo supervisados

El aprendizaje profundo distingue con precisión potenciadores y promotores activos del fondo

Investigamos la capacidad de los modelos de aprendizaje profundo para separar potenciadores y promotores, y distinguirlos de otras regiones y entre estados de actividad. Entrenamos una red neuronal de alimentación profunda sobre nuestros conjuntos de entrenamiento etiquetados balanceados para predecir nuestros conjuntos de prueba (desequilibrados) de cada tipo de célula bien caracterizado, repitiendo el procedimiento 100 veces. El modelo deep toma características derivadas experimentalmente sobre regiones genómicas como etiquetas de clase de entradas y salidas de estas regiones con probabilidades (consulte el archivo adicional 1: Tabla S1 para el número total de muestras de cada clase y el archivo adicional 1: Tabla S2 para el número de características disponibles; consulte Métodos). Para mayor comodidad narrativa, en lo sucesivo nos referiremos a potenciador activo, promotor activo, exón activo, potenciador inactivo, promotor inactivo, exón inactivo y región desconocida (o no caracterizada) como A-E, A-P, A-X, I-E, I-P, I-X y Reino Unido, respectivamente. Bajo el supuesto de que los CRR activos se están transcribiendo, activo se aplica a regiones en las que se observan eventos de iniciación de transcripción en jaula en el tejido de enfoque, mientras que inactivo se refiere a regiones detectadas en otros tejidos, pero no en el tejido de enfoque. Registramos la tasa media por clase (i. e. sensibilidades promediadas de todas las clases), el área bajo la curva característica de funcionamiento del receptor (auROC) y el área bajo la curva de recuperación de precisión (auPRC) en la Fig. 1 y archivo adicional 1: Figura S1.

Fig. 1
figura 1

Rendimiento medio y desviación estándar de 100 corridas utilizando el modelo MLP en nuestras particiones de prueba de tren muestreadas de ocho tipos de celdas, respectivamente. a Clasificación actuaciones de A-E versus A-P. Clasificación b actuaciones de A-E versus I-E. Clasificación c actuaciones de A-E versus A-P versus BG. MLP: Percepción Multicapa, RF: Bosque Aleatorio, A-E: Potenciador Activo, A-P: Promotor Activo, A-X: Exón Activo, I-E: Potenciador Inactivo, I-P: Promotor Inactivo, I-X: Exón Inactivo, Reino Unido: Desconocido o No Caracterizado, BG: I-E+I-P+A-X+I-X+Reino Unido

Hay cuatro aspectos de los resultados que destacamos, que afirman la capacidad de nuestro enfoque de aprendizaje profundo supervisado para distinguir entre clases de CRR y antecedentes. En primer lugar, somos capaces de distinguir entre potenciadores activos y promotores (A-E versus A-P) (Fig. 1a). Utilizamos A-E y A-P como clases de entrenamiento positivas y negativas, respectivamente. En general, encontramos que A-E y A-P son altamente separables. En segundo lugar, podemos distinguir los CRR activos e inactivos (potenciadores o promotores). De Fig. 1b y archivo adicional 1: Figura S1A, se puede observar que los AUPRC medios en GM12878, HelaS3, HepG2 y K562, que tienen los conjuntos de entrenamiento más grandes, están por encima de 0,95 con pequeñas variaciones tanto para potenciadores como para promotores. En el resto de este artículo, excluimos las líneas celulares A549 y MCF7 en la mayoría de los análisis debido a la disponibilidad limitada de datos. En tercer lugar, no de forma inesperada, es difícil distinguir entre potenciadores inactivos y promotores (Archivo adicional 1: Figura S1B). Siete de las tasas medias por clase para los ocho tipos de células fueron inferiores a 0,80. Si bien hay algunos indicios de que una parte de promotores inactivos tienen alguna maquinaria presente, esperábamos que esas regiones en gran medida no exhibieran una fuerte unión de factores de transcripción o firmas epigenéticas apropiadas para informar un modelo. En cuarto lugar, probamos la aplicabilidad de predecir A-E y A-P a partir de la clase super fondo (BG) fusionando I-E, I-P, A-X, I-X y UK (Fig. 1c). Los resultados en seis tipos de células fueron prometedores, todos superaron 0,80 auPRC. Si A-E y A-P se fusionan para formar una superclase (A-E+A-P), se logra un mayor rendimiento (Archivo adicional 1: Figura S1C). Todos los AUPRC de estos seis tipos de células superaron los 0,89 auPRC. Además, también probamos un método de bosque aleatorio, otro clasificador de última generación, en nuestros datos etiquetados. Se obtuvo un rendimiento similar en los seis escenarios experimentales. El método de bosque aleatorio mostró un rendimiento ligeramente mejor para los conjuntos de datos A549 y MCF7, que tienen un bajo número de potenciadores. Con la expectativa de que estén disponibles más potenciadores anotados, continuaremos usando MLP y explorando otros enfoques de aprendizaje profundo, como las redes neuronales convolucionales y las redes neuronales recurrentes.

DECRES proporciona una mayor sensibilidad y precisión en regiones anotadas de FANTOM

Para evaluar la utilidad relativa de nuestro método profundo supervisado para la predicción de CRR, lo comparamos con los métodos combinados ChromHMM y ChromHMM-Segway sin supervisión utilizando anotaciones de FANTOM en cinco tipos de celdas disponibles como referencia. Se compararon en conjuntos desequilibrados que reflejaban el verdadero trasfondo genómico. Los resultados se comparan en la Fig. 2a que muestra gráficos de radar donde cuanto más grande y convexa es el área, mejor es el rendimiento. Es intuitivo que se prefieran enfoques supervisados cuando los datos de entrenamiento etiquetados sean suficientes. Además, ambos métodos no supervisados se desarrollaron antes de la publicación de los datos de FANTOM5 y, por lo tanto, están en desventaja. Sin embargo, estas anotaciones son ampliamente utilizadas por la comunidad y, por lo tanto, el rendimiento relativo de los DECRES al estándar es de interés. En general, observamos que DECRES supera a los métodos ChromHMM y Combinados, que a su vez ofrecen un rendimiento similar. Estos métodos no supervisados tienen una sensibilidad menor para la detección de potenciadores activos (p = 5.57E-5 y 9.90 E-5 para DECRES versus CROMHMM y Combinados, respectivamente, prueba t de Student de dos colas; ver Fig. 2b) y menor precisión para la detección de promotores activos (p=7,36 E-5 y 2,33 E-4 para DECRES versus CROMHMM y Combinado, respectivamente, prueba t de Student de dos colas; ver Fig. 2b). Usando ChromHMM, la sensibilidad del potenciador activo varía de 16,5% a 48,4% (los números son consistentes con la prueba de potenciadores predichos de codificación reportados en ), mientras que nuestro modelo profundo varía de 69% (K562) a 88,8% (GM12878). Además, ChromHMM alcanza una precisión máxima de 49.8% para la predicción del promotor activo, mientras que el máximo para los DESCRES es de 84,3%.

Fig. 2
figura 2

Comparación del método supervisado (DECRES) y los métodos no supervisados (ChromHMM y Combinados) en cinco conjuntos de pruebas anotadas FANTOM en cartas de radar (a) y pruebas de significación (b). Las segmentaciones de CODIFICACIÓN se descargaron de . Podemos etiquetar las anotaciones de ChromHMM y Combinado. Para las segmentaciones de ChromHMM, las clases Tss, TssF y PromF se fusionaron con A-P; las clases Enh, EnhF, EnhW, EnhWF se fusionaron con A-E; y el resto fueron denotados por BG. Al procesar las anotaciones Combinadas, TSS y PF se reetiquetaron a A-P; E y NOSOTROS se reetiquetaron a A-E; y el resto a BG. Los valores de p en (b) se obtuvieron de la prueba t de Student de dos colas en todos los tipos de células. Los signos de los valores estadísticos se indican entre paréntesis

Evaluación del desempeño de DECRES con datos experimentales independientes

Como la evaluación inicial se centró en la anotación de CRR basada en FANTOM eRNA, el tipo de datos utilizados para entrenar nuestro modelo supervisado, buscamos evaluar el desempeño en datos generados por métodos alternativos. Identificamos dos colecciones independientes de potenciadores validados en laboratorio para evaluar aún más el rendimiento de los DECRES: una colección CRE-seq de regiones analizadas en células K562 y colecciones MPRA (ensayo de reportero paralelo masivo) analizadas en células K562 y HepG2 . En ambos casos, el conjunto de regiones que no logran la expresión directa puede ser predicho falsamente por los métodos evaluados, pero también puede reflejar el hecho de que los procedimientos experimentales solo incluyen un pequeño segmento de ADN regulador y que los ensayos basados en plásmidos no recapitulan las propiedades de la cromatina. Dada la naturaleza de los datos, anticipamos que una parte de los negativos experimentales serán regiones reguladoras de buena fe.

En el primer conjunto independiente, se evaluaron en el laboratorio subconjuntos de potenciadores K562 predichos y regiones negativas (según lo predicho por el método combinado de ChromHMM y Segway) utilizando CRE-seq . En ese estudio, solo el 33% de las regiones reguladoras previstas» combinadas » resultaron ser positivas en el experimento, en comparación con el 7% para el conjunto negativo. Usando DECRES entrenados en todas las regiones reguladoras activas disponibles de células K562, por lo tanto, validamos nuestro método en 386 regiones que muestran actividad potenciadora activa en K562 validada por CRE-seq en comparación con las 298 regiones de control (archivo adicional 1: Tabla S3). Altamente consistente con los resultados anteriores, una sensibilidad del 65,5% (254/386) para las regiones validadas experimentalmente se predijo con éxito como A-E; las 132 regiones restantes se predijeron como antecedentes (ninguna se clasificó como promotoras). Para las 812 predicciones probadas que estaban inactivas en el experimento CRE-seq, las decisiones clasificaron el 53,3% (433/812) como positivas. Para las 298 regiones de control negativas, el DECRES predijo que todas eran negativas (incluidas las 16 que estaban activas en el experimento CRE-seq). Es importante destacar que, a medida que aumentan las puntuaciones de DECRES, aumenta la calidad de las predicciones. Dibujamos el histograma de las puntuaciones de membresía de DECRES de 254 y 433 potenciadores combinados positivos y negativos experimentalmente que fueron predichos como A-Es por DECRES (Archivo adicional 1: Figura S2). Las distribuciones son significativamente diferentes (p = 0.014, prueba de rango de Mann-Whitney de dos lados).

La segunda colección independiente, en la que se probó un «potenciador fuerte» específico para K562 y HepG2 (según lo predicho por ChromHMM) que contenía sitios de unión de TF predichos para TFs selectivas de células utilizando un ensayo de reportero paralelo masivo (MPRA) . Solo se detectó que el 41% de los potenciadores se expresaban significativamente (p = 0,05, prueba de rango de Mann-Whitney de dos lados). Utilizamos DECRES para predecir las clases de los potenciadores MPRA positivos y MPRA negativos. Nuestro resultado en el archivo adicional 1: Tabla S3 muestra que el 98,4% (120/122) y el 97.el 8% (182/186) de los potenciadores positivos de MPRA se predijo que serían A-Es por DECRES para las células K562 y HepG2, mientras que el 92,3% (179/194) y el 81,3% (217/267) de los potenciadores negativos de MPRA se predijeron como A-Es para K562 y HepG2, respectivamente, pero con diferentes distribuciones de puntuaciones de DECRES (p= 4,8 E-6 y p= 2,3 E-6 para K562 y HepG2, respectivamente, prueba de rango de Mann-Whitney de dos lados) (Archivo adicional 1: Figura S2). De acuerdo con los otros datos independientes, cuanto más altas sean las puntuaciones de DECRES, más probabilidades hay de que sean positivas.

Evaluar la utilidad de las propiedades de la secuencia de ADN en el rendimiento de DECRES

Estudios recientes confirmaron que las propiedades de la secuencia de ADN pueden ser útiles para el reconocimiento de promotores y potenciadores , y la discriminación entre secuencias reguladoras activas e inactivas utilizando núcleos de secuencia de cadenas. Esto se basa en la capacidad reconocida desde hace mucho tiempo para la inclusión de las islas CpG como características para mejorar la predicción del promotor . Buscamos determinar si las características de la secuencia de ADN pueden ser informativas para distinguir entre promotores y potenciadores, y entre clases activas e inactivas. Entrenamos el modelo con funciones de secuencia 351 (originalmente utilizadas en) en múltiples escenarios. Los resultados se muestran en la Fig. 3 y archivo adicional 1: Figura S3. En primer lugar, un método profundo restringido a características de secuencia para discriminar A-E y A-P (Fig. 3a) entregó auPRCs de 0.8567 a 0.9370, confirmando que los atributos de secuencia son realmente informativos. En segundo lugar, las características de secuencia tienen una utilidad limitada para distinguir entre estados activos e inactivos de potenciadores y promotores, lo cual es lógico; mientras que las características derivadas experimentalmente podrían separarlas en gran medida (p=1,90 E-08 y 5.06E-08 para potenciadores y promotores, respectivamente, prueba t de Student de dos colas; ver Fig. 3b y archivo adicional 1: Figura S3A). El uso de características de secuencia en ausencia de características experimentales tiene un menor rendimiento en la clasificación de A-E, A-P y BG en los ocho tipos de células (p=1,86 E-09, prueba t de Student de dos colas; ver Fig. 3c). Finalmente, no se obtuvieron mejores resultados combinando características experimentales y de secuencia (p=2,79 E-01, 6,56 E-01 y 1,17 E-01 en la Fig. 3, prueba t de estudiante de dos colas).

Fig. 3
figura 3

Comparación de los AUPR media de más de 100 remuestreos y reciclaje en nuestras regiones etiquetadas utilizando diferentes conjuntos de características. «Experimental» significa nuestro conjunto de funciones de secuenciación de próxima generación derivadas experimentalmente. «Secuencia» significa el conjunto de 351 propiedades de secuencia utilizadas en . «Secuencia experimental+» significa la combinación de estos dos conjuntos. a. Comparación de los tres conjuntos de características en A-E versus A-P. b. Comparación de los tres conjuntos de características en A-E versus I-E. c. Comparación de los tres conjuntos de características en A-E versus A-P versus BG. Los valores de p en cada leyenda se obtuvieron utilizando la prueba t de Student de dos colas para comparar los resultados basados en «Experimental»con los resultados basados en «Experimental+Secuencia»y los basados en «Secuencia», respectivamente

Características clave para el rendimiento de DECRES

Dado que los datos experimentales pueden llevar mucho tiempo y ser costosos de producir, buscamos determinar el conjunto mínimo de características más informativo para la predicción de CRR desde una perspectiva computacional. Utilizamos modelos aleatorios de selección de características profundas (DFS o RDFS aleatorios) y bosques aleatorios (RF) (consulte Métodos) para clasificaciones de dos y tres clases (A-E versus A-P versus BG) en cuatro tipos de células (GM12878, HelaS3, HepG2 y K562) que tienen entre 72 y 135 características disponibles.

La figura 4a y el archivo adicional 1: La Figura S4A muestran las puntuaciones de importancia de las características descubiertas por DFS aleatorizados y bosque aleatorio para la clasificación de tres clases. Las puntuaciones de importancia de las características producidas por estos métodos deben interpretarse de manera diferente. De manera similar a una selección hacia adelante, las puntuaciones de importancia de las entidades de los DFS aleatorios reflejan qué entidades son preferidas en la etapa inicial del modelo disperso, mientras que la puntuación de importancia de una entidad de bosque aleatorio indica el papel de esta entidad en el contexto de su uso con todas las demás entidades. Por lo tanto, el uso de ambos métodos en este estudio nos permite obtener diferentes percepciones de los datos. En nuestros experimentos, ambos métodos pueden capturar las características más importantes indicadas por las puntuaciones de importancia en las cuatro líneas celulares. Por ejemplo, ambos métodos coinciden en que Pol2, H3K4me1, Taf1 y H3K27ac son útiles para distinguir potenciadores activos y promotores del fondo en la línea celular GM12878. En algunos casos, las diferentes medidas se complementan entre sí. Por ejemplo, H3K4me2 y H4K20me1 están marcadas como características clave por el DFS aleatorio, lo que es convincente como lo indican las gráficas de caja en el archivo Adicional 1: Figura S4B y Figura S6-S13, pero son pasadas por alto por random forest. El Tbp fue destacado por bosques aleatorios en células GM12878 y HelaS3, pero no fue recogido por SSE aleatorios. El examen de las gráficas de caja de esta característica en el archivo adicional 1: Figuras S6 y S7 revela que esta característica es discriminativa para distinguir potenciadores activos y promotores del fondo, pero no hay una diferencia dramática entre potenciadores activos y promotores. Es posible que las características importantes incorporadas en un modelo forestal aleatorio no se incorporen hasta una última etapa del proceso del DAAT. Por ejemplo, en la línea celular K562, C-Myc fue enfatizado por bosque aleatorio, lo cual es de hecho razonable como se muestra en el archivo adicional 1: Figura S12 y no fue seleccionado como una característica inicial en el proceso DFS.

Fig. 4
figura 4

Importancia de las características y rendimiento de clasificación en el escenario de 3 clases (A-E versus A-P versus BG). una importancia característica descubierta por DFS aleatorios (RDFS) y bosques aleatorios (RF) en GM12878. Las puntuaciones de importancia de las características de los bosques aleatorios se normalizaron para una mejor comparación con los SSE aleatorios. b auPRC versus el número de características incorporadas en los RDFS y RF. Los puntos anotados indican dónde está una línea con pendiente 0.5 interseca una curva ajustada

Para el desarrollo de métodos de aprendizaje automático en la anotación del genoma, minimizar el número de características requeridas disminuye el costo y aumenta la capacidad de interpretación biológica. La Figura 4b y el archivo adicional 1: La Figura S5B muestran los cambios de los AUPR de prueba a medida que aumenta el número de entidades seleccionadas para las clasificaciones de tres y dos clases, respectivamente. En ambos casos, los AUPR de prueba aumentan drásticamente para las características iniciales, luego las mesetas de rendimiento. Al comparar las curvas DFS aleatorias con las curvas de bosque aleatorias, podemos ver que no hay una curva óptima única. Algunas características clave son suficientes para un buen rendimiento de predicción. Para definir un número óptimo de características necesarias, ajustamos las curvas en la Fig. 4b y archivo adicional 1: Figura S5B y seleccionó el punto de intersección para una línea con pendiente de 0,5 en las curvas DFS aleatorias (ver Métodos). Se necesitan menos características para la predicción de CRR de dos clases (6 características) en comparación con los modelos de tres clases destinados a distinguir entre A-E, A-P y fondo (10 características).

Las distribuciones de las diez principales características para predicciones de tres clases (A-E, A-P y BG) se dan en el archivo adicional 1: Figura S4B. Utilizando las diez principales características para cada celda, se lograron AUPR de 0.9022, 0.9156, 0.8651 y 0.8565 en GM12878, HelaS3, HepG2 y K562, respectivamente. La mitad de estas características principales son modificaciones de histonas, de las cuales H3K4me1, H3K4me2, H3K4me3 y H3K27me3 fueron características comúnmente seleccionadas para los modelos de tres clases, de acuerdo con el conocimiento existente . Entre los factores de transcripción (incluidos los cofactores), se seleccionan con frecuencia Taf1 y p300, así como la ARN polimerasa II (Pol2), lo que también es consistente con el conocimiento existente .

Archivo adicional 1: La figura S5C muestra gráficos de caja de las seis entidades seleccionadas por DFS aleatorio para predicciones de dos clases. Utilizando estas características, se obtuvieron AUPR de 0,9561, 0,9627, 0,926 y 0,9555 en los cuatro tipos de células, respectivamente. Para la mayoría de las entidades, los rangos de valores se elevan en A-E y A-P en relación con las categorías de fondo. La mitad de las características seleccionadas son datos DNase-seq y ChIP-seq de modificación de histonas, incluidos H3K4me2, H3K27ac y H3K27me3. Las gráficas de caja de estas características indican que distinguen A-E y A-P del fondo .

La mayoría de las predicciones de todo el genoma de DECRES están respaldadas por otros métodos

Entrenamos modelos de perceptrón multicapa (MLP) de 2 y 3 clases (ver Métodos) utilizando todos los datos de referencia (etiquetados) para el entrenamiento, con el fin de predecir CRR en todo el genoma para seis tipos de células (se excluyeron A549 y MCF7). El modelo de 2 clases identificó 227.332 CRR (se fusionaron regiones adyacentes), que ocupan el 4,8% del genoma (Archivo adicional 1: Tabla S4). Se predijo un total de 9.153 CRR de forma ubicua en los seis tipos de células. Para la predicción de 3 clases, obtuvimos 301,650 regiones A-E (6.8% del genoma) y 26,555 regiones A-P (0.6% del genoma) junto con 11,886 A-Es ubicuas y 3678 A-Ps ubicuas. Las predicciones de todo el genoma para los seis tipos de células están disponibles en el archivo Adicional 2.

A continuación, examinamos la superposición de nuestros CRR predichos con las predicciones Combinadas y dReg en GM12878, HelaS3 y K562. La mayoría de los CRR predichos por DECRES se superponen con los resultados de ambos Combinados o dReg, específicamente 86,13%, 76,13% y 83,63% para GM12878, HelaS3 y K562, respectivamente (Fig. 5). Un subconjunto (13,87% en GM12878, 23,87% en HelaS3 y 16,37% en K562) de predicciones de DECRES no se superponen con las predicciones de las otras dos herramientas. En particular, una gran parte de las predicciones combinadas (56,78% en HelaS3, 55,99% en GM12878 y 36.36% en K562) no se solapan con los de los métodos supervisados, lo que es coherente con su baja tasa de validación observada . Además, las predicciones de DECRES tienden a tener una resolución más fina para las regiones A-P y A-E (véase el archivo adicional 1: Figura S14 para ver un ejemplo).

Fig. 5
figura 5

Acuerdos de los CRR de DECRES con los CRR Combinados y dReg en tres tipos de células (a: GM12878, b: HelaS3, c: K562), respectivamente. Las segmentaciones TSS, PF, E y WE de Combined se reetiquetaron a CRR. Los elementos reguladores transcripcionales activos (TREs, active transcriptional regulatory elements) predichos por dReg se renombraron a CRR

Investigamos cuántas de nuestras predicciones genómicas son compatibles con el conjunto de potenciadores de VISTA . A pesar del hecho de que la mayoría de los potenciadores de VISTA están extremadamente conservados a lo largo del desarrollo, todavía encontramos que el 37,1% (850/2.293) de los potenciadores de VISTA confirmados experimentalmente y no confirmados se solapan con los A-Es predichos,mientras que solo el 4,8% (110/2. 293) de estos potenciadores de VISTA se solapan con los A-Ps predichos. Los resultados de los potenciadores VISTA confirmados experimentalmente son similares (482/1.196 = 40,30% y 60/1. 196 = 5,02% se superponen A-Es y A-Ps,respectivamente), lo que sugiere que nuestros potenciadores activos predichos tienen funciones de potenciadores reales. Una proporción de los potenciadores de VISTA que no se superponen a nuestras predicciones podría estar activa específicamente durante el desarrollo o en otros tipos de células que no sean nuestras líneas celulares de enfoque.

DECRES extiende el atlas potenciador FANTOM

Debido a la limitada profundidad de las señales de JAULA para eRNAs, una parte de los potenciadores activos (o transcritos) no se habrán detectado en la compilación original del atlas potenciador. Por lo tanto, tratamos de identificar potenciadores adicionales parcialmente compatibles para los que las señales eRNA estaban por debajo de la configuración de umbral original de atlas . En el trabajo anterior, se detectaron un total de 200.171 loci transcritos bidireccionalmente (BDT) en todo el genoma humano, utilizando etiquetas JAULA de 808 tipos de células y tejidos. Después de excluir los loci de BDT dentro de los exones, se mantuvo un conjunto parcialmente soportado de 102.021 regiones de BDT, de las cuales 43.011 loci equilibrados (niveles de eRNA similares en ambos lados) constituyen el FANTOM enhancer atlas . Con el fin de investigar si se pueden detectar candidatos a potenciadores más activos para cada uno de los seis tipos de células, entrenamos a un MLP en sus regiones activas de atlas y predijimos clases para los 102.021 sitios de BDT. Entre los 102.021 loci de BDT, la mayoría se clasificaron como regiones negativas en una celda dada (Archivo adicional 1: Tabla S5), mientras que en promedio se predijeron 13.316 como A-Es y solo 834 como A-Ps por tipo de célula. Nuestro modelo predijo que un número sustancial (6535 en promedio) de potenciadores inactivos en el atlas de potenciadores original eran activos (archivo adicional 1: Tabla S6), consistente con la suposición de que los datos de BDT son incompletos para cualquier muestra dada. En promedio, 5514 loci de BDT excluidos por el atlas original, se predijeron como A-Es por tipo de célula. Sobre los seis tipos de células analizadas, se pronosticaron un total de 38.601 loci BDT como A-Es (archivo Adicional 3), de los cuales 16.988 representan una expansión del atlas FANTOM enhancer original. Tenga en cuenta que 21.398 de los 43.011 potenciadores del atlas FANTOM enhancer original no se pronostican como activos en las seis células analizadas aquí, pero estas regiones pueden estar activas en las otras 802 células para las que hay características inadecuadas para analizar.

Validación computacional de la predicción de DECRES utilizando análisis de enriquecimiento funcional y de motivos

Realizamos análisis de enriquecimiento funcional en el A-Es y A-Ps predichos para todo el genoma utilizando GREAT . Para las células GM12878, el 79% de las regiones potenciadoras predichas están a más de 5 pares de kilobasas (kbps) del gen TSSs (Archivo adicional 1: Figura S15A), mientras que el 47% de los promotores predichos están a menos de 5 kbps del gen TSSs anotado (Archivo adicional 1: Figura S15B). Se obtuvieron estadísticas similares para los cinco tipos de células restantes. Los análisis de anotación de los CRR específicos de GM12878 muestran que los genes proximales están asociados a: respuestas inmunitarias a partir de anotaciones de ontología génica (GO) (Archivo adicional 1: Figura S15C); Vías de señalización de células B a partir de anotaciones de la Vía MSigDB (Archivo adicional 1: Figura S15D); y anotaciones de leucemia a partir de ontología de enfermedades (Archivo adicional 1: Figura S15E). Los resultados son consistentes con el linaje linfoblastoide de las células. A continuación, realizamos un análisis de enriquecimiento funcional en los potenciadores predichos compatibles con BDT que no se habían reportado previamente en el atlas de potenciadores FANTOM («no en atlas»). Los resultados son totalmente consistentes con el análisis anterior (Archivo adicional 1: Figura S16).

Además, llevamos a cabo análisis de enriquecimiento de motif en los CRR específicos de la célula previstos y en los potenciadores que no están en atlas utilizando HOMER . Las regiones predichas se enriquecen para motivos similares a los perfiles de unión de JASPAR (Archivo adicional 1: Figura S15F y Figuras S16-S26), ambos asociados a TFs que mantienen procesos celulares generales y TFs con roles selectivos en funciones relacionadas con las células. Por ejemplo, los motivos para los factores relacionados con Jun, Fos y Ets se enriquecieron en regiones de los seis tipos de células. Estos TFs regulan los progresos celulares generales, como la diferenciación, la proliferación o la apoptosis . Se observaron enriquecimientos de FT apropiados para cada célula (resumidos en el archivo Adicional 1: Tabla S7). Por ejemplo, en GM12878 se observa RUNX1 y otros factores relacionados con Runt, que desempeñan un papel crucial en la hematopoyesis (Archivo adicional 1: Figura S15F y Figura S16) . Los factores relacionados con C / EBP que regulan los genes implicados en las respuestas inmunitarias e inflamatorias se expresan en el cuello uterino (Archivo adicional 1: Figuras S17 y S18) . Los factores HNF1A, HNF1B, FOXA1, FOXA2, HNF4A y HNF4G regulan genes específicos del hígado (Archivo adicional 1: Figuras S19 y S20) . Los factores NFY cooperan con GATA1 para mediar la transcripción eritroide específica en K562 (Archivo adicional 1: Figuras S25 y S26) .

Realizamos análisis funcionales y de enriquecimiento de las predicciones A-E y A-P del método Combinado, e informamos los resultados en el archivo Adicional 1: Figuras S27-S30. La mayoría de los promotores predichos por el método Combinado son distales al gen TSSs conocido, que es similar a los potenciadores. Por ejemplo, en la línea celular GM12878, solo el 22% de los promotores combinados se encuentran a menos de 5 kbp del gen anotado TSSs, en comparación con el 47% de los promotores de DECRES. Por otra parte, el análisis funcional de los CRR predichos por el método Combinado devolvió mucho menos o cero términos significativos para el proceso biológico GO, la vía MSigDB y la ontología de la enfermedad que las predicciones de DECRES. Los resultados del análisis de motivos de ambos métodos son consistentes.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Previous post Diseño FMEA (DFMEA)
Next post Reddit' s La estrategia de citas femeninas convierte el amor en un juego. Funciona?