Predicción de objetivos funcionales de microRNA mediante modelado integrativo de datos de unión y expresión de objetivo de microRNA

ARN-seq para identificar transcripciones reguladas a la baja por sobreexpresión de miARN

Está bien establecido que la unión de un miARN a su transcripción de objetivo no necesariamente da lugar a una regulación a la baja de la expresión génica. De hecho, la mayoría de los eventos de unión de miARN observados, según lo revelado por el análisis de CLIP, tienen pocas consecuencias funcionales . Por lo tanto, centrarse solo en la unión de miARN tiene un valor limitado para la predicción de objetivos de miARN funcionales, es decir, objetivos regulados a la baja. Para aliviar esta preocupación, determinamos directamente la regulación descendente del objetivo por miRNA con ARN-seq. El diseño general del estudio se resume en el archivo adicional 1: Figura S1. Como primer paso, 25 miRNAs, junto con un ARN de control negativo, se sobreexpresaron individualmente en células HeLa por transfección. Estos 25 MIRNAS se enumeran en la Tabla 1. El impacto de la sobreexpresión de miARN se perfiló a nivel de transcriptoma mediante experimentos de ARN-seq. Para controlar las variaciones experimentales, cada miARN se transfectó a células por duplicado en diferentes días, y la construcción de la biblioteca de ARN-seq y las ejecuciones de secuenciación también se realizaron por duplicado en diferentes días. En total, se generaron 1,5 mil millones de lecturas para el perfil de expresión de 52 muestras de ARN. Los datos de perfil se presentan en el archivo adicional 2: Tabla S1. Todos los datos de secuenciación se combinaron para identificar los genes regulados a la baja por sobreexpresión de miARN. En nuestro análisis, las transcripciones que contienen al menos un sitio de unión de semillas de miRNA y se regularon a la baja en al menos un 40% en ambos experimentos duplicados se designan como objetivos de miRNA. En contraste, las transcripciones que contienen al menos 1 sitio de semilla pero no tienen cambio de expresión se designan como controles no objetivo. De esta manera, 2240 y 4127 dianas de miARN y controles no diana fueron identificados por ARN-seq, respectivamente. Específicamente, se identificaron 90 objetivos para cada miARN en promedio, y los números de objetivos varían considerablemente entre los miARN individuales (que van de 11 a 206, tabla 1).

Tabla 1 Veinticinco miRNAs analizados en los experimentos de ARN-seq

El impacto de los tipos de semillas de miRNA en la regulación descendente del objetivo

Estudios anteriores han identificado varios tipos principales de sitios de destino de miRNA canónicos, incluidos los que coinciden con las secuencias de semillas de miRNA de 6, 7 u 8 mer (Tabla 2). El análisis de conservación de secuencias sugirió que los sitios objetivo emparejados con semillas de miRNA más largas están más conservados en todas las especies y, por lo tanto, es más probable que sean blancos de miRNA de buena fe . Esta hipótesis sobre la resistencia del tipo de semilla también se ha confirmado mediante el análisis de conjuntos de datos de microarrays heterogéneos en el contexto de la regulación descendente del objetivo . Sin embargo, se necesitan más análisis para cuantificar con precisión la contribución de cada tipo de semilla. Nuestro nuevo conjunto de datos ARN-seq a gran escala, que abarca 25 miRNAs evaluados en condiciones experimentales uniformes, proporcionó una oportunidad única para evaluar cuantitativamente la fuerza de diferentes semillas de miRNA en la regulación descendente del objetivo. Específicamente, evaluamos el enriquecimiento de cada tipo de semilla en sitios objetivo regulados a la baja en comparación con sitios no objetivo.

Tabla 2 Enriquecimiento de la compatibilidad de semillas de miRNA en los sitios objetivo

Como se muestra en la Tabla 2 y en la Fig. 1a, seed6 es el tipo más prevalente, identificado en el 86% de todos los objetivos regulados a la baja. Sin embargo, debido a su corta longitud, las semillas6 también están presentes de manera no específica en el 36% de los sitios no objetivo, lo que resulta en la relación de enriquecimiento de semillas más baja (2.40 en la Tabla 2). En el otro extremo, seed8A1 es el tipo más selectivo, con una relación de enriquecimiento de 6.83 y está presente en el 30% de los objetivos regulados a la baja. Entre todas las semillas de 7 mer, seed7b y seed7A1 tienen proporciones de enriquecimiento similares, las cuales son más altas que la proporción de seed7a.

Fig. 1
figura 1

El impacto de los tipos de semillas de miRNA en la regulación descendente del objetivo. Se evaluaron seis tipos de semillas(ver Tabla 2 para definiciones de semillas). porcentaje de genes regulados a la baja que contienen tipos de semillas individuales en relación con los cambios en la expresión génica. Se incluyeron en el análisis los 25 MIRNAS. b Análisis de un subconjunto de 8 miRNAs que no contienen 5 ‘ – U

Otro tipo de semilla de 8 mer, seed8, tiene la segunda proporción de enriquecimiento más alta de 5.48, que es más alta que las proporciones para todas las semillas de 7 mer. Para distinguir aún más la contribución potencial de la coincidencia de la base terminal de la base terminal A en el sitio objetivo, nos enfocamos exclusivamente en 8 miRNAs que no tienen una U de 5’de extremo (Fig. 1b). En comparación con los 25 miRNAs, se observaron proporciones de enriquecimiento similares para seed7b y seed8A1, respectivamente, de este subconjunto de miRNAs (Tabla 2). Estos resultados sugieren que la coincidencia perfecta de la terminal A-U tiene poco impacto en el reconocimiento del objetivo, ya que la presencia de la terminal A en los sitios objetivo, independientemente de su estado de emparejamiento con el miARN, está asociada con la regulación descendente del objetivo. Curiosamente, también observamos una disminución drástica de la proporción de enriquecimiento para las semillas8 de este subconjunto de miARN. De hecho, la proporción de semillas8 (3,32) es incluso menor que la de semillas7b (Tabla 2). Por lo tanto, una coincidencia terminal perfecta que no sea A-U es perjudicial (en lugar de contribuir) al reconocimiento del objetivo. Con base en el análisis de semillas, decidimos centrarnos en 3 tipos de semillas más fuertes, incluidos seed8A1, seed7b y seed7A1, para el modelado de predicción objetivo. Combinados, estos 3 tipos de semillas se identificaron en el 3′-UTR del 76% de las transcripciones reguladas a la baja.

Combinar la regulación descendente del objetivo y los datos de unión de CLIPS para identificar características de segmentación comunes

Una preocupación común con los estudios de sobreexpresión de miARN es que es difícil localizar el sitio exacto de unión de miARN dentro de la transcripción del objetivo. Para aliviar esta preocupación, identificamos sitios objetivo candidatos basados en la presencia de sitios canónicos de semillas de 7 u 8 mer. En contraste con el análisis de sobreexpresión de miARN, los estudios de ligadura por CLIP son capaces de identificar sin ambigüedades los sitios de unión de miARN en la transcripción diana mediante la reticulación del miARN y su sitio objetivo conexo en el mismo complejo RISC. Sin embargo, la consecuencia funcional de la unión al objetivo de miARN, identificada por CLIP, no se puede determinar fácilmente. Por lo tanto, los métodos de sobreexpresión de CLIPS y miRNA tienen pros y contras, y cada método por sí solo representa un aspecto importante de la regulación del objetivo de miRNA, es decir, la unión del objetivo y la supresión funcional, respectivamente.

En nuestro análisis, estamos interesados en identificar las características comunes que son características de la regulación funcional del objetivo, incluida la unión de miRNA y la regulación descendente posterior del objetivo. En un análisis de predicción de objetivos reciente, hemos compilado un conjunto de datos de unión de objetivos de miRNA derivado de múltiples estudios públicos de ligadura de CLIPS . El método de ligadura de CLIP se considera ventajoso sobre los métodos de CLIP tradicionales, ya que tanto el miARN como su sitio de unión conexo en la transcripción objetivo pueden identificarse sin ambigüedades mediante reticulación al mismo complejo RISC. En el presente estudio, el conjunto de datos de unión de CLIPS se combinó con nuevos datos de sobreexpresión de miARN para identificar características de segmentación que son comunes tanto a la unión de miARN como a la supresión de objetivos. De esta manera, se combinaron 4774 sitios diana y 8081 sitios no diana, identificados a partir de estudios de sobreexpresión de CLIP y miARN, y se evaluaron en análisis de características posteriores.

Los sitios objetivo y no objetivo en el conjunto de datos combinado se compararon para identificar las características que se asocian comúnmente con la regulación del objetivo de miRNA. Estas características se enumeran en el archivo adicional 3: Tabla S2. Está bien establecido que los sitios de destino de miRNA se conservan evolutivamente . En nuestro estudio, evaluamos la conservación del objetivo utilizando dos enfoques complementarios. En primer lugar, calculamos la diferencia en los puntajes de conservación entre las posiciones de unión de semillas y las posiciones de flanqueo, según lo determinado por los puntajes filop de alineación multigenómica de 100 vías . En segundo lugar, también determinamos si todo el sitio de la semilla (7-mer u 8-mer) se encuentra en varias especies mediante búsqueda de palabras. Ambos análisis de conservación indicaron que los sitios objetivo se conservaron de manera muy significativa en comparación con los sitios no objetivo. De hecho, la conservación de semillas fue una de las características más enriquecidas, ya sea que la sobreexpresión de miRNA y los datos de unión de CLIPS se analizaran por separado o en combinación. Específicamente, la semilla conservada 8A1 fue la más enriquecida en los sitios objetivo (p = 2,8 E−245 por coincidencia de semillas entre especies y p = 7,3 E-218 por puntuación phyloP, respectivamente). En el otro extremo, seed7A1 no conservada fue el tipo de semilla más agotado (9.5 E−134 por coincidencia de semilla y p = 1.3 E−138 por puntuación phyloP, respectivamente). Además de la conservación de semillas, había muchas otras características comúnmente encontradas en ambos conjuntos de datos. Por ejemplo, los sitios objetivo de miRNA se asociaron preferentemente con secuencias de 3′-UTR más cortas (p = 4,7 E−126), y fue más probable que se encontraran hacia el final de la secuencia de 3′-UTR (p = 5,4 E−66) y lejos del centro de transcripciones largas (p = 2,5 E−87).

A pesar de muchas similitudes, también hay diferencias claras entre la sobreexpresión de miARN y los datos de unión de CLIPS. Un ejemplo destacado está relacionado con el contenido de GC del sitio de destino. En comparación con los sitios no objetivo, el contenido de GC del sitio objetivo fue mucho menor en los datos de unión de CLIPS (p = 1.9E−146), pero solo modestamente menor en los datos de sobreexpresión de miARN (p = 2,1 E−10). La depleción del nucleótido C fue moderada en ambos conjuntos de datos. Por lo tanto, la drástica diferencia en el contenido de CG entre los dos conjuntos de datos fue principalmente el resultado de un sesgo mucho más fuerte contra el nucleótido G en los datos de CLIP (p = 7,7 E−137), en contraste con los datos de sobreexpresión (p = 1,2 E−19). Una posible explicación podría estar relacionada con la RNasa T1 utilizada en estudios de CLIP, que corta preferentemente el nucleótido G, lo que resulta en el agotamiento de la G interna en las lecturas de secuenciación. Sin embargo, también podría ser cierto que el enriquecimiento de G dificulta la unión del sitio objetivo por el complejo miRISC, ya que G también se agotó en los datos de sobreexpresión de miARN, aunque solo moderadamente. Otra característica interesante es la estabilidad de la unión de semillas, determinada por la energía libre del dúplex semilla/objetivo. La estabilidad de la unión de semillas fue favorecida en los datos de sobreexpresión de miARN (p = 2,5 E−12), pero desfavorecida en los datos de unión de CLIPS (p = 5,4 E−26). En general, esta característica ya no era significativa cuando se combinaron los dos conjuntos de datos (p = 0,26).

Desarrollo de un modelo de predicción de objetivos con características de segmentación comunes

Todas las características de segmentación de miRNA, enumeradas en el archivo adicional 3: Tabla S2, se modelaron en un marco de trabajo de máquina vectorial de soporte (SVM) para el desarrollo de algoritmos. Además, también realizamos análisis de eliminación de características recursivas (RFE) para clasificar la importancia relativa de cada característica por su contribución independiente al rendimiento del modelo. En esta evaluación de RFE, todas las características se analizaron colectivamente utilizando SVM. Específicamente, como primer paso, se identificó la característica menos importante y posteriormente se eliminó del modelo. A continuación, se evaluaron las características restantes para identificar la segunda característica menos importante para su eliminación. Este proceso de evaluación se repitió con una característica eliminada de cada iteración hasta que solo quedó una característica. El enfoque de RFE ayuda a comprender la contribución independiente de las características individuales que se incluyen en el modelo. La tabla 3 resume 20 características de segmentación de primer orden por análisis de RFE. Los rangos completos de RFE de todas las características se enumeran en el archivo Adicional 3: Tabla S2. De acuerdo con el análisis de características presentado en la sección anterior, múltiples características de conservación de semillas se clasificaron entre las más altas según el análisis de RFE, con seed8A1 conservada como la característica más impactante. En nuestro modelo SVM final, las 96 características, incluidas las estadísticamente significativas y las no significativas, se integraron para construir el modelo de predicción, al que llamamos MirTarget v4.0. Se realizó una validación cruzada quíntuple para determinar los parámetros óptimos para la función del núcleo SVM utilizando la cuadrícula.herramienta py en el paquete libsvm. Luego se desarrolló un esquema de puntuación para representar la confianza de la predicción. Para cada sitio objetivo candidato, MirTarget calcula una puntuación de probabilidad (en el rango de 0-1) derivada de la herramienta de modelado SVM, libsvm, como se describió anteriormente . Esta puntuación del sitio objetivo refleja la evaluación estadística de la precisión de la predicción. Basado en las puntuaciones individuales del sitio objetivo, MirTarget predice si un gen es un objetivo de miARN combinando todas las puntuaciones del sitio dentro de la 3′-UTR utilizando la siguiente fórmula:

$$ S = 100\times \ left (1-\underset{i=1}{\overset{n}{\Pi}}{P}_i \ right) $$

donde n representa el número de sitios objetivo candidatos en el 3′-UTR, y Pi representa la puntuación de probabilidad para cada sitio según lo estimado por MirTarget. La mayoría de los genes diana contienen solo un sitio, y por lo tanto, el puntaje objetivo final se calcula utilizando la misma ecuación con n = 1. Las puntuaciones MirTarget se utilizaron para clasificar la importancia relativa de los objetivos previstos. De esta manera, empleamos MirTarget para la predicción de objetivos de miRNA en todo el genoma. Todos los objetivos previstos se presentan en miRDB (http://mirdb.org).

Cuadro 3 Resumen de las características de targeting de miRNA de primer orden identificadas por el análisis de RFE

Evaluación de algoritmos con datos experimentales independientes

Una preocupación común en el desarrollo de algoritmos es que un modelo puede funcionar bien en los datos de entrenamiento, pero no tan bien en datos independientes invisibles. Por lo tanto, la mejor manera de evaluar el rendimiento de MirTarget sería aplicarlo a datos experimentales independientes. En el presente estudio, se analizaron datos experimentales heterogéneos para la evaluación de algoritmos, incluidos los generados a partir de experimentos de unión de CLIPS y derribo de miRNA. El rendimiento de MirTarget también se comparó con otros cuatro algoritmos bien establecidos, incluidos TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) y PITA. Estos algoritmos se encuentran entre las herramientas de predicción de objetivos de miRNA más populares, y los datos de predicción de todo el transcriptoma se pueden descargar fácilmente desde los respectivos sitios web.

Validación con datos CLIP-seq

Chi et al. fue pionero en el método HITS-CLIP para la identificación experimental de transcripciones de blancos de miARN . Con este método, realizaron inmunoprecipitación reticular para extraer las transcripciones de ARNm que estaban asociadas con el miRISC en el cerebro de ratón. Se realizó una secuenciación de alto rendimiento para identificar estas etiquetas de transcripción de ARNm, es decir, fragmentos cortos de ARN protegidos por Ago de la digestión de la RNasa. Chi et al. se demostró que, en general, las etiquetas de transcripción se centran en los sitios de unión de semillas . Este conjunto de datos HITS-CLIP se analizó más a fondo en nuestro estudio para identificar posibles sitios objetivo de miRNA. En total, se identificaron 886 sitios objetivo potenciales basados en las secuencias de emparejamiento de semillas para los seis miRNAs más abundantemente expresados. Como controles negativos, también se seleccionó un conjunto de secuencias potenciales no objetivo basadas en los siguientes criterios: (1) no se superponen con ninguna etiqueta de secuencia identificada en el experimento HITS-CLIP y (2) provienen de transcripciones con niveles de expresión detectables según lo revelado por microarrays. De estos sitios no objetivo, se seleccionaron 889 con secuencias de emparejamiento de semillas como controles negativos.

En nuestro análisis, se evaluó el rendimiento de cinco algoritmos computacionales, incluidos MirTarget, TargetScan, DIANA-MicroT, miRanda y PITA, comparando su capacidad para distinguir objetivos de no objetivos según lo revelado por HITS-CLIP. Se realizó un análisis ROC para evaluar la sensibilidad y especificidad general de los algoritmos de predicción. Como se muestra en la Fig. 2a, MirTarget tiene el mejor rendimiento, con un área bajo la curva ROC (AUC) de 0,78. DIANA-MicroT tiene el segundo mejor rendimiento (AUC = 0,73). Curiosamente, DIANA-MicroT se desarrolló entrenando con datos de unión de CLIPS, mientras que otros algoritmos públicos se entrenaron con datos de sobreexpresión de miARN. Por lo tanto, no es sorprendente que DIANA-MicroT se ajuste relativamente bien a los datos de prueba de CLIP. Además del análisis ROC, también construimos curvas de recuperación de precisión (PR) para evaluar la precisión de la predicción. Las curvas de PR se utilizan comúnmente en la evaluación de algoritmos para determinar la precisión de predicción (proporción de positivos verdaderos entre todos los positivos predichos) en relación con la tasa de recuerdo (proporción de positivos verdaderos identificados entre todos los positivos verdaderos). Como se muestra en la Fig. 2b, MirTarget tiene el mejor rendimiento entre los cinco algoritmos. En particular, la precisión para MirTarget es superior al 90% cuando la tasa de recuperación es inferior al 20%. Esto indica que MirTarget es especialmente preciso para predicciones de alta confianza (es decir, puntuaciones de predicción altas).

Fig. 2
figura 2

Comparación de algoritmos de predicción de objetivos de miRNA utilizando el conjunto de datos HITS-CLIP. En el análisis se incluyeron MirTarget y otros cuatro algoritmos de predicción de objetivos. un análisis de curva de características operativas del receptor (ROC) para evaluar la tasa de predicción de falsos positivos en relación con la tasa de predicción de verdaderos positivos. b Análisis de curva de recuperación de precisión (PR) para evaluar la precisión de predicción en relación con la tasa de recuperación

La validación con datos de derribo de miRNA

Los algoritmos de predicción de destino también se evaluaron en el contexto de los cambios de expresión de destino. En este análisis comparativo, evaluamos los algoritmos empleando un estudio de derribo de miRNA público realizado por Hafner et al. . En ese estudio público, los autores suprimieron simultáneamente las funciones de 25 miRNAs mediante inhibidores antisentidos y evaluaron el impacto en la expresión de ARN diana con microarrays. Se esperaba que los genes dirigidos por estos miRNAs se regularan al alza debido a la inhibición de los miRNA. En nuestro análisis, evaluamos la correlación entre las puntuaciones de predicción del objetivo y la regulación al alza de la expresión del objetivo. Como se muestra en la Fig. 3a, en comparación con otros algoritmos, las puntuaciones de predicción calculadas por MirTarget tienen la mayor correlación con la regulación ascendente de la expresión génica. Además, también evaluamos los cambios en la expresión génica para predicciones de alto rango por algoritmos individuales, ya que los investigadores están particularmente interesados en candidatos objetivo de alta confianza. Con este fin, evaluamos 100 objetivos predichos de alto rango por miRNA en promedio por cada algoritmo. De acuerdo con el análisis de correlación, los objetivos predichos por MirTarget fueron los que más se regularon en promedio en comparación con los predichos por otros algoritmos (Fig. 3b).

Fig. 3
figura 3

Comparación de algoritmos de predicción de objetivos utilizando datos de microarray. Se analizaron los datos de perfiles de microarrays para identificar la regulación ascendente del objetivo resultante de la inhibición simultánea de 25 miRNAs. correlación de los puntajes de regulación ascendente y predicción de objetivos calculados por 5 algoritmos individuales, medidos por el coeficiente de correlación de Pearson. b Nivel medio de regulación ascendente de la expresión para los objetivos previstos. Para cada algoritmo, se incluyeron en el análisis 100 objetivos predichos de mayor puntuación por miARN en promedio

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Previous post Setas de Haya
Next post Receta de caracola de ajo