RNA-seq para identificar transcrições desativado por miRNA sobreexpressão
está bem estabelecido que a vinculação de um miRNA para o seu alvo transcrição não necessariamente resulta na expressão de genes de downregulation. Na verdade, a maioria dos eventos de ligação miRNA observados, como revelado pela análise CLIP, têm poucas consequências funcionais . Assim, o foco na ligação miRNA por si só tem um valor limitado para a previsão de alvos miRNA funcionais, ou seja, alvos pouco regulamentados. Para aliviar esta preocupação, determinamos diretamente o alvo de regulamentação por miRNA com RNA-seq. O desenho geral do estudo está resumido no arquivo adicional 1: Figura S1. Como primeiro passo, 25 miRNAs, juntamente com um RNA controle negativo, foram individualmente sobreexpressos nas células HeLa por transfecção. Estes 25 miRNAs estão listados no quadro 1. O impacto da sobreexpressão miRNA foi perfilado no nível transcriptoma por experimentos RNA-seq. Para controlar variações experimentais, cada miRNA foi transfectado em células em duplicado em dias diferentes, e RNA-seq construção de bibliotecas e sequências também foram realizadas em duplicado em dias diferentes. No total, 1,5 bilhões de leituras foram geradas para o perfil de expressão de 52 amostras de RNA. Os dados de análise são apresentados no ficheiro adicional 2: Tabela S1. Todos os dados de sequenciação foram combinados para identificar os genes abaixo regulados pela sobre-expressão de miRNA. Em nossa análise, transcrições que contêm pelo menos um local de ligação de sementes de miRNA e foram rebaixadas por pelo menos 40% em ambos os experimentos duplicados são designados como alvos de miRNA. Em contraste, transcrições que contêm pelo menos 1 site de sementes mas não tiveram nenhuma mudança de expressão são designadas como controles não-alvo. Desta forma, os alvos miRNA 2240 e 4127 e os controlos não-alvo foram identificados pelo ARN-seq, respectivamente. Especificamente, foram identificados 90 alvos para cada miRNA, em média, e os números-alvo variam consideravelmente entre os miRNAs individuais (variando de 11 a 206, Quadro 1).
O impacto da miRNA tipos de sementes no alvo downregulation
estudos Anteriores identificaram vários tipos principais de canónico miRNA sites de destino, incluindo as correspondentes a 6-mer, 7-mer, ou 8-mer miRNA semente de sequências (Tabela 2). A análise de conservação de sequências sugeriu que os locais-alvo que se emparelham com sementes miRNA mais longas são mais conservados entre as espécies e, portanto, são mais propensos a serem alvos miRNA de boa fé . Esta hipótese sobre a resistência do tipo de semente também foi confirmada pela análise de conjuntos de dados heterogêneos de microarray no contexto da baixa regulamentação do alvo . No entanto, é necessária uma análise mais aprofundada para quantificar com precisão a contribuição de cada tipo de semente. O nosso conjunto de dados RNA-seq recentemente gerado, abrangendo 25 miRNAs avaliadas em condições experimentais uniformes, proporcionou uma oportunidade única para avaliar quantitativamente a força de diferentes sementes de miRNA na regulação do alvo. Especificamente, avaliamos o enriquecimento de cada tipo de semente em locais alvo sub-regulados em comparação com locais não-alvo.
como indicado no quadro 2 e Fig. 1a, seed6 é o tipo mais prevalente, identificado em 86% de todos os alvos menos regulados. No entanto, devido ao seu curto comprimento, o seed6 também está presente não especificamente em 36% dos locais não visados, resultando na menor razão de enriquecimento de sementes (2.40 no quadro 2). Por outro lado, o seed8A1 é o Tipo Mais Selectivo, com uma razão de enriquecimento de 6.A taxa de crescimento homóloga do PIB per capita é de cerca de 8% e está presente em 30% dos objectivos menos regulados. Entre todas as sementes de 7-mer, seed7b e seed7A1 apresentam rácios de enriquecimento semelhantes, ambos superiores à razão para seed7a.
Outro tipo de 8-mer semente, seed8, tem o segundo maior enriquecimento proporção de 5.48, que é maior do que as proporções para todos os 7-mer sementes. Para distinguir ainda mais a contribuição potencial do jogo de base do terminal de uma base no site alvo, focámo-nos exclusivamente em 8 miRNAs que não têm um U de 5′-end (Fig. 1b). Quando comparados com todos os 25 miRNAs, observámos rácios de enriquecimento semelhantes para seed7b e seed8A1, respectivamente, a partir deste subconjunto de miRNAs (Quadro 2). Estes resultados sugerem que a combinação perfeita terminal A-U tem pouco impacto no reconhecimento do alvo, uma vez que a presença do terminal A nos locais alvo, independentemente do seu estado de emparelhamento com o miRNA, está associada com a regulamentação do alvo. Curiosamente, também observámos uma redução drástica da taxa de enriquecimento para o seed8 a partir deste subconjunto miRNA. De facto, o rácio seed8 (3.32) é ainda inferior ao do seed7b (Quadro 2). Assim, um jogo terminal perfeito diferente do A-U é prejudicial (ao invés de contribuir) para o reconhecimento do alvo. Com base na análise de sementes, decidimos focar em 3 tipos de sementes mais fortes, incluindo seed8A1, seed7b, e seed7A1, para modelagem de previsão de alvos. Combinados, estes três tipos de sementes foram identificados no 3 ‘ – UTR de 76% das transcrições sub-regulamentadas.Uma preocupação comum com os estudos de sobre-expressão miRNA é que é um desafio localizar o local exato de ligação miRNA dentro da transcrição alvo. Para aliviar esta preocupação, identificamos locais alvo candidatos com base na presença de sites de sementes canônicos de 7-mer ou 8-mer. Em contraste com a análise da sobre-expressão de miRNA, os estudos de CLIP-ligação são capazes de identificar inequivocamente os locais de ligação de miRNA na transcrição alvo cruzando o miRNA e o seu cognato local alvo no mesmo complexo RISC. No entanto, a consequência funcional da ligação ao alvo miRNA, Identificada por CLIP, Não pode ser facilmente determinada. Assim, tanto os métodos de ligação de grampos como de sobre-expressão de miRNA têm prós e contras, e cada método por si só representa apenas um aspecto importante da regulação do alvo miRNA, ou seja, a ligação do alvo e a supressão funcional, respectivamente.
na nossa análise, estamos interessados em identificar características comuns que são características da regulação funcional do alvo, incluindo tanto a ligação miRNA e subsequente regulamentação do alvo. Em uma análise de predição recente do alvo, nós compilamos um conjunto de dados de ligação do alvo miRNA derivado de múltiplos estudos públicos de ligação de CLIP. A ligadura CLIPE método é considerado vantajoso sobre os tradicionais CLIPE de métodos, como a miRNA e seu cognato sítio de ligação do alvo transcrição pode ser inequivocamente identificada por reticulação para o mesmo complexo RISC. No presente estudo, o conjunto de dados de ligação de CLIP foi ainda combinado com novos dados de sobreexpressão miRNA para identificar características de alvo que são comuns tanto a ligação de miRNA e supressão de alvo. Desta forma, 4774 locais-alvo e 8081 locais não-alvo, identificados a partir de estudos de sobre-expressão CLIP e miRNA, foram combinados e avaliados na análise de recursos subsequente.Os sítios alvo e não alvo do conjunto de dados combinado foram comparados para identificar as características que estão frequentemente associadas à regulamentação do alvo miRNA. Estas características estão listadas no arquivo adicional 3: Tabela S2. Está bem estabelecido que os locais alvo de miRNA são conservados evolucionariamente . Em nosso estudo, avaliamos a conservação de alvos usando duas abordagens complementares. Primeiro, calculamos a diferença nas pontuações de conservação entre posições de ligação de sementes e posições de flanco, como determinado pelas pontuações de phyloP a partir do alinhamento multi-genoma de 100 vias . Em segundo lugar, também determinamos se todo o site de sementes (7-mer ou 8-mer) é encontrado em várias espécies por Busca de palavras. Ambas as análises de conservação indicaram que os sítios-alvo foram conservados de forma muito significativa em comparação com os sítios não-alvo. De fato, a conservação de sementes estava entre as características mais significativamente enriquecidas, se os dados de sobreexpressão miRNA e ligação de CLIP foram analisados separadamente, ou em combinação. Especificamente, o seed8A1 conservado foi o mais enriquecido em locais alvo (p = 2.8 e−245 por cruzamento de espécies de sementes e p = 7.3 e-218 por Pontuação de phyloP, respectivamente). Na outra extremidade, seed7A1 não conservado foi o tipo de semente mais esgotado (9,5 e−134 por jogo de sementes e p = 1,3 e−138 por Pontuação de phyloP, respectivamente). Além da conservação de sementes, havia muitas outras características comumente encontradas em ambos os conjuntos de dados. Por exemplo, os sites alvo miRNA foram preferencialmente associados com sequências de 3′-UTR mais curtas (p = 4.7 e−126), e eles foram mais propensos a serem encontrados no final da Sequência 3′-UTR (p = 5.4 e−66) e longe do centro de transcrições longas (p = 2.5 e−87).
apesar de muitas semelhanças, existem também diferenças distintas entre a sobre-expressão de miRNA e os dados de ligação de CLIP. Um exemplo proeminente está relacionado com o conteúdo GC do site alvo. Em comparação com sites não-alvo, o conteúdo do site alvo GC foi muito menor em dados de ligação de CLIP (p = 1.9E-146), mas apenas ligeiramente inferior nos dados de sobre−expressão de miRNA (p = 2, 1 e-10). A depleção do nucleótido C foi moderada em ambos os conjuntos de dados. Assim, a diferença drástica no conteúdo de GC entre os dois conjuntos de dados foi principalmente o resultado de um viés muito mais forte contra o nucleótido G nos dados de CLIP (p = 7.7 e−137), em contraste com os dados de sobre−expressão (p = 1.2 e-19). Uma possível explicação poderia estar relacionada com a RNase T1 usada em estudos CLIP, que preferencialmente corta no nucleótido G, resultando na depleção do G interno em leituras sequenciais. No entanto, também pode ser verdade que o enriquecimento de G dificulta a ligação do local-alvo pelo complexo miRISC, uma vez que G também se esgotou nos dados de sobre-expressão miRNA, embora apenas moderadamente. Outra característica interessante é a estabilidade de ligação de sementes, determinada pela energia livre do duplex seed / target. A estabilidade de ligação de sementes foi favorecida em dados de sobreexpressão miRNA (p = 2.5 e−12), mas desfavorecida em dados de ligação de CLIP (p = 5.4 e−26). No geral, Esta característica já não era significativa quando os dois conjuntos de dados foram combinados (p = 0.26).
Developing a target prediction model with common targeting features
All miRNA targeting features, as listed in Additional file 3: Table S2, were modeled in a support vector machine (SVM) framework for algorithm development. Além disso, também realizamos a análise de eliminação de recursos recursivos (RFE) para classificar a importância relativa de cada recurso para sua contribuição independente para o desempenho do modelo. Nesta avaliação RFE, todas as características foram analisadas coletivamente usando SVM. Especificamente, como primeiro passo, a característica menos importante foi identificada e posteriormente removida do modelo. Em seguida, os recursos restantes foram avaliados para identificar a segunda característica menos importante para a eliminação. Este processo de avaliação foi repetido com uma característica eliminada de cada iteração até que apenas uma característica permaneceu. A abordagem RFE ajuda a compreender a contribuição independente das características individuais incluídas no modelo. O quadro 3 resume, por análise da EFP, 20 características de orientação de topo. As fileiras completas de RFE de todas as características estão listadas no arquivo adicional 3: Tabela S2. Consistente com a análise de recursos apresentada na seção anterior, múltiplos recursos de conservação de sementes classificados entre os mais altos pela análise RFE, com seed8a1 conservado como a característica mais impactante. No nosso modelo SVM final, todas as 96 características, incluindo as estatisticamente significativas e não significativas, foram integradas para a construção do modelo de previsão, que denominamos MirTarget v4.0. Fivefold cross-validation was performed to determine the optimal parameters for the SVM kernel function using the grid.ferramenta py no Pacote libsvm. A scoring scheme was then developed to represent the confidence of prediction. Para cada local de destino candidato, MirTarget calcula uma pontuação de probabilidade (na faixa de 0-1) derivada da ferramenta de modelagem SVM, libsvm, como descrito anteriormente . Esta pontuação do local de destino reflecte a avaliação estatística da exactidão da previsão. Com base nas pontuações individuais do local de destino, MirTarget prevê se um gene é um alvo miRNA combinando todas as pontuações do local dentro do 3′-UTR usando a seguinte fórmula::
onde n representa o número do candidato de sites de destino no 3′-UTR, e Pi representa a probabilidade de pontuação para cada site estimado pela MirTarget. A maioria dos genes alvo contém apenas um local, e assim, a pontuação final alvo é computada usando a mesma equação com n = 1. As pontuações MirTarget foram usadas para classificar o significado relativo dos alvos previstos. Desta forma, empregamos MirTarget para a previsão genômica de alvos miRNA. Todas as metas previstas são apresentadas na miRDB (http://mirdb.org) .
o Algoritmo de avaliação independente com dados experimentais
Um interesse comum no desenvolvimento de algoritmos é que um modelo pode funcionar bem em que os dados de treinamento, mas não tão bem independente invisível de dados. Assim, a melhor maneira de avaliar o desempenho do MirTarget seria aplicá-lo a dados experimentais independentes. No presente estudo, foram analisados dados experimentais heterogêneos para a avaliação de algoritmos, incluindo aqueles gerados tanto a partir de clip binding quanto de miRNA knockdown experiments. O desempenho do MirTarget também foi comparado a outros quatro algoritmos bem estabelecidos, incluindo o TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) e PITA. Estes algoritmos estão entre as ferramentas de previsão de alvos miRNA mais populares, e os dados de previsão de transcriptome são prontamente descarregáveis a partir dos respectivos sites.
validação com dados CLIP-seq
Chi et al. foi pioneiro no método HITS-CLIP para identificação experimental de transcrições de alvo miRNA . Com este método, eles realizaram imunoprecipitação cruzada para retirar transcrições de mRNA que estavam associadas com o miRISC no cérebro do rato. O sequenciamento de alto rendimento foi então realizado para identificar estas marcas de transcrição de ARNm, ou seja, fragmentos de RNA curtos protegidos por há pouco da digestão de RNase. Chi et al. demonstrou que, em geral, as etiquetas de transcrição são centradas nos sites de ligação de sementes . Este conjunto de dados de clip de HITS foi ainda analisado no nosso estudo para identificar potenciais locais alvo de miRNA. Ao todo, 886 potenciais locais alvo foram identificados com base nas sequências de correspondência de sementes para os seis miRNAs mais abundantemente expressos. Como controles negativos, um conjunto de potenciais sequências não-alvo também foi selecionado com base nos seguintes critérios: (1) Eles não se sobrepõem com quaisquer marcas de sequência identificadas no experimento HITS-CLIP e (2) eles são de transcrições com níveis de expressão detectáveis, como revelado por microarrays. Destes locais não visados, 889 com sequências de correspondência de sementes foram seleccionados como controlos negativos.
Em nossa análise, o desempenho de cinco algoritmos computacionais, incluindo MirTarget, TargetScan, DIANA-MicroT, miRanda, e PITA, foi avaliada por comparação da sua capacidade de distinguir alvos não-alvos, como é revelado pela HITS-CLIP. A análise ROC foi realizada para avaliar a sensibilidade global e especificidade dos algoritmos de previsão. Como mostrado na Fig. 2a, MirTarget tem o melhor desempenho, com uma área sob a curva ROC (AUC) de 0, 78. DIANA-MicroT tem o segundo melhor desempenho (AUC = 0, 73). Curiosamente, DIANA-MicroT foi desenvolvido por treinamento com dados de ligação CLIP, enquanto outros algoritmos públicos foram treinados com dados de sobreexpressão miRNA. Assim, não é surpreendente que DIANA-MicroT se encaixa relativamente bem em dados de CLIP testing. Além da análise ROC, também construímos curvas de precisão-recall (PR) para avaliar a precisão da previsão. Curvas PR são comumente usadas na avaliação de algoritmos para determinar a precisão da previsão (proporção de positivos verdadeiros entre todos os positivos previstos) em relação à taxa de retirada (proporção de positivos verdadeiros identificados entre todos os positivos verdadeiros). Como mostrado na Fig. 2b, MirTarget tem o melhor desempenho entre todos os cinco algoritmos. Em particular, a precisão para MirTarget é superior a 90% quando a taxa de recolha é inferior a 20%. Isto indica que MirTarget é especialmente preciso para previsões de alta confiança (ou seja, altas pontuações de predição).
Validação com miRNA queda de dados
Alvo previsão de algoritmos também foram avaliados no contexto do destino mudanças de expressão. Nesta análise comparativa, avaliamos os algoritmos empregando um estudo público miRNA knockdown por Hafner et al. . Nesse estudo público, os autores simultaneamente suprimiram as funções de 25 miRNAs por inibidores antissensivos e avaliaram o impacto na expressão de RNA alvo com microarrays. Esperava-se que os Genes visados por estes miRNAs fossem aumentados devido à inibição do miRNA. Em nossa análise, avaliamos a correlação entre as pontuações de previsão de alvos e a regulação da expressão de alvo. Como mostrado na Fig. 3a, em comparação com outros algoritmos, as pontuações de previsão calculadas pelo MirTarget têm a maior correlação com a regulação da expressão genética. Além disso, também avaliamos as mudanças de expressão genética para previsões de alta classificação por algoritmos individuais, uma vez que os pesquisadores estão particularmente interessados em candidatos alvo de alta confiança. Para isso, avaliamos 100 alvos preditos por miRNA, em média, por cada algoritmo. Consistente com a análise de correlação, os objetivos previstos pelo MirTarget foram mais regulados em média em comparação com os previstos por outros algoritmos (Fig. 3b).