Prédiction de cibles de microARN fonctionnels par modélisation intégrative des données de liaison de microARN et d’expression de cible

ARN-seq pour identifier les transcrits régulés à la baisse par la surexpression des miARN

Il est bien établi que la liaison d’un miARN à son transcrit cible n’entraîne pas nécessairement une régulation à la baisse de l’expression des gènes. En fait, la plupart des événements de liaison des miARN observés, tels que révélés par l’analyse des CLIPS, ont peu de conséquences fonctionnelles. Ainsi, se concentrer uniquement sur la liaison des miARN a une valeur limitée pour la prédiction de cibles miARN fonctionnelles, c’est-à-dire de cibles régulées à la baisse. Pour atténuer cette préoccupation, nous avons directement déterminé la régulation négative cible par les miARN avec ARN-seq. La conception globale de l’étude est résumée dans le fichier supplémentaire 1 : Figure S1. Dans un premier temps, 25 MIARN, ainsi qu’un ARN témoin négatif, ont été surexprimés individuellement dans les cellules HeLa par transfection. Ces 25 MIARN sont répertoriés dans le tableau 1. L’impact de la surexpression des miarns a été profilé au niveau du transcriptome par des expériences ARN-seq. Pour contrôler les variations expérimentales, chaque miARN a été transfecté dans des cellules en double à des jours différents, et la construction de la bibliothèque ARN-seq et des séquences de séquençage ont également été effectuées en double à des jours différents. Au total, 1,5 milliard de lectures ont été générées pour le profilage d’expression de 52 échantillons d’ARN. Les données de profilage sont présentées dans le fichier supplémentaire 2 : Tableau S1. Toutes les données de séquençage ont été combinées pour identifier les gènes régulés à la baisse par la surexpression des miarns. Dans notre analyse, les transcriptions qui contiennent au moins un site de liaison des graines de miARN et qui ont été régulées à la baisse d’au moins 40 % dans les deux expériences dupliquées sont désignées comme cibles de miARN. En revanche, les transcriptions qui contiennent au moins 1 site de semence mais n’ont subi aucun changement d’expression sont désignées comme témoins non cibles. De cette façon, 2240 et 4127 cibles miARN et témoins non cibles ont été identifiés par ARN-seq, respectivement. Plus précisément, il y avait 90 cibles identifiées pour chaque miARN en moyenne, et les nombres cibles varient considérablement d’un miARN à l’autre (allant de 11 à 206, tableau 1).

Tableau 1 Vingt-cinq MIARN analysés dans les expériences ARN-seq

L’impact des types de graines de miARN sur la régulation négative des cibles

Des études antérieures ont identifié plusieurs types majeurs de sites cibles de miARN canoniques, y compris ceux correspondant aux séquences de graines de miARN 6-mer, 7-mer ou 8-mer (tableau 2). L’analyse de la conservation des séquences a suggéré que les sites cibles s’appariant à des graines de miARN plus longues sont plus conservés d’une espèce à l’autre et sont donc plus susceptibles d’être des cibles de miARN de bonne foi. Cette hypothèse sur la résistance du type de graine a également été confirmée par l’analyse d’ensembles de données hétérogènes sur les microréseaux dans le contexte de la régulation à la baisse des cibles. Cependant, une analyse plus approfondie est nécessaire pour quantifier avec précision la contribution de chaque type de graine. Notre ensemble de données ARN-SEQ nouvellement généré à grande échelle, comprenant 25 MIARN évalués dans des conditions expérimentales uniformes, a fourni une occasion unique d’évaluer quantitativement la force de différentes graines de miARN lors de la régulation négative cible. Plus précisément, nous avons évalué l’enrichissement de chaque type de semences dans les sites cibles réglementés à la baisse par rapport aux sites non cibles.

Tableau 2 Enrichissement de la correspondance des semences de miARN dans les sites cibles

Comme le montrent le tableau 2 et la Fig. 1a, seed6 est le type le plus répandu, identifié dans 86% de toutes les cibles réglementées à la baisse. Cependant, en raison de sa courte longueur, la semence6 est également présente de manière non spécifique dans 36 % des sites non ciblés, ce qui donne le taux d’enrichissement des semences le plus faible (2,40 dans le tableau 2). À l’autre extrémité, la semence 8a1 est le type le plus sélectif, avec un taux d’enrichissement de 6.83 et est présent dans 30% des cibles réglementées à la baisse. Parmi toutes les graines 7-mer, seed7b et seed7A1 ont des taux d’enrichissement similaires, tous deux plus élevés que le rapport pour seed7a.

Fig. 1
 figure1

L’impact des types de semences de miARN sur la régulation à la baisse des cibles. Six types de semences ont été évalués (voir le tableau 2 pour les définitions des semences). un pourcentage de gènes régulés à la baisse contenant des types de graines individuels par rapport aux changements d’expression génique. Les 25 MIARN ont été inclus dans l’analyse. b Analyse d’un sous-ensemble de 8 MIARN ne contenant pas de 5′-U

Un autre type de semence 8-mer, seed8, a le deuxième taux d’enrichissement le plus élevé de 5,48, ce qui est plus élevé que les ratios de toutes les graines 7-mer. Pour distinguer davantage la contribution potentielle de la correspondance de base du terminal de la base du terminal A dans le site cible, nous nous sommes concentrés exclusivement sur 8 MIARN qui n’ont pas de U d’extrémité 5′ (Fig. 1b). En comparaison avec les 25 MIARN, nous avons observé des rapports d’enrichissement similaires pour les semences 7b et 8A1, respectivement, de ce sous-ensemble de MIARN (tableau 2). Ces résultats suggèrent que l’appariement parfait du terminal A-U a peu d’impact sur la reconnaissance de la cible, car la présence du terminal A dans les sites cibles, quel que soit son statut d’appariement au miARN, est associée à une régulation négative de la cible. Fait intéressant, nous avons également observé une diminution spectaculaire du taux d’enrichissement de la semence 8 de ce sous-ensemble de miARN. En fait, le rapport semence 8 (3,32) est encore plus faible que celui de la semence 7b (tableau 2). Ainsi, une correspondance terminale parfaite autre que A-U est préjudiciable (plutôt que de contribuer) à la reconnaissance de la cible. Sur la base de l’analyse des semences, nous avons décidé de nous concentrer sur les 3 types de semences les plus puissants, y compris seed8A1, seed7b et seed7A1, pour la modélisation de la prédiction des cibles. Combinés ensemble, ces 3 types de semences ont été identifiés dans le 3′-UTR de 76% des transcrits réglementés à la baisse.

Combiner les données de régulation négative des cibles et de liaison des CLIPS pour identifier les caractéristiques de ciblage communes

Une préoccupation commune avec les études sur la surexpression des miARN est qu’il est difficile de localiser le site exact de liaison des miARN dans la transcription cible. Pour atténuer cette préoccupation, nous avons identifié des sites cibles candidats en fonction de la présence de sites de semences canoniques 7-mer ou 8-mer. Contrairement à l’analyse de surexpression de miARN, les études de CLIP-ligation sont capables d’identifier sans ambiguïté les sites de liaison des miARN dans la transcription cible en réticulant le miARN et son site cible apparenté dans le même complexe RISC. Cependant, la conséquence fonctionnelle de la liaison cible des miarns, telle qu’identifiée par CLIP, ne peut pas être facilement déterminée. Ainsi, les deux méthodes de liaison par CLIP et de surexpression des miARN ont des avantages et des inconvénients, et chaque méthode seule ne représente qu’un aspect important de la régulation de la cible des miARN, à savoir la liaison de la cible et la suppression fonctionnelle, respectivement.

Dans notre analyse, nous nous intéressons à l’identification de caractéristiques communes caractéristiques de la régulation fonctionnelle des cibles, y compris la liaison des miARN et la régulation négative ultérieure des cibles. Dans une analyse récente de prédiction de cible, nous avons compilé un ensemble de données de liaison de cible de miARN dérivé de plusieurs études publiques de ligature de CLIP. La méthode de ligature du CLIP est considérée comme avantageuse par rapport aux méthodes de CLIP traditionnelles, car le miARN et son site de liaison apparenté dans la transcription cible peuvent être identifiés sans ambiguïté par réticulation au même complexe RISC. Dans la présente étude, l’ensemble de données de liaison de CLIP a été combiné avec de nouvelles données de surexpression d’ARNm pour identifier les caractéristiques de ciblage communes à la liaison d’ARNm et à la suppression de cible. De cette façon, 4774 sites cibles et 8081 sites non cibles, identifiés à la fois à partir d’études de surexpression de CLIP et de miARN, ont été combinés et évalués lors d’une analyse ultérieure des caractéristiques.

Les sites cibles et non cibles de l’ensemble de données combiné ont été comparés pour identifier les caractéristiques couramment associées à la régulation des cibles miARN. Ces fonctionnalités sont répertoriées dans le fichier supplémentaire 3 : Tableau S2. Il est bien établi que les sites cibles des miarns sont conservés de manière évolutive. Dans notre étude, nous avons évalué la conservation des cibles en utilisant deux approches complémentaires. Tout d’abord, nous avons calculé la différence dans les scores de conservation entre les positions de liaison des graines et les positions d’accompagnement, telles que déterminées par les scores phylopiques de l’alignement multi-génomique à 100 voies. Deuxièmement, nous avons également déterminé si l’ensemble du site de semences (7-mer ou 8-mer) se trouve chez plusieurs espèces par recherche de mots. Les deux analyses de conservation ont indiqué que les sites cibles étaient très significativement conservés par rapport aux sites non cibles. En fait, la conservation des semences était l’une des caractéristiques les plus enrichies, que les données de surexpression des miarns et de liaison des CLIPS aient été analysées séparément ou en combinaison. Plus précisément, la semence conservée8a1 était la plus enrichie dans les sites cibles (p = 2,8E-245 par correspondance de graines entre espèces et p = 7,3E-218 par score phyloP, respectivement). À l’autre extrémité, la graine non conservée7a1 était le type de graine le plus appauvri (9,5E-134 selon la correspondance des graines et p = 1,3E−138 selon le score phyloP, respectivement). Outre la conservation des semences, il existe de nombreuses autres caractéristiques couramment trouvées dans les deux ensembles de données. Par exemple, les sites cibles des miARN étaient préférentiellement associés à des séquences 3′-UTR plus courtes (p = 4,7E−126), et ils étaient plus susceptibles d’être trouvés vers la fin de la séquence 3′-UTR (p = 5,4E−66) et loin du centre des transcriptions longues (p = 2,5E−87).

Malgré de nombreuses similitudes, il existe également des différences distinctes entre la surexpression des miarns et les données de liaison des CLIPS. Un exemple important est lié au contenu GC du site cible. Comparativement aux sites non ciblés, le contenu GC du site cible était beaucoup plus faible dans les données de liaison des clips (p = 1.9E-146), mais seulement modestement plus bas dans les données de surexpression des miarns (p = 2,1E−10). La déplétion du nucléotide C était modérée dans les deux ensembles de données. Ainsi, la différence drastique de teneur en GC entre les deux ensembles de données était principalement le résultat d’un biais beaucoup plus fort contre le nucléotide G dans les données CLIP (p = 7,7E−137), contrairement aux données de surexpression (p = 1,2E−19). Une explication possible pourrait être liée à la RNase T1 utilisée dans les études CLIP, qui coupe préférentiellement le nucléotide G, entraînant l’épuisement du G interne dans les lectures de séquençage. Cependant, il pourrait également être vrai que l’enrichissement de G entrave la liaison au site cible par le complexe miRISC, car G était également épuisé dans les données de surexpression des miarns, bien que modérément. Une autre caractéristique intéressante est la stabilité de liaison des graines, telle que déterminée par l’énergie libre du duplex graine/cible. La stabilité de la liaison des graines a été favorisée dans les données de surexpression des miarns (p = 2,5E−12), mais désavantagée dans les données de liaison des CLIPS (p = 5,4E−26). Dans l’ensemble, cette caractéristique n’était plus significative lorsque les deux ensembles de données étaient combinés (p = 0,26).

Développement d’un modèle de prédiction de cible avec des fonctionnalités de ciblage communes

Toutes les fonctionnalités de ciblage des miARN, telles que répertoriées dans le fichier supplémentaire 3: Tableau S2, ont été modélisées dans un cadre de machine vectorielle de support (SVM) pour le développement d’algorithmes. De plus, nous avons également effectué une analyse d’élimination récursive des caractéristiques (RFE) pour classer l’importance relative de chaque caractéristique pour sa contribution indépendante aux performances du modèle. Dans cette évaluation RFE, toutes les fonctionnalités ont été analysées collectivement à l’aide de SVM. Plus précisément, dans un premier temps, la caractéristique la moins importante a été identifiée puis retirée du modèle. Ensuite, les caractéristiques restantes ont été évaluées pour identifier la deuxième caractéristique la moins importante pour l’élimination. Ce processus d’évaluation a été répété avec une fonctionnalité éliminée de chaque itération jusqu’à ce qu’il ne reste qu’une seule fonctionnalité. L’approche RFE aide à comprendre la contribution indépendante des caractéristiques individuelles incluses dans le modèle. Le tableau 3 récapitule 20 caractéristiques de ciblage de premier rang par analyse RFE. Les rangs RFE complets de toutes les fonctionnalités sont répertoriés dans le fichier supplémentaire 3: Tableau S2. Conformément à l’analyse des caractéristiques présentée dans la section précédente, les caractéristiques de conservation des semences multiples se classent parmi les plus élevées par l’analyse RFE, la semenCe conservée8a1 étant la caractéristique la plus percutante. Dans notre modèle SVM final, les 96 caractéristiques, y compris les caractéristiques statistiquement significatives et non significatives, ont été intégrées pour construire le modèle de prédiction, que nous avons nommé MirTarget v4.0. Une validation croisée quintuple a été effectuée pour déterminer les paramètres optimaux pour la fonction du noyau SVM à l’aide de la grille.outil py dans le paquet libsvm. Un système de notation a ensuite été développé pour représenter la confiance de la prédiction. Pour chaque site cible candidat, MirTarget calcule un score de probabilité (compris entre 0 et 1) dérivé de l’outil de modélisation SVM, libsvm, comme décrit précédemment. Ce score de site cible reflète l’évaluation statistique de la précision de la prédiction. Sur la base des scores individuels du site cible, MirTarget prédit si un gène est une cible miARN en combinant tous les scores du site dans le 3′-UTR à l’aide de la formule suivante:

$$ S = 100\times\left(1-\underset{i= 1} {\overset{n}{\Pi}}{P}_i\right) $$

où n représente le nombre de sites cibles candidats dans le 3′-UTR, et Pi représente le score de probabilité pour chaque site tel qu’estimé par MirTarget. La plupart des gènes cibles ne contiennent qu’un seul site, et ainsi, le score cible final est calculé en utilisant la même équation avec n = 1. Les scores MirTarget ont été utilisés pour classer la signification relative des cibles prévues. De cette façon, nous avons utilisé MirTarget pour la prédiction à l’échelle du génome des cibles de miARN. Toutes les cibles prévues sont présentées dans miRDB (http://mirdb.org).

Tableau 3 Résumé des caractéristiques de ciblage des miARN de premier rang identifiées par l’analyse RFE

Évaluation d’algorithme avec des données expérimentales indépendantes

Une préoccupation commune dans le développement d’algorithmes est qu’un modèle peut bien fonctionner sur les données d’apprentissage, mais pas aussi bien sur des données indépendantes invisibles. Ainsi, la meilleure façon d’évaluer les performances de MirTarget serait de l’appliquer à des données expérimentales indépendantes. Dans la présente étude, des données expérimentales hétérogènes ont été analysées pour l’évaluation de l’algorithme, y compris celles générées à partir d’expériences de liaison de CLIP et de knockdown de miARN. Les performances de MirTarget ont également été comparées à quatre autres algorithmes bien établis, notamment TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) et PITA. Ces algorithmes sont parmi les outils de prédiction de cibles miARN les plus populaires, et les données de prédiction à l’échelle du transcriptome sont facilement téléchargeables sur les sites Web respectifs.

Validation avec les données CLIP-seq

Chi et al. pionnier de la méthode HITS-CLIP pour l’identification expérimentale des transcriptions cibles de miARN. Avec cette méthode, ils ont effectué une immunoprécipitation réticulée pour réduire les transcriptions d’ARNm associées au miRISC dans le cerveau de souris. Un séquençage à haut débit a ensuite été effectué pour identifier ces marqueurs de transcription d’ARNm, c’est-à-dire des fragments d’ARN courts protégés par Ago de la digestion des RNASES. Chi et coll. démontré qu’en général, les balises de transcription sont centrées sur les sites de liaison des graines. Cet ensemble de données HITS-CLIP a été analysé plus en détail dans notre étude pour identifier des sites cibles potentiels de miARN. Au total, 886 sites cibles potentiels ont été identifiés sur la base des séquences d’appariement des graines pour les six MIARN les plus abondamment exprimés. En tant que témoins négatifs, un ensemble de séquences potentielles non cibles a également été sélectionné en fonction des critères suivants: (1) elles ne chevauchent aucune balise de séquence identifiée dans l’expérience HITS-CLIP et (2) elles proviennent de transcriptions avec des niveaux d’expression détectables tels que révélés par des puces. Parmi ces sites non ciblés, 889 avec des séquences correspondant aux graines ont été sélectionnées comme témoins négatifs.

Dans notre analyse, les performances de cinq algorithmes de calcul, dont MirTarget, TargetScan, DIANA-MicroT, miRanda et PITA, ont été évaluées en comparant leur capacité à distinguer les cibles des non-cibles telles que révélées par HITS-CLIP. Une analyse ROC a été réalisée pour évaluer la sensibilité et la spécificité globales des algorithmes de prédiction. Comme le montre la Fig. 2a, MirTarget a la meilleure performance, avec une aire sous la courbe ROC (AUC) de 0,78. DIANA-MicroT a la deuxième meilleure performance (ASC = 0,73). Fait intéressant, DIANA-MicroT a été développé par une formation avec des données de liaison de CLIP, tandis que d’autres algorithmes publics ont été formés avec des données de surexpression d’ARNm. Il n’est donc pas surprenant que DIANA-MicroT s’adapte relativement bien aux données de test des CLIPS. Outre l’analyse ROC, nous avons également construit des courbes de rappel de précision (PR) pour évaluer la précision de la prédiction. Les courbes PR sont couramment utilisées dans l’évaluation des algorithmes pour déterminer la précision de la prédiction (proportion de vrais positifs parmi tous les positifs prédits) par rapport au taux de rappel (proportion de vrais positifs identifiés parmi tous les vrais positifs). Comme le montre la Fig. 2b, MirTarget a les meilleures performances parmi les cinq algorithmes. En particulier, la précision pour MirTarget est supérieure à 90% lorsque le taux de rappel est inférieur à 20%. Cela indique que MirTarget est particulièrement précis pour les prédictions à haute confiance (c’est-à-dire les scores de prédiction élevés).

Fig. 2
 figure2

Comparaison des algorithmes de prédiction de cibles miARN à l’aide de l’ensemble de données HITS-CLIP. MirTarget et quatre autres algorithmes de prédiction de cibles ont été inclus dans l’analyse. une analyse de courbe de caractéristique de fonctionnement du récepteur (ROC) pour évaluer le taux de prédiction faussement positive par rapport au taux de prédiction vrai positif. b Analyse de la courbe de rappel de précision (PR) pour évaluer la précision de la prédiction par rapport au taux de rappel

Validation avec des données de knockdown de miARN

Des algorithmes de prédiction de cible ont également été évalués dans le contexte des changements d’expression de cible. Dans cette analyse comparative, nous avons évalué les algorithmes en utilisant une étude publique de knockdown des miARN de Hafner et al. . Dans cette étude publique, les auteurs ont simultanément supprimé les fonctions de 25 MIARN par des inhibiteurs antisens et ont évalué l’impact sur l’expression de l’ARN cible avec des puces. On s’attendait à ce que les gènes ciblés par ces miARN soient régulés à la hausse en raison de l’inhibition des miARN. Dans notre analyse, nous avons évalué la corrélation entre les scores de prédiction cible et la régulation à la hausse de l’expression cible. Comme le montre la Fig. 3a, par rapport à d’autres algorithmes, les scores de prédiction calculés par MirTarget ont la corrélation la plus élevée avec la régulation à la hausse de l’expression génique. En outre, nous avons également évalué les changements d’expression génique pour les prédictions de premier rang par des algorithmes individuels, car les chercheurs s’intéressent particulièrement aux candidats cibles à haute confiance. À cette fin, nous avons évalué 100 cibles prédites de premier rang par miARN en moyenne par chaque algorithme. Conformément à l’analyse de corrélation, les cibles prédites par MirTarget ont été les plus régulées en moyenne par rapport à celles prédites par d’autres algorithmes (Fig. 3b).

Fig. 3
 figure3

Comparaison d’algorithmes de prédiction de cibles à l’aide de données de microréseaux. Les données de profilage de microréseaux ont été analysées pour identifier la régulation positive cible résultant de l’inhibition simultanée de 25 MIARN. une corrélation des scores de régulation à la hausse des cibles et de prédiction des cibles calculés par 5 algorithmes individuels, tels que mesurés par le coefficient de corrélation de Pearson. b Niveau moyen de régulation à la hausse de l’expression pour les cibles prévues. Pour chaque algorithme, 100 cibles prédites les mieux notées par miARN en moyenne ont été incluses dans l’analyse

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Previous post Champignons de Hêtre
Next post Recette de conque à l’ail