Prédiction à l'échelle du génome des régions de régulation cis à l'aide de méthodes d'apprentissage profond supervisées | BMC Bioinformatique

L’apprentissage profond distingue avec précision les activateurs et les promoteurs de l’arrière-plan

Nous avons étudié la capacité des modèles d’apprentissage profond à séparer les activateurs et les promoteurs, et à les distinguer des autres régions et entre les états d’activité. Nous avons formé un réseau de neurones à rétroaction profonde sur nos ensembles d’entraînement étiquetés équilibrés pour prédire nos ensembles de tests (déséquilibrés) de chaque type de cellule bien caractérisé, en répétant la procédure 100 fois. Le modèle deep prend des caractéristiques dérivées expérimentalement sur des régions génomiques comme étiquettes de classe d’entrées et de sorties de ces régions avec des probabilités (voir Fichier supplémentaire 1: Tableau S1 pour le nombre total d’échantillons de chaque classe et Fichier supplémentaire 1: Tableau S2 pour le nombre de caractéristiques disponibles; voir Méthodes). Pour plus de commodité narrative, nous nous référons ci-après à activateur actif, promoteur actif, exon actif, activateur inactif, promoteur inactif, exon inactif et région inconnue (ou non caractérisée) en tant que A-E, A-P, A-X, I-E, I-P, I-X et UK, respectivement. En supposant que les CRR actifs subissent une transcription, active s’applique aux régions dans lesquelles des événements d’initiation de la transcription en CAGE sont observés dans le tissu de foyer, tandis que inactive se réfère aux régions détectées dans d’autres tissus, mais pas dans le tissu de foyer. Nous avons enregistré le taux moyen par classe (c.-à-d. sensibilités moyennes de toutes les classes), l’aire sous la courbe caractéristique de fonctionnement du récepteur (auROC) et l’aire sous la courbe de rappel de précision (auPRC) de la Fig. 1 et Fichier supplémentaire 1: Figure S1.

Il y a quatre aspects des résultats que nous soulignons, qui affirment la capacité de notre approche d’apprentissage profond supervisé à distinguer les classes de CRR et les antécédents. Tout d’abord, nous sommes en mesure de distinguer entre les activateurs et les promoteurs (A-E versus A-P) (Fig. 1 bis). Nous avons utilisé A-E et A-P comme classes d’entraînement positives et négatives, respectivement. Dans l’ensemble, nous avons constaté que A-E et A-P sont hautement séparables. Deuxièmement, nous pouvons distinguer les CRR actifs et inactifs (soit des amplificateurs, soit des promoteurs). De la Fig. 1b et fichier supplémentaire 1: Figure S1A, on peut observer que les AUPRC moyens sur GM12878, HelaS3, HepG2 et K562, qui ont les plus grands ensembles d’entraînement, sont supérieurs à 0,95 avec de petites variances pour les amplificateurs et les promoteurs. Dans le reste de cet article, nous excluons les lignées cellulaires A549 et MCF7 dans la plupart des analyses en raison de la disponibilité limitée des données. Troisièmement, il n’est pas surprenant qu’il soit difficile de faire la distinction entre les activateurs inactifs et les promoteurs (fichier supplémentaire 1: Figure S1B). Sept des taux moyens par classe pour les huit types de cellules étaient inférieurs à 0,80. Bien qu’il y ait certaines indications qu’une partie des promoteurs inactifs ont une certaine machinerie présente, nous nous attendions à ce que ces régions ne présentent en grande partie pas de forte liaison aux facteurs de transcription ou de signatures épigénétiques appropriées pour éclairer un modèle. Quatrièmement, nous avons testé l’applicabilité de la prédiction A-E et A-P à partir de la classe super background (BG) fusionnant I-E, I-P, A-X, I-X et UK (Fig. 1c). Les résultats sur six types de cellules étaient prometteurs, tous supérieurs à 0,80 auPRC. Si A-E et A-P sont fusionnés pour former une super classe (A-E + A-P), des performances plus élevées sont obtenues (fichier supplémentaire 1: Figure S1C). Tous les AUPRC sur ces six types de cellules ont dépassé 0,89 auPRC. De plus, nous avons également testé une méthode de forêt aléatoire, un autre classificateur de pointe, sur nos données étiquetées. Des performances similaires ont été obtenues sur les six paramètres expérimentaux. La méthode des forêts aléatoires a montré des performances légèrement meilleures pour les ensembles de données A549 et MCF7, qui ont tous deux un faible nombre d’améliorateurs. Dans l’attente que davantage d’améliorateurs annotés deviennent disponibles, nous continuerons à utiliser MLP et à explorer d’autres approches d’apprentissage profond telles que les réseaux de neurones convolutifs et les réseaux de neurones récurrents.

DECRES donne une sensibilité et une précision plus élevées sur les régions annotées FANTOM

Pour évaluer l’utilité relative de notre méthode profonde supervisée pour la prédiction CRR, nous l’avons comparée aux méthodes combinées ChromHMM et ChromHMM-Segway non supervisées en utilisant des annotations FANTOM sur cinq types de cellules disponibles comme référence. Ils ont été comparés sur des ensembles déséquilibrés reflétant le véritable contexte génomique. Les résultats sont comparés à la Fig. 2a qui affiche des cartes radar où plus la zone est grande et convexe, meilleures sont les performances. Il est intuitif que les approches supervisées sont préférées lorsque les données de formation étiquetées sont suffisantes. De plus, les deux méthodes non supervisées ont été développées avant la publication des données FANTOM5 et sont donc désavantagées. Cependant, ces annotations sont largement utilisées par la communauté et, par conséquent, la performance relative des DÉCRETS par rapport à la norme présente un intérêt. Dans l’ensemble, nous observons que DECRES surpasse le ChromHMM et les méthodes combinées qui à leur tour offrent des performances similaires. Ces méthodes non supervisées ont systématiquement des sensibilités plus faibles pour la détection de l’activateur actif (p = 5.57E-5 et 9,90E-5 pour les DECRES versus ChromHMM et Combinés respectivement, le test t de Student à deux queues; voir Fig. 2b) et une précision inférieure pour la détection du promoteur actif (p = 7,36E-5 et 2,33E-4 pour les DECRES versus ChromHMM et Combinés respectivement, le test t de Student à deux queues; voir Fig. 2b). En utilisant ChromHMM, la sensibilité de l’activateur actif varie de 16,5% à 48,4% (les chiffres sont cohérents avec le test sur les activateurs prédits CODÉS rapportés dans), tandis que notre modèle profond varie de 69% (K562) à 88,8% (GM12878). De plus, ChromHMM atteint une précision maximale de 49.8% pour la prédiction du promoteur actif, tandis que le maximum pour les DECRES est de 84,3%.

Évaluation de la performance de DECRES avec des données expérimentales indépendantes

Comme l’évaluation initiale se concentrait sur l’annotation basée sur FANTOM eRNA des CRRs, le type de données utilisées pour former notre modèle supervisé, nous avons cherché à évaluer la performance des données générées par des méthodes alternatives. Nous avons identifié deux collections indépendantes d’exhausteurs validés en laboratoire pour évaluer davantage la performance des DECRES: une collection CRE-seq de régions testées dans des cellules K562 et des collections MPRA (massively parallel reporter assay) testées dans des cellules K562 et HepG2. Dans les deux cas, l’ensemble des régions qui ne parviennent pas à diriger l’expression peut être faussement prédit par les méthodes évaluées, mais peut également refléter le fait que les procédures expérimentales n’incluent qu’un petit segment d’ADN régulateur et que les dosages à base de plasmides ne récapitulent pas les propriétés de la chromatine. Compte tenu de la nature des données, nous prévoyons qu’une partie des négatifs expérimentaux seront des régions de réglementation de bonne foi.

Dans le premier ensemble indépendant, des sous-ensembles d’amplificateurs K562 prédits et de régions négatives (tels que prédits par la méthode combinée ChromHMM et Segway) ont été évalués en laboratoire à l’aide de CRE-seq. Dans cette étude, seulement 33% des régions de régulation prévues » combinées » se sont révélées positives dans l’expérience, contre 7% pour l’ensemble négatif. En utilisant des DECRES formés sur toutes les régions régulatrices actives disponibles des cellules K562, nous avons donc validé notre méthode sur 386 régions montrant une activité activatrice active en K562 telle que validée par CRE-seq par rapport aux 298 régions témoins (fichier supplémentaire 1 : Tableau S3). Très conforme aux résultats ci-dessus, une sensibilité de 65,5% (254/386) pour les régions validées expérimentalement a été prédite avec succès en tant que A-E; les 132 régions restantes ont été prédites en tant que contexte (aucune n’a été classée comme promoteur). Pour les 812 prédictions testées qui étaient inactives dans l’expérience CRE-seq, le DECRES a classé 53,3% (433/812) comme positif. Pour les 298 régions témoins négatives, DECRES a prédit que toutes étaient négatives (y compris les 16 qui étaient actives dans l’expérience CRE-seq). Fait important, à mesure que les scores des DECRES augmentent, la qualité des prévisions augmente. Nous avons dessiné l’histogramme des scores d’adhésion à DECRES de 254 et 433 amplificateurs combinés expérimentalement positifs et négatifs qui ont été prédits comme A-Es par DECRES (fichier supplémentaire 1: Figure S2). Les distributions sont significativement différentes (p = 0.014, test de rang de Mann-Whitney bilatéral).

La deuxième collection indépendante, dans laquelle un « renforceur fort » spécifique à K562 et HepG2 (tel que prédit par ChromHMM) contenant des sites de liaison à la TF prédits pour les FT sélectives cellulaires a été testée à l’aide d’un test de reporteur massivement parallèle (MPRA). Seulement 41% des amplificateurs ont été détectés comme étant exprimés de manière significative (p = 0,05, test de rang de Mann-Whitney bilatéral). Nous avons utilisé DECRES pour prédire les classes des améliorateurs positifs et négatifs de MPRA. Notre résultat dans le fichier supplémentaire 1: Le tableau S3 montre que 98,4% (120/122) et 97.8% (182/186) des amplificateurs positifs MPRA étaient respectivement prédits comme A-Es par DECRES pour les cellules K562 et HepG2, tandis que 92,3% (179/194) et 81,3% (217/267) des amplificateurs négatifs MPRA étaient toujours prédits comme A-Es pour K562 et HepG2, respectivement, mais avec des distributions différentes des scores DECRES (p = 4,8E-6 et p = 2,3E-6 pour K562 et HepG2 respectivement, test de rang de Mann-Whitney bilatéral) (Fichier supplémentaire 1: Figure S2). En accord avec les autres données indépendantes, plus les scores des DECRES sont élevés, plus ils sont susceptibles d’être positifs.

Évaluation de l’utilité des propriétés des séquences d’ADN sur la performance des DECRES

Des études récentes ont confirmé que les propriétés des séquences d’ADN peuvent être utiles pour la reconnaissance des promoteurs et des exhausteurs, et la discrimination entre les séquences régulatrices actives et inactives à l’aide de noyaux de séquences de chaînes. Cela s’appuie sur la capacité reconnue depuis longtemps d’inclure les îles CpG comme caractéristiques pour améliorer la prédiction des promoteurs. Nous avons cherché à déterminer si les caractéristiques de la séquence d’ADN peuvent être informatives pour faire la distinction entre les promoteurs et les améliorateurs, et entre les classes actives et inactives. Nous avons formé le modèle avec 351 caractéristiques de séquence (utilisées à l’origine dans) dans plusieurs scénarios. Les résultats sont affichés sur la Fig. 3 et fichier supplémentaire 1: Figure S3. Tout d’abord, une méthode profonde limitée aux caractéristiques de séquence pour discriminer A-E et A-P (Fig. 3a) livré des AUPRC de 0,8567 à 0,9370, confirmant que les attributs de séquence sont effectivement informatifs. Deuxièmement, les caractéristiques de séquence ont une utilité limitée pour distinguer les états actifs et inactifs des amplificateurs et des promoteurs, ce qui est logique; tandis que les caractéristiques dérivées expérimentalement pourraient les séparer fortement (p = 1.90E-08 et 5.06E-08 pour les améliorateurs et les promoteurs respectivement, le test t de Student à deux queues; voir Fig. 3b et fichier supplémentaire 1: Figure S3A). L’utilisation de caractéristiques de séquence en l’absence de caractéristiques expérimentales a une performance moindre dans la classification de A-E, A-P et BG pour les huit types de cellules (p = 1,86E-09, test t de Student à deux queues; voir Fig. 3c). Enfin, de meilleurs résultats n’ont pas été obtenus en combinant des caractéristiques expérimentales et séquentielles (p = 2,79E-01, 6,56E-01 et 1,17E-01 sur la Fig. 3, test t de l’étudiant à deux queues).

Caractéristiques clés pour la performance de DECRES

Comme les données expérimentales peuvent être longues et coûteuses à produire, nous avons cherché à déterminer l’ensemble minimal de caractéristiques le plus informatif pour la prédiction CRR d’un point de vue informatique. Nous avons utilisé des modèles de sélection de caractéristiques profondes randomisées (DFS ou RDFS randomisés) et de forêts aléatoires (RF) (voir Méthodes) pour les classifications à deux et trois classes (A-E versus A-P versus BG) sur quatre types de cellules (GM12878, HelaS3, HepG2 et K562) qui ont 72 à 135 fonctionnalités disponibles.

Figure 4a et fichier supplémentaire 1: La figure S4A affiche les scores d’importance des caractéristiques découverts par les DFS randomisés et la forêt aléatoire pour la classification à trois classes. Les scores d’importance des caractéristiques produits par ces méthodes doivent être interprétés différemment. À l’instar d’une sélection directe, les scores d’importance des entités provenant de la DFS randomisée reflètent les caractéristiques préférées au début du modèle clairsemé, tandis que le score d’importance d’une entité par forêt aléatoire indique le rôle de cette entité dans le contexte de son utilisation avec toutes les autres entités. Ainsi, l’utilisation des deux méthodes dans cette étude nous permet d’obtenir des informations différentes sur les données. Dans nos expériences, les deux méthodes peuvent capturer les caractéristiques les plus importantes, comme l’indiquent les scores d’importance sur les quatre lignées cellulaires. Par exemple, les deux méthodes conviennent que Pol2, H3K4me1, Taf1 et H3K27ac sont utiles pour distinguer les activateurs et les promoteurs actifs de l’arrière-plan de la lignée cellulaire GM12878. Dans certains cas, les différentes mesures se complètent. Par exemple, H3K4me2 et H4K20me1 sont marqués comme caractéristiques clés par le DFS randomisé, ce qui est convaincant comme l’indiquent les diagrammes en boîte du fichier supplémentaire 1: Figure S4B et Figure S6-S13, mais sont négligés par la forêt aléatoire. Le Tbp a été mis en évidence par la forêt aléatoire dans les cellules GM12878 et HelaS3, mais n’a pas été capté par le DFS randomisé. L’examen des diagrammes de cette caractéristique dans le fichier supplémentaire 1: Figures S6 et S7 révèle que cette caractéristique est discriminante pour distinguer les amplificateurs actifs et les promoteurs de l’arrière-plan, mais il n’y a pas de différence dramatique entre les amplificateurs actifs et les promoteurs. Les caractéristiques importantes incorporées dans un modèle de forêt aléatoire peuvent ne pas être incorporées avant une dernière étape du processus DFS. Par exemple, dans la lignée cellulaire K562, C-Myc a été souligné par une forêt aléatoire, ce qui est en effet raisonnable comme le montre le fichier supplémentaire 1: Figure S12 et n’a pas été sélectionné comme caractéristique initiale dans le processus DFS.

Pour le développement de méthodes d’apprentissage automatique dans l’annotation du génome, la minimisation du nombre de caractéristiques requises diminue les coûts et augmente la capacité d’interprétation biologique. Figure 4b et fichier supplémentaire 1: La figure S5B montre les changements des AUPRC de test à mesure que le nombre d’entités sélectionnées augmente pour les classifications à trois classes et à deux classes, respectivement. Dans les deux cas, les AUPRC de test augmentent considérablement pour les caractéristiques initiales, puis les plateaux de performance. En comparant les courbes DFS randomisées avec les courbes de forêt aléatoires, nous pouvons voir qu’il n’y a pas de courbe optimale unique. Quelques caractéristiques clés sont suffisantes pour une bonne performance de prédiction. Pour définir un nombre optimal de caractéristiques nécessaires, nous ajustons les courbes de la Fig. 4b et fichier supplémentaire 1: Figure S5B et a sélectionné le point d’intersection pour une droite avec une pente de 0,5 sur les courbes DFS randomisées (voir Méthodes). Moins de caractéristiques sont nécessaires pour la prédiction CRR à deux classes (6 caractéristiques) par rapport aux modèles à trois classes destinés à distinguer A-E, A-P et l’arrière-plan (10 caractéristiques).

Les distributions des dix principales caractéristiques pour les prédictions à trois classes (A-E, A-P et BG) sont données dans le fichier supplémentaire 1: Figure S4B. En utilisant les dix principales caractéristiques pour chaque cellule, les AUPRC de 0,9022, 0,9156, 0,8651 et 0,8565 ont été atteints sur GM12878, HelaS3, HepG2 et K562, respectivement. La moitié de ces caractéristiques principales sont des modifications d’histones, dont H3K4me1, H3K4me2, H3K4me3 et H3K27me3 étaient généralement sélectionnées pour les modèles à trois classes, en accord avec les connaissances existantes. Parmi les facteurs de transcription (y compris les co-facteurs), Taf1 et p300, ainsi que l’ARN polymérase II (Pol2), sont fréquemment sélectionnés, ce qui est également compatible avec les connaissances existantes.

Fichier supplémentaire 1: La figure S5C montre les diagrammes des six principales entités sélectionnées par DFS randomisés pour les prédictions à deux classes. En utilisant ces caractéristiques, des AUPRC de 0,9561, 0,9627, 0,926 et 0,9555 ont été obtenus sur les quatre types de cellules, respectivement. Pour la plupart des entités, les plages de valeurs sont élevées en A-E et A-P par rapport aux catégories d’arrière-plan. La moitié des fonctionnalités sélectionnées sont des données DNase-seq et histone modification ChIP-seq, y compris H3K4me2, H3K27ac et H3K27me3. Les diagrammes en boîte de ces caractéristiques indiquent qu’ils distinguent A-E et A-P de l’arrière-plan.

La majorité des prédictions à l’échelle du génome de DECRES sont étayées par d’autres méthodes

Nous avons formé des modèles de perceptron multicouche (MLP) à 2 et 3 classes (voir Méthodes) en utilisant toutes les données de référence (étiquetées) pour l’entraînement, afin de prédire les CRR sur l’ensemble du génome pour six types de cellules (A549 et MCF7 ont été exclus). Le modèle à 2 classes a identifié 227 332 CRR (les régions adjacentes ont été fusionnées), qui occupent 4,8% du génome (fichier supplémentaire 1: Tableau S4). Un total de 9153 CRR ont été prédits de manière ubiquitaire dans les six types de cellules. Pour la prédiction à 3 classes, nous avons obtenu 301 650 régions A-E (6,8% du génome) et 26 555 régions A-P (0,6% du génome) ainsi que 11 886 régions A-Es ubiquitaires et 3 678 régions A-Ps ubiquitaires. Les prédictions à l’échelle du génome pour les six types de cellules sont disponibles dans le fichier supplémentaire 2.

Ensuite, nous avons examiné le chevauchement de nos CRR prédits avec les prédictions combinées et dReg sur GM12878, HelaS3 et K562. La majorité des CRR prédites par DECRES chevauchent les résultats de la Combinaison ou de la dReg, en particulier 86,13 %, 76,13 % et 83,63 % pour GM12878, HelaS3 et K562, respectivement (Fig. 5). Un sous-ensemble (13,87 % sur GM12878, 23,87 % sur HelaS3 et 16,37 % sur K562) de prédictions de DECRES ne chevauchent pas les prédictions des deux autres outils. Notamment, une grande partie des prédictions combinées (56,78% sur HelaS3, 55,99% sur GM12878 et 36.36% sur K562) ne chevauchent pas celles des méthodes supervisées, ce qui est cohérent avec son faible taux de validation observé. De plus, les prévisions de DECRES ont tendance à avoir une résolution plus fine pour les régions A-P et A-E (voir le fichier supplémentaire 1: Figure S14 pour un exemple).

Nous avons étudié combien parmi nos prédictions à l’échelle du génome sont prises en charge par l’ensemble VISTA enhancer. Malgré le fait que la majorité des améliorateurs de VISTA soient extrêmement conservés au cours du développement, nous constatons toujours que 37,1% (850/2 293) des améliorateurs de VISTA confirmés et non confirmés par des expériences chevauchent les A-Es prédites, tandis que seulement 4,8% (110/2 293) de ces améliorateurs de VISTA chevauchent les A-Ps prédites. Les résultats pour les amplificateurs VISTA confirmés expérimentalement sont similaires (482/1 196 = 40,30% et 60/1 196 = 5,02% chevauchent respectivement A-Es et A-Ps), ce qui suggère que nos amplificateurs actifs prédits ont de réelles fonctions d’amplification. Une proportion des activateurs de VISTA qui ne chevauchent pas nos prédictions pourrait être active spécifiquement pendant le développement ou dans d’autres types de cellules que nos lignées cellulaires de foyer.

DECRES étend l’atlas des amplificateurs FANTOM

En raison de la profondeur limitée des signaux de CAGE pour les ERNA, une partie des amplificateurs actifs (ou transcrits) n’aura pas été détectée dans la compilation originale de l’atlas des amplificateurs. Par conséquent, nous avons cherché à identifier d’autres amplificateurs partiellement pris en charge pour lesquels les signaux eRNA étaient inférieurs aux paramètres de seuil atlas d’origine. Dans les travaux précédents, un total de 200 171 loci transcrits bidirectionnellement (BDT) ont été détectés à travers le génome humain, en utilisant des étiquettes en CAGE de 808 types de cellules et de tissus. Après avoir exclu les loci du BDT dans les exons, il reste un ensemble partiellement supporté de 102 021 régions du BDT, dont 43 011 loci équilibrés (niveaux d’eRNA similaires des deux côtés) constituent l’atlas des renforceurs de FANTOM. Afin d’étudier si des candidats activateurs plus actifs peuvent être détectés pour chacun des six types de cellules, nous avons formé une MLP sur ses régions actives de l’atlas et prédit des classes pour l’ensemble des 102 021 sites de BDT. Parmi les 102 021 loci BDT, la plupart étaient classés comme régions négatives dans une cellule donnée (fichier supplémentaire 1: Tableau S5), alors qu’en moyenne 13 316 ont été prédites comme A-Es et seulement 834 ont été prédites comme A-Ps par type de cellule. Un nombre important (6 535 en moyenne) d’activateurs inactifs dans l’atlas des activateurs d’origine ont été prédits comme actifs par notre modèle (fichier supplémentaire 1: tableau S6), ce qui concorde avec l’hypothèse que les données sur le BDT sont incomplètes pour un échantillon donné. En moyenne, 5514 loci BDT exclus par l’atlas original ont été prédits en A-Es par type de cellule. Sur les six types de cellules analysés, un total de 38 601 loci BDT ont été prédits en tant que A-Es (fichier supplémentaire 3), dont 16 988 représentent une expansion de l’atlas original de FANTOM enhancer. Notez que 21 398 des 43 011 amplificateurs de l’atlas original des amplificateurs FANTOM ne sont pas prédits comme actifs dans les six cellules analysées ici, mais ces régions peuvent être actives dans les 802 autres cellules pour lesquelles il existe des caractéristiques inadéquates à analyser.

Validation informatique de la prédiction de DECRES à l’aide d’une analyse d’enrichissement fonctionnel et de motif

Nous avons effectué une analyse d’enrichissement fonctionnel sur les A-Es et A-Ps prédites à l’échelle du génome à l’aide de GREAT. Pour les cellules GM12878, 79% des régions d’amplification prédites sont à plus de 5 paires de kilobases (kbps) du gène TSSs (fichier supplémentaire 1: Figure S15A), tandis que 47% des promoteurs prédits sont à moins de 5 kbps du gène TSSS annoté (fichier supplémentaire 1: Figure S15B). Des statistiques similaires ont été obtenues pour les cinq autres types de cellules. Les analyses d’annotations des CRR spécifiques au GM12878 montrent que les gènes proximaux sont associés à: la réponse immunitaire des annotations d’ontologie génétique (GO) (fichier supplémentaire 1: Figure S15C); Les voies de signalisation des cellules B des annotations de voie du MSigDB (fichier supplémentaire 1: Figure S15D); et la leucémie des annotations d’ontologie de maladie (fichier supplémentaire 1: Figure S15E). Les résultats sont compatibles avec la lignée lymphoblastoïde des cellules. Ensuite, nous avons effectué une analyse d’enrichissement fonctionnel sur les améliorateurs prédits pris en charge par le BDT qui n’avaient pas été signalés précédemment dans l’atlas des améliorateurs FANTOM (« not in atlas »). Les résultats concordent parfaitement avec l’analyse ci-dessus (fichier supplémentaire 1 : Figure S16).

Nous avons également effectué une analyse d’enrichissement de motifs sur les CRR spécifiques aux cellules prédites et les améliorateurs non dans l’atlas en utilisant HOMER. Les régions prédites sont enrichies pour des motifs similaires aux profils de liaison de JASPAR (fichier supplémentaire 1: Figure S15F et Figures S16-S26), tous deux associés aux TFs maintenant des processus cellulaires généraux et aux TFs avec des rôles sélectifs dans les fonctions liées aux cellules. Par exemple, les motifs des facteurs liés à Jun-, Fos- et Ets ont été enrichis dans les régions des six types de cellules. Ces FT régulent les progrès cellulaires généraux tels que la différenciation, la prolifération ou l’apoptose. Des enrichissements de TF adaptés aux cellules ont été observés pour chaque cellule (résumés dans le fichier supplémentaire 1 : Tableau S7). Par exemple, RUNX1 et d’autres facteurs liés à Runt, qui jouent un rôle crucial dans l’hématopoïèse, sont observés dans GM12878 (Fichier supplémentaire 1: Figure S15F et Figure S16). Les facteurs liés au C/EBP qui régulent les gènes impliqués dans les réponses immunitaires et inflammatoires sont exprimés dans le col de l’utérus (fichier supplémentaire 1: Figures S17 et S18). Les facteurs HNF1A, HNF1B, FOXA1, FOXA2, HNF4A et HNF4G régulent les gènes spécifiques du foie (fichier supplémentaire 1 : Figures S19 et S20). Les facteurs NFY coopèrent avec GATA1 pour médier la transcription spécifique de l’érythroïde dans K562 (fichier supplémentaire 1: Figures S25 et S26).

Nous avons effectué une analyse fonctionnelle et d’enrichissement sur les prédictions A-E et A-P de la méthode combinée, et nous rapportons les résultats dans le fichier supplémentaire 1: Figures S27-S30. La plupart des promoteurs prédits par la méthode combinée sont distaux du gène TSSs connu, ce qui est similaire aux améliorateurs. Par exemple sur la lignée cellulaire GM12878, seulement 22% des promoteurs combinés sont situés à moins de 5 kbp du gène annoté TSSs, contre 47% des promoteurs DECRES. De plus, l’analyse fonctionnelle sur les CRR prédites par la méthode combinée a renvoyé des termes significatifs beaucoup moins ou zéro pour le processus biologique GO, la voie MSigDB et l’ontologie de la maladie que les prédictions de DECRES. Les résultats de l’analyse des motifs des deux méthodes sont cohérents.

Prédiction à l’échelle du génome des régions de régulation cis à l’aide de méthodes d’apprentissage profond supervisées