Predicția la nivel de genom a regiunilor de reglementare cis folosind metode de învățare profundă supravegheate / Bioinformatica BMC

învățarea profundă distinge cu exactitate potențiatorii și promotorii activi de fundal

am investigat capacitatea modelelor de învățare profundă de a separa potențiatorii și promotorii și de a le distinge de alte regiuni și între stările de activitate. Am antrenat o rețea neuronală profundă feedforward prin seturile noastre de antrenament echilibrate etichetate pentru a prezice seturile noastre de teste (dezechilibrate) de la fiecare tip de celulă bine caracterizat, repetând procedura de 100 de ori. Modelul deep ia caracteristici derivate experimental peste regiuni genomice ca intrări și ieșiri etichete de clasă ale acestor regiuni cu probabilități (vezi fișier suplimentar 1: Tabelul s1 pentru numărul total de eșantioane din fiecare clasă și fișier suplimentar 1: Tabelul s2 pentru numărul de caracteristici disponibile; Vezi metode). Pentru comoditate narativă, în continuare ne referim la potențiator activ, promotor activ, Exon activ, potențiator inactiv, promotor inactiv, Exon inactiv și regiune necunoscută (sau necaracterizată) ca A-E, A-P, A-X, I-E, I-P, I-X și, respectiv, MAREA BRITANIE. În ipoteza că CRR-urile active sunt supuse transcrierii, active se aplică regiunilor în care evenimentele de inițiere a transcrierii cuștii sunt observate în țesutul de focalizare, în timp ce inactive se referă la regiunile detectate în alte țesuturi, dar nu în țesutul de focalizare. Am înregistrat rata medie de clasă (adică. sensibilitățile medii ale tuturor claselor), aria de sub curba caracteristică de funcționare a receptorului (auROC) și aria de sub curba de rechemare de precizie (auPRC) din Fig. 1 și fișier suplimentar 1: Figura S1.

există patru aspecte ale rezultatelor pe care le evidențiem, care afirmă capacitatea abordării noastre de învățare profundă supravegheată de a distinge între clasele de CRR și fundal. În primul rând, suntem capabili să distingem între potențiatori activi și promotori (A-E versus A-P) (Fig. 1a). Am folosit A-E și A-P ca cursuri de formare pozitive și negative, respectiv. În general, am constatat că A-E și A-P sunt foarte separabile. În al doilea rând, putem distinge CRR-urile active și inactive (fie amelioratori, fie promotori). Din Fig. 1B și fișier suplimentar 1: Figura S1A, se poate observa că auprc-urile medii pe GM12878, HelaS3, HepG2 și K562, care au cele mai mari seturi de antrenament, sunt peste 0,95 cu variații mici atât pentru amelioratori, cât și pentru promotori. În restul acestei lucrări, excludem liniile celulare A549 și MCF7 în majoritatea analizelor din cauza disponibilității limitate a datelor. În al treilea rând, nu în mod neașteptat, este dificil să se facă distincția între potențiatori inactivi și promotori (fișier suplimentar 1: Figura S1B). Șapte dintre ratele medii de clasă pentru cele opt tipuri de celule au fost mai mici de 0,80. Deși există unele indicii că o parte din promotorii inactivi au unele mașini prezente, ne-am așteptat ca astfel de regiuni să nu prezinte în mare măsură legarea puternică a factorului de transcripție sau semnături epigenetice adecvate pentru a informa un model. În al patrulea rând, am testat aplicabilitatea prezicerii A-E și A-P din clasa super background (BG) care fuzionează I-E, I-P, A-X, I-X și Marea Britanie (Fig. 1c). Rezultatele pe șase tipuri de celule au fost promițătoare, toate depășind 0,80 auPRC. Dacă A – E și A-P sunt îmbinate în continuare pentru a forma o super clasă (A-E+A-P), se obține o performanță mai mare (fișier suplimentar 1: Figura S1C). Toate auprc-urile de pe aceste șase tipuri de celule au depășit 0,89 auPRC. Mai mult, am testat și o metodă forestieră aleatorie, un alt clasificator de ultimă generație, pe datele noastre etichetate. Performanțe similare au fost obținute pe toate cele șase setări experimentale. Metoda random forest a prezentat performanțe ușor mai bune pentru seturile de date A549 și MCF7, care ambele au un număr redus de potențiatori. În așteptarea ca mai mulți amplificatori adnotați să devină disponibili, vom continua să folosim MLP și să explorăm alte abordări de învățare profundă, cum ar fi rețelele neuronale convoluționale și rețelele neuronale recurente.

DECRES oferă o sensibilitate și o precizie mai mare regiunilor adnotate FANTOM

pentru a evalua utilitatea relativă a metodei noastre profunde supravegheate pentru predicția CRR, am comparat-o cu metodele combinate nesupravegheate ChromHMM și ChromHMM-Segway folosind adnotări FANTOM pe cinci tipuri de celule disponibile ca referință. Acestea au fost comparate pe seturi dezechilibrate care reflectă adevăratul fond genomic. Rezultatele sunt comparate în Fig. 2a care afișează diagrame radar în cazul în care zona este mai mare și mai convexă, cu atât performanța este mai bună. Este intuitiv că abordările supravegheate sunt preferate atunci când datele de instruire etichetate sunt suficiente. Mai mult, ambele metode nesupravegheate au fost dezvoltate înainte de publicarea publică a datelor FANTOM5 și, prin urmare, sunt dezavantajate. Cu toate acestea, aceste adnotări sunt utilizate pe scară largă de către Comunitate și, prin urmare, performanța relativă a DECRES la standard este de interes. În general, observăm că DECRES depășește ChromHMM și metodele combinate care, la rândul lor, oferă performanțe similare. Aceste metode nesupravegheate au în mod constant sensibilități mai mici pentru detectarea potențiatorilor activi (p = 5.57E-5 și 9,90 E-5 pentru DECRES versus ChromHMM și, respectiv, combinate, testul T al elevului cu două cozi; vezi Fig. 2B) și precizie mai mică pentru detectarea promotorului activ (p=7,36 E-5 și 2,33 e-4 pentru DECRES versus ChromHMM și, respectiv, combinate, testul T al elevului cu două cozi; vezi Fig. 2b). Folosind ChromHMM, sensibilitatea potențiatorului activ variază de la 16,5% la 48,4% (numerele sunt în concordanță cu testul pe enhancerii preziși de codificare raportați în ), în timp ce modelul nostru profund variază de la 69% (K562) la 88,8% (GM12878). În plus, ChromHMM atinge o precizie maximă de 49.8% pentru predicția promotorului activ, în timp ce maximul pentru DECRES este de 84,3%.

Evaluarea performanței DECRES cu date experimentale independente

deoarece evaluarea inițială s-a axat pe adnotarea CRR bazată pe FANTOM eRNA, tipul de date utilizate pentru formarea modelului nostru supravegheat, am căutat să evaluăm performanța pe date generate prin metode alternative. Am identificat două colecții independente de amelioratori validați de laborator pentru a evalua în continuare performanța DECRES: o colecție CRE-seq de regiuni testate în celule K562 și colecții mpra (massively parallel reporter assay) testate în celule K562 și HepG2 . În ambele cazuri, setul de regiuni care nu reușesc să se exprime direct poate fi prezis în mod fals prin metodele evaluate, dar poate reflecta, de asemenea, faptele că procedurile experimentale includ doar un segment mic de ADN reglator și că testele pe bază de plasmide nu recapitulează proprietățile cromatinei. Având în vedere natura datelor, anticipăm că o parte din negativele experimentale sunt regiuni de reglementare de bună credință.

în primul set independent, subseturile de potențiatori k562 preziși și regiuni negative (așa cum a fost prezis prin metoda combinată ChromHMM și Segway) au fost evaluate în laborator folosind CRE-seq . În acest studiu, doar 33% din regiunile de reglementare” combinate ” prezise s-au dovedit a fi pozitive în experiment, comparativ cu 7% pentru setul negativ. Folosind DECRES instruiți pe toate regiunile active de reglementare disponibile ale celulelor K562, am validat metoda noastră pe 386 de regiuni care prezintă activitate activă de potențare în K562, validată de CRE-seq, comparativ cu cele 298 de regiuni de control (fișier suplimentar 1: Tabelul S3). În concordanță cu rezultatele de mai sus, o sensibilitate de 65,5% (254/386) pentru regiunile validate experimental a fost prezisă cu succes ca A-E; restul de 132 de regiuni au fost prezise ca fundal (niciuna nu a fost clasificată ca promotori). Pentru cele 812 predicții testate care au fost inactive în experimentul CRE-seq, DECRES a clasificat 53,3% (433/812) ca fiind pozitive. Pentru cele 298 de regiuni de control negative, DECRES a prezis că toate vor fi negative (inclusiv cele 16 care au fost active în experimentul CRE-seq). Important, pe măsură ce scorurile DECRES cresc, calitatea predicțiilor crește. Am desenat histograma scorurilor de membru DECRES de 254 și 433 potențiatori combinați experimental pozitivi și negativi care au fost preziși ca A-Es de DECRES (fișier suplimentar 1: Figura s2). Distribuțiile sunt semnificativ diferite (p = 0.014, testul Mann-Whitney rank pe două fețe).

a doua colecție independentă, în care K562 și HepG2-specifice „potențator puternic” (așa cum a prezis de ChromHMM) care conțin prezis TF site-uri de legare pentru celule selective TFS au fost testate folosind un masiv paralel reporter assay (mpra) . Doar 41% dintre amplificatori au fost detectați ca fiind exprimați semnificativ (p = 0,05, testul Mann-Whitney rank pe două fețe). Am folosit DECRES pentru a prezice clasele de amelioratori mpra pozitivi și mpra negativi. Rezultatul nostru în fișierul suplimentar 1: Tabelul S3 arată că 98,4% (120/122) și 97.8% (182/186) din amplificatorii pozitivi ai MPRA au fost prognozați A-Es de către DECRES pentru celulele K562 și HepG2, în timp ce 92,3% (179/194) și 81,3% (217/267) din amplificatorii negativi ai MPRA au fost încă prognozați ca a-Es pentru K562 și respectiv HepG2, dar cu distribuții diferite ale scorurilor DECRES (p= 4,8 E-6 și p= 2,3 e-6 k562 și HepG2 respectiv, cu două fețe Mann-Whitney rank test) (fișier suplimentar 1: Figura S2). În concordanță cu celelalte date independente, cu cât scorurile DECRES sunt mai mari, cu atât este mai probabil ca acestea să fie pozitive.

evaluarea utilității proprietăților secvenței ADN asupra performanței DECRES

studii recente au confirmat că proprietățile secvenței ADN pot fi utile pentru recunoașterea promotorilor și potențiatorilor și discriminarea dintre secvențele de reglementare active și inactive folosind nucleele secvenței de șir. Aceasta se bazează pe capacitatea recunoscută de mult timp pentru includerea insulelor CpG ca caracteristici pentru îmbunătățirea predicției promotorilor . Am căutat să determinăm dacă caracteristicile secvenței ADN pot fi informative pentru a distinge între promotori și amplificatori și între clasele active și inactive. Am instruit modelul cu 351 caracteristici de secvență (utilizate inițial în ) în mai multe scenarii. Rezultatele sunt afișate în Fig. 3 și fișier suplimentar 1: Figura S3. În primul rând, o metodă profundă limitată la caracteristicile secvenței pentru discriminarea A-E și A-P (Fig. 3a) auprc livrate de la 0.8567 la 0.9370, confirmând că atributele secvenței sunt într-adevăr informative. În al doilea rând, caracteristicile secvenței au o utilitate limitată pentru a distinge între stările active și inactive ale potențiatorilor și promotorilor, ceea ce este logic; în timp ce caracteristicile derivate experimental le-ar putea separa foarte mult (p=1,90 E-08 și 5.06E-08 pentru amelioratori și, respectiv, promotori, testul T al elevului cu două cozi; vezi Fig. 3B și fișier suplimentar 1: Figura S3A). Utilizarea caracteristicilor secvenței în absența caracteristicilor experimentale are o performanță mai scăzută în clasificarea A-E, A-P și BG în toate cele opt tipuri de celule (p=1,86 e-09, testul T al elevului cu două cozi; vezi Fig. 3c). În cele din urmă, rezultate mai bune nu au fost obținute prin combinarea caracteristicilor experimentale și secvențiale (p=2,79 E-01, 6,56 e-01 și 1,17 e-01 în Fig. 3, testul T al elevului cu două cozi).

caracteristici cheie pentru performanța DECRES

deoarece datele experimentale pot fi consumatoare de timp și costisitoare de produs, am căutat să determinăm setul minim de caracteristici cele mai informative pentru predicția CRR dintr-o perspectivă computațională. Am folosit randomizat deep feature selection (randomizat DFS sau RDFS) și random forest (RF) modele (vezi metode) pentru două clase și trei clase (A-E versus A-P versus BG) clasificări pe patru tipuri de celule (GM12878, HelaS3, HepG2, și K562) care au 72-135 caracteristici disponibile.

figura 4a și fișierul suplimentar 1: Figura S4A afișează scorurile de importanță ale caracteristicilor descoperite de DFS randomizate și random forest pentru clasificarea în trei clase. Scorurile de importanță caracteristică produse de aceste metode ar trebui interpretate diferit. Similar cu o selecție înainte, scorurile de importanță a caracteristicilor din DFS randomizate reflectă ce caracteristici sunt preferate în stadiul incipient al modelului rar, în timp ce scorul de importanță al unei caracteristici de către random forest indică rolul acestei caracteristici în contextul utilizării sale cu toate celelalte caracteristici. Astfel, utilizarea ambelor metode în acest studiu ne permite să obținem perspective diferite asupra datelor. În experimentele noastre, ambele metode pot capta cele mai importante caracteristici, după cum indică scorurile de importanță pe toate cele patru linii celulare. De exemplu, ambele metode sunt de acord că Pol2, H3K4me1, Taf1 și H3K27ac sunt utile pentru a distinge amplificatorii activi și promotorii de fundal în linia celulară GM12878. În unele cazuri, diferitele măsuri se completează reciproc. De exemplu, H3K4me2 și H4k20me1 sunt marcate ca Caracteristici cheie de către DFS randomizat, ceea ce este convingător, așa cum este indicat de parcelele casetei din fișierul suplimentar 1: Figura S4B și figura S6-S13, dar sunt trecute cu vederea de random forest. Tbp a fost evidențiată de random forest în celulele GM12878 și HelaS3, dar nu a fost preluată de DFS randomizate. Examinarea parcelelor casetei acestei caracteristici în fișierul suplimentar 1: figurile S6 și S7 relevă faptul că această caracteristică este discriminativă pentru a distinge potențiatorii activi și promotorii de fundal, dar nu există o diferență dramatică între amplificatorii activi și promotorii. Caracteristicile importante încorporate într-un model forestier aleatoriu nu pot fi încorporate decât într-o ultimă etapă a procesului DFS. De exemplu, în linia celulară K562, c-Myc a fost subliniat de random forest, care este într-adevăr rezonabil, așa cum se arată în fișierul suplimentar 1: Figura S12 și nu a fost selectat ca o caracteristică inițială în procesul DFS.

pentru dezvoltarea metodelor de învățare automată în adnotarea genomului, minimizarea numărului de caracteristici necesare scade costul și crește capacitatea de interpretare biologică. Figura 4b și fișierul suplimentar 1: Figura S5B arată modificările auprc-urilor de testare pe măsură ce numărul de caracteristici selectate crește pentru clasificările din trei clase și, respectiv, din două clase. În ambele cazuri, auprc-urile de testare cresc dramatic pentru caracteristicile inițiale, apoi platourile de performanță. Comparând curbele DFS randomizate cu curbele forestiere aleatorii, putem vedea că nu există o singură curbă optimă. Câteva caracteristici cheie sunt suficiente pentru o performanță bună de predicție. Pentru a defini un număr optim de caracteristici necesare, încadrăm curbele din Fig. 4B și fișier suplimentar 1: Figura S5B și a selectat punctul de intersecție pentru o linie cu panta de 0,5 pe curbele DFS randomizate (vezi metode). Sunt necesare mai puține caracteristici pentru predicția CRR din două clase (6 caracteristici) în comparație cu modelele din trei clase destinate să facă distincția între A-E, A-P și fundal (10 caracteristici).

distribuțiile primelor zece caracteristici pentru predicțiile din trei clase (A-E, A-P și BG) sunt date în fișierul suplimentar 1: Figura S4B. folosind primele zece caracteristici pentru fiecare celulă, auPRCs de 0,9022, 0,9156, 0,8651 și 0,8565 au fost realizate pe GM12878, HelaS3, HepG2 și, respectiv, K562. Jumătate dintre aceste caracteristici de top sunt modificări histonice, dintre care H3K4me1, H3K4me2, H3K4me3 și H3K27me3 au fost selectate în mod obișnuit caracteristici pentru modelele din trei clase, în acord cu cunoștințele existente . Printre factorii de transcripție (inclusiv co-factori), Taf1 și p300, precum și ARN polimeraza II (Pol2), sunt frecvent selectate, ceea ce este, de asemenea, în concordanță cu cunoștințele existente .

fișier suplimentar 1: Figura S5C arată parcele cutie de top șase caracteristici selectate de DFS randomizate pentru predicții două clase. Folosind aceste caracteristici, au fost obținute auprc-uri de 0,9561, 0,9627, 0,926 și 0,9555 pe cele patru tipuri de celule, respectiv. Pentru majoritatea caracteristicilor, intervalele de valori sunt crescute în A – E și A-P în raport cu categoriile de fundal. Jumătate din caracteristicile selectate sunt DNase-seq și histone modificare ChIP-seq date, inclusiv H3K4me2, H3K27ac, și H3K27me3. Parcelele de cutie ale acestor caracteristici indică faptul că disting A-E și A-P de fundal .

majoritatea predicțiilor la nivel de genom ale lui DECRES sunt susținute de alte metode

am pregătit modele multistrat perceptron (MLP) din clasele 2 și 3 (a se vedea metodele) folosind toate datele de referință (etichetate) pentru instruire, pentru a prezice CRR pe întregul genom pentru șase tipuri de celule (A549 și MCF7 au fost excluse). Modelul din clasa 2 a identificat 227.332 CRR (regiunile adiacente au fost îmbinate), care ocupă 4,8% din genom (fișier suplimentar 1: Tabelul S4). Un total de 9153 CRR au fost prezise omniprezent în toate cele șase tipuri de celule. Pentru predicția clasei 3, am obținut 301.650 regiuni A-e (6,8% din genom) și 26.555 regiuni A-P (0,6% din genom) împreună cu 11.886 a-Es omniprezente și 3678 a-Ps omniprezente. Predicțiile la nivel de genom pentru toate cele șase tipuri de celule sunt disponibile în fișierul suplimentar 2.

apoi, am examinat suprapunerea CRR-urilor noastre prezise cu predicțiile combinate și dReg pe GM12878, HelaS3 și K562. Majoritatea CRR-urilor prezise de DECRES se suprapun cu rezultatele fie combinate, fie dReg, în special 86,13%, 76,13% și 83,63% pentru GM12878, HelaS3 și, respectiv, K562 (Fig. 5). Un subset (13,87% pe GM12878, 23,87% pe HelaS3 și 16,37% pe K562) de predicții DECRES nu se suprapun cu predicțiile din celelalte două instrumente. În special, o mare parte din predicțiile combinate (56,78% pe HelaS3, 55,99% pe GM12878 și 36.36% pe K562) nu se suprapun cu cele din metodele supravegheate, ceea ce este în concordanță cu rata scăzută de validare observată . Mai mult, predicțiile DECRES tind să aibă o rezoluție mai fină atât pentru regiunile A-P, cât și pentru regiunile A-E (A se vedea fișierul suplimentar 1: Figura S14 pentru un exemplu).

am investigat câte dintre predicțiile noastre la nivel de genom sunt susținute de setul VISTA enhancer. În ciuda faptului că majoritatea POTENȚIATORILOR VISTA sunt extrem de conservați pe parcursul dezvoltării, constatăm totuși că 37.1% (850/2,293) dintre amplificatorii VISTA confirmați experimental și neconfirmați se suprapun cu A-Es prezise, în timp ce doar 4.8% (110/2,293) dintre acești amelioratori VISTA se suprapun cu a-Ps prezis. Rezultatele pentru amplificatoarele VISTA confirmate experimental sunt similare (482/1,196 = 40,30% și 60/1, 196 = 5,02% se suprapun A-Es și, respectiv, a-Ps), ceea ce sugerează că amplificatoarele noastre active prezise au funcții reale de îmbunătățire. O parte din amplificatorii VISTA care nu se suprapun predicțiilor noastre ar putea fi activi în mod specific în timpul dezvoltării sau în alte tipuri de celule decât liniile noastre de celule de focalizare.

DECRES extinde FANTOM enhancer atlas

datorită adâncimii limitate a semnalelor cuștii pentru eRNAs, o porțiune de potențiatori activi (sau transcriși) nu va fi fost detectată în compilația originală a Atlasului enhancer. Prin urmare, am căutat să identificăm potențiatori suplimentari parțial susținuți pentru care semnalele eRNA erau sub setările pragului atlas originale . În lucrarea anterioară, un total de 200.171 loci transcriși bidirecțional (BDT) au fost detectați în genomul uman, folosind etichete de cușcă de 808 tipuri de celule și țesuturi. După excluderea locilor BDT în cadrul exonilor, a rămas un set parțial susținut de 102.021 regiuni BDT, dintre care 43.011 loci echilibrați (niveluri similare eRNA pe ambele părți) constituie Fantom enhancer atlas . Pentru a investiga dacă pot fi detectați candidați mai activi pentru fiecare dintre cele șase tipuri de celule, am instruit un MLP pe regiunile sale atlas active și am prezis clase pentru toate cele 102.021 de site-uri BDT. Dintre cele 102.021 loci BDT, majoritatea au fost clasificate ca regiuni negative într-o celulă dată (fișier suplimentar 1: Tabelul S5), în timp ce în medie 13.316 au fost prezise ca a-Es și doar 834 au fost prezise ca a-Ps PE tip de celulă. Un număr substanțial (6535 în medie) de potențiatori inactivi din Atlasul potențiatorilor originali au fost preziși ca activi de modelul nostru (fișier suplimentar 1: Tabelul S6), în concordanță cu presupunerea că datele BDT sunt incomplete pentru orice eșantion dat. În medie, 5514 loci BDT excluși de atlasul original, au fost preziși ca a-Es pe tip de celulă. Pe parcursul celor șase tipuri de celule analizate, un total de 38.601 loci BDT au fost preziși ca a-Es (fișier suplimentar 3), dintre care 16.988 reprezintă o extindere a originalului FANTOM enhancer atlas. Rețineți că 21.398 din 43.011 potențiatori din Atlasul original FANTOM enhancer nu sunt preziși ca activi în cele șase celule analizate aici, dar aceste regiuni pot fi active în celelalte 802 celule pentru care există caracteristici inadecvate de analizat.

validarea computațională a predicției lui DECRES folosind analiza de îmbogățire funcțională și motif

am efectuat analiza de îmbogățire funcțională pe a-Es și a-Ps prezise la nivelul genomului folosind GREAT . Pentru celulele GM12878, 79% din regiunile potențiatorilor preziși sunt la mai mult de 5 perechi de kilobaze (kbps) distanță de TSSs genei (fișier suplimentar 1: Figura s15a), în timp ce 47% dintre promotorii preziși sunt mai mici de 5 kbps față de TSSs genei adnotate (fișier suplimentar 1: Figura s15b). Statistici similare au fost obținute pentru celelalte cinci tipuri de celule. Analizele de adnotare ale CRR-urilor specifice GM12878 arată că genele proximale sunt asociate cu: răspunsul imun din adnotările ontologiei genetice (GO) (fișier suplimentar 1: Figura S15C); căile de semnalizare a celulelor B din adnotările căii MSigDB (fișier suplimentar 1: Figura s15d); și leucemia din adnotările ontologiei bolii (fișier suplimentar 1: Figura s15e). Rezultatele sunt în concordanță cu linia limfoblastoidă a celulelor. Apoi, am efectuat o analiză de îmbogățire funcțională a potențiatorilor preziși suportați de BDT, care nu au fost raportați anterior în atlasul Fantom enhancer („nu în atlas”). Rezultatele sunt pe deplin compatibile cu analiza de mai sus (fișier suplimentar 1: Figura S16).

am efectuat în continuare analiza de îmbogățire a motivelor pe CRR-urile specifice celulei prezise și pe amplificatorii non-in-atlas folosind HOMER . Regiunile prezise sunt îmbogățite pentru motive similare profilurilor de legare JASPAR (fișier suplimentar 1: Figura s15f și figurile S16-S26) ambele asociate TFs menținând procesele celulare generale și TFs cu roluri selective în funcțiile legate de celule. De exemplu, motivele pentru factorii legați de iunie, Fos și Ets au fost îmbogățite în regiuni din toate cele șase tipuri de celule. Aceste TFs reglează progresele celulare generale, cum ar fi diferențierea, proliferarea sau apoptoza . Pentru fiecare celulă s-au observat îmbogățiri TF adecvate celulei (rezumate în fișierul suplimentar 1: Tabelul S7). De exemplu, RUNX1 și alți factori legați de Runt, care joacă roluri cruciale în hematopoieză, sunt observați în GM12878 (fișier suplimentar 1: Figura s15f și figura S16) . Factorii legați de C/EBP care reglează genele implicate în răspunsurile imune și inflamatorii sunt exprimați în colul uterin (fișier suplimentar 1: figurile S17 și S18) . Factorii HNF1A, HNF1B, FOXA1, FOXA2, HNF4A și hnf4g reglează genele specifice ficatului (fișier suplimentar 1: figurile S19 și S20) . Factorii NFY cooperează cu GATA1 pentru a media transcrierea specifică eritroidelor în K562 (fișier suplimentar 1: figurile S25 și S26) .

am efectuat analiza funcțională și de îmbogățire a predicțiilor A-E și A-P din metoda combinată și raportăm rezultatele în fișierul suplimentar 1: figurile S27-S30. Majoritatea promotorilor preziși prin metoda combinată sunt distali față de gena cunoscută TSSs, care este similară cu amplificatorii. De exemplu, pe linia celulară GM12878, doar 22% dintre promotorii combinați sunt localizați la mai puțin de 5 kbp față de gena adnotată TSSs, comparativ cu 47% dintre promotorii DECRES. Mai mult, Analiza funcțională a CRR-urilor prezise prin metoda combinată a returnat Termeni mult mai puțin sau zero semnificativi pentru procesul biologic GO, calea MSigDB și ontologia bolii decât predicțiile DECRES. Rezultatele analizei motivelor ambelor metode sunt consecvente.

predicția la nivel de genom a regiunilor de reglementare cis folosind metode de învățare profundă supravegheate