Predicția țintelor funcționale de microARN prin modelarea integrativă a datelor de legare a microARN și a expresiei țintă

ARN-seq pentru a identifica transcrierile reglate în jos de supraexpresia miARN

este bine stabilit că legarea unui miARN la transcrierea țintă nu duce neapărat la reglarea expresiei genelor. De fapt, cele mai multe evenimente de legare a miARN observate, după cum reiese din analiza clipului, au consecințe funcționale reduse . Astfel, concentrarea numai pe legarea miARN are o valoare limitată pentru predicția țintelor funcționale miARN, adică ținte reglate în jos. Pentru a atenua această preocupare, am determinat direct reglarea descendentă a țintei de către miARN cu ARN-seq. Designul general al studiului este rezumat în fișierul suplimentar 1: Figura S1. Ca prim pas, 25 miARN, împreună cu un ARN de control negativ, au fost supraexprimate individual în celulele HeLa prin transfecție. Aceste 25 miARN sunt enumerate în tabelul 1. Impactul supraexprimării miARN a fost profilat la nivel de transcriptom prin experimente ARN-seq. Pentru a controla variațiile experimentale, fiecare miARN a fost transfectat în celule în duplicat în zile diferite, iar construcția bibliotecii ARN-seq și rulările de secvențiere au fost, de asemenea, efectuate în duplicat în zile diferite. În total, au fost generate 1,5 miliarde de citiri pentru profilarea expresiei a 52 de probe de ARN. Datele de profilare sunt prezentate în fișierul suplimentar 2: Tabelul S1. Toate datele de secvențiere au fost combinate pentru a identifica genele reglate în jos de supraexprimarea miARN. În analiza noastră, transcrierile care conțin cel puțin un situs de legare a semințelor miARN și au fost reglate în jos cu cel puțin 40% în ambele experimente duplicate sunt desemnate ca ținte miARN. În schimb, transcrierile care conțin cel puțin 1 site de semințe, dar nu au avut nicio modificare a expresiei, sunt desemnate ca controale non-țintă. În acest fel, 2240 și 4127 ținte miARN și controale non-țintă au fost identificate prin ARN-seq, respectiv. În mod specific, au fost identificate în medie 90 de ținte pentru fiecare miARN, iar numerele țintă variază considerabil între miARN individuale (variind de la 11 la 206, Tabelul 1).

Tabelul 1 douăzeci și cinci miARN analizate în experimentele ARN-seq

impactul tipurilor de semințe miARN asupra reglării descendente a țintei

studiile anterioare au identificat mai multe tipuri majore de site-uri țintă canonice miARN, inclusiv cele care se potrivesc secvențelor de semințe miARN de 6 mer, 7 mer sau 8 mer (Tabelul 2). Analiza conservării secvenței a sugerat că siturile țintă care se împerechează cu semințele miARN mai lungi sunt mai conservate între specii și, prin urmare, sunt mai susceptibile de a fi ținte miARN de bună credință . Această ipoteză privind rezistența tipului de semințe a fost confirmată și prin analizarea seturilor de date microarray eterogene în contextul reglării descendente a țintei . Cu toate acestea, este necesară o analiză suplimentară pentru a cuantifica cu exactitate contribuția fiecărui tip de semințe. Setul nostru de date ARN-seq nou generat pe scară largă, cuprinzând 25 miARN evaluate în condiții experimentale uniforme, a oferit o oportunitate unică de a evalua cantitativ puterea diferitelor semințe miARN la reglarea descendentă a țintei. În mod specific, am evaluat îmbogățirea fiecărui tip de semințe în siturile țintă reglementate în jos în comparație cu siturile nețintă.

Tabelul 2 îmbogățirea potrivirii semințelor de miARN în locurile țintă

așa cum se arată în tabelul 2 și Fig. 1A, seed6 este cel mai răspândit tip, identificat în 86% din toate țintele reglementate în jos. Cu toate acestea, datorită lungimii sale scurte, semințele6 sunt prezente și nespecific în 36% din siturile nețintă, rezultând cel mai scăzut raport de îmbogățire a semințelor (2,40 în tabelul 2). La celălalt capăt, seed8A1 este tipul cel mai selectiv, cu un raport de îmbogățire de 6.83 și este prezent în 30% din obiectivele reglementate în jos. Dintre toate semințele de 7 mer, seed7b și seed7A1 au rapoarte de îmbogățire similare, ambele fiind mai mari decât raportul pentru seed7a.

Fig. 1
figura1

impactul tipurilor de semințe miARN asupra reglării descendente a țintei. Au fost evaluate șase tipuri de semințe (vezi Tabelul 2 pentru definițiile semințelor). un procent de gene downregulated care conțin tipuri de semințe individuale în raport cu modificările de expresie a genelor. Toate cele 25 miARN au fost incluse în analiză. B analiza unui subset de 8 miARN care nu conțin 5 ‘ – U

un alt tip de semințe de 8 mer, seed8, are al doilea cel mai mare raport de îmbogățire de 5,48, care este mai mare decât rapoartele pentru toate semințele de 7 mer. Pentru a distinge în continuare contribuția potențială a meciului de bază terminal de baza terminal A în site-ul țintă, ne-am concentrat exclusiv pe 8 miARN care nu au un 5′ – end U (Fig. 1b). În comparație cu toate cele 25 miARN, am observat rate de îmbogățire similare pentru seed7b și seed8A1, respectiv, din acest subset de miARN (Tabelul 2). Aceste rezultate sugerează că potrivirea perfectă a terminalului a-U are un impact redus asupra recunoașterii țintei, deoarece prezența terminalului a în site-urile țintă, indiferent de starea sa de asociere cu miARN, este asociată cu reglarea descendentă a țintei. Interesant, am observat, de asemenea, un raport de îmbogățire dramatic scăzut pentru semințe8 din acest subset miARN. De fapt, raportul seed8 (3.32) este chiar mai mic decât cel pentru seed7b (Tabelul 2). Astfel, un meci terminal perfect, altul decât a-U, este dăunător (mai degrabă decât să contribuie) la recunoașterea țintei. Pe baza analizei semințelor, am decis să ne concentrăm pe cele mai puternice 3 tipuri de semințe, inclusiv seed8A1, seed7b și seed7A1, pentru modelarea predicției țintă. Combinate împreună, aceste 3 tipuri de semințe au fost identificate în 3′-UTR de 76% din transcrierile reglate în jos.

combinarea reglării descendente a țintei și a datelor de legare a clipurilor pentru a identifica caracteristicile comune de direcționare

o preocupare comună cu studiile de supraexpresie miARN este că este dificil să localizați site-ul exact de legare miARN în transcrierea țintei. Pentru a atenua această preocupare, am identificat site-uri țintă candidate pe baza prezenței site-urilor canonice de semințe de 7 mer sau 8 mer. Spre deosebire de analiza supraexprimării miARN, studiile de ligare a clipurilor sunt capabile să identifice fără echivoc situsurile de legare miARN în transcrierea țintă prin reticularea miARN și a site-ului țintă înrudit în același complex RISC. Cu toate acestea, consecința funcțională a legării țintei miARN, identificată prin CLIP, nu poate fi ușor determinată. Astfel, atât legarea clipului, cât și metodele de supraexpresie miARN au argumente pro și contra și fiecare metodă singură descrie un singur aspect important al reglării țintei miARN, adică legarea țintei și respectiv suprimarea funcțională.

în analiza noastră, suntem interesați să identificăm trăsături comune care sunt caracteristice reglării funcționale a țintei, incluzând atât legarea miARN, cât și reglarea descendentă a țintei ulterioare. Într-o analiză recentă de predicție a țintei , am compilat un set de date de legare a țintei miARN derivat din mai multe studii publice de ligare a clipurilor . Metoda de legare a clipului este considerată avantajoasă față de metodele tradiționale de CLIP, deoarece atât miARN, cât și site-ul său de legare înrudit din transcrierea țintă pot fi identificate fără echivoc prin reticulare la același complex RISC. În studiul de față, setul de date de legare a clipurilor a fost combinat în continuare cu noi date de supraexpresie miARN pentru a identifica caracteristicile de direcționare care sunt comune atât legării miARN, cât și suprimării țintei. În acest fel, 4774 de site-uri țintă și 8081 de site-uri nețintă, identificate atât din studiile de supraexprimare CLIP, cât și din miARN, au fost combinate și evaluate în analiza ulterioară a caracteristicilor.

site-urile țintă și nețintă din setul de date combinat au fost comparate pentru a identifica caracteristicile care sunt asociate în mod obișnuit cu reglarea țintei miARN. Aceste caracteristici sunt enumerate în fișierul suplimentar 3: tabelul s2. Este bine stabilit că site-urile țintă miARN sunt conservate evolutiv . În studiul nostru, am evaluat conservarea țintă folosind două abordări complementare. În primul rând, am calculat diferența dintre scorurile de conservare între pozițiile de legare a semințelor și pozițiile de flancare, așa cum este determinată de scorurile phyloP din alinierea multi-genomului pe 100 de căi . În al doilea rând, am stabilit, de asemenea, dacă întregul sit de semințe (7-mer sau 8-mer) se găsește în mai multe specii prin căutare de cuvinte. Ambele analize de conservare au indicat faptul că siturile țintă au fost foarte semnificativ conservate în comparație cu siturile nețintă. De fapt, conservarea semințelor a fost printre cele mai semnificativ îmbogățite caracteristici, indiferent dacă supraexprimarea miARN și datele de legare a clipurilor au fost analizate separat sau în combinație. Mai exact, semințele conservate8a1 a fost cel mai îmbogățit în siturile țintă (p = 2,8 E−245 prin potrivirea semințelor între specii și p = 7,3 e-218 prin scorul phyloP, respectiv). La celălalt capăt, semințele neconservate7a1 a fost cel mai epuizat tip de semințe (9,5 E−134 prin potrivirea semințelor și p = 1,3 e−138 prin scorul phyloP, respectiv). Pe lângă conservarea semințelor, au existat multe alte caracteristici frecvent întâlnite în ambele seturi de date. De exemplu, site-urile țintă miARN au fost asociate preferențial cu secvențe 3’−UTR mai scurte (p = 4,7 e-126) și au fost mai susceptibile de a fi găsite spre sfârșitul secvenței 3’−UTR (p = 5,4 E−66) și departe de centrul transcrierilor lungi (p = 2,5 E-87).

în ciuda multor asemănări, există, de asemenea, diferențe distincte între supraexprimarea miARN și datele de legare a clipurilor. Un exemplu proeminent este legat de conținutul GC al site-ului țintă. Comparativ cu site-urile non-țintă, conținutul GC al site-ului țintă a fost mult mai mic în datele de legare a clipurilor (p = 1.9E−146), dar numai modest mai mic în datele de supraexpresie miARN (p = 2,1 E−10). Epuizarea nucleotidei C a fost moderată în ambele seturi de date. Astfel, diferența drastică în conținutul GC între cele două seturi de date a fost în principal rezultatul unei prejudecăți mult mai puternice împotriva nucleotidei G în datele CLIP (p = 7,7 E−137), spre deosebire de datele de supraexpresie (p = 1,2 e−19). O posibilă explicație ar putea fi legată de Rnaza T1 utilizată în studiile CLIP, care se taie preferențial la nucleotida G, rezultând epuizarea g internă în citirea secvențială. Cu toate acestea, ar putea fi, de asemenea, adevărat că îmbogățirea G împiedică legarea site-ului țintă de către complexul miRISC, deoarece G a fost, de asemenea, epuizat în datele de supraexpresie miARN, deși doar moderat. O altă caracteristică interesantă este stabilitatea de legare a semințelor, determinată de energia liberă a duplexului de semințe/țintă. Stabilitatea legării semințelor a fost favorizată în datele de supraexprimare miARN (p = 2,5 E−12), dar defavorizată în datele de legare a clipurilor (p = 5,4 e−26). În general, această caracteristică nu mai era semnificativă atunci când cele două seturi de date au fost combinate (p = 0,26).

dezvoltarea unui model de predicție a țintei cu caracteristici comune de direcționare

toate caracteristicile de direcționare miRNA, așa cum sunt enumerate în fișierul suplimentar 3: tabelul s2, au fost modelate într-un suport vector machine (SVM) cadru pentru dezvoltarea algoritmului. Mai mult, am efectuat, de asemenea, analiza recursivă a eliminării caracteristicilor (RFE) pentru a clasifica importanța relativă a fiecărei caracteristici pentru contribuția sa independentă la performanța modelului. În această evaluare RFE, toate caracteristicile au fost analizate colectiv folosind SVM. Mai exact, ca prim pas, caracteristica cea mai puțin importantă a fost identificată și ulterior eliminată din model. Apoi, caracteristicile rămase au fost evaluate pentru a identifica a doua caracteristică cea mai puțin importantă pentru eliminare. Acest proces de evaluare a fost repetat cu o caracteristică eliminată din fiecare iterație până când a rămas o singură caracteristică. Abordarea RFE ajută la înțelegerea contribuției independente a caracteristicilor individuale care sunt incluse în model. Tabelul 3 rezumă 20 de caracteristici de direcționare de top prin analiza RFE. Rândurile complete RFE ale tuturor caracteristicilor sunt enumerate în fișierul suplimentar 3: tabelul s2. În concordanță cu Analiza caracteristicilor prezentată în secțiunea anterioară, caracteristicile multiple de conservare a semințelor s-au clasat printre cele mai mari prin analiza RFE, cu seed8a1 conservat ca caracteristică cu cel mai mare impact. În modelul nostru SVM final, toate cele 96 de caracteristici, inclusiv cele semnificative statistic și nesemnificative, au fost integrate pentru construirea modelului de predicție, pe care l-am numit MirTarget v4.0. Validarea încrucișată de cinci ori a fost efectuată pentru a determina parametrii optimi pentru funcția kernel-ului SVM folosind grila.instrument py în pachetul libsvm. O schemă de notare a fost apoi dezvoltată pentru a reprezenta încrederea predicției. Pentru fiecare site țintă candidat, MirTarget calculează un scor de probabilitate (în intervalul 0-1) derivat din instrumentul de modelare SVM, libsvm, așa cum a fost descris anterior . Acest scor țintă al site-ului reflectă evaluarea statistică a acurateței predicției. Pe baza scorurilor individuale ale site-ului țintă, MirTarget prezice dacă o genă este o țintă miRNA prin combinarea tuturor scorurilor site – ului în cadrul 3 ‘ – UTR folosind următoarea formulă:

$$ S = 100 \ times \ stânga(1 – \ underset{i = 1} {\overset{n} {\Pi}}{P}_i \ dreapta) $$

unde N reprezintă numărul de site-uri țintă candidate din 3 ‘ – UTR, iar Pi reprezintă scorul de probabilitate pentru fiecare site estimat de MirTarget. Majoritatea genelor țintă conțin un singur sit și, prin urmare, scorul țintă final este calculat folosind aceeași ecuație cu n = 1. Scorurile MirTarget au fost utilizate pentru a clasifica semnificația relativă a țintelor prezise. În acest fel, am folosit MirTarget pentru predicția la nivel de genom a țintelor miARN. Toate țintele prezise sunt prezentate în miRDB (http://mirdb.org) .

Tabelul 3 Rezumatul caracteristicilor de direcționare miARN de top identificate prin analiza RFE

evaluarea algoritmului cu date experimentale independente

o preocupare comună în dezvoltarea algoritmului este că un model poate funcționa bine pe datele de antrenament, dar nu la fel de bine pe date nevăzute independente. Astfel, cel mai bun mod de a evalua performanța MirTarget ar fi aplicarea acesteia la date experimentale independente. În studiul de față, au fost analizate date experimentale eterogene pentru evaluarea algoritmului, inclusiv cele generate atât din experimentele de legare a clipurilor, cât și din experimentele de eliminare a miARN. Performanța MirTarget a fost, de asemenea, comparată cu alți patru algoritmi bine stabiliți, inclusiv TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) și PITA. Acești algoritmi sunt printre cele mai populare instrumente de predicție țintă miARN, iar datele de predicție la nivel de transcriptom sunt ușor descărcate de pe site-urile respective.

validare cu date CLIP-seq

Chi și colab. pionier metoda HITS-CLIP pentru identificarea experimentală a transcrierilor țintă miARN . Cu această metodă, au efectuat imunoprecipitarea reticulării pentru a trage în jos transcrierile ARNm care au fost asociate cu miRISC în creierul șoarecilor. Secvențierea cu randament ridicat a fost apoi efectuată pentru a identifica aceste etichete de transcriere a ARNm, adică fragmente scurte de ARN protejate de Ago de digestia Rnazei. Chi și colab. a demonstrat că, în general, etichetele de transcriere sunt centrate pe locurile de legare a semințelor . Acest set de date HITS-CLIP a fost analizat în continuare în studiul nostru pentru a identifica potențialele site-uri țintă miARN. În total, 886 de situri țintă potențiale au fost identificate pe baza secvențelor de potrivire a semințelor pentru cele șase miARN cele mai abundente exprimate. Ca controale negative, un set de potențiale secvențe non-țintă a fost, de asemenea, selectat pe baza următoarelor criterii: (1) nu se suprapun cu nicio etichetă de secvență identificată în experimentul HITS-CLIP și (2) provin din transcrieri cu niveluri de Expresie detectabile, așa cum sunt revelate de microarrays. Din aceste site-uri non-țintă, 889 cu secvențe de potrivire a semințelor au fost selectate ca controale negative.

în analiza noastră, performanța a cinci algoritmi de calcul, inclusiv MirTarget, TargetScan, DIANA-MicroT, miRanda și PITA, a fost evaluată prin compararea capacității lor de a distinge țintele de non-ținte, așa cum a fost dezvăluit de HITS-CLIP. Analiza ROC a fost efectuată pentru a evalua sensibilitatea generală și specificitatea algoritmilor de predicție. Așa cum se arată în Fig. 2a, MirTarget are cea mai bună performanță, cu o suprafață sub curba ROC (ASC) de 0,78. DIANA-MicroT are a doua cea mai bună performanță (ASC = 0,73). Interesant este că DIANA-MicroT a fost dezvoltat prin instruirea cu date de legare a clipurilor, în timp ce alți algoritmi publici au fost instruiți cu date de supraexpresie miRNA. Astfel, nu este surprinzător faptul că DIANA-MicroT se potrivește relativ bine pe datele de testare a clipurilor. Pe lângă analiza ROC, am construit și curbe de rechemare de precizie (PR) pentru a evalua acuratețea predicției. Curbele PR sunt utilizate în mod obișnuit în evaluarea algoritmului pentru a determina precizia predicției (proporția pozitivelor adevărate dintre toate pozitivele prezise) în raport cu rata de rechemare (proporția pozitivelor adevărate identificate dintre toate pozitivele adevărate). Așa cum se arată în Fig. 2b, MirTarget are cea mai bună performanță dintre toate cele cinci algoritmi. În special, precizia pentru MirTarget este de peste 90% atunci când rata de rechemare este sub 20%. Acest lucru indică faptul că MirTarget este deosebit de precis pentru predicții de înaltă încredere (adică scoruri mari de predicție).

Fig. 2
figura2

Compararea algoritmilor de predicție țintă miARN folosind setul de date HITS-CLIP. MirTarget și alți patru algoritmi de predicție țintă au fost incluși în analiză. o caracteristică de funcționare receptor (Roc) curba de analiză pentru a evalua rata de predicție fals pozitiv în raport cu rata de predicție adevărat pozitiv. B Precision-recall (PR) analiza curbei pentru a evalua precizia Predicției în raport cu rata de rechemare

validarea cu datele de eliminare miRNA

algoritmii de predicție țintă au fost, de asemenea, evaluați în contextul modificărilor expresiei țintă. În această analiză comparativă, am evaluat algoritmii folosind un studiu public de eliminare a miARN de către Hafner și colab. . În acest studiu public, autorii au suprimat simultan funcțiile a 25 miARN de către inhibitorii antisens și au evaluat impactul asupra expresiei ARN țintă cu microarrays. Se aștepta ca genele vizate de aceste miARN să fie reglate în sus din cauza inhibării miARN. În analiza noastră, am evaluat corelația dintre scorurile de predicție țintă și reglarea ascendentă a expresiei țintă. Așa cum se arată în Fig. 3a, în comparație cu alți algoritmi, scorurile de predicție calculate de MirTarget au cea mai mare corelație cu reglarea expresiei genelor. Mai mult, am evaluat, de asemenea, modificările expresiei genelor pentru predicțiile de top prin algoritmi individuali, deoarece cercetătorii sunt interesați în special de candidații țintă de înaltă încredere. În acest scop, am evaluat 100 de ținte prezise de top pe miARN, în medie, de fiecare algoritm. În concordanță cu analiza de corelație, țintele prezise de MirTarget au fost reglate cel mai mult în medie în comparație cu cele prezise de alți algoritmi (Fig. 3b).

Fig. 3
figura3

Compararea algoritmilor de predicție țintă folosind date microarray. Datele de profilare a Microarray au fost analizate pentru a identifica reglarea ascendentă a țintei rezultată din inhibarea concomitentă a 25 miARN. o corelație de țintă upregulation și scorurile de predicție țintă calculate de 5 algoritmi individuale, măsurată prin coeficientul de corelație Pearson. b nivelul mediu de reglementare în creștere a expresiei pentru țintele prezise. Pentru fiecare algoritm, în analiză au fost incluse în medie 100 de ținte prezise cu punctaj maxim pe miARN

Lasă un răspuns

Adresa ta de email nu va fi publicată.

Previous post Ciuperci de fag
Next post Usturoi scoică rețetă