Forudsigelse af funktionelle microRNA-mål ved integrativ modellering af microRNA-binding og målekspressionsdata

RNA-SEK for at identificere transkripter nedreguleret af miRNA-overekspression

det er veletableret, at bindingen af et miRNA til dets måltranskript ikke nødvendigvis resulterer i nedregulering af genekspression. Faktisk har de fleste observerede miRNA-bindingshændelser, som afsløret ved KLIPANALYSE, ringe funktionelle konsekvenser . Således har fokus på miRNA-binding alene begrænset værdi for forudsigelsen af funktionelle miRNA-mål, dvs.nedregulerede mål. For at afhjælpe denne bekymring bestemte vi direkte målnedreguleringen af miRNA med RNA-sekv. Det overordnede undersøgelsesdesign er opsummeret i yderligere fil 1: Figur S1. Som det første trin blev 25 miRNA ‘ er sammen med et negativt kontrol-RNA individuelt overudtrykt i HeLa-celler ved transfektion. Disse 25 miRNA ‘ er er anført i tabel 1. Virkningen af miRNA-overekspression blev profileret på transkriptomniveau ved hjælp af RNA-sekv-eksperimenter. For at kontrollere for eksperimentelle variationer blev hver miRNA transficeret til celler i duplikat på forskellige dage, og RNA-sekv-bibliotekskonstruktion og sekventeringskørsler blev også udført i duplikat på forskellige dage. I alt blev der genereret 1,5 milliarder læsninger til ekspressionsprofilering af 52 RNA-prøver. Profileringsdataene præsenteres i yderligere fil 2: Tabel S1. Alle sekventeringsdata blev kombineret for at identificere generne nedreguleret af miRNA-overekspression. I vores Analyse betegnes udskrifter, der indeholder mindst et miRNA-frøbindingssted og blev nedreguleret med mindst 40% i begge de duplikerede eksperimenter, som miRNA-mål. I modsætning, udskrifter, der indeholder mindst 1 frøsted, men som ikke havde nogen ekspressionsændring, betegnes som ikke-målkontroller. På denne måde blev 2240 og 4127 miRNA-mål og ikke-målkontroller identificeret af henholdsvis RNA-sekv. Specifikt var der i gennemsnit 90 mål identificeret for hvert miRNA, og måltallene varierer betydeligt mellem individuelle miRNA ‘ er (spænder fra 11 til 206, tabel 1).

tabel 1 femogtyve miRNA ‘ er analyseret i RNA-sekv-eksperimenterne

virkningen af miRNA-frøtyper på nedregulering af mål

tidligere undersøgelser har identificeret flere hovedtyper af kanoniske miRNA-målsteder, herunder dem, der matcher 6-mer, 7-mer eller 8-mer miRNA-frøsekvenserne (tabel 2). Sekvensbeskyttelsesanalyse antydede, at målsteder, der parrer sig til længere miRNA-frø, er mere konserverede på tværs af arter og dermed er mere tilbøjelige til at være bona fide miRNA-mål . Denne hypotese om frøtypestyrken er også blevet bekræftet ved at analysere heterogene mikroarray-datasæt i forbindelse med målnedregulering . Imidlertid er der behov for yderligere analyse for nøjagtigt at kvantificere bidraget fra hver frøtype. Vores nyligt genererede store RNA-sekv-datasæt, der omfatter 25 miRNA ‘ er vurderet under ensartede eksperimentelle betingelser, gav en unik mulighed for kvantitativt at evaluere styrken af forskellige miRNA-frø ved nedregulering af målet. Specifikt, vi vurderede berigelsen af hver frøtype i nedregulerede målsteder sammenlignet med ikke-målsteder.

tabel 2 berigelse af miRNA – frømatch på målstederne

som vist i tabel 2 og Fig. 1A, seed6 er den mest udbredte type, identificeret i 86% af alle nedregulerede mål. På grund af sin korte længde er frø6 imidlertid også til stede ikke-specifikt i 36% af ikke-målsteder, hvilket resulterer i det laveste frøberigelsesforhold (2,40 i tabel 2). I den anden ende er seed8A1 den mest selektive type med et berigelsesforhold på 6.83 og er til stede i 30% af nedregulerede mål. Blandt alle 7-mer frø, seed7b og seed7A1 har lignende berigelsesforhold, som begge er højere end forholdet for seed7a.

en anden type 8-mer frø, seed8, har det næsthøjeste berigelsesforhold på 5,48, hvilket er højere end forholdene for alle 7-mer frø. For yderligere at skelne det potentielle bidrag fra terminalbasekampen fra terminal A-basen på målstedet fokuserede vi udelukkende på 8 miRNA’er, der ikke har en 5′ -ende U (Fig. 1b). Sammenlignet med alle 25 miRNA ‘er observerede vi tilsvarende berigelsesforhold for henholdsvis seed7b og seed8A1 fra denne delmængde af miRNA’ er (Tabel 2). Disse resultater antyder, at terminal A-u perfect match har ringe indflydelse på målgenkendelse, da tilstedeværelsen af terminal A på målsteder, uanset dens parringsstatus til miRNA, er forbundet med nedregulering af målet. Interessant nok observerede vi også et dramatisk nedsat berigelsesforhold for seed8 fra denne miRNA-delmængde. Faktisk er seed8-forholdet (3.32) endnu lavere end for seed7b (tabel 2). Således er en perfekt terminalmatch bortset fra A – u skadelig (snarere end at bidrage) til målgenkendelse. Baseret på frøanalysen besluttede vi at fokusere på 3 stærkeste frøtyper, herunder seed8A1, seed7b og seed7A1, til målforudsigelsesmodellering. Tilsammen blev disse 3 frøtyper identificeret i 3′-UTR på 76% af nedregulerede udskrifter.

kombination af målnedregulering og KLIPBINDINGSDATA for at identificere fælles målretningsfunktioner

en fælles bekymring med miRNA-overekspressionsundersøgelser er, at det er udfordrende at finde det nøjagtige miRNA-bindingssted inden for måltranskriptionen. For at afhjælpe denne bekymring, vi identificerede kandidatmålsteder baseret på tilstedeværelsen af kanoniske 7-mer eller 8-mer frøsteder. I modsætning til miRNA-overekspressionsanalyse er KLIPLIGATIONSUNDERSØGELSER i stand til entydigt at identificere miRNA-bindingssteder i måltranskriptet ved at tværbinde miRNA og dets beslægtede målsted i det samme RISC-kompleks. Den funktionelle konsekvens af miRNA – målbinding, som identificeret ved CLIP, kan imidlertid ikke let bestemmes. Således har både KLIPBINDINGS-og miRNA-overekspressionsmetoder fordele og ulemper, og hver metode alene skildrer kun et vigtigt aspekt af miRNA-målregulering, dvs.henholdsvis målbinding og funktionel undertrykkelse.

i vores Analyse er vi interesserede i at identificere fælles træk, der er karakteristiske for funktionel målregulering, herunder både miRNA-binding og efterfølgende målnedregulering. I en nylig målforudsigelsesanalyse, vi har samlet et miRNA-målbindingsdatasæt afledt af flere offentlige KLIPLIGERINGSUNDERSØGELSER . KLIPLIGATIONSMETODEN betragtes som fordelagtig i forhold til traditionelle KLIPMETODER, da både miRNA og dets beslægtede bindingssted i måltranskriptet entydigt kan identificeres ved tværbinding til det samme RISC-kompleks. I denne undersøgelse blev CLIP-bindingsdatasættet yderligere kombineret med nye miRNA-overekspressionsdata for at identificere målretningsfunktioner, der er fælles for både miRNA-binding og målundertrykkelse. På denne måde blev 4774 målsteder og 8081 ikke-målsteder, identificeret fra både CLIP-og miRNA-overekspressionsstudier, kombineret og evalueret i efterfølgende funktionsanalyse.

mål-og ikke-målsteder i det kombinerede datasæt blev sammenlignet for at identificere de funktioner, der almindeligvis er forbundet med miRNA-målregulering. Disse funktioner er angivet i yderligere fil 3: Tabel S2. Det er veletableret, at miRNA-målsteder er evolutionært bevaret . I vores undersøgelse evaluerede vi målbevarelse ved hjælp af to komplementære tilgange. Først beregnede vi forskellen i bevaringsresultater mellem frøbindende positioner og flankerende positioner, som bestemt af phyloP-Score fra 100-vejs multigenomjustering . For det andet bestemte vi også, om hele frøstedet (7-mer eller 8-mer) findes på tværs af flere arter ved ordsøgning. Begge bevaringsanalyser viste, at målsteder var meget signifikant bevaret sammenlignet med ikke-målsteder. Faktisk, frøbevaring var blandt de mest markant berigede funktioner, om miRNA-overekspression og KLIPBINDINGSDATA blev analyseret separat, eller i kombination. Specifikt var konserveret frø8a1 den mest berigede på målsteder (p = 2,8 E−245 ved krydsfrø match og p = 7,3 E-218 ved henholdsvis phyloP score). I den anden ende var ikke-konserveret seed7A1 den mest udtømte frøtype (9,5 E−134 ved seed match og p = 1,3 E−138 ved henholdsvis phyloP score). Udover frøbevaring var der mange andre funktioner, der almindeligvis findes i begge datasæt. For eksempel var miRNA-målsteder fortrinsvis forbundet med kortere 3’−UTR-sekvenser (p = 4,7 E−126), og de var mere tilbøjelige til at blive fundet mod slutningen af 3’−UTR-sekvensen (p = 5,4 E-66) og væk fra midten af lange udskrifter (p = 2,5 E-87).

på trods af mange ligheder er der også tydelige forskelle mellem miRNA-overekspression og KLIPBINDINGSDATA. Et fremtrædende eksempel er relateret til GC-indholdet på målstedet. Sammenlignet med ikke-målsteder var målstedets GC-indhold meget lavere i KLIPBINDINGSDATA (p = 1.9E-146), men kun beskedent lavere i miRNA−overekspressionsdata (p = 2.1 E-10). Udtømningen af C-nukleotid var moderat i begge datasæt. Således var den drastiske forskel i GC−indhold mellem de to datasæt hovedsageligt resultatet af en meget stærkere bias mod G−nukleotid i KLIPDATAENE (p = 7,7 E-137) i modsætning til overekspressionsdataene (p = 1,2 E-19). En mulig forklaring kunne relateres til RNase T1 anvendt i CLIP-undersøgelser, som fortrinsvis skærer ved G-nukleotid, hvilket resulterer i udtømning af intern G i sekventering læser. Imidlertid, det kunne også være sandt, at berigelse af G hindrer binding af målstedet af miRISC-komplekset, da G også blev udtømt i miRNA-overekspressionsdata, skønt kun moderat. Et andet interessant træk er frøbindingsstabiliteten, som bestemt af den frie energi af frø/måldupleksen. Frøbindingsstabilitet blev foretrukket i miRNA−overekspressionsdata (p = 2,5 E−12), men ikke favoriseret i KLIPBINDINGSDATA (p = 5,4 E-26). Samlet set var denne funktion ikke længere signifikant, da de to datasæt blev kombineret (p = 0,26).

udvikling af en målforudsigelsesmodel med fælles målretningsfunktioner

alle miRNA-målretningsfunktioner, som anført i yderligere fil 3: Tabel S2, blev modelleret i en SUPPORTVEKTORMASKINE (SVM) ramme til algoritmeudvikling. Desuden udførte vi også rekursiv funktion eliminering (RFE) analyse for at rangordne den relative betydning af hver funktion for dens uafhængige Bidrag til model ydeevne. I denne RFE-evaluering blev alle funktionerne analyseret samlet ved hjælp af SVM. Specifikt, som det første trin, blev den mindst vigtige funktion identificeret og derefter fjernet fra modellen. Dernæst blev de resterende funktioner evalueret for at identificere den anden mindst vigtige funktion til eliminering. Denne evalueringsproces blev gentaget med en funktion elimineret fra hver iteration, indtil der kun var en funktion tilbage. RFE-tilgangen hjælper med at forstå det uafhængige bidrag fra individuelle funktioner, der er inkluderet i modellen. Tabel 3 opsummerer 20 toprangerede målretningsfunktioner ved RFE-analyse. De komplette RFE-rækker af alle funktionerne er angivet i yderligere fil 3: Tabel S2. I overensstemmelse med funktionsanalysen præsenteret i det foregående afsnit, flere frøbeskyttelsesfunktioner rangeret blandt de højeste ved RFE-analyse, med konserveret seed8A1 som den mest effektive funktion. I vores endelige SVM-model blev alle 96 funktioner, inklusive både statistisk signifikante og ikke-signifikante, integreret til opbygning af forudsigelsesmodellen, som vi kaldte MirTarget v4.0. Femdoblet krydsvalidering blev udført for at bestemme de optimale parametre for SVM-kernefunktionen ved hjælp af gitteret.py-værktøj i libsvm-pakken. En scoringsordning blev derefter udviklet til at repræsentere forudsigelsens tillid. For hvert kandidatmålsted beregner MirTarget en sandsynlighedsscore (i området 0-1) afledt af SVM-modelleringsværktøjet, libsvm, som tidligere beskrevet . Denne målstedsscore afspejler den statistiske vurdering af forudsigelsesnøjagtigheden. Baseret på individuelle målstedsscore forudsiger MirTarget, om et gen er et miRNA-mål ved at kombinere alle stedscore inden for 3′-UTR ved hjælp af følgende formel:

$$ S=100 \ gange \ venstre (1- \ underset{i=1} {\overset{n} {\Pi}}{P}_i \ højre) $$

hvor n repræsenterer antallet af kandidatmålsteder i 3′-UTR, og Pi repræsenterer sandsynlighedsscore for hvert sted som estimeret af MirTarget. De fleste målgener indeholder kun et sted, og dermed beregnes den endelige målscore ved hjælp af den samme ligning med n = 1. MirTarget-scoringer blev brugt til at rangordne den relative betydning af de forudsagte mål. På denne måde anvendte vi MirTarget til genom-dækkende forudsigelse af miRNA-mål. Alle forventede mål er præsenteret i miRDB (http://mirdb.org).

tabel 3 Oversigt over toprangerede miRNA-målretningsfunktioner identificeret ved RFE-analyse

Algoritmeevaluering med uafhængige eksperimentelle data

en almindelig bekymring i algoritmeudvikling er, at en model muligvis fungerer godt på træningsdataene, men ikke så godt på uafhængige usete data. Således ville den bedste måde at evaluere udførelsen af MirTarget være at anvende den på uafhængige eksperimentelle data. I denne undersøgelse blev heterogene eksperimentelle data analyseret til algoritmeevaluering, herunder dem, der blev genereret fra både KLIPBINDING og miRNA-nedslagseksperimenter. Udførelsen af MirTarget blev også sammenlignet med fire andre veletablerede algoritmer, herunder TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) og PITA. Disse algoritmer er blandt de mest populære miRNA mål forudsigelsesværktøjer, og transkriptom-dækkende forudsigelsesdata kan let hentes fra de respektive hjemmesider.

Validering med CLIP-sek data

Chi et al. banebrydende HITS-CLIP metode til eksperimentel identifikation af miRNA mål udskrifter . Med denne metode udførte de tværbindende immunudfældning for at trække mRNA-udskrifter ned, der var forbundet med miRISC i musens hjerne. Sekventering med høj kapacitet blev derefter Udført for at identificere disse mRNA-transkriptionsmærker, dvs.korte RNA-fragmenter beskyttet af Ago fra RNase-fordøjelse. Chi et al. demonstreret, at transkriptionsmærkerne generelt er centreret om frøbindingsstederne . Dette HITS-CLIP datasæt blev yderligere analyseret i vores undersøgelse for at identificere potentielle miRNA-målsteder. I alt blev 886 potentielle målsteder identificeret baseret på de frø-matchende sekvenser for de seks mest rigeligt udtrykte miRNA ‘ er. Som negative kontroller blev et sæt potentielle ikke-målsekvenser også valgt ud fra følgende kriterier: (1) de overlapper ikke nogen sekvensmærker identificeret i HITS-CLIP-eksperimentet, og (2) de er fra udskrifter med detekterbare ekspressionsniveauer som afsløret af mikroarrays. Fra disse ikke-målsteder blev 889 med frø-matchende sekvenser valgt som negative kontroller.

i vores Analyse blev udførelsen af fem beregningsalgoritmer, herunder MirTarget, TargetScan, DIANA-MicroT, miRanda og PITA evalueret ved at sammenligne deres evne til at skelne mål fra ikke-mål som afsløret af HITS-CLIP. ROC-analyse blev udført for at evaluere den samlede følsomhed og specificitet af forudsigelsesalgoritmerne. Som vist i Fig. 2a, MirTarget har den bedste ydelse med et område under ROC-kurven (AUC) på 0,78. DIANA-MicroT har den næstbedste ydelse (AUC = 0,73). Interessant nok blev DIANA-MicroT udviklet ved træning med KLIPBINDENDE data, mens andre offentlige algoritmer blev trænet med miRNA-overekspressionsdata. Det er således ikke overraskende, at DIANA-MicroT passer relativt godt på KLIPTESTDATA. Udover ROC-analyse konstruerede vi også pr-kurver (PR) for at evaluere nøjagtigheden af forudsigelsen. PR-kurver bruges ofte i algoritmeevaluering til at bestemme forudsigelsespræcision (andel af sande positive blandt alle forudsagte positive) i forhold til tilbagekaldelsesfrekvensen (andel af identificerede sande positive blandt alle sande positive). Som vist i Fig. 2b, MirTarget har den bedste ydelse blandt alle fem algoritmer. Især er præcisionen for MirTarget over 90%, når tilbagekaldelsesgraden er under 20%. Dette indikerer, at MirTarget er særlig nøjagtig for forudsigelser med høj tillid (dvs.høje forudsigelsesresultater).

Validering med miRNA-nedslagsdata

målforudsigelsesalgoritmer blev også evalueret i sammenhæng med målekspressionsændringer. I denne sammenlignende analyse, vi evaluerede algoritmerne ved at anvende en offentlig miRNA-nedslagsundersøgelse af Hafner et al. . I den offentlige undersøgelse undertrykte forfatterne samtidig funktionerne af 25 miRNA ‘ er af antisense-hæmmere og vurderede virkningen på mål-RNA-ekspression med mikroarrays. Gener målrettet af disse miRNA ‘ er forventedes at blive opreguleret på grund af miRNA-hæmning. I vores Analyse vurderede vi sammenhængen mellem målforudsigelsesresultater og målekspressionsregulering. Som vist i Fig. 3a, sammenlignet med andre algoritmer, har forudsigelsesscorerne beregnet af MirTarget den højeste korrelation til genekspression opregulering. Desuden vurderede vi også genekspressionsændringer for toprangerede forudsigelser af individuelle algoritmer, da forskere er særligt interesserede i målkandidater med høj tillid. Til dette formål evaluerede vi 100 toprangerede forudsagte mål pr. I overensstemmelse med korrelationsanalysen blev målene forudsagt af MirTarget opreguleret mest i gennemsnit sammenlignet med dem, der forudsiges af andre algoritmer (Fig. 3b).