RNA-seq å identifisere transkripsjoner nedregulert av miRNA overuttrykk
Det er vel etablert at bindingen av en miRNA til sin mål transkripsjon ikke nødvendigvis resultere i genuttrykk nedregulering. Faktisk har de fleste observerte miRNA-bindingshendelser, som avslørt AV CLIP-analyse, små funksjonelle konsekvenser . Dermed har fokus på miRNA-binding alene begrenset verdi for prediksjon av funksjonelle miRNA-mål, dvs.nedregulerte mål. For å lindre denne bekymringen bestemte vi direkte målet nedregulering av miRNA MED RNA-seq. Den samlede studiedesignen er oppsummert i Tilleggsfil 1: Figur S1. Som det første trinnet ble 25 mirna, sammen med et negativt kontroll-RNA, individuelt overuttrykt I HeLa-celler ved transfeksjon. Disse 25 mirna er oppført I Tabell 1. Virkningen av miRNA overekspresjon ble profilert på transkriptomnivå VED rna-seq-eksperimenter. For å kontrollere for eksperimentelle variasjoner ble hver miRNA transfisert til celler i duplikat på forskjellige dager, OG RNA-seq bibliotekskonstruksjon og sekvensering ble også utført i duplikat på forskjellige dager. Totalt ble 1, 5 milliarder leser generert for uttrykksprofilering av 52 RNA-prøver. Profileringsdataene presenteres I tilleggsfil 2: Tabell S1. Alle sekvenseringsdata ble kombinert for å identifisere genene nedregulert av miRNA overekspresjon. I vår analyse er transkripsjoner som inneholder minst ett miRNA frøbindingssted og ble nedregulert med minst 40% i begge de dupliserte forsøkene betegnet som miRNA-mål. I kontrast, transkripsjoner som inneholder minst 1 frø området, men hadde ingen uttrykksendring er betegnet som ikke-målkontroller. På denne måten ble 2240 og 4127 miRNA-mål og ikke-målkontroller identifisert av henholdsvis RNA-seq. Spesifikt var det 90 mål identifisert for hver miRNA i gjennomsnitt, og måltallene varierer betydelig blant individuelle mirna (fra 11 til 206, Tabell 1).
virkningen av miRNA frøtyper på målnedregulering
Tidligere studier har identifisert flere hovedtyper av kanoniske miRNA-målsteder, inkludert de som samsvarer med 6-mer, 7-mer eller 8-mer miRNA frøsekvenser (Tabell 2). Sekvens bevaring analyse antydet at målet områder sammenkobling til lengre miRNA frø er mer konservert på tvers av arter og dermed er mer sannsynlig å være bona fide miRNA mål . Denne hypotesen om frøtypestyrken har også blitt bekreftet ved å analysere heterogene mikroarray datasett i sammenheng med målnedregulering . Imidlertid er det nødvendig med ytterligere analyse for å nøyaktig kvantifisere bidraget til hver frøtype. Vårt nylig genererte store RNA-seq datasett, som omfatter 25 miRNAs vurdert under ensartede eksperimentelle forhold, ga en unik mulighet til kvantitativt å evaluere styrken av forskjellige miRNA frø på målet nedregulering. Spesielt evaluerte vi anrikningen av hver frøtype i nedregulerte målsteder i forhold til ikke-målsteder.
Som vist I Tabell 2 Og Fig. 1a, seed6 er den mest utbredte typen, identifisert i 86% av alle nedregulerte mål. På grunn av sin korte lengde er frø6 også tilstede ikke-spesifikt i 36% av ikke-målsteder, noe som resulterer i det laveste frøberigningsforholdet (2.40 I Tabell 2). På den andre enden er seed8A1 den mest selektive typen, med et anrikningsforhold på 6.83 og er til stede i 30% av nedregulerte mål. Blant alle 7-mer frø, seed7b og seed7A1 har lignende anrikningsforhold, som begge er høyere enn forholdet for seed7a.
En annen type 8-mer frø, seed8, har det nest høyeste anrikningsforholdet på 5,48, som er høyere enn forholdene for alle 7-mer frø. For ytterligere å skille den potensielle bidrag av terminalen basen kamp fra terminal a base i målet området, vi utelukkende fokusert på 8 miRNAs som ikke har en 5 ‘ – end U(Fig. 1b). Sammenlignet med alle 25 mirna, observerte vi tilsvarende anrikningsforhold for henholdsvis seed7b og seed8A1 fra denne undergruppen av mirna (Tabell 2). Disse resultatene tyder på at terminal a-U perfect match har liten innvirkning på målgjenkjenning, da tilstedeværelsen av terminal A i målsteder, uavhengig av sammenkoblingsstatusen til miRNA, er forbundet med målnedregulering. Interessant observert vi også et dramatisk redusert anrikningsforhold for seed8 fra denne miRNA-delmengden. Faktisk er seed8-forholdet (3,32) enda lavere enn for seed7b (Tabell 2). Dermed er en perfekt terminal kamp annet enn A-U skadelig (i stedet for å bidra) til målgjenkjenning. Basert på frøanalysen bestemte vi oss for å fokusere på 3 sterkeste frøtyper, inkludert seed8A1, seed7b og seed7A1, for målprediksjonsmodellering. Kombinert sammen ble disse 3 frøtypene identifisert i 3 ‘ – UTR av 76% av nedregulerte transkripsjoner.
Kombinere mål nedregulering og KLIPP bindende data for å identifisere felles målretting funksjoner
en felles bekymring med miRNA overuttrykk studier er at det er utfordrende å finne den eksakte miRNA bindende området innenfor målet transkripsjon. For å lindre denne bekymringen identifiserte vi kandidatmålsteder basert på tilstedeværelsen av kanoniske 7-mer eller 8-mer frøsteder. I motsetning til miRNA overuttrykk analyse, CLIP-ligation studier er i stand til å entydig identifisere miRNA bindingssteder i målet transkripsjon av kryssbinding miRNA og dens beslektede målstedet i SAMME RISC kompleks. Den funksjonelle konsekvensen av miRNA – målbinding, som identifisert AV CLIP, kan imidlertid ikke lett bestemmes. DERMED HAR BÅDE CLIP binding og miRNA overexpression metoder fordeler og ulemper, og hver metode alene viser bare ett viktig aspekt av miRNA målregulering, dvs. målbinding og funksjonell undertrykkelse, henholdsvis.
i vår analyse er vi interessert i å identifisere fellestrekk som er karakteristiske for funksjonell målregulering, inkludert både miRNA-binding og påfølgende målnedregulering. I en nylig målprediksjonsanalyse har vi samlet et miRNA – målbindende datasett avledet fra flere offentlige KLIPPLIGASJONSSTUDIER . KLIPP ligation metoden anses fordelaktig over tradisjonelle KLIPP metoder, som både miRNA og dens beslektede bindingsstedet i målet transkripsjon kan entydig identifiseres ved tverrbinding til SAMME RISC kompleks. I denne studien ble CLIP-bindingsdatasettet ytterligere kombinert med nye miRNA – overekspresjonsdata for å identifisere målrettingsfunksjoner som er felles for både miRNA-binding og målundertrykkelse. På denne måten ble 4774 målsteder og 8081 ikke-målsteder, identifisert fra BÅDE CLIP-og miRNA-overekspresjonsstudier, kombinert og evaluert i etterfølgende funksjonsanalyse.
Mål-og ikke-målsteder i det kombinerte datasettet ble sammenlignet for å identifisere funksjonene som ofte er forbundet med miRNA målregulering. Disse funksjonene er oppfort i Tilleggsfil 3: Tabell S2. Det er veletablert at miRNA målområder er evolusjonært bevart . I vår studie evaluerte vi målbevarelse ved hjelp av to komplementære tilnærminger. Først beregnet vi forskjellen i bevaringspoeng mellom frøbindingsposisjoner og flankeposisjoner, som bestemt av phyloP-score fra 100-veis multi-genomjustering . For det andre bestemte vi også om hele frøstedet (7-mer eller 8-mer) er funnet over flere arter ved ordsøk. Begge bevaringsanalysene indikerte at målstedene var svært betydelig bevart i forhold til ikke-målsteder. Faktisk, frø bevaring var blant de mest betydelig beriket funksjoner, om miRNA overuttrykk OG KLIPP bindende data ble analysert separat, eller i kombinasjon. Spesifikt var konservert seed8A1 den mest berikede i målsteder (p = 2,8 E−245 ved kryss-arter seed match og p = 7,3 E−218 ved phyloP score, henholdsvis). På den andre enden var ikke-konservert frø7a1 den mest utarmede frøtypen (henholdsvis 9,5 E−134 ved frøkamp og p = 1,3 E−138 ved phyloP score). Foruten frøvern var det mange andre funksjoner som ofte finnes i begge datasettene. For eksempel var miRNA-målsteder fortrinnsvis forbundet med kortere 3 ‘- UTR-sekvenser (p = 4.7 E-126), og de var mer sannsynlig å bli funnet mot slutten av 3’-UTR−sekvensen (p = 5.4 E−66) og vekk fra midten av lange transkripsjoner (p = 2.5 E-87).
Til tross for mange likheter, er det også tydelige forskjeller mellom miRNA overuttrykk og KLIPP bindende data. Et fremtredende eksempel er relatert TIL GC-innholdet på målstedet. Sammenlignet med ikke-målnettsteder, var GC-INNHOLDET på målnettstedet mye lavere I KLIPPBINDINGSDATA (p = 1.9E−146), men bare beskjedent lavere i miRNA overuttrykk data (p = 2.1 E-10). Nedbrytningen av c-nukleotid var moderat i begge datasettene. Dermed var den drastiske forskjellen I GC-innhold mellom de to datasettene hovedsakelig resultatet av en mye sterkere bias mot G-nukleotid i KLIPPDATAENE (p = 7,7 E-137), i motsetning til overekspressionsdataene (p = 1,2 E−19). En mulig forklaring kan være relatert Til RNase T1 brukt I KLIPPSTUDIER, som fortrinnsvis kutter Ved g-nukleotid, noe som resulterer i uttømming av intern G i sekvensering leser. Derimot, det kan også være sant at berikelse Av G hindrer målet området binding av miRISC kompleks, Som G ble også oppbrukt i miRNA overuttrykk data, men bare moderat. En annen interessant funksjon er frøbindingsstabiliteten, som bestemt av den frie energien til frø / målduplekset. Seed binding stabilitet ble favorisert i miRNA overexpression data (p = 2.5 E-12), men disfavored I CLIP binding data (p = 5.4 E-26). Samlet sett var denne funksjonen ikke lenger signifikant når de to datasettene ble kombinert (p = 0,26).
Utvikling av en målprediksjonsmodell med felles målrettingsfunksjoner
alle miRNA-målrettingsfunksjoner, som oppført I Tilleggsfil 3: Tabell S2, ble modellert i et svm-rammeverk (support vector machine) for algoritmeutvikling. Videre har vi også utført rekursiv funksjon eliminering (RFE) analyse for å rangere den relative betydningen av hver funksjon for sin uavhengige bidrag til modell ytelse. I DENNE RFE-evalueringen ble alle funksjonene analysert kollektivt ved HJELP AV SVM. Spesielt, som det første trinnet, ble den minst viktige funksjonen identifisert og senere fjernet fra modellen. Deretter ble de resterende funksjonene evaluert for å identifisere den nest minst viktige funksjonen for eliminering. Denne evalueringsprosessen ble gjentatt med en funksjon eliminert fra hver iterasjon til bare en funksjon forble. RFE-tilnærmingen bidrar til å forstå det uavhengige bidraget til individuelle funksjoner som inngår i modellen. Tabell 3 oppsummerer 20 topprangerte målrettingsfunksjoner etter RFE-analyse. De komplette RFE rekkene av alle funksjonene er oppført I Tilleggsfil 3: Tabell S2. I samsvar med funksjonen analyse presentert i forrige avsnitt, flere frø bevaring funksjoner rangert blant de høyeste VED RFE analyse, med konservert seed8A1 som den mest virkningsfulle funksjonen. I vår endelige SVM-modell ble alle 96 funksjoner, inkludert både statistisk signifikante og ikke-signifikante, integrert for å bygge prediksjonsmodellen, som vi kalte MirTarget v4. 0. Femdoblet kryssvalidering ble utført for å bestemme de optimale parametrene FOR SVM-kjernefunksjonen ved hjelp av rutenettet.py-verktøyet i libsvm-pakken. En scoring ordningen ble deretter utviklet for å representere tillit prediksjon. For hvert kandidatmålområde beregner MirTarget en sannsynlighetsscore (i området 0-1) avledet fra SVM-modelleringsverktøyet libsvm, som tidligere beskrevet . Denne målscoren gjenspeiler den statistiske vurderingen av prediksjonsnøyaktigheten. Basert på individuelle målstedspoeng, spår MirTarget om et gen er et miRNA-mål ved å kombinere alle nettstedspoengene innen 3 ‘ – UTR ved hjelp av følgende formel:
hvor n representerer antall kandidatmålsteder i 3 ‘ – UTR, og Pi representerer sannsynlighetsscore for hvert nettsted som estimert Av MirTarget. De fleste målgener inneholder bare ett sted, og dermed beregnes den endelige målscoren ved hjelp av samme ligning med n = 1. MirTarget score ble brukt til å rangere den relative betydningen av de spådde mål. På denne måten, vi ansatt MirTarget for genom-wide prediksjon av miRNA mål. Alle forventede mål presenteres i miRDB (http://mirdb.org).
Algoritme evaluering med uavhengige eksperimentelle data
en felles bekymring i algoritmen utvikling er at en modell kan fungere godt på trening data, men ikke så godt på uavhengige usett data. Dermed vil Den beste måten å evaluere ytelsen Til MirTarget være å bruke den på uavhengige eksperimentelle data. I denne studien, heterogene eksperimentelle data ble analysert for algoritme evaluering, inkludert de som genereres fra BÅDE CLIP binding og miRNA knockdown eksperimenter. Ytelsen Til MirTarget ble også sammenlignet med fire andre veletablerte algoritmer, inkludert TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) og PITA. Disse algoritmene er blant de mest populære miRNA mål prediksjon verktøy, og transcriptome-wide prediksjon data er lett nedlastbare fra de respektive nettsteder.
Validering med CLIP-seq data
Chi et al. pionerer HITS-CLIP-metoden for eksperimentell identifisering av miRNA – målutskrifter . Med denne metoden utførte de tverrbindende immunoprecipitasjon for å trekke ned mRNA-transkripsjoner som var forbundet med miRISC i musens hjerne. Høy gjennomstrømmingssekvensering ble deretter utført for å identifisere disse mRNA-transkriptkodene, dvs. korte RNA-fragmenter beskyttet Av Ago fra rnase-fordøyelse. Chi et al. demonstrert at transkripsjonskodene generelt er sentrert på frøbindingsstedene . DETTE TREFF-KLIPP datasettet ble videre analysert i vår studie for å identifisere potensielle miRNA målsteder. Til sammen ble 886 potensielle målsteder identifisert basert på frø-samsvarende sekvenser for de seks mest uttrykte miRNAs. Som negative kontroller ble et sett med potensielle ikke-målsekvenser også valgt ut fra følgende kriterier: (1) de overlapper ikke med noen sekvensmerker identifisert i TREFFKLIPSEKSPERIMENTET, og (2) de er fra transkripsjoner med påvisbare uttrykksnivåer som avslørt av mikroarrays. Fra disse ikke-målstedene ble 889 med frø-samsvarende sekvenser valgt som negative kontroller.
i vår analyse ble ytelsen til fem beregningsalgoritmer, inkludert MirTarget, TargetScan, DIANA-MicroT, miRanda og PITA, evaluert ved å sammenligne deres evne til å skille mål fra ikke-mål som avslørt AV HITS-CLIP. ROC-analyse ble utført for å evaluere den generelle følsomheten og spesifisiteten til prediksjonsalgoritmene. Som vist I Fig. 2a, MirTarget har den beste ytelsen, med et område under ROC-kurven (AUC) på 0,78. DIANA-MicroT har den nest beste ytelsen(AUC = 0,73). INTERESSANT NOK BLE DIANA-MicroT utviklet ved å trene MED KLIPPBINDINGSDATA, mens andre offentlige algoritmer ble trent med miRNA overekspressionsdata. DET er derfor ikke overraskende AT DIANA-MicroT passer relativt godt på KLIPPETESTDATA. Ved SIDEN AV ROC-analyse konstruerte VI også precision-recall (PR) – kurver for å evaluere nøyaktigheten av prediksjonen. PR-kurver brukes ofte i algoritmevaluering for å bestemme prediksjonspresisjon (andel av sanne positive blant alle forventede positive) i forhold til tilbakekallingsraten (andel av identifiserte sanne positive blant alle sanne positive). Som vist I Fig. 2b, MirTarget har den beste ytelsen blant alle fem algoritmer. Spesielt er presisjonen For MirTarget over 90% når tilbakekallingsraten er under 20%. Dette indikerer At MirTarget er spesielt nøyaktig for høy konfidensspådommer(dvs. høye prediksjonspoeng).
Validering med miRNA knockdown data
Mål prediksjon algoritmer ble også evaluert i sammenheng med målet uttrykk endringer. I denne komparative analyse, vi evaluert algoritmer ved å ansette en offentlig miRNA knockdown studie Av Hafner et al. . I den offentlige studien undertrykte forfatterne samtidig funksjonene til 25 miRNAs av antisenshemmere og evaluerte virkningen på mål-RNA-uttrykk med mikroarrays. Gener målrettet av disse mirnaene ble forventet å bli oppregulert på grunn av miRNA-hemming. I vår analyse evaluerte vi korrelasjonen mellom målprediksjonspoeng og måluttrykksregulering. Som vist I Fig. 3a, sammenlignet med andre algoritmer, prediksjon score beregnet Av MirTarget har den høyeste korrelasjon til genuttrykk oppregulering. Videre vurderte vi også genuttrykksendringer for topprangerte spådommer av individuelle algoritmer, da forskere er spesielt interessert i høy konfidensmålkandidater. Til dette formål evaluerte vi 100 topprangerte forventede mål per miRNA i gjennomsnitt av hver algoritme. I samsvar med korrelasjonsanalysen ble målene spådd Av MirTarget oppregulert mest i gjennomsnitt sammenlignet med de som ble spådd av andre algoritmer (Fig. 3b).