Prediktion av funktionella mikroRNA-mål genom integrativ modellering av mikroRNA-bindning och måluttrycksdata

RNA-seq för att identifiera transkript nedreglerade av miRNA-överuttryck

det är väl etablerat att bindningen av ett miRNA till dess måluttryck inte nödvändigtvis resulterar i nedreglering av genuttryck. Faktum är att de flesta observerade miRNA-bindande händelserna, som avslöjas av CLIP-analys, har små funktionella konsekvenser . Således har fokus på miRNA-bindning enbart begränsat värde för förutsägelsen av funktionella miRNA-mål, dvs nedreglerade mål. För att lindra denna oro bestämde vi direkt målet nedreglering av miRNA med RNA-seq. Den övergripande studiedesignen sammanfattas i ytterligare fil 1: figur S1. Som det första steget överuttrycktes 25 Mirna, tillsammans med ett negativt kontroll-RNA, individuellt i HeLa-celler genom transfektion. Dessa 25 Mirna listas i Tabell 1. Effekten av miRNA-överuttryck profilerades på transkriptomnivå genom RNA-seq-experiment. För att kontrollera för experimentella variationer transfekterades varje miRNA i celler i duplikat på olika dagar, och RNA-seq-bibliotekskonstruktion och sekvenseringskörningar utfördes också i duplikat på olika dagar. Totalt genererades 1,5 miljarder läsningar för uttrycksprofilering av 52 RNA-prover. Profileringsdata presenteras i ytterligare Fil 2: Tabell S1. Alla sekvenseringsdata kombinerades för att identifiera generna nedreglerade av miRNA-överuttryck. I vår analys betecknas transkript som innehåller minst en miRNA-fröbindningsplats och nedreglerades med minst 40% i båda de duplicerade experimenten som miRNA-mål. Däremot betecknas transkript som innehåller minst 1 fröplats men inte hade någon uttrycksändring som icke-målkontroller. På detta sätt identifierades 2240 och 4127 miRNA-mål och icke-målkontroller med RNA-seq. Specifikt identifierades 90 mål för varje miRNA i genomsnitt, och målnumren varierar avsevärt mellan enskilda Mirna (från 11 till 206, Tabell 1).

Tabell 1 tjugofem Mirna analyserade i RNA-seq-experimenten

effekten av miRNA-frötyper på nedreglering av mål

tidigare studier har identifierat flera huvudtyper av kanoniska miRNA-målplatser, inklusive de som matchar 6-mer, 7-mer eller 8-mer miRNA-frösekvenser (Tabell 2). Sekvensbevarande analys föreslog att målplatser som parar till längre miRNA-frön är mer konserverade över arter och därmed är mer benägna att vara bona fide miRNA-mål . Denna hypotes om frötypstyrkan har också bekräftats genom att analysera heterogena mikroarraydataset i samband med målreglering . Ytterligare analys behövs dock för att noggrant kvantifiera bidraget från varje frötyp. Vårt nyligen genererade storskaliga RNA-seq-dataset, som omfattar 25 Mirna bedömda under enhetliga experimentella förhållanden, gav en unik möjlighet att kvantitativt utvärdera styrkan hos olika miRNA-frön på målreglering. Specifikt utvärderade vi anrikningen av varje frötyp i nedreglerade målplatser jämfört med icke-målplatser.

Tabell 2 anrikning av miRNA-frömatchning på målplatserna

såsom visas i Tabell 2 och Fig. 1a, seed6 är den vanligaste typen, identifierad i 86% av alla nedreglerade mål. På grund av sin korta längd förekommer emellertid frö6 också icke-specifikt i 36% av icke-målställen, vilket resulterar i det lägsta fröanrikningsförhållandet (2,40 i Tabell 2). I den andra änden är seed8A1 den mest selektiva typen, med ett anrikningsförhållande på 6.83 och är närvarande i 30% av nedreglerade mål. Bland alla 7-mer frön, seed7b och seed7A1 har liknande anrikningsförhållanden, vilka båda är högre än förhållandet för seed7a.

en annan typ av 8-mer-frö, seed8, har det näst högsta anrikningsförhållandet på 5,48, vilket är högre än förhållandena för alla 7-mer-frön. För att ytterligare skilja det potentiella bidraget från terminalbasmatchningen från terminal A-basen på målplatsen fokuserade vi uteslutande på 8 miRNA som inte har en 5′-end U (Fig. 1b). Jämfört med alla 25 Mirna observerade vi liknande anrikningsförhållanden för seed7b respektive seed8A1 från denna delmängd av miRNA (Tabell 2). Dessa resultat tyder på att terminal a-u perfect match har liten inverkan på måligenkänning, eftersom närvaron av terminal A på målplatser, oavsett dess parningsstatus till miRNA, är associerad med målreglering. Intressant nog observerade vi också ett dramatiskt minskat anrikningsförhållande för seed8 från denna miRNA-delmängd. Faktum är att seed8-förhållandet (3.32) är ännu lägre än för seed7b (Tabell 2). Således är en annan perfekt terminalmatch än A-U skadlig (snarare än att bidra) till måligenkänning. Baserat på fröanalysen bestämde vi oss för att fokusera på 3 starkaste frötyper, inklusive seed8A1, seed7b och seed7A1, för målprognosmodellering. Kombinerade tillsammans identifierades dessa 3 frötyper i 3 ’ – UTR av 76% av nedreglerade transkript.

kombinera målnedreglering och KLIPPBINDNINGSDATA för att identifiera vanliga målinriktningsfunktioner

ett vanligt problem med miRNA-överuttrycksstudier är att det är utmanande att lokalisera den exakta miRNA-bindningsplatsen inom målutskriften. För att lindra denna oro identifierade vi kandidatmålplatser baserat på närvaron av kanoniska 7-mer eller 8-mer fröplatser. I motsats till miRNA-överuttrycksanalys kan CLIP-ligationsstudier entydigt identifiera miRNA-bindningsställen i målavskriften genom tvärbindning av miRNA och dess besläktade målplats i samma RISC-komplex. Den funktionella konsekvensen av miRNA-målbindning, som identifieras av CLIP, kan emellertid inte lätt bestämmas. Således har både KLIPPBINDANDE och miRNA-överuttrycksmetoder fördelar och nackdelar, och varje metod visar bara en viktig aspekt av miRNA-målreglering, dvs målbindning respektive funktionell undertryckning.

i vår analys är vi intresserade av att identifiera gemensamma funktioner som är karakteristiska för funktionell målreglering, inklusive både miRNA-bindning och efterföljande målreglering. I en ny analys av målprognoser har vi sammanställt en miRNA-målbindningsdataset härledd från flera offentliga KLIPPLIGATIONSSTUDIER . KLIPPLIGERINGSMETODEN anses vara fördelaktig jämfört med traditionella KLIPPMETODER, eftersom både miRNA och dess besläktade bindningsställe i målavskriften entydigt kan identifieras genom tvärbindning till samma RISC-komplex. I den föreliggande studien kombinerades CLIP binding dataset ytterligare med nya miRNA-överuttrycksdata för att identifiera inriktningsfunktioner som är gemensamma för både miRNA-bindning och målundertryckning. På detta sätt kombinerades 4774 målplatser och 8081 icke-målplatser, identifierade från både CLIP-och miRNA-överuttrycksstudier, och utvärderades i efterföljande funktionsanalys.

mål-och icke-målplatser i den kombinerade datauppsättningen jämfördes för att identifiera de funktioner som vanligtvis är associerade med miRNA-målreglering. Dessa funktioner listas i ytterligare fil 3: Tabell S2. Det är väletablerat att miRNA-målplatser bevaras evolutionärt . I vår studie utvärderade vi målbevarande med hjälp av två kompletterande metoder. Först beräknade vi skillnaden i bevarandepoäng mellan fröbindningspositioner och flankeringspositioner, som bestäms av phyloP-poäng från 100-vägs multi-genominriktning . För det andra bestämde vi också om hela fröplatsen (7-mer eller 8-mer) finns över flera arter genom ordsökning. Båda bevarandeanalyserna visade att målplatser var mycket signifikant bevarade jämfört med icke-målplatser. I själva verket var fröbevarande bland de mest väsentligt berikade funktionerna, oavsett om miRNA-överuttryck och KLIPPBINDNINGSDATA analyserades separat eller i kombination. Specifikt var konserverat frö8a1 det mest berikade på målplatser (p = 2,8 E−245 med frömatchning mellan arter och p = 7,3 e-218 med phyloP−poäng). I andra änden var icke-konserverat frö7a1 den mest utarmade frötypen (9,5 E−134 av frömatch och p = 1,3 e−138 av phyloP-poäng). Förutom fröbevarande, det fanns många andra funktioner som vanligtvis finns i båda datamängderna. Till exempel var miRNA-målplatser företrädesvis associerade med kortare 3’−UTR-sekvenser (p = 4,7 E−126), och de var mer benägna att hittas mot slutet av 3’−UTR-sekvensen (p = 5,4 E-66) och bort från mitten av långa transkript (p = 2,5 E-87).

trots många likheter finns det också tydliga skillnader mellan miRNA-överuttryck och KLIPPBINDNINGSDATA. Ett framträdande exempel är relaterat till GC-innehållet på målplatsen. Jämfört med icke-målplatser var målplatsens GC-innehåll mycket lägre i KLIPPBINDNINGSDATA (p = 1.9E-146), men endast blygsamt lägre i miRNA−överuttrycksdata (p = 2.1 E-10). Utarmningen av C-nukleotid var måttlig i båda datamängderna. Således var den drastiska skillnaden i gc-innehåll mellan de två datamängderna huvudsakligen resultatet av en mycket starkare förspänning mot G−nukleotid i KLIPPDATA (p = 7.7 E−137), i motsats till överuttrycksdata (p = 1.2 E-19). En möjlig förklaring kan relateras till RNAs T1 som används i CLIP-studier, som företrädesvis skär vid g-nukleotid, vilket resulterar i utarmning av inre G i sekvenseringsläsningar. Det kan emellertid också vara sant att anrikning av G hindrar målplatsbindning av miRISC-komplexet, eftersom G också utarmades i miRNA-överuttrycksdata, även om det bara var måttligt. En annan intressant egenskap är fröbindningsstabiliteten, som bestäms av fröets/målduplexens fria energi. Fröbindningsstabilitet gynnades i miRNA-överuttrycksdata (p = 2,5 E−12), men gynnades i KLIPPBINDNINGSDATA (p = 5,4 E−26). Sammantaget var denna funktion inte längre signifikant när de två datamängderna kombinerades (p = 0.26).

utveckla en målprediktionsmodell med vanliga inriktningsfunktioner

alla miRNA-inriktningsfunktioner, som anges i ytterligare fil 3: Tabell S2, modellerades i ett SVM-ramverk (support vector machine) för algoritmutveckling. Dessutom utförde vi också rekursiv funktion eliminering (RFE) analys för att rangordna den relativa betydelsen av varje funktion för dess oberoende bidrag till modellprestanda. I denna RFE-utvärdering analyserades alla funktioner kollektivt med SVM. Specifikt, som det första steget, identifierades den minst viktiga funktionen och avlägsnades därefter från modellen. Därefter utvärderades de återstående funktionerna för att identifiera den näst minst viktiga funktionen för eliminering. Denna utvärderingsprocess upprepades med en funktion eliminerad från varje iteration tills endast en funktion återstod. RFE-metoden hjälper till att förstå det oberoende bidraget från enskilda funktioner som ingår i modellen. Tabell 3 sammanfattar 20 topprankade inriktningsfunktioner genom RFE-analys. De fullständiga RFE-rankningarna för alla funktioner listas i ytterligare fil 3: Tabell S2. I överensstämmelse med funktionsanalysen som presenterades i föregående avsnitt rankas flera fröbevarande funktioner bland de högsta av RFE-analys, med konserverad frö8a1 som den mest effektfulla funktionen. I vår slutliga SVM-modell integrerades alla 96 funktioner, inklusive både statistiskt signifikanta och icke-signifikanta, för att bygga prediktionsmodellen, som vi kallade MirTarget v4.0. Femfaldig korsvalidering utfördes för att bestämma de optimala parametrarna för SVM-kärnfunktionen med hjälp av rutnätet.py verktyg i libsvm paketet. Ett poängschema utvecklades sedan för att representera förutsägelsens förtroende. För varje kandidatmålplats beräknar MirTarget en sannolikhetspoäng (i intervallet 0-1) härledd från SVM-modelleringsverktyget, libsvm, som tidigare beskrivits . Denna målplatspoäng återspeglar den statistiska bedömningen av förutsägelsens noggrannhet. Baserat på individuella målplatsresultat förutspår MirTarget om en gen är ett miRNA-mål genom att kombinera alla platspoäng inom 3 ’ – UTR med följande formel:

$$ S = 100 \gånger \ vänster (1 – \underset{i=1} {\overset{n} {\Pi}}{P}_i \ höger) $$

där n representerar antalet kandidatmålplatser i 3 ’ – UTR, och Pi representerar sannolikhetspoäng för varje plats som uppskattas av MirTarget. De flesta målgener innehåller bara en plats, och sålunda beräknas den slutliga målpoängen med samma ekvation med n = 1. MirTarget-poäng användes för att rangordna den relativa betydelsen av de förutsagda målen. På detta sätt använde vi MirTarget för genomomfattande förutsägelse av miRNA-mål. Alla förutsagda mål presenteras i miRDB (http://mirdb.org).

tabell 3 Sammanfattning av Topprankade miRNA-inriktningsfunktioner identifierade genom RFE-analys

Algoritmutvärdering med oberoende experimentella data

ett vanligt problem i algoritmutveckling är att en modell kan fungera bra på träningsdata, men inte lika bra på oberoende osynliga data. Således skulle det bästa sättet att utvärdera Mirtargets prestanda vara att tillämpa det på oberoende experimentella data. I föreliggande studie analyserades heterogena experimentella data för algoritmutvärdering, inklusive de som genererades från både KLIPPBINDNING och miRNA knockdown-experiment. Mirtargets prestanda jämfördes också med fyra andra väletablerade algoritmer, inklusive TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) och PITA. Dessa algoritmer är bland de mest populära miRNA – målförutsägningsverktygen, och transkriptomomfattande prediktionsdata kan enkelt laddas ner från respektive webbplatser.

validering med CLIP-seq-data

Chi et al. pionjär i HITS-CLIP-metoden för experimentell identifiering av miRNA-målavskrifter . Med denna metod utförde de tvärbindande immunutfällning för att dra ner mRNA-transkript som var associerade med miRISC i mushjärnan. Sekvensering med hög genomströmning utfördes sedan för att identifiera dessa mRNA-transkripttaggar, dvs korta RNA-fragment skyddade av sedan från RNAs-matsmältning. Chi et al. visat att i allmänhet är transkriptionstaggarna centrerade på fröbindningsställena . Denna HITS-CLIP dataset analyserades ytterligare i vår studie för att identifiera potentiella miRNA-målplatser. Sammantaget identifierades 886 potentiella målplatser baserat på frömatchningssekvenserna för de sex mest rikligt uttryckta Mirna. Som negativa kontroller valdes också en uppsättning potentiella icke-målsekvenser baserat på följande kriterier: (1) de överlappar inte med några sekvenstaggar identifierade i HITS-CLIP-experimentet och (2) de är från transkript med detekterbara uttrycksnivåer som avslöjas av mikroarrayer. Från dessa icke-målplatser valdes 889 med frömatchande sekvenser som negativa kontroller.

i vår analys utvärderades prestanda för fem beräkningsalgoritmer, inklusive MirTarget, TargetScan, DIANA-MicroT, miRanda och PITA, genom att jämföra deras förmåga att skilja mål från icke-mål som avslöjats av HITS-CLIP. ROC-analys utfördes för att utvärdera den övergripande känsligheten och specificiteten hos prediktionsalgoritmerna. Såsom visas i Fig. 2a, MirTarget har den bästa prestandan, med ett område under ROC-kurvan (AUC) på 0,78. DIANA-MicroT har den näst bästa prestandan (AUC = 0, 73). Intressant nog utvecklades DIANA-MicroT genom träning med KLIPPBINDNINGSDATA, medan andra offentliga algoritmer utbildades med miRNA-överuttrycksdata. Således är det inte förvånande att DIANA-MicroT passar relativt bra på KLIPPTESTDATA. Förutom ROC-analys konstruerade vi också PR-kurvor (precision-recall) för att utvärdera noggrannheten i förutsägelsen. PR-kurvor används ofta i algoritmutvärdering för att bestämma prediktionsprecision (andel sanna positiva bland alla förutsagda positiva) i förhållande till återkallningshastigheten (andel identifierade sanna positiva bland alla sanna positiva). Såsom visas i Fig. 2b, MirTarget har den bästa prestandan bland alla fem algoritmer. I synnerhet är precisionen för MirTarget över 90% när återkallningsgraden är under 20%. Detta indikerar att MirTarget är särskilt exakt för förutsägelser med hög förtroende (dvs. höga förutsägelsepoäng).

validering med miRNA knockdown-data

målprediktionsalgoritmer utvärderades också i samband med måluttrycksförändringar. I denna jämförande analys utvärderade vi algoritmerna genom att använda en offentlig miRNA knockdown-studie av Hafner et al. . I den offentliga studien undertryckte författarna samtidigt funktionerna hos 25 Mirna av antisenshämmare och utvärderade påverkan på mål-RNA-uttryck med mikroarrayer. Gener riktade av dessa Mirna förväntades uppregleras på grund av miRNA-hämning. I vår analys utvärderade vi korrelationen mellan målprediktionspoäng och uppreglering av måluttryck. Såsom visas i Fig. 3a, jämfört med andra algoritmer, har förutsägelsepoängen beräknade av MirTarget den högsta korrelationen med uppreglering av genuttryck. Dessutom bedömde vi också genuttrycksförändringar för topprankade förutsägelser av enskilda algoritmer, eftersom forskare är särskilt intresserade av högförtroende målkandidater. För detta ändamål utvärderade vi 100 topprankade förutspådda mål per miRNA i genomsnitt av varje algoritm. I överensstämmelse med korrelationsanalysen uppreglerades de mål som mirtarget förutspådde mest i genomsnitt jämfört med de som förutsågs av andra algoritmer (Fig. 3b).