Voorspelling van functionele microRNA doelen door de integrale modellering van microRNA bindend en doel expressie data

RNA-seq te identificeren afschriften downregulated door miRNA overexpressie

Het is bekend dat de binding van een miRNA naar het doel transcript niet noodzakelijk te resulteren in gen expressie downregulatie. In feite, hebben de meeste waargenomen miRNA bindende gebeurtenissen, zoals geopenbaard door KLEMANALYSE, weinig functionele gevolgen . Aldus, het concentreren op miRNA band alleen heeft beperkte waarde voor de voorspelling van functionele Mirna doelstellingen, d.w.z., downregulated doelstellingen. Om deze zorg te verlichten, bepaalden wij direct het doel downregulation door miRNA met RNA-seq. De algemene opzet van het onderzoek is samengevat in aanvullend dossier 1: Figuur S1. Als eerste stap, werden 25 miRNAs, samen met negatief controlerna, individueel overexpressed in HeLa cellen door transfectie. Deze 25 mirna ‘ s zijn vermeld in Tabel 1. Het effect van miRNA overexpressie werd geprofileerd op transcriptome niveau door RNA-seq experimenten. Om voor experimentele variaties te controleren, werd elke miRNA in cellen in duplicaat op verschillende dagen getransfecteerd, en de bibliotheekbouw van RNA-seq en het rangschikken van looppas werden ook uitgevoerd in duplicaat op verschillende dagen. In totaal, werden 1.5 miljard leest geproduceerd voor uitdrukking die van 52 De steekproeven van RNA profileren. De profileringsgegevens worden weergegeven in aanvullend bestand 2: Tabel S1. Alle het rangschikken gegevens werden gecombineerd om de genen te identificeren downregulated door miRNA overexpressie. In onze Analyse, worden de afschriften die minstens één Mirna zaadbindingsplaats bevatten en door minstens 40% in beide gedupliceerde experimenten downregulated aangewezen als mirnadoelstellingen. In tegenstelling, transcripten die ten minste 1 zaadplaats bevatten maar geen uitdrukkingsverandering hadden worden aangewezen als niet-doelcontroles. Op deze manier, werden 2240 en 4127 Mirna doelen en niet-Doel controles geÃ dentificeerd door RNA-seq, respectievelijk. Specifiek, waren er 90 die doelstellingen voor elke miRNA gemiddeld worden geÃ dentificeerd, en de doelaantallen variëren aanzienlijk onder individuele miRNAs (die zich van 11 tot 206, Tabel 1 uitstrekken).

Lijst 1 vijfentwintig miRNAs die in de experimenten van RNA-seq worden geanalyseerd

de impact van miRNA-zaadsoorten op downregulatie

in eerdere studies zijn verschillende belangrijke typen canonieke Mirna-doelplaatsen geïdentificeerd, waaronder die welke overeenkomen met de miRNA-zaadsequenties van 6-mer, 7-mer of 8-mer (Tabel 2). De analyse van het opeenvolgingsbehoud stelde voor dat de doelplaatsen die aan langere mirnazaden in paren rangschikken meer over species worden behouden en zo eerder bonafide mirnadoelstellingen zullen zijn . Deze hypothese over de zaadtype sterkte is ook bevestigd door het analyseren van heterogene microarray datasets in de context van target downregulation . Er is echter verdere analyse nodig om de bijdrage van elk zaadtype nauwkeurig te kwantificeren. Onze nieuw geproduceerde dataset van RNA-seq op grote schaal, die 25 miRNAs omvatten die onder eenvormige experimentele voorwaarden worden beoordeeld, verschafte een unieke kans om de sterkte van verschillende mirnazaden op doel downregulation kwantitatief te evalueren. In het bijzonder evalueerden we de verrijking van elk zaadtype in downregulated target sites in vergelijking met non-target sites.

Tabel 2 verrijking van miRNA seed match in de doelgebieden

zoals weergegeven in Tabel 2 en Fig. 1a, seed6 is het meest voorkomende type, vastgesteld in 86% van alle downregulated targets. Vanwege de korte lengte is zaad6 echter ook niet specifiek aanwezig in 36% van de niet-doellocaties, wat resulteert in de laagste zaadverrijkingsratio (2,40 in Tabel 2). Aan de andere kant is zaad8a1 het meest selectieve type, met een verrijkingsverhouding van 6.83 en is aanwezig in 30% van de afgezwakte doelstellingen. Van alle 7-mer-zaden hebben seed7b en seed7A1 vergelijkbare verrijkingsratio ‘ s, die beide hoger zijn dan de verhouding voor seed7a.

een ander type 8-mer zaad, zaad8, heeft de op een na hoogste verrijkingsratio van 5,48, wat hoger is dan de verhouding voor alle 7-Mer zaad. Om de potentiële bijdrage van de terminal base match verder te onderscheiden van terminal A base in de doellocatie, hebben we ons uitsluitend gericht op 8 mirna’s die geen 5′ -end U hebben (Fig. 1 ter). Wanneer vergeleken met alle 25 miRNAs, merkten wij gelijkaardige verrijkingsratio ‘ s voor seed7b en seed8A1, respectievelijk, van deze subset van miRNAs (Tabel 2). Deze resultaten suggereren dat de eind a-u perfecte overeenkomst weinig effect op doelherkenning heeft, aangezien de aanwezigheid van eind A in doelplaatsen, ongeacht zijn het in paren rangschikken status aan miRNA, met doel downregulation wordt geassocieerd. Interessant, merkten wij ook een dramatisch verminderde verrijkingsratio voor zaad8 van deze miRNA subset op. In feite is de seed8-ratio (3,32) zelfs lager dan die voor seed7b (Tabel 2). Dus, een perfecte terminal match anders dan A-U is schadelijk (in plaats van bij te dragen) aan doelherkenning. Op basis van de zaadanalyse hebben we besloten ons te richten op 3 sterkste zaadsoorten, waaronder seed8A1, seed7b en seed7A1, voor het modelleren van doelvoorspellingen. Gecombineerd samen, werden deze 3 zaadtypes geïdentificeerd in de 3 ‘ – UTR van 76% van downregulated transcripts.

het combineren van downregulation-en CLIPBINDINGSGEGEVENS om gemeenschappelijke targeting-kenmerken te identificeren

een gemeenschappelijke zorg bij miRNA-overexpressiestudies is dat het moeilijk is om de exacte Mirna-bindingsplaats in het transcript van het doel te vinden. Om deze bezorgdheid weg te nemen, hebben we kandidaat-doellocaties geïdentificeerd op basis van de aanwezigheid van canonieke 7-Mer-of 8-Mer-zaadlocaties. In tegenstelling tot miRNA-overexpressieanalyse, kunnen de CLIP-ligationstudies Mirna bindende plaatsen in het doeltranscript ondubbelzinnig identificeren door miRNA en zijn verwante doelplaats in het zelfde complexe RISC te crosslinking. Nochtans, kan het functionele gevolg van miRNA-doelband, zoals geïdentificeerd door klem, niet gemakkelijk worden bepaald. Aldus, hebben zowel de KLEMBINDENDE als de overexpressiemethoden van miRNA voors en tegens, en toont elke methode alleen slechts één belangrijk aspect van miRNA-doelverordening, d.w.z., doelbindende en functionele afschaffing, respectievelijk.

in onze Analyse zijn we geÃ nteresseerd in het identificeren van gemeenschappelijke kenmerken die kenmerkend zijn voor functionele doelregulering, inclusief zowel miRNA-bindende als daaropvolgende target downregulatie. In een recente analyse van de doelvoorspelling, hebben wij een miRNA doel bindende dataset samengesteld die van veelvoudige openbare CLIP ligation studies wordt afgeleid . De clip ligation methode wordt beschouwd als voordelig ten opzichte van traditionele CLIP methoden, als zowel de miRNA en zijn verwante bindingsplaats in het doel transcript ondubbelzinnig kan worden geïdentificeerd door crosslinking naar hetzelfde RISC complex. In de huidige studie, werd de dataset van de klemband verder gecombineerd met nieuwe miRNA-overexpressiegegevens om doeleigenschappen te identificeren die aan zowel miRNA-band als doelonderdrukking gemeenschappelijk zijn. Op deze manier, werden 4774 doelplaatsen en 8081 niet-doelplaatsen, geÃ dentificeerd van zowel clip als miRNA overexpressiestudies, gecombineerd en geëvalueerd in latere eigenschappenanalyse.

Target-en niet-target-sites in de gecombineerde dataset werden vergeleken om de functies te identificeren die gewoonlijk geassocieerd worden met Mirna-targetregulatie. Deze functies worden vermeld in aanvullend bestand 3: Tabel S2. Het is goed-gevestigd dat miRNA doelplaatsen evolutionarily worden behouden . In ons onderzoek hebben we doelbehoud geëvalueerd aan de hand van twee complementaire benaderingen. Eerst berekenden we het verschil in behoudsscores tussen zaadbindingsposities en flankerende posities, zoals bepaald door phyloP-scores uit 100-weg multi-genoomuitlijning . Ten tweede hebben we ook bepaald of de hele zaadplaats (7-Mer of 8-mer) wordt gevonden over meerdere soorten door woord zoeken. Uit beide instandhoudingsanalyses bleek dat de doelgebieden in vergelijking met de niet-doelgebieden zeer aanzienlijk werden geconserveerd. In feite, was het behoud van het zaad één van de beduidend verrijkte Eigenschappen, of miRNA overexpressie en de gegevens van de klemband afzonderlijk, of in combinatie werden geanalyseerd. In het bijzonder was het geconserveerde zaad8a1 het meest verrijkt in doelplaatsen (p = 2,8 E-245 door kruissoort zaad match en P = 7,3 e−218 door phyloP score, respectievelijk). Aan de andere kant was niet-geconserveerd zaad7a1 het meest uitgeputte zaadtype (respectievelijk 9,5 E−134 door seed match en p = 1,3 E−138 door phyloP score). Naast het behoud van zaden, waren er veel andere functies die vaak worden gevonden in beide datasets. Bijvoorbeeld, werden de plaatsen van het mirnadoel bij voorkeur geassocieerd met kortere 3′-UTR opeenvolgingen (p = 4.7 E−126), en zij eerder om tegen het eind van de 3′-UTR opeenvolging (p = 5.4 E−66) en vanaf het centrum van lange afschriften (p = 2.5 E−87) worden gevonden.

ondanks veel overeenkomsten zijn er ook duidelijke verschillen tussen miRNA-overexpressie en CLIPBINDINGSGEGEVENS. Een prominent voorbeeld is gerelateerd aan de GC-inhoud van de doelsite. In vergelijking met niet-doelsites was de GC-inhoud van de doelsite veel lager in CLIPBINDINGSGEGEVENS (p = 1.9E-146), maar slechts bescheiden lager in miRNA−overexpressiegegevens (p = 2,1 E-10). De depletie van C-nucleotide was matig in beide datasets. Het drastische verschil in GC inhoud tussen de twee datasets was voornamelijk het resultaat van een veel sterkere bias tegen g nucleotide in de CLIP data (p = 7.7 E−137), in tegenstelling tot de overexpressie data (p = 1.2 E−19). Één mogelijke verklaring zou aan RNase T1 kunnen worden gerelateerd die in KLEMSTUDIES wordt gebruikt, die bij voorkeur bij G-nucleotide snijdt, resulterend in de uitputting van intern g in het rangschikken leest. Nochtans, zou het ook waar kunnen zijn dat de verrijking van G doelplaatsband door complex miRISC belemmert, aangezien g ook in miRNA-overexpressiegegevens werd uitgeput, hoewel slechts matig. Een ander interessant kenmerk is de zaadbindende stabiliteit, zoals bepaald door de vrije energie van de zaad/doel duplex. De stabiliteit van de zaadbinding werd begunstigd in miRNA−overexpressiegegevens (p = 2,5 E−12), maar niet in CLIP-bindgegevens (p = 5,4 E-26). Over het algemeen was deze functie niet langer significant toen de twee datasets werden gecombineerd (p = 0,26).

het ontwikkelen van een doelvoorspellingsmodel met gemeenschappelijke targeting-functies

alle miRNA-targeting-functies, zoals vermeld in aanvullend bestand 3: Tabel S2, werden gemodelleerd in een support vector machine (SVM) framework voor algoritmeontwikkeling. Verder hebben we ook recursieve feature elimination (RFE) analyse uitgevoerd om het relatieve belang van elke feature voor zijn onafhankelijke bijdrage aan modelprestaties te rangschikken. In deze RFE-evaluatie werden alle functies gezamenlijk geanalyseerd met SVM. In het bijzonder werd als eerste stap het minst belangrijke kenmerk geïdentificeerd en vervolgens uit het model verwijderd. Vervolgens werden de resterende kenmerken geëvalueerd om het op een na minst belangrijke kenmerk voor eliminatie te identificeren. Dit evaluatieproces werd herhaald met één functie verwijderd uit elke iteratie totdat er slechts één functie overbleef. De RFE-benadering helpt om de onafhankelijke bijdrage van individuele functies die in het model zijn opgenomen te begrijpen. Tabel 3 geeft een samenvatting van 20 top-ranking targeting functies door RFE-analyse. De volledige RFE rangen van alle functies worden vermeld in aanvullend bestand 3: Tabel S2. In overeenstemming met de feature-analyse die in de vorige paragraaf werd gepresenteerd, behoorden meerdere eigenschappen voor zaadbehoud tot de hoogste door RFE-analyse, met behouden zaad8a1 als de meest impactvolle eigenschap. In ons laatste SVM-model werden alle 96 functies, inclusief zowel statistisch significante als niet-significante, geïntegreerd voor het bouwen van het voorspellingsmodel, dat we MirTarget v4.0 noemden. Vijfvoudige kruisvalidatie werd uitgevoerd om de optimale parameters voor de SVM kernelfunctie te bepalen met behulp van het raster.py gereedschap in het libsvm pakket. Vervolgens werd een scoringsschema ontwikkeld om het vertrouwen van de voorspelling weer te geven. Voor elke kandidaat-doellocatie berekent MirTarget een waarschijnlijkheidsscore (in het bereik van 0-1) afgeleid van de SVM-modeling-tool, libsvm, zoals eerder beschreven . Deze score van de doellocatie weerspiegelt de statistische beoordeling van de voorspellingsnauwkeurigheid. Gebaseerd op individuele doelplaatsscores, voorspelt MirTarget of een gen een miRNA-doel is door alle plaatsscores binnen 3′-UTR te combineren gebruikend de volgende formule:

$$ S = 100 \ times \ left (1 – \underset{i=1}{\overset{n}{\Pi}}{p}_i\right) $$

waarbij n het aantal kandidaat-doellocaties in de 3′ – UTR vertegenwoordigt, en Pi de waarschijnlijkheidsscore voor elke locatie zoals geschat door MirTarget. De meeste doelgenen bevatten slechts één plaats, en zo, wordt de definitieve doelscore berekend gebruikend de zelfde vergelijking met n = 1. MirTarget scores werden gebruikt om de relatieve significantie van de voorspelde doelen te rangschikken. Op deze manier, gebruikten wij MirTarget voor genoom-brede voorspelling van miRNA doelstellingen. Alle voorspelde doelen worden weergegeven in miRDB (http://mirdb.org).

Tabel 3 Samenvatting van de hoogste miRNA-targeting-functies die zijn geïdentificeerd door RFE-analyse

algoritme-evaluatie met onafhankelijke experimentele gegevens

een gemeenschappelijke zorg bij de ontwikkeling van algoritmen is dat een model goed kan werken op de trainingsgegevens, maar niet zo goed op onafhankelijke ongeziene gegevens. Dus, de beste manier om de prestaties van MirTarget te evalueren zou zijn om het toe te passen op onafhankelijke experimentele gegevens. In de huidige studie, werden de heterogene experimentele gegevens geanalyseerd voor algoritmeevaluatie, met inbegrip van die die van zowel de klemband als miRNA neerhalingsexperimenten worden geproduceerd. De prestaties van MirTarget werden ook vergeleken met vier andere gevestigde algoritmen, waaronder TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) en PITA. Deze algoritmen zijn een van de meest populaire miRNA doel voorspelling tools, en transcriptome-brede voorspelling gegevens zijn gemakkelijk te downloaden van de respectieve websites.

validatie met CLIP-seq-gegevens

Chi et al. pionierde de methode van de slagen-klem voor experimentele identificatie van miRNA-doelafschriften . Met deze methode, voerden zij crosslinking immunoprecipitation uit om mRNA afschriften neer te trekken die met miRISC in muizenhersenen werden geassocieerd. Het hoog-productie rangschikken werd toen uitgevoerd om deze mRNA-transcript-markeringen te identificeren, d.w.z., korte fragmenten van RNA die door geleden van RNase-spijsvertering worden beschermd. Chi et al. aangetoond dat in het algemeen, de transcript tags zijn gecentreerd op de zaad binding sites . Deze HIT-CLIP dataset werd verder geanalyseerd in onze studie om potentiële miRNA doelplaatsen te identificeren. Totaal, werden 886 potentiële doelplaatsen geÃ dentificeerd gebaseerd op de zaad-passende opeenvolgingen voor de zes overvloedigst uitgedrukte miRNAs. Als negatieve controles, werd een reeks potentiële niet-doelopeenvolgingen ook geselecteerd gebaseerd op de volgende criteria: (1) zij overlappen niet met om het even welke opeenvolgingsmarkeringen die in het experiment van de treffers-klem worden geÃ dentificeerd en (2) Zij zijn van transcripten met detecteerbare uitdrukkingsniveaus zoals geopenbaard door microarrays. Van deze niet-doellocaties werden 889 met seed-matching sequenties geselecteerd als negatieve controles.

in onze Analyse werd de prestatie van vijf computationele algoritmen, waaronder MirTarget, TargetScan, DIANA-MicroT, miRanda en PITA, geëvalueerd door hun vermogen te vergelijken om targets te onderscheiden van niet-targets zoals blijkt uit HITS-CLIP. ROC-analyse werd uitgevoerd om de algehele gevoeligheid en specificiteit van de voorspellingsalgoritmen te evalueren. Zoals in Fig. 2a, MirTarget heeft de beste prestaties, met een oppervlakte onder de ROC-curve (AUC) van 0,78. DIANA-MicroT heeft de tweede beste prestatie (AUC = 0,73). Interessant, DIANA-MicroT werd ontwikkeld door opleiding met KLEMBINDENDE gegevens, terwijl andere openbare algoritmen met miRNA overexpressiegegevens werden opgeleid. Het is dan ook niet verwonderlijk dat DIANA-MicroT relatief goed past op CLIPTESTGEGEVENS. Naast ROC-analyse construeerden we ook precision-recall (PR) curves om de nauwkeurigheid van voorspelling te evalueren. PR-curven worden vaak gebruikt in algoritme-evaluatie om de voorspellingsnauwkeurigheid te bepalen (aandeel van echte positieven onder alle voorspelde positieven) in relatie tot de terugroepsnelheid (aandeel van geïdentificeerde echte positieven onder alle echte positieven). Zoals in Fig. 2b, MirTarget heeft de beste prestaties van alle vijf algoritmen. In het bijzonder is de precisie voor MirTarget meer dan 90% wanneer het terugroepingspercentage lager is dan 20%. Dit geeft aan dat MirTarget vooral accuraat is voor voorspellingen met een hoog vertrouwen (d.w.z. hoge voorspellingsscores).

validatie met Mirna knockdown data

Doelvoorspellingsalgoritmen werden ook geëvalueerd in de context van veranderingen in doelexpressie. In deze vergelijkende analyse hebben we de algoritmen geëvalueerd door gebruik te maken van een openbare Mirna knockdown-studie van Hafner et al. . In die openbare studie, onderdrukten de auteurs gelijktijdig de functies van 25 miRNAs door antisense inhibitors en evalueerden de invloed op de uitdrukking van doelrna met microarrays. De genen die door deze miRNAs worden gericht werden verwacht om upregulated toe te schrijven aan Mirna remming te zijn. In onze Analyse evalueerden we de correlatie tussen doelvoorspellingsscores en doelexpressie-upregulatie. Zoals in Fig. 3a, in vergelijking met andere algoritmen, hebben de voorspellingsscores die door MirTarget worden berekend de hoogste correlatie met genuitdrukking upregulation. Verder hebben we ook genexpressieveranderingen beoordeeld voor topvoorspellingen door individuele algoritmen, omdat onderzoekers in het bijzonder geïnteresseerd zijn in doelkandidaten met een hoog vertrouwen. Hiertoe evalueerden we gemiddeld 100 voorspelde doelen per miRNA per algoritme. In overeenstemming met de correlatieanalyse, werden de targets voorspeld door MirTarget het meest gemiddeld upregulated in vergelijking met die voorspeld door andere algoritmen (Fig. 3b).