Funktionaalisten mikroRNA-kohteiden ennustaminen microRNA-sitomis-ja kohdeekspressiotietojen integratiivisella mallintamisella

RNA-seq Mirna-yli-ekspression downregulatoimien transkriptien tunnistamiseksi

on hyvin osoitettu, että mirnan sitoutuminen kohdeekspressioonsa ei välttämättä johda geeniekspression downregulaatioon. Itse asiassa useimmilla havaituilla miRNA-sitovilla tapahtumilla, kuten klipin analyysi paljastaa, on vain vähän toiminnallisia seurauksia . Pelkästään miRNA-sitomiseen keskittymisellä on siis rajallinen arvo funktionaalisten miRNA-kohteiden eli alasäännöllisten kohteiden ennustamisessa. Lievittääksemme tätä huolta määritimme suoraan mirnan kohteen alasääntelyn RNA-seq: lla. Tutkimuksen kokonaissuunnitelma on tiivistetty lisätiedostoon 1: kuva S1. Ensimmäisessä vaiheessa 25 mirnaa yhdessä negatiivisen kontrolli-RNA: n kanssa yliekspressoitui hela-soluissa yksittäin transfektiolla. Nämä 25 mirnaa on lueteltu taulukossa 1. MiRNA-yliekspression vaikutus profiloitiin transkriptomitasolla RNA-seq-kokeilla. Kokeellisten muunnosten kontrolloimiseksi jokainen miRNA transfektoitiin soluihin kahtena eri päivinä, ja myös RNA-seq-kirjaston rakenne ja sekvensointi suoritettiin kahtena eri päivinä. Kaikkiaan 52 RNA-näytteen ilmaisuprofilointia varten kertyi 1,5 miljardia lukua. Profilointitiedot esitetään lisätiedostossa 2: taulukossa S1. Kaikki sekvensointitiedot yhdistettiin miRNA-yliekspression alasäätelemien geenien tunnistamiseksi. Analyysissamme Mirna-kohteiksi nimetään transkriptit, jotka sisältävät vähintään yhden Mirna-siementen sitomispaikan ja joita on vähennetty vähintään 40% molemmissa päällekkäisissä kokeissa. Sen sijaan transkriptit, joissa on vähintään 1 siemenaihe, mutta joissa ei ole ilmauksen muutosta, luokitellaan ei-kohdekontrolleiksi. Näin RNA-seq: n avulla tunnistettiin 2240 miRNA-kohdetta ja 4127 ei-kohde-kontrollia. Kutakin mirnaa kohti yksilöitiin keskimäärin 90 kohdetta, ja kohdemäärät vaihtelevat huomattavasti yksittäisten mirnojen välillä (11-206, Taulukko 1).

Taulukko 1 kaksikymmentäviisi mirnaa analysoitiin RNA-seq-kokeissa

miRNA-siementyyppien vaikutus Targetin alasäätelyyn

aiemmissa tutkimuksissa on tunnistettu useita kanonisia miRNA-kohdealueita, mukaan lukien ne, jotka vastaavat 6-mer -, 7-mer-tai 8-mer miRNA-siemenjaksoja (Taulukko 2). Sequence conservation analysis ehdotti, että kohde sivustoja pariutuminen pidempään miRNA siemenet ovat säilyneet paremmin eri lajien ja siten ovat todennäköisemmin bona fide miRNA kohteita . Tämä siementyypin vahvuutta koskeva hypoteesi on myös vahvistettu analysoimalla heterogeenisiä mikroarray-tietokokonaisuuksia target downregulaation yhteydessä . Lisäanalyysiä tarvitaan kuitenkin, jotta kunkin siemenlajin osuus voidaan määrittää tarkasti. Uusi laajamittainen RNA-seq-tietokokonaisuutemme, joka käsittää 25 yhtenäisissä koeolosuhteissa arvioitua Mirna-siementä, tarjosi ainutlaatuisen mahdollisuuden arvioida kvantitatiivisesti eri miRNA-siementen vahvuutta target downregulaatiossa. Arvioimme erityisesti kunkin siementyypin väkevöintiä alasäädellyillä kohdealueilla verrattuna muihin kuin kohdealueisiin.

Taulukko 2 Mirna – siemenen rikastaminen kohdekohdissa

kuten taulukossa 2 ja Kuvassa. 1a, seed6 on yleisin tyyppi, joka on tunnistettu 86 prosentissa kaikista alasäännöstellyistä kohteista. Lyhyen pituutensa vuoksi siementä6 esiintyy kuitenkin myös muualla kuin erikseen 36 prosentissa kohteista, jotka eivät ole kohdealueita, jolloin siementen rikastumisaste on alhaisin (2,40 taulukossa 2). Toisaalta seed8A1 on selektiivisin tyyppi, jonka rikastussuhde on 6.83 ja se on mukana 30 prosentissa alasääntellyistä tavoitteista. Kaikkien 7-mer-siementen seed7b-ja seed7A1-siementen rikastussuhteet ovat samanlaiset, ja molemmat ovat korkeammat kuin seed7a-siementen suhde..

toisen 8-mer-siementyypin, seed8: n, toiseksi korkein rikastussuhde on 5,48, mikä on korkeampi kuin kaikkien 7-mer-siementen suhde. Voit edelleen erottaa mahdollisen panoksen terminaalin pohja ottelu terminaalin a base Kohdealueella, me yksinomaan keskittynyt 8 miRNAs jotka eivät ole 5 ’ – end U (Kuva. 1b). Verrattuna kaikkiin 25 mirnaan havaitsimme samanlaiset rikastussuhteet seed7b: lle ja seed8A1: lle tästä mirnojen osajoukosta (Taulukko 2). Nämä tulokset viittaavat siihen, että terminaali A-U täydellinen ottelu on vain vähän vaikutusta kohteen tunnistamiseen, koska läsnäolo terminaali A kohdesivustoilla, riippumatta sen pariliitos tila miRNA, liittyy tavoite downregulation. Mielenkiintoista, olemme myös havainneet dramaattisesti vähentynyt rikastussuhde seed8 tästä miRNA osajoukko. Itse asiassa siemen8-suhdeluku (3,32) on jopa alhaisempi kuin seed7b-suhdeluku (Taulukko 2). Siten, täydellinen pääte ottelu muu kuin A-U on haitallista (pikemminkin kuin edistää) tavoite tunnustamista. Siemenanalyysin perusteella päätimme keskittyä 3 vahvimpaan siementyyppiin, mukaan lukien seed8A1, seed7b ja seed7A1, target prediction-mallinnukseen. Yhdessä nämä 3 siementyyppiä tunnistettiin 3 ’ – UTR: ssä 76%: ssa alasäännöitetyistä transkripteista.

yhdistämällä target downregulation-ja CLIP-sidontatietoja yhteisten kohdeominaisuuksien tunnistamiseksi

yksi yhteinen huolenaihe miRNA-yli-ekspressiotutkimuksissa on se, että on haastavaa paikantaa tarkka miRNA-sidontapaikka target-transkriptiossa. Tämän huolen lievittämiseksi määritimme ehdokaskohteet canonical 7-mer-tai 8-mer-siemenkohteiden perusteella. Toisin kuin miRNA-yliekspressioanalyysissä, KLIPSISIDONTATUTKIMUKSISSA pystytään yksiselitteisesti tunnistamaan miRNA-sidontapaikat kohdetranskriptiossa ristisidomalla miRNA ja sen kognitiivinen kohdekohta samassa RISC-kompleksissa. Klipsin tunnistaman Mirna-kohdesidonnan toiminnallista seurausta ei kuitenkaan voida helposti määrittää. Siten sekä KLIPSISIDONNALLA että miRNA-yliekspressiomenetelmillä on hyvät ja huonot puolensa, ja jokainen menetelmä yksin kuvaa vain yhtä tärkeää Mirna-tavoitesäätelyn osa-aluetta, eli vastaavasti tavoitesidontaa ja toiminnallista suppressiota.

analyysissämme olemme kiinnostuneita tunnistamaan funktionaaliselle kohdesääntelylle tyypillisiä yhteisiä piirteitä, kuten sekä miRNA-sitovuutta että myöhempää target downregulaatiota. Tuoreessa target prediction analysis – tutkimuksessa olemme koonneet miRNA target binding-aineiston, joka on johdettu useista julkisista klipsin sidontatutkimuksista . KLIPSISIDONTAMENETELMÄÄ pidetään edullisena perinteisiin KLIPSIMENETELMIIN verrattuna, sillä sekä Mirna että sen kognaattisidontapaikka kohdetranskriptiossa voidaan yksiselitteisesti tunnistaa risteyttämällä samaan RISC-kompleksiin. Tässä tutkimuksessa klipsin sidontatietokantaa yhdistettiin edelleen uusiin miRNA-yli-ekspressiotietoihin, jotta voitiin tunnistaa kohdistusominaisuuksia, jotka ovat yhteisiä sekä miRNA-sidonnalle että kohteen vaimennukselle. Tällä tavoin yhdistettiin ja arvioitiin 4774 kohde-ja 8081 ei-kohde-kohdetta, jotka on tunnistettu sekä clipin että mirnan yli-ilmentymistutkimuksissa.

yhdistetyn aineiston kohde-ja ei-kohde-kohteita verrattiin niiden ominaisuuksien tunnistamiseksi, jotka liittyvät yleisesti miRNA-kohdesäätelyyn. Nämä ominaisuudet on lueteltu Lisätiedostossa 3: taulukko S2. On vakiintunut, että mirnan kohdekohteet ovat evolutionaarisesti säilyneitä . Tutkimuksessamme arvioimme tavoitesuojelua kahden toisiaan täydentävän lähestymistavan avulla. Ensin laskimme säilymispisteiden eron siementen sidontapaikkojen ja reunapaikkojen välillä, mikä määritettiin fylop-pisteillä 100-way multi-genome-linjauksesta . Toiseksi selvitimme sanahaulla, löytyykö koko siemenaihe (7-mer vai 8-mer) useilta lajeilta. Molemmat suojeluanalyysit osoittivat, että kohdealueet säilyivät hyvin merkittävästi verrattuna muihin kuin kohdealueisiin. Itse asiassa siemensuojelu oli merkittävimpiä ominaisuuksia, analysoitiinpa miRNA yli-ekspressiota ja klipsin sidontatietoja erikseen tai yhdessä. Erityisesti säilötty seed8A1 rikastui eniten kohdealueilla (p = 2,8 e-245 lajien risteytyksellä ja p = 7,3 e−218 phyloP-pisteellä). Toisessa päässä säilymätön seed7A1 oli köyhdytetyin siementyyppi (9,5 e−134 siementuotteella ja p = 1,3 e-138 phyloP-pisteellä). Siementen säilyttämisen lisäksi molemmissa aineistoissa oli monia muitakin piirteitä. Esimerkiksi mirnan kohdepaikat liittyivät mieluiten lyhyempiin 3 ’- UTR-jaksoihin (p = 4,7 E-126), ja ne löytyivät todennäköisemmin 3’−UTR−sekvenssin loppupuolella (p = 5,4 E-66) ja kaukana pitkien transkriptien keskipisteestä (p = 2,5 e-87).

monista yhtäläisyyksistä huolimatta myös miRNA-yli-ekspression ja klipsin sidontatiedon välillä on selviä eroja. Yksi näkyvä esimerkki liittyy kohdesivuston GC-sisältöön. Verrattuna ei-target-sivustoihin, target-sivuston GC-pitoisuus oli paljon pienempi klipsin sitovissa tiedoissa (p = 1.9E−146), mutta mirnan yli-ekspressioaineistossa vain hieman pienempi (p = 2,1 E-10). C-nukleotidin heikentyminen oli kohtalaista molemmissa aineistoissa. Näin ollen raju ero GC-pitoisuudessa näiden kahden aineiston välillä johtui pääasiassa siitä, että klipsin aineistossa oli huomattavasti voimakkaampi harha g−nukleotidia vastaan (p = 7.7 E−137), toisin kuin yli-ekspressiotiedoissa (p = 1.2 e-19). Yksi mahdollinen selitys voisi liittyä KLIPSITUTKIMUKSISSA käytettyyn RNaasi T1: een, joka ensisijaisesti leikkaa g-nukleotidia, mikä johtaa sisäisen G: n ehtymiseen sekvensointilukemissa. Voi kuitenkin olla myös totta, että G: n rikastuminen estää mirisc-kompleksin sitoutumisen kohteeseen, sillä myös g: n pitoisuus mirnan yli-ekspressioaineistossa väheni, joskin vain kohtalaisesti. Toinen mielenkiintoinen piirre on siementen sitoutumisvakaus, joka määräytyy siemen/kohde-dupleksin vapaan energian mukaan. Siementen sidontavakavuutta suosittiin mirnan yli-ekspressiotiedoissa (p = 2,5 E−12), mutta klipsin sidontatiedoissa (p = 5,4 e−26). Kaiken kaikkiaan tämä ominaisuus ei ollut enää merkittävä, kun kaksi aineistoa yhdistettiin (p = 0,26).

kehitetään tavoite-ennustemalli, jolla on yhteiset kohdistusominaisuudet

kaikki miRNA-kohdistusominaisuudet, jotka on lueteltu Lisätiedostossa 3: taulukko S2, mallinnettiin Support vector machine (SVM) – kehyksessä algoritmin kehittämistä varten. Lisäksi teimme myös rekursiivinen ominaisuus poistaminen (RFE) analyysi sijoitus suhteellinen merkitys kunkin ominaisuuden sen riippumaton panos mallin suorituskykyä. Tässä RFE-arvioinnissa kaikki ominaisuudet analysoitiin yhdessä SVM: n avulla. Tarkemmin sanottuna ensimmäisessä vaiheessa tunnistettiin vähiten tärkeä ominaisuus, joka sittemmin poistettiin mallista. Seuraavaksi arvioitiin jäljellä olevat ominaisuudet, jotta tunnistettaisiin toiseksi vähiten tärkeä ominaisuus eliminaation kannalta. Tämä arviointiprosessi toistettiin siten, että jokaisesta iteraatiosta poistettiin yksi ominaisuus, kunnes jäljelle jäi vain yksi ominaisuus. RFE-lähestymistapa auttaa ymmärtämään malliin sisältyvien yksittäisten ominaisuuksien itsenäistä vaikutusta. Taulukossa 3 on yhteenveto 20 huipputason kohdistusominaisuudesta RFE-analyysin avulla. Kaikkien ominaisuuksien täydellinen RFE-arvo on lueteltu lisätiedostossa 3: taulukko S2. Edellisessä jaksossa esitetyn ominaisuusanalyysin mukaisesti useat siementen säilyttämisen piirteet ovat RFE-analyysissä korkeimpia, ja säilyneet siemenet 8a1 on vaikuttavin ominaisuus. Lopullisessa SVM-mallissamme kaikki 96 ominaisuutta, mukaan lukien tilastollisesti merkittävät ja ei-merkittävät, oli integroitu ennustemallin rakentamiseen, jonka nimesimme mirtarget v4.0: ksi. Viisinkertainen ristivalidointi suoritettiin SVM-ytimen funktion optimaalisten parametrien määrittämiseksi hilaa käyttäen.py-työkalu libsvm-paketissa. Tämän jälkeen kehitettiin pisteytysjärjestelmä, joka edusti ennustamisen varmuutta. Mirtarget laskee kullekin ehdokaskohteen kohteelle todennäköisyyspisteen (alueella 0-1), joka on johdettu SVM-mallinnustyökalusta libsvm, kuten aiemmin on kuvattu . Tämä kohdealueen pistemäärä kuvastaa ennustetarkkuuden tilastollista arviointia. Yksittäisten kohdepaikan pisteiden perusteella MirTarget ennustaa, onko geeni miRNA-kohde yhdistämällä kaikki kohteen pisteet 3′-UTR: n sisällä seuraavan kaavan avulla:

$$ S=100\times \left(1-\underset{i = 1}{\overset{n}{\Pi}}{p}_i\right) $$

jossa n edustaa ehdokaskohteen kohteiden lukumäärää alueella 3 ’ – UTR, ja Pi kuvaa todennäköisyyspistettä kullekin kohteelle mirtargetin estimoimana. Useimmat kohdegeenit sisältävät vain yhden kohdan, ja näin lopullinen kohdegeeni lasketaan käyttäen samaa yhtälöä, jossa N = 1. Mirtarget-pisteiden avulla arvioitiin ennustettujen kohteiden suhteellista merkitystä. Tällä tavoin käytimme mirtarget-ohjelmaa miRNA-kohteiden genominlaajuiseen ennustamiseen. Kaikki ennustetut tavoitteet on esitetty mirdb: ssä (http://mirdb.org).

Taulukko 3 Yhteenveto RFE-analyysissä yksilöidyistä miRNA-kohdistusominaisuuksista

algoritmin arviointi riippumattomilla kokeellisilla tiedoilla

yksi yleinen huolenaihe algoritmin kehityksessä on, että malli voi toimia hyvin koulutustietoihin, mutta ei yhtä hyvin riippumattomiin näkymättömiin tietoihin. Siten paras tapa arvioida mirtargetin suorituskykyä olisi soveltaa sitä riippumattomaan kokeelliseen aineistoon. Tässä tutkimuksessa analysoitiin algoritmin arviointia varten heterogeenisiä kokeellisia tietoja, mukaan lukien sekä klipsin sitomisesta että miRNA knockdown-kokeista saadut tiedot. Mirtargetin suorituskykyä verrattiin myös neljään muuhun vakiintuneeseen algoritmiin, kuten TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) ja PITA. Nämä algoritmit ovat suosituimpia miRNA-kohteiden ennustustyökaluja, ja transkriptomien laajuiset ennustetiedot ovat helposti ladattavissa vastaavilta verkkosivustoilta.

validointi CLIP-seq-tiedoilla

Chi et al. edelläkävijä HITS-CLIP menetelmä kokeellinen tunnistaminen miRNA kohde transkriptit . Tällä menetelmällä he suorittivat ristiinlinkityksen immunoprecipitation vetää alas mRNA transkriptit, jotka liittyivät miRISC hiirten aivoissa. Tämän jälkeen suoritettiin suuritehoinen sekvensointi näiden mRNA-transkriptiotagien tunnistamiseksi, eli lyhyiden RNA-fragmenttien, joita Ago suojasi RNaasi-digestiolta. Chi ym. osoitti, että yleensä, transkripti tunnisteet ovat keskittyneet siementen sitomiskohtiin . Tätä HITS-CLIP-aineistoa analysoitiin tarkemmin tutkimuksessamme mahdollisten miRNA-kohteiden tunnistamiseksi. Kaikkiaan 886 potentiaalista kohdepaikkaa tunnistettiin kuuden runsaimmin ilmaistun mirnan siemensovitussarjojen perusteella. Negatiivisina kontrolleina valittiin myös joukko potentiaalisia ei-kohdesekvenssejä seuraavien kriteerien perusteella: (1) ne eivät ole päällekkäisiä minkään HITS-CLIP-kokeessa tunnistettujen sekvenssitagien kanssa ja (2) ne ovat peräisin transkripteistä, joiden ilmaisutaso on havaittavissa mikroarrayiden osoittamalla tavalla. Näistä ei-kohdealueista 889 valittiin negatiivisiksi kontrolleiksi.

analyysissämme arvioitiin viiden laskennallisen algoritmin, kuten MIRTARGETIN, Targetscanin, DIANA-Microtin, Mirandan ja Pitan, suorituskykyä vertaamalla niiden kykyä erottaa kohteet Ei-kohteista, kuten HITS-CLIP paljasti. Roc-analyysi tehtiin ennustealgoritmien yleisen herkkyyden ja spesifisyyden arvioimiseksi. Kuten kuvassa. 2a, Mirtargetin suorituskyky on paras, sillä ROC-käyrän (AUC) alle jäävä alue on 0,78. DIANA-Microtilla on toiseksi paras suorituskyky (AUC = 0,73). Mielenkiintoista on, että DIANA-MicroT kehitettiin harjoittelemalla KLIPSINSIDONTADATAN avulla, kun taas muut julkiset algoritmit koulutettiin miRNA-yliekspressiotiedolla. Siksi ei ole yllättävää, että DIANA-MicroT sopii suhteellisen hyvin klipsin testaustietoihin. Roc-analyysin lisäksi olemme myös rakentaneet precision-recall (PR) – käyriä ennusteen tarkkuuden arvioimiseksi. PR-käyriä käytetään yleisesti algoritmin arvioinnissa ennustetarkkuuden määrittämiseen (todellisten positiivisten osuus kaikista ennustetuista positiivisista) suhteessa palautusasteeseen (tunnistettujen todellisten positiivisten osuus kaikista todellisista positiivisista). Kuten kuvassa. 2b, MirTarget on paras suorituskyky kaikkien viiden algoritmeja. Erityisesti mirtargetin tarkkuus on yli 90 prosenttia, kun takaisinkutsuaste on alle 20 prosenttia. Tämä osoittaa, että MirTarget on erityisen tarkka korkean luottamuksen ennusteisiin (eli korkeisiin ennustuspisteisiin).

validointia miRNA knockdown-tiedoilla

Target prediction algorithms arvioitiin myös target expression-muutosten yhteydessä. Tässä vertailevassa analyysissä, arvioimme algoritmeja käyttämällä julkista miRNA knockdown tutkimus Hafner et al. . Kyseisessä julkisessa tutkimuksessa tekijät tukahduttivat samanaikaisesti 25 mirnan toiminnot antisensiteettinestäjillä ja arvioivat vaikutusta kohde-RNA: n ilmentymiseen mikrorakenteilla. Näiden mirnojen kohteena olevien geenien odotettiin olevan ylisääntelyssä miRNA-inhibition vuoksi. Analyysissämme arvioimme target prediction scoresin ja target expression upregulationin korrelaatiota. Kuten kuvassa. 3a, verrattuna muihin algoritmeihin, mirtargetin laskemat ennustuspisteet ovat korkein korrelaatio geeniekspression upregulaatioon. Lisäksi arvioimme yksittäisten algoritmien avulla myös huippuennusteiden geeniekspression muutoksia, sillä tutkijat ovat erityisen kiinnostuneita korkean luottamuksen kohteista. Tätä varten arvioimme jokaisen algoritmin perusteella keskimäärin 100 huippukohdetta mirnaa kohti. Korrelaatioanalyysin mukaisesti mirtargetin ennustamia tavoitteita säädeltiin keskimäärin eniten verrattuna muiden algoritmien ennustamiin (Fig. 3b).