Předpověď funkční mikrorna cílů integrační modelování mikrorna závazné a cíl projevu data | Genome Biology

RNA-seq k identifikaci přepisy downregulated tím, že zvýšená exprese miRNA

To je dobře prokázáno, že vazba miRNA své cílové přepis nemusí nutně vyústit v down-regulaci genové exprese. Ve skutečnosti většina pozorovaných vazebných událostí miRNA, jak odhalila analýza klipů, má malé funkční důsledky . Zaměření na samotnou vazbu miRNA má tedy omezenou hodnotu pro predikci funkčních cílů miRNA, tj. Abychom tento problém zmírnili, přímo jsme určili cílovou downregulaci miRNA pomocí RNA-seq. Celkový návrh studie je shrnut v dalším souboru 1: obrázek S1. Jako první krok bylo 25 Mirna spolu s negativní kontrolní RNA individuálně nadměrně exprimováno v buňkách HeLa transfekcí. Těchto 25 Mirna je uvedeno v tabulce 1. Dopad nadměrné exprese miRNA byl profilován na úrovni transkriptomu experimenty RNA-seq. Ovládání pro experimentální variace, každá miRNA byla transfektovaly do buněk ve dvou vyhotoveních v různých dnech, a RNA-seq knihovny stavebních a sekvenování běhy byly také duplicitně v různých dnech. Celkem bylo vygenerováno 1, 5 miliardy čtení pro profilování exprese 52 vzorků RNA. Profilovací údaje jsou uvedeny v dalším souboru 2: Tabulka S1. Všechna data sekvenování byla kombinována, aby se identifikovaly geny downregulované nadměrnou expresí miRNA. V naší analýze, přepisy, které obsahují alespoň jeden miRNA semen vazebné místo a byly downregulated o nejméně 40% v obou duplicitní experimenty jsou označeny jako miRNA cíle. Naproti tomu transkripty, které obsahují alespoň 1 místo semen, ale neměly žádnou změnu výrazu, jsou označeny jako necílové kontroly. Tímto způsobem bylo pomocí RNA-seq identifikováno 2240 a 4127 cílů miRNA a necílových kontrol. Konkrétně bylo pro každou miRNA v průměru identifikováno 90 cílů a cílové počty se u jednotlivých Mirna značně liší (v rozmezí od 11 do 206, Tabulka 1).

Tabulka 1 Dvacet pět miRNAs analyzovány v RNA-seq experimenty

vliv miRNA osiva typy na cíl downregulation

Předchozí studie identifikovala několik hlavních typů kanonické miRNA cílových míst, včetně těch, odpovídající 6-mer, 7-mer, nebo 8-mer miRNA seed sekvence (Tabulka 2). Analýza zachování sekvencí naznačila, že cílová místa párování s delšími semeny miRNA jsou více konzervována napříč druhy, a proto je pravděpodobnější, že budou dobrými cíli miRNA . Tato hypotéza o síle typu osiva byla také potvrzena analýzou heterogenních datových sad microarray v kontextu cílové downregulace . K přesnému kvantifikaci příspěvku každého typu osiva je však zapotřebí další analýzy. Naše nově vytvořené rozsáhlé RNA-seq soubor údajů, který zahrnuje 25 miRNAs posuzovány podle jednotných experimentálních podmínek, za předpokladu, jedinečnou příležitost kvantitativně vyhodnotit sílu různých miRNA semena na cíl downregulation. Konkrétně jsme hodnotili obohacení každého typu osiva v downregulovaných cílových lokalitách ve srovnání s necílovými weby.

Tabulka 2 Obohacení miRNA semen zápas v cílové stránky

Jak je uvedeno v Tabulce 2 a Obr. 1a, seed6 je nejrozšířenější typ, identifikovaný v 86% všech downregulovaných cílů. Vzhledem ke své krátké délce je však osivo 6 přítomno také nespecificky v 36% necílových lokalit, což má za následek nejnižší poměr obohacení osiva (2,40 v tabulce 2). Na druhém konci je seed8A1 nejselektivnějším typem s poměrem obohacení 6.83 a je přítomen ve 30% downregulovaných cílů. Ze všech semen 7-mer, seed7b a seed7A1 mají podobné poměry obohacení, oba jsou vyšší než poměr pro seed7a.

Další typ 8-mer semen, seed8, má druhý nejvyšší poměr obohacení 5.48, což je vyšší než poměry pro všechny 7-mer semena. Dále rozlišovat na potenciální příspěvek ze základny terminálu zápas z terminálu základny v cílovém místě, jsme se výhradně zaměřili na 8 miRNAs, které nemají 5′-konci U (Obr. 1b). Ve srovnání se všemi 25 Mirna jsme pozorovali podobné poměry obohacení pro seed7b a seed8A1 z této podmnožiny Mirna (Tabulka 2). Tyto výsledky naznačují, že terminál A-U perfektní zápas má jen malý dopad na cílové uznání, jako přítomnost terminálu v cílové stránky, bez ohledu na jeho párování stav miRNA, je spojena s cílovou downregulation. Je zajímavé, že jsme také pozorovali dramaticky snížený poměr obohacení pro seed8 z této podmnožiny miRNA. Ve skutečnosti je poměr seed8 (3.32) dokonce nižší než poměr seed7b (Tabulka 2). Dokonalá shoda terminálu Jiná než A-U je tedy škodlivá (spíše než přispívající) k rozpoznání cíle. Na základě analýzy semen jsme se rozhodli zaměřit na 3 nejsilnější typy semen, včetně seed8A1, seed7b a seed7A1, pro modelování predikce cílů. Dohromady byly tyto 3 typy semen identifikovány v 3 ‚ – UTR 76% downregulovaných transkriptů.

Kombinování cíl downregulation a KLIP závazné údaje k identifikaci společných funkcí cílení

Jeden společný zájem s zvýšená exprese miRNA studií je, že je náročné najít přesnou miRNA vazebné místo v cílové přepis. Zmírnit tento problém, identifikovali jsme kandidátské cílové weby na základě přítomnosti kanonických 7-mer nebo 8-mer semenných webů. Na rozdíl od miRNA zvýšená exprese analýzy CLIP-podvaz studií jsou schopni jednoznačně identifikovat miRNA vazebná místa v cílovém překlad síťování na miRNA a jeho příbuzný cílové místo ve stejném RISC komplexu. Funkční důsledek vazby cíle miRNA, jak je identifikován pomocí CLIP, však nelze snadno určit. Metody vazby klipu i nadměrné exprese miRNA mají tedy klady a zápory a každá metoda sama zobrazuje pouze jeden důležitý aspekt regulace cíle miRNA, tj.

v naší analýze se zajímáme o identifikaci společných rysů, které jsou charakteristické pro funkční regulaci cíle, včetně vazby miRNA a následné downregulace cíle. V nedávné analýze predikce cílů jsme sestavili datovou sadu miRNA target binding odvozenou z několika veřejných studií ligace klipů . Metoda ligace klipu je považována za výhodnou oproti tradičním metodám klipu, protože miRNA i její příbuzné vazebné místo v cílovém transkriptu lze jednoznačně identifikovat zesíťováním na stejný komplex RISC. V této studii byla datová sada vázající klip dále kombinována s novými daty nadměrné exprese miRNA k identifikaci cílových funkcí, které jsou společné jak pro vazbu miRNA, tak pro potlačení cíle. Tímto způsobem bylo kombinováno a vyhodnoceno 4774 cílových míst a 8081 necílových míst identifikovaných ze studií nadměrné exprese CLIP I miRNA v následné analýze příznaků.

Cílová a necílová místa v kombinovaném datovém souboru byla porovnána s cílem identifikovat vlastnosti, které jsou běžně spojeny s regulací cíle miRNA. Tyto funkce jsou uvedeny v dalším souboru 3: Tabulka S2. Je dobře prokázáno, že cílová místa miRNA jsou evolučně zachována . V naší studii jsme hodnotili zachování cílů pomocí dvou komplementárních přístupů. Nejprve jsme spočítali rozdíl v zachování skóre mezi osiva závazné pozicích a boční pozice, určená podle phyloP skóre od 100-way multi-genom zarovnání . Za druhé jsme také určili, zda se celé místo semen (7-mer nebo 8-mer) nachází u více druhů pomocí vyhledávání slov. Obě analýzy ochrany ukázaly, že cílová místa byla ve srovnání s necílovými lokalitami velmi významně zachována. Ve skutečnosti, semeno zachování byl mezi nejvíce významně obohacen rysy, zda zvýšená exprese miRNA a KLIP závazné údaje byly analyzovány samostatně, nebo v kombinaci. Konkrétně zachovány seed8A1 bylo nejvíce obohatil v cílových místech (p = 2.8 E−245 cross-druhů semen zápas a p = 7.3 E−218 o phyloP skóre, respektive). Na druhé straně, non-zachovaná seed7A1 bylo nejvíce ochuzený typ jádra (9.5 E−134 semeny zápas a p = 1.3 E−138 podle phyloP skóre, respektive). Kromě zachování semen, v obou datových sadách se běžně vyskytovalo mnoho dalších funkcí. Například, miRNA cílových míst byly přednostně spojena s kratší 3′-UTR sekvence (p = 4.7 E−126), a oni byli více pravděpodobné, že se nachází ke konci 3′-UTR sekvence (p = 5.4 E−66) a od středu dlouhé přepisy (p = 2.5 E−87).

navzdory mnoha podobnostem existují také zřetelné rozdíly mezi hyperexpresí miRNA a vazebnými daty klipu. Jeden prominentní příklad souvisí s obsahem GC cílového webu. Ve srovnání s necílovými weby byl obsah GC cílového webu mnohem nižší v datech vázajících klip (p = 1.9E-146), ale pouze mírně nižší v údajích o nadměrné expresi miRNA (p = 2.1 E-10). Deplece nukleotidu C byla v obou datových sadách mírná. Tak drastický rozdíl v GC obsahu mezi dvěma soubory dat byl především důsledkem mnohem silnější zaujatost proti G nukleotidů v KLIPU dat (p = 7.7 E−137), v kontrastu k nadměrné expresi dat (p = 1.2 E−19). Jedno možné vysvětlení by mohlo souviset s Rnázou T1 použitou ve studiích klipu, která přednostně snižuje nukleotid G, což má za následek vyčerpání vnitřního G při sekvenování čtení. Nicméně, to může být také pravda, že obohacení G brání cílové stránky závazné do miRISC komplexu, jako G byl také vyčerpány v zvýšená exprese miRNA údaje, i když jen mírně. Dalším zajímavým rysem je stabilita vazby osiva, jak je určena volnou energií duplexu osiva/cíle. Stabilita vazby semen byla upřednostňována v údajích o nadměrné expresi miRNA (p = 2,5 E−12), ale v údajích o vazbě klipů (p = 5,4 E−26). Celkově tato funkce již nebyla významná, když byly obě datové sady kombinovány (p = 0,26).

Rozvojových cíl predikční model se společnou funkcí cílení

Všechny miRNA cílení funkce, jak je uvedeno v Další soubor 3: Tabulka S2, byly modelovány v support vector machine (SVM) rámec pro algoritmus vývoje. Dále jsme také provedli rekurzivní analýzu eliminace funkcí (RFE), abychom vyhodnotili relativní význam každého prvku pro jeho nezávislý příspěvek k výkonu modelu. V tomto hodnocení RFE byly všechny funkce analyzovány společně pomocí SVM. Konkrétně jako první krok byla identifikována nejméně důležitá vlastnost a následně odstraněna z modelu. Dále byly vyhodnoceny zbývající znaky, aby se identifikoval druhý nejméně důležitý prvek pro eliminaci. Tento proces hodnocení byl opakován s jedním prvkem vyloučeným z každé iterace, dokud nezůstal pouze jeden prvek. Přístup RFE pomáhá pochopit nezávislý přínos jednotlivých funkcí, které jsou součástí modelu. Tabulka 3 shrnuje 20 nejlepších cílených funkcí pomocí analýzy RFE. Kompletní RFE řady všech funkcí jsou uvedeny v dalším souboru 3: Tabulka S2. V souladu s funkcí analýzy prezentované v předchozí části, více semen zachování funkce řadí mezi nejvyšší podle RFE analýzy, s konzervovaným seed8A1 jako nejvíce působivých funkcí. V naší závěrečné SVM model, všechny 96 funkce, včetně statisticky významné a non-významné, byly integrovány pro budování predikční model, který jsme pojmenovali MirTarget v4.0. Pětinásobná křížová validace byla provedena za účelem stanovení optimálních parametrů pro funkci jádra SVM pomocí mřížky.PY nástroj v balíčku libsvm. Poté bylo vyvinuto bodovací schéma, které reprezentuje důvěru predikce. Pro každé cílové místo kandidáta MirTarget vypočítá skóre pravděpodobnosti (v rozmezí 0-1) odvozené z modelovacího nástroje SVM, libsvm, jak bylo popsáno výše . Toto skóre cílového místa odráží statistické hodnocení přesnosti predikce. Na základě individuálních skóre cílového místa MirTarget předpovídá, zda je gen cílem miRNA kombinací všech skóre místa v rámci 3 ‚ – UTR pomocí následujícího vzorce:

$$ S=100\times \left(1-\underset{i=1}{\rozrušená{n}{\Pi}}{P}já\right) $$

kde n představuje počet kandidát cílového místa v 3′-UTR, a Pi představuje pravděpodobnost, že skóre pro každý web, jak odhaduje podle MirTarget. Většina cílových genů obsahuje pouze jedno místo, a proto je konečné cílové skóre vypočteno pomocí stejné rovnice s n = 1. Skóre MirTarget bylo použito k hodnocení relativní významnosti předpokládaných cílů. Tímto způsobem jsme použili MirTarget pro predikci cílů miRNA v celém genomu. Všechny předpokládané cíle jsou uvedeny v miRDB (http://mirdb.org).

Tabulka 3 Přehled top-žebříčku miRNA cílení funkcí identifikovány podle RFE analýzy

Algoritmus hodnocení nezávislé experimentální údaje

Jeden společný zájem v algoritmu vývoje je to, že model může dobře fungovat na tréninkových dat, ale ne tak dobře na nezávislé neviditelné údaje. Nejlepší způsob, jak vyhodnotit výkon Mirtargetu, by tedy bylo aplikovat na nezávislá experimentální data. V této studii, heterogenní experimentální data byla analyzována pro algoritmus vyhodnocení, včetně těch generovaných z obou KLIP závazné a miRNA povalení experimenty. Výkon Mirtargetu byl také porovnán se čtyřmi dalšími zavedenými algoritmy, včetně TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) a PITA. Tyto algoritmy patří mezi nejoblíbenější cílové miRNA předpověď nástroje, a transcriptome-široký predikce data jsou snadno stáhnout z příslušných webových stránek.

validace s daty CLIP-seq

Chi et al. byl průkopníkem metody HITS-CLIP pro experimentální identifikaci cílových transkriptů miRNA . Pomocí této metody provedli zesítění imunoprecipitace, aby stáhli transkripty mRNA, které byly spojeny s miRISC v mozku myši. Poté bylo provedeno vysoce výkonné sekvenování k identifikaci těchto transkripčních značek mRNA, tj. krátkých fragmentů RNA chráněných Ago před trávením Rnázy. Chi a kol. ukázalo se, že značky přepisu jsou obecně soustředěny na vazebná místa semen . Tato datová sada HITS-CLIP byla dále analyzována v naší studii k identifikaci potenciálních cílových míst miRNA. Celkem bylo identifikováno 886 potenciálních cílových míst na základě sekvencí odpovídajících semenům pro šest nejhojněji vyjádřených Mirna. Jako negativní kontroly, sada potenciální non-cílové sekvence byla také vybrána na základě následujících kritérií: (1) se nepřekrývají s libovolném pořadí kategorie identifikované v HITY-KLIP experimentu a (2) jsou z přepisy s detekovatelnou expresí úrovních, jak odhalil microarrays. Z těchto necílových míst bylo jako negativní kontroly vybráno 889 se sekvencemi odpovídajícími semenům.

V naší analýze, výkon pět výpočetních algoritmů, včetně MirTarget, TargetScan, DIANA-Mikrot, miRanda, a PITA, byla vyhodnocena porovnáním jejich schopnost rozlišovat cíle od non-cílů, jak je odhalil tím, že UDEŘÍ-KLIP. Pro vyhodnocení celkové citlivosti a specifičnosti predikčních algoritmů byla provedena ROC analýza. Jak je znázorněno na obr. 2a, MirTarget má nejlepší výkon, s plochou pod křivkou ROC (AUC) 0,78. DIANA-MicroT má druhý nejlepší výkon (AUC = 0,73). Zajímavé je, že DIANA-Mikrot byl vyvinut školení s KLIPEM závazné údaje, zatímco jiné veřejné algoritmy byli vyškoleni s zvýšená exprese miRNA data. Není tedy divu, že DIANA-MicroT relativně dobře zapadá do údajů o testování klipů. Kromě analýzy ROC jsme také vytvořili křivky precision-recall (PR) pro vyhodnocení přesnosti predikce. PR křivky jsou běžně používané v algoritmu hodnocení k určení predikce přesnost (podíl skutečné pozitiv mezi všechny předpokládané pozitivní výsledky) ve vztahu k odvolání sazba (podíl zjištěných pravda, pozitiva mezi všemi pravda, pozitiva). Jak je znázorněno na obr. 2b, MirTarget má nejlepší výkon ze všech pěti algoritmů. Přesnost Mirtargetu je zejména vyšší než 90%, pokud je míra stažení nižší než 20%. To znamená, že MirTarget je zvláště přesný pro předpovědi s vysokou spolehlivostí(tj.

Validace s miRNA povalení data

Cíl predikční algoritmy byly rovněž hodnoceny v rámci cíl vyjádření změn. V této srovnávací analýze, vyhodnotili jsme algoritmy pomocí veřejné studie miRNA knockdown od Hafner et al. . V této veřejné studii autoři současně potlačili funkce 25 Mirna inhibitory antisense a vyhodnotili dopad na expresi cílové RNA pomocí mikroarrays. Očekávalo se, že geny cílené těmito Mirna budou upregulovány kvůli inhibici miRNA. V naší analýze, vyhodnotili jsme korelaci mezi skóre predikce cíle a upregulací cílového výrazu. Jak je znázorněno na obr. 3a, ve srovnání s jinými algoritmy, skóre predikce vypočtené MirTarget mají nejvyšší korelaci k upregulaci genové exprese. Dále jsme také posoudili změny genové exprese pro předpovědi nejvyšších hodnocení podle jednotlivých algoritmů, protože vědci se zajímají zejména o vysoce důvěryhodné cílové kandidáty. Za tímto účelem jsme vyhodnotili 100 nejlépe hodnocených předpovězených cílů na miRNA v průměru podle každého algoritmu. V souladu s korelační analýza, cíle předpovídal MirTarget byly upregulovány nejvíce v průměru ve srovnání s těmi, předpovídal další algoritmy (Obr. 3b).

Predikce funkční mikrorna cílů integrační modelování mikrorna závazné a cíl projevu data