RNA-seq w celu identyfikacji transkryptów obniżonych przez nadekspresję miRNA
jest dobrze ustalone, że Wiązanie miRNA z jego docelowym transkryptem niekoniecznie powoduje obniżenie ekspresji genu. W rzeczywistości większość obserwowanych zdarzeń wiążących miRNA, jak ujawnia analiza klipów, ma niewielkie konsekwencje funkcjonalne . Tak więc skupienie się na samym wiązaniu miRNA ma ograniczoną wartość dla przewidywania funkcjonalnych celów miRNA, tj. celów w dół. Aby złagodzić ten problem, bezpośrednio określiliśmy cel downregulacji przez miRNA z RNA-seq. Ogólny projekt badania jest podsumowany w dodatkowym pliku 1: Rysunek S1. W pierwszym etapie, 25 Mirna, wraz z ujemnym kontrolnym RNA, zostało indywidualnie nadekspresowanych w komórkach HeLa przez transfekcję. Te 25 Mirna są wymienione w tabeli 1. Wpływ nadekspresji miRNA był profilowany na poziomie transkryptomu za pomocą eksperymentów RNA-seq. Aby kontrolować eksperymentalne wariacje, każdy miRNA transfekowano do komórek w dwóch egzemplarzach w różnych dniach, a RNA-seq Library construction i sekwencjonowanie runs również przeprowadzono w dwóch egzemplarzach w różnych dniach. Łącznie wygenerowano 1,5 miliarda odczytów dla profilowania ekspresyjnego 52 próbek RNA. Dane profilowania są przedstawione w dodatkowym pliku 2: Tabela S1. Wszystkie dane sekwencjonowania połączono w celu identyfikacji genów obniżonych przez nadekspresję miRNA. W naszej analizie transkrypty, które zawierają co najmniej jedno miejsce wiązania nasion miRNA i zostały obniżone o co najmniej 40% w obu zduplikowanych eksperymentach, są oznaczone jako cele miRNA. Natomiast transkrypty, które zawierają co najmniej 1 miejsce zalążka, ale nie mają zmiany ekspresji, są oznaczone jako kontrole inne niż docelowe. W ten sposób zidentyfikowano odpowiednio 2240 i 4127 celów miRNA i grupy kontrolnej niebędącej celem za pomocą RNA-seq. W szczególności zidentyfikowano średnio 90 celów dla każdego miRNA, a docelowe liczby różnią się znacznie między poszczególnymi Mirna (od 11 do 206, Tabela 1).
wpływ typów nasion miRNA na redukcję docelową
poprzednie badania zidentyfikowały kilka głównych typów kanonicznych miejsc docelowych miRNA, w tym te pasujące do sekwencji nasion miRNA 6-mer, 7-mer lub 8-mer (Tabela 2). Analiza zachowania sekwencji sugerowała, że miejsca docelowe łączące się z dłuższymi nasionami miRNA są bardziej zachowane w różnych gatunkach, a zatem są bardziej prawdopodobne, że będą one prawdziwymi celami miRNA . Ta hipoteza dotycząca wytrzymałości typu nasion została również potwierdzona przez Analizę heterogenicznych zestawów danych mikromacierzy w kontekście docelowej regulacji w dół . Konieczna jest jednak dalsza analiza w celu dokładnego określenia ilościowego udziału każdego rodzaju materiału siewnego. Nasz nowo wygenerowany wielkoskalowy zbiór danych RNA-seq, obejmujący 25 Mirna ocenianych w jednolitych warunkach doświadczalnych, dostarczył unikalnej okazji do ilościowej oceny siły różnych nasion miRNA przy docelowej regulacji w dół. W szczególności oceniliśmy wzbogacenie każdego rodzaju materiału siewnego w miejscach docelowych z obniżoną regulacją w porównaniu do miejsc innych niż docelowe.
jak pokazano w tabeli 2 i Fig. 1A, seed6 jest najbardziej rozpowszechnionym typem, zidentyfikowanym w 86% wszystkich obniżonych celów. Jednakże, ze względu na swoją krótką długość, materiał siewny6 występuje również niespecyficznie w 36% miejsc niedocelowych, co skutkuje NAJNIŻSZYM współczynnikiem wzbogacenia materiału siewnego (2,40 w tabeli 2). Z drugiej strony, materiał siewny 8A1 jest najbardziej selektywnym typem, ze współczynnikiem wzbogacenia wynoszącym 6.83 i jest obecny w 30% obniżonych celów. Wśród wszystkich nasion 7-mer, seed7b i seed7A1 mają podobne współczynniki wzbogacania, z których oba są wyższe niż stosunek dla seed7a.
inny typ nasion 8-mer, seed8, ma drugi najwyższy współczynnik wzbogacenia wynoszący 5,48, który jest wyższy niż stosunek dla wszystkich nasion 7-mer. Aby jeszcze bardziej odróżnić potencjalny wkład dopasowania bazy terminala od bazy terminala A w miejscu docelowym, skupiliśmy się wyłącznie na 8 Mirna, które nie mają 5 ’ – końca U (rys. 1B). W porównaniu ze wszystkimi 25 Mirna zaobserwowaliśmy podobne współczynniki wzbogacania odpowiednio dla seed7b i seed8A1 z tego podzbioru Mirna (Tabela 2). Wyniki te sugerują, że terminal a-u perfect match ma niewielki wpływ na rozpoznawanie celu, ponieważ obecność terminala a w miejscach docelowych, niezależnie od jego statusu parowania z miRNA, jest związana z regulacją celu w dół. Co ciekawe, zaobserwowaliśmy również drastycznie zmniejszony współczynnik wzbogacania dla seed8 z tego podgrupy miRNA. W rzeczywistości stosunek nasion 8 (3,32) jest nawet niższy niż dla nasion 7B (Tabela 2). Tak więc idealne dopasowanie terminalu inne niż a-U jest szkodliwe (zamiast przyczyniać się) do rozpoznawania celu. Na podstawie analizy nasion zdecydowaliśmy się skupić na 3 najsilniejszych typach nasion, w tym seed8A1, seed7b i seed7A1, do modelowania przewidywania celów. Łącznie te 3 typy nasion zidentyfikowano w 3 ’ – UTR z 76% obniżonych transkryptów.
łączenie target downregulation i CLIP binding data w celu identyfikacji wspólnych cech targetowania
jednym wspólnym problemem z badaniami nadekspresji miRNA jest to, że trudno jest zlokalizować dokładne miejsce wiązania miRNA w transkrypcji docelowej. Aby złagodzić te obawy, zidentyfikowaliśmy potencjalne miejsca docelowe w oparciu o obecność kanonicznych 7-mer lub 8-mer miejsc nasiennych. W przeciwieństwie do analizy nadekspresji miRNA, badania CLIP-ligation są w stanie jednoznacznie zidentyfikować miejsca wiązania miRNA w docelowym transkrypcie poprzez usieciowanie miRNA i jego poznanego miejsca docelowego w tym samym kompleksie RISC. Nie można jednak łatwo określić funkcjonalnej konsekwencji wiązania docelowego miRNA, zidentyfikowanej przez CLIP. Tak więc zarówno metody wiązania klipów, jak i nadekspresji miRNA mają plusy i minusy, a każda sama metoda przedstawia tylko jeden ważny aspekt regulacji celu miRNA, tj. odpowiednio Wiązanie celu i tłumienie funkcjonalne.
w naszej analizie jesteśmy zainteresowani zidentyfikowaniem wspólnych cech charakterystycznych dla funkcjonalnej regulacji celu, w tym zarówno wiązania miRNA, jak i późniejszej regulacji celu. W niedawnej analizie predykcji celu zebraliśmy zbiór danych wiązania celu miRNA pochodzący z wielu publicznych badań ligacji klipów . Metoda ligacji CLIP jest uważana za korzystną w porównaniu z tradycyjnymi metodami CLIP, ponieważ zarówno miRNA, jak i jego poznane miejsce wiązania w transkrypcie docelowym można jednoznacznie zidentyfikować przez usieciowanie do tego samego kompleksu RISC. W niniejszym badaniu zestaw danych dotyczących wiązania CLIP został dodatkowo połączony z nowymi danymi dotyczącymi nadekspresji miRNA w celu identyfikacji cech docelowych, które są wspólne zarówno dla wiązania miRNA, jak i dla tłumienia celu. W ten sposób połączono 4774 miejsc docelowych i 8081 miejsc innych niż docelowe, zidentyfikowanych zarówno w badaniach nadekspresji CLIP, jak i miRNA, i oceniono w późniejszej analizie cech.
miejsca docelowe i inne niż docelowe w połączonym zbiorze danych porównano w celu zidentyfikowania cech, które są zwykle związane z regulacją docelową miRNA. Funkcje te są wymienione w dodatkowym pliku 3: Tabela S2. Powszechnie wiadomo, że miejsca docelowe miRNA są ewolucyjnie konserwowane . W naszym badaniu oceniliśmy ochronę celu przy użyciu dwóch uzupełniających się podejść. Po pierwsze, obliczyliśmy różnicę w wynikach ochrony między pozycjami wiążącymi nasiona i pozycjami flankującymi, zgodnie z wynikami fillopa z 100-way multi-genome alignment . Po drugie, ustaliliśmy również, czy całe miejsce nasion (7-mer lub 8-mer) znajduje się w wielu gatunkach za pomocą wyszukiwania słów. Obie analizy konserwatorskie wykazały, że miejsca docelowe były bardzo znacząco zachowane w porównaniu do miejsc innych niż docelowe. W rzeczywistości ochrona nasion była jedną z najbardziej wzbogaconych cech, niezależnie od tego, czy dane dotyczące nadekspresji miRNA i wiązania CLIP były analizowane osobno, czy łącznie. W szczególności, zachowany materiał siewny 8A1 był najbardziej wzbogacony w miejscach docelowych (p = 2,8 E−245 według dopasowania międzygatunkowego i P = 7,3 E-218 według punktacji phyllopa). Z drugiej strony, najbardziej zubożonym typem materiału siewnego był niezachowany materiał siewny 7A1 (odpowiednio 9,5 E−134 według oceny seed match I P = 1,3 e−138 według oceny phyllopa). Oprócz ochrony nasion, w obu zestawach danych można było znaleźć wiele innych funkcji. Na przykład, miejsca docelowe miRNA były preferencyjnie związane z krótszymi sekwencjami 3 ’- UTR (p = 4,7 E−126) i były one bardziej prawdopodobne pod koniec sekwencji 3′-UTR (p = 5,4 e−66) i z dala od środka długich transkryptów (p = 2,5 E−87).
pomimo wielu podobieństw, istnieją również wyraźne różnice między nadekspresją miRNA a danymi wiążącymi klip. Jednym z wybitnych przykładów jest związany z zawartością GC witryny docelowej. W porównaniu do miejsc innych niż docelowe zawartość GC w miejscu docelowym była znacznie mniejsza w danych dotyczących wiązania CLIP (p = 1.9E−146), ale tylko nieznacznie mniejsza w danych dotyczących nadekspresji miRNA (p = 2,1 E−10). Wyczerpanie nukleotydu C było umiarkowane w obu zestawach danych. Tak więc drastyczna różnica w zawartości GC między dwoma zestawami danych była głównie wynikiem znacznie silniejszego odchylenia względem nukleotydu G w danych CLIP (p = 7,7 E−137), w przeciwieństwie do danych nadekspresji (p = 1,2 E−19). Jedno z możliwych wyjaśnień może być związane z Rnazą T1 używaną w badaniach CLIP, która preferencyjnie tnie nukleotyd G, co powoduje uszczuplenie wewnętrznego G w sekwencjonowaniu. Jednak prawdą może być również to, że wzbogacenie G utrudnia Wiązanie się z miejscem docelowym przez kompleks miRISC, ponieważ G również wyczerpało się w danych dotyczących nadekspresji miRNA, chociaż tylko umiarkowanie. Inną interesującą cechą jest stabilność wiązania nasion, określona przez energię swobodną dupleksu nasion / celu. Stabilność wiązania nasion była korzystna w danych dotyczących nadekspresji miRNA (p = 2,5 E−12), ale nie była korzystna w danych dotyczących wiązania CLIP (p = 5,4 e−26). Ogólnie rzecz biorąc, ta cecha nie była już znacząca, gdy oba zestawy danych zostały połączone (p = 0,26).
opracowanie modelu przewidywania celu ze wspólnymi funkcjami celowania
wszystkie funkcje celowania miRNA, wymienione w dodatkowym pliku 3: Tabela S2, były modelowane w frameworku maszyny wektorowej (SVM) do opracowywania algorytmów. Ponadto przeprowadziliśmy również analizę rekurencyjnej eliminacji funkcji (RFE), aby ocenić względne znaczenie każdej funkcji dla jej niezależnego wkładu w wydajność modelu. W tej ocenie RFE wszystkie funkcje były analizowane zbiorczo przy użyciu maszyny SVM. W szczególności, jako pierwszy krok, najmniej ważna cecha została zidentyfikowana, a następnie usunięta z modelu. Następnie pozostałe cechy zostały ocenione w celu zidentyfikowania drugiej najmniej ważnej cechy dla eliminacji. Ten proces oceny został powtórzony, a jedna funkcja została wyeliminowana z każdej iteracji, aż pozostała tylko jedna funkcja. Podejście RFE pomaga zrozumieć niezależny wkład poszczególnych cech, które są zawarte w modelu. Tabela 3 podsumowuje 20 najlepszych funkcji targetowania według analizy RFE. Pełne stopnie RFE wszystkich funkcji są wymienione w dodatkowym pliku 3: Tabela S2. Zgodnie z analizą cech przedstawioną w poprzednim rozdziale, wiele cech zachowania nasion zaliczono do najwyższych w analizie RFE, z zachowanym nasieniem8a1 jako najbardziej wpływową cechą. W naszym ostatnim modelu SVM zintegrowano wszystkie 96 funkcji, w tym zarówno istotne statystycznie, jak i nieistotne, do budowy modelu predykcji, który nazwaliśmy MirTarget v4.0. Przeprowadzono pięciokrotną weryfikację krzyżową w celu określenia optymalnych parametrów dla funkcji jądra SVM za pomocą siatki.narzędzie py w pakiecie libsvm. Następnie opracowano system punktacji, aby reprezentować pewność przewidywania. Dla każdego miejsca docelowego kandydata MirTarget oblicza wynik prawdopodobieństwa (w zakresie 0-1) pochodzący z narzędzia do modelowania SVM, libsvm, jak opisano wcześniej . Ten wynik miejsca docelowego odzwierciedla statystyczną ocenę dokładności przewidywania. Na podstawie indywidualnych wyników witryny docelowej, MirTarget przewiduje, czy gen jest celem miRNA, łącząc wszystkie wyniki witryny w ramach 3 ’ – UTR za pomocą następującego wzoru:
gdzie n oznacza liczbę potencjalnych miejsc docelowych w 3 ’ – UTR, A Pi oznacza wynik prawdopodobieństwa dla każdego miejsca oszacowany przez MirTarget. Większość genów docelowych zawiera tylko jedno miejsce, a zatem końcowy wynik docelowy jest obliczany przy użyciu tego samego równania z n = 1. Wyniki MirTarget zostały wykorzystane do oceny względnego znaczenia przewidywanych celów. W ten sposób wykorzystaliśmy MirTarget do przewidywania celów miRNA w całym genomie. Wszystkie przewidywane cele przedstawiono w miRDB (http://mirdb.org).
ocena algorytmu z niezależnymi danymi eksperymentalnymi
jedną z powszechnych obaw w rozwoju algorytmów jest to, że model może dobrze działać na danych treningowych,ale nie tak dobrze na niezależnych niewidocznych danych. Tak więc najlepszym sposobem oceny wydajności MirTarget byłoby zastosowanie go do niezależnych danych eksperymentalnych. W niniejszym badaniu analizowano heterogeniczne dane eksperymentalne w celu oceny algorytmu, w tym te generowane zarówno z wiązania CLIP, jak i eksperymentów z knockdown miRNA. Wydajność MirTarget została również porównana do czterech innych dobrze ugruntowanych algorytmów, w tym TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) i PITA. Algorytmy te należą do najpopularniejszych narzędzi do przewidywania celów miRNA, a dane dotyczące transkryptomu można łatwo pobrać z odpowiednich stron internetowych.
Walidacja z danymi CLIP-seq
pionier metody HITS-CLIP do eksperymentalnej identyfikacji transkrypcji celów miRNA . Dzięki tej metodzie przeprowadzono sieciujące immunoprecypitację w celu ściągnięcia transkryptów mRNA, które były związane z miRISC w mózgu myszy. Następnie przeprowadzono sekwencjonowanie o wysokiej przepustowości w celu identyfikacji tych znaczników transkrypcyjnych mRNA, tj. krótkich fragmentów RNA chronionych przez Ago przed trawieniem RNazy. Chi et al. wykazano, że na ogół znaczniki transkrypcji są wyśrodkowane na miejscach wiązania nasion . Ten zestaw danych HITS-CLIP został następnie przeanalizowany w naszym badaniu w celu identyfikacji potencjalnych miejsc docelowych miRNA. Łącznie zidentyfikowano 886 potencjalnych miejsc docelowych na podstawie sekwencji pasujących do nasion dla sześciu najbardziej obficie wyrażonych Mirna. Jako kontrolę negatywną wybrano również zestaw potencjalnych sekwencji innych niż docelowe w oparciu o następujące kryteria: (1) nie pokrywają się one z żadnymi znacznikami sekwencji zidentyfikowanymi w eksperymencie HITS-CLIP oraz (2) pochodzą z transkryptów z wykrywalnymi poziomami ekspresji ujawnionymi przez mikromacierze. Z tych miejsc, które nie były docelowe, 889 z sekwencjami dopasowującymi nasiona wybrano jako kontrolę negatywną.
w naszej analizie, wydajność pięciu algorytmów obliczeniowych, w tym MirTarget, TargetScan, DIANA-MicroT, miRanda i PITA, została oceniona przez porównanie ich zdolności do odróżniania celów od innych niż cele, jak ujawniono w HITS-CLIP. Analiza ROC została przeprowadzona w celu oceny ogólnej czułości i specyficzności algorytmów predykcyjnych. Jak pokazano na Fig. 2A, MirTarget ma najlepszą wydajność, a pole pod krzywą ROC (AUC) wynosi 0,78. DIANA-MicroT ma drugą najlepszą wydajność (AUC = 0,73). Co ciekawe, DIANA-MicroT została opracowana przez szkolenie z danych wiążących CLIP, podczas gdy inne algorytmy publiczne były szkolone z danych nadekspresji miRNA. Nic więc dziwnego, że DIANA-MicroT stosunkowo dobrze pasuje do danych testowych CLIP. Oprócz analizy ROC skonstruowaliśmy również krzywe Precision-recall (PR), aby ocenić dokładność przewidywania. Krzywe PR są powszechnie stosowane w ocenie algorytmów do określenia precyzji predykcji (proporcja prawdziwych pozytywów wśród wszystkich przewidywanych pozytywów) w stosunku do szybkości przywoływania (proporcja zidentyfikowanych prawdziwych pozytywów wśród wszystkich prawdziwych pozytywów). Jak pokazano na Fig. 2b, MirTarget ma najlepszą wydajność spośród wszystkich pięciu algorytmów. W szczególności, precyzja MirTarget jest ponad 90%, gdy wskaźnik wycofania jest poniżej 20%. Oznacza to, że MirTarget jest szczególnie dokładny w przypadku prognoz o wysokiej pewności (tj.
Walidacja za pomocą danych Mirna knockdown
algorytmy przewidywania celu zostały również ocenione w kontekście zmian wyrażenia celu. W tej analizie porównawczej oceniliśmy algorytmy, stosując publiczne badanie Mirna knockdown autorstwa Hafnera et al. . W tym publicznym badaniu autorzy jednocześnie tłumili funkcje 25 Mirna przez inhibitory antysensowne i oceniali wpływ na ekspresję docelowego RNA za pomocą mikromacierzy. Spodziewano się, że geny docelowe przez te Mirna będą regulowane z powodu hamowania miRNA. W naszej analizie oceniliśmy korelację między wynikami przewidywania celów a zwiększeniem ich ekspresji. Jak pokazano na Fig. 3a, w porównaniu z innymi algorytmami, wyniki predykcji obliczone przez Mirtargeta mają najwyższą korelację z zwiększeniem ekspresji genów. Ponadto oceniliśmy również zmiany ekspresji genów dla najlepszych prognoz według poszczególnych algorytmów, ponieważ badacze są szczególnie zainteresowani kandydatami o wysokim zaufaniu. W tym celu oceniliśmy średnio 100 najwyższych w rankingu przewidywanych celów na miRNA według każdego algorytmu. Zgodnie z analizą korelacji, cele przewidywane przez MirTarget były średnio wyższe niż te przewidywane przez inne algorytmy (rys. 3b).