RNA-seq per identificare le trascrizioni downregolata da miRNA sovraespressione
si è così stabilito che l’associazione di un miRNA per il suo target di trascrizione non si traduce necessariamente in downregulation di espressione genica. Infatti, la maggior parte degli eventi di legame miRNA osservati, come rivelato dall’analisi CLIP, hanno poche conseguenze funzionali . Pertanto, concentrarsi sul solo legame miRNA ha un valore limitato per la previsione di obiettivi miRNA funzionali, cioè obiettivi downregolati. Per alleviare questa preoccupazione, abbiamo determinato direttamente la downregulation target da miRNA con RNA-seq. La progettazione complessiva dello studio è riassunta nel file aggiuntivo 1: Figura S1. Come primo passo, 25 miRNA, insieme a un RNA di controllo negativo, sono stati sovraespressi individualmente nelle cellule HeLa mediante trasfezione. Questi 25 MIRNA sono elencati nella Tabella 1. L’impatto della sovraespressione del miRNA è stato profilato a livello di trascrittoma da esperimenti RNA-seq. Per controllare le variazioni sperimentali, ogni miRNA è stato trasfettato in cellule in duplicato in giorni diversi, e la costruzione della libreria RNA-seq e le esecuzioni di sequenziamento sono state eseguite anche in duplicato in giorni diversi. In totale, sono state generate 1,5 miliardi di letture per la profilazione dell’espressione di 52 campioni di RNA. I dati di profilazione sono presentati nel file aggiuntivo 2: Tabella S1. Tutti i dati di sequenziamento sono stati combinati per identificare i geni downregulated da sovraespressione miRNA. Nella nostra analisi, i trascritti che contengono almeno un sito di legame del seme del miRNA e sono stati downregulated da almeno 40% in entrambi gli esperimenti duplicati sono designati come obiettivi del miRNA. Al contrario, le trascrizioni che contengono almeno 1 sito seed ma non hanno avuto alcuna modifica dell’espressione sono designate come controlli non target. In questo modo, 2240 e 4127 miRNA target e controlli non target sono stati identificati da RNA-seq, rispettivamente. In particolare, sono stati identificati 90 obiettivi per ogni miRNA in media, e il numero di obiettivi varia notevolmente tra i singoli MIRNA (che vanno da 11 a 206, Tabella 1).
L’impatto dei tipi del seme del miRNA sulla downregulation dell’obiettivo
Gli studi precedenti hanno identificato parecchi tipi principali di siti canonici dell’obiettivo del miRNA, compreso quelli che corrispondono alle sequenze 6-mer, 7-mer, o 8-mer del seme del miRNA (tabella 2). L’analisi di conservazione della sequenza ha suggerito che i siti bersaglio che si accoppiano a semi di miRNA più lunghi sono più conservati tra le specie e quindi hanno maggiori probabilità di essere bersagli di miRNA in buona fede . Questa ipotesi sulla forza del tipo di seme è stata confermata anche analizzando set di dati microarray eterogenei nel contesto della downregulation target . Tuttavia, sono necessarie ulteriori analisi per quantificare con precisione il contributo di ciascun tipo di seme. Il nostro nuovo set di dati RNA-seq su larga scala, che comprende 25 miRNA valutati in condizioni sperimentali uniformi, ha fornito un’opportunità unica per valutare quantitativamente la forza di diversi semi di miRNA sulla downregulation target. In particolare, abbiamo valutato l’arricchimento di ciascun tipo di seme in siti target regolamentati rispetto a siti non target.
Come mostrato nella Tabella 2 e Fig. 1a, seed6 è il tipo più diffuso, identificato nell ‘ 86% di tutti gli obiettivi downregulated. Tuttavia, a causa della sua breve lunghezza, le seme6 sono presenti anche non specificamente nel 36% dei siti non bersaglio, risultando nel più basso rapporto di arricchimento delle sementi (2,40 nella tabella 2). Dall’altra parte, seed8A1 è il tipo più selettivo, con un rapporto di arricchimento di 6.83 ed è presente nel 30% degli obiettivi downregulated. Tra tutti i semi 7-mer, seed7b e seed7A1 hanno rapporti di arricchimento simili, entrambi superiori al rapporto per seed7a.
Un altro tipo di seme 8-mer, seed8, ha il secondo più alto rapporto di arricchimento di 5,48, che è superiore ai rapporti per tutti i semi 7-mer. Per distinguere ulteriormente il potenziale contributo della partita base terminale dal terminale Una base nel sito di destinazione, ci siamo concentrati esclusivamente su 8 miRNA che non hanno un 5 ‘ – end U (Fig. 1 ter). Rispetto a tutti i 25 MIRNA, abbiamo osservato rapporti di arricchimento simili per seed7b e seed8A1, rispettivamente, da questo sottoinsieme di MIRNA (Tabella 2). Questi risultati suggeriscono che il terminale A-U perfect match ha un impatto limitato sul riconoscimento del target, poiché la presenza del terminale A nei siti target, indipendentemente dal suo stato di accoppiamento con il miRNA, è associata alla downregulation del target. È interessante notare che abbiamo anche osservato un rapporto di arricchimento drasticamente diminuito per seed8 da questo sottoinsieme di miRNA. Infatti, il rapporto seed8 (3.32) è addirittura inferiore a quello per seed7b (Tabella 2). Pertanto, una corrispondenza terminale perfetta diversa da A-U è dannosa (piuttosto che contribuire) al riconoscimento del target. Sulla base dell’analisi dei semi, abbiamo deciso di concentrarci su 3 tipi di semi più forti, tra cui seed8A1, seed7b e seed7A1, per la modellazione della previsione degli obiettivi. Combinati insieme, questi 3 tipi di semi sono stati identificati nel 3 ‘ – UTR del 76% dei trascritti downregulated.
Combinare i dati di downregulation target e CLIP binding per identificare le funzionalità di targeting comuni
Una preoccupazione comune con gli studi di sovraespressione miRNA è che è difficile individuare il sito di associazione miRNA esatto all’interno della trascrizione di destinazione. Per alleviare questa preoccupazione, abbiamo identificato i siti di destinazione candidati in base alla presenza di canonici siti di semi 7-mer o 8-mer. In contrasto con l’analisi di sovraespressione del miRNA, gli studi di legatura a clip sono in grado di identificare in modo inequivocabile i siti di legame del miRNA nella trascrizione target reticolando il miRNA e il suo sito target affine nello stesso complesso RISC. Tuttavia, la conseguenza funzionale del miRNA target binding, come identificato da CLIP, non può essere facilmente determinata. Pertanto, entrambi i metodi di rilegatura a CLIP e di sovraespressione miRNA hanno pro e contro, e ogni metodo da solo descrive solo un aspetto importante della regolazione del bersaglio miRNA, cioè rispettivamente il legame del bersaglio e la soppressione funzionale.
Nella nostra analisi, siamo interessati a identificare caratteristiche comuni che sono caratteristiche della regolazione funzionale del bersaglio, tra cui sia il legame miRNA che la successiva downregulation del bersaglio. In una recente analisi di previsione degli obiettivi, abbiamo compilato un set di dati miRNA target binding derivato da più studi di legatura di CLIP pubblici . Il metodo di legatura della CLIP è considerato vantaggioso rispetto ai metodi di CLIP tradizionali, poiché sia il miRNA che il suo sito di legame affine nella trascrizione di destinazione possono essere identificati in modo inequivocabile mediante reticolazione allo stesso complesso RISC. Nel presente studio, il set di dati CLIP binding è stato ulteriormente combinato con nuovi dati di sovraespressione miRNA per identificare le funzionalità di targeting comuni sia al binding miRNA che alla soppressione del target. In questo modo, 4774 siti target e 8081 siti non target, identificati da studi di sovraespressione CLIP e miRNA, sono stati combinati e valutati in successive analisi delle funzionalità.
Siti target e non target nel set di dati combinato sono stati confrontati per identificare le caratteristiche che sono comunemente associate alla regolazione del target miRNA. Queste caratteristiche sono elencate nel file aggiuntivo 3: Tabella S2. È ben stabilito che i siti target di miRNA sono conservati evolutivamente . Nel nostro studio, abbiamo valutato la conservazione degli obiettivi utilizzando due approcci complementari. In primo luogo, abbiamo calcolato la differenza nei punteggi di conservazione tra le posizioni di legame del seme e le posizioni di fiancheggiamento, come determinato dai punteggi phyloP dall’allineamento multi-genoma a 100 vie . In secondo luogo, abbiamo anche determinato se l’intero sito di semi (7-mer o 8-mer) si trova su più specie mediante ricerca di parole. Entrambe le analisi di conservazione hanno indicato che i siti bersaglio sono stati conservati in modo molto significativo rispetto ai siti non bersaglio. Infatti, la conservazione dei semi è stata tra le caratteristiche più significativamente arricchite, sia che i dati di sovraespressione miRNA e di legame a clip siano stati analizzati separatamente, o in combinazione. In particolare, il seed8A1 conservato è stato il più arricchito nei siti target (p = 2.8 E−245 per corrispondenza di semi incrociati e p = 7.3 E-218 per punteggio phyloP, rispettivamente). Dall’altra parte, seed7A1 non conservato era il tipo di seme più impoverito (9.5 E−134 per partita di semi e p = 1.3 E−138 per punteggio filop, rispettivamente). Oltre alla conservazione dei semi, c’erano molte altre caratteristiche che si trovano comunemente in entrambi i set di dati. Ad esempio, i siti bersaglio miRNA erano preferenzialmente associati a sequenze 3′-UTR più corte (p = 4.7 E−126), ed erano più probabili essere trovati verso la fine della sequenza 3′-UTR (p = 5.4 E−66) e lontano dal centro delle trascrizioni lunghe (p = 2.5 E−87).
Nonostante molte somiglianze, ci sono anche differenze distinte tra la sovraespressione miRNA e i dati di associazione a CLIP. Un esempio importante è legato al contenuto GC del sito di destinazione. Rispetto ai siti non target, il contenuto GC del sito target era molto più basso nei dati di associazione a CLIP (p = 1.9E-146), ma solo modestamente inferiore nei dati di sovraespressione miRNA (p = 2.1 E−10). L’esaurimento del nucleotide C è stato moderato in entrambi i set di dati. Pertanto, la drastica differenza nel contenuto di GC tra i due set di dati era principalmente il risultato di un pregiudizio molto più forte contro il nucleotide G nei dati CLIP (p = 7.7 E−137), in contrasto con i dati di sovraespressione (p = 1.2 E−19). Una possibile spiegazione potrebbe essere correlata alla RNasi T1 utilizzata negli studi CLIP, che taglia preferenzialmente il nucleotide G, con conseguente esaurimento del G interno nelle letture di sequenziamento. Tuttavia, potrebbe anche essere vero che l’arricchimento di G ostacola il legame del sito bersaglio da parte del complesso miRISC, poiché G è stato anche esaurito nei dati di sovraespressione miRNA, anche se solo moderatamente. Un’altra caratteristica interessante è la stabilità del legame del seme, determinata dall’energia libera del duplex seme/bersaglio. La stabilità obbligatoria del seme è stata favorita nei dati di sovraespressione del miRNA (p = 2,5 E−12), ma disfavorita nei dati obbligatori della CLIP (p = 5,4 E−26). Nel complesso, questa caratteristica non era più significativa quando i due set di dati sono stati combinati (p = 0,26).
Sviluppo di un modello di previsione target con funzionalità di targeting comuni
Tutte le funzionalità di targeting miRNA, elencate nel file aggiuntivo 3: Tabella S2, sono state modellate in un framework SVM (Support Vector Machine) per lo sviluppo di algoritmi. Inoltre, abbiamo anche eseguito l’analisi RFE (Recursive Feature Elimination) per classificare l’importanza relativa di ciascuna funzione per il suo contributo indipendente alle prestazioni del modello. In questa valutazione RFE, tutte le funzionalità sono state analizzate collettivamente utilizzando SVM. In particolare, come primo passo, la caratteristica meno importante è stata identificata e successivamente rimossa dal modello. Successivamente, le funzionalità rimanenti sono state valutate per identificare la seconda caratteristica meno importante per l’eliminazione. Questo processo di valutazione è stato ripetuto con una caratteristica eliminata da ogni iterazione fino a quando è rimasta solo una caratteristica. L’approccio RFE aiuta a comprendere il contributo indipendente delle singole caratteristiche incluse nel modello. La tabella 3 riassume 20 caratteristiche di targeting di alto livello per analisi RFE. I ranghi RFE completi di tutte le funzionalità sono elencati nel file aggiuntivo 3: Tabella S2. Coerentemente con l’analisi delle caratteristiche presentata nella sezione precedente, le caratteristiche multiple della conservazione del seme hanno classificato fra il più alto dall’analisi di RFE, con seed8A1 conservato come la caratteristica più impattante. Nel nostro modello SVM finale, tutte le 96 funzionalità, incluse quelle statisticamente significative e non significative, sono state integrate per la creazione del modello di previsione, che abbiamo denominato MirTarget v4.0. È stata eseguita una convalida incrociata di cinque volte per determinare i parametri ottimali per la funzione del kernel SVM utilizzando la griglia.strumento py nel pacchetto libsvm. Uno schema di punteggio è stato quindi sviluppato per rappresentare la fiducia della previsione. Per ogni sito di destinazione candidato, MirTarget calcola un punteggio di probabilità (nell’intervallo 0-1) derivato dallo strumento di modellazione SVM, libsvm, come descritto in precedenza . Questo punteggio del sito di destinazione riflette la valutazione statistica dell’accuratezza della previsione. Sulla base dei singoli punteggi del sito di destinazione, MirTarget predice se un gene è un bersaglio miRNA combinando tutti i punteggi del sito all’interno del 3 ‘ – UTR utilizzando la seguente formula:
dove n rappresenta il numero di siti di destinazione candidati nel 3 ‘ – UTR, e Pi rappresenta il punteggio di probabilità per ogni sito come stimato da MirTarget. La maggior parte dei geni bersaglio contengono un solo sito, e quindi, il punteggio finale bersaglio viene calcolato utilizzando la stessa equazione con n = 1. I punteggi MirTarget sono stati utilizzati per classificare il significato relativo degli obiettivi previsti. In questo modo, abbiamo impiegato MirTarget per la previsione genome-wide degli obiettivi miRNA. Tutti gli obiettivi previsti sono presentati in miRDB (http://mirdb.org) .
Valutazione dell’algoritmo con dati sperimentali indipendenti
Una preoccupazione comune nello sviluppo dell’algoritmo è che un modello possa funzionare bene sui dati di allenamento, ma non altrettanto sui dati indipendenti non visti. Pertanto, il modo migliore per valutare le prestazioni di MirTarget sarebbe applicarlo a dati sperimentali indipendenti. Nel presente studio, sono stati analizzati dati sperimentali eterogenei per la valutazione dell’algoritmo, inclusi quelli generati da esperimenti di legame a CLIP e miRNA knockdown. Le prestazioni di MirTarget sono state anche confrontate con altri quattro algoritmi ben consolidati, tra cui TargetScan 7.0, DIANA-MicroT, miRanda (mirSVR) e PITA. Questi algoritmi sono tra gli strumenti di previsione miRNA target più popolari e i dati di previsione a livello di trascrittoma sono facilmente scaricabili dai rispettivi siti web.
Convalida con dati CLIP-seq
Chi et al. pioniere del metodo HITS-CLIP per l’identificazione sperimentale delle trascrizioni miRNA target . Con questo metodo, hanno eseguito l’immunoprecipitazione reticolante per abbattere i trascritti di mRNA associati al miRISC nel cervello del topo. Il sequenziamento ad alto throughput è stato quindi eseguito per identificare questi tag di trascrizione dell’mRNA, cioè brevi frammenti di RNA protetti da Ago dalla digestione della RNasi. Chi et al. dimostrato che in generale, i tag di trascrizione sono centrati sui siti di legame del seme . Questo set di dati HITS-CLIP è stato ulteriormente analizzato nel nostro studio per identificare potenziali siti target miRNA. Complessivamente, sono stati identificati 886 potenziali siti bersaglio sulla base delle sequenze di corrispondenza dei semi per i sei MIRNA più abbondantemente espressi. Come controlli negativi, è stato selezionato anche un insieme di potenziali sequenze non target in base ai seguenti criteri: (1) non si sovrappongono a nessun tag di sequenza identificato nell’esperimento HITS-CLIP e (2) provengono da trascrizioni con livelli di espressione rilevabili come rivelato dai microarray. Da questi siti non bersaglio, 889 con sequenze di seed-matching sono stati selezionati come controlli negativi.
Nella nostra analisi, le prestazioni di cinque algoritmi computazionali, tra cui MirTarget, TargetScan, DIANA-MicroT, miRanda e PITA, sono state valutate confrontando la loro capacità di distinguere target da non target come rivelato da HITS-CLIP. L’analisi ROC è stata eseguita per valutare la sensibilità generale e la specificità degli algoritmi di predizione. Come mostrato in Fig. 2a, MirTarget ha le migliori prestazioni, con un’area sotto la curva ROC (AUC) di 0,78. DIANA-MicroT ha la seconda migliore prestazione (AUC = 0,73). È interessante notare che DIANA-MicroT è stato sviluppato allenandosi con i dati di associazione a CLIP, mentre altri algoritmi pubblici sono stati addestrati con i dati di sovraespressione miRNA. Pertanto, non sorprende che DIANA-MicroT si adatti relativamente bene ai dati di test di CLIP. Oltre all’analisi ROC, abbiamo anche costruito curve di richiamo di precisione (PR) per valutare l’accuratezza della previsione. Le curve PR sono comunemente utilizzate nella valutazione dell’algoritmo per determinare la precisione di previsione (percentuale di veri positivi tra tutti i positivi previsti) in relazione al tasso di richiamo (percentuale di veri positivi identificati tra tutti i veri positivi). Come mostrato in Fig. 2b, MirTarget ha le migliori prestazioni tra tutti e cinque gli algoritmi. In particolare, la precisione per MirTarget è superiore al 90% quando il tasso di richiamo è inferiore al 20%. Ciò indica che MirTarget è particolarmente preciso per le previsioni ad alta fiducia (cioè, punteggi di previsione elevati).
Validazione con miRNA knockdown data
Gli algoritmi di predizione target sono stati valutati anche nel contesto delle modifiche alle espressioni target. In questa analisi comparativa, abbiamo valutato gli algoritmi impiegando uno studio pubblico miRNA knockdown di Hafner et al. . In quello studio pubblico, gli autori hanno contemporaneamente soppresso le funzioni di 25 miRNA dagli inibitori antisenso e valutato l’impatto sull’espressione dell’RNA bersaglio con microarray. Ci si aspettava che i geni presi di mira da questi miRNA fossero sovraregolati a causa dell’inibizione dei miRNA. Nella nostra analisi, abbiamo valutato la correlazione tra i punteggi di previsione target e l’upregulation dell’espressione target. Come mostrato in Fig. 3a, rispetto ad altri algoritmi, i punteggi di previsione calcolati da MirTarget hanno la più alta correlazione con l’upregulation dell’espressione genica. Inoltre, abbiamo anche valutato i cambiamenti di espressione genica per le previsioni di alto livello da parte di singoli algoritmi, in quanto i ricercatori sono particolarmente interessati ai candidati target ad alta fiducia. A tal fine, abbiamo valutato 100 obiettivi predetti di alto livello per miRNA in media da ciascun algoritmo. Coerentemente con l’analisi di correlazione, gli obiettivi previsti da MirTarget sono stati in media più regolamentati rispetto a quelli previsti da altri algoritmi (Fig. 3 ter).