Prevalenza di CNV intragenici in un’ampia coorte clinica
Abbiamo testato vari sottoinsiemi di 1507 geni in 143.515 individui non correlati sottoposti a test diagnostici del pannello genetico NGS. Sono state completate un totale di ~4,8 milioni di analisi a singolo gene. Tra quasi 8,1 milioni di varianti di tutti i tipi, abbiamo identificato 2844 CNV intragenici (1237 eventi distinti). Tali CNV rappresentavano lo 0,03% di tutte le varianti, il 3,1% delle varianti segnalate e, in particolare, il 9,1% delle varianti classificate come LP/P (Tabella supplementare 1 e Figura supplementare 1). Queste varianti sono state trovate in 384 geni e includevano 1810 eliminazioni e 1034 duplicazioni, che insieme rappresentavano una prevalenza dell ‘ 1,9% in questa coorte, del 4,4% tra gli individui con almeno una variante segnalata e, più significativamente, del 9,8% tra gli individui che hanno ricevuto un rapporto con una variante LP/P di qualsiasi tipo.
Modelli di occorrenza CNV intragenica
Le CNV sono rientrate in una delle tre categorie: singoli eventi rari, eventi ricorrenti comuni e eventi ricorrenti a bassa frequenza (Fig. 1 bis). Ciascuna categoria rappresentava circa un terzo di tutte le CNV osservate. La stragrande maggioranza dei 384 geni con CNV aveva solo un CNV ciascuno, ma questi singoli CNV insieme rappresentavano meno del 10% di tutti gli eventi (Fig. 1 ter). Al contrario, 31 dei 384 geni avevano 15 o più CNV, ma questi rappresentavano quasi il 70% di tutti i CNV. A parte le frequenze, sono state esaminate le posizioni intrageniche e le dimensioni dei CNV, perché queste proprietà possono determinare l’impatto clinico. Un quarto dei CNV includeva solo un esone. La maggior parte delle CNV intrageniche erano eventi multi-esonici a gene parziale e la maggior parte comprendeva solo esoni interni senza coinvolgere gli esoni terminali (primi o ultimi) codificanti (Fig. 1 quater, d). Tra le CNV a gene parziale che coinvolgono esoni terminali, più eliminazioni che duplicazioni includevano i primi esoni, mentre un numero simile di eliminazioni e duplicazioni includeva gli ultimi esoni. Infine, una percentuale maggiore di duplicazioni rispetto alle eliminazioni includeva il gene completo. Quasi un quinto di tutti i CNV distinti (non ridondanti) includeva un gene completo e, in 40 casi, i CNV comprendevano diversi geni vicini ed erano presenti su almeno 10 cromosomi (Tabelle supplementari 1, 2).
Classificazione clinica di CNV
Le eliminazioni sono state più frequenti in questa coorte clinica e la maggior parte sono state segnalate come varianti LP/P (Fig. 1c). Tuttavia, alcune eliminazioni sono state classificate come VUS, principalmente perché erano varianti in-frame in geni senza meccanismi mutazionali di perdita di funzione (LOF). Al contrario, più della metà delle duplicazioni sono state classificate come VUS. Tra le duplicazioni di geni parziali, 359 hanno coinvolto esoni terminali e 225 hanno coinvolto solo esoni interni (Fig. 1d). Si prevede che almeno 166 duplicazioni comprendenti solo esoni interni abbiano un effetto negativo sul quadro di lettura della trascrizione e siano pertanto classificate come LP/P (Tabella supplementare 2). Per almeno 30 duplicazioni, abbiamo osservato i punti di interruzione putativi basati su dati di sequenza di lettura divisa e previsto un accordo in tandem che avrebbe interrotto il frame di lettura della trascrizione. Ciò supporta le precedenti asserzioni secondo cui le duplicazioni intrageniche sono tipicamente riarrangiamenti tandem localizzati rispetto a eventi più complicati come le traslocazioni inserzionali.18
Abbiamo anche considerato la distribuzione e la zigosità delle CNV nei geni associati a disturbi autosomici dominanti (AD), autosomici recessivi (AR) e X-linked (XL) (Fig. 1e, f). La stragrande maggioranza dei CNV era in geni associati all’ereditarietà AD o XL, anche se questo risultato riflette un pregiudizio perché la maggior parte dei geni testati aveva questi modelli di ereditarietà. Dei 2096 CNV classificati come LP / P, l ‘ 85% erano in geni associati all’ereditarietà AD o XL e il 15% erano in geni associati all’ereditarietà AR. Di questi ultimi, il 6,7% erano delezioni omozigoti, il 2,8% erano cambiamenti eterozigoti composti che accompagnavano un SNV patogeno sull’altro allele (costituendo una diagnosi molecolare positiva per un disturbo AR; Tabella supplementare 1) e il 5,5% erano singoli eventi eterozigoti.
Quasi tutti i CNV in questa coorte sono stati trovati in geni con meccanismi LOF (Fig. 1e). La maggior parte delle CNV in questi geni erano delezioni classificate come patogene, mentre più della metà delle duplicazioni erano classificate come VUS. Comparativamente, i 304 geni senza meccanismi LOF avevano pochi CNV, per lo più classificati come VUS o benigni (Fig. 1f) e significativamente più duplicazioni rispetto alle eliminazioni (p = 1,8×10-9).
CNV e morbilità
L’analisi di un gran numero di pannelli multigeni ha mostrato una prevalenza variabile di CNV tra i gruppi di malattie (Fig. 2a, b; Tabella supplementare 4). I geni con CNV avevano eventi per lo più ricorrenti, eventi per lo più unici, o un mix di entrambi (Fig. 2 quater). Tra i pannelli che avevano prodotto almeno 10 varianti patogene di qualsiasi tipo, più di un terzo aveva CNV che rappresentano più del 10% delle varianti patogene. I pannelli genetici che hanno prodotto il maggior numero di CNV sono stati quelli per l’atrofia muscolare spinale, la malattia di Charcot–Marie–Tooth e le distrofinopatie, come previsto. Tuttavia, i pannelli per difetti cardiaci congeniti ed eterotassia, sindrome di Lynch, sarcoma, distrofia muscolare e distonia hanno anche identificato molti CNV. Al contrario, i pannelli genetici con le frequenze CNV più basse includevano quelli per pancreatite cronica, rasopatie, cardiomiopatie e trombofilia ereditaria.
I geni per le sindromi tumorali ereditarie hanno mostrato una prevalenza elevata (8,3% nel complesso; intervallo 0-50% tra i pannelli) di CNV tra le varianti patogene (Fig. 2a; Tabelle supplementari 3 e 4). Tra i 1059 CNV patogeni osservati in questi geni, 219 sono stati osservati solo una volta e 174 sono stati ricorrenti. BRCA1 e BRCA2 avevano una prevalenza combinata di CNV del 6,1% (intervallo di confidenza : 5,4–6,9%) tra le varianti patogene, coerente con studi precedenti (individualmente, BRCA1 11.4%, BRCA2 1,7%).15,19,20 CNVS sono stati anche arricchiti in altri geni, come EPCAM, STK11 e VHL, e in geni su vari pannelli con basse rese diagnostiche complessive. Usando il nostro metodo NGS, abbiamo anche osservato 90 CNV negli esoni duplicati segmentalmente 12-15 della copia del gene funzionale di PMS2 (Tabella supplementare 1). Infine, 25 CNV sono stati osservati nelle regioni promotrici di GREM1, TP53 e APC.
I CNV nei geni associati a disturbi pediatrici e rari rappresentavano il 7,7% delle varianti patogene (intervallo 0-82% tra i pannelli; Fig. 2 quater). Abbiamo trovato le più alte frequenze di CNV in pannelli per encefalopatia epilettica infantile precoce, sindrome di Joubert, sclerosi tuberosa e malformazioni cavernose cerebrali (Tabella supplementare 4). I geni più frequentemente colpiti da CNV patogeni sono stati NF1, NPHP1 e TSC2 (Tabella supplementare 3). Tra i geni dell’epilessia, abbiamo osservato CNV che coinvolgono UBE3A in 15q13.1 e PRRT2 in 16p11.2, che erano probabilmente riarrangiamenti citogenetici ricorrenti. Abbiamo osservato frequenze CNV inferiori nei pannelli genetici per ciliopatie, rasopatie, osteogenesi imperfetta e fibrosi cistica (Tabella supplementare 4). I pannelli sulla sindrome di Noonan e sulla pancreatite cronica hanno identificato pochissime o nessuna CNV patogena, sebbene siano stati testati almeno 270 individui e siano state segnalate più di 60 varianti patogene in ciascun pannello.
I geni per i disturbi cardiovascolari hanno mostrato una prevalenza comparativamente inferiore di CNV tra le varianti patogene (4,7% complessivo; intervallo 0-16, 7% tra i pannelli). Le più alte frequenze di CNV si sono verificate in pannelli per cardiomiopatia e malattia del muscolo scheletrico (un sottoinsieme del pannello completo di cardiomiopatia), ipercolesterolemia familiare e sindrome di Brugada (Tabella supplementare 4). Al contrario, pochissimi CNV sono stati trovati in pannelli per aritmie (diverse da Brugada) e aortopatie, mentre il pannello cardiomiopatie aveva la più bassa prevalenza di CNV patogeni. I geni con il più alto numero di CNV patogeni erano LDLR, FBN1, PKP2, MYBPC3 e RYR2 (Tabella supplementare 3). In alcuni pannelli che producono una prevalenza di CNV apparentemente elevata, la maggior parte se non tutti i CNV erano in uno o due geni (ad esempio, ENG e LDLR). I pannelli per i disturbi cardiovascolari con la più alta resa diagnostica complessiva avevano anche i geni con la più alta prevalenza di CNV, ad eccezione di quelli per aritmie e cardiomiopatie, che erano esauriti di CNV e in cui la maggior parte delle diagnosi positive erano invece spiegate da SNV.
I pannelli genetici per disturbi neurologici (principalmente disturbi neuromuscolari nei nostri pannelli) hanno mostrato la più alta prevalenza di CNV intragenici tra le varianti patogene (35% complessivo, intervallo 0-100% tra i pannelli; Fig. 2a, c; Tabella complementare 4). Questo risultato è stato ampiamente spiegato dalla duplicazione genetica ricorrente e dalla delezione reciproca in PMP22, dalle delezioni in SMN1 e da varie CNV in DMD (Tabella supplementare 3; Fig. 2c, d; Figura supplementare 2). Utilizzando un metodo NGS personalizzato, abbiamo trovato 135 casi di delezione SMN1 tra 819 individui con sospetta atrofia muscolare spinale e la gamma di copie SMN2 variava da 0 a 5. Anche quando PMP22, SMN1 e DMD sono stati esclusi, i CNV intragenici nei geni legati a disturbi neurologici rappresentavano ancora il 6% di tutte le varianti patogene nella nostra coorte. Altri geni per disturbi neurologici comunemente colpiti da CNV inclusi PARK2, LAMA2, e SPG11.
Analisi dei CNV basali
Il nostro test diagnostico era limitato ai geni della malattia richiesti dai medici, ma molti geni non correlati al fenotipo clinico presentante erano anche sequenziati sui nostri test NGS. Abbiamo de-identificato i dati per tutti i geni 1507 sequenziati in individui 143,142 e studiato l’insorgenza di CNV intragenici in geni non requisiti per stimare la prevalenza basale di questi eventi. Queste CNV indipendenti dal fenotipo sono di seguito indicate come ” CNV di base.”Una ricerca di CNV di base è stata eseguita in 7-616 geni per individuo per un totale di 16 milioni di analisi a singolo gene. Questa ricerca ha prodotto 4054 CNV intragenici (1465 eventi distinti) in 3772 individui attraverso 599 geni (Tabella supplementare 5). La maggior parte di questi CNV erano presenti solo una volta, ma alcuni sono stati visti da 2 a più di 15 volte (Fig. 3a; Tabella supplementare 6). Tuttavia, gli eventi ricorrenti in aggregato hanno rappresentato la maggior parte delle osservazioni CNV di base. La stragrande maggioranza dei geni con CNV al basale ha avuto cinque o meno eventi (Fig. 3 ter). Solo 47 geni contenevano più della metà di tutti i CNV di base osservati, inclusi entrambi i geni con eventi ricorrenti identici e quelli con una moltitudine di eventi unici. La maggior parte degli individui con un CNV basale intragenico ha avuto solo un singolo evento, ma 146 individui hanno avuto CNV aggiuntivi in geni su cromosomi diversi. In media, abbiamo rilevato un CNV basale ad una velocità di 1 in ogni 3979 geni sequenziati con i nostri test.
In contrasto con le CNV identificate nei geni clinicamente testati in questa coorte, la maggior parte delle CNV intrageniche al basale erano duplicazioni (Figs. 1c, d e 3c). La maggior parte erano anche varianti eterozigoti nei geni AR o geni che mancavano di meccanismi LOF stabiliti (Fig. 3d, e). Una minoranza di CNV al basale si è verificata nei geni associati all’ereditarietà dell’AD o ai meccanismi LOF (Figs. 1e, f e 3d, e). Le CNV al basale più comuni includevano eventi a gene intero in NPHP1, NIPA1, MYH11, DNAI2, HFE2, SMN1 e PMP22 e eventi a gene parziale in TFG, BBS9, CTNNA3, PARK2, KCTD7, DNAJC6, GLIS2 e TUBB4A (Tabella supplementare 6). In termini di caratteristiche che possono spiegare l’esistenza di CNV di base nei geni della malattia, abbiamo notato che quasi il 40% di questi CNV comprendeva un intero gene e quindi non interrompeva direttamente i frame di lettura della trascrizione (Fig. 3 quater). Inoltre, circa il 90% delle duplicazioni nei geni con meccanismi LOF erano eventi di gene intero o eventi di gene parziale incluso un esone terminale, mentre solo la metà delle eliminazioni in questi geni mostrava gli stessi schemi (Tabella supplementare 5).
Oltre a valutare la prevalenza complessiva e le proprietà delle CNV al basale, abbiamo considerato le implicazioni cliniche previste. Abbiamo osservato 237 delezioni eterozigoti in 97 geni con ereditarietà AD o XL e meccanismi LOF; la maggior parte erano in PMP22, DMD, AARS, KCNQ1, FIG4, CHEK2 e LRSAM1 (tabelle supplementari 5 e 7). Abbiamo trovato solo due delezioni omozigoti in geni con ereditarietà AR (NPHP1 e SPG7) e solo due delezioni emizigote in un singolo gene con ereditarietà XL (DMD) nei maschi. Tutti gli altri CNV omozigoti nei geni con ereditarietà AR, o CNV emizigoti nei geni con ereditarietà XL nei maschi, erano duplicazioni. Inoltre, abbiamo osservato CNVS specificamente in geni con considerazioni di azionabilità medica secondo l’ACMG.21,22 Abbiamo valutato i CNV in 58 dei 59 geni elencati in ACMG (escluso il PMS2) in 5.300–69.000 individui a seconda dei test utilizzati per i test. Un totale di 46 eliminazioni e 110 duplicazioni sono state rilevate, suggerendo una frequenza fino allo 0,8% (CI: 0,58–1,11%) tra gli individui testati per quei geni. MYH11, MYH7, KCNQ1 e RYR2 contenevano la maggior parte dei CNV. In particolare, ci sono state eliminazioni in 16 geni-KCNQ1, MYH11, MYH7, MYBPC3, PCSK9, BRCA1, RYR2, PKP2, TGFBR2, SMAD3, OTC, NF2, FBN1, DSP, DSC2 e APC—più della metà dei quali hanno meccanismi LOF (Tabella supplementare 7).