Prävalenz intragener CNVs in einer großen klinischen Kohorte
Wir testeten verschiedene Teilmengen von 1507 Genen an 143.515 nicht verwandten Personen, die für diagnostische NGS-Genpanel-Tests überwiesen wurden. Insgesamt wurden ~ 4,8 Millionen Einzelgenanalysen durchgeführt. Unter fast 8,1 Millionen Varianten aller Typen identifizierten wir 2844 intragene CNVs (1237 verschiedene Ereignisse). Auf diese CNV entfielen 0,03% aller Varianten, 3,1% der gemeldeten Varianten und insbesondere 9,1% der als LP/P eingestuften Varianten (ergänzende Tabelle 1 und ergänzende Abbildung 1). Diese Varianten wurden in 384 Genen gefunden und umfassten 1810 Deletionen und 1034 Duplikationen, was zusammen eine Prävalenz von 1,9% in dieser Kohorte, 4,4% bei Personen mit mindestens einer gemeldeten Variante und signifikanter 9,8% bei Personen darstellte, die einen Bericht mit einer LP / P-Variante eines beliebigen Typs erhielten.
Muster des intragenen CNV—Auftretens
CNVs fielen in eine von drei Kategorien – einzelne seltene Ereignisse, häufige wiederkehrende Ereignisse und niederfrequente wiederkehrende Ereignisse (Abb. 1a). Jede Kategorie repräsentierte ungefähr ein Drittel aller beobachteten CNVs. Die überwiegende Mehrheit der 384 Gene mit CNVs hatte jeweils nur ein CNV, aber diese einzelnen CNVs zusammen machten weniger als 10% aller Ereignisse aus (Abb. 1b). Im Gegensatz dazu hatten 31 der 384 Gene 15 oder mehr CNVs, aber diese repräsentierten fast 70% aller CNVs. Neben den Häufigkeiten wurden die intragenen Lokalisationen und Größen von CNVs untersucht, da diese Eigenschaften die klinische Wirkung bestimmen können. Ein Viertel der CNVs enthielt nur ein Exon. Eine Mehrheit der intragenen CNVs waren multiexonische partielle Genereignisse, und die meisten umfassten nur interne Exons, ohne die terminalen (ersten oder letzten) kodierenden Exons einzubeziehen (Abb. 1c, d). Bei partiellen Gen-CNVs mit terminalen Exons umfassten mehr Deletionen als Duplikationen die ersten Exons, während eine ähnliche Anzahl von Deletionen und Duplikationen die letzten Exons umfasste. Schließlich umfasste ein größerer Anteil von Duplikationen als Deletionen das gesamte Gen. Fast ein Fünftel aller unterschiedlichen (nicht redundanten) CNVs enthielt ein vollständiges Gen, und in 40 Fällen umfassten die CNVs mehrere benachbarte Gene und waren auf mindestens 10 Chromosomen vorhanden (ergänzende Tabellen 1, 2).
Klinische Klassifikation von CNVs
Deletionen waren in dieser klinischen Kohorte häufiger und die meisten wurden als LP / P-Varianten berichtet (Abb. 1c). Einige Deletionen wurden jedoch als VUS klassifiziert, hauptsächlich weil es sich um In-Frame-Varianten in Genen ohne Funktionsverlust (LOF) -Mutationsmechanismen handelte. Im Gegensatz dazu wurden mehr als die Hälfte der Duplikationen als VUS eingestuft. Von den partiellen Genduplikationen betrafen 359 terminale Exons und 225 nur interne Exons (Abb. 1d). Bei mindestens 166 Duplikationen, die nur interne Exons umfassten, wurde ein negativer Effekt auf den Transkriptleserahmen vorhergesagt und daher als LP / P klassifiziert (ergänzende Tabelle 2). Für mindestens 30 Duplikationen beobachteten wir mutmaßliche Haltepunkte basierend auf Split-Read-Sequenzdaten und prognostizierten eine Tandem-Anordnung, die den Transkript-Leserahmen stören würde. Dies unterstützt frühere Behauptungen, dass intragene Duplikationen typischerweise lokalisierte Tandem-Umlagerungen im Vergleich zu komplizierteren Ereignissen wie insertionellen Translokationen sind.18
Wir untersuchten auch die Verteilung und Zygotie von CNVs in Genen, die mit autosomal dominanten (AD), autosomal rezessiven (AR) und X-verknüpften (XL) Störungen assoziiert sind (Abb. 1e, f). Die überwiegende Mehrheit der CNVs befand sich in Genen, die mit AD- oder XL-Vererbung assoziiert waren, obwohl dieses Ergebnis eine Verzerrung widerspiegelt, da die meisten der getesteten Gene diese Vererbungsmuster aufwiesen. Von 2096 als LP / P klassifizierten CNVs befanden sich 85% in Genen, die mit AD- oder XL-Vererbung assoziiert waren, und 15% in Genen, die mit AR-Vererbung assoziiert waren. Von den letzteren waren 6,7% homozygote Deletionen, 2,8% zusammengesetzte heterozygote Veränderungen, die eine pathogene SNV auf dem anderen Allel begleiteten (was eine positive molekulare Diagnose für eine AR-Störung darstellt; ergänzende Tabelle 1), und 5,5% waren einzelne heterozygote Ereignisse.
Fast alle CNVs in dieser Kohorte wurden in Genen mit LOF-Mechanismen gefunden (Abb. 1e). Die meisten CNVs in diesen Genen waren Deletionen, die als pathogen eingestuft wurden, während mehr als die Hälfte der Duplikationen als VUS klassifiziert wurden. Im Vergleich dazu hatten die 304 Gene ohne LOF-Mechanismen nur wenige CNVs, die meist als VUS oder gutartig klassifiziert waren (Abb. 1f) und deutlich mehr Duplikationen als Deletionen (p = 1,8×10-9).
CNVs und Morbidität
Die Analyse einer großen Anzahl von Multigen-Panels zeigte eine unterschiedliche CNV-Prävalenz zwischen den Krankheitsgruppen (Abb. 2a, b; Ergänzende Tabelle 4). Gene mit CNVs hatten entweder meist wiederkehrende Ereignisse, meist einzigartige Ereignisse oder eine Mischung aus beidem (Abb. 2c). Unter den Panels, die mindestens 10 pathogene Varianten jeglicher Art erbracht hatten, hatte mehr als ein Drittel CNVs, die mehr als 10% der pathogenen Varianten ausmachten. Gen-Panels, die die höchste Anzahl von CNVs ergaben, waren diejenigen für spinale Muskelatrophie, Charcot-Marie-Tooth-Krankheit und Dystrophinopathien, wie erwartet. Panels für angeborene Herzfehler und Heterotaxie, Lynch-Syndrom, Sarkom, Muskeldystrophie und Dystonie identifizierten jedoch auch viele CNVs. Im Gegensatz dazu schlossen Genpanels mit den niedrigsten CNV-Frequenzen solche für chronische Pankreatitis, RASopathien, Kardiomyopathien und hereditäre Thrombophilie ein.
Gene für hereditäre Krebssyndrome zeigten eine hohe Prävalenz von CNVs unter pathogenen Varianten (8,3% insgesamt; 0-50% Bereich unter den Panels) (Abb. 2a; ergänzende Tabellen 3 und 4). Unter 1059 pathogenen CNVs, die in diesen Genen beobachtet wurden, wurden 219 nur einmal beobachtet und 174 waren rezidivierend. BRCA1 und BRCA2 hatten eine kombinierte CNV-Prävalenz von 6,1% (Konfidenzintervall : 5,4-6,9%) unter pathogenen Varianten, im Einklang mit früheren Studien (einzeln, BRCA1 11.4% , BRCA2 1,7% ).15,19,20 CNVs wurden auch in anderen Genen wie EPCAM, STK11 und VHL sowie in Genen auf verschiedenen Panels mit geringen diagnostischen Gesamtausbeuten angereichert. Mit unserer NGS-Methode beobachteten wir auch 90 CNVs in den segmental duplizierten Exons 12-15 der funktionellen Genkopie von PMS2 (ergänzende Tabelle 1). Zuletzt wurden 25 CNVs in Promotorregionen von GREM1, TP53 und APC beobachtet.
CNVs in Genen, die mit pädiatrischen und seltenen Erkrankungen assoziiert sind, machten 7,7% der pathogenen Varianten aus (Bereich 0-82% unter den Panels; Abb. 2c). Wir fanden die höchsten Häufigkeiten von CNVs in Panels für frühkindliche epileptische Enzephalopathie, Joubert-Syndrom, tuberöse Sklerose und zerebrale kavernöse Missbildungen (ergänzende Tabelle 4). Die Gene, die am häufigsten von pathogenen CNVs betroffen waren, waren NF1, NPHP1 und TSC2 (ergänzende Tabelle 3). Unter den Epilepsie-Genen beobachteten wir CNVs mit UBE3A in 15q13.1 und PRRT2 in 16p11.2, die wahrscheinlich wiederkehrende zytogenetische Umlagerungen waren. Wir beobachteten niedrigere CNV-Frequenzen in Genpanels für Ciliopathien, RASopathien, Osteogenesis imperfecta und Mukoviszidose (ergänzende Tabelle 4). Noonan-Syndrom und chronische Pankreatitis-Panels identifizierten sehr wenige oder keine pathogenen CNVs, obwohl mindestens 270 Personen getestet wurden und mehr als 60 pathogene Varianten in jedem Panel gemeldet wurden.
Gene für kardiovaskuläre Erkrankungen zeigten eine vergleichsweise geringere Prävalenz von CNVs unter pathogenen Varianten (4,7% insgesamt; 0-16,7% Bereich unter den Panels). Die höchsten Häufigkeiten von CNVs traten in Panels für Kardiomyopathie und Skelettmuskelerkrankungen (eine Untergruppe des Comprehensive Cardiomyopathy Panels), familiäre Hypercholesterinämie und Brugada-Syndrom auf (ergänzende Tabelle 4). Im Gegensatz dazu wurden nur sehr wenige CNVs in Panels für Arrhythmien (außer Brugada) und Aortopathien gefunden, während das Kardiomyopathien-Panel die niedrigste Prävalenz pathogener CNVs aufwies. Die Gene mit der höchsten Anzahl pathogener CNVs waren LDLR, FBN1, PKP2, MYBPC3 und RYR2 (ergänzende Tabelle 3). In einigen Panels, die eine scheinbar hohe CNV-Prävalenz ergaben, waren die meisten, wenn nicht alle CNVs nur in einem oder zwei Genen (z. B. ENG und LDLR). Panels für kardiovaskuläre Erkrankungen mit der höchsten diagnostischen Gesamtausbeute hatten auch die Gene mit der höchsten Prävalenz von CNVs, mit Ausnahme derjenigen für Arrhythmien und Kardiomyopathien, die an CNVs verarmt waren und bei denen die meisten positiven Diagnosen stattdessen durch SNVs erklärt wurden.
Genpanels für neurologische Störungen (meist neuromuskuläre Störungen in unseren Panels) zeigten die höchste Prävalenz intragener CNVs unter pathogenen Varianten (35% insgesamt, 0-100% Bereich unter den Panels; Abb. 2a, c; Ergänzende Tabelle 4). Dieses Ergebnis wurde weitgehend durch rezidivierende Genduplikation und reziproke Deletion in PMP22, Deletionen in SMN1 und verschiedene CNVs in DMD erklärt (Ergänzende Tabelle 3; Abb. 2c, d; Ergänzende Abbildung 2). Unter Verwendung einer benutzerdefinierten NGS-Methode fanden wir 135 Fälle von SMN1-Deletion bei 819 Personen mit Verdacht auf spinale Muskelatrophie, und der Bereich der SMN2-Kopien variierte von 0 bis 5. Selbst wenn PMP22, SMN1 und DMD ausgeschlossen wurden, stellten intragene CNVs in Genen, die mit neurologischen Störungen in Verbindung standen, immer noch 6% aller pathogenen Varianten in unserer Kohorte dar. Andere Gene für neurologische Störungen, die häufig von CNVs betroffen sind, waren PARK2, LAMA2 und SPG11.
Analyse der CNVs zu Studienbeginn
Unsere diagnostischen Tests beschränkten sich auf Krankheitsgene, die von Ärzten angefordert wurden, aber viele Gene, die nichts mit dem vorliegenden klinischen Phänotyp zu tun hatten, wurden auch in unseren NGS-Assays sequenziert. Wir de-identifizierten Daten für alle 1507 Gene sequenziert in 143.142 Personen und untersucht das Auftreten von intragenen CNVs in nicht-requirierten Genen zu schätzen, die Baseline-Prävalenz dieser Ereignisse. Diese Phänotyp-unabhängigen CNVs werden im Folgenden als „Baseline-CNVs“ bezeichnet.“ Eine Suche nach Baseline-CNVs wurde in 7-616 Genen pro Individuum für insgesamt 16 Millionen Einzelgenanalysen durchgeführt. Diese Suche ergab 4054 intragene CNVs (1465 verschiedene Ereignisse) in 3772 Individuen über 599 Gene (Ergänzende Tabelle 5). Die meisten dieser CNVs waren nur einmal vorhanden, aber einige wurden 2 bis mehr als 15 Mal gesehen (Abb. 3a; Ergänzende Tabelle 6). Die meisten CNV-Beobachtungen zu Studienbeginn entfielen jedoch auf die wiederkehrenden Ereignisse insgesamt. Die überwiegende Mehrheit der Gene mit Baseline-CNVs hatte fünf oder weniger Ereignisse (Abb. 3b). Nur 47 Gene enthielten mehr als die Hälfte aller beobachteten Baseline-CNVs, darunter sowohl Gene mit identischen wiederkehrenden Ereignissen als auch solche mit einer Vielzahl einzigartiger Ereignisse. Die meisten Personen mit einem intragenen Baseline-CNV hatten nur ein einziges Ereignis, aber 146 Personen hatten zusätzliche CNVs in Genen auf verschiedenen Chromosomen. Im Durchschnitt haben wir eine Baseline-CNV mit einer Rate von 1 von 3979 Genen nachgewiesen, die mit unseren Assays sequenziert wurden.
Im Gegensatz zu CNVs, die in den klinisch getesteten Genen in dieser Kohorte identifiziert wurden, waren die meisten intragenen CNVs zu Studienbeginn Duplikationen (Abb. 1c, d und 3c). Die meisten waren auch heterozygote Varianten in AR-Genen oder Genen, denen etablierte LOF-Mechanismen fehlten (Abb. 3d,e). Eine Minderheit der CNVs zu Studienbeginn trat in Genen auf, die mit AD-Vererbung oder LOF-Mechanismen assoziiert waren (Abb. 1e,f und 3d,e). Die häufigsten CNVs zu Studienbeginn umfassten Ganzgenereignisse in NPHP1, NIPA1, MYH11, DNAI2, HFE2, SMN1 und PMP22 sowie partielle Genereignisse in TFG, BBS9, CTNNA3, PARK2, KCTD7, DNAJC6, GLIS2 und TUBB4A (ergänzende Tabelle 6). In Bezug auf Merkmale, die die Existenz von Baseline-CNVs in Krankheitsgenen erklären könnten, stellten wir fest, dass fast 40% dieser CNVs ein ganzes Gen umfassten und daher Transkript-Leserahmen nicht direkt störten (Abb. 3c). Darüber hinaus waren etwa 90% der Duplikationen in Genen mit LOF-Mechanismen Ganzgenereignisse oder Teilgenereignisse einschließlich eines terminalen Exons, während nur die Hälfte der Deletionen in diesen Genen die gleichen Muster aufwies (ergänzende Tabelle 5).
Zusätzlich zur Beurteilung der Gesamtprävalenz und der Eigenschaften von CNVs zu Studienbeginn berücksichtigten wir die vorhergesagten klinischen Implikationen. Wir beobachteten 237 heterozygote Deletionen in 97 Genen mit AD- oder XL-Vererbung und LOF-Mechanismen; Die meisten waren in PMP22, DMD, AARS, KCNQ1, FIG4, CHEK2 und LRSAM1 (Ergänzende Tabellen 5 und 7). Wir fanden nur zwei homozygote Deletionen in Genen mit AR-Vererbung (NPHP1 und SPG7) und nur zwei hemizygote Deletionen in einem einzigen Gen mit XL-Vererbung (DMD) bei Männern. Alle anderen homozygoten CNVs in Genen mit AR-Vererbung oder hemizygote CNVs in Genen mit XL-Vererbung bei Männern waren Duplikationen. Darüber hinaus beobachteten wir CNVs spezifisch in Genen mit medizinischen Überlegungen zur Umsetzbarkeit gemäß der ACMG.21,22 Wir bewerteten CNVs in 58 der 59 ACMG-gelisteten Gene (ohne PMS2) in 5,300–69,000-Individuen, abhängig von den für die Tests verwendeten Assays. Insgesamt wurden 46 Deletionen und 110 Duplikationen nachgewiesen, was auf eine Häufigkeit von bis zu 0,8% (KI: 0,58–1,11%) bei den auf diese Gene getesteten Personen hindeutet. MYH11, MYH7, KCNQ1 und RYR2 enthielten die meisten CNVs. Insbesondere gab es Deletionen in 16 Genen – KCNQ1, MYH11, MYH7, MYBPC3, PCSK9, BRCA1, RYR2, PKP2, TGFBR2, SMAD3, OTC, NF2, FBN1, DSP, DSC2 und APC — mehr als die Hälfte davon haben LOF-Mechanismen (Ergänzende Tabelle 7).