Prévalence des CNV intragéniques dans une grande cohorte clinique
Nous avons testé divers sous-ensembles de 1507 gènes chez 143 515 individus non apparentés référés pour des tests diagnostiques sur panel de gènes NGS. Au total, environ 4,8 millions d’analyses d’un seul gène ont été effectuées. Parmi près de 8,1 millions de variantes de tous types, nous avons identifié 2844 CNV intragéniques (1237 événements distincts). Ces CNV représentaient 0,03 % de toutes les variantes, 3,1 % des variantes déclarées, et notamment 9,1 % des variantes classées comme LP/P (Tableau supplémentaire 1 et Figure supplémentaire 1). Ces variants ont été trouvés sur 384 gènes et comprenaient 1810 délétions et 1034 duplications, ce qui représentait ensemble une prévalence de 1,9% dans cette cohorte, de 4,4% chez les individus ayant au moins un variant rapporté et, plus significatif, de 9,8% chez les individus ayant reçu un rapport avec un variant LP / P de tout type.
Les modèles d’occurrence intragénique de VCN
Les VCN se classaient dans l’une des trois catégories suivantes : événements rares uniques, événements récurrents courants et événements récurrents à basse fréquence (Fig. 1 bis). Chaque catégorie représentait environ un tiers de toutes les VNC observées. La grande majorité des 384 gènes atteints de VCN n’avaient qu’un VCN chacun, mais ces VCN uniques représentaient ensemble moins de 10 % de tous les événements (Fig. 1b). En revanche, 31 des 384 gènes avaient 15 CNV ou plus, mais ceux-ci représentaient près de 70% de tous les CNV. Outre les fréquences, les emplacements intragéniques et les tailles des CNV ont été examinés, car ces propriétés peuvent déterminer l’impact clinique. Un quart des CNV ne comprenait qu’un seul exon. La majorité des CNV intragéniques étaient des événements de gènes partiels multi-exoniques, et la plupart englobaient uniquement des exons internes sans impliquer les exons codants terminaux (premier ou dernier) (Fig. 1c, d). Parmi les CNV à gènes partiels impliquant des exons terminaux, plus de délétions que de duplications comprenaient les premiers exons, alors qu’un nombre similaire de délétions et de duplications incluaient les derniers exons. Enfin, une plus grande proportion de duplications que de délétions incluait le gène complet. Près d’un cinquième de tous les CNV distincts (non redondants) comprenaient un gène complet, et dans 40 cas, les CNV englobaient plusieurs gènes voisins et étaient présents sur au moins 10 chromosomes (Tableaux supplémentaires 1, 2).
La classification clinique des suppressions de CNV
était plus fréquente dans cette cohorte clinique, et la plupart étaient signalées comme des variantes de LP/P (Fig. 1c). Cependant, quelques délétions ont été classées comme UV, principalement parce qu’il s’agissait de variantes dans le cadre de gènes sans mécanismes mutationnels de perte de fonction (LOF). En revanche, plus de la moitié des doublons ont été classés comme UV. Parmi les duplications de gènes partiels, 359 impliquaient des exons terminaux et 225 seulement des exons internes (Fig. 1d). Au moins 166 duplications englobant uniquement des exons internes ont été prévues pour avoir un effet négatif sur le cadre de lecture de la transcription et ont donc été classées comme LP/P (tableau supplémentaire 2). Pour au moins 30 duplications, nous avons observé des points d’arrêt putatifs basés sur des données de séquence de lecture fractionnée et prédit un arrangement en tandem qui perturberait le cadre de lecture de la transcription. Cela corrobore les affirmations précédentes selon lesquelles les duplications intragéniques sont généralement des réarrangements en tandem localisés par rapport à des événements plus compliqués tels que des translocations insertionnelles.18
Nous avons également examiné la distribution et la zygosité des CNV dans les gènes associés aux troubles autosomiques dominants (AD), autosomiques récessifs (AR) et liés à l’X (XL) (Fig. 1e, f). La grande majorité des CNV se trouvaient dans des gènes associés à l’hérédité AD ou XL, bien que ce résultat reflète un biais car la plupart des gènes testés présentaient ces schémas d’hérédité. Sur 2096 CNV classés comme LP /P, 85% étaient dans des gènes associés à l’hérédité AD ou XL et 15% étaient dans des gènes associés à l’hérédité AR. Parmi ces derniers, 6,7% étaient des délétions homozygotes, 2,8% étaient des modifications hétérozygotes composées accompagnant un SNV pathogène sur l’autre allèle (constituant un diagnostic moléculaire positif pour un trouble AR; Tableau supplémentaire 1), et 5,5% étaient des événements hétérozygotes simples.
Presque tous les CNV de cette cohorte ont été trouvés dans des gènes avec des mécanismes LOF (Fig. 1e). La plupart des CNV dans ces gènes étaient des délétions classées comme pathogènes, alors que plus de la moitié des duplications étaient classées comme des UV. Comparativement, les 304 gènes sans mécanismes LOF présentaient peu de CNV, principalement classés comme UV ou bénins (Fig. 1f), et beaucoup plus de duplications que de suppressions (p = 1,8×10-9).
CNV et morbidité
L’analyse d’un grand nombre de panels multigéniques a montré une prévalence variable du CNV selon les groupes de maladies (Fig. 2a, b; Tableau supplémentaire 4). Les gènes avec CNV avaient soit des événements principalement récurrents, soit des événements uniques, soit un mélange des deux (Fig. 2c). Parmi les panels ayant donné au moins 10 variants pathogènes de tout type, plus d’un tiers présentaient des VNC représentant plus de 10 % des variants pathogènes. Comme prévu, les panels de gènes produisant le plus grand nombre de CNV étaient ceux de l’amyotrophie spinale, de la maladie de Charcot–Marie–Tooth et des dystrophinopathies. Cependant, des panels pour les malformations cardiaques congénitales et l’hétérotaxie, le syndrome de Lynch, le sarcome, la dystrophie musculaire et la dystonie ont également identifié de nombreux CNV. En revanche, les panels de gènes avec les fréquences CNV les plus basses comprenaient ceux de la pancréatite chronique, des RASopathies, des cardiomyopathies et de la thrombophilie héréditaire.
Les gènes des syndromes cancéreux héréditaires ont montré une prévalence élevée (8,3% dans l’ensemble; plage de 0 à 50% entre les groupes) des VCN parmi les variants pathogènes (Fig. 2a; Tableaux supplémentaires 3 et 4). Parmi les 1059 CNV pathogènes observés dans ces gènes, 219 n’ont été observés qu’une seule fois et 174 étaient récurrents. BRCA1 et BRCA2 présentaient une prévalence combinée du VCN de 6,1 % (intervalle de confiance : 5,4 à 6,9 %) parmi les variants pathogènes, ce qui est conforme aux études précédentes (individuellement, BRCA1 11.4%, BRCA2 1,7%).15,19,20 CNV ont également été enrichis dans d’autres gènes, tels que EPCAM, STK11 et VHL, et dans des gènes sur divers panels avec de faibles rendements diagnostiques globaux. En utilisant notre méthode NGS, nous avons également observé 90 CNV dans les exons segmentalement dupliqués 12-15 de la copie du gène fonctionnel de PMS2 (Tableau supplémentaire 1). Enfin, 25 VNC ont été observés dans les régions promotrices de GREM1, TP53 et APC.
Les CNV dans les gènes associés à des troubles pédiatriques et rares représentaient 7,7% des variants pathogènes (intervalle de 0 à 82% entre les groupes; Fig. 2c). Nous avons trouvé les fréquences les plus élevées de CNV dans des panels pour l’encéphalopathie épileptique infantile précoce, le syndrome de Joubert, la sclérose tubéreuse et les malformations caverneuses cérébrales (Tableau supplémentaire 4). Les gènes les plus fréquemment affectés par des CNV pathogènes étaient NF1, NPHP1 et TSC2 (Tableau supplémentaire 3). Parmi les gènes de l’épilepsie, nous avons observé des CNV impliquant UBE3A en 15q13.1 et PRRT2 en 16p11.2, qui étaient probablement des réarrangements cytogénétiques récurrents. Nous avons observé des fréquences CNV plus faibles dans les panels de gènes pour les ciliopathies, les RASopathies, l’ostéogenèse imparfaite et la fibrose kystique (Tableau supplémentaire 4). Les panels du syndrome de Noonan et de la pancréatite chronique ont identifié très peu ou pas de CNV pathogènes, bien qu’au moins 270 personnes aient été testées et que plus de 60 variants pathogènes aient été signalés dans chaque panel.
Les gènes des troubles cardiovasculaires ont montré une prévalence relativement plus faible des VCN parmi les variants pathogènes (4,7% dans l’ensemble; intervalle de 0 à 16,7 % entre les groupes). Les fréquences les plus élevées de CNV se sont produites dans les panels de cardiomyopathie et de maladie des muscles squelettiques (un sous-ensemble du panel complet de cardiomyopathie), d’hypercholestérolémie familiale et de syndrome de Brugada (tableau supplémentaire 4). En revanche, très peu de CNV ont été trouvés dans les panels d’arythmies (autres que Brugada) et d’aortopathies, alors que le panel de cardiomyopathies avait la prévalence la plus faible de CNV pathogènes. Les gènes avec le plus grand nombre de CNV pathogènes étaient LDLR, FBN1, PKP2, MYBPC3 et RYR2 (Tableau supplémentaire 3). Dans certains panels présentant une prévalence apparemment élevée de VCN, la plupart, sinon la totalité, des VCN ne concernaient qu’un ou deux gènes (p. ex., ENG et LDLR). Les panels pour les troubles cardiovasculaires avec le rendement diagnostique global le plus élevé présentaient également les gènes avec la prévalence la plus élevée de VCN, à l’exception de ceux pour les arythmies et les cardiomyopathies, qui étaient appauvris en VCN et dans lesquels la plupart des diagnostics positifs étaient plutôt expliqués par les VCN.
Les panels de gènes pour les troubles neurologiques (principalement des troubles neuromusculaires dans nos panels) ont montré la prévalence la plus élevée de CNV intragéniques parmi les variants pathogènes (35% dans l’ensemble, plage de 0 à 100% entre les panels; Fig. 2a, c; Tableau supplémentaire 4). Ce résultat s’explique en grande partie par la duplication génique récurrente et la délétion réciproque dans PMP22, les délétions dans SMN1 et divers CNV dans la DMD (Tableau supplémentaire 3; Fig. 2c, d; Figure supplémentaire 2). En utilisant une méthode NGS personnalisée, nous avons trouvé 135 cas de délétion de SMN1 chez 819 personnes soupçonnées d’amyotrophie spinale, et la gamme de copies de SMN2 variait de 0 à 5. Même lorsque PMP22, SMN1 et DMD étaient exclus, les CNV intragéniques dans les gènes liés aux troubles neurologiques représentaient encore 6% de tous les variants pathogènes de notre cohorte. D’autres gènes pour les troubles neurologiques fréquemment affectés par les CNV comprenaient PARK2, LAMA2 et SPG11.
Analyse des CNV de base
Nos tests diagnostiques se limitaient aux gènes de la maladie requis par les médecins, mais de nombreux gènes sans rapport avec le phénotype clinique présent ont également été séquencés sur nos dosages NGS. Nous avons dépersonnalisé les données pour les 1507 gènes séquencés chez 143 142 individus et étudié l’occurrence de CNV intragéniques dans des gènes non réquisitionnés pour estimer la prévalence de base de ces événements. Ces CNV indépendantes du phénotype sont ci-après dénommées » CNV de base. »Une recherche de CNV de base a été effectuée dans 7 à 616 gènes par individu pour un total de 16 millions d’analyses de gènes uniques. Cette recherche a donné 4054 CNV intragéniques (1465 événements distincts) chez 3772 individus répartis sur 599 gènes (Tableau supplémentaire 5). La plupart de ces CNV n’ont été présents qu’une seule fois, mais quelques-uns ont été vus 2 à plus de 15 fois (Fig. 3a; Tableau supplémentaire 6). Cependant, les événements récurrents dans l’ensemble ont représenté la plupart des observations de base du VNC. La grande majorité des gènes avec des CNV de base ont eu cinq événements ou moins (Fig. 3b). À peine 47 gènes contenaient plus de la moitié de tous les CNV de base observés, y compris les deux gènes avec des événements récurrents identiques et ceux avec une multitude d’événements uniques. La plupart des individus ayant une VCN intragénique de base n’ont eu qu’un seul événement, mais 146 individus avaient des VCN supplémentaires dans des gènes sur différents chromosomes. En moyenne, nous avons détecté un CNV de base à un taux de 1 pour 3979 gènes séquencés avec nos tests.
Contrairement aux CNV identifiés dans les gènes testés cliniquement dans cette cohorte, la plupart des CNV intragéniques de base étaient des duplications (Fig. 1c, d et 3c). La plupart étaient également des variants hétérozygotes dans les gènes AR ou des gènes dépourvus de mécanismes LOF établis (Fig. 3d, e). Une minorité de CNV de base se sont produites dans des gènes associés à l’hérédité de la MA ou aux mécanismes LOF (Fig. 1e, f et 3d, e). Les CNV de base les plus courants comprenaient des événements de gène entier dans NPHP1, NIPA1, MYH11, DNAI2, HFE2, SMN1 et PMP22 et des événements de gène partiel dans TFG, BBS9, CTNNA3, PARK2, KCTD7, DNAJC6, GLIS2 et TUBB4A (tableau supplémentaire 6). En ce qui concerne les caractéristiques pouvant expliquer l’existence de CNV de base dans les gènes de la maladie, nous avons noté que près de 40% de ces CNV englobaient un gène entier et ne perturbaient donc pas directement les cadres de lecture de la transcription (Fig. 3c). De plus, environ 90% des duplications dans les gènes avec des mécanismes LOF étaient des événements de gènes entiers ou des événements de gènes partiels incluant un exon terminal, alors que seulement la moitié des délétions dans ces gènes présentaient les mêmes schémas (Tableau supplémentaire 5).
En plus d’évaluer la prévalence globale et les propriétés des CNV de base, nous avons examiné les implications cliniques prévues. Nous avons observé 237 délétions hétérozygotes dans 97 gènes avec hérédité AD ou XL et mécanismes LOF; la plupart étaient dans PMP22, DMD, AARS, KCNQ1, FIG4, CHEK2 et LRSAM1 (Tableaux supplémentaires 5 et 7). Nous n’avons trouvé que deux délétions homozygotes dans des gènes à héritage AR (NPHP1 et SPG7) et seulement deux délétions hémizygotes dans un seul gène à héritage XL (DMD) chez les mâles. Tous les autres CNV homozygotes dans les gènes à héritage AR, ou les CNV hémizygotes dans les gènes à héritage XL chez les mâles, étaient des duplications. De plus, nous avons observé des CNV spécifiquement dans des gènes avec des considérations d’actionnabilité médicale selon l’ACMG.21,22 Nous avons évalué les CNV dans 58 des 59 gènes répertoriés par l’ACMG (à l’exclusion des PMS2) chez 5 300 à 69 000 individus, selon les tests utilisés pour les tests. Un total de 46 suppressions et 110 duplications ont été détectées, suggérant une fréquence allant jusqu’à 0,8% (IC: 0,58–1,11%) chez les individus testés pour ces gènes. MYH11, MYH7, KCNQ1 et RYR2 contenaient la plupart des CNV. Plus précisément, il y a eu des délétions dans 16 gènes — KCNQ1, MYH11, MYH7, MYBPC3, PCSK9, BRCA1, RYR2, PKP2, TGFBR2, SMAD3, OTC, NF2, FBN1, DSP, DSC2 et APC — dont plus de la moitié ont des mécanismes LOF (Tableau supplémentaire 7).