Prevalência de intragenic CNVs em uma grande clínica de coorte
testamos vários subconjuntos de 1507 genes em 143,515 indivíduos não relacionados referidos para o diagnóstico NGS gene painel de testes. Um total de cerca de 4,8 milhões de análises de um único gene foram concluídas. Entre quase 8,1 milhões de variantes de todos os tipos, identificamos 2844 CNV intragênicos (1237 eventos distintos). Estes CNVs representavam 0,03% de todas as variantes, 3,1% das variantes comunicadas e, nomeadamente, 9,1% das variantes classificadas como LP/P (quadro suplementar 1 e figura suplementar 1). Estas variantes foram encontradas em 384 genes e incluíram 1810 deleções e 1034 duplicações, que juntas representaram uma prevalência de 1,9% nesta coorte, 4,4% entre indivíduos com pelo menos uma variante relatada, e mais significativamente, 9,8% entre indivíduos que receberam um relatório com uma variante LP/P de qualquer tipo.
padrões de ocorrência de CNV intra-genico
os CNVs caíram numa de três categorias-acontecimentos raros únicos, acontecimentos recorrentes comuns e acontecimentos recorrentes de baixa frequência (Fig. 1a). Cada categoria representava aproximadamente um terço de todos os CNV observados. A grande maioria dos 384 genes com CNVs tinha apenas um CNV cada, mas estes CNV únicos, em conjunto, representavam menos de 10% de todos os eventos (Fig. 1b). Em contrapartida, 31 dos 384 genes tinham 15 ou mais CNV, mas estes representavam quase 70% de todos os CNV. Para além das frequências, foram examinados os locais e tamanhos intra-génicos dos CNV, uma vez que estas propriedades podem determinar o impacto clínico. Um quarto dos CNVs incluía apenas um exon. A maioria dos CNV intragênicos eram eventos multi-exônicos parciais de genes, e a maioria abrangia apenas exões internos sem envolver o terminal (primeiro ou último) codificação exons (Fig. 1c, d). Entre os VNC de genes parciais que envolvem exões terminais, mais supressões do que duplicações incluíram os primeiros exons, enquanto um número semelhante de supressões e duplicações incluiu os últimos exons. Por último, uma proporção maior de duplicações do que de supressões incluía o gene completo. Quase um quinto de todos os CNV distintos (não redundantes) incluía um gene completo, e em 40 casos, os CNV englobavam vários genes vizinhos e estavam presentes em pelo menos 10 cromossomas (tabelas suplementares 1, 2).
classificação Clínica das CNVs
Exclusões foram mais frequentes na clínica de coorte, e a maioria foram relatados como LP/P variantes (Fig. 1c). No entanto, algumas deleções foram classificadas como VUS, principalmente porque elas eram variantes dentro do quadro em genes sem mecanismos mutacionais de perda de função (LOF). Em contraste, mais da metade das duplicações foram classificadas como VUS. Entre as duplicações de genes parciais, 359 envolveram exões terminais e 225 envolveram apenas exões internos (Fig. 1d). Prevê-se que pelo menos 166 duplicações abrangendo apenas exões internos tenham um efeito adverso na estrutura de leitura da transcrição e, por conseguinte, sejam classificadas como LP/P (quadro suplementar 2). Por pelo menos 30 duplicações, observamos pontos de ruptura putativos baseados em dados de sequência de leitura dividida e previmos um arranjo tandem que interromperia a estrutura de leitura da transcrição. Isto suporta afirmações anteriores de que duplicações intragênicas são tipicamente reorganizações tandem localizadas versus eventos mais complicados, tais como translocações insercionais.18
também considerámos a distribuição e a zigosidade dos CNVs em genes associados a distúrbios autossómicos dominantes (AD), autossómicos recessivos (AR) e associados a XL (XL) (Fig. 1e, f). A grande maioria dos CNVs estavam em genes associados com herança AD ou XL, embora este resultado reflete um viés porque a maioria dos genes testados tinha esses padrões de herança. De 2096 CNVs classificados como LP/P, 85% estavam em genes associados com herança AD ou XL e 15% estavam em genes associados com herança AR. Destes últimos, 6,7% foram deleções homozigóticas, 2,8% foram alterações heterozigóticas compostas acompanhando um SNV patogênico no outro alelo (constituindo um diagnóstico molecular positivo para uma desordem AR; tabela suplementar 1), e 5,5% foram eventos heterozigóticos únicos.
quase todos os CNV nesta coorte foram encontrados em genes com mecanismos de LOF (Fig. 1e). A maioria dos CNVs destes genes foram supressões classificadas como patogénicas, enquanto mais de metade das duplicações foram classificadas como UV. Comparativamente, os 304 genes sem mecanismos LOF tinham poucos CNVs, a maioria classificados como VUS ou benignos (Fig. 1f) e significativamente mais duplicações do que supressões (p = 1,8×10-9).
CNVs e morbilidade
a análise de um grande número de painéis de multigeno mostrou prevalência variável de CNV entre os grupos de doenças (Fig. 2a, b; quadro complementar 4). Genes com CNVs tiveram eventos recorrentes, principalmente eventos únicos ,ou uma mistura de ambos (Fig. 2c). Entre os painéis que tinham produzido pelo menos 10 variantes patogénicas de qualquer tipo, mais de um terço tinha CNVs representando mais de 10% das variantes patogénicas. Os painéis de genes que originaram o maior número de CNVs foram aqueles para atrofia muscular espinhal, doença de Charcot–Marie–Tooth, e distrofinopatias, como esperado. No entanto, painéis para defeitos cardíacos congênitos e heterotaxia, síndrome de Lynch, sarcoma, distrofia muscular e distonia também identificaram muitos CNVs. Em contrapartida, os painéis de genes com as frequências CNV mais baixas incluíram os que se referiam a pancreatite crónica, Rasopatias, cardiomiopatias e trombofilia hereditária.
Genes para síndromes de câncer hereditário mostraram uma elevada prevalência (8,3% no total; 0-50% entre os painéis) de CNVs entre as variantes patogênicas (Fig. 2a; quadros complementares 3 e 4). Entre os 1059 CNV patogénicos observados nestes genes, 219 foram observados apenas uma vez e 174 foram recorrentes. A BRCA1 e a BRCA2 tiveram uma prevalência combinada de CNV de 6,1% (intervalo de confiança : 5,4–6,9%) entre as variantes patogénicas, consistente com estudos anteriores (individualmente, BRCA1 11.4%, BRCA2 1, 7% ).15,19,20 CNVs também foram enriquecidos em outros genes, como EPCAM, STK11 e VHL, e em genes em vários painéis com baixa produtividade global de diagnóstico. Usando nosso método NGS, também observamos 90 CNVs nos exons segmentalmente duplicados 12-15 da cópia funcional do gene de PMS2 (tabela suplementar 1). Por último, foram observados 25 CNVs em regiões promotoras de GREM1, TP53 e APC.
os CNVs nos genes associados a doenças pediátricas e raras representaram 7,7% das variantes patogénicas (intervalo entre os painéis 0-82%; Fig. 2c). Encontrámos as frequências mais elevadas de CNVs em painéis para encefalopatia epiléptica infantil precoce, síndrome de Joubert, esclerose tuberosa e malformações cavernosas cerebrais (tabela complementar 4). Os genes mais freqüentemente afetados pelos CNVs patogênicos foram NF1, NPHP1 e TSC2 (tabela suplementar 3). Entre os genes de epilepsia, observamos CNVs envolvendo UBE3A em 15q13. 1 e PRRT2 em 16p11. 2, que provavelmente foram rearranjos citogenéticos recorrentes. Observámos frequências CNV mais baixas em painéis de genes para ciliopatias, Rasopatias, Osteogénese Imperfeita e fibrose cística (tabela suplementar 4). Os painéis da síndrome de Noonan e da pancreatite crónica identificaram muito poucos ou nenhuns CNV patogénicos, embora pelo menos 270 indivíduos tenham sido testados e tenham sido notificadas mais de 60 variantes patogénicas em cada painel.
os Genes para doenças cardiovasculares revelaram uma prevalência comparativamente mais baixa dos CNV entre as variantes patogénicas (4,7% no total; intervalo de 0-16, 7% entre os painéis). As frequências mais elevadas do CNVs ocorreram em painéis para cardiomiopatia e doença do músculo esquelético (um subconjunto do painel cardiomiopatia abrangente), hipercolesterolemia familiar e síndrome de Brugada (tabela suplementar 4). Em contrapartida, foram encontrados muito poucos CNVs em painéis para arritmias (para além de Brugada) e aortopatias, enquanto o painel cardiomiopatias teve a menor prevalência de CNV patogénicos. Os genes com o maior número de CNV patogénicos foram LDLR, FBN1, PKP2, MYBPC3 e RYR2 (tabela suplementar 3). Em alguns painéis com prevalência aparentemente elevada de CNV, a maioria, se não todos, estava em apenas um ou dois genes (por exemplo, ENG e LDLR). Painéis para doenças cardiovasculares com maior rendimento global de diagnóstico também tinham os genes com maior prevalência de CNVs, exceto aqueles para arritmias e cardiomiopatias, que estavam esgotados de CNVs e em que a maioria dos diagnósticos positivos foram explicados pelo SNVs.Os painéis de genes para distúrbios neurológicos (principalmente perturbações neuromusculares nos nossos painéis) mostraram a maior prevalência de CNV intra-génicos entre as variantes patogénicas (35% no total, intervalo de 0-100% entre os painéis; Fig. 2a, c; Quadro complementar 4). Este resultado foi em grande parte explicado pela duplicação recorrente de genes e supressão recíproca em PMP22, supressões em SMN1, e vários CNVs em DMD (tabela suplementar 3; Fig. 2C, d; figura complementar 2). Usando um método NGS personalizado, encontramos 135 casos de deleção SMN1 entre 819 indivíduos com suspeita de atrofia muscular espinhal,e a gama de cópias SMN2 variou de 0 a 5. Mesmo quando pmp22, SMN1 e DMD foram excluídos, CNV intragênicos em genes ligados a distúrbios neurológicos ainda representavam 6% de todas as variantes patogênicas em nossa coorte. Outros genes para distúrbios neurológicos comumente afetados por CNVs incluem PARK2, LAMA2 e SPG11.
a análise dos CNVs basais
os nossos testes de diagnóstico limitaram-se aos genes de doença requisitados pelos médicos, mas muitos genes não relacionados com o fenótipo clínico apresentado também foram sequenciados nos nossos testes de diagnóstico da NGS. Nós desidentificamos dados para todos os 1507 genes sequenciados em 143.142 indivíduos e investigamos a ocorrência de CNV intragênicos em genes não requisitados para estimar a prevalência inicial destes eventos. Estes VNC independentes por fenótipo são a seguir designados por “VNC de referência”. Uma busca por CNVs basais foi realizada em 7-616 genes por indivíduo para um total de 16 milhões de análises de um único gene. Esta pesquisa rendeu 4054 CNVs intragênicos (1465 eventos distintos) em 3772 indivíduos através de 599 genes (tabela suplementar 5). A maioria destes CNVs estavam presentes apenas uma vez ,mas alguns foram vistos 2 a mais de 15 vezes(Fig. Quadro 6). No entanto, os acontecimentos recorrentes no total representaram a maior parte das observações iniciais do CNV. A grande maioria dos genes com CNVs basais tiveram cinco ou menos eventos (Fig. 3b). Apenas 47 genes continham mais de metade de todos os CNVs de base observados, incluindo ambos os genes com eventos recorrentes idênticos e aqueles com uma infinidade de eventos únicos. A maioria dos indivíduos com um CNV basal intragênico teve apenas um único evento, mas 146 indivíduos tinham CNVs adicionais em genes em diferentes cromossomos. Em média, detectamos um CNV de base a uma taxa de 1 em cada 3979 genes sequenciados com nossos testes.
em contraste com os CNVs identificados nos genes clinicamente testados nesta coorte, a maioria dos CNV intra-génicos basais foram duplicações (figos. 1c, d e 3c). A maioria também eram variantes heterozigóticas em genes AR ou genes que não tinham mecanismos estabelecidos de LOF(Fig. 3d,e). Uma minoria dos CNVs basais ocorreu em genes associados a hereditariedade AD ou mecanismos LOF (figos. 1e, f e 3d,e). O mais comum de linha de base CNVs incluído todo o gene eventos em NPHP1, NIPA1, MYH11, DNAI2, HFE2, SMN1, e PMP22 e parcial do gene eventos na GFT, BBS9, CTNNA3, PARK2, KCTD7, DNAJC6, GLIS2, e TUBB4A (Quadro Suplementar de 6). Em termos de características que podem explicar a existência de CNVs basais em genes de doença, notamos que cerca de 40% desses CNVs abrangiam um gene inteiro e, portanto, não interromperam diretamente os quadros de leitura de transcript (Fig. 3c). Além disso, cerca de 90% das duplicações em genes com mecanismos LOF eram eventos de genes inteiros ou de genes parciais, incluindo um exon terminal, enquanto apenas metade das supressões nesses genes mostravam os mesmos padrões (tabela suplementar 5).
para além de avaliar a prevalência global e as propriedades dos CNVs basais, considerámos as implicações clínicas previstas. Observamos 237 supressões heterozigóticas em 97 genes com herança AD ou XL e mecanismos LOF; a maioria estava em PMP22, DMD, AARS, KCNQ1, FIG4, CHEK2, e LRSAM1 (tabelas suplementares 5 e 7). Encontramos apenas duas deleções homozigóticas em genes com herança AR (NPHP1 e SPG7) e apenas duas deleções hemizigóticas em um único gene com herança XL (DMD) em machos. Todos os outros CNVs homozigóticos em genes com herança AR, ou CNV hemizigóticos em genes com herança XL em machos, eram duplicações. Além disso, observamos CNVs especificamente em genes com considerações de capacidade de ação médica de acordo com o ACMG.21,22 avaliamos os CNVs em 58 dos 59 genes listados na ACMG (excluindo PMS2) em 5.300-69.000 indivíduos, dependendo dos testes utilizados. Foi detectado um total de 46 supressões e 110 duplicações, sugerindo uma frequência de até 0, 8% (IC: 0, 58–1, 11%) entre os indivíduos testados para esses genes. MYH11, MYH7, KCNQ1, and RYR2 contained most of the CNVs. Especificamente, houve eliminações em 16 genes—KCNQ1, MYH11, MYH7, MYBPC3, PCSK9, BRCA1, RYR2, PKP2, TGFBR2, SMAD3, OTC, NF2, FBN1, DSP, DSC2 e APC—mais de metade dos que têm LOF mecanismos (Complementar Tabela 7).