重新审视DMD基因重复变异的致病性–长读长测序揭示高频率非串联重复
DMD基因作为人类最大的基因之一,包含79个外显子,其变异类型复杂多样。其中,基因内重复(intragenic duplication)是重要的致病机制,约占DMD病例的5%-20%。这些重复变异可以大致分为两类:串联重复(tandem duplication)和分散重复(interspersed duplication)。前者是指重复片段直接连接在原位点旁,通常会导致阅读框移位和蛋白质功能丧失;后者则是重复片段插入到基因组其他位置,可能保持原有阅读框的完整性。
选了15例携带DMD基因内重复的患者样本,采用牛津纳米孔技术(Oxford Nanopore Technologies, ONT)进行高覆盖度的全基因组长读长测序。
研究样本分为两组:
包括确诊的DMD男性患者、有家族史的女性携带者,以及持续肌酸激酶升高的个体。
通过携带者筛查(5例)或其他非DMD相关检测(如先天性心脏病、自闭症、发育迟缓等,6例)发现DMD重复的无症状个体。
研究团队还开发了专门的生物信息学工具DMDuper,用于自动分析长读长数据,识别重复断点,区分串联和分散重复。该工具首先通过软剪切(soft-clipped)读段识别断点区域,然后进行单体型组装,最后通过比对参考基因组确定重复结构。
在临床指征组中,所有4例患者的DMD重复均确认为串联结构(图1A-D),重复的长度从15kb到278kb不等,包含的exon数量从单个外显子到多个外显子不等。
– 仅36%(4/11)为串联重复(图1E-H),这些病例被确认为真正的携带状态。
– 高达64%(7/11)实际上是分散重复(图2-3),其中:
– 4例被重新分类为”可能良性”(DMD-9、10、14、15)
– 2例为”可能致病”(DMD-11、13)

图1 8例串联内基因DMD重复病例。 蓝色区域表示重复片段。箭头表示基因组片段的方向。 (A–D)具有个人或家族性肌营养不良症病史的病例。(E–H)偶然检测到重复片段的病例。

图2 4例由共重复事件表征的分散型DMD基因内重复。
这些分散重复展现出惊人的结构复杂性:
在DMD-9至DMD-12中,DMD外显子的重复伴随着X染色体短臂其他区域的共重复。例如:
– DMD-9:88kb的DMD外显子49-50与135kb的远端非编码区共重复,插入到基因间区域,不影响任何基因功能(图2B)。
– DMD-10:284kb的DMD外显子50-55与包含PHEX和CBLL2基因的295kb区域共重复,插入到原基因位点附近(图2C)。
– DMD-13显示了一个特别复杂的模式:除了微阵列检测到的两个重复区域(外显子3-9和45-48)外,长读长测序还发现了一个27bp的内含子重复。这些片段以倒位和正向混合的方式插入到DMD基因内。
– DMD-14中,外显子5-7的重复片段倒位插入到X染色体长臂87.2Mb远处,同时伴随109kb的RHOXF2B/RHOXF1基因缺失。
– DMD-15则更奇特,外显子3-4的重复片段插入到了9号染色体的9q12高重复区域。
基于这些发现,研究团队提出了修订版的DMD重复分类流程(图4):
– 对于有临床症状的患者,维持现有”串联假定”是合理的。
– 对于偶然检出的重复,应默认分类为VUS,而非直接判为致病。
– 尽可能使用长读长测序或FISH等技术明确结构:
* 确认为串联:应用PVS1/PM4标准评估阅读框影响
* 确认为分散:评估是否影响DMD或其他基因功能

图3 解读基因内DMD重复的建议决策树