小麦基因组草图到精细图的利器:长读长测序+光学图谱
广泛种植的普通小麦为异源六倍体,含有A、B、D三个基因组,其基因组大而复杂(约17 Gb,是水稻基因组的 40 倍、人类基因组的 5.5 倍),85%以上基因组DNA为重复序列,其形成涉及三个原始祖先种的两次天然杂交(Fig.1)。
Fig.1现代栽培小麦异源六倍体基因组形成示意图
面包小麦全基因组测序分析[1]
A、B、D基因组约各有28,000、 38,000 及36,000个基因,研究者据此六倍体小麦的基因组拥有94,000~96,000个基因。
小麦与短柄草基因组高度同源,但同时在短柄草的1号染色体和4号染色体上也存在保守性较低的区域(Fig.2 track 1)。此外研究者还基于小麦的高密度EST makers构建了小麦A、B、D基因组与短柄草的共线性图谱(Fig.2 track 5、6、7)。高分辨的共线性图谱显示在总体保守的基因区段中存在许多基因插入或易位现象。
Fig.2小麦基因组与短柄草基因组(B.distachyon)mapping结果(track 1表示小麦454 reads与短柄草基因组的比对结果;
track 2、3、4表示小麦A、B、D基因组中的SNP密度;track 5、6、7表示小麦A、B、D基因组与短柄草基因组的共线性关系)
研究者发现面包小麦的六倍体基因组是高度动态的,基因家族在多倍化和驯化过程中存在大量的缺失现象。与能量获取、代谢和生长相关的基因家族的扩张可能与产量相关。
Fig.3六倍体小麦、节节麦、玉米及水稻的基因家族大小
尽管通过454测序获得的六倍体小麦基因组并不完整,它仍为后续的基因鉴定提供了有力的基础,促进了小麦的进一步的基因组测序和基因组规模分析。
Table 1乌拉尔图小麦基因组组装情况
乌拉尔图小麦的基因组大小是短柄草基因组的18倍,但预测的基因数却只是短柄草的1.37倍。乌拉尔图小麦和短柄草具有很高的共线性(Fig.5a)。短柄草的1号染色体上包含5个基因的区段,长度为50kb,是乌拉尔图小麦和短柄草中一个具有代表性的共线性片段。比较发现在乌拉尔图小麦上这五个基因分属于不同的scaffold,总长度为1,092 kb(Fig.5 b)。相对于短柄草,乌拉尔图小麦的基因空间扩张了20倍之多。这些结果证实了重复序列在小麦家族基因组扩张中的作用。
基于乌拉尔图小麦的基因组草图,该研究鉴定了蛋白质编码基因模型,进行了基因组结构分析,并对其在分析重要农艺基因和开发分子标记方面的应用进行了评价,为多倍体小麦基因组的分析提供了一个二倍体参考基因信息,也为小麦遗传改良提供了有价值的资源。
中国研究者完成小麦A基因组供体——乌拉尔图小麦A基因组精细图谱[3]
该研究结合了BAC建库方法,三代PacBio SMRT技术、Bionano光学图谱技术和10X genomics技术,成功绘制了小麦A基因组的精细图谱,绘制出了小麦A基因组7条染色体的序列图谱,注释出了41,507个蛋白编码基因。
Table 2 基因组组装及注释情况
通过与水稻、高粱和短柄草基因组的比较和共线性分析,推演出了小麦A基因组7条染色体从禾本科共同祖先基因组起源的演化模型。
Fig.6 乌拉尔图小麦和普通小麦A、B基因组的共线性分析
Fig.7乌拉尔图小麦染色体进化模型
此次科学家描绘的小麦 A 基因组图谱,将有力地促进小麦基因组学研究和小麦分子设计育种的开展。这项研究也体现了长读长测序技术及光学图谱技术在使基因组更完整、更精细、更准确上的重要应用价值。
追溯小麦B基因组起源——基因组测序解析野生二粒小麦基因组[4]
Fig.8野生四倍体小麦(WEW)14条染色体的结构、功能及共线性分析图谱
WEW的2个亚基因组的同源性分析,发现其中72.3%同源基因对,同源基因对的表达模式和表达水平相似。另外少量同源基因对只在一个亚基因组中表达,功能富集分析表明,亚基因组调控的基因表达可能与小麦品种相关。
Fig.9全基因组多样性分析
通过外显子测序,驯化和野生二粒小麦显著分离成2个亚群,野生二粒小麦分布以色列、叙利亚、黎巴嫩和土耳其地区,栽培二粒小麦分布印度洋、地中海、东欧和高加索地区,与野生小麦相比,栽培小麦的多样性下降。
小麦D基因组供体—— 节节麦基因组测序解析[5]
节节麦又名粗山羊草,是现代普通栽培小麦(异源六倍体)的D基因组供体种,其基因组中抗病相关基因、抗非生物应激反应的基因数量都发生显著扩张,增强了其抗病性、抗逆性与适应性。
D基因组的加入,使小麦的抗病性、适应性与品质得到大大改良。加州大学戴维斯分校植物学教授 Jan Dvořák 的团队结合多种先进测序技术,最终获得具有参考价值的节节麦基因组序列,将为改良小麦品种、提高小麦面粉质量提供主要的基因来源。
Fig.10 (a)节节麦与高粱、水稻、大麦、短柄草的基因家族聚类分析;(b)节节麦与中国春系列小麦的基因家族聚类分析
节节麦的基因组组装结合了多项测序数据,最终约95.2%的序列组装了7条染色体,且其基因组包含了大量的重复序列。与其他已测序物种进行比较分析,发现节节麦基因组中含有更多分散的重复基因,且染色体结构的进化速度也更快。研究者认为,节节麦基因组中大量相似的重复序列导致了频繁的重组错误,致使染色体结构的改变,从而推动了基因组的快速进化。
获得节节麦基因组参考序列,为研究小麦驯化史提供了一个全新的视角,并为多倍体小麦基因组的测序分析提供了D基因组参考序列。
参考文献
[1] Brenchley R, Spannagl M, Pfeifer M, et al. Analysis of the bread wheat genome using whole-genome shotgun sequencing.[J]. Nature, 2012,491(7426):705-710.
[2] Ling H Q, Zhao S, Liu D, et al. Draft genome of the wheat A-genome progenitor Triticum urartu.[J]. Science Foundation in China, 2013, 496(2):37-37.
[3] Ling, H.-Q. et al. Genome sequence of the progenitor of wheat A subgenome Triticum urartu. Nature (2018).
[4] Avni R, Nave M, Barad O, et al. Wild emmer genome architecture and diversity elucidate wheat evolution and domestication [J]. Science, 2017, 357(6346): 93-97.
[5] Luo M C, Gu Y Q, Puiu D, et al.Genome sequence of the progenitor of the wheat D genome Aegilops tauschii.[J].Nature, 2017, 551(7681):498.
发表评论
想参加讨论吗?请尽情讨论吧!