合作项目||西瓜三代基因组+BioNano+群体再发NG

2019年11月1日,北京市农林科学院许勇团队、中国农科院郑州果树所刘文革团队、美国康奈尔大学Boyce Thompson研究所费章君团队和中国农科院深圳基因组所黄三文团队等合作在国际学术期刊Nature Genetics在线发表了题为Resequencing of 414 cultivated and wild watermelon accessions identifies selection for fruit quality traits的研究成果。该研究利用三代测序技术完成了西瓜品种“97103”新的基因组精细图谱绘制,结合414份西瓜二代重测序数据,利用群体基因组分析及全基因组关联分析对西瓜的进化、驯化历史进行了解析。武汉未来组承担了该研究中的PacBio基因组测序、HiC测序、Bionano测序以及PacBio全长转录组测序工作。

西瓜(Citrullus lanatus, 2n=2x=22)是全世界最普遍的水果之一。它起源于非洲,隶属于葫芦科西瓜属,其驯化历史已超过4000年[1]。在漫长的驯化过程中,自然选择和人类选择是如何导致西瓜的表型发生显著性改变,目前还未完全清楚。

新一代西瓜基因组精细图谱绘制
研究者利用PacBio测序平台对西瓜品种“97103”进行长读长测序,结合Bionano光学图谱与Hi-C染色体构象捕获技术,完成了全新一代西瓜基因组高质量精细图谱绘制。最终基因组组装大小365.1 Mb,scaffold N50为21.9Mb,其中31个scaffold构成了基因组大小为362.7Mb的11条染色体,覆盖了西瓜基因组组装大小的99.3%,是迄今为止最高质量的西瓜基因组序列图谱。
西瓜属的基因组变异图谱与系统发育
图1 来源于西瓜属7个种的414个样品重测序的系统发育关系和群体结构组成。
随后研究者对覆盖世界上现存西瓜属全部7个种的414份代表性种质资源进行了二代基因组重测序,每个样本的平均测序深度为14.5x,共鉴定获得19,725,853个SNP变异位点。通过群体结构分析,在基因组水平上证实了非洲苏丹地区的两个西瓜资源与高糖栽培西瓜的祖先遗传关系最近。同时发现黏籽西瓜(C. mucosospermus)是距现代栽培西瓜(C. lanatus)亲缘关系最近的种群且具有共同的祖先。基因漂移等证据表明,饲用西瓜(C. amarus)与这两个种群之间可能存在独立进化,首次从全基因组层面明确了西瓜属现有7个种之间的进化关系。
西瓜属全基因组关联分析(GWAS)
图2 西瓜果实品质性状全基因组关联性分析
接着研究者通过西瓜全基因组关联分析,鉴定获得了与果实含糖量、瓤色、果实形状和种子颜色等多个与果实品质性状相关联的43个信号位点,其中有8个位点与已知QTL重合,进一步缩小了定位区间,为候选基因的精细定位和功能验证提供了宝贵线索。在果实含糖量中最强的信号位点和已知QTL QBRX2-1重合,并在10号染色体上额外发现2个和果实含糖量高度相关的区域(图2 a,b)。在瓤色中2个明显的信号位点分别在2号染色体和4号染色体上,且4号染色体上的位点与已知QTLFC4.1重合(图2c)。在果实形状上有14个相关信号位点,和已知的3个QTL重合(Qfsi3、FSI3.1FSI3.2)(图2d)。在果皮颜色和花纹上发现了染色体4、6和8号染色体上各有1个信号,分别为Dgo、SD(图2e,f)。在种子颜色上发现了13个相关信号位点,其中位于3号染色体上最强的信号与已知QTL qrc-c8-1重合(图2g)。
西瓜果实品质性状进化和驯化
图3 西瓜全基因组的选择区域
最后研究者通过进化和驯化分析,系统解析了野生西瓜到栽培西瓜的基因组驯化历史,鉴定获得了果实大小、果肉含糖量、苦味、瓤色、质地、风味等重要品质性状的选择区域及候选基因,与西瓜物种自然分化阶段相比,品质驯化改良阶段受选择基因数量显著增加,总共有620个基因独立参与了甜西瓜的改良阶段。此外,作者还发现了人类利用野生西瓜种质进行抗性改良的基因组渗入痕迹,为后续栽培作物的改良打下基础。
小结
本研究采用长读长测序+Bionano光学图谱+Hi-C策略完成了迄今为止最高质量的西瓜基因组精细图谱绘制,在此基础上通过对414个现存西瓜品种利用二代基因组重测序分析,揭示了人类及动物活动在西瓜品质形成进化中的重要作用,为西瓜功能基因深入研究及优异基因资源的利用提供了重要数据支撑和理论基础,具有重要实践意义和科学价值。

20只蝴蝶群体研究登顶Science封面,100天100个基因组De novo正当时!

群体遗传学研究的一个重要手段是利用高通量测序技术提供的DNA序列变异信息来推测作用于基因组的各种力量(突变,自然选择,群体结构,杂交等)是如何影响生物演化进程的。目前进行DNA序列变异分析的主要策略包括:基于比对(Alignment)检测和基于组装(De novo)的方法。基于序列比对的群体重测序凭借其高性价比,是动植物分子育种、群体进化研究中最为迅速有效的方法之一。但是随着测序成本的降低以及群体研究的深入,基于组装的群体基因组De novo越来越多的应用于群体遗传学研究,尤其是在解决物种进化的重大问题上表现抢眼。

2019年11月1日,国际顶级学术期刊Science以封面文章形式刊登了一篇基于群体基因组De novo的研究[1]。研究人员利用从头组装的方法构建了20个新的袖蝶属基因组,来探索快速辐射的袖碟属的物种形成历史和基因流结构。

图1 基因组结构和基因渗入形成了蝴蝶多样性

袖蝶属是由至少40个蝴蝶品种组成的多样化属,它们以其多彩且极为独特的翅翼图案而闻名。由于这种多样性,该物种一直被用于研究物种之间的基因渗入。然而,由于难以区分基因混合,杂交在袖蝶属适应性辐射中的作用仍然受到质疑。本研究构建了20个新的袖蝶属蝴蝶从头组装基因组,并使用一种新方法确认通过杂交引入的基因变异,结果表明基因组结构和基因渗入形成了蝴蝶多样性,物种间偶尔的基因渗入和重组可能会对基因组产生重大的长期影响,并为物种的快速适应性分化和辐射提供必要的基因物质。

无独有偶,2019年6月21日Science在线发表了西北工业大学及丹麦哥本哈根大学对反刍动物基于群体基因组De novo的研究[2],研究人员选取代表了反刍动物36个属,横跨全部6个科的44个反刍动物,对它们的基因组进行De novo组装,结合最新化石信息,构建了所有节点100%自举支持的全基因组系统发育树,为解决进化地位争议和更深入的理解表型进化提供了重要支持。图2 大规模的反刍动物基因组测序为研究反刍动物的进化和特性提供了新的思路基于三代测序的群体基因组De novo研究也如火如荼,美国约翰霍普金斯大学、冷泉港实验室和其他机构的研究人员使用Oxford Nanopore长读长技术的高通量PromethION测序平台,在100天内对100个番茄品种完成测序。研究者结合使用长读长技术、计算生物学和功能研究来发掘和鉴定番茄的结构变异,以便在未来进行从自然变异和驯化到作物改良的一系列研究。该团队同时采用了比对检测和从头组装两种策略进行结构变异分析,2019年5月7日,Nature Plants杂志在线发表了该研究的部分成果[3]

以上案例表明随着群体遗传学研究的深入,基于群体基因组De novo的群体基因组学研究是大势所趋,希望组科技服务隆重推出群体基因组De novo服务:

100天100个De novo测序组装交付!

希望组3大实力保证交付质量与周期:

测序产能——ONT P48 产能怪兽

2019年5月17日,希望组武汉测序中心引进全球首台商业化的Nanopore PromethION 48(P48)测序仪,成为纳米孔测序技术服务的先锋!目前所有类型三代测序仪中,P48的产能首屈一指,实测经过96小时测序,45张芯片同时运行,总计产生了4.8Tb的Nanopore长读长测序数据,官方最高获得7.3Tb的数据量,名副其实的产能怪兽!

组装软件——自主NextDenovo
2019年10月18日,希望组发布三代测序数据高效纠错、组装软件NextDenovo 最新版本V2.0beta.1,其包含NextCorrect和NextGraph两个模块,依次进行测序数据的高效纠错、组装,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组。
急速分析——华为云基因容器
基因测序对密集计算和海量数据处理能力有较高的要求,尤其是随着第三代基因测序技术的研发和广泛应用,数据量较之第二代有了百倍增长。华为云基因容器支持10万容器规模,可以超高并发运行测序分析流程,可以避免任务的死锁、减少等待时间,进一步提升测序分析效率。目前华为云基因容器已经率先集成了NextDenovo最新版,分析速度如虎添翼!

希望组三大实力加持之下,足以保证从样本合格起,100天100个De novo测序组装交付,群体基因组De novo正当时!项目合作联系当地科技顾问或将合作需求发送至邮箱:sales-support@grandomics.com 
参考文献:[1] Edelman N B, Frandsen P B, Miyagi M, et al. Genomic architecture and introgression shape a butterfly radiation[J]. Science, 2019, 366(6465): 594-599.[2] Chen L, Qiu Q, Jiang Y, et al. Large-scale ruminant genome sequencing provides insights into their evolution and distinct traits[J]. Science, 2019, 364(6446): eaav6202.[3] Soyk S, Lemmon Z H, Sedlazeck F J, et al. Duplication of a domestication locus neutralized a cryptic variant that caused a breeding barrier in tomato[J]. Nature plants, 2019, 5(5): 471.

北京希望组入选“2019未来医疗100强”榜单!

12月20日-22日,医疗健康产业趋势研讨的年度盛会——“2019未来医疗100强大会”在北京隆重举行,大会以“生命的新增量”为主题,围绕政策环境、技术环境和需求空间等因素,全面展示中国医疗健康领域的创新生态。会上公布了备受业界关注的“未来医疗100强榜”,希望组凭借基因测序精准医疗领域的实践与成果创新,入选“2019未来医疗100强·中国医疗服务榜TOP100”。
未来医疗100强榜(简称VB100)是于2015年由动脉网、蛋壳研究院联合推出的国内第一个针对非上市企业的创新医疗健康领域榜单,旨在遴选真正代表未来医疗的中国创新企业,发现我国未来医疗健康产业的核心力量,推动医疗健康产业的创新变革进程。
 
作为第三代测序技术在医学领域的开拓者和领军企业,希望组一直紧跟全球最领先的科学和技术,将生物信息学、基因组学和互联网前沿技术创新应用于临床医学和个人健康领域,凭借在三代测序数据分析和精准医疗服务领域的坚实基础,不断突破现有测序技术的瓶颈,引领测序行业新热点,拓展更新的医学科研及临床应用,并致力于为全球用户提供领先全球的基因组学精准解决方案的产品和服务。
 
作为行业的“观察员”和“记录者”,“未来医疗100强”榜单一直备受关注。其面向医疗健康领域的年度企业评选,榜单遴选了真正代表未来医疗的100家中国创新医疗企业。目前百强榜已成为业内评判未来医疗价值企业的最权威参考榜单之一,更是成了行业态势发展的风向标。
 
希望组首次参选便荣登“未来医疗100强”榜单,体现了希望组将三代测序技术应用于精准医疗的价值,获得行业的认可。希望组将继续秉承“让生命充满希望”的愿景,以“创新、突破、引领”为基因,以“用先进技术让疾病的检测更简单、更精准”为目标,真正实现“Make Undiagnosed Diagnosed”。

8.复旦大学石乐明教授团队莅临希望组武汉中心参观交流

2019年12月10日上午,复旦大学生命科学学院石乐明教授及其PGx团队一行莅临希望武汉中心参观交流,希望组集团CEO汪德鹏及武汉中心COO梁帆予以热情接待。团队成员首先参观了希望组三代测序基因组中心和医学检验实验室,对公司发展历程、业务布局、三代测序仪器技术平台建设以及取得的主要研究成果有了全面的了解。

参观结束后,PGx团队成员们参加了学术沙龙交流活动。希望组集团CEO汪德鹏先生首先向复旦大学生科院石乐明教及其团队成员莅临希望组武汉中心表示热烈欢迎,随后从基因组测序的发展历史展开,分析了测序行业现状及问题以及三代测序在院内临床市场应用的前景,并详细介绍了希望组在三代测序仪器平台、分析软件、数据库及产品方面的平台优势与战略布局。
随后石乐明教授以“多组学数据的质量控制与标准化研究”为题,介绍了PGx团队的最新科研进展。现在的生命组学高通量数据在不同技术、不同批次、不同实验室、不同平台以及不同数据分析方法间存在严重的不可重复性,造成资源的极大浪费,甚至危害患者生命健康,限制了高通量组学技术在科研和临床中的可靠应用。基于此,石教授团队聚焦多组学数据的质量控制与标准化研究领域,领导了一系列组学大数据质量控制的大型国际合作研究,并推动了国内组学大数据质量控制研究和分析标准的建立;尤其是与中国计量科学研究院等单位合作开展“中华家系1号”多组学国家标准物质及标准量值的研制,奠定了生命组学数据质量标准的基石。
 
石乐明教授还回顾了“中华家系1号”项目与希望组合作的过程,并对希望组团队为推进项目进行的付出和努力表示感谢。PGx团队核心成员郑媛婷教授与汪德鹏先生探讨了三代测序技术应用于临床市场的切入点。最后,此次活动在热烈的掌声中圆满结束。
石乐明教授简介
石乐明,复旦大学生命科学学院教授、博士生导师、药物基因组学研究中心主任,复旦-张江临床基因组学联合研究中心主任,国家特聘专家。中国药理学会药物基因组学专业委员会常委,中国化学会计算机化学专业委员会委员。先后承担或主持国家高技术研究发展计划和国家自然科学基金面上项目,发起并领导了关于基因芯片和新一代测序质量控制标准的MAQC/SEQC大型国际合作研究计划;参与创建了基于化学基因组学的创新药物研发和筛选平台,获4项创新药物化合物美国专利授权,两个化合物已进入中国III期临床试验,一个进入美国和日本临床试验;参与研发的一个原创1.1类新药西达本胺于2014年被中国FDA批准上市,用于治疗复发及难治性外周T细胞淋巴瘤。获湖南省教育厅科技进步奖一等奖、机械工业部科技进步奖二等奖等多个奖项。发表学术论文190多篇(其中11篇发表于Nature Biotechnology,影响因子41),SCI用7,000多次,单篇最高引用1,000多次。)
“中华家系1号”全基因组标准物质项目介绍
中国计量科学研究院联合复旦大学、北京希望组等单位,在GSCG计划中展开了“中华家系1号”全基因组标准物质的研究。人源中华家系1号标准物质来源于泰州队列同卵双生双胞胎家庭,从遗传结构上体现了我国南北交界的人群结构特征,同时,家系的设计也为“标准量值”的确定提供了遗传学依据。人源中华家系1号标准物质具有二代测序、三代测序平台以及光学图谱等基因组学数据,标准物质陆续公开后,组装序列信息、简单变异、结构变异序列信息等标准数据将会对所有用户开放,以期在更大程度、更广范围内推动基因测序数据质量的提升[1]
参考文献:
1 王晶, 石乐明, 董莲华, et al. 生命质量标准——基因组标准[J]. 中国计量, 2018, No.273(08):78-79.

合作项目||应用多RNA组学策略精细解析亚洲棉基因组转录全景

近日,武汉大学生命科学学院朱玉贤院士、周宇教授课题组合作在国际学术期刊Nature Communications在线发表了题为”Multi-strategic RNA-seq analysis reveals a high-resolution transcriptional landscape in cotton”的研究论文。该研究通过整合运用四种高通量RNA测序技术,系统地研究了亚洲棉16个不同组织器官的RNA转录情况,建立了亚洲棉基因组转录全景图。生命科学学院王坤副研究员和周宇实验室王得和博士研究生为论文共同第一作者,朱玉贤院士和周宇教授为论文的共同通讯作者。武汉未来组承担了本研究中PacBio Iso-seq转录组的测序和部分分析工作。
棉花是一种重要的天然纤维作物,也是研究细胞分化、伸长和细胞壁发育调控的重要模式植物,构建棉花全面的高分辨率转录景观,有利于对其各种生物过程分子机制的研究。
多种RNA测序策略实现高分辨率转录组景观
本研究整合了四种互补的高通量技术,包括长读长Pacbio Iso-seq,链特异性RNA-seq,CAGE-seq和PolyA-seq,对亚洲棉16个不同组织或器官类型的转录情况进行测序,从而系统性的解析亚洲棉基因组转录全景。研究者通过编写的IGIA算法整合了四种技术的集成数据,从中鉴定出包括TSS,TES和内含子在内的的基因元件,对亚洲棉基因组的基因结构进行准确注释。最终,从36,826个基因中鉴定出94,170个转录本,其中有56.7%的基因只有一个转录本,而17,101个基因有两个以上转录异构体(图1c)。通过随机挑选的170多对注释差异位点的RT-PCR验证表明IGIA的准确率达到98%。

图1 针对亚洲棉高分辨率转录组景观设计的多重RNA-Seq策略。

多转录起始位点(TSS)和可变启动子的使用
研究者通过分析来自于22,863个亚洲棉基因的44,728个TSS cluster发现38.4%的基因有两个及以上转录起始位点(图2a)。多启动子基因的不同TSS中,远端TSS使用更为频繁(图2c)。可变启动子产生的RNA的异质性显着增加了转录组多样性,从而产生蛋白组的可塑性,本研究数据表明可变启动子可能分别改变了5,888个基因的UTR长度和2,800多个基因的编码蛋白长度(图2d)。进一步发现了具有胚珠组织或发育阶段特异性的TSS可变基因如NRT1.2,编码基因TSS可变造成NRT蛋白四个跨膜TM的丢失,产生NRT-L和NRT-S两种长度的蛋白异构体,造成结构变化影响硝酸根转运能力。上述结果表明,差异调控的选择性TSSs是棉花mRNA的一个共同特征,通常在mRNA或蛋白中产生选择性的N-端来调控发育。

图2 亚洲棉中多转录起始位点和可变启动子的使用。

发育调节的转录终止位点(TES)选择

于PolyA-seq的3’末端信息,我们对16个组织中所有表达基因的全基因组TES进行了分析。揭示了它们的序列特征、发育过程中的动态规律和组织规范。结果表明在棉花中所有表达的基因中,有40.2%的人至少有两个TES,基因的3’末端同样存在多TES调控的现象,在发育和组织分化过程中,很多基因的转录终止通过可变的TES调节其3’UTR的长度。

棉花中动态剪接开关与微外显子

本研究基于IGIA注释,对亚洲棉的23,451个多外显子基因进行了可变剪接(AS)的系统分析。结果表明,所有AS事件中内含子保留(RI)占62.2%(图3a),在所有报道的植物中是最高的。此外,某些基因中的几个区域显示出高度丰富的AS事件,研究者将其称为AS热点。进一步分析表明,大多数AS热点影响保守的蛋白质结构域(图3g-h)。微外显子(micro-exon)是动物中首先报道的一种微小外显子,其长度短至仅3nt,该研究通过系统分析,首次在棉花中鉴定到微外显子的存在,还通过在多个植物物种的比对,发现了一个具有潜在重要作用的45nt的保守微外显子。

图3 亚洲棉中选择性剪接调控及热点

多顺反子的发现及基因组特征
最后,该研究通过分析三代测序的全长转录本,发现约5%的亚洲棉基因存在转录通读现象,形成类似原核生物的多顺反子(Polycistron)转录本(图4a)。这些基因相互临近,平均距离明显小于其他相邻的独立转录基因之间的距离(图4c)。另外通过对这些多顺反子上的基因对的功能分析发现,他们往往倾向于执行相同功能或位于同一个分子作用网络(图4f-h)。该结果表明这些基因对的转录水平的共同调控现象可能利于其共同完成某一生物学过程。

                                                                                                                                                                                                             图4 亚洲棉中多顺反子的鉴定及基因组特征
小结

本研究通过IGIA算法整合了四种互补的高通量技术:用于直接读取全长转录本异构体的PacbioIso-seq,用于定量表达和剪接的链特异性RNA-seq,准确定义转录起始和终止位点的CAGE-seq和检测聚腺苷酸化位点的PolyA-seq,生成了高分辨率的亚洲棉转录组景观图谱。发现并验证了棉花发育中基因表达调控的不同模式,如可变启动子和终止子调节、微外显子剪接、多顺反子转录通读和RNA选择性剪接热区等复杂现象,对未来棉花功能基因组学的进一步发展意义重大。

参考文献:

Wang K, Wang D, Zheng X, et al. Multi-strategic RNA-seqanalysis reveals a high-resolution transcriptional landscape in cotton[J].Nature communications, 2019, 10(1): 1-15.

植物单cell N50 143kb!希望组Super Ultra Long硬核实力,您还等什么?

继8月底宣布单Cell reads N50突破100Kb后,希望组ONT Ultra-long测序再传捷报,某单子叶植物超长测序数据产出超过1200Gb,平均读长N50达51.9Kb,单cell最高产出58.9Gb,最长reads N50达143.3Kb!这标志着希望组ONT Ultra-long测序已经能够稳定产出高质量的超长片段!

某单子叶植物ONT Ultra-long测序单Cell产量超过10G,Reads N50达143.3Kb,长度100Kb以上的reads占总数据量的65.3%,长度200Kb以上的reads占总数据量的28.1%!

图2 某单子叶植物单Cell 超长测序读长分布

希望组自2017年推出ONT超长测序服务以来,现已完成昆虫、两栖动物、鱼类、鸟类、哺乳动物、多倍体植物、药用植物等数百个物种的ONT Ultra-long测序工作,并且多个物种测序单Cell read N50突破100Kb!

采用ONT Ultra-long reads组装基因组的优势

牛津纳米孔测序平台独有的Ultra-long测序能够产生超长测序片段,轻松跨越基因组中连续重复或大片段重复区域,更大限度地还原真实的基因组景观。

轻松跨越重复区域

对于基因组中“暗区”,二代测序小短腿直接掉入深渊,三代测序小心翼翼能够跨过,而Ultra-Long Reads能够轻松跨越连续重复区域,提供更多的序列信息,更便于组装过程重复片段划分。

显著提升组装质量

在基因组组装过程中可以通过增加读长获得理想组装质量[1],加入Ultra-Long Reads数据可以显著提升人类基因组组装效果,填补基因组中的缺口,甚至组装出端粒到端粒水平的完整染色体[2]

节约组装成本

相同测序深度下采用Ultra-Long的建库测序方法,产生用于组装超大型基因组的read数更少,降低了组装复杂度,减少了计算资源的使用,能够节省一定的组装成本。

Nanopore Ultra-long 超长读长的 Reads N50 相比 Normal long 有成倍的提升,在基因组组装过程中加入适量 Ultra-long 数据,可有效提升基因组组装质量。高杂合、高重复基因组采用纯 Ultra-long 数据进行基因组组装,能够达到较好的组装质量。

希望组ONT Ultra-Long组装案例

希望组三代测序组装采用PromethION 48+Ultra-long+Next系列组装软件+Bionano&Hi-C的最新策略,结合华为云将纳米孔测序数据分析流程整合到云计算平台上,实现急速基因组组装与注释,为全球客户提供快速、高效的纳米孔长读长测序计算和存储服务!希望组三代测序,技术顶尖,算法领先,服务全面,为您的科研之路保驾护航!

[1]  Henson J, Tischler G, Ning Z. Next-generationsequencing and large genome assemblies[J]. Pharmacogenomics, 2012, 13(8):901-915.

[2] Jain M, Koren S, Miga K H, et al. Nanoporesequencing and assembly of a human genome with ultra-long reads[J]. NatureBiotechnology, 2018, 36(4).

三代测序揭示葡萄驯化过程中结构变异的群体遗传学

结构变异(Structural variants,SVs)通常是指基因组上大长度的序列变化和位置关系变化。研究表明,与单核苷酸多态性(SNPs)相比,SVs可以解释更多的表型变异。在植物基因组中,SVs的类型、大小以及对于表型的贡献多有报道,大概1/3已报道的作物表型是由于结构变异引起的(Gaut et al. 2018 Nature Plants),但是对于SVs在种群个体间的分布以及种群动态,人们知之甚少。希望组科技服务在6月份推出了基于Nanopore平台的三代测序群体基因组SVs研究,许多老师对这一研究非常感兴趣,但苦于没有研究思路。最近,Nature Plants杂志在线发表了一篇群体水平结构变异研究文章,加州大学Irvine分校周永锋博士为第一作者,Brandon Gaut教授(UC Irvine)和Dario Cantu教授(UC Davis)为共同通讯作者。该研究探讨了葡萄驯化过程中结构变异的群体遗传学,今天就给大家分享一下这篇文章的研究策略,给各位提供一些科研灵感。

研究背景

多年生植物栽培葡萄(Grapevine)是由其野生祖先欧亚葡萄(Eurasian grapevine),在约8000年前的高加索地区驯化而来。驯化提高了果实含糖量,增大了果实的体积和串大小,改变了种子形态,同时使雌雄异株转变为雌雄同体无性繁殖。无性繁殖作物处于永久性杂合状态,并随着时间累积体细胞突变(Zhou et al. 2017 PNAS)。理论上,雌雄同体葡萄可以自交,但实践中,其自交后代无法存活,可能是近亲繁殖暴露了杂合状态下的有害等位基因。因此,大多数葡萄品种是远源亲本之间的杂交种,加上体细胞突变的积累,导致葡萄品种往往是高度杂合的。本研究通过调查野生和驯化葡萄中SV的群体遗传来填补我们对植物基因组进化认知的空白。

研究策略

无性系繁殖葡萄基因组中肆虐的半合子状态

研究者首先利用三代测序+二代测序+Hi-C技术,组装了高杂合葡萄霞多丽品种的基因组序列,并对其进行了注释和评估,发现无性系繁殖葡萄基因组中有七分之一(~15%)的基因属于半合子,这一结果在黑比诺(PN40024)基因组与赤霞珠(Cab08)参考基因中得到了验证。

随后研究者用长、短reads比对和全基因组比对等方法,综合比较了Char04和Cab08两基因组之间的SVs。结果表明利用长reads比对检测到59,913个SVs,其中75%得到另外两种方法的证实。两个品种之间有近5%的PAV基因差异,半合子基因差异高达25%,表明葡萄品种之间显著的结构变异(图2)。

图2 高杂合Char04及与Cab08结构变异的比较

SVs群体遗传分析

为了获得更广泛的葡萄品种及其野生亲缘SVs信息,研究者收集了有代表性的50个栽培葡萄品种和19个野生亲缘品种的短读长测序数据。以Char04为参考基因组,以Char04和Cab08综合比对的交叉SVs集合为金标准,获得了一组高度筛选的481,096个SVs。

随后,研究者利用上述SVs集合计算了12个野生种和12个栽培种的SFS(图3),推断了对SVs类型的选择强度,并对比了驯化和野生祖先之间的SVs频率。结果非同义SNP(nSNP)和SVs都经历了强烈的纯化选择,不同SVs类型中,易位TRAs和倒位INVs的选择性更强。因此SVs事件比nSNP更有害,INV和TRA事件尤其有害。

图3 处于强烈净化选择中的有害SVs

SVs在无性系繁殖体中积累

研基于SNP的个体杂合度分析,栽培葡萄个体杂合度要高出野生型葡萄11%,相应的单个栽培种SVs比野生种高出6%,但纯合子SVs或推测为中性的sSNPs没有明显增加(图4a)。因此有害SVs在无性繁殖情况下以杂合隐性形式隐藏、积累。

杂合变异的积累会影响连锁不平衡(LD),通过测量SVs、SNP和组合数据集的LD随物理距离的下降来分析SVs的种群频率。结果发现,与野生品种相比,栽培品种的LD下降速度更快;与SNP相比,SVs的LD下降更快;下降速度最快的是SV+SNP数据集。表明由于有害影响,SVs通常比SNP的种群频率更低。

图4 葡萄驯化相关SVs的群体遗传学

大的,独立的倒位对浆果颜色的影响

通过计算固定指数(FST)来估计SNP和SVs在基因组中的差异(图4c),在2号染色体上发现了两个异常值分别与性别决定和浆果颜色相关。其中对浆果颜色相关区域的进一步研究发现,在霞多丽中有一个4.82Mb的倒位(图5b),并有证据支持白浆果的独立起源通常是由这种倒位介导的(图5d),其导致了半合子状态的花青素合成基因MybA1和MybA2的等位基因空缺。

图5 与白色浆果相关的染色体倒位

小结

本研究首先组装了高杂合葡萄霞多丽的基因组序列,评估了该基因组中SVs类型和分布以及导致遗传半合子的SVs。随后将霞多丽与赤霞珠基因组进行综合比较,获得了一套种间SVs标准集,并以此指导、推断栽培葡萄及其野生祖先群体样本中的SVs。然后利用获得的群体SVs数据集,推断不同类型变异的选择强度,探讨了在栽培葡萄上由异交向无性繁殖转变的效应,最后研究了栽培葡萄与其野生祖先之间SVs差异特别显著的与浆果颜色相关的基因区域。 在结构变异的研究中,最首要的任务是获得到研究对象全面、准确的SVs集合,本研究中作者为了获取准确的SVs集合,利用三代测序组装了霞多丽基因组,采用长读长比对来鉴定SVs,基因组比对和短读长比对进行验证,短读长仅检测到长读长比对检测数量的62%,长读长检测的SVs中75%得到另外两种方法的验证。可见相比短读长利用三代测序检测的SVs更加全面准确。

参考文献:

Gaut B S, Seymour D K, Liu Q, et al. Demography and its effects on genomic variation in crop domestication[J]. Nature plants, 2018, 4(8): 512.

Zhou Y, Massonnet M, Sanjak J S, et al. Evolutionary genomics of grape (Vitis vinifera ssp. vinifera) domestication[J]. Proceedings of the National Academy of Sciences, 2017, 114(44): 11715-11720.

项目文章||高质量中国恒河猴参考基因组解析猿类特异性结构变异

2019年9月17日希望组合作项目文章以Long-read assembly of the Chinese rhesus macaque genome and identification of ape-specific structural variants为题,在Nature Communications发表。该研究利用三代测序结合多种辅助技术组装了一个高质量的中国恒河猴参考基因组,极大地改善了当前版本恒河猴参考基因组的连续性和完整性。通过与已发表的猿类基因组比较分析,首次发现了17,000个猿类特有的结构变异(ASSVs),其中包含了一系列与猿类重要表型特征相关的ASSVs。该研究成果为非人灵长类模型在生物医学研究中的应用提供了重要数据,也极大地促进了包括人类在内的灵长类进化的研究。中国科学院昆明动物所和耀喜副研究员为论文的第一作者,博士研究生罗鑫、周斌,硕士研究生胡庭和博士研究生孟晓宇为该文的共同第一作者,宿兵研究员为该文的通讯作者。希望组承担了本研究中三代测序和部分分析工作。

研究背景

在进化上恒河猴属于旧大陆猴类(Old World monkey species),与人型总科的猿类(Apes)属于姊妹群,有着共同的祖先。与旧大陆猴类相比,猿类在进化过程中有着一系列创新,如无尾、巨大的体型、脑容量和复杂性的增加、手的灵活性提升等。结构变异(SVs)在灵长类进化和疾病中起重要作用,可以通过恒河猴与猿类基因组之间的比较分析来探索在恒河猴和猿类的共同祖先中发生的功能性遗传变化。然而,目前尚缺少一个高质量的恒河猴基因组,现有的几个恒河猴基因组序列连续性差(片段化)、完整性差(许多缺口),很难对序列进行系统的识别。

高质量恒河猴基因组

研究人员利用三代测序技术(100×PacBio)结合多种辅助组装策略(101×Bionano,105×Hi-C)构建了一个高质量的中国恒河猴基因组rheMacS,同时利用恒河猴10个组织的全长转录组数据改进了参考基因组的注释。rheMacS基因组大小2.95Gb,ContigN50为8.19 Mbp,BUSCO完整性评估达93.5%,与现有的印度恒河猴基因组相比,连续性提升了75倍,填补了2万多个缺口,极大地改善了当前版本恒河猴参考基因组的连续性和完整性。

图1 rheMacS基因组与印度恒河猴组装质量对比

猿类特异性结构变异(ASSVs)鉴定

研究者在rheMacS中鉴定了53,916个SVs(图2a),其中96%(51,919/53,916)是全新的SVs,在之前使用array和NGS平台的研究中没有被观察到(图2e),可见长读长测序数据在全基因组SV检测中有巨大优势。

图2 rheMacS中的结构变异(SVs)

结合已经发表的高质量猿类基因组,首次有机会识别从共同祖先中分化以来出现在猿类谱系中的特异性结构变异(ASSVs)。通过比较基因组学方法,将rheMacS组装和三个已发表的猿类基因组、人类ZF1基因组以及狨猴基因组进行比较,筛选过滤后发现了17,000个候选ASSVs,包括13,456个删除和3,544个插入(图3a,b)。对这些ASSVs进行注释,有12,255个定位于3,412个编码基因内或附近(图3c)。其中,有25个ASSVs位于基因外显子上(共涉及32个基因),其余位于基因内含子上,提示其潜在的功能影响可能与基因表达调控有关。

图3 猿类特异性结构变异(ASSVs)

大脑调节元件中的ASSVs

利用先前发表的来自人类、黑猩猩和恒河猴的脑组织不同区域的ChIP-Seq数据和RNA-Seq表达数据,发现大量ASSVs映射到猿类与恒河猴差异增强子区域(ADEs),筛选后其中21个ASSVs对应20个ADEs具有高可信度(图4a)。使用PCR和Sanger测序对两个ASSVs进行了实验验证,发现587bp的缺失破坏了5个猿类大脑区域的ADE(4b),其编码Intersectin-2,影响网格蛋白介导的内吞作用,对神经元突触囊泡的循环起关键作用。由于ASSV干扰了ITSN2中的增强子区域,ITSN2在人类和黑猩猩中的表达明显低于恒河猴(4d),这与其增强子活性减少一致。

图4 与大脑调节相关的ASSVs

猿类特异表型性状相关ASSVs

猿类在进化过程中有着一系列重要特征创新,如无尾、巨大的体型、脑容量和复杂性的增加、手的灵活性提升等,通过进一步的分析研究人员找到了一系列与以上表型特征相关的候选ASSVs。例如位于与尾巴发育相关的CDH8基因的477 bp的缺失(图5e);与人类胎儿拇指内收相关的NALCN基因178bp缺失(图5f)等。这一系列与猿类特异性性状相关的候选ASSVs可作为研究猿类进化过程中出现的表型创新的遗传基础。

图5 猿类特异表型性状相关ASSVs

小结

该研究公布了一个高质量中国恒河猴参考基因组,极大地改善了当前版本恒河猴参考基因组的连续性和完整性。基于此恒河猴组装,通过与已发表的猿类基因组比较分析,使我们有机会识别从共同祖先中分化以来出现在猿类谱系中的特异性结构变异(ASSVs),首次发现了17,000个ASSVs,其中包含了一系列与猿类重要表型特征相关的ASSVs,如无尾、巨大的体型、脑容量和复杂性的增加、手的灵活性提升等。该研究成果为非人灵长类模型在生物医学研究中的应用提供了重要数据,也极大地促进了包括人类在内的灵长类进化的研究。

项目文章||药用植物黄芩全长转录组研究

2019年9月9日青岛农业大学生命科学学院与中国医学科学院药用植物研究所在International Journal of Molecular Sciences杂志发表题为“Hybrid Sequencing of Full-Length cDNA Transcripts of the Medicinal Plant Scutellaria baicalensis” 的研究文章。该研究对中药黄芩进行了全长转录组混合测序,获得了大量高精度全长转录本,为进一步开展黄芩的育种、活性成分的生物合成等分子生物学研究奠定了坚实的遗传学基础。青岛农业大学生命科学学院高婷为第一作者,中国医学科学院药用植物研究所孙超为通讯作者,武汉未来组承担了该研究的全长转录组测序及部分分析工作。
黄芩(Scutellaria baicalensis)唇形科黄芩属,是一种著名的中药,能合成独特的具有消炎、抗菌和抗癌活性的多种黄酮类化合物——黄芩甙(baicalin)、黄芩素(baicalein)、汉黄芩素(wogonin)等。关于药用植物黄芩的黄酮类生物合成途径,仍有许多问题尚未解答,例如关键基因中是否存在各种可变剪接模式?哪种剪接模式导致成分的活性和功能更好,并直接调节黄酮类化合物?

本研究利用混合测序技术研究黄芩的全长转录组,首先采用PacBio Sequel平台对黄芩根,茎和叶高质量RNA混合样本进行全长转录组测序,共获得338,136个全长非嵌合(FLNC)reads,占总reads数的93.3%,使用二代数据进行去冗余和校正后,产生了75,785个非冗余转录本,其中约98%被注释为编码蛋白质的mRNA,并且11,135个转录本被归类为IncRNA。

图1 实验分析流程

差异表达基因筛选分析发现与黄酮类生物合成相关的大多数基因(如PB22530.1)在黄芩根中高表达(图2),表明黄芩黄酮类化合物主要在根中合成,这与以往的研究一致。

图2 差异表达基因分析

在可变剪接分析(AS)中,共检测到4471个AS事件,其中内含子保留(IR)事件占比最高,达44.5%(图3)。

图3 AS事件分类

进一步分析,发现与类黄酮生物合成相关的五个关键基因中观察到94个AS事件。通过PCR确认了一些AS事件的真实性,结果显示异构体在其UTR或CDS区域表现出差异(图4),表明AS可能在S.baicalensis的转录后水平上调节黄酮类生物合成。

图4 黄酮类生物合成相关关键基因的AS预测和PCR验证

本研究通过混合测序技术研究了黄芩的全长转录组,不仅为黄酮类化合物生物合成中AS的调控提供了新的见解,而且为进一步探索其在黄芩中的功能基因组学提供了宝贵的遗传资源。

ONT Ultra Long与“Telomre to Telomere”的风云际会:首个人类X染色体完成图与甲基化图谱发布

以基因组完成图为参考基因组是动植物基因组和医学遗传学研究者们孜孜以求的终极目标之一。而人类基因组完成图则有望帮助我们加深对染色体功能和人类疾病的理解,对基因组变异的全面了解将改善目前使用短读取映射到参考基因组的生物医学中的驱动技术(例如RNA-seq,ChlP-seq,ATAC-seq)。在人类基因组测序组装发展历程中,科学家们陆陆续续发布一系列参考基因组版本。2001年人类基因组计划公布了首个人类参考基因组[1],2009年,基因组参考联盟(GRC)发布了人类参考基因组版本GRCh37。2013年人类参考基因组第20个版本——GRCh38发布,在当时被认为是世界上测序最精确的人类基因组,不断修修补补中使用至今。事实上,人类基因组尚未解决的区域还有很多,包括着丝粒周围Mb级别的微卫星区域,近端着丝粒短臂上的rDNA区域,长达几百Kb的片段重复,超过98%一致性的旁系同源基因等。因此,在人类基因组领域,Telomere-to-Telomere的完整组装是实现人基因组完成图的一个关键步骤。

近日发表在bioRxiv上的一项研究,利用Nanopore ultra-long、PacBio、10X Genomics等多种测序技术,组装出首个端粒到端粒的人类X染色体完成图和甲基化图谱,向重建完整的人类参考基因组完成图迈出了关键的一步。

材料与方法

本研究选用的测序材料为CHM13hTERT细胞系,该细胞系来自于一个经过减数分裂后染色体复制的精子,每条染色体都有两个完全相同的拷贝,因此没有任何等位基因变异,这与GRCh38的取材策略一致。光谱核型分析表明该细胞系核型为46,XX,无明显染色体异常。
CHM13基因组纯三代组装

基因组组装中重复的解决依赖于长度足以跨越重复区域的测序read,最近的研究表明利用5× Nanopore ultra-long read显著提升了组装基因组的连续性[2]。根据前人的研究进展,研究者推测高覆盖度Nanopore ultra-long测序将使人类染色体的第一次完整组装成为可能。

因此,研究者利用MinION测序仪获得了155 Gb 约50×覆盖度的Nanopore ultra-long数据,其中一半数据量的read长度在70Kb以上,最长达1.04Mb。取其中39×ultra-long数据与70×PacBio数据用Canu软件进行初步组装,获得基因组大小为2.9Gb, NG50为75Mb,超过了参考基因组GRCh38的56Mb。随后按照read长度从长到短的顺序进行迭代Polish,通过单独分析10X Genomics和Bionano数据来确定可能的组装错误,然后利用光学图谱排序定位,通过比对人类参考基因组将Contig分配至染色体。最终组装出2.94Gb的CHM13基因组,包含590个Contig,NG50达72Mb,估计共有序列准确度中值>99.99%,一些染色体被两条Contig覆盖,仅在着丝粒处发生断裂(图2a,chr10, chr12, chr18, etc.)。

图2 CHM13全基因组组装与验证

研究者采用先前测序的CHM13 BAC 文库(VMRC59 library)来评估组装基因组完整性,在总共341个BAC克隆中,有280个克隆99.5%以上的序列比对至本文CHM13基因组,明显优于其他近期发布的人类基因组(表1)。当用作调用其他基因组中的结构变体的参考序列时,CHM13表现出insertion和 deletion调用平衡,而GRCh38 则表现出deletion调用偏倚。并且GRCh38的inversion数量是CHM13的两倍,表明现有参考基因组可能存在一些定向错误。因此,在连续性、完整性和正确性方面,CHM13组装超过了所有之前公布的人类基因组,包括当前人类参考基因组的一些质量指标。

表1 CHM13组装统计及按照连续性排序的人类参考基因组

X染色体端粒至端粒组装

初始组装出的X染色体有三个断点,分别是着丝粒区域和两个>100Kb的片段重复(图2b),利用完全跨越重复区域的Ultra-long read手动解决了两个片段重复断点。通过构建着丝粒DXZ1 中~2Kb重复单元标记索引,引导Ultra-long read跨越整个2.8Mb的着丝粒卫星阵列,PFGE Southern blot实验和ddPCR实验结果与预测组装结果相符(图3a,b,c)。进一步验证,发现DXZ1与PacBio HiFi数据结构变异频率高度一致(图3a,d),表明该X染色体的组装具有极高的连续性和结构准确性。

通过构建21-mer短特异序列标记确定长read在X染色体的位置,从而执行精细的Polish程序,以达到最大的碱基精度(图3d,e,f)。

最终,研究者获得了完整、无Gap、估计精度达99.99%的X染色体,解决了29个参考Gap,总长达1,147,861 bp的N碱基。长read和光学图谱比对表明X染色体覆盖均匀无结构错误(图3e)。初始组装质量较低的区域,在精细Polish后也得到了解决(图2c,d)。

图3 X染色体2.8Mb着丝粒区域验证

X染色体CpG甲基化分析

独特的锚定Ultra-long read提供了一种新的方法来分析重复区域上的甲基化模式,这些重复区域通常很难用短读序列检测到。研究者观察到位于X染色体臂两端的大部分伪常染色体区域(PAR1,2)甲基化水平降低(图4a),在DXZ4阵列区域也发现明显的甲基化条带,这与其独特的空间结构相一致(图4c)。有趣的是在着丝粒DXZ1上发现了一段甲基化水平降低区域(图4b),并且在8号染色体D8Z2上得到了验证。这进一步证明了Ultra-long read比对策略能够提供碱基水平染色体范围的DNA甲基化图谱。

图4 全染色体CpG甲基化分析

总结

该研究在现有技术水平下利用Nanopore ultra-long 测序组装出了第一条完整的端粒到端粒人类染色体,CHM13基因组的其他染色体仅包含一些缺口,可以作为构建完整人类染色体的基础。本研究中最大的亮点是Nanopore ultra-long read的应用,提升基因组组装连续性,跨越上百Kb的片段重复,在重复单元标记引导下跨越2.8Mb的着丝粒区间,以及提供碱基水平染色体范围的DNA甲基化图谱。

武汉未来组自成立以来致力于三代测序技术应用与服务,自2017年搭建Oxford Nanopore测序平台便开始ONT ultra-long测序的研发工作,并于2017年底推出ONT ultra-long测序服务,目前已经完成数十个物种的ONT ultra-long测序工作,下机read N50突破100Kb,处于行业领先地位!欢迎体验未来组ONT ultra-long测序服务,助您迈入基因组完成图时代!

参考文献:

[1] International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome[J]. nature, 2001, 409(6822): 860.

[2] Jain M, Koren S, Miga K H, et al. Nanopore sequencing and assembly of a human genome with ultra-long reads[J]. Nature Biotechnology, 2018, 36(4).