合作项目||西瓜三代基因组+BioNano+群体再发NG

2019年11月1日,北京市农林科学院许勇团队、中国农科院郑州果树所刘文革团队、美国康奈尔大学Boyce Thompson研究所费章君团队和中国农科院深圳基因组所黄三文团队等合作在国际学术期刊Nature Genetics在线发表了题为Resequencing of 414 cultivated and wild watermelon accessions identifies selection for fruit quality traits的研究成果。该研究利用三代测序技术完成了西瓜品种“97103”新的基因组精细图谱绘制,结合414份西瓜二代重测序数据,利用群体基因组分析及全基因组关联分析对西瓜的进化、驯化历史进行了解析。武汉未来组承担了该研究中的PacBio基因组测序、HiC测序、Bionano测序以及PacBio全长转录组测序工作。

西瓜(Citrullus lanatus, 2n=2x=22)是全世界最普遍的水果之一。它起源于非洲,隶属于葫芦科西瓜属,其驯化历史已超过4000年[1]。在漫长的驯化过程中,自然选择和人类选择是如何导致西瓜的表型发生显著性改变,目前还未完全清楚。

新一代西瓜基因组精细图谱绘制
研究者利用PacBio测序平台对西瓜品种“97103”进行长读长测序,结合Bionano光学图谱与Hi-C染色体构象捕获技术,完成了全新一代西瓜基因组高质量精细图谱绘制。最终基因组组装大小365.1 Mb,scaffold N50为21.9Mb,其中31个scaffold构成了基因组大小为362.7Mb的11条染色体,覆盖了西瓜基因组组装大小的99.3%,是迄今为止最高质量的西瓜基因组序列图谱。
西瓜属的基因组变异图谱与系统发育
图1 来源于西瓜属7个种的414个样品重测序的系统发育关系和群体结构组成。
随后研究者对覆盖世界上现存西瓜属全部7个种的414份代表性种质资源进行了二代基因组重测序,每个样本的平均测序深度为14.5x,共鉴定获得19,725,853个SNP变异位点。通过群体结构分析,在基因组水平上证实了非洲苏丹地区的两个西瓜资源与高糖栽培西瓜的祖先遗传关系最近。同时发现黏籽西瓜(C. mucosospermus)是距现代栽培西瓜(C. lanatus)亲缘关系最近的种群且具有共同的祖先。基因漂移等证据表明,饲用西瓜(C. amarus)与这两个种群之间可能存在独立进化,首次从全基因组层面明确了西瓜属现有7个种之间的进化关系。
西瓜属全基因组关联分析(GWAS)
图2 西瓜果实品质性状全基因组关联性分析
接着研究者通过西瓜全基因组关联分析,鉴定获得了与果实含糖量、瓤色、果实形状和种子颜色等多个与果实品质性状相关联的43个信号位点,其中有8个位点与已知QTL重合,进一步缩小了定位区间,为候选基因的精细定位和功能验证提供了宝贵线索。在果实含糖量中最强的信号位点和已知QTL QBRX2-1重合,并在10号染色体上额外发现2个和果实含糖量高度相关的区域(图2 a,b)。在瓤色中2个明显的信号位点分别在2号染色体和4号染色体上,且4号染色体上的位点与已知QTLFC4.1重合(图2c)。在果实形状上有14个相关信号位点,和已知的3个QTL重合(Qfsi3、FSI3.1FSI3.2)(图2d)。在果皮颜色和花纹上发现了染色体4、6和8号染色体上各有1个信号,分别为Dgo、SD(图2e,f)。在种子颜色上发现了13个相关信号位点,其中位于3号染色体上最强的信号与已知QTL qrc-c8-1重合(图2g)。
西瓜果实品质性状进化和驯化
图3 西瓜全基因组的选择区域
最后研究者通过进化和驯化分析,系统解析了野生西瓜到栽培西瓜的基因组驯化历史,鉴定获得了果实大小、果肉含糖量、苦味、瓤色、质地、风味等重要品质性状的选择区域及候选基因,与西瓜物种自然分化阶段相比,品质驯化改良阶段受选择基因数量显著增加,总共有620个基因独立参与了甜西瓜的改良阶段。此外,作者还发现了人类利用野生西瓜种质进行抗性改良的基因组渗入痕迹,为后续栽培作物的改良打下基础。
小结
本研究采用长读长测序+Bionano光学图谱+Hi-C策略完成了迄今为止最高质量的西瓜基因组精细图谱绘制,在此基础上通过对414个现存西瓜品种利用二代基因组重测序分析,揭示了人类及动物活动在西瓜品质形成进化中的重要作用,为西瓜功能基因深入研究及优异基因资源的利用提供了重要数据支撑和理论基础,具有重要实践意义和科学价值。

20只蝴蝶群体研究登顶Science封面,100天100个基因组De novo正当时!

群体遗传学研究的一个重要手段是利用高通量测序技术提供的DNA序列变异信息来推测作用于基因组的各种力量(突变,自然选择,群体结构,杂交等)是如何影响生物演化进程的。目前进行DNA序列变异分析的主要策略包括:基于比对(Alignment)检测和基于组装(De novo)的方法。基于序列比对的群体重测序凭借其高性价比,是动植物分子育种、群体进化研究中最为迅速有效的方法之一。但是随着测序成本的降低以及群体研究的深入,基于组装的群体基因组De novo越来越多的应用于群体遗传学研究,尤其是在解决物种进化的重大问题上表现抢眼。

2019年11月1日,国际顶级学术期刊Science以封面文章形式刊登了一篇基于群体基因组De novo的研究[1]。研究人员利用从头组装的方法构建了20个新的袖蝶属基因组,来探索快速辐射的袖碟属的物种形成历史和基因流结构。

图1 基因组结构和基因渗入形成了蝴蝶多样性

袖蝶属是由至少40个蝴蝶品种组成的多样化属,它们以其多彩且极为独特的翅翼图案而闻名。由于这种多样性,该物种一直被用于研究物种之间的基因渗入。然而,由于难以区分基因混合,杂交在袖蝶属适应性辐射中的作用仍然受到质疑。本研究构建了20个新的袖蝶属蝴蝶从头组装基因组,并使用一种新方法确认通过杂交引入的基因变异,结果表明基因组结构和基因渗入形成了蝴蝶多样性,物种间偶尔的基因渗入和重组可能会对基因组产生重大的长期影响,并为物种的快速适应性分化和辐射提供必要的基因物质。

无独有偶,2019年6月21日Science在线发表了西北工业大学及丹麦哥本哈根大学对反刍动物基于群体基因组De novo的研究[2],研究人员选取代表了反刍动物36个属,横跨全部6个科的44个反刍动物,对它们的基因组进行De novo组装,结合最新化石信息,构建了所有节点100%自举支持的全基因组系统发育树,为解决进化地位争议和更深入的理解表型进化提供了重要支持。图2 大规模的反刍动物基因组测序为研究反刍动物的进化和特性提供了新的思路基于三代测序的群体基因组De novo研究也如火如荼,美国约翰霍普金斯大学、冷泉港实验室和其他机构的研究人员使用Oxford Nanopore长读长技术的高通量PromethION测序平台,在100天内对100个番茄品种完成测序。研究者结合使用长读长技术、计算生物学和功能研究来发掘和鉴定番茄的结构变异,以便在未来进行从自然变异和驯化到作物改良的一系列研究。该团队同时采用了比对检测和从头组装两种策略进行结构变异分析,2019年5月7日,Nature Plants杂志在线发表了该研究的部分成果[3]

以上案例表明随着群体遗传学研究的深入,基于群体基因组De novo的群体基因组学研究是大势所趋,希望组科技服务隆重推出群体基因组De novo服务:

100天100个De novo测序组装交付!

希望组3大实力保证交付质量与周期:

测序产能——ONT P48 产能怪兽

2019年5月17日,希望组武汉测序中心引进全球首台商业化的Nanopore PromethION 48(P48)测序仪,成为纳米孔测序技术服务的先锋!目前所有类型三代测序仪中,P48的产能首屈一指,实测经过96小时测序,45张芯片同时运行,总计产生了4.8Tb的Nanopore长读长测序数据,官方最高获得7.3Tb的数据量,名副其实的产能怪兽!

组装软件——自主NextDenovo
2019年10月18日,希望组发布三代测序数据高效纠错、组装软件NextDenovo 最新版本V2.0beta.1,其包含NextCorrect和NextGraph两个模块,依次进行测序数据的高效纠错、组装,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组。
急速分析——华为云基因容器
基因测序对密集计算和海量数据处理能力有较高的要求,尤其是随着第三代基因测序技术的研发和广泛应用,数据量较之第二代有了百倍增长。华为云基因容器支持10万容器规模,可以超高并发运行测序分析流程,可以避免任务的死锁、减少等待时间,进一步提升测序分析效率。目前华为云基因容器已经率先集成了NextDenovo最新版,分析速度如虎添翼!

希望组三大实力加持之下,足以保证从样本合格起,100天100个De novo测序组装交付,群体基因组De novo正当时!项目合作联系当地科技顾问或将合作需求发送至邮箱:sales-support@grandomics.com 
参考文献:[1] Edelman N B, Frandsen P B, Miyagi M, et al. Genomic architecture and introgression shape a butterfly radiation[J]. Science, 2019, 366(6465): 594-599.[2] Chen L, Qiu Q, Jiang Y, et al. Large-scale ruminant genome sequencing provides insights into their evolution and distinct traits[J]. Science, 2019, 364(6446): eaav6202.[3] Soyk S, Lemmon Z H, Sedlazeck F J, et al. Duplication of a domestication locus neutralized a cryptic variant that caused a breeding barrier in tomato[J]. Nature plants, 2019, 5(5): 471.

合作项目||应用多RNA组学策略精细解析亚洲棉基因组转录全景

近日,武汉大学生命科学学院朱玉贤院士、周宇教授课题组合作在国际学术期刊Nature Communications在线发表了题为”Multi-strategic RNA-seq analysis reveals a high-resolution transcriptional landscape in cotton”的研究论文。该研究通过整合运用四种高通量RNA测序技术,系统地研究了亚洲棉16个不同组织器官的RNA转录情况,建立了亚洲棉基因组转录全景图。生命科学学院王坤副研究员和周宇实验室王得和博士研究生为论文共同第一作者,朱玉贤院士和周宇教授为论文的共同通讯作者。武汉未来组承担了本研究中PacBio Iso-seq转录组的测序和部分分析工作。
棉花是一种重要的天然纤维作物,也是研究细胞分化、伸长和细胞壁发育调控的重要模式植物,构建棉花全面的高分辨率转录景观,有利于对其各种生物过程分子机制的研究。
多种RNA测序策略实现高分辨率转录组景观
本研究整合了四种互补的高通量技术,包括长读长Pacbio Iso-seq,链特异性RNA-seq,CAGE-seq和PolyA-seq,对亚洲棉16个不同组织或器官类型的转录情况进行测序,从而系统性的解析亚洲棉基因组转录全景。研究者通过编写的IGIA算法整合了四种技术的集成数据,从中鉴定出包括TSS,TES和内含子在内的的基因元件,对亚洲棉基因组的基因结构进行准确注释。最终,从36,826个基因中鉴定出94,170个转录本,其中有56.7%的基因只有一个转录本,而17,101个基因有两个以上转录异构体(图1c)。通过随机挑选的170多对注释差异位点的RT-PCR验证表明IGIA的准确率达到98%。

图1 针对亚洲棉高分辨率转录组景观设计的多重RNA-Seq策略。

多转录起始位点(TSS)和可变启动子的使用
研究者通过分析来自于22,863个亚洲棉基因的44,728个TSS cluster发现38.4%的基因有两个及以上转录起始位点(图2a)。多启动子基因的不同TSS中,远端TSS使用更为频繁(图2c)。可变启动子产生的RNA的异质性显着增加了转录组多样性,从而产生蛋白组的可塑性,本研究数据表明可变启动子可能分别改变了5,888个基因的UTR长度和2,800多个基因的编码蛋白长度(图2d)。进一步发现了具有胚珠组织或发育阶段特异性的TSS可变基因如NRT1.2,编码基因TSS可变造成NRT蛋白四个跨膜TM的丢失,产生NRT-L和NRT-S两种长度的蛋白异构体,造成结构变化影响硝酸根转运能力。上述结果表明,差异调控的选择性TSSs是棉花mRNA的一个共同特征,通常在mRNA或蛋白中产生选择性的N-端来调控发育。

图2 亚洲棉中多转录起始位点和可变启动子的使用。

发育调节的转录终止位点(TES)选择

于PolyA-seq的3’末端信息,我们对16个组织中所有表达基因的全基因组TES进行了分析。揭示了它们的序列特征、发育过程中的动态规律和组织规范。结果表明在棉花中所有表达的基因中,有40.2%的人至少有两个TES,基因的3’末端同样存在多TES调控的现象,在发育和组织分化过程中,很多基因的转录终止通过可变的TES调节其3’UTR的长度。

棉花中动态剪接开关与微外显子

本研究基于IGIA注释,对亚洲棉的23,451个多外显子基因进行了可变剪接(AS)的系统分析。结果表明,所有AS事件中内含子保留(RI)占62.2%(图3a),在所有报道的植物中是最高的。此外,某些基因中的几个区域显示出高度丰富的AS事件,研究者将其称为AS热点。进一步分析表明,大多数AS热点影响保守的蛋白质结构域(图3g-h)。微外显子(micro-exon)是动物中首先报道的一种微小外显子,其长度短至仅3nt,该研究通过系统分析,首次在棉花中鉴定到微外显子的存在,还通过在多个植物物种的比对,发现了一个具有潜在重要作用的45nt的保守微外显子。

图3 亚洲棉中选择性剪接调控及热点

多顺反子的发现及基因组特征
最后,该研究通过分析三代测序的全长转录本,发现约5%的亚洲棉基因存在转录通读现象,形成类似原核生物的多顺反子(Polycistron)转录本(图4a)。这些基因相互临近,平均距离明显小于其他相邻的独立转录基因之间的距离(图4c)。另外通过对这些多顺反子上的基因对的功能分析发现,他们往往倾向于执行相同功能或位于同一个分子作用网络(图4f-h)。该结果表明这些基因对的转录水平的共同调控现象可能利于其共同完成某一生物学过程。

                                                                                                                                                                                                             图4 亚洲棉中多顺反子的鉴定及基因组特征
小结

本研究通过IGIA算法整合了四种互补的高通量技术:用于直接读取全长转录本异构体的PacbioIso-seq,用于定量表达和剪接的链特异性RNA-seq,准确定义转录起始和终止位点的CAGE-seq和检测聚腺苷酸化位点的PolyA-seq,生成了高分辨率的亚洲棉转录组景观图谱。发现并验证了棉花发育中基因表达调控的不同模式,如可变启动子和终止子调节、微外显子剪接、多顺反子转录通读和RNA选择性剪接热区等复杂现象,对未来棉花功能基因组学的进一步发展意义重大。

参考文献:

Wang K, Wang D, Zheng X, et al. Multi-strategic RNA-seqanalysis reveals a high-resolution transcriptional landscape in cotton[J].Nature communications, 2019, 10(1): 1-15.

植物单cell N50 143kb!希望组Super Ultra Long硬核实力,您还等什么?

继8月底宣布单Cell reads N50突破100Kb后,希望组ONT Ultra-long测序再传捷报,某单子叶植物超长测序数据产出超过1200Gb,平均读长N50达51.9Kb,单cell最高产出58.9Gb,最长reads N50达143.3Kb!这标志着希望组ONT Ultra-long测序已经能够稳定产出高质量的超长片段!

某单子叶植物ONT Ultra-long测序单Cell产量超过10G,Reads N50达143.3Kb,长度100Kb以上的reads占总数据量的65.3%,长度200Kb以上的reads占总数据量的28.1%!

图2 某单子叶植物单Cell 超长测序读长分布

希望组自2017年推出ONT超长测序服务以来,现已完成昆虫、两栖动物、鱼类、鸟类、哺乳动物、多倍体植物、药用植物等数百个物种的ONT Ultra-long测序工作,并且多个物种测序单Cell read N50突破100Kb!

采用ONT Ultra-long reads组装基因组的优势

牛津纳米孔测序平台独有的Ultra-long测序能够产生超长测序片段,轻松跨越基因组中连续重复或大片段重复区域,更大限度地还原真实的基因组景观。

轻松跨越重复区域

对于基因组中“暗区”,二代测序小短腿直接掉入深渊,三代测序小心翼翼能够跨过,而Ultra-Long Reads能够轻松跨越连续重复区域,提供更多的序列信息,更便于组装过程重复片段划分。

显著提升组装质量

在基因组组装过程中可以通过增加读长获得理想组装质量[1],加入Ultra-Long Reads数据可以显著提升人类基因组组装效果,填补基因组中的缺口,甚至组装出端粒到端粒水平的完整染色体[2]

节约组装成本

相同测序深度下采用Ultra-Long的建库测序方法,产生用于组装超大型基因组的read数更少,降低了组装复杂度,减少了计算资源的使用,能够节省一定的组装成本。

Nanopore Ultra-long 超长读长的 Reads N50 相比 Normal long 有成倍的提升,在基因组组装过程中加入适量 Ultra-long 数据,可有效提升基因组组装质量。高杂合、高重复基因组采用纯 Ultra-long 数据进行基因组组装,能够达到较好的组装质量。

希望组ONT Ultra-Long组装案例

希望组三代测序组装采用PromethION 48+Ultra-long+Next系列组装软件+Bionano&Hi-C的最新策略,结合华为云将纳米孔测序数据分析流程整合到云计算平台上,实现急速基因组组装与注释,为全球客户提供快速、高效的纳米孔长读长测序计算和存储服务!希望组三代测序,技术顶尖,算法领先,服务全面,为您的科研之路保驾护航!

[1]  Henson J, Tischler G, Ning Z. Next-generationsequencing and large genome assemblies[J]. Pharmacogenomics, 2012, 13(8):901-915.

[2] Jain M, Koren S, Miga K H, et al. Nanoporesequencing and assembly of a human genome with ultra-long reads[J]. NatureBiotechnology, 2018, 36(4).

三代测序揭示葡萄驯化过程中结构变异的群体遗传学

结构变异(Structural variants,SVs)通常是指基因组上大长度的序列变化和位置关系变化。研究表明,与单核苷酸多态性(SNPs)相比,SVs可以解释更多的表型变异。在植物基因组中,SVs的类型、大小以及对于表型的贡献多有报道,大概1/3已报道的作物表型是由于结构变异引起的(Gaut et al. 2018 Nature Plants),但是对于SVs在种群个体间的分布以及种群动态,人们知之甚少。希望组科技服务在6月份推出了基于Nanopore平台的三代测序群体基因组SVs研究,许多老师对这一研究非常感兴趣,但苦于没有研究思路。最近,Nature Plants杂志在线发表了一篇群体水平结构变异研究文章,加州大学Irvine分校周永锋博士为第一作者,Brandon Gaut教授(UC Irvine)和Dario Cantu教授(UC Davis)为共同通讯作者。该研究探讨了葡萄驯化过程中结构变异的群体遗传学,今天就给大家分享一下这篇文章的研究策略,给各位提供一些科研灵感。

研究背景

多年生植物栽培葡萄(Grapevine)是由其野生祖先欧亚葡萄(Eurasian grapevine),在约8000年前的高加索地区驯化而来。驯化提高了果实含糖量,增大了果实的体积和串大小,改变了种子形态,同时使雌雄异株转变为雌雄同体无性繁殖。无性繁殖作物处于永久性杂合状态,并随着时间累积体细胞突变(Zhou et al. 2017 PNAS)。理论上,雌雄同体葡萄可以自交,但实践中,其自交后代无法存活,可能是近亲繁殖暴露了杂合状态下的有害等位基因。因此,大多数葡萄品种是远源亲本之间的杂交种,加上体细胞突变的积累,导致葡萄品种往往是高度杂合的。本研究通过调查野生和驯化葡萄中SV的群体遗传来填补我们对植物基因组进化认知的空白。

研究策略

无性系繁殖葡萄基因组中肆虐的半合子状态

研究者首先利用三代测序+二代测序+Hi-C技术,组装了高杂合葡萄霞多丽品种的基因组序列,并对其进行了注释和评估,发现无性系繁殖葡萄基因组中有七分之一(~15%)的基因属于半合子,这一结果在黑比诺(PN40024)基因组与赤霞珠(Cab08)参考基因中得到了验证。

随后研究者用长、短reads比对和全基因组比对等方法,综合比较了Char04和Cab08两基因组之间的SVs。结果表明利用长reads比对检测到59,913个SVs,其中75%得到另外两种方法的证实。两个品种之间有近5%的PAV基因差异,半合子基因差异高达25%,表明葡萄品种之间显著的结构变异(图2)。

图2 高杂合Char04及与Cab08结构变异的比较

SVs群体遗传分析

为了获得更广泛的葡萄品种及其野生亲缘SVs信息,研究者收集了有代表性的50个栽培葡萄品种和19个野生亲缘品种的短读长测序数据。以Char04为参考基因组,以Char04和Cab08综合比对的交叉SVs集合为金标准,获得了一组高度筛选的481,096个SVs。

随后,研究者利用上述SVs集合计算了12个野生种和12个栽培种的SFS(图3),推断了对SVs类型的选择强度,并对比了驯化和野生祖先之间的SVs频率。结果非同义SNP(nSNP)和SVs都经历了强烈的纯化选择,不同SVs类型中,易位TRAs和倒位INVs的选择性更强。因此SVs事件比nSNP更有害,INV和TRA事件尤其有害。

图3 处于强烈净化选择中的有害SVs

SVs在无性系繁殖体中积累

研基于SNP的个体杂合度分析,栽培葡萄个体杂合度要高出野生型葡萄11%,相应的单个栽培种SVs比野生种高出6%,但纯合子SVs或推测为中性的sSNPs没有明显增加(图4a)。因此有害SVs在无性繁殖情况下以杂合隐性形式隐藏、积累。

杂合变异的积累会影响连锁不平衡(LD),通过测量SVs、SNP和组合数据集的LD随物理距离的下降来分析SVs的种群频率。结果发现,与野生品种相比,栽培品种的LD下降速度更快;与SNP相比,SVs的LD下降更快;下降速度最快的是SV+SNP数据集。表明由于有害影响,SVs通常比SNP的种群频率更低。

图4 葡萄驯化相关SVs的群体遗传学

大的,独立的倒位对浆果颜色的影响

通过计算固定指数(FST)来估计SNP和SVs在基因组中的差异(图4c),在2号染色体上发现了两个异常值分别与性别决定和浆果颜色相关。其中对浆果颜色相关区域的进一步研究发现,在霞多丽中有一个4.82Mb的倒位(图5b),并有证据支持白浆果的独立起源通常是由这种倒位介导的(图5d),其导致了半合子状态的花青素合成基因MybA1和MybA2的等位基因空缺。

图5 与白色浆果相关的染色体倒位

小结

本研究首先组装了高杂合葡萄霞多丽的基因组序列,评估了该基因组中SVs类型和分布以及导致遗传半合子的SVs。随后将霞多丽与赤霞珠基因组进行综合比较,获得了一套种间SVs标准集,并以此指导、推断栽培葡萄及其野生祖先群体样本中的SVs。然后利用获得的群体SVs数据集,推断不同类型变异的选择强度,探讨了在栽培葡萄上由异交向无性繁殖转变的效应,最后研究了栽培葡萄与其野生祖先之间SVs差异特别显著的与浆果颜色相关的基因区域。 在结构变异的研究中,最首要的任务是获得到研究对象全面、准确的SVs集合,本研究中作者为了获取准确的SVs集合,利用三代测序组装了霞多丽基因组,采用长读长比对来鉴定SVs,基因组比对和短读长比对进行验证,短读长仅检测到长读长比对检测数量的62%,长读长检测的SVs中75%得到另外两种方法的验证。可见相比短读长利用三代测序检测的SVs更加全面准确。

参考文献:

Gaut B S, Seymour D K, Liu Q, et al. Demography and its effects on genomic variation in crop domestication[J]. Nature plants, 2018, 4(8): 512.

Zhou Y, Massonnet M, Sanjak J S, et al. Evolutionary genomics of grape (Vitis vinifera ssp. vinifera) domestication[J]. Proceedings of the National Academy of Sciences, 2017, 114(44): 11715-11720.

项目文章||高质量中国恒河猴参考基因组解析猿类特异性结构变异

2019年9月17日希望组合作项目文章以Long-read assembly of the Chinese rhesus macaque genome and identification of ape-specific structural variants为题,在Nature Communications发表。该研究利用三代测序结合多种辅助技术组装了一个高质量的中国恒河猴参考基因组,极大地改善了当前版本恒河猴参考基因组的连续性和完整性。通过与已发表的猿类基因组比较分析,首次发现了17,000个猿类特有的结构变异(ASSVs),其中包含了一系列与猿类重要表型特征相关的ASSVs。该研究成果为非人灵长类模型在生物医学研究中的应用提供了重要数据,也极大地促进了包括人类在内的灵长类进化的研究。中国科学院昆明动物所和耀喜副研究员为论文的第一作者,博士研究生罗鑫、周斌,硕士研究生胡庭和博士研究生孟晓宇为该文的共同第一作者,宿兵研究员为该文的通讯作者。希望组承担了本研究中三代测序和部分分析工作。

研究背景

在进化上恒河猴属于旧大陆猴类(Old World monkey species),与人型总科的猿类(Apes)属于姊妹群,有着共同的祖先。与旧大陆猴类相比,猿类在进化过程中有着一系列创新,如无尾、巨大的体型、脑容量和复杂性的增加、手的灵活性提升等。结构变异(SVs)在灵长类进化和疾病中起重要作用,可以通过恒河猴与猿类基因组之间的比较分析来探索在恒河猴和猿类的共同祖先中发生的功能性遗传变化。然而,目前尚缺少一个高质量的恒河猴基因组,现有的几个恒河猴基因组序列连续性差(片段化)、完整性差(许多缺口),很难对序列进行系统的识别。

高质量恒河猴基因组

研究人员利用三代测序技术(100×PacBio)结合多种辅助组装策略(101×Bionano,105×Hi-C)构建了一个高质量的中国恒河猴基因组rheMacS,同时利用恒河猴10个组织的全长转录组数据改进了参考基因组的注释。rheMacS基因组大小2.95Gb,ContigN50为8.19 Mbp,BUSCO完整性评估达93.5%,与现有的印度恒河猴基因组相比,连续性提升了75倍,填补了2万多个缺口,极大地改善了当前版本恒河猴参考基因组的连续性和完整性。

图1 rheMacS基因组与印度恒河猴组装质量对比

猿类特异性结构变异(ASSVs)鉴定

研究者在rheMacS中鉴定了53,916个SVs(图2a),其中96%(51,919/53,916)是全新的SVs,在之前使用array和NGS平台的研究中没有被观察到(图2e),可见长读长测序数据在全基因组SV检测中有巨大优势。

图2 rheMacS中的结构变异(SVs)

结合已经发表的高质量猿类基因组,首次有机会识别从共同祖先中分化以来出现在猿类谱系中的特异性结构变异(ASSVs)。通过比较基因组学方法,将rheMacS组装和三个已发表的猿类基因组、人类ZF1基因组以及狨猴基因组进行比较,筛选过滤后发现了17,000个候选ASSVs,包括13,456个删除和3,544个插入(图3a,b)。对这些ASSVs进行注释,有12,255个定位于3,412个编码基因内或附近(图3c)。其中,有25个ASSVs位于基因外显子上(共涉及32个基因),其余位于基因内含子上,提示其潜在的功能影响可能与基因表达调控有关。

图3 猿类特异性结构变异(ASSVs)

大脑调节元件中的ASSVs

利用先前发表的来自人类、黑猩猩和恒河猴的脑组织不同区域的ChIP-Seq数据和RNA-Seq表达数据,发现大量ASSVs映射到猿类与恒河猴差异增强子区域(ADEs),筛选后其中21个ASSVs对应20个ADEs具有高可信度(图4a)。使用PCR和Sanger测序对两个ASSVs进行了实验验证,发现587bp的缺失破坏了5个猿类大脑区域的ADE(4b),其编码Intersectin-2,影响网格蛋白介导的内吞作用,对神经元突触囊泡的循环起关键作用。由于ASSV干扰了ITSN2中的增强子区域,ITSN2在人类和黑猩猩中的表达明显低于恒河猴(4d),这与其增强子活性减少一致。

图4 与大脑调节相关的ASSVs

猿类特异表型性状相关ASSVs

猿类在进化过程中有着一系列重要特征创新,如无尾、巨大的体型、脑容量和复杂性的增加、手的灵活性提升等,通过进一步的分析研究人员找到了一系列与以上表型特征相关的候选ASSVs。例如位于与尾巴发育相关的CDH8基因的477 bp的缺失(图5e);与人类胎儿拇指内收相关的NALCN基因178bp缺失(图5f)等。这一系列与猿类特异性性状相关的候选ASSVs可作为研究猿类进化过程中出现的表型创新的遗传基础。

图5 猿类特异表型性状相关ASSVs

小结

该研究公布了一个高质量中国恒河猴参考基因组,极大地改善了当前版本恒河猴参考基因组的连续性和完整性。基于此恒河猴组装,通过与已发表的猿类基因组比较分析,使我们有机会识别从共同祖先中分化以来出现在猿类谱系中的特异性结构变异(ASSVs),首次发现了17,000个ASSVs,其中包含了一系列与猿类重要表型特征相关的ASSVs,如无尾、巨大的体型、脑容量和复杂性的增加、手的灵活性提升等。该研究成果为非人灵长类模型在生物医学研究中的应用提供了重要数据,也极大地促进了包括人类在内的灵长类进化的研究。

项目文章||药用植物黄芩全长转录组研究

2019年9月9日青岛农业大学生命科学学院与中国医学科学院药用植物研究所在International Journal of Molecular Sciences杂志发表题为“Hybrid Sequencing of Full-Length cDNA Transcripts of the Medicinal Plant Scutellaria baicalensis” 的研究文章。该研究对中药黄芩进行了全长转录组混合测序,获得了大量高精度全长转录本,为进一步开展黄芩的育种、活性成分的生物合成等分子生物学研究奠定了坚实的遗传学基础。青岛农业大学生命科学学院高婷为第一作者,中国医学科学院药用植物研究所孙超为通讯作者,武汉未来组承担了该研究的全长转录组测序及部分分析工作。
黄芩(Scutellaria baicalensis)唇形科黄芩属,是一种著名的中药,能合成独特的具有消炎、抗菌和抗癌活性的多种黄酮类化合物——黄芩甙(baicalin)、黄芩素(baicalein)、汉黄芩素(wogonin)等。关于药用植物黄芩的黄酮类生物合成途径,仍有许多问题尚未解答,例如关键基因中是否存在各种可变剪接模式?哪种剪接模式导致成分的活性和功能更好,并直接调节黄酮类化合物?

本研究利用混合测序技术研究黄芩的全长转录组,首先采用PacBio Sequel平台对黄芩根,茎和叶高质量RNA混合样本进行全长转录组测序,共获得338,136个全长非嵌合(FLNC)reads,占总reads数的93.3%,使用二代数据进行去冗余和校正后,产生了75,785个非冗余转录本,其中约98%被注释为编码蛋白质的mRNA,并且11,135个转录本被归类为IncRNA。

图1 实验分析流程

差异表达基因筛选分析发现与黄酮类生物合成相关的大多数基因(如PB22530.1)在黄芩根中高表达(图2),表明黄芩黄酮类化合物主要在根中合成,这与以往的研究一致。

图2 差异表达基因分析

在可变剪接分析(AS)中,共检测到4471个AS事件,其中内含子保留(IR)事件占比最高,达44.5%(图3)。

图3 AS事件分类

进一步分析,发现与类黄酮生物合成相关的五个关键基因中观察到94个AS事件。通过PCR确认了一些AS事件的真实性,结果显示异构体在其UTR或CDS区域表现出差异(图4),表明AS可能在S.baicalensis的转录后水平上调节黄酮类生物合成。

图4 黄酮类生物合成相关关键基因的AS预测和PCR验证

本研究通过混合测序技术研究了黄芩的全长转录组,不仅为黄酮类化合物生物合成中AS的调控提供了新的见解,而且为进一步探索其在黄芩中的功能基因组学提供了宝贵的遗传资源。

ONT Ultra Long与“Telomre to Telomere”的风云际会:首个人类X染色体完成图与甲基化图谱发布

以基因组完成图为参考基因组是动植物基因组和医学遗传学研究者们孜孜以求的终极目标之一。而人类基因组完成图则有望帮助我们加深对染色体功能和人类疾病的理解,对基因组变异的全面了解将改善目前使用短读取映射到参考基因组的生物医学中的驱动技术(例如RNA-seq,ChlP-seq,ATAC-seq)。在人类基因组测序组装发展历程中,科学家们陆陆续续发布一系列参考基因组版本。2001年人类基因组计划公布了首个人类参考基因组[1],2009年,基因组参考联盟(GRC)发布了人类参考基因组版本GRCh37。2013年人类参考基因组第20个版本——GRCh38发布,在当时被认为是世界上测序最精确的人类基因组,不断修修补补中使用至今。事实上,人类基因组尚未解决的区域还有很多,包括着丝粒周围Mb级别的微卫星区域,近端着丝粒短臂上的rDNA区域,长达几百Kb的片段重复,超过98%一致性的旁系同源基因等。因此,在人类基因组领域,Telomere-to-Telomere的完整组装是实现人基因组完成图的一个关键步骤。

近日发表在bioRxiv上的一项研究,利用Nanopore ultra-long、PacBio、10X Genomics等多种测序技术,组装出首个端粒到端粒的人类X染色体完成图和甲基化图谱,向重建完整的人类参考基因组完成图迈出了关键的一步。

材料与方法

本研究选用的测序材料为CHM13hTERT细胞系,该细胞系来自于一个经过减数分裂后染色体复制的精子,每条染色体都有两个完全相同的拷贝,因此没有任何等位基因变异,这与GRCh38的取材策略一致。光谱核型分析表明该细胞系核型为46,XX,无明显染色体异常。
CHM13基因组纯三代组装

基因组组装中重复的解决依赖于长度足以跨越重复区域的测序read,最近的研究表明利用5× Nanopore ultra-long read显著提升了组装基因组的连续性[2]。根据前人的研究进展,研究者推测高覆盖度Nanopore ultra-long测序将使人类染色体的第一次完整组装成为可能。

因此,研究者利用MinION测序仪获得了155 Gb 约50×覆盖度的Nanopore ultra-long数据,其中一半数据量的read长度在70Kb以上,最长达1.04Mb。取其中39×ultra-long数据与70×PacBio数据用Canu软件进行初步组装,获得基因组大小为2.9Gb, NG50为75Mb,超过了参考基因组GRCh38的56Mb。随后按照read长度从长到短的顺序进行迭代Polish,通过单独分析10X Genomics和Bionano数据来确定可能的组装错误,然后利用光学图谱排序定位,通过比对人类参考基因组将Contig分配至染色体。最终组装出2.94Gb的CHM13基因组,包含590个Contig,NG50达72Mb,估计共有序列准确度中值>99.99%,一些染色体被两条Contig覆盖,仅在着丝粒处发生断裂(图2a,chr10, chr12, chr18, etc.)。

图2 CHM13全基因组组装与验证

研究者采用先前测序的CHM13 BAC 文库(VMRC59 library)来评估组装基因组完整性,在总共341个BAC克隆中,有280个克隆99.5%以上的序列比对至本文CHM13基因组,明显优于其他近期发布的人类基因组(表1)。当用作调用其他基因组中的结构变体的参考序列时,CHM13表现出insertion和 deletion调用平衡,而GRCh38 则表现出deletion调用偏倚。并且GRCh38的inversion数量是CHM13的两倍,表明现有参考基因组可能存在一些定向错误。因此,在连续性、完整性和正确性方面,CHM13组装超过了所有之前公布的人类基因组,包括当前人类参考基因组的一些质量指标。

表1 CHM13组装统计及按照连续性排序的人类参考基因组

X染色体端粒至端粒组装

初始组装出的X染色体有三个断点,分别是着丝粒区域和两个>100Kb的片段重复(图2b),利用完全跨越重复区域的Ultra-long read手动解决了两个片段重复断点。通过构建着丝粒DXZ1 中~2Kb重复单元标记索引,引导Ultra-long read跨越整个2.8Mb的着丝粒卫星阵列,PFGE Southern blot实验和ddPCR实验结果与预测组装结果相符(图3a,b,c)。进一步验证,发现DXZ1与PacBio HiFi数据结构变异频率高度一致(图3a,d),表明该X染色体的组装具有极高的连续性和结构准确性。

通过构建21-mer短特异序列标记确定长read在X染色体的位置,从而执行精细的Polish程序,以达到最大的碱基精度(图3d,e,f)。

最终,研究者获得了完整、无Gap、估计精度达99.99%的X染色体,解决了29个参考Gap,总长达1,147,861 bp的N碱基。长read和光学图谱比对表明X染色体覆盖均匀无结构错误(图3e)。初始组装质量较低的区域,在精细Polish后也得到了解决(图2c,d)。

图3 X染色体2.8Mb着丝粒区域验证

X染色体CpG甲基化分析

独特的锚定Ultra-long read提供了一种新的方法来分析重复区域上的甲基化模式,这些重复区域通常很难用短读序列检测到。研究者观察到位于X染色体臂两端的大部分伪常染色体区域(PAR1,2)甲基化水平降低(图4a),在DXZ4阵列区域也发现明显的甲基化条带,这与其独特的空间结构相一致(图4c)。有趣的是在着丝粒DXZ1上发现了一段甲基化水平降低区域(图4b),并且在8号染色体D8Z2上得到了验证。这进一步证明了Ultra-long read比对策略能够提供碱基水平染色体范围的DNA甲基化图谱。

图4 全染色体CpG甲基化分析

总结

该研究在现有技术水平下利用Nanopore ultra-long 测序组装出了第一条完整的端粒到端粒人类染色体,CHM13基因组的其他染色体仅包含一些缺口,可以作为构建完整人类染色体的基础。本研究中最大的亮点是Nanopore ultra-long read的应用,提升基因组组装连续性,跨越上百Kb的片段重复,在重复单元标记引导下跨越2.8Mb的着丝粒区间,以及提供碱基水平染色体范围的DNA甲基化图谱。

武汉未来组自成立以来致力于三代测序技术应用与服务,自2017年搭建Oxford Nanopore测序平台便开始ONT ultra-long测序的研发工作,并于2017年底推出ONT ultra-long测序服务,目前已经完成数十个物种的ONT ultra-long测序工作,下机read N50突破100Kb,处于行业领先地位!欢迎体验未来组ONT ultra-long测序服务,助您迈入基因组完成图时代!

参考文献:

[1] International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome[J]. nature, 2001, 409(6822): 860.

[2] Jain M, Koren S, Miga K H, et al. Nanopore sequencing and assembly of a human genome with ultra-long reads[J]. Nature Biotechnology, 2018, 36(4).

未来组项目文章||Nanopore+Hi-C再发力,揭示“断肠草”染色体水平基因组

2019年8月16日,湖南农业大学动物医学院,湖南省兽药工程技术研究中心孙志良教授和刘兆颖副教授课题组与武汉未来组合作的钩吻基因组项目文章以“Whole-genome sequencing and analysis of the Chinese herbal plant Gelsemium elegans”为题,在线发表于Acta Pharmaceutica Sinica B (IF=5.808)期刊。研究者利用Nanopore平台对钩吻进行全基因组测序,结合Hi-C技术组装出染色体水平的高质量参考基因组,该研究成果的发布为钩吻属比较基因组研究提供了重要信息。

钩吻(Gelsemium elegans)别称断肠草、大茶药等,其含有的钩吻素是很强的神经抑制剂,能使人因呼吸麻痹而死,传说“神农尝百草”就是因误食钩吻(断肠草)而死。但是,钩吻也有其独特的药用价值,它作为一种治疗类风湿性关节炎、神经性疼痛等疾病的中草药已使用多年。并且小剂量地使用在畜禽时却有促进生长的作用,《本草纲目》记载:“断肠草人误食其叶者致死,而羊食其则大肥”。尽管钩吻具有相当重要的药用价值,但该物种基因组信息十分有限。

研究思路
对取自广西柳城的钩吻植株叶片进行Nanopore测序(160×),利用短读长技术进行钩吻的基因组调研、Hi-C测序以及根、茎、叶花等组织的转录组测序。
基因组装
利用二代测序数据进行基因组调研分析,预测钩吻基因组大小约338.03 Mb,杂合度约0.38%。Nanopore测序过滤后数据为53.45 Gb。采用Canu+WTDBG+Pilon的组装策略,最终获得335.13 Mb的基因组,与预测基因组大小相近,contig N50高达10.23Mb(表1)。
表1钩吻基因组组装结果
为了进一步提升组装质量,利用LACHESIS软件对Hi-C数据进行聚类、排序和定向,将contig序列挂载到8条染色体上,挂载率为99.2%,scaffold N50达40.47Mb。BUSCO数据库评估该基因组完整性为92.9%。
基因组注释
基于同源比对和de novo预测表明该基因组含有43.16%的重复序列,其中以长末端重复序列最多,占23.9%。通过de novo预测、同源比对预测并结合RNA-seq数据集,共预测基因26,768个,其中注释到功能的基因有22,636个(84.56%)(表2)。
表2 钩吻基因组注释结果
系统发育树的构建和分化时间估计
为了研究钩吻的进化地位,研究者将其基因组与其他8种植物的基因组序列进行了比较,其中包含3种能产生生物碱的植物(Calotropis gigantea, Camellia sinensis 和 Macleaya cordata),来自同一双子叶分支的3种不同植物(Arabidopsis thaliana, Brassica rapaVitis vinifera)以及2个单子叶植物(Oryza sativa  Oropetium thomaeum)作为外群。
系统发育分析表明相比茶树(C. sinensis,),牛角瓜(C. gigantea)与钩吻有更紧密的进化关系,这支持了前人的假设。钩吻与茶树的分化约在97.45 Mya,与牛角瓜的分化约在50.69 Mya(图2)。
图2 9种植物的系统发育树
全基因组复制和基因家族扩增分析
利用四重兼并性位点颠换率(4DTv)和Ks估计来检测钩吻组装基因组中的全基因组复制事件(WGD)。结果表明钩吻只经历了古老的全基因组复制事件,而没有现代WGD事件(图3)。OrthoMCL基因家族分析方法揭示了钩吻谱系中509个扩增基因家族和1013个收缩基因家族。
图3  5种植物的全基因组复制(WGD)事件
总之,本研究利用Nanopore+Hi-C技术组装了高质量的钩吻基因组,报道了该基因组的注释、进化等信息。本研究产生的高质量基因组将钩吻的相关研究带入新的水平,为钩吻的遗传改良和药用功能研究提供宝贵的信息和参考依据。该论文第一作者为柳亦松副教授,唐其副教授与程辟副教授为论文共同第一作者,论文通讯作者是孙志良教授与刘兆颖副教授。
钩吻是继赤点石斑鱼后,武汉未来组利用Nanopore+Hi-C策略组装的又一个高质量基因组。这两个案例充分表明了利用Nanopore测序技术的长读长在动植物基因组组装方面的巨大优势。武汉未来组自2017年搭建Oxford Nanopore测序平台以来,已经利用该技术完成600余个动植物基因组的测序和组装,凭借丰富的Nanopore测序经验,未来组将继续助您打造高质量的三代参考基因组,冲击高分文章!

未来组ONT文章||赤点石斑鱼染色体水平基因组发表

2019年7月20日福建省水产研究所与武汉未来组生物科技有限公司合作项目以“De novo Assembly of a Chromosome-Level Reference Genome of Red Spotted Grouper (Epinephelus akaara) Using Nanopore Sequencing and Hi-C”为题,发表在Molecular Ecology Resources(IF=7.049)期刊。福建省水产研究所黄种持研究员、郑乐云教授级高工,武汉未来组胡江,以及集美大学王艺磊教授为共同通讯作者,福建省水产研究所葛辉博士、林克冰研究员,武汉未来组申蜜为共同第一作者,刘雷为共同作者。该研究利用Nanopore测序和Hi-C技术获得了赤点石斑鱼染色体水平的高质量参考基因组,组装基因组大小为1.135 Gb,contig N50为5.25Mb,scaffold N50 达46.03 Mb。该高质量基因组为赤点石斑鱼的分子育种和功能基因组学研究提供了宝贵资源。同时,该研究也表明Nanopore测序产生的长读长序列可以有效提高基因组组装的连续性和完整性。

图1 文章发表信息

研究背景

赤点石斑鱼(Epinephelus akaara)属于辐鳍鱼纲(Actinopterygii)鲈形目(Perciformes)鲈亚目(Percoidei)鮨科(Serranidae),是中国、日本和东南亚最具经济价值的重要海洋鱼类之一。由于过度捕捞、食物来源减少、环境污染等导致赤点石斑鱼数量大减,已被列为濒危物种。同时,赤点石斑鱼雌雄同体,雌性先熟,是研究性别倒置,发育,遗传多样性和免疫的良好模型。但是,赤点石斑鱼分子水平的研究却有限,迄今尚未有参考基因组。

图2赤点石斑鱼

基因组组装

利用二代测序数据进行基因组调研分析,预测赤点石斑鱼基因组大小约1,111 Mb,杂合度约0.375%。利用Nanopore GridION X5测序仪对一尾成年雄性赤点石斑鱼(NCBI taxonomy ID: 215347)进行测序,过滤后获得106.29Gb的数据,read平均长度为18.35kb,readN50为26kb。采用Canu+Nanopolish+Pilon的组装策略,获得1.135Gb的基因组,与预测基因组大小相近,contig N50为5.25Mb。

为了进一步提升组装质量,研究者测序了112.83Gb的Hi-C数据,过滤后共有26294万个配对末端序列唯一映射到组装基因组的DpnII切割位点侧翼,随后利用LACHESIS软件进行聚类、排序和定向,将2,055 个contig序列挂载到24条染色体上,挂载率为95.55%,scaffoldN50 达46.03Mb(表1)。BUSCO数据库评估该基因组完整性为96.8% 。

基因组注释

基于Repbase和de novo repeat库,预测该基因组含有43.02%的重复序列,其中以DNA转座子类型的的重复序列最多,占16.73%(表2)。

通过de novo预测、同源比对预测并结合RNA-seq数据集,共预测基因23,923个(表3),其中注释到功能的基因有23,808个(99.5%)。

赤点石斑鱼的各项指标以及完整性均优于5月份发表的黑色石斑鱼参考基因组,可见采用Nanopore+Hi-C策略进行基因组组装优势明显。

表4 赤点石斑鱼与黑色石斑鱼基因组组装比较

本研究利用Nanopore测序技术的长读长优势结合Hi-C技术,组装出高质量赤点石斑鱼染色体水平的参考基因组,这一组装结果表明Nanopore测序产生的长读长序列可以有效地用于基因组组装,并显著提升基因组组装质量。对一个物种而言,完整的高质量的基因组序列是其广义研究中不可估量的宝贵资源,并且是基因组学、基因功能、分子和进化研究的坚实基础,基因组参考序列的质量在一定程度上也体现了该物种的研究进展和水平。