利用PacBio三代测序技术获得模式植物拟南芥的全基因组6mA修饰图谱

未来组项目经验

2018年4月,未来组携手中国农业科学院生物技术研究所谷晓峰研究组和新加坡国立大学生物系及淡马锡生命科学研究所俞皓研究组合作在Developmental Cell杂志发表了题为“DNA N6-Adenine Methylation in Arabidopsis thaliana”的研究论文,利用PacBio三代测序技术获得模式植物拟南芥的全基因组6mA修饰图谱,解析其分布模式和潜在功能。

研究概述

研究人员首先使用Dot blot方法检测了在拟南芥不同组织和不同发育时期的6mA修饰水平,后续选择D9和D21的样本进行三代PacBio SMRT全基因组测序,比较两个时期拟南芥6mA修饰的分布模型和动态变化,并结合转录组信息更深入地研究6mA潜在功能。

Highlights

  • 6mA修饰在拟南芥基因组内广泛存在
  • 与基因间区相比,6mA在 gene body区更丰富
  • 在拟南芥发育过程中,6mA修饰是动态的
  • 6mA与拟南芥中活跃表达的基因相关联

 

研究结果

6mA修饰在拟南芥基因组内广泛存在

研究人员首先使用Dot blot方法检测了在拟南芥不同组织和不同发育时期的6mA修饰水平,发现在这些样本中都广泛存在不同程度的6mA,其水平随着个体发育的进程逐渐增加,在D21出现了急剧上升。

Fig.1Dot blot方法检测拟南芥不同组织和不同发育时期的6mA修饰水平

使用PacBio SMRT测序获得拟南芥全基因组6mA图谱

Fig.2 链特异性的6mA修饰信息

以D9样本示例,PacBio SMRT测序深度经计算为103×,高于PB官方推荐的测全基因组甲基化的要求100×。通过测序时两个脉冲荧光信号之间的间隔时间评估该位点的甲基化程度(Fig.2),最终获得了链特异性的D9全基因组6mA信息(Fig.3A)。实验结果表明,在包含线粒体、叶绿体和核基因组中所有的29,811个腺嘌呤中,发生6mA碱基修饰的比例为0.04%,与LC-MS/MS实验中评估的0.048%吻合,并且发现在越靠近着丝粒区域表现出越高的6mA丰度和轻微降低的平均甲基化水平(Fig.4)。

Fig.3D9 (A)和D21 (B) 拟南芥全基因组6mA图谱

Fig.4 6mA丰度和水平在染色体臂上的分布情况

6mA分布模式解析

通过评估6mA在基因组内不同的区域(Exon、Intron、5’UTR、3’UTR区,Fig.5A)和位处基因的不同类型(Protein coding、miRNA、snoRNA等,Fig.5 B、C)分析6mA的分布模型得知:与基因间区相比,6mA gene body区更丰富(Table 1)。

Fig.5 6mA分布模式解析(D9)

在拟南芥发育过程中,6mA修饰是动态的

通过比较D9和D21拟南芥全基因组6mA分布图谱(Fig.3)、overlap关系(Fig.6)、分布模式的区别(Fig.5、7),可以得知在拟南芥发育过程中,6mA修饰是动态变化的,在位点、程度上都有明显的区别。

Fig.6 D9和D21拟南芥基因组中6mA分布比较韦恩图

Fig.7 6mA分布模式解析(D21)

Fig.8示例了2个基因在D9和D21两个发育阶段不同的6mA修饰位点。D21比D9拥有更多的6mA修饰位点。也支持了在拟南芥发育过程中,6mA修饰是动态变化的。

Fig.8 2个基因在D9和D21两个发育阶段不同的6mA修饰位点示例

6mA与拟南芥中活跃表达的基因相关联

通过将6mA修饰位点及程度与来自RNA-seq的基因表达信息结合分析,结果表明6mA与拟南芥中活跃表达的基因相关联。

高表达基因的TSS上下游2.5kb区域内有更多的6mA修饰位点(Fig.9 A、B),高表达的基因有更多的6mA修饰位点(Fig.9 C、D),被6mA修饰的基因比未修饰的基因表达水平显著增高(Fig.9 E、F),并且靠近TSS时,差异更明显。

Fig.9 6mA修饰与RNA数据关联分析

这篇论文是国内发表的首篇基于PacBio单分子测序技术进行真核生物6mA修饰分析的研究成果,揭示了拟南芥中6mA修饰的发生规律,并为研究陆生植物碱基修饰的分布模式和潜在功能提供基础。武汉未来组凭借丰富的三代测序项目经验在为该项目提供PacBio测序服务并参与分析。

其它真核生物6mA研究高分文章(三代测序直读):

线虫

6mA甲基化对跨代遗传的影响

Greer, E.L. et al. DNA methylation on N6-adenine in C. elegans. Cell 161, 868–878 (2015).

小鼠

6mA在哺乳动物中可影响基因沉默

Wu, T.P. et al. DNA methylation on N(6)-adenine in mammalian embryonic stem cells. Nature 532, 329–333 (2016).

真菌

从多种真菌三代基因组测序数据中挖掘甲基化信息

Mondo, S.J. et al. Widespread adenine N6-methylation of active genes in fungi. Nature Genetics (2017).

延伸阅读

NanoMod 发布,适配于纳米孔测序数据的碱基修饰检测工具

参考文献

Liang et al., DNA N6-Adenine Methylationin Arabidopsis thaliana, Developmental Cell (2018)

图片来源于网络|侵删

Nanopore混测1cell,一次性解决12个细菌完成图,送质粒

从三代PacBio长读长测序应用全面市场化后,在基因组学领域从量变突破到质变的一个应用,非细菌基因组完成图莫属。随着平台机型从RS→RSⅡ→Sequel的更新换代以及试剂版本的升级,使得测序数据的读长和通量不断上升,让细菌完成图产品不断成熟完善,价格也早已跌破万元,奠定了PacBio在单菌基因组完成图领域的不二选择。

如果想要一次性测很多个菌怎么办?

2017年9月在 Microbial Genomics 发表的一篇将纳米孔测序技术(Oxford Nanopore)应用到细菌混测的实例中,解决了之前基于二代Illumina测细菌基因组结果中充斥着gaps、N碱基,成不了完成图的问题。

该研究在一个flowcell中混测了12个不同种的克雷伯氏肺炎菌,与前期二代数据混合组装,既保证完整性,又保证base准确性,最终将它们都组装成了完成图,并且有7个样本组装出了所有的质粒(其它5个样本组装出部分质粒)。

该研究中价格比较:

Illumina:80 USD /sample

ONT:950 USD/ 12 Samples

实验流程

1.DNA 提取

2.12个样本分别加barcode(native barcoding expansion kit (EXP-NBD103))

3.12个样本等量混合

4.加测序接头,按照1D模式建库(1D ligation sequencing kit (SQK-LSK108))

5.Nanopore MinION上机1个flowcell(R9.4)

实验结果

>>>>数据评估

base calling后,共产出10.48 Gb ONT 数据,经过拆分barcode后,获得6.87 Gb数据用于组装,拆分率约为65.5%。

去掉接头和barcode序列后,reads N50为22.9Kb,长读长测序有助于提高组装的连续性。

测序数据在12个菌种间分布并不算均匀,覆盖深度从16×到308×(Fig.1),可能是因为混测个数过多以及barcode拆分效率等导致。

>>>>组装评估

使用Unicycler对ONT数据和Illumina数据进行混合组装,将12个样本都组装成完成图,并且其中7个样本中所有的质粒同时被组装完整。

Figure Illumina单独组装和ONT、Illumina混合组装12个克雷伯氏菌圈图及质粒对比

本方法1个ONT flowcell混了12个细菌,结合二代数据混合组装,全部获得基因组完成图,经济适用并高效。

这种加barcode混测的策略,只能针对可分离培养的菌种。

参考文献

WICK, Ryan R., et al. Completing bacterial genome assemblies with multiplex MinION sequencing. Microbial genomics, 2017,3.10.

图片来源于网络|侵删

NBT丨Y染色体着丝粒序列解析完成的一小步,人类基因组完成图历史上的一大步

随着测序技术的进步,数十年来人类基因组的研究得到了长足的发展,耗费的人力物力不断下降,组装的连续性和完整度不断提升,但仍有不少区域未得到充分解析,例如着丝粒、端粒等串联重复序列,这些区域往往被认为与细胞分裂、细胞周期、疾病等密切相关。

2018年3月,Nature Biotechnology 在线发表了一篇通过对BAC文库进行纳米孔(Oxford Nanopore)长读长测序,绘制人类Y染色体着丝粒区域线性DNA序列的方法学文章,解析了该区域长达数百kb的串联重复,不仅有助于了解着丝粒的进化和功能,更是为通过单分子测序的方法实现人类基因组完成图提供一种新思路。

具体实施步骤

1.建库测序

对目标区域(人Y染色体着丝粒DYZ3区)的环形BAC (https://bacpacresources.org/)使用转座子酶进行1次打断,形成线性DNA后加上测序接头,在Oxford Nanopore MiniION平台进行全长BAC DNA测序(R9.4,RAD002)。

Fig.1基于Nanopore的全长BAC DNA建库测序示意图

2.数据产出

每个BAC run产出数据读长分布见Fig.2, 从10个BAC文库(8个目标位点,2个对照)中,获得了>3500条全长1D reads。每个BAC产出的总数据量、全长比例和一致性序列长度见Table 1。

Fig.2 10个BAC 产出数据读长分布

  1. consensuspolishing和定位、定向

通过评估对照组的数据得知原始1D数据单碱基准确度为84.8%。经过一步consensus和polishing后得到高准确度的一致性序列(Fig.3 B、C),将全长reads比对到每个BAC的consensus reads,对照组准确度为99.2%,其它BAC为99.4–99.8%。

Fig.3数据一致性比对、polishing以及序列变异检测策略

在前一步提高序列准确度后,使用Illumina MiSeq对BAC进行了resequencing,实施了2种变异检测:(1)K-mer method和(2)Alignment metod (Fig.3 D),通过变异检测结果帮助对BAC序列进行定位和排序,例如Fig.3 D右侧圈图以209 kb 长的RP11-718M18示例,使用8个BAC-polished序列,按照从p-arm到q-arm的顺序拼接完整的该区段的序列。

4.组装结果

从8个BAC的Nanopore测序数据中,组装出了完整的人类Y染色体着丝粒区域:365Kb的α-卫星DNA序列。它包含着一段由5.8Kb的序列串联重复而形成的长达301Kb的特殊序列(Fig.4),包含52个higher order repeats(HOR),其中有7段6.0Kb长的HOR结构变异(Fig.4 紫色)。能通过4种常见的单核苷酸多样性而划分形成的9种单体型(Fig.5)。至此,人类Y染色体着丝粒区域DNA序列得到完整解析。

Fig.4 基于Nanopore的全长BAC DNA测序,构建人类Y染色体着丝粒DYZ3区

Fig.5CENY haplotype groupings

5.进一步研究着丝粒的进化和功能

研究人员后续对人类和其它一些类人猿种类的Y染色体着丝粒区域进行了荧光原位杂交(FISH)比对分析(Fig.6)、组蛋白表观修饰分析(Fig.7)等,以期更深入研究着丝粒的进化和功能。

Fig.6The Y centromere location is not shared among the great apes.

Fig.7Epigenetic characterization of the Y Centromere

研究人员在这篇论文中实现了利用BAC+Nanopore测序的方法获得完整的人类Y染色体着丝粒DNA序列(串联重复卫星DNA),比以往的研究更完整、更精细,对序列的顺序好和方向有了更准确的判断,为进一步研究着丝粒的进化和功能以及实现人类基因组完成图提供一种新思路,这也是Nanopore多变应用策略的一个体现。

参考文献

[1]Jain M, Olsen H E, Turner D J, et al. Linear assembly of a human centromere on the Y chromosome[J]. Nature biotechnology, 2018.

延伸阅读

里程碑丨Nanopore测序组装人类基因组终见刊NBT

新技术结合多组学,初迈基因组完成图新时代

Nanopore测序揭露线虫基因组中复杂串联重复序列

未来组–中国首家通过Nanopore官方测序服务认证

Nature methods丨基于Nanopore的direct RNA测序方法

NanoMod 发布,适配于纳米孔测序数据的碱基修饰检测工具

DNA碱基修饰在DNA复制起始、错配修复、细菌中寄主控制的修饰与限制以及转座子的失活等过程中对维持遗传信息的稳定性发挥着重要的作用。目前检测DNA甲基化的常规方法是亚硫酸氢盐测序法等,近年来三代单分子测序技术的发展也让通过测序实时读取DNA碱基修饰信息成为可能(PacBio 通过荧光信号出现的间隔时间识别[1],Nanopore通过特征性电流变化识别[2])。

从Nanopore数据中识别碱基修饰,难度比PacBio大,对算法拟合的精确度要求更高。为了提高碱基修饰信息识别的准确度,未来组首席科学家王凯老师课题组开发了一种新的计算工具——NanoMod,关于NanoMod的测评分析文章已经预印(bioRxiv,2018)[3]。以下是文章内容简单介绍。

Fig.1 NanoMod工作流程图

研究中使用NanoMod软件处理两组有碱基修饰和无碱基修饰的DNA样本的原始信号数据(Nanopore raw data),提取信号强度,基于参考序列执行碱基校正(Fig. 2),然后通过对比两个样本的原始信号分布鉴定修饰碱基(“邻域效应”)。

Fig.2基于NanoMod的缺失错误校正(A);基于NanoMod的插入错误校正(B)

研究者在基于不同的碱基修饰类型和不同程度的邻域效应的模拟数据集上评估NanoMod,发现NanoMod在识别已知碱基修饰方面优于其他方法。此外,研究者还展示了NanoMod在E.coli数据集中鉴定5-mC(5-甲基胞嘧啶)的优越性能(Fig. 3)。

Fig.3 使用NanoMod对E.coli进行DNA修饰分析
(DS1代表非甲基化样本,DS2代表甲基化样本)

相比于现存的一些基于Nanopore测序数据的DNA修饰检测工具,NanoMod的优势在于不需要大量的training data和后续的补偿算法即可完成对DNA修饰的检出,真正实现对DNA修饰的de novo检测。

总之,NanoMod是一种可用Nanopore测序的原始信号实现以单碱基分辨率检测DNA修饰的灵活工具,这将大大促进基于核苷酸修饰的大规模功能基因组学研究的发展,同时也体现了Nanopore测序技术在功能基因组学研究中的应用价值。

未来组自2017年9月开始逐步搭建Nanopore测序平台,并于2018年1月17日通过Oxford Nanopore Technologies Limited(牛津纳米孔技术有限公司,ONT)官方认证,获得Nanopore官方资格认证的测序服务供应商。我们拥有丰富的基因组学测序项目经验,针对特定项目,对分析流程进行优化,以期为不同领域的研究者提供更为完善的解决方案。

参考文献

[1] Flusberg B A, Webster D R, Lee J H, et al. Direct detection of DNA methylation during single-molecule, real-time sequencing[J]. Nature methods, 2010, 7(6): 461. 

[2]Schatz M C. Nanopore sequencing meets epigenetics[J]. Nature methods, 2017, 14(4): 347.

[3]Liu Q, Georgieva D C, Egli D, et al. NanoMod: acomputational tool to detect DNA modifications using Nanopore long-read sequencing data[J]. bioRxiv, 2018: 277178.

图片来源于网络|侵删

Oxford Nanopore + Hi-C:高质量墨兰参考基因组(4.25G,杂合度~1.5%,重复序列高达89%)

3月23日上午,在第28届中国(翁源)兰花博览会开幕式上,“墨兰基因组与国兰形态的进化”科研成果向公众隆重发布。中国兰花协会副秘书长张引潮,翁源县县长陈来安,广东省农业科学院环境园艺研究所所长朱根发,深圳市兰科植物保护研究中心主任刘仲健,台湾成功大学蔡文杰博士出席了发布会。

IMG_256

Cymbidium sinense

墨兰(Cymbidium sinense)染色体数目为2N=2X=40,基因组大小为4.25G,杂合度约1.5%,属于高杂合复杂基因组。墨兰基因组重复序列高达89%,使得墨兰比目前所有已测序的兰科植物基因组都大[1],如此庞大和复杂的基因组,让绘制墨兰基因组图谱困难重重。

2017年1月,广东省农科院环境园艺研究所、深圳市兰科植物保护研究中心、华南师范大学等单位联合组成攻关团队,启动了广东省自然科学基金研究团队项目“墨兰花分化与发育的分子调控机理研究”,开展了“墨兰基因组项目”。终于在2018年初,共同完成墨兰基因组测序项目武汉未来组凭借自有的Oxford Nanopore技术平台和丰富的三代基因组组装经验,为该项目提供了技术支持,最终组装结果:Oxford Nanopore+Hi-C:Contig N50=200K,Scaffold N50=159M。预测的蛋白编码基因数量29895个。其组装结果明显优于2017年在《Nature》杂志上发表的深圳拟兰基因组(Apostasia shenzhenica,Genome Size=349 Mb,Contig N50=80.1kb,Scaffold N50=3.029M)[2]。

IMG_257

墨兰(Cymbidium sinense)

IMG_258

深圳拟兰(Apostasia shenzhenica)

兰科(Orchidaceae)是植物界种类最丰富的家族之一,约有3万种,占全世界有花植物种类的10%。兰科植物进化程度高,是生物多样性研究和进化研究的理想植物,具有极高的科研、生态、观赏、文化和药用价值。兰科约有700属20000种,多产于全球热带地区和亚热带地区,少数种类也见于温带地区。兰花是中国十大名花之一,中国有171属1247种以及许多亚种、变种和变型。其中,墨兰又称“报岁兰”,是中国兰花中一个较为庞大的家族,是国兰中最具观赏价值的物种,同时也是最具广东特色的花卉种类之一。

IMG_259

IMG_260

本月23日在中国(翁源)兰花博览会上公布了墨兰基因组图谱,通过应用多种技术手段,包括Oxford Nanopore测序技术和染色体构象捕获技术(Hi-C),将基因组组装达到染色体水平。研究还发现,墨兰与所有其它兰花仅共享了一次全基因组复制(WGD)事件,于3600万年前分化而来。墨兰基因组重复序列含量为89%,这正是造成墨兰基因组比目前所有已测序的兰科植物都大的主要原因。

IMG_261

部分兰科植物进化树,Ntaure 2017 [2]

高质量的参考基因组为进一步的深入挖掘提供基础,结合最前沿的RNA测序技术、蛋白组测序技术、miRNA检测以及基因功能验证,蛋白相互作用分析等分子生物学手段,可以找出国兰进化中经历的关键事件,从而解析国兰形态的进化历程,解码国兰形态多变的奥秘。通过对数据分析挖掘,进一步研究植株建成基因(如叶形态相关基因CPC、花形态相关基因MADS-box等),花形态建成相关分子机制、花色调控相关代谢通路等。

科研人员将充分利用广东特色墨兰的资源优势,开展以全基因组测序为基础的兰花重要性状的功能基因研究,开展以FT基因为核心的成花诱导调控和以MADS-box基因为核心的花器官分化与发育分子机制、兰花分子标记辅助育种、分子设计育种、开花调控以及花型发育模型等前瞻性研究,并利用大数据组学分析手段整合生物学功能研究,突破一批关键技术难点,从基因组到形态对墨兰的“国兰艺术”全部要素(含线艺、叶艺、花色、花香、花型等)进行分子解码,建立了墨兰重要性状的分子调控网络模型,揭示了国兰观赏性状的分子调控机制,为国兰的园艺性状改良、分子育种和基因编辑提供切实可行的理论指导。

墨兰基因组的高水平组装得益于多种高效技术手段的结合——Nanopore 长读长测序技术理论上DNA序列有多长就能测多长,在高杂合的含大量重复序列的墨兰基因组组装中发挥极大的作用;同时,染色体构象捕获技术(Hi-C)的加入实现了对墨兰基因组的染色体级别组装。兰花全基因组序列将为兰花遗传工程育种研究提供重要资源和基础,对于促进兰科植物保护、药用资源开发和品种创新等具有重大意义。

多重技术手段的结合为复杂基因组的组装开辟了新的路径,使得更高水平、更高精度的基因组学研究得以实现。武汉未来组是国内获得Oxford Nanopore官方认证的测序服务供应商,拥有PacBio Sequel和Bionano平台,并提供Hi-C辅助基因组组装,同时配备经验丰富的实验团队和生信分析团队,竭诚为您打造优质的基因组学研究服务。

参考链接和文献

[1] https://view.inews.qq.com/a/20180323A1G70P00

[2]Zhang, G.-Q. et al. The Apostasiagenome and the evolution of orchids. Nature 549, 379 (2017)

论染色体级别参考基因组哪家强?三代长读长测序来帮忙!

橙色小丑鱼(Amphiprion percula)是海葵鱼科的一种,隶属于绒头鱼科(大鳞鱼),与海葵有着共生的关系,是研究珊瑚礁鱼类生态和进化的最重要的物种之一,也被用作研究社会组织模式和过程的模型物种。2018年3月在bioRxiv预印了一篇借助PacBio+Hi-C对橙色小丑鱼进行染色体级别参考基因组装的文章[1],研究结果显示,橙色小丑鱼是目前最连续、最完整的鱼类参考基因组之一,优于2018年已发表2个的二三代混合组装的小丑鱼基因组[2-3],也是第一篇利用Falcon_Unzip获得的单体型水平的鱼类基因组。

Table1.三个已发表的的小丑鱼基因组测序策略和组装指标比较

这三篇论文应用了不同的组装策略,通过比较得知:

  • 三代长读长数据(PacBio/Nanopore)的引入有助于提高基因组组装的连续性
  • >100×纯三代组装能将Contig N50提升到Mb级别,与二代或者二三代混合组装相比,提升效果>10倍。
  • 如果同时辅以Hi-C技术,更能将Contigs聚类到染色体群,并可以对Scaffolds进行定向。

橙色小丑鱼文章亮点

1.chromosome-scale和haplotype level的组装

研究人员对橙色小丑鱼进行了121×的PacBio测序,对过滤后的数据进行多版本组装,挑选其中质量最佳的版本A7进行后续分析(基于组装基因组大小、contig N50、BUSCO评估等多指标综合考虑选择)。随后使用FALCON_Unzip解决单体型级别的组装和phasing;使用Quiver提高组装准确度;结合来自于大脑组织的Hi-C数据,将contigs聚类到染色体;使用PBJelly尽可能地填补gaps;最终得到chromosome-scale、haplotypelevel、phased的橙色小丑鱼参考基因组(Nemo v1)。

2.目前最连续、最完整的鱼类参考基因组之一

比较橙色小丑鱼和已有的26个染色体级别鱼类参考基因组的组装连续性(Contig N50比较,Fig.1)和完整度(BUSCO评估,Fig.2),本研究中的橙色小丑鱼是目前最连续、最完整的鱼类参考基因组之一。

染色体级别鱼类参考基因组文献汇总及下载方法请见文末。

Fig.1 27个染色体级别鱼类参考基因组的组装连续性比较

从研究结果中可知,三个contig N50>1Mb的参考基因组,都是基于三代长读长测序获得:

Nile tilapia (3.09 Mb,Canu),

orange clownfish (1.86 Mb,Falcon)

Asianseabass (1.19 Mb, HGAP)

Fig. 2 27个染色体级别鱼类参考基因组的组装完整度比较

3.橙色小丑鱼特有基因鉴定

通过比较橙色小丑鱼、剑尾鱼、罗非鱼、斑马鱼和尖吻鲈五种鱼类的直系同源基因家族,查找橙色小丑鱼所特有的基因。研究发现,这五个鱼类物种的蛋白质序列间具有很高的相似度,绝大多数(89%)的序列能被归集到19,838个直系同源群中,其中14,783个直系同源群(75%)是五个鱼类物种所共有的,推测这些共有基因对应的蛋白质基本上都属于硬骨鱼类的核心基因集群。通过单拷贝直系同源基因构建的进化关系(Fig.3B)与以往的研究一致。

鉴定了橙色小丑鱼特有4,429个序列,其中49%具有功能注释(Fig.3A),未来进一步研究将以这些特有unique基因对橙色小丑鱼的表型性状的影响为关注点。

Fig. 3 (A)五个鱼类直系同源基因家族的overlap关系

(B)五个鱼类系统发生关系

nOG:直系同源基因群数量   nSOG:特有的直系同源基因群数量

4.小丑鱼基因组data base

研究人员还搭建了Nemo小丑鱼基因组data base,提供全球化的小丑鱼组学数据开放共享平台,数据库链接:http://nemogenome.org

该论文使用PacBio +Hi-C 的方法获得染色体级别的参考基因组,通过与已发表的染色体级别鱼类参考基因组做比较,证明自身组装的连续性和完整度都名列前茅,鉴定目标物种所特有的基因以为后续研究提供候选,为进一步研究基因和表型之前的关系打下基础。

未来组在三代测序基因组学领域项目经验丰富,竭诚为合作伙伴打造高质量的参考基因组。

附:论文中提到的27种染色体级别的鱼类参考基因组  组装策略及指标汇总表

参考文献

[1] Lehmann, Robert, et al.”Finding Nemo’s Genes: A chromosome-scale reference assembly of the genomeof the orange clownfish Amphiprion percula.” bioRxiv (2018): 278267.

[2] Tan, Mun Hua, et al.”Finding Nemo: Hybrid assembly with Oxford Nanopore and Illumina readsgreatly improves the Clownfish (Amphiprion ocellaris) genome assembly.”GigaScience (2018).

[3] Marcionetti, Anna, et al.”First draft genome of an iconic clownfish species (Amphiprionfrenatus).” Molecular ecology resources (2018).

图片来源于网络|侵删

Iso-Seq辅助揭秘紅葡萄之王 ——卡本內苏维浓的独特之处

卡本内苏维浓又名赤霞珠,是最为人熟知、原生于法国的酿酒葡萄品种,世界范围内分布广泛。早前的DNA分析认为卡本内苏维浓是黑葡萄卡本内弗朗(Cabernet Franc)和白葡萄品种白苏维浓(Sauvignon Blanc)二者的后代,果粒小、果皮厚、出汁量少,含有极高浓度的酚类物质和单宁,使得卡本内苏维浓葡萄酒拥有深邃神秘的酒色和涩感。
阅读更多

PacBio 终于•也•升级了!软件、试剂双双升级,更高通量、更长读长!

PacBio公司在3月7日正式公开发布升级版PacBio Sequel软件(V5.1版本)和Polymerase试剂,Sequel平台测序通量和读长均得到极大提升。这一可喜的进步使得PacBio SMRT测序在de novo组装、结构变异检测、靶向测序以及RNA Iso-Seq测序等方面的应用更具优势。

阅读更多

三篇全长转录组Iso-seq应用案例解析:动物、植物、微生物全覆盖

转录组学研究可以在整体水平上研究细胞中所有基因的表达调控规律,在分子水平上反映个体的生理生化过程。二代测序技术的应用使得人们得以初探转录组,但由于其短读长的技术限制,始终无法准确获得完整转录本。而三代长读长测序技术PacBio SMRT以其平均15~20kb的长读长优势,可以轻松覆盖转录本全长,使得人们终于可以窥得转录本全貌,为人们获取个体全长转录本并进行差异化分析、了解生命内在规律提供了新的解决方案。以下组学君为您带来三篇全长转录组Iso-seq应用案例解析,看看能不能为您带来新思路。

案例一

构建空心莲子草叶甲全长转录本集合[1]

TitleSMRT sequencing of full-length transcriptome of flea beetle Agasicles hygrophila

JournalScience Reports(February 2018)

IF:4.259

空心莲子草是原产于南美的苋科植物,在十九世纪30年代进入中国并迅速成为入侵物种,对当地的生态系统造成了破坏。空心莲子草叶甲是空心莲子草的专性天敌,作为生物防治手段而被引入。研究者对其进行了全长转录组研究,获得较完整的转录本集合,为了进一步揭示空心莲子草叶甲与宿主植物和生态系统之间的互作关系打下基础

材料与方法

物种:空心莲子草叶甲(Agasicles hygrophila)

取样:分别提取四个生长阶段(卵、幼虫、蛹、成虫)的RNA后混合测序

测序策略:PacBio SMRT

结果分析

文章应用部分篇幅阐述了PacBio SMRT Iso-Seq与RNA-Seq相比的长读长优势(Table 1):通过Illumina测序获得的reads读长有70%分布在200-300bp,而PacBio SMRT则有超过69%的reads读长超过1kb。Iso-Seq共产生9.4Gb clean数据,158,085条FLNC reads。完整地读取转录本的全长,有助于更精准地进行转录本重构和基因注释。

Table 1 PacBio SMRT与Illumina测序结果比较

文章基于PacBio SMRT数据,做了进一步的全长转录组标准分析,重构了28,982 条转录本,预测了145个可变剪接事件;27,318条简单重复序列;经TransDecoder鉴定获得24,040个ORF,其中有16,205个完整的ORF;预测得到4,198个lncRNA。同时,研究者还用多个数据库对空心莲子草叶甲基因进行了注释。

该研究利用长读长测序手段首次完成对空心莲子草叶甲的转录本研究,4分SCI妥妥到手,同时也为后续进一步研究昆虫与宿主植物和生态系统之间的互作关系提供了很有价值的参考信息。

案例二

比较转录组学:自然选择的摩擦草属VS人工选择的玉米[2]

TitleParallels between artificial selection in temperate maize and natural selection in the cold-adapted crop-wild relativeTripsacum

JournalbioRxiv(September2017)

摩擦草属、玉米和墨西哥类蜀黍的亲缘关系很近,但摩擦草属对寒冷气候适应性更强。研究者利用三代Iso-seq获得摩擦草全长转录组,结合已发表的玉米参考基因组和蜀黍植物基因组数据,进行个性化比较分析,以期在不断变化的气候条件下,为人工培育农作物提供思路。

材料与方法

物种:摩擦草(Tripsacum)

取样:提取野生摩擦禾种子发芽生长的单一植株的根、叶和茎RNA后混样测序

测序策略:PacBio RSII

结果分析

选取摩擦草属和玉蜀黎属为目标物种,高粱属、狗尾草属、复活草属为背景物种,稻属、短柄草属为外参物种,构建系统进化树。发现摩擦草属和玉蜀黎属中的6,950个直系同源基因在七种草类物种共有,包括4,162个一对一,1,436个一对二和1,352个二对二直系同源基因集,说明玉米和摩擦禾可能拥有相同的全基因组复制情况,二者的亲缘关系很近。

Fig.1 系统进化树

利用PacBio Iso-seq测序技术获得摩擦草的全长转录组与玉米参考基因组(RefGen v3)进行比较分析,发现玉米转录组中包含更多的可变剪切事件,且在玉米和摩擦禾的直系同源基因中发现有超过2/3(656, 61.6%)的保守基因发生可变剪切,而409个基因是玉蜀黍属-摩擦草属所特有的;在摩擦草中发现249个lncRNA,平均长度1.45kb,比玉米用PacBio Iso-seq技术测得的lncRNA的平均长度(0.67kb)长,且仅有17个lncRNA与玉米表现为高度一致性。

Fig.2 (a)摩擦草和玉米之间Ka / Ks比值的分布散点图; (b)摩擦草中磷脂代谢基因与其他功能基因的Ka / Ks比值分布图

脂质具有防止细胞膜在低温条件下损伤的作用,因此膜脂质组成的变化可能是与摩擦草的耐冷性相关。研究者比较玉米和摩擦禾中相同基因之间的Ka / Ks值,发现磷脂生物合成途径中的基因显示比背景基因更高的Ka / Ks比值,说明参与磷脂代谢的基因加速了物种的进化过程(Fig.2)。研究指出摩擦草中参与磷脂代谢的相关基因中的蛋白质序列的加速进化可能是造成摩擦草属相对于玉米更耐寒的原因。

案例三

动态转录组监控裂殖酵母减数分裂过程中Isoform水平的多样性[3]

Title:The dynamic landscape of fission yeast meiosis alternative-splice isoforms

Journal:GenomeResearch(January 2017)

IF11.922

可变剪接增加了后生动物转录组和蛋白质组多样性,但人们对于单细胞生物的可变剪接事件还知之甚少。研究者以裂殖酵母为模型,利用三代长读长测序技术的同时开发了SpliceHunter软件用以对其进行转录组的可变剪接事件进行动态分析。

材料与方法

物种:裂殖酵母(Schizosaccharomyces pombe)

取样:在0-10h内间隔2h取样,分别提取RNA测序

测序策略:PacBio RSII

结果分析

从PacBio测序获得的Iso-seq reads 平均长度为1178 bp,共发现了S. pombe中~90%(6,199个)的基因。研究者发现在裂殖酵母的减数分裂时期,发现17,669个异构体,发生了14,353个可变剪切事件,其中,内含子保留是最主要的可变剪接形式(Fig. 3)。研究反映了裂殖酵母S. pombe转录本的复杂性:~1300个基因发生了一次可变剪接,1432个基因发生了两次可变剪接,而发生了2次以上的可变剪接事件的基因超过3000个。

Fig.3 S. pombe中的可变剪接事件

Fig. 4 减数分裂期间不同可变剪接形式的变化趋势

研究发现在裂殖酵母减数分裂期间,大部分的可变剪接类型都有所增加,仅有外显子跳跃类型的可变剪接在减数分裂初期处于低水平而在减数分裂末期有所增加(Fig.4)。这种变化反映了S. pombe在有丝分裂和减数分裂期间的一种条件驱动的可变剪接机制。研究结果反映了裂殖酵母性发育过程中Isoform水平的多样性和动态变化。

由此可见,基于三代长读长测序的Iso-seq技术跨越了传统测序技术无法克服的鸿沟,极大地丰富了对转录本结构的研究,可准确辨别二代测序无法识别的异构体(Isoform)、融合基因、lncRNA等,获得更加全面的注释信息。

未来组的全长转录组学研究,不仅包含PacBio SMRT技术,也已推出基于Nanopore的direct RNA测序技术,开启转录组学研究新纪元,我们有丰富的全长转录组项目经验,针对特定项目,对分析流程进行优化,以期为不同领域的研究者提供更为完善的解决方案。

参考文献

[1]Jia D, Wang Y, Liu Y, et al. SMRT sequencing of full-length transcriptome of flea beetle Agasicles hygrophila (Selman and Vogt)[J]. Scientific reports, 2018, 8(1): 2197.

[2] Yan L, Lai X, Rodriguez O, et al. Parallels between artificial selection in temperate maize and natural selection in the cold-adapted crop-wild relativeTripsacum[J].bioRxiv, 2017: 187575.

[3]Kuang Z, Boeke J D, Canzar S. The dynamic landscape of fission yeast meiosis alternative-splice isoforms[J]. Genome research, 2017, 27(1): 145-156.

延伸阅读

研究全长转录组?建议先看看这几篇文献

Nature methods丨基于Nanoporedirect RNA测序方法测评

异源四倍体棉花全长转录组文献精读

从已发表paper中找找全长转录组研究套路

近期两篇Nanopore组装果蝇基因组文章预印,低于$1,000 价格又搞定一个模式生物

2018年2月18日,bioRxiv同时预印两篇使用Oxford Nanopore测序组装果蝇基因组的论文,两个不同机构的研究人员不约而同选择了时下最热门的纳米孔测序手段来获得果蝇的基因组,侧面反映出大家对这个技术的关注是so hot~。如果您也有意尝鲜组学新技术,当然请联系未来组。

以下是两篇文献的简单介绍

论文一 一种黑腹果蝇基因组组装

研究中使用黑腹果蝇D. melanogaster (ISO1)基因组DNA在Oxford Nanopore MinION掌上测序仪上测序1个 flowcell,以其中长度在1kb以上的reads(约30×的测序深度)与二代数据结合进行混合组装,加上Bionano光学图谱数据辅助scaffolding,获得高准确度、高连续度和高完整度的基因组组装结果:Contig N50:18.9Mb,BUSCO评估97.1%。

通过与参考基因组进行比较,揭示了大量结构变异,包括与发育、行为、代谢基因相关的novel LTR转座元件的插入和复制等,这些结构变异有助于研究后生动物基因组进化。

文中提到完成该基因组的费用不超过$1,000。

参考文献

SOLARES,Edwin A., et al. Rapid low-cost assembly of the Drosophila melanogasterreference genome using low-coverage, long-read sequencing. bioRxiv,2018, 267401.

论文二 15种不同的果蝇基因组组装

研究对果蝇属的15种果蝇进行了平均深度29×的Nanopore测序,使用minimap2 和miniasm快速组装,平均Contig N50: 4.4Mb。经过自身校正和二代校正后,BUSCO评估数值平均为97.7%。

通过与这些果蝇以往参考基因组对比,结果表明,平均填补了参考基因组中约60%的gap(Table 2)说明长读长测序数据的引入,有助于提高基因组组装的连续度和完整度。Fig.1 以D. erecta参考基因组中Scaffold_4845和本研究中对应的Contig(utg0000101)对比为例,展示了以Nanopore数据组装获得的一个17.4Mb的contig(utg0000101)填补了参考基因组中由38个contigs组成的Scaffold 4845中的gaps,解析了3.7 Mb参考基因组中的未知序列。

Fig.1参考基因组中的gaps能被长读长测序数据填补 

文中也提到,每个基因组的费用都未超过$1,000。

参考文献:

MILLER,Danny E., et al. High-quality genome assemblies of 15 Drosophila speciesgenerated using Nanopore sequencing. bioRxiv,2018, 267393.

长读长Nanopore测序数据的引入能明显增强基因组组装的连续性和完整度,为进一步深入研究种群结构遗传变异的进化和功能打开了一扇门。Nanopore 更高通量的新款测序仪PromethION已经上市,每个Run理论产出6.2TB,未来单GB数据价格会进一步下降,敬请持续关注。

未来组于2017年引进Oxford Nanopore平台,在2018年初率先获得Oxford Nanopore测序认证服务供应商资质认证。未来组将持续扩大Oxford Nanopore测序平台,打造包含三代单分子测序、光学图谱、三维基因组学等多方位的组学研究中心,还将在RNA直接测序、表观转录组学等领域进行深度的探索。

组学新技术尝鲜当然要找未来组

延伸阅读

Nanopore组装动植物基因组盘点及文献下载

里程碑丨Nanopore测序组装人类基因组终见刊NBT,牛津纳米孔公司携手未来组推“1000个中国人基因组结构变异检测计划”

未来组–中国首家通过Nanopore官方测序服务认证

Naturemethods丨基于Nanopore的direct RNA测序方法测评,你要不要来试试?