未来组三代基因组项目再出新篇!“英雄树”木棉基因组草图首发

近日,武汉未来组携手曲靖师范学院唐利洲课题组、西南林业大学田斌课题组首次完成了我国重要林木木棉的三代基因组测序分析项目,文章于2018年5月11日在线发表于Giga Science[1]。曲靖师范学院的高永、王海波和刘潮为本篇论文的共同一作,唐利洲和田斌为通讯作者。武汉未来组凭借丰富的三代测序经验为该项目提供技术支持。

木棉又名英雄树、攀枝花、斑芝棉等,其树形高大雄伟(树高可达40米),春季红花盛开,是优良的行道树、庭荫树和风景树。广州市将木棉选定为其市花,另有攀枝花市以木棉命名。木棉具有重要的经济价值及药用价值,其纤维还被誉为“植物软黄金”,木棉纤维短而细软,中空度高达86%以上,远超人工纤维(25%-40%)和其他天然材料。

研究方法
测序物种:木棉(Bombax ceiba

基因组测序及组装:提取木棉叶片DNA,利用Illumina平台进行基因组Survey,测序数据量36.1 Gb;在PacBio Sequel平台测序19个SMRT cells,测序数据量86.0 Gb; Bionano光学图谱辅助组装,测序数据量160.0 Gb。

转录组测序:提取嫩芽、根、花朵、树皮及果实等组织RNA,利用Illumina HiSeq 2000平台进行RNA-Seq,测序数据量44.41Gb。

研究结果

Fig.1 K-mer分析

K-mer 分析估计木棉基因组大小809M,基因组杂合率0.88%(Fig.1)。结合PacBio及Bionano数据,最终组装出895Mb的木棉基因组,ContigN50为1.0Mb,Scaffold N50为2.06M。基因组组装完整性很好,BUSCO评分达到94.4%。

Table1 BUSCO分析结果

在木棉基因组中共发现454,435 个SSRs,且木棉基因组的重复序列占60.30%,其中长末端重复序列(LTR)含量最高(47.86%)。ncRNA注释共发现496个miRNAs、894个tRNAs、6,772个rRNAs及727个snRNAs。

Fig.2 木棉与其他植物的系统发育关系

为了确定木棉的进化地位,研究者比较了木棉在内的12种植物的基因组。基因家族聚类分析发现木棉中的37,736个基因分属于16,586个不同的基因家族,其中有906个基因是木棉所特有的。基于172个单拷贝的同源基因构建系统发育树,发现木棉与木本棉的的分化大约发生在2060万年前(Fig.2)。此外,基因家族分析揭示了木棉基因家族中的扩张与收缩现象(Fig.3)。

Fig.3 木棉基因家族的扩张与收缩

木棉基因组高杂合高重复,在组装中存在很大的困难。三代长读长技术的加入,克服了这些困难,获得了高质量的木棉基因组,这将为木棉品种改良和基因组学研究提供良好基础。

除木棉之外,锦葵科的另一种明星植物:榴莲也于2017年在Nature Genetics在线发表了其基于三代测序技术的基因组,该文通过基因组与转录组的联合分析,揭示了榴莲独特气味的分子基础及代谢过程。三代测序由于其长读长,无GC偏好,能轻松跨过较长的重复序列等特点,非常适合大型林木的基因组测序。

随着长读长测序技术的发展,物种的基因组组装也从草图逐渐过渡到精细图谱。未来组携三代长读长测序技术(PacBio SMRT、Oxford Nanopore)、BioNano光学图谱及Hi-C染色体构象捕获等技术,为合作伙伴提供更连续、更高质量的动植物基因组组装分析服务。

 

参考文献

[1] Gao, Y. et al. De novo genome assembly of the red silk cotton tree (Bombax ceiba). GigaScience, giy051-giy051 (2018).

[2] Teh B T, Lim K, Yong C H, et al. The draft genome oftropical fruit durian (Durio zibethinus)[J]. Nature Genetics, 2017, 49(11).

 

图片来源于网络|侵删

小麦基因组草图到精细图的利器:长读长测序+光学图谱

最近,中国科学院遗传与发育生物学研究所植物细胞与染色体工程国家重点实验室等单位合作完成了小麦A基因组精细图,小麦是人类重要的食物来源,获得其基因资源并对其遗传多样性和关键性状分析将是实现小麦高产增收的重要途径。下面是A、B、D三个亚基因组的研究进展。

广泛种植的普通小麦为异源六倍体,含有A、B、D三个基因组,其基因组大而复杂(约17 Gb,是水稻基因组的 40 倍、人类基因组的 5.5 倍),85%以上基因组DNA为重复序列,其形成涉及三个原始祖先种的两次天然杂交(Fig.1)。

Fig.1现代栽培小麦异源六倍体基因组形成示意图

面包小麦全基因组测序分析[1]

研究者采用Roche 454焦磷酸测序法对“中国春(CS42)”进行测序,在一个同源基因家族的框架下组装出面包小麦基因组,使用近缘二倍体小麦对同源基因进行分类,并从全基因组水平鉴定A、B、D基因组中的SNP位点。

A、B、D基因组约各有28,000、 38,000 及36,000个基因,研究者据此六倍体小麦的基因组拥有94,000­~96,000个基因。

小麦与短柄草基因组高度同源,但同时在短柄草的1号染色体和4号染色体上也存在保守性较低的区域(Fig.2 track 1)。此外研究者还基于小麦的高密度EST makers构建了小麦A、B、D基因组与短柄草的共线性图谱(Fig.2 track 5、6、7)。高分辨的共线性图谱显示在总体保守的基因区段中存在许多基因插入或易位现象。

Fig.2小麦基因组与短柄草基因组(B.distachyon)mapping结果(track 1表示小麦454 reads与短柄草基因组的比对结果;

track 2、3、4表示小麦A、B、D基因组中的SNP密度;track 5、6、7表示小麦A、B、D基因组与短柄草基因组的共线性关系)

研究者发现面包小麦的六倍体基因组是高度动态的,基因家族在多倍化和驯化过程中存在大量的缺失现象。与能量获取、代谢和生长相关的基因家族的扩张可能与产量相关。

Fig.3六倍体小麦、节节麦、玉米及水稻的基因家族大小

尽管通过454测序获得的六倍体小麦基因组并不完整,它仍为后续的基因鉴定提供了有力的基础,促进了小麦的进一步的基因组测序和基因组规模分析。

小麦A基因组祖先种——乌拉尔图小麦A基因组草图[2]

现在栽培的普通小麦的A基因组来源于野生的二倍体单粒小麦——乌拉尔图小麦,与节节麦(小麦D基因组供体)和山羊草(小麦B基因组供体)相比,乌拉尔图小麦的穗和种子更接近于栽培小麦。2013年,中国科学院遗传与发育生物学研究所植物等单位首次完成了乌拉尔图小麦A基因组草图。

Table 1乌拉尔图小麦基因组组装情况

乌拉尔图小麦的基因组大小是短柄草基因组的18倍,但预测的基因数却只是短柄草的1.37倍。乌拉尔图小麦和短柄草具有很高的共线性(Fig.5a)。短柄草的1号染色体上包含5个基因的区段,长度为50kb,是乌拉尔图小麦和短柄草中一个具有代表性的共线性片段。比较发现在乌拉尔图小麦上这五个基因分属于不同的scaffold,总长度为1,092 kb(Fig.5 b)。相对于短柄草,乌拉尔图小麦的基因空间扩张了20倍之多。这些结果证实了重复序列在小麦家族基因组扩张中的作用。

基于乌拉尔图小麦的基因组草图,该研究鉴定了蛋白质编码基因模型,进行了基因组结构分析,并对其在分析重要农艺基因和开发分子标记方面的应用进行了评价,为多倍体小麦基因组的分析提供了一个二倍体参考基因信息,也为小麦遗传改良提供了有价值的资源。

中国研究者完成小麦A基因组供体——乌拉尔图小麦A基因组精细图谱[3]

近日,中国科学院遗传与发育生物学研究所植物细胞与染色体工程国家重点实验室等单位合作完成了小麦A基因组的测序和染色体序列精细图谱的绘制,全面揭示了小麦A基因组的结构和表达特征,对深入和系统地研究麦类植物的基因组结构与功能以及进一步推动栽培小麦的遗传改良具有重要理论意义和实用价值。

该研究结合了BAC建库方法,三代PacBio SMRT技术、Bionano光学图谱技术和10X genomics技术,成功绘制了小麦A基因组的精细图谱,绘制出了小麦A基因组7条染色体的序列图谱,注释出了41,507个蛋白编码基因。

Table 2 基因组组装及注释情况

通过与水稻、高粱和短柄草基因组的比较和共线性分析,推演出了小麦A基因组7条染色体从禾本科共同祖先基因组起源的演化模型。

Fig.6 乌拉尔图小麦和普通小麦A、B基因组的共线性分析

Fig.7乌拉尔图小麦染色体进化模型

此次科学家描绘的小麦 A 基因组图谱,将有力地促进小麦基因组学研究和小麦分子设计育种的开展。这项研究也体现了长读长测序技术及光学图谱技术在使基因组更完整、更精细、更准确上的重要应用价值。

追溯小麦B基因组起源——基因组测序解析野生二粒小麦基因组[4]

现代的六倍体小麦Triticum aestivum是经异源四倍体野生二粒小麦Triticum turgidum(WEW)驯化为有脱粒特性的现代二粒小麦(DEW)后,与二倍体Aegilops tauschii杂交形成。野生二粒小麦基因组的解析将可以从另外一个角度了解小麦的进化。

Fig.8野生四倍体小麦(WEW)14条染色体的结构、功能及共线性分析图谱

WEW的2个亚基因组的同源性分析,发现其中72.3%同源基因对,同源基因对的表达模式和表达水平相似。另外少量同源基因对只在一个亚基因组中表达,功能富集分析表明,亚基因组调控的基因表达可能与小麦品种相关。

Fig.9全基因组多样性分析

通过外显子测序,驯化和野生二粒小麦显著分离成2个亚群,野生二粒小麦分布以色列、叙利亚、黎巴嫩和土耳其地区,栽培二粒小麦分布印度洋、地中海、东欧和高加索地区,与野生小麦相比,栽培小麦的多样性下降。

小麦D基因组供体—— 节节麦基因组测序解析[5]

节节麦又名粗山羊草,是现代普通栽培小麦(异源六倍体)的D基因组供体种,其基因组中抗病相关基因、抗非生物应激反应的基因数量都发生显著扩张,增强了其抗病性、抗逆性与适应性。

 

D基因组的加入,使小麦的抗病性、适应性与品质得到大大改良。加州大学戴维斯分校植物学教授 Jan Dvořák 的团队结合多种先进测序技术,最终获得具有参考价值的节节麦基因组序列,将为改良小麦品种、提高小麦面粉质量提供主要的基因来源。

Fig.10 (a)节节麦与高粱、水稻、大麦、短柄草的基因家族聚类分析;(b)节节麦与中国春系列小麦的基因家族聚类分析

节节麦的基因组组装结合了多项测序数据,最终约95.2%的序列组装了7条染色体,且其基因组包含了大量的重复序列。与其他已测序物种进行比较分析,发现节节麦基因组中含有更多分散的重复基因,且染色体结构的进化速度也更快。研究者认为,节节麦基因组中大量相似的重复序列导致了频繁的重组错误,致使染色体结构的改变,从而推动了基因组的快速进化。

获得节节麦基因组参考序列,为研究小麦驯化史提供了一个全新的视角,并为多倍体小麦基因组的测序分析提供了D基因组参考序列。

随着测序技术的发展,物种的基因组组装也从草图逐渐过渡到精细图谱,为经济作物的遗传多样性及良种选育提供了丰富的基因组学信息。未来组携三代长读长测序技术(PacBio SMRT、Oxford Nanopore)、Bionano光学图谱及Hi-C染色体构象捕获等技术,为合作伙伴提供更连续、更高质量的动植物基因组组装分析服务。

参考文献

[1] Brenchley R, Spannagl M, Pfeifer M, et al. Analysis of the bread wheat genome using whole-genome shotgun sequencing.[J]. Nature, 2012,491(7426):705-710.

[2] Ling H Q, Zhao S, Liu D, et al. Draft genome of the wheat A-genome progenitor Triticum urartu.[J]. Science Foundation in China, 2013, 496(2):37-37.

[3] Ling, H.-Q. et al. Genome sequence of the progenitor of wheat A subgenome Triticum urartu. Nature (2018).

[4] Avni R, Nave M, Barad O, et al. Wild emmer genome architecture and diversity elucidate wheat evolution and domestication [J]. Science, 2017, 357(6346): 93-97.

[5] Luo M C, Gu Y Q, Puiu D, et al.Genome sequence of the progenitor of the wheat D genome Aegilops tauschii.[J].Nature, 2017, 551(7681):498.

2.2Mb! 纳米孔测序再创单read 读长新纪录!

Nanopore测序首次生成了单个>2Mb的测序序列,这是Nanopore测序史上的又一飞跃。该研究由英国诺丁汉大学生命科学学院Alexander Payne等人主导,研究成果已于5月3日在bioRxiv发布[1]

NanoporeMinION测序输出数据为fast5格式,经过base calling 步骤获得相应的碱基序列(fastq格式)。此前基于MinION的base calling软件通常为MinKNOW。而Alexander Payne等人基于开发的BulkVis工具,发现MinKNOW在base calling过程中可能会将长reads错误打断,而消除这个“bug”之后,可获得读长超过2Mb的reads。

为什么要获得长读长?

获得完整的高质量的基因组信息是深入进行物种研究的前提。

二代短读长测序技术将基因组DNA打断为几百bp的小片段,测序后再逐步拼接,组装连续性差,尤其难以解决基因组中的复杂的重复区域和结构变异区域,很难获得完整的基因组组装结果。

Nanopore测序技术的长读长在基因组组装中优势明显,不仅可以大大提高基因组组装的连续性,还可以解决短读长测序所难以攻克的复杂重复序列,对结构变异的鉴定也有很大的优势。例如近期在Nature Biotechnology上发表的基于Nanopore测序获得的人类Y染色体着丝粒序列的文章,展示了Nanopore测序在解决复杂重复区域的优越性。此外,对线虫基因组中的复杂串联重排、果蝇基因组中的结构变异的鉴定等都是Nanopore长读长测序的应用实例(相关文献解读见文末延伸阅读)

案例一Nanopore完成某昆虫基因组组装

基于K-mer分析预估该昆虫基因组大小为~330Mb。

Fig.1K-mer分析

提取合格的样本DNA,在Oxford Nanopore GridlON X5平台测序30Gb三代数据,最长读长达270Kb,reads N50长度达26.8kb。长读长是后续进行更准确基因组组装的前提。

Fig.2读长分布

利用多种软件进行基因组组装,配适最优方案。基于超长读长的Nanopore测序和搭配的超算平台,让基因组组装更连续,更快捷。本案例中,该昆虫基因组组装Contig N50能>7Mb,已达到昆虫模式动物果蝇的组装水平。

Table1 组装结果

将组装的基因组通过 BUSCO比对昆虫基因组数据库,评估对保守基因组装的完整度,间接f反映整个基因组完整度。结果表明,经过Nanopolish+Pilon(×2)校正后,BUSCO评估能达到~98%,基因组组装完整性好。

Table2 BUSCO评估

案例二某动物ultra-long 测序数据惊艳首发

Nanopore ultra-long测序可实现超长读长,根据其独特的转座酶建库方式,可以获得含有超长片段的DNA测序文库,再通过Nanopore测序即可获得超长的DNA序列。超长序列将大大有利于基因组de novo组装及染色体复杂结构变异的鉴定等。

Fig.3Ultra-long 建库测序流程

未来组基于Nanopore 测序平台,对某哺乳动物血液进行ultra-long建库并测序,多个文库的reads N50长度大于70kb,最长读长超过1Mb!

Fig.4部分文库reads N50

Fig.5 单个文库读长分布

未来组迄今已完成数十个Nanopore动植物基因组测序组装,并与牛津纳米孔公司携手推出“1000个中国人基因组结构变异检测计划”,共同开发Nanopore技术在生命科学领域的新应用。未来组将持续扩大Oxford Nanopore测序平台,打造包含三代单分子测序、光学图谱、三维基因组学等多方位的组学研究中心,还将在RNA直接测序、表观转录组学等领域进行深度的探索。

 

参考文献:

[1] Alexander Payneet al. Whale watching with BulkVis: A graphical viewer forOxford Nanopore bulk fast5 files. bioRxiv.2018.

[2]https://nanoporetech.com/about-us/news/longer-and-longer-dna-sequence-more-two-million-bases-now-achieved-nanopore

延伸阅读

NBT丨Y染色体着丝粒序列解析完成的一小步,人类基因组完成图历史上的一大步

近期两篇Nanopore组装果蝇基因组文章预印,低于$1,000 价格又搞定一个模式生物

来自Nanopore测序的2个线虫基因组,解析复杂的染色体重排

Nanopore测序首次揭示RNA病毒天然基因组

RNA病毒的基因组通常是经过反转录为cDNA,再通过测序方法获得的。而近日Nature发表了一篇题为“Flu virus finally sequenced in its native form”[1]的文章,报道了美国研究者使用Oxford Nanopore技术在检测流感病毒天然基因组RNA中获得的重大突破,该研究论文已经预印[2]。该研究的领导者、美国疾病控制和预防中心的微生物学家John Barnes说:“这是我们第一次真正开始研究原始状态下的RNA病毒基因组的本质,这确实开辟了很多可能性。”

Nanopore direct RNA测序是基于mRNA拥有poly(A)尾巴的特点进行测序的,其adapter是一段包含10个T的核酸序列,可与mRNA上的poly(A)序列互补,再连接测序接头,即可达到牵引mRNA到纳米孔进行测序的目的(Fig.1A)[3]

A型流感病毒的RNA基因组3’端和5’端各有一段12nt和13nt的保守序列,研究者巧妙地设计了一种针对流感病毒基因组负链3’端保守区的Nanopore测序接头RTA(Fig.1B),从而实现了在Nanopore MinION上对流感病毒RNA的直接测序。

Fig.1 (A)Nanopore direct RNA建库测序示意图;(B)基于流感病毒保守序列Nanopore测序接头示意图

为了验证设计的RTA 的有效性,研究者应用Nanopore MinION对从已感染的鸡蛋尿囊液中提取的total RNA进行测序,结果表明该RTA接头可以特异性识别流感病毒RNA,通过Nanopore测序获得的序列能100%覆盖流感病毒基因组,且99%的序列可比对到流感病毒基因组。

Fig.2 MinION和MiSeq在原始样本中对PB2、PB1、PA、HA、NP、NA、M和NS片段测序覆盖度比较

MinION测序数据对流感病毒中的PB2、PB1、PA、HA、NP、NA、M和NS等8个片段的覆盖度均为100%, 但3’端表现为更高的测序深度,说明测序是从3’端开始的(Fig.2)。研究还将MinION测序结果与MiSeq测序结果作了比较。

研究者指出,应用该方法还可以对在病毒生命周期中起重要作用的病毒mRNA和cRNA进行测序,这有可能识别和量化剪接类型并进行碱基修饰检测,而这些在以往的方法中是无法做到的。针对不同类型的RNA设计adapter并结合Oxford Nanopore测序可实现对RNA的靶向测序,大大增加了该技术的应用范围。

未来组迄今已完成数十个Nanopore动植物基因组测序组装,“百个Nanopore基因组计划”正如火如荼地进行;后续会陆续购入通量更高的PromethION测序仪,并与牛津纳米孔公司携手推出“1000个中国人基因组结构变异检测计划”,共同开发Nanopore技术在生命科学领域的新应用。

相关阅读

Nature methods丨基于Nanopore的direct RNA测序方法测评,你要不要来试试?

2017农历年前,Nanopore组装动植物基因组盘点及文献下载

未来组–中国首家通过Nanopore官方测序服务认证

参考文献

[1] Flu virus finally sequenced in its native form. Nature(2018)

[2] Keller M W, Rambo-Martin B L, Wilson M M,et al. Direct RNA Sequencing of the Complete Influenza A Virus Genome[J].bioRxiv, 2018: 300384.

[3]Garalde D R, Snell E A, Jachimowicz D, et al. Highly parallel direct RNA sequencing on an array of nanopores. Nature Methods,2018.

图片来源于网络|侵删

Nature Reviews|突破黑暗——长片段测序技术的应用优势及其生物信息学算法

长读长测序和远距离映射技术的发展促进了物种参考基因组质量的提高,同时也为转录组学和表观遗传学研究提供了新的方法,使复杂结构变异鉴定成为可能。与此同时我们也需要开发新的生物信息学方法,以期达到对测序数据的高效利用。近期在Nature Reviews上发表的一篇综述文章讨论了当下流行的几种基因组学研究方法的主要应用方向,并重点关注当前适用的一些生物信息学分析工具[1]

二十世纪中后期,高通量的二代测序技术的发展降低了测序费用,实现了人们对基因组多样性、病原体变异及转录组、表观组和基因调控等的进一步研究。但是二代测序的短读长劣势,也限制了其对基因组中的重复序列和复杂结构变异等的鉴定。同时,文库构建过程中人为引入的错误也是二代测序技术面临的一大问题。

新近发展起来的基因组学技术如长读长测序技术PacBio SMRT和Oxford Nanopore(平均读长超过10kb,最长可达1Mb)、长片段测序技术Bionano、Hi-C及10X Genomics技术等可解决复杂基因组中的重复序列、微卫星序列及其他复杂的结构变异等问题。Table 1列举了这些新技术的主要应用方向。

新的数据类型催生了新的适用于其的生物信息学算法,文章中列举了基于这些新基因组学数据的大量实用分析软件。当前,新的生物信息分析工具已经结合新技术在很大程度上提高了我们对基因组的认识:

>>>>

基因组de novo组装

复杂重复片段、高杂合、测序错误、覆盖不足或偏向性等问题是基因组组装中的重难点,其中,重复片段是最难克服的一环。基于二代短读长测序极有可能会导致拼接错误。基因组de novo组装是长读长测序的一个重要应用方向——它们解决了基于二代短读长技术所不能解决的复杂重复片段及偏向性等问题。同时结合Bionano光学图谱技术等可进一步提高基因组组装质量。

>>>>

染色体scaffolding和空白填补

新技术的加入填补了许多基于一代或二代测序技术得出的参考基因组中的许多空白(如玉米、果蝇和蚊子基因组等),并进行纠错,获得了更为完善的物种基因组。与contig不同,scaffold序列含N碱基,如何确定contig的正确顺序和方向是scaffolding的难点。使用染色体构象捕获技术(Hi-C)、10X Genomics技术及光学图谱技术(Bionano)可以有效地辅助构建scaffold。例如,山羊和人的基因组组装就结合了长读长测序技术和Hi-C技术,contig N50分别达到了18.7 Mb和26.8 Mb,scaffold N50分别为87Mb和60.0Mb。

Fig.1 PacBio+Bionano组装结果与参考序列hg19比较 [2]

>>>>

复杂结构变异鉴定及分析

染色体结构变异(SVs)包括缺失、插入、重复、倒位和转座几种类型,变异区段通常大于50bp。SVs与人类健康和疾病有密切关系。过去的SVs分析通常基于短读长的测序技术,然而由于读长限制,二代测序技术对SVs的鉴定存在较高的错误率,且灵敏度较低。可喜的是,新一代的长片段测序技术为SVs的鉴定提供了新的可行性方法——与二代技术相比具更高的灵敏度和更低的错误率。

Fig.2 基于Illumina、PacBio和Oxford Nanopore的测序数据中的结构变异分析的比较

>>>>

单倍型及等位基因特异性分析

许多真核生物,包括高等动植物,其基因组往往含有不只一个拷贝的染色体组。鉴别母本和父本的基因型有利于区分复合杂合子和半基因突变,以及等位基因特异性表达等。使用测序技术直接获取个体的单倍体信息具有很大的研究价值。如Fig.3所示,当测序reads足够长,即能够跨越杂合子变异区而实现对单倍体的有效phasing。但实际上通常由于读长限制、测序错误及测序覆盖深度的波动导致变异的错误引入和真实变异的缺失。

Fig.3 长reads对单倍体的phased示意图

通过短读长测序技术获得的Phased block N50基本在1kb左右,而经长读长的PacBio和Oxford Nanopore测序获得的Phased block N50可达到100kb~500kb;由10X Genomics技术获得的Phased block N50已超过10Mb;基于Hi-C的长距离测序技术理论上甚至可以Phased到整个染色体——这些长片段测序技术的发展促进了单倍型的鉴定和分析。

>>>>

Isoform鉴定及基因定量

真核生物中的可变剪接是增加蛋白质多样性的重要机制。在果蝇中,性别特异性基因dsx的不同的剪接形式甚至决定了果蝇的性别;而在人体内,据估计有95%的多外显子基因都表现出不同的可变剪接形式,以此构成了人体中复杂的转录本。

RNA-Seq技术虽然可以实现对转录本的表达定量,但由于其读长限制,无法准确解析真核生物中复杂的Isoform结构。而三代长读长测序技术——PacBio和Oxford Nanopore测序技术可以显著地提升对Isoform结构的鉴定。无论是cDNA测序还是direct RNA测序,都可以直接得到转录本全长,直观地展示转录本结构。

Fig.4 长读长测序发现的新的Isoform类型示例

>>>>

表观修饰的直接检测

表观修饰是生物体基因表达调控机制中的重要一环,长片段测序技术实现了对表观修饰尤其是甲基化修饰的直接检测分析。目前研究较为广泛的甲基化修饰机制主要是6mA及5mC。先前对5mC的主要检测方法是基于短读长的亚硫酸氢盐测序法,该方法具有较高的偏好性。而长读长的PacBio和Oxford Nanopore测序技术可以直接对天然DNA进行测序,减少了人为引入的错误因素,更真实地还原DNA链上的甲基化修饰现象。

Fig.5 单分子测序法检测甲基化核苷酸。(A)基于PacBio Sequel的甲基化修饰检测原理图;(B)基于Oxford Nanopore甲基化修饰检测原理图

基于PacBio的 BaseMods软件根据测序过程中聚合酶引入核苷酸的速度——脉冲间隔的持续时间(IPD)来判断是否存在甲基化修饰(Fig. 5Aa、Ab)。Nanopolish和SignalAlign则是基于Oxford Nanopore的甲基化检测软件,通过分析非甲基化和甲基化核苷酸引起的电流信号变化来判断发生甲基化修饰与否(Fig.5 B),随后,利用隐马可夫模型(HMM)分析该修饰是发生在胞嘧啶还是腺嘌呤上。此外,最新的研究表明Oxford Nanopore技术甚至可以直接检测RNA分子上的甲基化修饰。

多组学技术结合对于结果分析更有利,这也就意味着我们需要更加灵活的生物信息分析工具。文章还指出了这些长片段测序技术在应用过程中所面临的一些生物信息学分析挑战(Table 2)。

新兴的长片段测序技术和映射技术结合适当的生物信息学算法,将在很大程度上提高基因组、转录组以及表观组的数据质量,为人们提供更全面的基因组学信息,有望更完整、更准确地展现基因形式,实现对基因调控区域及其他重要元件的准确识别,并提高对等位基因特异性的鉴定,在科研及临床医学领域都具有不可估量的应用前景。

武汉未来组拥有PacBio Sequel、Oxford Nanopore、Bionano光学图谱及Hi-C染色体构象捕获等技术和平台,拥有丰富的三代测序项目经验,旨在为广大合作伙伴提供优质、快捷的基因组转录组测序组装分析服务。

参考文献

[1] Sedlazeck F J, Lee H, Darby C A, et al. Piercing the dark matter:bioinformatics of long-range sequencing and mapping[J]. Nature ReviewsGenetics, 2018: 1.

[2] Pendleton M, Sebra R, Pang A W C,et al. Assembly and diploid architecture of an individual human genome via single-molecule technologies[J]. Nature Methods, 2015, 12(8):780.

图片来源于网络|侵删

昆虫之“最”和它们的基因组学研究

昆虫种类繁多,世界上已记录的昆虫有100多万种(其中有害昆虫八万余种),是目前最大的未被充分利用的宝贵资源。昆虫是动物界中最大的一个类群,在所有生物种类中占比超过50%,它们的踪迹几乎遍布世界的每一个角落。

有研究认为昆虫最早起源于距今~479 Mya的奥陶纪,现存的昆虫谱系大多起源于距今~345 Mya的密稳纪,而昆虫主要的多样性分化则出现在白垩纪时代[1]

对人类健康危害最大的昆虫——蚊

蚊子属于双翅目蚊科,世界上约有3000种。是一种具有刺吸式口器的纤小飞虫。通常雌蚊以血液作为食物,而雄蚊则吸食植物的汁液。吸血的雌蚊是登革热、疟疾、黄热病、丝虫病、日本脑炎等其他病原体的中间寄主。蚊子的分布极为广泛,除南极洲外各大洲皆有蚊子的分布。其中,以按蚊属、伊蚊属和库蚊属最为著名。

相关研究▕疟疾载体——达氏按蚊的基因组研究[2]

按蚊是最主要的疟疾传播载体,在美洲每年由按蚊引起的疟疾有数百万例。研究者对从Coari、AmazonasState和Brazil获得的野生按蚊进行培养,并对其F1代按蚊进行DNA测序,组装出了达氏按蚊基因组。

Fig.1 达氏按蚊与冈比亚按蚊、伊蚊、库蚊和果蝇属的进化关系

研究中共预测了10481个蛋白质编码基因,其中,72%的基因与冈比亚按蚊最接近,21%与其它蚊种相似性较高。尽管经过很长一段时间的不同的进化过程(Fig.1),但研究者还是在达氏按蚊和冈比亚按蚊之间发现了保守的基因共线性现象(Fig.2)。

Fig.2达氏按蚊、冈比亚按蚊和果蝇的基因结构比较

文章还发现了达氏按蚊中大量的SNP位点及转座元件,确定并讨论了直接参与载体-人类和载体-寄生虫之间相互作用的与吸血、免疫和杀虫剂抗性相关的基因。

对农业危害最大的昆虫——蝗虫

蝗虫属直翅目,全世界有超过10,000种,广泛分布于热带、温带的草地和沙漠地区。蝗虫主要包括飞蝗和土蝗。在我国飞蝗有东亚飞蝗、亚洲飞蝗和西藏飞蝗3种,其中东亚飞蝗在我国分布范围最广,危害最严重,是造成我国蝗灾的最主要飞蝗种类,主要危害禾本科植物。全世界常年发生蝗虫的面积达4,680万km2,全球1/8的人口经常受到蝗灾的袭扰。

相关研究▕ 基因组信息揭示蝗虫与飞行和植食性相关的基因家族扩张[3]

在目前已完成测序的昆虫基因组中,最大的为东亚飞蝗,别看它身材小巧,基因组却高达6.5Gb,是人类基因组的2倍。研究发现东亚飞蝗基因组中存在大量的重复序列(至少60%),且这些序列的丢失频率明显比其他昆虫少很多,这是造成其庞大基因组的主要原因。

Fig. 3 迁移飞行过程中与能量消耗有关的基因的扩张

研究者通过基因组比较分析发现东亚飞蝗基因家族的扩张与迁移飞行过程中的能量消耗及其化学感应和消毒机制有关,这些扩张有利于飞蝗长距离飞行及植食性。这项研究揭示了蝗虫长距离飞行能力和植食性的基因组基础。

此外,对东亚飞蝗的甲基化和转录组研究分析发现了在蝗虫变相过程中的复杂的分子调控机制。

最浪漫的昆虫——萤火虫

萤火虫属鞘翅目萤科,是一种小型甲虫。因其尾部能发出荧光,故名为萤火虫。全世界约2000种,分布于热带、亚热带和温带地区,我国较常见的有黑萤、姬红萤、窗胸萤等几种。

萤火虫可以利用荧光的闪烁节奏形成特定的闪光信号,主要用来吸引异性交尾,偶尔也起一定的警戒作用。这种行为与蟋蟀鸣叫,蝴蝶起舞等类似,都可归为求偶行为,因为场面过于浪漫,被人们赋予更多诗意。

相关研究▕ 比较基因组学研究揭示萤火虫荧光素酶基因的起源与进化[4]

为了揭示萤火虫荧光素酶基因的遗传基础及其起源、进化过程,Timothy R. Fallon等人用PacBio+Illumina+Hi-C多技术结合的策略组装出了高质量的北斗七星萤火虫(Photinus pyralis,Lampyrinae亚科)基因组,解决了其中与荧光素酶基因相关的串联重复序列。同时,研究者还对日本萤火虫(Aquatica lateralis,Luciolinae亚科)和发光磕头虫(Ignelater luminosus,叩甲科)进行Illlmina基因组测序并完成组装。通过对这三个荧光甲虫进行比较基因组学和转录组分析,对发光甲虫的发光和化学防御机制在近1亿年来的进化历程提出了新的见解。

Fig.4 萤火虫荧光素酶基因进化模型

通过基因组和转录组比较分析,研究者绘制了萤火虫荧光素酶基因进化模型(Fig.4):串联基因的复制产生了PACS的几个旁系同源基因,其中一个新功能化成为萤光素酶祖先基因(AncLuc)。AncLuc原位产生了Luc1,而Luc2则可能是在1亿年前AncLuc发生了远程基因复制事件形成的;随后发生基因重排从而产生了萤火虫的两个亚科——Lampyrinae亚科和Luciolinae亚科。

此外,研究者还利用RNA-Seq技术对三种发光甲虫不同性别、不同组织部位、不同发育时期的基因表达进行了解析,分析了在荧光素酶代谢过程中起关键作用的基因。

对遗传学研究贡献最大的昆虫——果蝇

果蝇广泛地存在于全球温带及热带气候区,目前发现有至少1000种,在人类的栖息地内如果园,菜市场等地区内皆可见其踪迹。

果蝇只有四对染色体,数量少而且形状有明显差别;果蝇性状变异很多,比如眼睛的颜色、翅膀的形状等性状都有多种变异,这些特点对遗传学研究也有很大好处,是很常用的遗传学研究材料。

相关研究▕ 低覆盖长读测序法快速组装果蝇参考基因组[5]

研究者使用黑腹果蝇D.melanogaster (ISO1)基因组DNA在OxfordNanopore MinION掌上测序仪上测序1个flowcell,以其中长度在1kb以上的reads(测序深度约30×)与二代数据结合进行混合组装,加上Bionano光学图谱数据辅助scaffolding,获得高准确度、高连续度和高完整度的黑腹果蝇基因组:Scafold N50 =21.3 Mb,BUSCO评估97.1%。

Table 1 基因组组装结果

通过与参考基因组进行比较,揭示了黑腹果蝇中的大量结构变异,包括与发育、行为、代谢基因相关的novel LTR 转座元件的插入和复制等,这些结构变异有助于研究后生动物基因组进化。

最顽强的昆虫——蟑螂

蟑螂是属于蜚蠊目的昆虫,世界上约有6000种,主要分布在热带和亚热带地区。少数蟑螂会入侵人类家居,大部分则是生活在野外。家居最常见的蟑螂,大的有美洲蟑螂、澳洲蟑螂及短翅的斑蠊,身长约5.0cm;小的有德国蟑螂、日本姬蠊及亚洲蟑螂,体长约1.5cm,热带地区的蟑螂一般体型比较巨大。

相关研究▕美洲蟑螂基因组——揭示环境适应性的遗传学基础[6]

美洲大蠊是一种杂食性食腐动物。它生长速度快、繁殖能力强,而且具有组织再生能力,因而能够在城市环境中生存。美洲大蠊的摄食范围特别广,这也是它们适应多种食物来源的基础。美洲大蠊能通过一个非常复杂的解毒酶系统解毒,而这正是它们能抵抗各种化学毒素和病原体的主要原因。

中科院植物生理生态研究所詹帅研究组与合作者对美洲大蠊进行了基因组测序, 并在基因组水平分析蟑螂的环境适应性的遗传学基础。

Fig.5 美洲大蠊和其他蜚蠊中参与化学接收和解毒的基因家族

研究者将目光聚焦在美洲大蠊与环境适应性相关的基因家族的分析上,并分析与化学吸收、解毒和免疫有关的信号通路。研究发现美洲大蠊中与化学感受和解毒相关的基因家族都发生了大规模扩张,这大大增加了其对城市环境的适应性(Fig.5)。

此外,研究人员还鉴定出了参与发育和再生的信号传导路径。美洲大蠊有望作为开展蟑螂的生物学研究的模式系统。同时,这项研究也能为美洲大蠊的防治提供一些思路。

昆虫家族如此庞大,其中之“最”远远不只于此,以上列举的仅仅是沧海一粟,更多的昆虫故事可以查阅相关文献资料,以下是近年发表的昆虫基因组文献

已发表昆虫基因组文献汇总表

参考文献:

[1] MisofB, Liu S, Meusemann K, et al. Phylogenomics resolves the timing and pattern ofinsect evolution.[J]. Science, 2014, 346(6210):763-767.

[2] Marinotti O, Cerqueira G C, Almeida L G P D,et al. The Genome of Anopheles darlingi,the main neotropical malaria vector[J]. Nucleic Acids Research, 2013,41(15):7387-400.

[3] Wang X, Fang X, Yang P, et al. The locustgenome provides insight into swarm formation and long-distance flight.[J].Nature Communications, 2014, 5(5):2957.

[4] Fallon T R, Lower SE, Chang C H, et al.Firefly genomes illuminate the origin and evolution of bioluminescence[J].bioRxiv, 2017: 237586.

[5] Solares E A, Chakraborty M, Miller D E, etal. Rapid low-cost assembly of the Drosophila melanogaster reference genomeusing low-coverage, long-read sequencing[J]. bioRxiv, 2018: 267401.

[6] Li S, Zhu S, Jia Q, et al. The genomic andfunctional landscapes of developmental plasticity in the American cockroach[J].Nature communications, 2018, 9(1): 1008.

图片来源于网络|侵删

利用PacBio三代测序技术获得模式植物拟南芥的全基因组6mA修饰图谱

未来组项目经验

2018年4月,未来组携手中国农业科学院生物技术研究所谷晓峰研究组和新加坡国立大学生物系及淡马锡生命科学研究所俞皓研究组合作在Developmental Cell杂志发表了题为“DNA N6-Adenine Methylation in Arabidopsis thaliana”的研究论文,利用PacBio三代测序技术获得模式植物拟南芥的全基因组6mA修饰图谱,解析其分布模式和潜在功能。

研究概述

研究人员首先使用Dot blot方法检测了在拟南芥不同组织和不同发育时期的6mA修饰水平,后续选择D9和D21的样本进行三代PacBio SMRT全基因组测序,比较两个时期拟南芥6mA修饰的分布模型和动态变化,并结合转录组信息更深入地研究6mA潜在功能。

Highlights

  • 6mA修饰在拟南芥基因组内广泛存在
  • 与基因间区相比,6mA在 gene body区更丰富
  • 在拟南芥发育过程中,6mA修饰是动态的
  • 6mA与拟南芥中活跃表达的基因相关联

 

研究结果

6mA修饰在拟南芥基因组内广泛存在

研究人员首先使用Dot blot方法检测了在拟南芥不同组织和不同发育时期的6mA修饰水平,发现在这些样本中都广泛存在不同程度的6mA,其水平随着个体发育的进程逐渐增加,在D21出现了急剧上升。

Fig.1Dot blot方法检测拟南芥不同组织和不同发育时期的6mA修饰水平

使用PacBio SMRT测序获得拟南芥全基因组6mA图谱

Fig.2 链特异性的6mA修饰信息

以D9样本示例,PacBio SMRT测序深度经计算为103×,高于PB官方推荐的测全基因组甲基化的要求100×。通过测序时两个脉冲荧光信号之间的间隔时间评估该位点的甲基化程度(Fig.2),最终获得了链特异性的D9全基因组6mA信息(Fig.3A)。实验结果表明,在包含线粒体、叶绿体和核基因组中所有的29,811个腺嘌呤中,发生6mA碱基修饰的比例为0.04%,与LC-MS/MS实验中评估的0.048%吻合,并且发现在越靠近着丝粒区域表现出越高的6mA丰度和轻微降低的平均甲基化水平(Fig.4)。

Fig.3D9 (A)和D21 (B) 拟南芥全基因组6mA图谱

Fig.4 6mA丰度和水平在染色体臂上的分布情况

6mA分布模式解析

通过评估6mA在基因组内不同的区域(Exon、Intron、5’UTR、3’UTR区,Fig.5A)和位处基因的不同类型(Protein coding、miRNA、snoRNA等,Fig.5 B、C)分析6mA的分布模型得知:与基因间区相比,6mA gene body区更丰富(Table 1)。

Fig.5 6mA分布模式解析(D9)

在拟南芥发育过程中,6mA修饰是动态的

通过比较D9和D21拟南芥全基因组6mA分布图谱(Fig.3)、overlap关系(Fig.6)、分布模式的区别(Fig.5、7),可以得知在拟南芥发育过程中,6mA修饰是动态变化的,在位点、程度上都有明显的区别。

Fig.6 D9和D21拟南芥基因组中6mA分布比较韦恩图

Fig.7 6mA分布模式解析(D21)

Fig.8示例了2个基因在D9和D21两个发育阶段不同的6mA修饰位点。D21比D9拥有更多的6mA修饰位点。也支持了在拟南芥发育过程中,6mA修饰是动态变化的。

Fig.8 2个基因在D9和D21两个发育阶段不同的6mA修饰位点示例

6mA与拟南芥中活跃表达的基因相关联

通过将6mA修饰位点及程度与来自RNA-seq的基因表达信息结合分析,结果表明6mA与拟南芥中活跃表达的基因相关联。

高表达基因的TSS上下游2.5kb区域内有更多的6mA修饰位点(Fig.9 A、B),高表达的基因有更多的6mA修饰位点(Fig.9 C、D),被6mA修饰的基因比未修饰的基因表达水平显著增高(Fig.9 E、F),并且靠近TSS时,差异更明显。

Fig.9 6mA修饰与RNA数据关联分析

这篇论文是国内发表的首篇基于PacBio单分子测序技术进行真核生物6mA修饰分析的研究成果,揭示了拟南芥中6mA修饰的发生规律,并为研究陆生植物碱基修饰的分布模式和潜在功能提供基础。武汉未来组凭借丰富的三代测序项目经验在为该项目提供PacBio测序服务并参与分析。

其它真核生物6mA研究高分文章(三代测序直读):

线虫

6mA甲基化对跨代遗传的影响

Greer, E.L. et al. DNA methylation on N6-adenine in C. elegans. Cell 161, 868–878 (2015).

小鼠

6mA在哺乳动物中可影响基因沉默

Wu, T.P. et al. DNA methylation on N(6)-adenine in mammalian embryonic stem cells. Nature 532, 329–333 (2016).

真菌

从多种真菌三代基因组测序数据中挖掘甲基化信息

Mondo, S.J. et al. Widespread adenine N6-methylation of active genes in fungi. Nature Genetics (2017).

延伸阅读

NanoMod 发布,适配于纳米孔测序数据的碱基修饰检测工具

参考文献

Liang et al., DNA N6-Adenine Methylationin Arabidopsis thaliana, Developmental Cell (2018)

图片来源于网络|侵删

Nanopore混测1cell,一次性解决12个细菌完成图,送质粒

从三代PacBio长读长测序应用全面市场化后,在基因组学领域从量变突破到质变的一个应用,非细菌基因组完成图莫属。随着平台机型从RS→RSⅡ→Sequel的更新换代以及试剂版本的升级,使得测序数据的读长和通量不断上升,让细菌完成图产品不断成熟完善,价格也早已跌破万元,奠定了PacBio在单菌基因组完成图领域的不二选择。

如果想要一次性测很多个菌怎么办?

2017年9月在 Microbial Genomics 发表的一篇将纳米孔测序技术(Oxford Nanopore)应用到细菌混测的实例中,解决了之前基于二代Illumina测细菌基因组结果中充斥着gaps、N碱基,成不了完成图的问题。

该研究在一个flowcell中混测了12个不同种的克雷伯氏肺炎菌,与前期二代数据混合组装,既保证完整性,又保证base准确性,最终将它们都组装成了完成图,并且有7个样本组装出了所有的质粒(其它5个样本组装出部分质粒)。

该研究中价格比较:

Illumina:80 USD /sample

ONT:950 USD/ 12 Samples

实验流程

1.DNA 提取

2.12个样本分别加barcode(native barcoding expansion kit (EXP-NBD103))

3.12个样本等量混合

4.加测序接头,按照1D模式建库(1D ligation sequencing kit (SQK-LSK108))

5.Nanopore MinION上机1个flowcell(R9.4)

实验结果

>>>>数据评估

base calling后,共产出10.48 Gb ONT 数据,经过拆分barcode后,获得6.87 Gb数据用于组装,拆分率约为65.5%。

去掉接头和barcode序列后,reads N50为22.9Kb,长读长测序有助于提高组装的连续性。

测序数据在12个菌种间分布并不算均匀,覆盖深度从16×到308×(Fig.1),可能是因为混测个数过多以及barcode拆分效率等导致。

>>>>组装评估

使用Unicycler对ONT数据和Illumina数据进行混合组装,将12个样本都组装成完成图,并且其中7个样本中所有的质粒同时被组装完整。

Figure Illumina单独组装和ONT、Illumina混合组装12个克雷伯氏菌圈图及质粒对比

本方法1个ONT flowcell混了12个细菌,结合二代数据混合组装,全部获得基因组完成图,经济适用并高效。

这种加barcode混测的策略,只能针对可分离培养的菌种。

参考文献

WICK, Ryan R., et al. Completing bacterial genome assemblies with multiplex MinION sequencing. Microbial genomics, 2017,3.10.

图片来源于网络|侵删

NBT丨Y染色体着丝粒序列解析完成的一小步,人类基因组完成图历史上的一大步

随着测序技术的进步,数十年来人类基因组的研究得到了长足的发展,耗费的人力物力不断下降,组装的连续性和完整度不断提升,但仍有不少区域未得到充分解析,例如着丝粒、端粒等串联重复序列,这些区域往往被认为与细胞分裂、细胞周期、疾病等密切相关。

2018年3月,Nature Biotechnology 在线发表了一篇通过对BAC文库进行纳米孔(Oxford Nanopore)长读长测序,绘制人类Y染色体着丝粒区域线性DNA序列的方法学文章,解析了该区域长达数百kb的串联重复,不仅有助于了解着丝粒的进化和功能,更是为通过单分子测序的方法实现人类基因组完成图提供一种新思路。

具体实施步骤

1.建库测序

对目标区域(人Y染色体着丝粒DYZ3区)的环形BAC (https://bacpacresources.org/)使用转座子酶进行1次打断,形成线性DNA后加上测序接头,在Oxford Nanopore MiniION平台进行全长BAC DNA测序(R9.4,RAD002)。

Fig.1基于Nanopore的全长BAC DNA建库测序示意图

2.数据产出

每个BAC run产出数据读长分布见Fig.2, 从10个BAC文库(8个目标位点,2个对照)中,获得了>3500条全长1D reads。每个BAC产出的总数据量、全长比例和一致性序列长度见Table 1。

Fig.2 10个BAC 产出数据读长分布

  1. consensuspolishing和定位、定向

通过评估对照组的数据得知原始1D数据单碱基准确度为84.8%。经过一步consensus和polishing后得到高准确度的一致性序列(Fig.3 B、C),将全长reads比对到每个BAC的consensus reads,对照组准确度为99.2%,其它BAC为99.4–99.8%。

Fig.3数据一致性比对、polishing以及序列变异检测策略

在前一步提高序列准确度后,使用Illumina MiSeq对BAC进行了resequencing,实施了2种变异检测:(1)K-mer method和(2)Alignment metod (Fig.3 D),通过变异检测结果帮助对BAC序列进行定位和排序,例如Fig.3 D右侧圈图以209 kb 长的RP11-718M18示例,使用8个BAC-polished序列,按照从p-arm到q-arm的顺序拼接完整的该区段的序列。

4.组装结果

从8个BAC的Nanopore测序数据中,组装出了完整的人类Y染色体着丝粒区域:365Kb的α-卫星DNA序列。它包含着一段由5.8Kb的序列串联重复而形成的长达301Kb的特殊序列(Fig.4),包含52个higher order repeats(HOR),其中有7段6.0Kb长的HOR结构变异(Fig.4 紫色)。能通过4种常见的单核苷酸多样性而划分形成的9种单体型(Fig.5)。至此,人类Y染色体着丝粒区域DNA序列得到完整解析。

Fig.4 基于Nanopore的全长BAC DNA测序,构建人类Y染色体着丝粒DYZ3区

Fig.5CENY haplotype groupings

5.进一步研究着丝粒的进化和功能

研究人员后续对人类和其它一些类人猿种类的Y染色体着丝粒区域进行了荧光原位杂交(FISH)比对分析(Fig.6)、组蛋白表观修饰分析(Fig.7)等,以期更深入研究着丝粒的进化和功能。

Fig.6The Y centromere location is not shared among the great apes.

Fig.7Epigenetic characterization of the Y Centromere

研究人员在这篇论文中实现了利用BAC+Nanopore测序的方法获得完整的人类Y染色体着丝粒DNA序列(串联重复卫星DNA),比以往的研究更完整、更精细,对序列的顺序好和方向有了更准确的判断,为进一步研究着丝粒的进化和功能以及实现人类基因组完成图提供一种新思路,这也是Nanopore多变应用策略的一个体现。

参考文献

[1]Jain M, Olsen H E, Turner D J, et al. Linear assembly of a human centromere on the Y chromosome[J]. Nature biotechnology, 2018.

延伸阅读

里程碑丨Nanopore测序组装人类基因组终见刊NBT

新技术结合多组学,初迈基因组完成图新时代

Nanopore测序揭露线虫基因组中复杂串联重复序列

未来组–中国首家通过Nanopore官方测序服务认证

Nature methods丨基于Nanopore的direct RNA测序方法

NanoMod 发布,适配于纳米孔测序数据的碱基修饰检测工具

DNA碱基修饰在DNA复制起始、错配修复、细菌中寄主控制的修饰与限制以及转座子的失活等过程中对维持遗传信息的稳定性发挥着重要的作用。目前检测DNA甲基化的常规方法是亚硫酸氢盐测序法等,近年来三代单分子测序技术的发展也让通过测序实时读取DNA碱基修饰信息成为可能(PacBio 通过荧光信号出现的间隔时间识别[1],Nanopore通过特征性电流变化识别[2])。

从Nanopore数据中识别碱基修饰,难度比PacBio大,对算法拟合的精确度要求更高。为了提高碱基修饰信息识别的准确度,未来组首席科学家王凯老师课题组开发了一种新的计算工具——NanoMod,关于NanoMod的测评分析文章已经预印(bioRxiv,2018)[3]。以下是文章内容简单介绍。

Fig.1 NanoMod工作流程图

研究中使用NanoMod软件处理两组有碱基修饰和无碱基修饰的DNA样本的原始信号数据(Nanopore raw data),提取信号强度,基于参考序列执行碱基校正(Fig. 2),然后通过对比两个样本的原始信号分布鉴定修饰碱基(“邻域效应”)。

Fig.2基于NanoMod的缺失错误校正(A);基于NanoMod的插入错误校正(B)

研究者在基于不同的碱基修饰类型和不同程度的邻域效应的模拟数据集上评估NanoMod,发现NanoMod在识别已知碱基修饰方面优于其他方法。此外,研究者还展示了NanoMod在E.coli数据集中鉴定5-mC(5-甲基胞嘧啶)的优越性能(Fig. 3)。

Fig.3 使用NanoMod对E.coli进行DNA修饰分析
(DS1代表非甲基化样本,DS2代表甲基化样本)

相比于现存的一些基于Nanopore测序数据的DNA修饰检测工具,NanoMod的优势在于不需要大量的training data和后续的补偿算法即可完成对DNA修饰的检出,真正实现对DNA修饰的de novo检测。

总之,NanoMod是一种可用Nanopore测序的原始信号实现以单碱基分辨率检测DNA修饰的灵活工具,这将大大促进基于核苷酸修饰的大规模功能基因组学研究的发展,同时也体现了Nanopore测序技术在功能基因组学研究中的应用价值。

未来组自2017年9月开始逐步搭建Nanopore测序平台,并于2018年1月17日通过Oxford Nanopore Technologies Limited(牛津纳米孔技术有限公司,ONT)官方认证,获得Nanopore官方资格认证的测序服务供应商。我们拥有丰富的基因组学测序项目经验,针对特定项目,对分析流程进行优化,以期为不同领域的研究者提供更为完善的解决方案。

参考文献

[1] Flusberg B A, Webster D R, Lee J H, et al. Direct detection of DNA methylation during single-molecule, real-time sequencing[J]. Nature methods, 2010, 7(6): 461. 

[2]Schatz M C. Nanopore sequencing meets epigenetics[J]. Nature methods, 2017, 14(4): 347.

[3]Liu Q, Georgieva D C, Egli D, et al. NanoMod: acomputational tool to detect DNA modifications using Nanopore long-read sequencing data[J]. bioRxiv, 2018: 277178.

图片来源于网络|侵删