从已发表paper中找找全长转录组研究套路

自2016年玉米和高粱全长转录组文章相继发表后,全长转录组测序分析方法开始被越来越多研究团队认可,开始不断被运用到多组学研究中。到了2017年,动植物领域全长转录组测序分析项目也开始陆续发表,除了3月份刚发表的矮牵牛全长转录组项目文章,未来组其他全长转录组项目文章也正在路上赶来。

组学君通过汇总已发表的全长转录组文章,总结了几点应用全长转录组研究的小套路,说不定你苦思不得其法的问题,能在这里获得一些灵感。

材料选择与处理

在构建基因集时,文章中通常选择不同组织不同发育阶段的样本,提取RNA,等摩尔混合为一组进行测序;如涉及到转录本差异的研究,根据研究目的设置对照组和处理组进行全长转录组测序分析,或不同发育阶段或不同组织分为不同组,进行全长转录组测序分析;为考虑成本,在对不同发育阶段或不同组织进行转录本差异分析时,会对样本加barcode,一定比例混合测序,降低文库成本,还有项目在实验时会对样本进行均一化处理,但是目前PacBio官方对均一化处理并无正式Protocol推荐。

作为基因组组装的辅助工具

目前很多已发表的三代基因组文章中都会运用全长转录组测序分析的优势来辅助基因组组装和注释,如在异源六倍体小麦基因组组装及注释中,研究者通过对小麦6个组织进行PacBio SMRT测序,获得全长转录本,对小麦组装基因组的基因预测和注释分析进行完善,确定了之前小麦基因集中缺失的,及未注释的上千个基因。

更丰富的转录本结构形式

因PacBio SMRT测序的长读长优势,能呈现转录本完整结构,最开始的全长转录组paper中多集中于呈现不同转录本结构形式,如可变剪接(AS)或可变聚腺苷酸化(APA)得到的丰富的新的转录本,以及挖掘新的LncRNA,比较典型的案例可以参考高粱全长转录组玉米全长转录组。近来的全长转录组文章不仅会花一些篇幅陈述新发现的转录本结构形式,还会结合科学问题挖掘转录本结构形式更深层次机制。

全长转录组Iso-Seq与RNA-Seq结合精确定量isoforms表达量

目前,转录组差异研究多集中在基因表达量差异研究,首先,基于Iso-Seq获得丰富准确的isoforms,再进行RNA-seq对isoforms表达量精确定量分析。这也是目前全长转录组运用到转录调控研究中的常规思路。

转录本差异与表达量差异研究相结合

如上述4所说,目前大部分转录组差异研究多集中在基因表达量差异研究,而忽视了转录本结构差异,在拟南芥ABA处理后的响应研究中发现,可变剪接事件的转录本结构变化作用可能高于基因表达,这也给转录组研究提供一些启发,转录组差异研究不能只关注基因表达量差异,也需要结合转录本结构差异进行更全面的研究。组学君建议在转录组差异研究中,结合转录本结构差异与表达量差异来进行,当然转录本结构差异研究首选未来组提供的长读长PacBio SMRT测序技术。

开发更快速更有效的分析方法

目前全长转录组分析工具尚不丰富,可从研究项目数据分析中,开发一些适用于其他项目特征的全长转录组的分析工具,不仅可以对项目数据“物尽其用”,还可以为其他研究者提供分析方法的参考。如在矮牵牛全长转录组测序分析中,研究者针对无参考基因组物种,基于Iso-Seq和RNA-Seq开发了HySeMaFi(hybrid sequencing and map finding),挖掘尽可能丰富的可变剪接形式,并对isoforms表达量进行精确定量分析。

组学君汇总了这些年已发表动植物全长转录组文章,供各位参考,如有遗漏,也请各位留言补充。

备注:疾病相关的转录组研究未在内

未来组最新Paper:冬虫夏草线粒体基因组及DNA甲基化修饰信息

近日,由湖南农业大学研究团队完成,未来组参与的冬虫夏草线粒体基因组项目文章见刊Frontiers in Microbiology。研究经PacBio SMRT测序技术,解析了冬虫夏草线粒体基因组完成图,并构建肉座菌目真菌系统进化分析,为冬虫夏草的分类地位提供了遗传学证据,同时,对线粒体基因组范围的DNA甲基化修饰进行分析,为目前首篇研究真菌线粒体基因组表观修饰的论文报道。

冬虫夏草(Ophiocordyceps sinensis)是冬虫夏草菌感染蝠蛾幼虫而形成的冬虫夏草菌子实体与僵虫菌核(幼虫尸体)构成的复合体,是中国传统名贵中药材,主要产于中国西藏高原等高寒地带和雪山草原。冬虫夏草线粒体基因组完成图的获得可对冬虫夏草的进化和系统分类进行深入分析,同时,在PacBio测序中,带有甲基化修饰的DNA碱基会出现荧光脉冲信号的延迟,可直接被识别检测到,因此从测序原始数据中直接获得冬虫夏草线粒体基因组的甲基化信息,也为肉座菌目真菌线粒体基因组的表观修饰的进一步研究提供参考。

研究方法

采集冬虫夏草子实体进行DNA提取;质检合格后,构建20kb文库,上机PacBio RS II测序,P6C4,8个SMRT cell;将过滤后数据与已公布的201个真菌线粒体基因组比对,提取属于线粒体的序列,经HGAP组装;后进行线粒体基因组注释、甲基化和进化分析。

研究结果

  1. 经组装,得到成环的冬虫夏草线粒体基因组57,539bp,含有14 个保守蛋白编码基因(PCGs), 1个rps3, 27个 tRNAs和 2个 rRNA,其中AT含量占69.8%。另外,冬虫夏草线粒体基因组中内含子54个,与肉座菌目其他真菌相比数量最多,分析还确定了73个ORFs(Figure 1 和Table 1)。

Figure 1冬虫夏草线粒体基因组圈图

Table 1 肉座菌目真菌线粒体基因组特征对比

  1. 基于14个与OXPHOS系统相关的保守PCGs做ML系统进化树分析,分类结果确定了冬虫夏草在虫草科中的分类地位,再次更正了之前经冬虫夏草形态学分类到Cordycepssp. 的错误(Figure 2)。

Figure 2基于冬虫夏草线粒体基因组中14个PCGs ML系统进化树

  1. 基于19个肉座菌目真菌rps3基因构建的进化关系,发现与上述基于PCGs的系统进化关系有差别,在对肉座菌目中rps3基因的选择压力分析中,加入了外群P. nordicum,发现肉座菌目真菌受正选择压力(Figure 3),rps3的36个序列位点受正选择压力(dN/dS >1),其中16个序列位点具统计显著性(P ≥0.95)(Table 2)。

Figure 3基于肉座菌目真菌rps3基因构建系统进化树

Table 2肉座菌目真菌rps3基因对数似然函数值及参数评估

  1. 在冬虫夏草线粒体基因组中,确定了1604个修饰位点(正向链783个,反向链821个),平均modQV scor(特定修饰信息的一致性)为24.68,平均覆盖度在96×左右(Figure 4)。在其中确定了28个4mC(0.13%)和10个6mA(0.017%)的修饰位点,大部分6mA和4mC分布在基因间区或内含子区,仅有3个DNA甲基化分布在编码区nad2,nad4L,nad5(Table 3),研究推断其甲基化信息可能与冬虫夏草在寒冷及低PO2的高海拔环境生长适应性相关。

Figure 4 冬虫夏草线粒体基因组中DNA修饰

Table 3 冬虫夏草线粒体基因组的6mA和4mC信息 

PacBio SMRT测序技术的长读长有效解决了冬虫夏草的线粒体基因组中高AT区域或高重复区域难题,得到线粒体基因组完成图,准确定义了基因组特征和进化地位,这一优势也已延伸到科研项目中解决大基因组的复杂区域难题;同时,PacBio测序原始数据可直接用来检测基因组中DNA修饰信息,可让研究者从表观修饰信息角度挖掘与环境适应性相关的分子机制。

参考文献

Kang X, Hu L, Shen P, et al. SMRT sequencing revealed mitogenome characteristics and mitogenome-wide DNA modification pattern inOphiocordyceps sinensis[J]. Frontiers in Microbiology, 2017, 8: 1422.

王凯组发布新算法RepeatHMM,剑指DNA重复类“暗物质”诱发遗传病

微卫星序列扩张,尤其是三核苷酸重复扩张,会引起脆性X综合征,弗里德赖希运动失调,肌强直性营养不良和脆性XE神经缺陷等40多种遗传性疾病,这些统称为三核苷酸重复性疾病TRDs。

如,ATXN3基因通常含有13-41个CAG重复,而ATXN3基因上CAG重复超过55个后具有致病性,会引起脊髓小脑性共济失调3型疾病SCA3。除此,不同的致病性CAG重复次数,会引起其他多种多聚谷氨酰胺疾病。

TRDs的严重性和TRDs综合征发作年龄与三核苷酸重复序列大小密切相关,重复单元数量超过一定阈值后,重复单元数量越高,疾病症状将更严重,综合征发作年龄将越提前,严重的会诱发遗传早现现象。因此,对三核苷酸的重复单元准确检测不仅将提高科研人员对TRDs及其中分子机制的理解,同时,对TRDs临床诊断,风险评估和预后都尤为重要。

微卫星序列重复单元检测方法

目前,在对微卫星序列重复次数检测的方法中,通常会先对基因组中靶序列进行PCR扩增,再经毛细管电泳等技术手段鉴定,但都费时费力,且通量低;Sanger测序又对长的重复序列很无奈;而二代测序读长太短,很难测通整个重复片段区域,当然还无法覆盖高GC含量区域。

第三代高通量测序技术,如PacBio SMRT测序和Oxford Nanopore测序,可覆盖10K及以上的序列,因为是单分子测序,对GC含量异常区域没有偏好性,可解决上述检测手段在重复片段区域的瓶颈。然而由于三代测序单reads的准确度有限,如PacBio的三代测序数据的单read的碱基错误率平均达到了15%,现有的算法并不能有效地检测出基于三代的长读长reads的微卫星序列重复单元。

重复单元鉴定新工具RepeatHMM

希望组&未来组创始人之一的王凯教授,带领实验室开发了一套基于三代测序的repeat region鉴定的算法RepeatHMM,解决了目前微卫星序列重复单元鉴定的技术瓶颈,该算法不仅能识别出repeat region,同时能够鉴别重复单元,进而计算出重复单元数量和重复片段的大小。这为更进一步认识基因组、鉴定因repeat region变化导致的遗传病等,奠定了算法基础。

RepeatHMM流程如Fig. 1,先找出目标区域的起始位置;然后对覆盖该区域的长reads进行切割mapping,以提高mapping的准确率;三是要保证重复区域上下游的一些特异性片段,作为标记mapping上;四是针对三代测序的错误进行纠正;五是基于隐马可夫模型进行重复片段估算;六是基于peak calling算法,进行位点的重复片段分布估算。

RepeatHMM获取地址:

https://github.com/WGLab/RepeatHMM

RepeatHMM评估方法

模拟数据1评估:

100套不同覆盖深度PacBio模拟数据,设置ATN1正常和致病性等位基因 CAG重复次数。

模拟数据2评估:

根据真实PCR扩增情况模拟100套不同覆盖深度的PCR扩增数据。

SCA3患者数据评估:

经PacBIo Sequel对25名参与者(20名SCA3患者,5名健康对照者)ATXN3基因的扩增子进行测序。

SCA10患者数据评估:

基于SCA10的3个患者原始数据,评估RepeatHMM在更为复杂重复类型的检测性能。

NA12878不同平台数据评估:

基于NA12878的三个平台(PacBio SMRT ~50X,Oxford Nanopore ~30X,Illumina ~300X)及正常表型HX1(PacBio SMRT , ~100X)。

RepeatHMM评估结果

1.结果显示RepeatHMM和 BAMself工具在覆盖度从10至50时,正常等位基因的RMSE(评估预估重复次数和真实重复次数间差异)降低, RepeatHMM和 BAMself工具在覆盖度从10到200时,致病性等位基因的RMSE降低,但是RepeatHMM的提升更加明显,覆盖度超过200时,RepeatHMM的致病性等位基因RMSE降低至2.0以下。与BAMself相比,在大多数正常等位基因和致病性等位基因中,RepeatHMM能得到更准确的重复次数(Figure 2a和c)。

2.基于PCR扩增的模拟数据与1的结果高度一致,但,对于致病性等位基因的RMSE如要和1在一个水平,则需要更高覆盖度的数据(Figure 2b和d)。

3.基于Sequel的SCA3原始数据,RepeatHMM的预测结果非常好,与毛细管电泳检测的重复次数基本0或1,而且与BAMself和TRhist相比,特别是在病原等位基因上,预测性更好。另外, RepeatCCS(基于CCS序列的RepeatHMM)虽预测性比BAMself 和TRhist要好,但其预测错误率比RepeatHMM高很多(Figure 3)。

4.SCA10数据评估,发现BAMself 和TRhist不能准确检出3个患者的ATXN3致病等位基因的重复单元数量,而RepeatHMM评估的重复大小更接近于凝胶电泳的预测结果(Table 1)。

  1. NA12878不同平台数据评估显示,以Illumina数据为标准,两个长读长平台预测与Illumina预测高度一致,表明具不同数据错误类型的测序平台数据可在RepeatHMM上进行分析(Figure 5)

基于上述全方位的评估,从模拟数据到真实TRDs患者数据,从简单重复类型的SCA3患者数据到更为复杂重复类型的SCA10患者数据,再从不同测序平台进行评估,都显示出RepeatHMM的分析优势。

相对常规方法,RepeatHMM中HMM 对重复序列区域检测相当灵活,适用于不同重复单元类型,不同重复单元长度;其次,可将不同测序平台数据经不同参数整合到HMM中;再次,RepeatHMM运算非常高效,如在对1名患者的ATXN3的原始数据(~21,000X)分析时,通常需要2-12min。

希望组&未来组发布的分析新工具RepeatHMM,具使用灵活、高效等特征,结合长读长测序数据,将能对微卫星序列重复单元数量进行快速便捷的鉴定,可以广泛应用于微卫星重复性疾病的研究中。

作为三代测序精准医疗公司,希望组未来会将这款工具的应用延伸到临床诊断中,不断突破现有测序技术所面临的瓶颈和挑战,切实提高遗传病诊断准确度和检出率,降低出生缺陷和罕见病的发生率。

参考文献

Liu Q, Zhang P, Wang D, et al. Interrogating the “unsequenceable” genomic trinucleotide repeat disorders by long-read sequencing[J]. Genome Medicine,2017, 9:65.

从Science野生二粒小麦基因组到小麦基因组大家族

普通小麦基因组高达17Gb,为异源六倍体AABBDD类型,且含有80%的重复序列,使得小麦基因组解密历程艰辛。研究学者面对困难,勇敢直前,一步一步地绘出不同小麦基因组图谱。近期,研究者再次添砖加瓦,于Science发表野生二粒小麦基因组研究成果。

解析野生二粒小麦基因组AABB

现代的六倍体小麦AABBDD Triticum aestivum是经异源四倍体野生二粒小麦Triticum turgidum(WEW)驯化为有脱粒特性的现代二粒小麦(DEW)后,与二倍体DD Aegilops tauschii杂交形成。野生二粒小麦基因组的解析将可以从另外一个角度了解小麦的进化。

基因组组装

WEW基因组在测序策略上,构建了不同大小插入片段文库,经176x 深度的Illumina测序组装,组装10.1G基因组,Contig N50 57.37k,经遗传图谱和Hi-C进一步验证组装,最后得到Scaffold N50=6.96M,将基因组锚定到染色体上,然而,其中不确定的Scaffolds有0.4Gb,Scaffolds间gaps有~1.5Gb,经BUSCO评估,基因组组装完整度在98.4%。

注释及进化分析

WEW的2个亚基因组的同源性分析,发现其中72.3%同源基因对,同源基因对的表达模式和表达水平相似。另外少量同源基因对只在一个亚基因组中表达,功能富集分析表明,亚基因组调控的基因表达可能与小麦品种相关。

在WEW基因组注释中,预测了82.2%转座子序列,大多数转座子元件为长末端重复反转录转座子LTR-RTs,不同类型的转座子在2套亚基因组中含量相似。而大部分全长LTR-RTs在150W年前发生扩张。Ty3和未分类的转座子在A与B亚基因组中类似,而Ty1/copia发生在500W年前,这与A和B亚基因组杂交的预计时间相一致。

为了进一步研究不落粒的驯化性状,对Zavitan和Svevo杂交,发现了调控脆性BR表型的基因区域,其中包括WEW染色体3A和3B上的2个位点(15.5Mb,32.5 Mb),确定了小麦基因(chromosome-3A: TtBtr1-A和 TtBtr2-A;chromosome-3B: TtBtr1-B 和TtBtr2-B)。在栽培种中TtBtr1等位基因在编码区发生突变,而在栽培种和野生种中,TtBtr2未发生编码区突变,推断2个基因中的突变是互补的,获得R栽培表型。

通过外显子测序,驯化和野生二粒小麦显著分离成2个亚群,野生二粒小麦分布以色列、叙利亚、黎巴嫩和土耳其地区,栽培二粒小麦分布印度洋、地中海、东欧和高加索地区,与野生小麦相比,栽培小麦的多样性下降。

小麦基因组解密历程艰辛

面包小麦即普通小麦(Triticum aestivum)是世界上种植面积广泛的农作物,是全球重要的粮食作物。普通小麦基因组不仅规模大(高达17Gb),而且基因组复杂,为异源六倍体AABBDD类型,含有3套亚基因组,亚基因组间相似性高,无法定位基因来自哪套染色体,且含有80%的重复序列,这些都使得小麦基因组解密历程艰辛。

异源六倍体小麦基因组的常规测序策略是通过构建BAC文库,结合鸟枪法测序;在材料选择上,会选择从小麦的二倍体供体开始基因组测序,为下一步深入解析六倍体小麦基因组及驯化、重要农艺性状等研究做参考。

下面组学君盘点了已发表小麦基因组的几个典型。

2012年11月,Nature,Triticum aestivum,AABBDD

利物浦大学、加州大学戴维斯分校等 9所研究机构合作对小麦基因组进行了测序。研究中经454测序平台对普通小麦栽培品种Chinese Spring基因组进行测序组装,并与其二倍体祖先基因组比较,确定了9万多个基因。分析发现普通小麦在多倍化和驯化过程中,基因组中有大量基因家族丢失和基因片段冗余。其中发生扩张的基因家族大部分参与能量采集、代谢和生长等过程,与作物产量相关。进一步,研究确定了小麦基因与特定性状之间的关联,这些都为加速栽培小麦育种提供遗传资源。

2013年3月,Nature,Triticum urartu,AA

中科院遗传与发育生物学研究所领衔完成了小麦A基因组的测序工作。小麦A基因组的祖先物种二倍体野生一粒小麦,即乌拉尔图小麦,经91X的 Illumina HiSeq 2000测序,组装得到Contig N50=3.42 kb,Scaffold N50=63.69 kb,基因组序列注释结果表明,66.88%的基因组为重复元件,同时发现一些重要农艺性状基因和分子标记。

2013年3月,Nature,Aegilops tauschii,DD

中国农业科学院作物科学研究所牵头完成对小麦D基因组测序,经90X不同插入片段的短读长测序,组装的Scaffolds覆盖了83.4%基因组信息,其中65.9%为转座子,经RNA-seq对确定了43,150编码蛋白基因,其中71.1%经遗传图谱锚定到染色体上。基因组组装注释分析,揭示了与抗病性、生物胁迫和籽粒品质相关的基因家族发生扩张。

2014年7月,Science,Triticum aestivum,AABBDD

中国农业科学院作物科学研究所牵头完成对小麦D基因组测序,经90X不同插入片段的短读长测序,组装的Scaffolds覆盖了83.4%基因组信息,其中65.9%为转座子,经RNA-seq对确定了43,150编码蛋白基因,其中71.1%经遗传图谱锚定到染色体上。基因组组装注释分析,揭示了与抗病性、生物胁迫和籽粒品质相关的基因家族发生扩张。

未来展望

依据测序技术不断发展,基因组的解析有了更多选择。在2017年PAG会议中,中国农业科学院作物科学研究所报道了最新的节节麦DD基因组进展,通过结合DeNovoMagicTM2 Nrgene,Illumina X10,PacBio和10xGenomics数据,组装结果不断提升。并通过Cytogenetic技术, CEGMA, BUSCO分析,与BAC序列比对评估组装结果,均表明组装结果有很大提升。

目前PacBioSMRT长读长测序技术是复杂基因组测序组装的利器,组学君认为这一优势将能在异源六倍体小麦基因组及二倍体四倍体小麦基因组的深入解密中发挥优势,填补基因组中gaps,挖掘更多小麦基因组家族中的“暗物质”。等待各位研究学者的持续解密!未来组愿助力各位在小麦及其他作物研究中的工作。

参考文献

1.Avni R, Nave M, Barad O, et al. Wild emmer genome architecture and diversity elucidate wheat evolution and domestication[J]. Science, 2017, 357(6346): 93-97.

2.Brenchley R, Spannagl M, Pfeifer M, et al.Analysis of the bread wheat genome using whole-genome shotgun sequencing[J].Nature, 2012, 491(7426): 705-710.

3.Ling H Q, Zhao S, Liu D, et al. Draft genome ofthe wheat A-genome progenitor Triticumurartu[J]. Nature, 2013, 496(7443): 87-90.

4.Jia J, Zhao S, Kong X, et al. Aegilops tauschii draft genome sequence reveals a gene repertoire for wheat adaptation[J]. Nature, 2013, 496(7443):91-95.

5.International Wheat Genome Sequencing Consortium. A chromosome-based draft sequence of the hexaploid bread wheat (Triticum aestivum) genome[J]. Science,2014, 345(6194): 1251788.

6.Marcussen T, Sandve S R, Heier L, et al. Ancient hybridizations among the ancestral genomes of bread wheat[J]. Science, 2014,345(6194): 1250092.

7.Pfeifer M, Kugler K G, Sandve S R, et al. Genome interplay in the grain transcriptome of hexaploid bread wheat[J]. Science,2014, 345(6194): 1250091.

8.Choulet F, Alberti A, Theil S, et al. Structural and functional partitioning of bread wheat chromosome 3B[J]. Science, 2014,345(6194): 1249721.

Nature丨向日葵基因组发表

近日~3.5Gb的向日葵基因组组装结果在线发表于Nature主刊,借助于高质量的基因组序列信息,结合重测序和转录组测序数据,研究者解析了向日葵的花期和产油量性状,重构菊类植物进化史,详情见下文分享。

向日葵在进化或植物发育的研究中都是非常重要的模式生物,然而由于其基因组相当复杂,含有大量高度相似的重复序列,导致其基因组组装充满挑战。此次项目中,研究者借助PacBio SMRT测序技术迎难而上,对向日葵自交系XRQ进行PacBio测序,综合407个Cells的测序数据,组装得到13,957个Contigs,结合高密度遗传图谱信息,将Contigs定位到染色体上,锚定了97%的序列信息。分析发现,其中有超过3/4的基因组序列是长末端重复反转录转座子LTR-RTs。

在获得向日葵高质量基因组序列信息后,研究者进一步分析向日葵特殊的进化地位及重要的农艺性状。

比较基因组研究

为评估菊类植物的演化史,研究者选择了菊类植物中的代表物种生菜、朝鲜蓟、咖啡和外群物种葡萄与向日葵基因组来进行比较分析。

分析发现向日葵,生菜,朝鲜蓟都经历了一次全基因组三倍化事件WGT,时间大概在38-50Ma,而向日葵的进化历史更加复杂,在29Ma前发生了特异性的全基因组复制WGD-2,加上17次染色体的裂变和126次染色体的融合,最终才形成向日葵现在的17条染色体组型(Fig.1)。

Fig.1菊类植物从AEKs的进化途径

向日葵农艺性状研究

在对向日葵两个重要育种性状,花期和油脂代谢的研究中,研究者通过整合旁系同源序列信息、转录组基因表达及重测序中的遗传变异信息确定了相关候选基因。

通过参考拟南芥基因网络,在向日葵基因组中确定了与花期相关的270个同源基因(Fig.2a)。接下来,研究者对来源于72个亲本材料的480个F1代杂交种进行了全基因组关联分析(GWAS), 共定位了与花期相关的35个基因组区域。同时发现现代向日葵品种的花期调控基因在最近的全基因组复制过程中也发生了加倍,导致同一个花期基因在基因组中出现了两次(Fig.2b)。

Fig.2向日葵花期性状整合分析

a.向日葵花期调控基因网络关系

b.向日葵栽培品种的花期基因在染色体上的分布

在向日葵油脂性状研究中,研究者重构了向日葵油脂合成的代谢通路,确定了其中12个通路中429个候选基因(Fig.3a),同时,明确了32个基因区域的46个油脂代谢相关基因,与之前确定的QTLs相一致(Fig.3b)。其中,有9个油脂代谢相关基因在高油和低油品系中分化明显,分别在驯化后的育种过程中受到了人为选择。值得一提的是,其中PAP2基因家族的一个成员基因,前人研究发现该基因参与脂肪酸前体的合成,并能调控微藻的油脂含量,在本研究中发现该基因在种子里大量表达,且与种子的油脂含量密切相关。该基因可作为向日葵含量性状改良的重要候选基因(Fig.3f)。

Fig.3 向日葵油脂代谢整合分析
a.全基因组代谢网络 b.油脂代谢通路共表达通路 c.与QTLs共定位基因网络
d.甘油二酯和三酰甘油合成通路中基因 e.亚油酸脂合成通路中基因
f.参与脂肪酸前体合成的PAP2家族中候选基因的聚类树

向日葵高质量参考基因组的获得及相关遗传资源材料的丰富加强了以向日葵为模式的进化生态研究,同时,也加速了其育种进程,为基因组学研究提供了参考思路。

未来组作为三代测序基因组中心,已于2016年搭建了 Sequel、BioNano及Hi-C等技术平台。借助平台的搭建,未来组将会为更多合作伙伴提供专业优质的服务。

参考文献

BadouinH, Gouzy J, Grassa C J, et al. The sunflower genome provides insights into oil metabolism,flowering and Asterid evolution [J]. Nature. 2017.

Nature Communications丨基于三代测序的水稻近完成图

Nature Communication在线发表–基于三代测序的水稻近完成图

5月4日,中国科学院遗传所与发育生物学研究所与四川农业大学研究团队合作于Nature Communications 在线发表了迄今最高质量的水稻参考基因组(蜀恢R498)。未来组作为三代测序技术的领导者,在R498水稻基因组项目中,为研究团队提供PacBio SMRT测序。研究人员基于PacBio SMRT测序技术,结合遗传图谱、fosmid文库测序和BioNano光学图谱对R498基因组测序组装,最终组装出的基因组大小为390.3Mb,Super-Contig数目仅为17个,组装质量明显优于之前组装的日本晴(Nippponbare)和模式植物拟南芥基因组,成为目前所有高等植物中组装质量最高的基因组。

基因组组装质量高

1.基因组完整度和连续性好
经PacBio SMRT测序技术,结合遗传图谱、fosmid文库测序和BioNano光学图谱,R498基因组(2n=2x=24)组装出17条Super-Contig,基因组中有7条染色体被完整组装出,另外5条染色体各由2个Super-Contig组成,存在的gap区域主要是着丝粒或串联重复结构。
经检测评估,R498每条染色体末端都组装完整,仅存在5个gap;而Nip仅有4条染色体两端组装出端粒,且存在239个gap。两者相比较,R498的组装结果比Nip更完整和连续。(Tab.1)

Tab.1 R498和Nip组装连续性和完整度比较

2.组装出了完整的细胞器基因组
除核基因组之外,研究者还组装出了R498完整的线粒体序列。通过和Nip的线粒体基因组进行比较(Fig.1),发现Nip线粒体基因组中存在不少错误,可能是因为含有复杂的重复序列区域,其中有3个重复序列长度超过20kb。

3.组装质量评估
对R498基因组进行组装质量评估,发现其基因组覆盖率超过99%。结合二代短读长数据和RNA-Seq数据进行评估,结果显示其基因组单碱基错误率<0.0017%,大大低于对于人类及其它高质量的参考基因组(如Nip)来说所要求的标准:1/10000。

Fig.1 蜀恢(R498,橙色)和日本晴(NIP.,绿色)线粒体基因组比较

1.R498与Nip基因组间比较分析
通过基因组比较分析可以看出(Fig.2),两个基因组间在染色体水平上有很高的相似性,80.31%的R498基因组能比对到82.73% Nip基因组,但是在基因序列上存在2,548,071个SNP差异。并且研究人员还基于R498基因组的完整性,发现在R498与Nip基因组间存在大量结构变异,例如在6号染色体上存在一个大片段的倒位区域(Fig.2)。另外还对着丝粒、端粒、PVs、rDNA这些区域进行了对比。

Fig.2 R498与Nip.全基因组比较

2.19个水稻品系间的比较基因组学分析
对比R498与Nip的基因组,发现在其基因编码区存在大量的变异(Fig.3a)。同时,在与其他17个栽培水稻基因组比较后,发现水稻基因组中广泛存在不同的PAVs(Presence-absence variations)(Fig.3b)。PAV等结构变异往往与农艺性状表型密切相关,如果基于二代短Reads与参考基因组进行比对,这部分信息往往被遗漏。

Fig.3 a:R498和Nip间同源基因数量 b:水稻基因组PAVs比较

植物基因组因高杂合高重复序列而组装困难,借助PacBio长读长优势,结合BioNano光学图谱和Hi-C技术辅助组装,能够克服这些难题,覆盖端粒、着丝粒、重复序列等区域,大大提升组装指标,为解决后续重要功能基因挖掘和进化研究提供高质量的参考基因组。

未来组作为三代测序基因组中心,已于2016年搭建了 Sequel、BioNano及Hi-C等技术平台。借助平台的搭建,未来组将会为更多合作伙伴提供专业优质的服务。

参考文献

Du HL, Yu Y, Ma YF, et al. Sequencing and de novo assembly of a near complete indica rice genome[J]. Nature Communications, 2017.

组学君喊你来看榜—2015年三代测序基因组文章

随着后基因组时代的到来,研究者的目光转向了功能基因组、比较基因组、进化基因组等领域的研究。此时Draft genome中组装顺序、重复区gap、染色体结构变异区的组装错误等成为了后基因组研究的瓶颈,这个时候迫切需求对draft genome升级及高质量参考基因组的获得。通过过去几年PacBio技术的发展,已能得到微生物基因组完成图(真菌基因组近完成图),解决微生物领域大量问题,更参与了大型基因组的升级和de novo组装,为动植物基因组领域研究添砖加瓦。组学君盘点了2015年PacBio技术在大型基因组升级和de novo组装中的“杰出贡献”,此处应该有掌声!

01  PacBio SMRT 测序解决人类基因组复杂序列难题

2015-1-29 Nature

研究策略:PacBio RS Ⅱ P5C3(41×)

作为目前最完整的哺乳动物基因组参考序列,人类基因组经过十几年的不断完善,仍然存在160多个gap。人类基因组中的结构变异等复杂信息仍知之甚少。在这篇文章中,研究人员利用PacBio测序,成功填补了GRCh37上55%的gap,其中包括78%的短串联重复序列,存在于高GC基因组区域;确定了26,079个常染色质结构变异,包括染色体倒置、复杂插入片段及大量长串联重复,大部分变异之前未曾报道过。这篇文章的发表,令人类基因组的完整性得到了重要提升。

02  果蝇Y染色体新基因的发现

拨开假基因、转座子和高度重复序列的云雾

2015-8-21 PNAS

研究材料:黑腹果蝇 Drosophila melanogaster

研究策略:基于黑腹果蝇基因组 NCBI accession JSAE00000000.1 数据进行MHAP, PBcR, FALCON, Illumina reads 验证组装结果

与哺乳动物性染色体同源模式不同,果蝇的XY染色体并不同源,大多数Y连锁基因是常染色体旁系同源基因,因此,果蝇Y连锁基因主要来源于常染色体的转移。研究人员利用已有的PacBio测序数据研究了黑腹果蝇Y染色体中一段复杂区域,发现之前未确定的基因FDY,这个基因所在的区域有55 kb,含有假基因、转座子和高度重复序列。FDY来源于常染色体基因vig2的近期复制,能为早期阶段果蝇Y连锁基因的建立提供信息,同时论证了果蝇Y染色体如何积累常染色体基因。研究人员在文章中说:“PacBio技术解决了腹黑果蝇复杂区域的难题,得到几乎无错的FDY区域组装,这是我们曾经耗费大量工作也未能解决的难题”。

03  扁虫为何可以再生

一个重复度极高的复杂基因组

2015-8-23 PNAS

研究材料:扁虫 Macrostomum lignano

研究策略:基因组1. PacBio RS Ⅱ P4C2(130×)  2.Hiseq 2000 (170×);

转录组 Hiseq 2000

扁虫有着令人惊叹的再生能力,受伤之后可以产生大量的躯干干细胞群——即副胚层——再生出几乎完整的新机体。这一独特性质吸引了大量学者来研究扁虫进化机制,如组织自我更新、细胞特异性、细胞再生等。由于之前已经发布的基因组参考序列有许多gap和注释不完整,功能研究受到极大限制。但是扁虫基因组极为复杂,约75%的基因由简单重复序列和转座子序列组成,利用NGS短读长得到的组装结果很不理想(contig N50 = 222 bp)。因此研究人员利用130×PacBio 长读长数据获得了更好的组装结果(contig N50 = 64 kb)。在此基础上,结合转录组分析和功能实验等,研究人员对干细胞功能相关的细胞信号通路进入了深入研究。

04  耐旱草

复杂基因组元件蕴藏着什么样的宝贵信息?

2015.11.11 Nature

研究材料:耐旱草 Oropetium thomaeum

研究策略:纯三代组装 (72X)

一个精细组装的大基因组参考序列,是挖掘复杂基因组元件功能的基本前提。Donald Danforth植物科学中心的研究人员及其合作者运用三代PacBio RSⅡ测序平台,以72倍的覆盖度分析了Oropetium 245 Mb的基因组,组装得到近乎完整的基因组参考序列(Contig N50=2.4Mb),并且准确性超过99.999%,检测到很多之前二代测序无法组装的区域,包含端粒和着丝粒序列、长末端重复反转录转座子、串联重复基因以及其他难以接近的基因组元件,发现了大量与耐旱相关的基因组元件,对其耐旱分子机制有了更深入的理解。

05  赤小豆基因组

多种基因组组装策略之横向比较

2015.11.30 Nature Scientific Reports

研究材料:赤小豆 Vigna angularis

研究策略:Assembly_1,Roche454和Illumina数据混合de novo组装;Assembly_2 ,Illumina-only de novo组装;Assembly_3 ,PacBio de novo组装;通过小豆 V. angularis cv. ‘Erimoshouzu’ (JP37752) 与V. nepalensis (JP107881) 的F2构建高密度遗传连锁图,辅助优化组装结果。

赤小豆是东亚第二重要的豆类作物品种,目前赤小豆主要的培育方向是种子质量、耐寒能力及抗病性能。文章中比较了赤小豆基因组组装中的三种策略——基本代表了目前主要的de novo组装方法。从组装结果来看,纯三代组装方法能够明显提升组装结果。

你知道吗?一张图可以看懂DNA测序平台的发展哦!

近几十年来基因组学高速发展,我们目睹了新的技术不断问世。从第一代Sanger测序到基于PCR扩增的二代NGS,再到单分子测序;也见证了新的仪器接踵而至,从ABI的第一台Sanger测序仪,到后来Roche的454,Illumina,Solid,以及Nanopore,PacBio SMRT单分子测序仪。回顾2015,笑看NGS发展风云史,是一家独大的笑傲江湖,还是长江后浪推前浪的前赴后继?展望2016,是旧时代的延伸,还是新技术的披荆斩棘?组学君携新一代测序仪与你一起回顾NGS技术发展。

HLA分型 & MinION (三代测序那些事儿 第十一期)

MinION Acess Program(MAP)2014-

这期接着聊MinION,还不知道MinION为何物的小伙伴可以阅读小编的上一期文章或者访问Oxford Nanopore官网:www.nanoporetech.com

Oxford Nanopore 2014年面向全球推出了其三代测序系统MinION的试用计划(MinIon Access Program),申请者只需支付1000美元便可得到MinION及其配套的建库试剂盒、在线分析软件等,Nanopore可根据反馈数据进一步完善其MinION系统。

这种全球性的知识众筹行为让Nanopore在短短一年里获得了大量的专业经验, 目前MAP计划已经产生了20多篇研究成果,涵盖了数据处理[1]、致病菌/病毒鉴定[2-3]、基因组组装[4-6]、Isoform 测序[7]、HLA分型[8]等众多组学研究热点,这对Nanopore来说算得上钵盆满盈。

PS:目前试用计划只支持DNA片段测序文库。

上期三代那些事儿里小编为大家分享的是MAP计划中分别来自法国(Institut de Génomique)、英国(伯明翰大学)、美国(冷泉港)的研究团队的几个微生物基因组MinION数据组装成果,展示出该超长读取的新型测序技术已经初步具备了快速绘制微生物基因组完成图的能力。

MinION在HLA分型中的首次尝试[8]

这期分享的是来自加拿大多伦多大学的一篇研究(MAP计划成果),研究中Ron等人尝试使用MinION数据实现对HLA-A、HLA-B的高分辨率分型,即等位基因(Alle)级别的四位数分辨率(4-digit resolution)。

HLA中文名为白细胞表面抗原,对抗原呈递和免疫信号传递起关键作用,是人体中最复杂的遗传多态系统,同时等位基因具有共显性表达的特点,截止2015年4月,IMGT/HLA数据库中收录了36个HLA基因座位,Alle数目高达13,023个。

HLA的高分辨率(等位基因级别)分型对于器官移植、精确用药(比如用于治疗HIV/AIDS的嘌呤醇、阿巴卡韦等)至关重要。

基于NGS的PCR-SBT法是目前主流的HLA分型方法,但由于其读长较短往往难以得到Alle级别的高分辨率分型结果,借助双亲数据以及HapMAP单体型(注意区分单倍体型)数据Phasing得到的高分辨率结果通常存在较大的误差。

研究中使用MinION装置对个体NA12878(CEPH/Utah Pedigree 1463)的HLA-A、HLA-B扩增子进行了测序,使用了R7.3新型试剂,经所测数据比对回人类参考基因组GRch37上,每个基因座位得到了~1000 X MinION 2D Reads,准确率在70-90%,长度大多为4-5kb(见图1),代表了大多数reads包含了完整的HLA基因(HLA-A、HLA-B基因5kb左右)。

                   图1 Reads(Blasr mapping to GRch37)长度分布

使用HLA GATK HLA Caller 预测了基于上述MinION数据的HLA-A、HLA-B基因型,得到高分辨率的等位基因型预测结果:

HLA-A Alle 1 *01:32 、HLA-A Alle 2*03:12;
HLA-B1 Alle 1*07:56、HLA-B Alle 2* 55:10。

然而,使用NGS、飞行质谱等数据,借助HapMAP 单体型数据校正,却得到了与上述相差较大的等位基因分型结果:

HLA-A Alle 1 *01:01 、HLA-A Alle 2*11:01;
HLA-B1 Alle 1*08:01、HLA-B Alle 2* 56:01。

从四位数分辨率的分型结果来看,较高原始错误率的MinION数据似乎并不能马上胜任HLA的临床分型。

但小编相信随着原始错误率的降低以及分型算法的改进,MinION会成为一款应用于HLA临床分型的便携式装置。

另一种也是目前唯一商业化的三代测序技术的PacBio SMRT已经在HLA分型中做了较为成功的尝试,英国安东尼诺兰研究所使用该技术对7个个体中的HLA-A、HLA-B、HLA-C基因进行了分型,共得到38个等位基因型,大多数达到了六位数级别的超高分辨率,其中30个与IMGT/HLA数据库中收录的基因型完全相符,见表格2[9]

Paper:
[1] Poretools: a toolkit for analyzing nanopore sequence data .
[2] MinION nanopore sequencing identifies the position and structure of a bacterial antibiotic resistance island.
[3] Bacterial and viral identification and differentiation by amplicon sequencing on the MinIONT nanopore sequencer
[4] A complete bacterial genome assembled de novo using only nanopore sequencing data.
[5] Genome assembly using Nanopore-guided long and error-free DNA reads.
[6] Oxford Nanopore Sequencing and de novo Assembly of a Eukaryotic Genome
[7] Determining Exon Connectivity in Complex mRNAs by Nanopore Sequencing
[8] Long read nanopore sequencing for detection of HLA and CYP2D6 variants and haplotypes
[9] HLA Typing for the next Generation.

逆境中求生存的MinION君(三代测序那些事儿 第十期)

原创文章  作者 贺少方

三代测序那些事儿开贴以来一直是在讲三代测序君PacBio的发家史,其实三代测序这个行当里还有另外一位仁兄Oxford Nanopore,一直被大家忽略却也是蛮拼的一个家伙。小编今天就换个口味,给大家聊聊Nanopore MinION君是怎么逆境中求生存的。

Oxford Nanopore 2014年推出其掌上测序仪MinION试用计划,同样具有单分子测序与超长读取能力,摒弃了边合成边测序的设计思想,采用单条核酸链中不同碱基通过蛋白纳米孔是产生的电流变化来标定碱基顺序,这一独具匠心的设计造就了其U盘大小的体积、多种大分子(蛋白质、RNA、DNA)通吃、单分子超长读取等诸多特殊能力[1]

之后其30%的原始错误率饱受诟病,这其中就包括其首批试用用户伯明翰大学的Nick Loman,他首次试用后发现λ噬菌体的MinION数据因为较高的原始错误率仅有25%可以mapping回参考基因组,表示不好用。

但是短短一年时间里,MinION似乎找到了突破这一窘境的办法,测了埃博拉、分了HLA、装了基因组(酿酒酵母、不动杆菌、大肠杆菌),显示了自己在测序领域中的三代地位[2-5]

小编分析了上述提到的那几个MinION基因组的案例,发现MinION君确实是从PacBio君身上学到了不少东西,虽然两位在测序原理上是天差地别,但所产数据类型很相似的,读取很长(平均读长数Kb级别),原始错误率略高,而学到的主要的东西还是对原始reads的比对、校正思路、算法等,这些帮助了MinION慢慢脱贫致富,以下搜集的两组案例说明了这个问题。

E.coli K12 的纯MinION数据组装

最近(2015年2月)放在冷泉港预印本网站bioRxiv上的一篇单独使用MinION数据组装大肠杆菌E.coli K12基因组到完成图级别的文章便是一个很好的例子,比较巧的是这篇文章的作者便是文章第三段提到的那个嫌弃MinION不准的那个伯明翰大学的Nick Loman教授。

Nick Loman使用了21X的MinION 2D  reads(4 MinION Runs,平均读长~8kb)对E.coli K12的基因组装。DNA链的先导链和滞后链均被测到所产生的reads称为2D (two-Direction)reads,约占总数据的25%。 相较于普通的reads具有更高的准确率,结合新型试剂测序R7.3以及新型的base caller可以使2D reads准确率达到78%-85%,略低于PacBio的85%。

E.coli K12的组装过程也采取了类似于PacBIO组装过程中的先校正后组装的思路。校正过程中采用的DALIGNER比对算法、pbdagcon一致性算法均是之前针对PacBio数据所开发的,最后使用OLC算法的Celera Assembler对校正后的数据(准确度97.7%)进行了组装。

组装得到1条4.6M的contig,基本达到了完成图级别,与E.coli K12参考基因组相比,单碱基准确率为98.4%,有两处组装错误。

这一组装结果已经确实已经显示出了MinION在细菌完成图组装中的优秀性能,准确率方面的问题相信通过后期试剂、算法的更新会有较大的改善。

基于MinION数据的混合组装(不动杆菌 & 酿酒酵母)

除过大肠杆菌E.coli K12的纯MinION三代数据组装,MinION君之前也通过二三代数据混合组装的方式在不动杆菌A. baylyi 与 酿酒酵母S.cerevisiae中进行过尝试。

不动杆菌A. baylyi的二三代混合组装过程使用了23X的MinION数据与50X的illumina数据,利用针对MinION的新型组装算法NaS最终组装得到3条Contig,最后利用MinION数据使用SSPACE做Scaffolding,最终得到1条Scaffold。

酿酒酵母的二三代数据组装过程使用了121X的MinION数据,若干Miseq数据, 采用针对PacBio的PBcR思路进行组装,不过数据校正过程中使用到的比对算法为针对MinION开发的新型比对算法Nanocorr,一致性算法为HGAP中的pbdagcon,最后组装得到的ContigN50 为479kb,单碱基准确率99%以上。

最后,对于 MinION君的前途,不管你看不看好,反正我很看好。

Paper:

[1] Bayley H et al. Nanopore sequencing : from imagination to reality. Clin Chem.  2015

[2] Nicholas J. L et al. A complete bacterial genome assemble de novo using only nanopore sequencing data. bioRxiv . 2015

[3] Madoui MA et al. Genome assembly using Nanopore-guided long and error-free DNA reads. BMC Genomics. 2015 .

[4] Oxford Nanopore Sequencing and de novo Assembly of a Eukaryotic Genome. bioRxiv. 2015

[5] Ron Ammar et al. Long read nanopore sequencing for detection of HLA and CYP2D6 variants and haplotypes. F1000Res . 2015

声明:本文原创,转载请注明来源 。