EN

优乐复生与Sentieon联合开发UMI甲基化分析加速流程

文章来源:优乐复生 时间:2021-05-12

近日,Sentieon与中国著名生物医学检测技术开发者优乐复生积极合作,双方团队联合开发并验证了基于UMI的甲基化测序数据的加速分析流程。

微信图片_20220716154701.png

癌症早期筛查近几年蓬勃发展,甲基化测序这项技术也迎来了从科研向临床转化的重要时刻。作为表观遗传调控机制之一,DNA甲基化参与了一系列生物发育过程,在基因表达调控中具有重要的作用。在肿瘤生成的过程中,DNA甲基化发生剧烈改变。肿瘤全基因组DNA甲基化修饰既保留了其起源细胞的甲基化特征,又具有肿瘤特异的甲基化特征。就目前广泛的液态活检来说,体液中游离DNA的含量很低,而来自肿瘤的游离DNA(ctDNA)则更少。如果只进行DNA突变测序的话,由于全基因组范围内的肿瘤特异DNA碱基突变数量非常稀疏,能够提供的信息点较少,极大的限制了早筛检测的灵敏度。相比之下,肿瘤特异的DNA甲基化位点为数众多,甲基化测序可以提供多位点的组合信息,不但有利于克服测序过程中产生的错误,还大大提高了早筛检测的灵敏度。另外,ctDNA中的甲基化除了能反映出不同于正常细胞的癌症特征之外,还带有肿瘤起源器官位置的信息。这样在ctDNA中进行甲基化检测就可以追溯病变器官,为进一步检查指明方向。因此,甲基化测序成为了癌症早期筛查中最有希望的一个技术路线。

数据分析流程

甲基化测序数据大体上包含了预处理,比对,比对后处理,甲基化位点检测等多个步骤。目前广泛使用的流程包括了Bismark,BiMapperBS,GemBS,以及BWA-Meth等这几类,但是这些流程普遍都有运行效率和准确度偏低的问题。

优乐复生长期聚焦于人类疾病基因组学和表观遗传学生物标志物研究, 与Sentieon有多年深度合作,对Sentieon软件包中的分析模块也非常熟悉,在本次合作中,双方梳理了目前主流的甲基化测序数据分析的流程,拆解为不同的步骤,共同探索Sentieon加速模块的适用性,并且对速度和准确度进行了验证。双方团队发现Sentieon的比对以及UMI去重等模块都可以应用在业界经典的BWA-Meth/MethylDackel流程中,既可大幅提升速度,又表现出优异的灵敏度和准确度。

微信图片_20220716154716.jpg

EpiQC项目

接下来我们将结合2020年发表的EpiQC项目的数据进行性能展示。EpiQC的全称是FDA’s Epigenomics Quality Control,旨在搭建一个中立全面的标准化甲基化测序分析指南。本项目以文章发表的形式比较了甲基化测序中不同建库处理,以及不同分析流程对于结果准确度的影响,为研究人员选择合适的实验设计提供了参考。项目文章的最新版本于2021年4月发表在BioRxiv上。https://www.biorxiv.org/content/10.1101/2020.12.14.421529v2

微信图片_20220716154718.png

本项目重点评测了5种较为主流的试剂盒用以产生数据,分别是EMSeq,MethylSeq,SPLAT,TrueMethyl,TruSeq。这些试剂盒生成的文库在Insert Size,Duplication,Dinucleotide Distribution,Base Quality等指标方面都有较大的差异,适合考察分析流程对于不同数据类型的适应程度。

在数据分析阶段,项目选择了四个甲基化分析软件Bismark,BitMapperBS,BSseeker2,以及BWA-Meth分别运行比对步骤,随后Bismark和BSseeker2使用流程内置的甲基化检测模块,BitMapperBS以及BWA-Meth则由MethylDackel进行CpG检测。最终从运行速度,比对准确度,以及CpG覆盖深度这3个角度进行性能评价。在本文的数据中,我们使用Sentieon BWA-Meth替代了原版BWA-Meth。这部分数据并不包括UMI,UMI的数据处理过程会在本文的后半部分展示。

比对速度展示

我们在6个文库的测序数据中各随机选取1 million reads,使用默认参数在24线程中运行比对流程,统计运行速度,重复10次取平均值。从下图中可以看出,相比于原版BWA-Meth,在不改动管线其它部分的情况下,单单替换原版bwa为Sentieon bwa的Sentieon BWA-Meth即可提速2.5倍,与BitMappersBS一起并列所有软件第一,速度超过了包括Bismark在内的其他软件2倍以上。比对步骤作为全流程时长占比超过3/4的限速步骤,Sentieon对于全流程的提速还是很明显的。

微信图片_20220716154722.png

比对准确度展示

比对是CpG检测的上游步骤,对于最终的准确度有着重要影响,选择一个高准确度的比对流程的意义不言而喻。下图中,准确度将通过4个指标展示,分别是唯一比对率(Primary Mapped),多重比对率(Multi-Mapped),重复率(Duplicated)以及未比对率(Unmapped)。我们可以看到,Sentieon BWA-Meth展现出了最高的唯一比对率以及最低的未比对率,比对准确度方面超过其他所有流程。

微信图片_20220716154727.png

比对完成之后进行CpG甲基化水平检测,统计不同软件在5种试剂盒14个文库中CpG位点的平均覆盖深度。我们知道深度越深代表这里可供分析的reads数越多,越有可能得出更加准确的结果。从下图中可以看到基本上在所有文库中Sentieon BWA-Meth流程的平均覆盖度都是最高的。

微信图片_20220716154730.png

综合看来,作为甲基化数据分析的Sentieon BWA-Meth流程,无论是在速度,比对准确率,还是CpG覆盖深度都是各参比流程中最优的。

UMI处理性能

Sentieon UMI相关模块还可以应用在包含UMI的甲基化数据的去重等步骤中,进一步提升流程的定量准确性。为了验证实际的准确度,我们参考了2020年发表于”Nucleic Acides Research”的一篇UMI甲基化测序文章(doi: 10.1093/nar/gkaa567),在文中数据中选取了共计18个连续区域,250个甲基化位点。每个位点的甲基化水平通过Bismark流程(不处理UMI)计算得出,分别计算每个文库每个区域的均值以及标准差之后,将位点按照期望甲基化水平分类为0,0.5,1这三类作为测试真集。

UMI测试选择了包括Sentieon和Bismark在内的多个UMI处理流程,其中Bismark流程的全部步骤均使用Bismark本身的模块。Sentieon以及其他流程的比对模块统一使用Sentieon BWA-Meth,甲基化检测模块统一使用MethylDackel,UMI提取以及去重模块采用各自流程的模块。另外加入一个省略UMI处理的Bismark流程(raw)作为性能基线。

微信图片_20220716154732.png

为了评测不同流程在对甲基化程度定量方面的准确性,我们将每个数据点的甲基化结果制成了箱式图展示。可以看出,在0与1这两类“完全非甲基化”以及“完全甲基化”的CpG位点上,Sentieon流程相比与其他流程的结果散布更窄,结果更加贴近真实情况期望值;在期望甲基化值为0.5的CpG位点上,Sentieon流程的均值同样最为贴近期望值,体现了较高的准确性。

微信图片_20220716154735.png

本部分评测数据较为遗憾的是没有ddPCR或者Microarray提供的真集参考,所以只能从间接的角度来评价流程准确度,除了上述的分3类甲基化位点的角度,另一个角度就是基于重复样本分析结果的一致性以反应分析软件的稳定性。样本中的Library5和Library6是一对技术重复,同一个样本分别进行两次重复的实验处理以及测序。我们利用这对重复的数据来检测分析流程的一致性,看分析软件是否稳定,能否减弱实验阶段引入的错误,而不是进一步放大差异。从下图的分析结果来看,Sentieon流程的可重复性相对较高,R2值达到0.95,与Bismark并列第一。

微信图片_20220716154737.png

微信图片_20220716154741.png

综合以上包含UMI的甲基化数据的测试结果,Sentieon流程的结果准确度以及稳定性都是最高的流程之一。除了Bismark以外,其他5个流程的比对和Methylation extraction步骤是相同模块,唯一会对结果产生影响的就是UMI去重这一步骤。这个结果集中体现出了Sentieon UMI Consensus模块的优异性能。

Sentieon UMI设计的核心理念是不丢弃任何原始序列包含的可用信息,经过统计模型的处理之后为每一个consensus序列的每个位点赋予一个准确的质量值,供下一步的变异/甲基化检测工具参考。举例来说,在一些例如同组UMI序列数量不足,序列正反链碱基不一致,原始序列质量值过低等情况下,以fgbio为代表的工具倾向于采用剪裁丢弃序列,或者直接标记N等简单粗暴的做法。相比之下,Sentieon通过严格的统计模型,准确预估了例如单链错误率,PCR错误率,测序错误率等参数,然后对每个consensus序列提供可靠的置信度评估。这样,后续的变异/甲基化检测可以获取到充分的统计信息,并相应的对检测到的可能变异做出正确的评估。

当今甲基化测序还处于技术迭代以及临床探索的关键时期,优乐复生与Sentieon团队将会继续努力,共同对Sentieon甲基化检测流程进行进一步开发,为业界提供一个更加快速、稳定、可靠、灵敏的一站式软件解决方案。



如需咨询优乐复生产品相关的问题, 您可以通过以下电话联系我们:


热线: 400-609-6968 (手机座机均可拨打)


我们会尽力解答您关于优乐复生产品的相关咨询, 但我们无法对患者目前的病情提出具体诊疗建议。 如果您出现不适, 请务必及时就医。