如何看懂三代测序数据

www.992021.net

www.lm383961.com

www.hn9669.com

www.xml856.com

www.xml969.com

www.gg8563.com

www.hj5206.com

www.cs6666.cn

www.ly66688.com

www.999888tl.com

小编作为生信人，还沉浸在illumina的paired-end中，突然发现，我国已成为迄今以及将来的全球最大三代测序平台拥有国，深感焦虑啊。如果不了解些三代测序的知识，将来如何在生信圈立足呢？本着好东西要和好朋友分享的态度，小编整理了最近get到的一些三代测序知识点，首先是QC篇。
在analysis文件夹中，下机的数据被分割为三个文件进行存储，其中以bax.h5为后缀的是原始二进制文件；以subreads.fasta/subreads.fastq 为后缀的是经一级处理得到的标准格式的碱基文件；以sts.csv/sts.xml为后缀的是记录测序过程中每个ZMW度量指标的统计文件。
在这里，小编还仔细查看了下机数据的命名，发现其中也有着固定的规律，且看小编细细道来：
要做好数据的质控，不仅要知其然，还有知其所以然。首先小编展示的是三代数据的文库模型：
三代测序的文库模型是两端加接头的哑铃型结构，测序时会环绕着文库进行持续的进行，由此得到的测序片段称为polymerase reads,即一条含接头的测序序列，其直观的反映了三代测序的长度。目前，采用最新的P6-C4酶，最长的读长可达到60kb以上。
在这里，大家可能会有疑问，环绕测序岂不是产生了很多冗余的信息？其实，这里的polymerase reads是需要进行一定的处理才能获得用于后续分析的。这个过程首先是去除低质量序列和接头序列：
Polymerase reads 经处理后得到的序列称为subreads ，根据不同插入片段长度的文库， subreads 的类型也有所不同。
在用于基因组denovo时，通常会构建10kb/20kb的文库，对长插入片段文库的测序基本是少于2 passes的(pass即环绕测序的次数)，得到的reads也称为Continuous Long Reads (CLR)，这样的reads测序错误率等同于原始的测序错误率。
而对于全长转录组或全长16s测序，构建的文库插入片段较短，测序会产生多个passes，这时会对多个reads进行一致性校正，得到一个唯一的read,也称为Circular Consensus Sequencing (CCS) Reads，这样的reads测序准确率会有显著的提升。
不同于二代测序的碱基质量标准Q20/Q30，三代测序由于其随机分布的碱基错误率，其单碱基的准确性不能直接用于衡量数据质量。那么，怎么判断三代测序的数据好不好呢？
最直接的方法是看长度。长度短的测序数据不一定差（与文库大小有关），但差的数据长度一定短。在上游测序，最关键的影响因素是文库的构建。高质量的文库产出的数据长度长，质量好；而低质量的文库产出的数据长度短，质量差。
其次，看比例。需要关注的是两个比例，一个是subreads与polymerase reads数据量的比例，比例过低反映测序过程中的低质量的序列较多；一个是zmw孔载入的比例，根据孔中载入的DNA片段数分为P0、P1和P2。P1比例过低反映数据产量低，P2比例过高反映上样浓度异常。
对于测序，小编认为不管一代二代三代，还是要落实到能够解决实际问题。测序数据类型和格式会变，而数据分析背后的原理不会变。当然，纸上得来终觉浅，绝知此事要躬行，小编也欢迎大家分享关于三代测序数据处理方面的经验。
PS: 本文相关介绍均以Pacbio RSII测序平台的数据为准，与Sequel测序平台略有出入，如有举报，概不接受 ~_~