百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程文章 > 正文

如何看懂三代测序数据 第三代测序方法

qiyuwang 2024-10-10 11:25 22 浏览 0 评论

东风吹,战鼓擂,二代三代谁怕谁

小编作为生信人,还沉浸在illumina的paired-end中,突然发现,我国已成为迄今以及将来的全球最大三代测序平台拥有国,深感焦虑啊。如果不了解些三代测序的知识,将来如何在生信圈立足呢?本着好东西要和好朋友分享的态度,小编整理了最近get到的一些三代测序知识点,首先是QC篇。

1

下机数据

小编选择了一个cell的下机数据为例进行介绍,不多说,先上图:

在analysis文件夹中,下机的数据被分割为三个文件进行存储,其中以bax.h5为后缀的是原始二进制文件;以subreads.fasta/subreads.fastq 为后缀的是经一级处理得到的标准格式的碱基文件;以sts.csv/sts.xml为后缀的是记录测序过程中每个ZMW度量指标的统计文件。

在这里,小编还仔细查看了下机数据的命名,发现其中也有着固定的规律,且看小编细细道来:

这里解释一下:

1. m是movie的缩写;

2. 测序时间,格式为yymmdd_hhmmss;

3. 仪器编号;

4. SMRT Cell Barcode;

5和6无实际意义,一般是固定的。

2

数据结构

要做好数据的质控,不仅要知其然,还有知其所以然。首先小编展示的是三代数据的文库模型:

三代测序的文库模型是两端加接头的哑铃型结构,测序时会环绕着文库进行持续的进行,由此得到的测序片段称为polymerase reads,即一条含接头的测序序列,其直观的反映了三代测序的长度。目前,采用最新的P6-C4酶,最长的读长可达到60kb以上。

在这里,大家可能会有疑问,环绕测序岂不是产生了很多冗余的信息?其实,这里的polymerase reads是需要进行一定的处理才能获得用于后续分析的。这个过程首先是去除低质量序列和接头序列:

Polymerase reads 经处理后得到的序列称为subreads ,根据不同插入片段长度的文库, subreads 的类型也有所不同。

在用于基因组denovo时,通常会构建10kb/20kb的文库,对长插入片段文库的测序基本是少于2 passes的(pass即环绕测序的次数),得到的reads也称为Continuous Long Reads (CLR),这样的reads测序错误率等同于原始的测序错误率。

而对于全长转录组或全长16s测序,构建的文库插入片段较短,测序会产生多个passes,这时会对多个reads进行一致性校正,得到一个唯一的read,也称为Circular Consensus Sequencing (CCS) Reads,这样的reads测序准确率会有显著的提升。

3

数据质控

不同于二代测序的碱基质量标准Q20/Q30,三代测序由于其随机分布的碱基错误率,其单碱基的准确性不能直接用于衡量数据质量。那么,怎么判断三代测序的数据好不好呢?

最直接的方法是看长度。长度短的测序数据不一定差(与文库大小有关),但差的数据长度一定短。在上游测序,最关键的影响因素是文库的构建。高质量的文库产出的数据长度长,质量好;而低质量的文库产出的数据长度短,质量差。

其次,看比例。需要关注的是两个比例,一个是subreads与polymerase reads数据量的比例,比例过低反映测序过程中的低质量的序列较多;一个是zmw孔载入的比例,根据孔中载入的DNA片段数分为P0、P1和P2。P1比例过低反映数据产量低,P2比例过高反映上样浓度异常。

----- 结语 -----

对于测序,小编认为不管一代二代三代,还是要落实到能够解决实际问题。测序数据类型和格式会变,而数据分析背后的原理不会变。当然,纸上得来终觉浅,绝知此事要躬行,小编也欢迎大家分享关于三代测序数据处理方面的经验。

PS: 本文相关介绍均以Pacbio RSII测序平台的数据为准,与Sequel测序平台略有出入,如有举报,概不接受 ~_~

相关推荐

# 安装打开 ubuntu-22.04.3-LTS 报错 解决方案

#安装打开ubuntu-22.04.3-LTS报错解决方案WslRegisterDistributionfailedwitherror:0x800701bcError:0x80070...

利用阿里云镜像在ubuntu上安装Docker

简介:...

如何将Ubuntu Kylin(优麒麟)19.10系统升级到20.04版本

UbuntuKylin系统使用一段时间后,有新的版本发布,如何将现有的UbuntuKylin系统升级到最新版本?可以通过下面的方法进行升级。1.先查看相关的UbuntuKylin系统版本情况。使...

Ubuntu 16.10内部代号确认为Yakkety Yak

在正式宣布Ubuntu16.04LTS(XenialXerus)的当天,Canonical创始人MarkShuttleworth还非常开心的在个人微博上宣布Ubuntu下个版本16.10的内...

如何在win11的wsl上装ubuntu(怎么在windows上安装ubuntu)

在Windows11的WSL(WindowsSubsystemforLinux)上安装Ubuntu非常简单。以下是详细的步骤:---...

Win11学院:如何在Windows 11上使用WSL安装Ubuntu

IT之家2月18日消息,科技媒体pureinfotech昨日(2月17日)发布博文,介绍了3中简便的方法,让你轻松在Windows11系统中,使用WindowsSubs...

如何查看Linux的IP地址(如何查看Linux的ip地址)

本头条号每天坚持更新原创干货技术文章,欢迎关注本头条号"Linux学习教程",公众号名称“Linux入门学习教程"。...

怎么看电脑系统?(怎么看电脑系统配置)

要查看电脑的操作系统信息,可以按照以下步骤操作,根据不同的操作系统选择对应的方法:一、Windows系统通过系统属性查看右键点击桌面上的“此电脑”(或“我的电脑”)图标,选择“属性”。在打开的...

如何查询 Linux 内核版本?这些命令一定要会!

Linux内核是操作系统的核心,负责管理硬件资源、调度进程、处理系统调用等关键任务。不同的内核版本可能支持不同的硬件特性、提供新的功能,或者修复了已知的安全漏洞。以下是查询内核版本的几个常见场景:...

深度剖析:Linux下查看系统版本与CPU架构

在Linux系统管理、维护以及软件部署的过程中,精准掌握系统版本和CPU架构是极为关键的基础操作。这些信息不仅有助于我们深入了解系统特性、判断软件兼容性,还能为后续的软件安装、性能优化提供重要依据。接...

504 错误代码解析与应对策略(504错误咋解决)

在互联网的使用过程中,用户偶尔会遭遇各种错误提示,其中504错误代码是较为常见的一种。504错误并非意味着网站被屏蔽,它实际上是指服务器在规定时间内未能从上游服务器获取响应,专业术语称为“Ga...

猎聘APP和官网崩了?回应:正对部分职位整改,临时域名可登录

10月12日,有网友反映猎聘网无法打开,猎聘APP无法登录。截至10月14日,仍有网友不断向猎聘官方微博下反映该情况,而猎聘官方微博未发布相关情况说明,只是在微博内对反映该情况的用户进行回复,“抱歉,...

域名解析的原理是什么?域名解析的流程是怎样的?

域名解析是网站正常运行的关键因素,因此网站管理者了解域名解析的原理和流程对于做好域名管理、解决常见解析问题,保障网站的正常运转十分必要。那么域名解析的原理是什么?域名解析的流程是怎样的?接下来,中科三...

Linux无法解析域名的解决办法(linux 不能解析域名)

如果由于误操作,删除了系统原有的dhcp相关设置就无法正常解析域名。  此时,需要手动修改配置文件:  /etc/resolv.conf  将域名解析服务器手动添加到配置文件中  该文件是DNS域名解...

域名劫持是什么?(域名劫持是什么)

域名劫持是互联网攻击的一种方式,通过攻击域名解析服务器(DNS),或伪造域名解析服务器(DNS)的方法,把目标网站域名解析到错误的地址从而实现用户无法访问目标网站的目的。说的直白些,域名劫持,就是把互...

取消回复欢迎 发表评论: