三代HiFi测序数据去除接头序列

首先查到了一个软件是 Cutadapt

https://cutadapt.readthedocs.io/en/stable/

看了一下帮助文档 这个软件去接头需要指定接头的序列,但是有一个问题是我们如何知道这个测序数据中的接头序列是啥?每种测序方法的接头序列都是固定的吗?

还有一个问题是 Hifi测序 那个CCS模式 我们拿到手的是subreads 还是一致序列

然后还找到了一个软件是 HiFiAdapterFilt

对应的论文是

HiFiAdapterFilt, a memory efficient read processing pipeline, prevents occurrence of adapter sequence in PacBio HiFi reads and their negative impacts on genome assembly

https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-022-08375-1

github 链接是 https://github.com/sheinasim/HiFiAdapterFilt

这个是一个shell脚本,依赖bamtools和blast两个软件

这两个软件conda都可以安装,但是我自己用到的服务器conda一直有问题,安装不能成功,只能手动安装这两个依赖软件了,blast有直接的可执行文件可以下载

bamtools需要自己通过命令安装

bamtools github链接 https://github.com/pezmaster31/bamtools

这个链接里有如何安装的过程 http://www.chenlianfu.com/?p=2309

image.png

自己用的服务器上cmake还没有,查了一下cmake可以手动安装

https://cmake.org/download/

在这个链接直接下载

image.png

然后运行 bash cmake-3.25.2-linux-x86_64.sh

安装好后把这两个软件添加到环境变量

HiFiAdapterFilt 下载下来,把DB这个文件夹也添加到环境变量

export PATH=/home/myan/biotools/HiFiAdapterFilt/DB/:$PATH

这个添加环境变量是临时的,下次再次链接服务器的时候就没有了,还需要重新添加

运行 HiFiAdapterFilt

bash ~/biotools/HiFiAdapterFilt/hifiadapterfilt.sh -p example.hifi -t 2 -o output

-p参数后接的是fastq文件的前缀

-t 是用到的线程数

-o 是输出文件夹

输出文件夹里

image.png

stats结尾那个有基本统计数据

image.png

它这个好像是只要在read中检测到接头序列就会把整个reads给过滤掉

欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

你可能感兴趣的:(三代HiFi测序数据去除接头序列)