生物信息常用软件使用说明记录

记录用过的一些生信软件吧

FastX格式处理系列

  • 截取数据量软件seqtk sample
$ seqtk sample
Usage:   seqtk sample [-2] [-s seed=11]  |
Options: -s INT       RNG seed [11]
         -2           2-pass mode: twice as slow but with much reduced memory

举例:
seqtk sample -s100 test.fq.gz 5242880 | pigz -p 4 > test.clean.fq.gz

  • seqtk trimfq
    也是非常快速的一款处理fasta/q文件的工具,可以截取数据量,
$ seqtk trimfq
Usage:   seqtk trimfq [options] 
Options: -q FLOAT    error rate threshold (disabled by -b/-e) [0.05]
         -l INT      maximally trim down to INT bp (disabled by -b/-e) [30]
         -b INT      trim INT bp from left (non-zero to disable -q/-l) [0]
         -e INT      trim INT bp from right (non-zero to disable -q/-l) [0]
         -L INT      retain at most INT bp from the 5'-end (non-zero to disable -q/-l) [0]
         -Q          force FASTQ output

例如:read长度为400bp,需要截取前150bp,可以设置-e是从后端开始截取250bp,剩下的就是前150bp。
seqtk trimfq -e 250 RP01G9E1L1_R1.fq.gz >trimed_RP01G9E1L1_R1.fq
例如: read长度为400bp,需要丢掉前30bp,保留后面370bp,则可以设置-b参数
seqtk trimfq -b 30 G19E1L1_1.fq.gz > >test.fq

  • 将fastq转换为fasta
    seqkit fq2fa ../02.align/RP01G9E1L3_R1.fq.gz >RP01G9E1L3_R1.fa

  • annovar使用说明
    https://www.jianshu.com/p/9b5719304311

  • call variant 软件:GATK4 使用说明
    做WGS,或小型变异检测
    WES somatic variation pipeline正在制作中。

  • 华大主流过滤测序数据软件:SOAPnuke使用说明
    soapnuke 报错Segmentation fault,一般是fastq内容有问,检测fastq文件,可尝试用gzip -f -d -c ./a_1.fastq.gz > a_1.fastq 看看是否能够解压。如果报错 invalid compressed data--format violated

  • fastqc 原始数据质量值网页显示报告
    用法:fastqc *.fq.gz

  • 数据中的adapter处理:cutadapt
    https://www.jianshu.com/p/412e55040358

比对软件系列:

  • 任何项目都离不开的比对软件:bwa使用说明:
    https://www.jianshu.com/p/67b203cc0779

  • 比对软件之一 :STAR
    https://www.jianshu.com/p/294eadc1fc5a

  • bowtie/bowtie2
    https://www.jianshu.com/p/67b203cc0779

  • tophat

  • 几乎每天都在用的samtools 使用说明:
    https://www.jianshu.com/p/67b203cc0779

  • bam进行统计的软件:bamdst使用说明:
    不怎么好用

  • bedtools
    见笔记 bedtools 使用教程。

  • blast
    见笔记blast用法汇总https://www.jianshu.com/p/13e0a0fdb419

  • igblast
    见笔记 https://www.jianshu.com/p/1a12a332ca47

reference 相关

  • gffread 教程

单细胞测序系列

  • indrop

  • zUMIS软件的使用,

  • 10x数据 cellranger的使用
    cellranger https://www.jianshu.com/p/21816b67f2df

  • T细胞B细胞重构CDR3的软件: mixcr

        mixcr非常简单易用,它的主要功能是能重构出CDR序列。
        用法主要有三个步骤:
        1,align
        2,assemble
        3,export
    

自己写的一些工具:

  • 将fasta模拟成fastq数据格式
    https://www.jianshu.com/p/4181ac1b0c4e

  • 按比例合并两个fastq
    https://www.jianshu.com/p/a50092052552

  • 比较两个文件中某两列是否有交集
    https://github.com/levinyi/scripts/blob/master/compare.py
    https://www.jianshu.com/p/e097c9e0789b

  • fastq中提取百分比数据:
    https://www.jianshu.com/p/ea4ae03a9eb2

  • 提取fastq或fasta格式的数据:
    https://www.jianshu.com/p/22051fc6e0a3

  • 将fastq中的序列进行反向互补,并将quality反向,仍然输出fastq格式。
    complement_reverse_Fastq_2_Fastq.py

  • R 画venn图,两个,三个,四个,五个都能画。
    https://www.jianshu.com/p/05f4bae28443

  • 两组数据计算相关性
    https://www.jianshu.com/p/66c0448f44f3

持续更新中。。。
上一次更新:2019-08-01

你可能感兴趣的:(生物信息常用软件使用说明记录)