small RNA seq
bwa
bowtie 比对
$ bowtie -h
bowtie -n 2 -l 20 -e 50 -f --al 24h2reads_aligned -m 50 /home/data/ssy303/VSV_Genome/bowtie/VSVdb LV24h1_unalign.fa -S LV24h1_unalignVSV.sam
Usage:
bowtie [options]* {-1 -2 | --12 | } []
Comma-separated list of files containing upstream mates (or the
sequences themselves, if -c is set) paired with mates in
Comma-separated list of files containing downstream mates (or the
sequences themselves if -c is set) paired with mates in
Comma-separated list of files containing Crossbow-style reads. Can be
a mixture of paired and unpaired. Specify "-" for stdin.
Comma-separated list of files containing unpaired reads, or the
sequences themselves, if -c is set. Specify "-" for stdin.
File to write hits to (default: stdout)
Input:
-q query input files are FASTQ .fq/.fastq (default)
-f query input files are (multi-)FASTA .fa/.mfa
-r query input files are raw one-sequence-per-line
-c query sequences given on cmd line (as , )
-C reads and index are in colorspace
-Q/--quals QV file(s) corresponding to CSFASTA inputs; use with -f -C
--Q1/--Q2 same as -Q, but for mate files 1 and 2 respectively
-s/--skip skip the first reads/pairs in the input
-u/--qupto stop after first reads/pairs (excl. skipped reads)
-5/--trim5 trim bases from 5' (left) end of reads
-3/--trim3 trim bases from 3' (right) end of reads
--phred33-quals input quals are Phred+33 (default)
--phred64-quals input quals are Phred+64 (same as --solexa1.3-quals)
--solexa-quals input quals are from GA Pipeline ver. < 1.3
--solexa1.3-quals input quals are from GA Pipeline ver. >= 1.3
--integer-quals qualities are given as space-separated integers (not ASCII)
Alignment:
-v report end-to-end hits w/ <=v mismatches; ignore qualities
or
-n/--seedmms max mismatches in seed (can be 0-3, default: -n 2)
-e/--maqerr max sum of mismatch quals across alignment for -n (def: 70)
-l/--seedlen seed length for -n (default: 28)
--nomaqround disable Maq-like quality rounding for -n (nearest 10 <= 30)
-I/--minins minimum insert size for paired-end alignment (default: 0)
-X/--maxins maximum insert size for paired-end alignment (default: 250)
--fr/--rf/--ff -1, -2 mates align fw/rev, rev/fw, fw/fw (default: --fr)
--nofw/--norc do not align to forward/reverse-complement reference strand
--maxbts max # backtracks for -n 2/3 (default: 125, 800 for --best)
--pairtries max # attempts to find mate for anchor hit (default: 100)
-y/--tryhard try hard to find valid alignments, at the expense of speed
--chunkmbs max megabytes of RAM for best-first search frames (def: 64)
Reporting:
-k report up to good alignments per read (default: 1)
-a/--all report all alignments per read (much slower than low -k)
-m suppress all alignments if > exist (def: no limit)
-M like -m, but reports 1 random hit (MAPQ=0); requires --best
--best hits guaranteed best stratum; ties broken by quality
--strata hits in sub-optimal strata aren't reported (requires --best)
Output:
-t/--time print wall-clock time taken by search phases
-B/--offbase leftmost ref offset = in bowtie output (default: 0)
--quiet print nothing but the alignments
--refout write alignments to files refXXXXX.map, 1 map per reference
--refidx refer to ref. seqs by 0-based index rather than name
--al write aligned reads/pairs to file(s)
--un write unaligned reads/pairs to file(s)
--max write reads/pairs over -m limit to file(s)
--suppress suppresses given columns (comma-delim'ed) in default output
--fullref write entire ref name (default: only up to 1st space)
Colorspace:
--snpphred Phred penalty for SNP when decoding colorspace (def: 30)
or
--snpfrac approx. fraction of SNP bases (e.g. 0.001); sets --snpphred
--col-cseq print aligned colorspace seqs as colors, not decoded bases
--col-cqual print original colorspace quals, not decoded quals
--col-keepends keep nucleotides at extreme ends of decoded alignment
SAM:
-S/--sam write hits in SAM format
--mapq default mapping quality (MAPQ) to print for SAM alignments
--sam-nohead supppress header lines (starting with @) for SAM output
--sam-nosq supppress @SQ header lines for SAM output
--sam-RG add (usually "lab=value") to @RG line of SAM header
Performance:
-o/--offrate override offrate of index; must be >= index's offrate
-p/--threads number of alignment threads to launch (default: 1)
--mm use memory-mapped I/O for index; many 'bowtie's can share
--shmem use shared mem for index; many 'bowtie's can share
Other:
--seed seed for random number generator
--verbose verbose output (for debugging)
--version print version information and quit
-h/--help print this usage message
/home/data/ssy303/VSV_Genome/bowtie
1,bowtie 1出現的早,所以對於測序長度在50bp以下的序列效果不錯,而bowtie2主要針對的是長度在50bp以上的測序的。2,Bowtie 2支持有空位的比對 3,Bowtie 2支持局部比對,也可以全局比對 4,Bowtie 2對最長序列沒有要求,但是Bowtie 1最長不能超過1000bp。
-n模式與-v模式。
默認的,bowtie採用了和Maq一樣的質量控制策略,設置-n 2 -l 28 -e 70。總的來說,比對模式分為兩種,一種是-n 模式, 一種是-v 模式,而且這兩種模式是不能同時使用的。bowtie默認使用-n模式。
-n模式參數:-n N -l L -e E
其中N,L,E都為整數。-n N代表在高保真區內錯配不能超過N個,可以是0〜3,一般的設置為2。-l L代表序列高保真區的長度,最短不能少於5,對於短序列長度為32的,設置為28就很不錯。-e E代表在錯配位點Phred quality值不能超過E,默認值為40
sam 文件解读
注释信息部分和比对结果部分;注释信息部分以@开头
比对结果部分,每行对应一个片段。每列是一个字段
第一列:是reads ID
第二列:是flag标记的总和
第三列:比对到参考序列上的染色体号。
第四列:为在参考序列上的位置
第五列:比对的质量值,MAPQ
第六列:代表比对结果的CIGAR字符串
第七列:mate比对到的染色体号,若是没有mate,则是*
第八列:比对到参考序列上的第一个碱基位置
第九列:Template的长度,
第十列:为read的序列
第十一列:为ASCII码格式的序列质量;
————————————————
版权声明:本文为CSDN博主「九零先生」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_36356958/article/details/112491222
read 序列数据名 flag 参考基因组染色体的名字 比对的染色体具体位置 MAPQ(比对质量,60表示unique mapped read) 比对信息 100M 表示100bp 完全匹配,“M”表示 match或 mismatch;“I”表示 insert;“D”表示 deletion;“N”表示 skipped(跳过这段区域);“S”表示 soft clipping(被剪切的序列存在于序列中);“H”表示 hard clipping(被剪切的序列不存在于序列中);“P”表示 padding;“=”表示 match; ———————————————— 版权声明:本文为CSDN博主「super_qun」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/weixin_44452187/article/details/87854926
flag 信息解读
FLAG:0正链,16负链,4没比对上:
flag数 (2的多次幂数的二进制表达) 代表意思
1 (1) 该read是成对的paired reads中的一个
2 (10) paired reads中每个都正确比对到参考序列上
4 (100) 该read没比对到参考序列上
8 (1000) 与该read成对的matepair read没有比对到参考序列上
16 (10000) 该read其反向互补序列能够比对到参考序列
32 (100000) 与该read成对的matepair read其反向互补序列能够比对到参考序列
64 (1000000) 在paired reads中,该read是与参考序列比对的第一条
128 (10000000) 在paired reads中,该read是与参考序列比对的第二条
256 (100000000) 该read是次优的比对结果
512 (1000000000) 该read没有通过质量控制
1024 (10000000000) 由于PCR或测序错误产生的重复reads
2048 (100000000000) 补充匹配的readflag 信息解读网站
https://broadinstitute.github.io/picard/explain-flags.html
————————————————
版权声明:本文为CSDN博主「super_qun」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_44452187/article/details/87854926
samtools 常用命令
view
view命令的主要功能是:将输入文件转换成输出文件,通常是将比对后的sam文件转换为bam文件,然后对bam文件进行各种操作,比如数据的排序(和提取(这些操作是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作)。
bam文件优点:
(1)bam文件为二进制文件,占用的磁盘空间比sam文本文件小;
(2)利用bam二进制文件的运算速度快。
samtools view [options] | [region1 [...]] #view命令中,对sam文件头部的输入(-t或-T)和输出(-h)是单独的一些参数来控制的。
默认情况下不加 region,则是输出所有的 region.
samtools 统计信息
50143213 + 0 in total (QC-passed reads + QC-failed reads) <注释:共有50143213条reads,其中未通过QC检测的有0条>
3993537 + 0 secondary
0 + 0 supplementary
0 + 0 duplicates <有0个重复?>
49692452 + 0 mapped (99.10% : N/A) <有49692452个reads匹配成功>
46149676 + 0 paired in sequencing <有46149676个是paired-reads>
23074838 + 0 read1
23074838 + 0 read2
45042964 + 0 properly paired (97.60% : N/A) <完美匹配的reads数和比例,比对至同一参考序列,并且两条reads距离符合阈值>
45604212 + 0 with itself and mate mapped <两条都匹配到了参考序列上>
94703 + 0 singletons (0.21% : N/A) <只有一条匹配上了>
230232 + 0 with mate mapped to a different chr <分别匹配到两条不同参考序列的reads数>
206762 + 0 with mate mapped to a different chr (mapQ>=5) <分别匹配到两条不同参考序列的reads数,并且mapQ大于等于5>
samtools sort
samtools sort 可根据左起点对序列排序,并输出为*.bam文件
质控
conda install -c bioconda fastx_toolkit
fastqc -t 2 -o ../2.fastq_qc /zju/phf5a/mirna/1.raw/.fastq.gz
multiqc ./zip -o ./2.fastq_qc
trim+clean
cat> fastx.sh
ls .gz|while read id
do
echo id|fastq_quality_filter -v -q 20 -p 80 -Q 33 -i - -o tmp ;
fastx_trimmer -v -f 1 -l 27 -m 15 -i tmp -Q33 -z -o {id%%.}_clean.fq.gz
done
VCF 文件格式
VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。
1.CHROM [chromosome]: 染色体名称,
2.POS [position]: 参考基因组突变碱基位置,如果是INDEL,位置是INDEL的第一个碱基位置。
3.ID [identifier]: 突变的名称,
4.REF [reference base(s)]:参考染色体的碱基
5.ALT [alternate base(s)]: 与参考序列比较,发生突变的碱基,
6.QUAL [quality]: Phred标准下的质量值
7.FILTER [filter status]:使用其它的方法进行过滤后得到的过滤结果
http://8.INFO ———————————————— 版权声明:本文为CSDN博主「九零先生」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/weixin_36356958/article/details/112491222———————————————— 版权声明:本文为CSDN博主「九零先生」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/weixin_36356958/article/details/112491222