small RNA seq

bwa

bowtie 比对

$ bowtie -h
 bowtie -n 2 -l 20 -e 50 -f --al 24h2reads_aligned -m 50 /home/data/ssy303/VSV_Genome/bowtie/VSVdb LV24h1_unalign.fa -S LV24h1_unalignVSV.sam
 Usage:
 bowtie [options]*  {-1  -2  | --12  | } [] 
  Comma-separated list of files containing upstream mates (or the
 sequences themselves, if -c is set) paired with mates in 
  Comma-separated list of files containing downstream mates (or the
 sequences themselves if -c is set) paired with mates in 
  Comma-separated list of files containing Crossbow-style reads. Can be
 a mixture of paired and unpaired. Specify "-" for stdin.
  Comma-separated list of files containing unpaired reads, or the
 sequences themselves, if -c is set. Specify "-" for stdin.
  File to write hits to (default: stdout)
 Input:
 -q query input files are FASTQ .fq/.fastq (default)
 -f query input files are (multi-)FASTA .fa/.mfa
 -r query input files are raw one-sequence-per-line
 -c query sequences given on cmd line (as , )
 -C reads and index are in colorspace
 -Q/--quals  QV file(s) corresponding to CSFASTA inputs; use with -f -C
 --Q1/--Q2  same as -Q, but for mate files 1 and 2 respectively
 -s/--skip  skip the first  reads/pairs in the input
 -u/--qupto  stop after first  reads/pairs (excl. skipped reads)
 -5/--trim5  trim  bases from 5' (left) end of reads
 -3/--trim3  trim  bases from 3' (right) end of reads
 --phred33-quals input quals are Phred+33 (default)
 --phred64-quals input quals are Phred+64 (same as --solexa1.3-quals)
 --solexa-quals input quals are from GA Pipeline ver. < 1.3
 --solexa1.3-quals input quals are from GA Pipeline ver. >= 1.3
 --integer-quals qualities are given as space-separated integers (not ASCII)
 Alignment:
 -v  report end-to-end hits w/ <=v mismatches; ignore qualities
 or
 -n/--seedmms  max mismatches in seed (can be 0-3, default: -n 2)
 -e/--maqerr  max sum of mismatch quals across alignment for -n (def: 70)
 -l/--seedlen  seed length for -n (default: 28)
 --nomaqround disable Maq-like quality rounding for -n (nearest 10 <= 30)
 -I/--minins  minimum insert size for paired-end alignment (default: 0)
 -X/--maxins  maximum insert size for paired-end alignment (default: 250)
 --fr/--rf/--ff -1, -2 mates align fw/rev, rev/fw, fw/fw (default: --fr)
 --nofw/--norc do not align to forward/reverse-complement reference strand
 --maxbts  max # backtracks for -n 2/3 (default: 125, 800 for --best)
 --pairtries  max # attempts to find mate for anchor hit (default: 100)
 -y/--tryhard try hard to find valid alignments, at the expense of speed
 --chunkmbs  max megabytes of RAM for best-first search frames (def: 64)
 Reporting:
 -k  report up to  good alignments per read (default: 1)
 -a/--all report all alignments per read (much slower than low -k)
 -m  suppress all alignments if >  exist (def: no limit)
 -M  like -m, but reports 1 random hit (MAPQ=0); requires --best
 --best hits guaranteed best stratum; ties broken by quality
 --strata hits in sub-optimal strata aren't reported (requires --best)
 Output:
 -t/--time print wall-clock time taken by search phases
 -B/--offbase  leftmost ref offset =  in bowtie output (default: 0)
 --quiet print nothing but the alignments
 --refout write alignments to files refXXXXX.map, 1 map per reference
 --refidx refer to ref. seqs by 0-based index rather than name
 --al  write aligned reads/pairs to file(s) 
 --un  write unaligned reads/pairs to file(s) 
 --max  write reads/pairs over -m limit to file(s) 
 --suppress  suppresses given columns (comma-delim'ed) in default output
 --fullref write entire ref name (default: only up to 1st space)
 Colorspace:
 --snpphred  Phred penalty for SNP when decoding colorspace (def: 30)
 or
 --snpfrac  approx. fraction of SNP bases (e.g. 0.001); sets --snpphred
 --col-cseq print aligned colorspace seqs as colors, not decoded bases
 --col-cqual print original colorspace quals, not decoded quals
 --col-keepends keep nucleotides at extreme ends of decoded alignment
 SAM:
 -S/--sam write hits in SAM format
 --mapq  default mapping quality (MAPQ) to print for SAM alignments
 --sam-nohead supppress header lines (starting with @) for SAM output
 --sam-nosq supppress @SQ header lines for SAM output
 --sam-RG  add  (usually "lab=value") to @RG line of SAM header
 Performance:
 -o/--offrate  override offrate of index; must be >= index's offrate
 -p/--threads  number of alignment threads to launch (default: 1)
 --mm use memory-mapped I/O for index; many 'bowtie's can share
 --shmem use shared mem for index; many 'bowtie's can share
 Other:
 --seed  seed for random number generator
 --verbose verbose output (for debugging)
 --version print version information and quit
 -h/--help print this usage message

/home/data/ssy303/VSV_Genome/bowtie

1，bowtie 1出現的早，所以對於測序長度在50bp以下的序列效果不錯，而bowtie2主要針對的是長度在50bp以上的測序的。2，Bowtie 2支持有空位的比對 3，Bowtie 2支持局部比對，也可以全局比對 4，Bowtie 2對最長序列沒有要求，但是Bowtie 1最長不能超過1000bp。

-n模式與-v模式。

默認的，bowtie採用了和Maq一樣的質量控制策略，設置-n 2 -l 28 -e 70。總的來說，比對模式分為兩種，一種是-n 模式，一種是-v 模式，而且這兩種模式是不能同時使用的。bowtie默認使用-n模式。

-n模式參數：-n N -l L -e E

其中Ｎ，Ｌ，Ｅ都為整數。-n N代表在高保真區內錯配不能超過Ｎ個，可以是0〜3，一般的設置為2。-l L代表序列高保真區的長度，最短不能少於5，對於短序列長度為32的，設置為28就很不錯。-e E代表在錯配位點Phred quality值不能超過E，默認值為40

sam 文件解读

注释信息部分和比对结果部分；注释信息部分以@开头

比对结果部分，每行对应一个片段。每列是一个字段

第一列：是reads ID
第二列：是flag标记的总和
第三列：比对到参考序列上的染色体号。
第四列：为在参考序列上的位置
第五列：比对的质量值，MAPQ
第六列：代表比对结果的CIGAR字符串
第七列：mate比对到的染色体号，若是没有mate，则是*
第八列：比对到参考序列上的第一个碱基位置
第九列：Template的长度，
第十列：为read的序列
第十一列：为ASCII码格式的序列质量；
————————————————
版权声明：本文为CSDN博主「九零先生」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_36356958/article/details/112491222

read 序列数据名 flag 参考基因组染色体的名字比对的染色体具体位置 MAPQ(比对质量，60表示unique mapped read) 比对信息 100M 表示100bp 完全匹配，“M”表示 match或 mismatch；“I”表示 insert；“D”表示 deletion；“N”表示 skipped（跳过这段区域）；“S”表示 soft clipping（被剪切的序列存在于序列中）；“H”表示 hard clipping（被剪切的序列不存在于序列中）；“P”表示 padding；“=”表示 match； ———————————————— 版权声明：本文为CSDN博主「super_qun」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/weixin_44452187/article/details/87854926

flag 信息解读

FLAG：0正链，16负链，4没比对上：
flag数（2的多次幂数的二进制表达）代表意思
1 （1）该read是成对的paired reads中的一个
2 （10） paired reads中每个都正确比对到参考序列上
4 （100）该read没比对到参考序列上
8 （1000）与该read成对的matepair read没有比对到参考序列上
16 （10000）该read其反向互补序列能够比对到参考序列
32 （100000）与该read成对的matepair read其反向互补序列能够比对到参考序列
64 （1000000）在paired reads中，该read是与参考序列比对的第一条
128 （10000000）在paired reads中，该read是与参考序列比对的第二条
256 （100000000）该read是次优的比对结果
512 （1000000000）该read没有通过质量控制
1024 （10000000000）由于PCR或测序错误产生的重复reads
2048 （100000000000）补充匹配的read

flag 信息解读网站

https://broadinstitute.github.io/picard/explain-flags.html
————————————————
版权声明：本文为CSDN博主「super_qun」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_44452187/article/details/87854926

samtools 常用命令

view

view命令的主要功能是：将输入文件转换成输出文件，通常是将比对后的sam文件转换为bam文件，然后对bam文件进行各种操作，比如数据的排序(和提取(这些操作是对bam文件进行的，因而当输入为sam文件的时候，不能进行该操作)。

bam文件优点：

（1）bam文件为二进制文件，占用的磁盘空间比sam文本文件小；
（2）利用bam二进制文件的运算速度快。
samtools view [options] | [region1 [...]] #view命令中，对sam文件头部的输入(-t或-T）和输出(-h)是单独的一些参数来控制的。
默认情况下不加 region，则是输出所有的 region.

samtools 统计信息

50143213 + 0 in total (QC-passed reads + QC-failed reads) <注释：共有50143213条reads，其中未通过QC检测的有0条>
3993537 + 0 secondary
0 + 0 supplementary
0 + 0 duplicates <有0个重复？>
49692452 + 0 mapped (99.10% : N/A) <有49692452个reads匹配成功>
46149676 + 0 paired in sequencing <有46149676个是paired-reads>
23074838 + 0 read1
23074838 + 0 read2
45042964 + 0 properly paired (97.60% : N/A) <完美匹配的reads数和比例，比对至同一参考序列，并且两条reads距离符合阈值>
45604212 + 0 with itself and mate mapped <两条都匹配到了参考序列上>
94703 + 0 singletons (0.21% : N/A) <只有一条匹配上了>
230232 + 0 with mate mapped to a different chr <分别匹配到两条不同参考序列的reads数>
206762 + 0 with mate mapped to a different chr (mapQ>=5) <分别匹配到两条不同参考序列的reads数，并且mapQ大于等于5>

samtools sort

samtools sort 可根据左起点对序列排序，并输出为*.bam文件

质控

conda install -c bioconda fastx_toolkit
fastqc -t 2 -o ../2.fastq_qc /zju/phf5a/mirna/1.raw/.fastq.gz
multiqc ./zip -o ./2.fastq_qc

trim+clean

cat> fastx.sh
ls .gz|while read id
do
echo id|fastq_quality_filter -v -q 20 -p 80 -Q 33 -i - -o tmp ;
fastx_trimmer -v -f 1 -l 27 -m 15 -i tmp -Q33 -z -o {id%%.}_clean.fq.gz
done

VCF 文件格式

VCF是Variant Call Format的简称，是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP，插入/缺失INDEL, 拷贝数变异CNV，和结构变异SV等，都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。

1.CHROM [chromosome]：染色体名称，
2.POS [position]：参考基因组突变碱基位置，如果是INDEL，位置是INDEL的第一个碱基位置。
3.ID [identifier]：突变的名称，
4.REF [reference base(s)]：参考染色体的碱基
5.ALT [alternate base(s)]：与参考序列比较，发生突变的碱基，
6.QUAL [quality]： Phred标准下的质量值
7.FILTER [filter status]：使用其它的方法进行过滤后得到的过滤结果

http://8.INFO ———————————————— 版权声明：本文为CSDN博主「九零先生」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/weixin_36356958/article/details/112491222———————————————— 版权声明：本文为CSDN博主「九零先生」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/weixin_36356958/article/details/112491222

2022-05-06

small RNA seq

bwa

bowtie 比对

sam 文件解读

flag 信息解读网站

samtools 常用命令

view命令的主要功能是：将输入文件转换成输出文件，通常是将比对后的sam文件转换为bam文件，然后对bam文件进行各种操作，比如数据的排序(和提取(这些操作是对bam文件进行的，因而当输入为sam文件的时候，不能进行该操作)。

bam文件优点：

samtools 统计信息

samtools sort

质控

trim+clean

VCF 文件格式

你可能感兴趣的:(2022-05-06)