weixin_43664814

生信技能-高通量测序工具bam、samtools、bedtools及conda的下载和安装

一、BWA

1、介绍

简介：用于建立 index；基于 BWT 算法，将 reads 比对到参考基因组；最新版本 bwa-mem2，Intel实验室对计算效率进行了优化。

详情：baw是一款将序列比对到参考基因组上的软件，用于高通量测序数据处理，包含了BWA-backtrack、BWA-SW、BWA-MEM三种算法：
1、BWA-backtrack：适合比对长度不超过100bp的序列；
2、BWA-SW和BWA-MEM适合于长度为70-1M bp的序列；其中BWA-MEM是最新开发的算法，对于高质量的测序数据，其比对的速度更快，精确度更高，对于70-100bp的reads, BWA-MEM算法在比对长度为70-100bp的序列时，效果比BWA-backtrack 算法的效果更好；
总而言之，通常情况下，选择BWA-MEM算法就好。
更多介绍请参考：https://bio-bwa.sourceforge.net/bwa.shtml

2、下载

bam下载地址

3、安装

打开终端，找到压缩文件所在位置；

# 安装
tar -jxvf bwa-*.tar.bz2

# 编译
cd bwa-0.7.17 # 要先进入对应的目录中
make bwa

# 添加环境变量
vim ~/.bash_profile   # 编辑环境变量文件 
export PATH=/Users/jolie/Desktop/工作/99-安装包/生信/bwa-0.7.17:$PATH  # 编辑环境变量文件内容，文件所在路径要更新为你自己的地址哦！

# 使环境变量生效
source ~/.bashrc

# 验证是否安装成功
cd bwa-0.7.17 #如果添加了环境变量，在任意位置都可以执行，如果没有添加环境变量，则只能在对应目录下执行
bwa

二、Samtools

1、介绍

samtools是一个用于操作sam和bam文件的工具合集，包含有许多命令，同样用于用于高通量测序数据处理。
更多介绍请参考 http://samtools.sourceforge.net/samtools.shtml

2、下载

Samtools下载地址

3、安装

打开终端，找到压缩文件所在位置；

# 安装 
$ tar -jxvf samtools-*.tar.bz2

# 编译
cd samtools-1.17 # 要先进入对应的目录中
make

# 添加环境变量
vim ~/.bash_profile   # 编辑环境变量文件 
export PATH=/Users/jolie/Desktop/工作/99-安装包/生信/samtools-1.17:$PATH # 文件所在路径要更新为你自己的地址哦

# 使环境变量生效
source ~/.bashrc

# 验证是否安装成功
cd samtools-1.17 #如果添加了环境变量，在任意位置都可以执行，如果没有添加环境变量，则只能在对应目录下执行
samtools

4、使用

4.1、 view

1)、主要功能
将sam文件转换成bam文件；然后对bam文件进行各种操作。比如数据的排序(不属于本命令的功能)和提取(这些操作是对bam文件进行的，因而当输入为sam文件的时候，不能进行该操作)；最后将排序或提取得到的数据输出为bam或sam（默认的）格式。

2)、bam文件优点
bam文件为二进制文件，占用的磁盘空间比sam文本文件小；利用bam二进制文件的运算速度快。

3)、相关参数

VIEW
view命令中，对sam文件头部的输入(-t或-T）和输出(-h)是单独的一些参数来控制的。

Usage: samtools view [options] <in.bam>|<in.sam> [region1 [...]]
# 默认情况下不加 region，则是输出所有的 region.

Options: -b       output BAM
                  默认下输出是 SAM 格式文件，该参数设置输出 BAM 格式
         -h       print header for the SAM output
                  默认下输出的 sam 格式文件不带 header，该参数设定输出sam文件时带 header 信息
         -H       print header only (no alignments)
         -S       input is SAM
                  默认下输入是 BAM 文件，若是输入是 SAM 文件，则最好加该参数，否则有时候会报错。
         -u       uncompressed BAM output (force -b)
                  该参数的使用需要有-b参数，能节约时间，但是需要更多磁盘空间。
         -c       Instead of printing the alignments, only count them and print the 
                  total number. All filter options, such as ‘-f’, ‘-F’ and ‘-q’ , 
                  are taken into account.
         -1       fast compression (force -b)
         -x       output FLAG in HEX (samtools-C specific)
         -X       output FLAG in string (samtools-C specific)
         -c       print only the count of matching records
         -L FILE  output alignments overlapping the input BED FILE [null]
         -t FILE  list of reference names and lengths (force -S) [null]
                  使用一个list文件来作为header的输入
         -T FILE  reference sequence file (force -S) [null]
                  使用序列fasta文件作为header的输入
         -o FILE  output file name [stdout]
         -R FILE  list of read groups to be outputted [null]
         -f INT   required flag, 0 for unset [0]
         -F INT   filtering flag, 0 for unset [0] 
                  Skip alignments with bits present in INT [0]
                  数字4代表该序列没有比对到参考序列上
                  数字8代表该序列的mate序列没有比对到参考序列上
         -q INT   minimum mapping quality [0]
         -l STR   only output reads in library STR [null]
         -r STR   only output reads in read group STR [null]
         -s FLOAT fraction of templates to subsample; integer part as seed [-1]
         -?       longer help

4)、使用举例

# 将sam文件转换成bam文件
$ samtools view -bS abc.sam > abc.bam
$ samtools view -b -S abc.sam -o abc.bam

# 提取比对到参考序列上的比对结果
$ samtools view -bF 4 abc.bam > abc.F.bam

# 提取paired reads中两条reads都比对到参考序列上的比对结果，只需要把两个4+8的值12作为过滤参数即可
$ samtools view -bF 12 abc.bam > abc.F12.bam

# 提取没有比对到参考序列上的比对结果
$ samtools view -bf 4 abc.bam > abc.f.bam

# 提取bam文件中比对到caffold1上的比对结果，并保存到sam文件格式
$ samtools view abc.bam scaffold1 > scaffold1.sam

# 提取scaffold1上能比对到30k到100k区域的比对结果
$ samtools view abc.bam scaffold1:30000-100000 $gt; scaffold1_30k-100k.sam

# 根据fasta文件，将 header 加入到 sam 或 bam 文件中
$ samtools view -T genome.fasta -h scaffold1.sam > scaffold1.h.sam

4.2、 sort

1)、主要功能
sort对bam文件进行排序。

2)、相关参数

Usage: samtools sort [-n] [-m <maxMem>] <in.bam> <out.prefix>

-m 参数默认下是 500,000,000 即500M（不支持K，M，G等缩写）。对于处理大数据时，如果内存够用，则设置大点的值，以节约时间。
-n 设定排序方式按short reads的ID排序。默认下是按序列在fasta文件中的顺序（即header）和序列从左往右的位点排序。

3)、使用举例

$ samtools sort abc.bam abc.sort    ###注意 abc.sort 是输出文件的前缀，实际输出是 abc.sort.bam
$ samtools view abc.sort.bam | less -S

4.3、 merge

1)、主要功能
将2个或2个以上的已经sort了的bam文件融合成一个bam文件。融合后的文件不需要则是已经sort过了的。

2)、相关参数

Usage:   samtools merge [-nr] [-h inh.sam] <out.bam> <in1.bam> <in2.bam>[...]
# Samtools' merge does not reconstruct the @RG dictionary in the header. Users must provide the correct header with -h, or uses Picard which properly maintains the header dictionary in merging.

Options: -n       sort by read names
         -r       attach RG tag (inferred from file names)
         -u       uncompressed BAM output
         -f       overwrite the output BAM if exist
         -1       compress level 1
         -R STR   merge file in the specified region STR [all]
         -h FILE  copy the header in FILE to <out.bam> [in1.bam]

4.4、index

1)、主要功能
⚠️ 必须对bam文件进行默认情况下的排序后，才能进行index。否则会报错。
⚠️ 建立索引后将产生后缀为.bai的文件，用于快速的随机处理。很多情况下需要有bai文件的存在，特别是显示序列比对情况下。比如samtool的tview命令就需要；gbrowse2显示reads的比对图形的时候也需要。

2)、相关参数

Usage: samtools index <in.bam> [out.index]

3)、使用举例

# 以下两种命令结果一样
$ samtools index abc.sort.bam
$ samtools index abc.sort.bam abc.sort.bam.bai

4.5、

1)、主要功能
2)、相关参数
3)、使用举例

更多参数使用可参考samtools使用方法参数

三、bedtools

1、介绍

bedtools是处理基因组信息分析的强大工具集合，同样用于高通量测序数据处理。
更多介绍请参考 https://bedtools.readthedocs.io/en/latest/index.html

2、下载

curl -OL  https://github.com/arq5x/bedtools2/releases/download/v2.22.0/bedtools-2.22.0.tar.gz

3、安装

# 安装
tar zxvf bedtools-2.22.0.tar.gz

# 编译
cd bedtools2 # 要先进入对应的目录中
make

# 添加环境变量
vim ~/.bash_profile   # 编辑环境变量文件 
export PATH=/Users/jolie/Desktop/工作/99-安装包/生信/bedtools2:$PATH

# 使环境变量生效
source ~/.bashrc

# 验证是否安装成功
cd bedtools #如果添加了环境变量，在任意位置都可以执行，如果没有添加环境变量，则只能在对应目录下执行
bedtools

4、相关参数

flexible tools for genome arithmetic and DNA sequence analysis.

usage:    bedtools <subcommand> [options]

The bedtools sub-commands include:

[ Genome arithmetic ]

    intersect     Find overlapping intervals in various ways.

                  求区域之间的交集，可以用来注释peak，计算reads比对到的基因组区域
                  不同样品的peak之间的peak重叠情况。

    window        Find overlapping intervals within a window around an interval.
    closest       Find the closest, potentially non-overlapping interval.

                  寻找最近但可能不重叠的区域

    coverage      Compute the coverage over defined intervals.

                  计算区域覆盖度

    map           Apply a function to a column for each overlapping interval.
    genomecov     Compute the coverage over an entire genome.
    merge         Combine overlapping/nearby intervals into a single interval.

                  合并重叠或相接的区域

    cluster       Cluster (but don't merge) overlapping/nearby intervals.
    complement    Extract intervals _not_ represented by an interval file.

                  获得互补区域

    subtract      Remove intervals based on overlaps b/w two files.

                  计算区域差集

    slop          Adjust the size of intervals.

                  调整区域大小，如获得转录起始位点上下游3 K的区域

    flank         Create new intervals from the flanks of existing intervals.

    sort          Order the intervals in a file.

                  排序，部分命令需要排序过的bed文件

    random        Generate random intervals in a genome.

                  获得随机区域，作为背景集

    shuffle       Randomly redistrubute intervals in a genome.

                  根据给定的bed文件获得随机区域，作为背景集

    sample        Sample random records from file using reservoir sampling.
    spacing       Report the gap lengths between intervals in a file.
    annotate      Annotate coverage of features from multiple files.

[ Multi-way file comparisons ]

    multiinter    Identifies common intervals among multiple interval files.
    unionbedg     Combines coverage intervals from multiple BEDGRAPH files.

[ Paired-end manipulation ]

    pairtobed     Find pairs that overlap intervals in various ways.
    pairtopair    Find pairs that overlap other pairs in various ways.

[ Format conversion ]

    bamtobed      Convert BAM alignments to BED (& other) formats.
    bedtobam      Convert intervals to BAM records.
    bamtofastq    Convert BAM records to FASTQ records.
    bedpetobam    Convert BEDPE intervals to BAM records.
    bed12tobed6   Breaks BED12 intervals into discrete BED6 intervals.

[ Fasta manipulation ]

    getfasta      Use intervals to extract sequences from a FASTA file.

                  提取给定位置的FASTA序列

    maskfasta     Use intervals to mask sequences from a FASTA file.
    nuc           Profile the nucleotide content of intervals in a FASTA file.

[ BAM focused tools ]

    multicov      Counts coverage from multiple BAMs at specific intervals.
    tag           Tag BAM alignments based on overlaps with interval files.

[ Statistical relationships ]

    jaccard       Calculate the Jaccard statistic b/w two sets of intervals.

                  计算数据集相似性

    reldist       Calculate the distribution of relative distances b/w two files.
    fisher        Calculate Fisher statistic b/w two feature files.

[ Miscellaneous tools ]

    overlap       Computes the amount of overlap from two intervals.
    igv           Create an IGV snapshot batch script.

                  用于生成一个脚本，批量捕获IGV截图

    links         Create a HTML page of links to UCSC locations.

    makewindows   Make interval "windows" across a genome.

                  把给定区域划分成指定大小和间隔的小区间 (bin)

    groupby       Group by common cols. & summarize oth. cols. (~ SQL "groupBy")

                  分组结算，不只可以用于bed文件。

    expand        Replicate lines based on lists of values in columns.
    split         Split a file into multiple files with equal records or base pairs.
  
  —————————————  
  原文链接：https://blog.csdn.net/qazplm12_3/article/details/79797594

5、bedtools intersect的使用

Find overlapping intervals in various ways 求区域之间的交集，可以用来注释peak，计算reads比对到的基因组区域不同样品的peak之间的peak重叠情况

# 语法
bedtools intersect [OPTIONS] -a <bed/gff/vcf/bam> -b <bed/gff/vcf/bam>
#注：-b 可以接多个文件

相关参数可参考bedtools之intersect命令参数

# 使用举例
#找到A和B文件中重叠的部分前5行
bedtools intersect -a cpg.bed -b exons.bed | head -5
chr1    29320    29370    CpG:_116
chr1    135124    135563    CpG:_30
chr1    327790    328229    CpG:_29
chr1    327790    328229    CpG:_29
chr1    327790    328229    CpG:_29

#-wa：A和B重叠的区间再加上a的剩余部分
#-wb：A和B重叠的区间再加上b的剩余部分
bedtools intersect -a cpg.bed -b exons.bed -wa -wb | head -5
chr1    28735    29810    CpG:_116    chr1    29320    29370    NR_024540_exon_10_0_chr1_29321_r    0    -
chr1    135124    135563    CpG:_30    chr1    134772    139696    NR_039983_exon_0_0_chr1_134773_r    0    -
chr1    327790    328229    CpG:_29    chr1    324438    328581    NR_028322_exon_2_0_chr1_324439_f    0    +
chr1    327790    328229    CpG:_29    chr1    324438    328581    NR_028325_exon_2_0_chr1_324439_f    0    +
chr1    327790    328229    CpG:_29    chr1    327035    328581    NR_028327_exon_3_0_chr1_327036_f    0    +

#-wo Write the original A and B entries plus the number of base pairs of overlap between the two features. Only A features with overlap are reported
bedtools intersect -a cpg.bed -b exons.bed -wo | head -5
chr1    28735    29810    CpG:_116    chr1    29320    29370    NR_024540_exon_10_0_chr1_29321_r    0    -    50
chr1    135124    135563    CpG:_30    chr1    134772    139696    NR_039983_exon_0_0_chr1_134773_r    0    -    439
chr1    327790    328229    CpG:_29    chr1    324438    328581    NR_028322_exon_2_0_chr1_324439_f    0    +    439
chr1    327790    328229    CpG:_29    chr1    324438    328581    NR_028325_exon_2_0_chr1_324439_f    0    +    439
chr1    327790    328229    CpG:_29    chr1    327035    328581    NR_028327_exon_3_0_chr1_327036_f    0    +    439 

#-c For each entry in A, report the number of hits in B while restricting to -f. Reports 0 for A entries that have no overlap with B
bedtools intersect  -a cpg.bed -b exons.bed -c | head 
chr1    28735    29810    CpG:_116    1
chr1    135124    135563    CpG:_30    1
chr1    327790    328229    CpG:_29    3
chr1    437151    438164    CpG:_84    0
chr1    449273    450544    CpG:_99    0
chr1    533219    534114    CpG:_94    0
chr1    544738    546649    CpG:_171    0
chr1    713984    714547    CpG:_60    1
chr1    762416    763445    CpG:_115    10
chr1    788863    789211    CpG:_28    9

# 找到覆盖了最多外显子的CPG岛
bedtools intersect -a cpg.bed -b exons.bed -c | sort -k5,5nr | head -2
chrY    15591259    15591720    CpG:_33    77
chrUn_gl000228    70214    114054    CpG:_3259    72

bedtools intersect -a cpg.bed -b exons.bed -c | sort -k1,1 -k2,2nr | head -2
chr1    249200252    249200721    CpG:_58    2
chr1    249167408    249168010    CpG:_48    0

#找到A文件中没有重叠B的部分 
 Only report those entries in A that have no overlap in B
bedtools intersect -a cpg.bed -b exons.bed -v | head
chr1    437151    438164    CpG:_84
chr1    449273    450544    CpG:_99
chr1    533219    534114    CpG:_94 
chr1    544738    546649    CpG:_171
chr1    801975    802338    CpG:_24
chr1    805198    805628    CpG:_50
chr1    839694    840619    CpG:_83
chr1    844299    845883    CpG:_153
chr1    912869    913153    CpG:_28
chr1    919726    919927    CpG:_15

#从注释文件中，选取启动子
cat hesc.chromHmm.bed | grep Promoter > promoters.bed
cat promoters.bed |head -3
chr1    27737    28537    2_Weak_Promoter
chr1    28537    30137    1_Active_Promoter
chr1    30137    30337    2_Weak_Promoter

# 找到跟每个exon最近的启动子 多的一列数值是-a 和 -b 两者最近的距离
bedtools closest -a exons.bed -b promoters.bed  -d | head -2
chr1    11873    12227    NR_046018_exon_0_0_chr1_11874_f    0    +    chr1    27737    28537    2_Weak_Promoter    15511
chr1    12612    12721    NR_046018_exon_1_0_chr1_12613_f    0    +    chr1    27737    28537    2_Weak_Promoter    15017

# 以5Kb一个窗口把人类基因组以覆盖
bedtools makewindows -g genome.txt -w 50000 > windows.bed
cat windows.bed |head -3
chr1    0    50000
chr1    50000    100000
chr1    100000    150000
bedtools makewindows -g genome.txt -w 100000 > windows0.bed
cat windows0.bed |head -3
chr1    0    100000
chr1    100000    200000
chr1    200000    300000

# 显示cpg.bed中和exons.bed有重叠的intervals
bedtools intersect -a cpg.bed -b exons.bed
 
# 显示exons.bed中和cpg.bed有重叠的intervals
bedtools intersect -a exons.bed -b cpg.bed 
 
# 同时显示重叠区域的A、B文件中的原始记录
bedtools intersect -a exons.bed -b cpg.bed -wa -wb 
 
# 显示重叠区域的碱基数
bedtools intersect -a cpg.bed -b exons.bed -wo
 
# 显示每一个cpg.bed文件中的记录在exons.bed文件中的重叠记录数
bedtools intersect -a cpg.bed -b exons.bed -c
 
# cpg.bed文件中不和exons.bed任何intervals重叠的记录
bedtools intersect -a cpg.bed -b exons.bed -v
bedtools intersect -a cpg.bed -b exons.bed -wo
 
# 设定阈值，显示cpg.bed中intervals至少有50%序列和exons.bed中的重叠
bedtools intersect -a cpg.bed -b exons.bed -wo -f 0.50
 
# 多个文件的重叠区域
bedtools intersect -a cpg.bed -b gwas.bed exons.bed 
bedtools intersect -a cpg.bed -b gwas.bed exons.bed -wa -wb -names gwas exon # 加上文件label
 
# sorted数据通过加-sorted参数，运行速度更快
time bedtools intersect -a exons.bed -b cpg.bed gwas.bed -sorted >>/dev/null

—————————————
原文链接：https://blog.csdn.net/sunchengquan/article/details/85031173
原文链接：https://blog.csdn.net/qq_27390023/article/details/125433158

6、bedtools merge的使用

Combine overlapping/nearby intervals into a single interval 合并重叠或相接的区域

# 语法
bedtools merge [OPTIONS] -i <bed/gff/vcf>
#注意：bedtools merge要求输入文件先排序

# 使用举例
# 排序，输入文件先按染色体排序，然后按起始位置排序。
sort -k1,1 -k2,2n test.bed >test.sorted.bed
# 显示最终的"合并 "区间
bedtools merge -i exons.bed | head -n 20
# 在计算导致每个新的 "合并 "区间的重叠区间的数量时，我们将 "计算 "第一列。
bedtools merge -i exons.bed -c 1 -o count | head -n 20
 
# 显示所有合并成新的"合并 "区间的重叠区间的第二行
bedtools merge -i exons.bed -c 2 -o collapse | head -n 20
 
# 合并距离不超过1000的区间，
bedtools merge -i exons.bed -d 1000 -c 1 -o count | head -20
 
# 合并距离不超过90区域，分别对第一列和第四列做不同的操作
bedtools merge -i exons.bed -d 90 -c 1,4 -o count,collapse | head -20

————————————————
原文链接：https://blog.csdn.net/qq_27390023/article/details/125433158

7、bedtools complement的使用

Extract intervals not represented by an interval file 获得互补区域

# 语法
bedtools complement [OPTIONS] -i <bed/gff/vcf> -g <genome>
#注：The genome file should tab delimited and structured as follows:
         <chromName><TAB><chromSize>

# 使用举例
# genome.txt中，exons.bed没有的区间
bedtools complement -i exons.bed -g genome.txt

8、bedtools genomecov的使用

Compute the coverage of a feature file among a genome 合并重叠或相接的区域

# 语法
bedtools genomecov [OPTIONS] -i <bed/gff/vcf> -g <genome>
#注：需要排序好的文件
bedtools genomecov -i exons.bed -g genome.txt

# 使用举例
# 输出BEDGRAPH,计算intervals的depth
bedtools genomecov -i exons.bed -g genome.txt -bg | head -20

9、bedtools jaccard的使用

calculate Jaccard statistic b/w two feature files 计算数据集相似性

# 语法
bedtools jaccard [OPTIONS] -a <bed/gff/vcf> -b <bed/gff/vcf>

# 使用举例
# 计算相似度
bedtools jaccard -a cpg.bed -b exons.bed

10、bedtools coverage的使用

Returns the depth and breadth of coverage of features from B 计算区域覆盖度

# 语法

# 使用举例
bedtools coverage [OPTIONS] -a <bed/gff/vcf> -b <bed/gff/vcf>
bedtools coverage  -a cpg.bed -b exons.bed

四、conda

1、介绍

Conda是在Windows、macOS和Linux上运行的开源软件包管理系统和环境管理系统。可以快速安装、运行和更新软件包及其依赖项。可以轻松地在本地计算机上的环境中创建，保存，加载和切换。它是为Python程序创建的，但可以打包和分发适用于任何语言的软件。
目前conda的发行版本分为anaconda、miniconda两种，安装了ananconda或miniconda的完整版，就默认安装了conda。anaconda会包含一些常用包的版本，miniconda则是精简版，两者安装均可。

2、下载

miniconda下载地址

3、安装

# 进入miniconda所在目录
cd miniconda  # 如果你的地址跟我不同，记得更新地址
# 执行安装命令
bash Miniconda3-py39_4.10.3-Linux-x86_64.sh # 如果你的版本跟我不同，记得更新名称

填写yes

记得这里有选项是继续安装还是终止，继续安装即点击回车

填写yes

# 使环境变量生效
source ~/.bashrc

miniconda3安装成功～
⚠️ 安装成功后要关闭终端，再次进入才会生效哦～

# 添加环境变量
export PATH=/Users/jolie/miniconda3:$PATH # 文件所在路径要更新为你自己的地址哦

# 验证是否安装成功
cd miniconda3 #如果添加了环境变量，在任意位置都可以执行，如果没有添加环境变量，则只能在对应目录下执行
conda

# 查看相关帮助
conda -h # h参数为help的意思

4、conda管理packages

	## 查看当前环境下的已经安装的包
		conda list
	## 查看频道下可用的某包
		conda search openpyxl
	## 安装包到环境work，不加--name时，默认安装到当前环境
		conda install --name work openpyxl
	## 安装包指定镜像源加速下载(**)
		conda install -c https://mirrors.bfsu.edu.cn/anaconda/cloud/conda-forge micromamba
	## 安装包requests , 默认路径下载很慢,此时可指定下载命令
		conda install --name work -c conda-forge requests 
	## 检查安装结果
		conda list
	## 更新requests 包
		conda update requests 
	## 卸载requests 包
		conda remove requests
		conda remove --name work requests # 删除work环境中的requests包

五、freebayes

1、介绍

简介：是一个常用于生物信息学数据分析中的免费开源软件，它用于从基因组或外显子组测序数据中检测SNP、indel和复合事件（例如插入或删除，或插入和SNP的组合）。该软件使用贝叶斯模型来计算每个位点的变异概率，并结合多个样本的测序数据来确定变异的共享情况。

优点：能够处理多个样本的测序数据，从而更好地确定遗传变异的共享情况。此外，它还可以处理多倍体或杂合基因组，并允许用户设置自定义的过滤标准来减少误报率。

应用：FreeBayes已被广泛用于各种生物信息学应用中，包括疾病基因组学研究、人类进化研究、农业遗传学研究和环境基因组学研究等领域。在分析大规模基因组测序数据时，FreeBayes是一种非常有用的工具，可以帮助研究人员鉴定遗传变异并进行精确的生物信息学分析。

2、下载

# 下载
git clone --recursive https://github.com/freebayes/freebayes.git

3、安装

# 依赖安装
# 在安装FreeBayes之前，需要先安装其所依赖的一些库和软件包。具体的依赖库可以在FreeBayes的GitHub仓库中找到。
# 在Ubuntu等Debian发行版中，可以使用以下命令安装依赖：
sudo apt-get install cmake git zlib1g-dev libbz2-dev liblzma-dev
# 在CentOS等Red Hat发行版中，可以使用以下命令安装依赖：
sudo yum install cmake git zlib-devel bzip2-devel xz-devel
# 如果在mac终端
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"  # 安装Homebrew，Homebrew为mac终端的软件包管理器
brew update           #更新Homebrew
brew install freebayes   #安装freebayes

# 编译
cd freebayes # 要先进入对应的目录中
make

# 添加环境变量
vim ~/.bash_profile   # 编辑环境变量文件 
export PATH=/Users/jolie/Desktop/工作/99-安装包/生信/freebayes:$PATH # 文件所在路径要更新为你自己的地址哦

# 使环境变量生效
source ~/.bashrc

# 验证是否安装成功
freebayes -h

4、相关参数

# 查看完整的freebayes参数列表和详细说明
freebayes --help

你可能感兴趣的:(生信-测序,conda)

Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
NGS测序基础梳理02-簇生成（Cluster Generation）及flow cell介绍 qq_21478261 #生物信息生物信息学
本文图解Illumina测序平台，flowcell表面簇生成（ClusterGeneration）过程。写作时间：2020，有问题可留言或者我的公众号。本文将了解到什么？1flowcell2簇生成为何要进行簇生成？簇生成步骤1）文库与flowcell表面P5杂交与互补链合成2）双链变性3）桥式PCR扩增4）反链切除5）DNA链3'封闭参考资料：1flowcell为何要先介绍flowcell？因为簇
Mamba项目用户指南：高效管理Python环境的利器左松钦Travis
Mamba项目用户指南：高效管理Python环境的利器mambaTheFastCross-PlatformPackageManager项目地址:https://gitcode.com/gh_mirrors/mam/mamba什么是Mamba？Mamba是一个基于Conda的CLI工具，专为高效管理Python环境而设计。它继承了Conda的所有优点，同时在性能上进行了显著优化，特别是在解决依赖关系
【亲测免费】 Mamba：快速跨平台的包管理器林梦雅
Mamba：快速跨平台的包管理器项目基础介绍和主要编程语言Mamba是一个用C++重新实现的Conda包管理器。它旨在提供比传统Conda更快的包管理和依赖解析速度。Mamba的核心部分使用C++编写，以确保高效性和性能。同时，Mamba也使用了Python和其他一些辅助语言来实现其功能。项目核心功能Mamba的核心功能包括：快速依赖解析：利用libsolv库进行高效的依赖解析，这是RedHat、
Ubuntu系统下pip install的accelerate包没有安装至conda环境下，而是错误放入.local文件中
服务器上跑模型时莫名报了一个没有‘torch’包的错误Traceback(mostrecentcalllast):File"/home/ubuntu/.local/bin/accelerate",line5,infromaccelerate.commands.accelerate_cliimportmainFile"/home/ubuntu/.local/lib/python3.10/site-p
虚拟环境已安装该包，且已激活，但报错
排查原因：是否存在这样的现象命令结果condalist显示的是base环境的包piplist显示的是你当前虚拟环境的包激活了Conda的base环境，但运行的Python实际来自其他路径（如virtualenv创建的虚拟环境或系统Python）Python路径与Conda环境不一致我主要在base的基础上激活了新的虚拟环境，导致环境不一致解决：退出所有环境，重新激活虚拟环境验证是否一致
pycharm无法识别conda环境（已解决） Reborker pycharm conda ide
文章目录前言研究过程解决办法前言好久不用pycharm了，打开后提示更新，更新到了2023.1版本。安装conda后在新建了一个虚拟环境pytorch，但是无论是基础环境还是虚拟环境，pycharm都识别不出conda里的python.exe(如图)。如果不想看啰嗦直接看后面的解决办法，比较闲的话可以看看我的研究过程。研究过程看了很多博客，尝试了以下解决办法：加载conda.bat文件，虽然出现了
在指定conda 环境里安装 jupyter 和 python kernel的方法
在Conda的指定环境中安装Jupyter和PythonKernel是一个常见操作，以下是详细步骤，确保在指定环境中正确配置Jupyter和PythonKernel：1.准备工作确保已安装Anaconda或Miniconda，Conda环境管理工具可用。确认已创建或计划使用的Conda环境。2.步骤：安装Jupyter和PythonKernel步骤1：创建或激活目标Conda环境创建新环境（如果尚
在生信分析中，处理vcf 比较好用的python包推荐
在生物信息学分析中，处理VCF（VariantCallFormat）文件的Python包有很多，以下是一些常用且好用的Python包，适合不同的分析需求：PyVCF（推荐）简介：PyVCF是一个专门为解析和操作VCF文件设计的Python库，支持读取、过滤和修改VCF文件。优点：简单易用，API直观。支持VCF4.0及以上版本。可以轻松访问变体的信息（如染色体、位置、参考碱基、变异碱基等）。安装：
pycharm无法识别pip安装的包
在使用conda创建一个新的环境后，有些包通过pip的方式安装更方便有效，若在pip安装后，遇到该环境没有此包，或pycharm监测不到此包，通常是pip的环境指向有问题。解决措施：#首先检查当前pip的指向whichpip'若输出为/home/username/anaconda/bin/pip，则说明当前pip指向有问题，处于base环境中'#退出当前环境condadeactivateyourc
jetson agx orin 刷机、cuda、pytorch配置指南【亲测有效】
jetsonagxorin刷机指南注意事项刷机具体指南cuda环境配置指南Anconda、Pytorch配置注意事项1.使用设备自带usbtoc的传输线时，注意c口插到orin左侧的口，右侧的口不支持数据传输；2.刷机时需准备ubuntu系统，可以是虚拟机，注意安装SDKManager刷机时，JetPack版本要选对，JetPack6.0的对应ubuntu22，cuda12版本，对应pytorch
在conda环境下，安装第三方库出现：You must use Visual Studio to build a python extension on windows codeの诱惑 conda visual studio python
解决办法：在电脑上安装MicrosoftC++生成工具https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/安装后，重新执行一下pip的安装命令即可pipinstallface_recognition完整错误如下：(Runtool)PSF:\xgs\Python\project\RunTool\face_diff>pip
Text2Reward学习笔记
1.提示词请问，“glew”是一个RL工程师常用的工具库吗？请问,thiscodebase主要是做什么用的呀？1.1解释代码是否可以请您根据thiscodebase的主要功能，参考PyTorch的文档格式和文档风格，使用Markdown格式为选中的代码行编写一段相应的文档说明呢？2.项目环境配置2.1新建环境[official]2.1.1Featurizecondacreate-p~/work/d
Python综合应用学生管理系统
主要是复习使用，希望大佬提意见整体结构与核心数据结构importosimportsysstudents=[]上述代码引入了os和sys模块，os模块用于处理文件和目录相关操作，sys模块提供了对Python解释器相关变量和函数的访问。students列表作为核心数据结构，用于存储所有学生的信息，后续对学生信息的增删改查操作都围绕它展开。菜单功能实现defmenu():"""显示程序菜单"""pri
云原生信息提取系统：容器化流程与CI_CD集成实践
一、问题引出：自动化信息获取为何难以工程化？在实际开发中，我们经常需要对互联网页面进行结构解析与内容提取，但这些任务常常陷入以下困境：本地测试没问题，一旦部署到线上环境便频繁出错；环境配置不一致导致执行失败；内容接口更新频繁，人工维护成本高；无法做到自动更新与持续运行；对接口访问策略缺乏灵活适配手段。这说明，仅靠“能运行的脚本”远远不够，信息提取任务也需要标准化的开发、测试与交付机制。二、真实挑战
java组件化设计_构建之路—谈谈组件化后端构建和实现
前言这一篇文章，准备了很久，构思了很久，草稿了很久。从个人编程至今，历经了C，C++，Java，到现如今的NodeJS。也后端到前端，再回到后端。更从学校里的学生信息管理系统到大型商业系统构建，是的，我曾一直以为编程也就是如此了，由瀑布模型，敏捷开发，设计模式等等组成的软件工程大致就是如此了。相信可能很多人也会有和我类似的想法，是否也都曾迷茫过？幸运的是，伴随着对前端的接触和深入，云雾散开。前端组
Conda安装与使用
目录一、软件安装及conda管理1.conda下载2.miniconda安装二、环境配置1.配置镜像：2.创建环境、移除环境：3.查看小环境4.进入、退出小环境5.查找并安装软件三、一步到位其他：参考资料：一、软件安装及conda管理conda可以来管理大量的生物信息学软件，或者想要复现一些文章中的实验结果需要不同环境的切换。1.conda下载（1）anacondaanaconda|镜像站使用帮助
SpringBoot3+JPA+MySQL实现多数据源的读写分离(基于EntityManagerFactory) 没刮胡子 java 软件开发技术实战专栏 SpringBoot3 JPA MySQL 多数据源读写分离
1、简介在SpringBoot中配置多个数据源并实现自动切换EntityManager，这里我编写了一个RoutingEntityManagerFactory和AOP（面向切面编程）的方式来实现。这里我配置了两个数据源：primary和secondary，其中primary主数据源用来写入数据，secondary从数据源用来读取数据。注意1：使用Springboot3的读写分离，首先要保证主库和从
scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
隐马尔可夫模型（HMM）：观测背后的状态解码艺术大千AI助手人工智能 Python #OTHER 数据挖掘人工智能机器学习算法 HMM 马尔科夫概率论
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心概念：双重随机过程隐马尔可夫模型（HiddenMarkovModel,HMM）是一种通过可观测序列推断隐含状态序列的概率图模型，包含两个核心随机过程：隐含状态链：不可观测的马尔可夫过程${q_t}$P(qt∣qt−1,qt−2,…,q1)=P(
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
AttributeError: module ‘distutils‘ has no attribute ‘version‘ 吴闹闹(●'◡'●) python 深度学习开发语言
错误：File"/root/miniconda3/envs/vidar/lib/python3.8/sitepackages/torch/utils/tensorboard/__init__.py",line4,inLooseVersion=distutils.version.LooseVersionAttributeError:module'distutils'hasnoattribute've
ubuntu创建、删除虚拟环境 screenCui ubuntu linux
your_name是自己起的环境名字创建虚拟环境首先通过xshell等工具与服务器建立链接。然后进行以下两步：激活condasource~/.bashrc2.创建虚拟环境condacreate-nyour_namepython=3.7退出以及删除虚拟环境退出虚拟环境condadeactivate删除虚拟环境condaremove-nyour_name--all
【vue】用conda配置nodejs，一键开通模版使用权温择之 conda
特此鸣谢我的好同学@重中之重的特级教学，非常之好用一、conda环境下载安装二、创建包含nodejs的conda环境创建一个新环境：condacreate-n【自定义环境名字】python=3.9condacreate-nmy_nodejs_envpython=3.9激活新环境：condaactivate【环境名字】condaactivatemy_nodejs_env下载安装nodejs：cond
服务器无对应cuda版本安装pytorch-gpu[自用] 片月斜生梦泽南 pytorch
服务器无对应cuda版本安装pytorch-gpu服务器无对应cuda版本安装pytorch-gpu网址下载非root用户安装tmux查看服务器ubuntu版本conda安装tensorflow-gpu安装1.x版本服务器无对应cuda版本安装pytorch-gpu网址GPU版本的pytorch、pytorchvision的下载链接https://download.pytorch.org/whl/
Ubuntu22.04 安装autoware universe
注意事项：1，不要用conda包管理2，将autoware项目和autoware_map都放在$Home目录下3，系统的软件更新器更新包这步很重要1，装好了ubuntu22.04系统后，首先装nvidia显卡驱动autoware所需最低驱动版本为550,进入ubuntu恢复模式，启动终端输入以下命令（前提是有网络连接）wgethttps://vip.123pan.cn/1816448054/xTo
DeepSeek 部署中的常见问题及解决方案 tonngw 后端
技术文章大纲：DeepSeek部署中的常见问题及解决方案引言简要介绍DeepSeek及其应用场景，说明部署过程中可能遇到的挑战。环境配置问题硬件兼容性问题：GPU型号、驱动版本不匹配的解决方案。依赖库冲突：Python版本、CUDA/cuDNN不兼容的排查方法。虚拟环境配置：Anaconda或Docker环境的最佳实践。模型加载与初始化问题预训练模型下载失败：网络代理设置、手动下载替代方案。显存不
PyTorch安装总失败？看完这篇保姆级教程，从0到1轻松搞定！喜欢编程就关注我 pytorch 人工智能 python
引言：为什么你装不好PyTorch？“CUDA版本不匹配？pip安装超时？conda环境冲突？”新手安装PyTorch的坑比代码bug还多！这篇博客整合CSDN高赞实战技巧，手把手教你绕过10大安装陷阱，附赠代码级验证指南！一、安装前必看：环境检查清单检查项操作方法Python版本python--version（推荐3.8-3.11）CUDA驱动nvidia-smi（仅NVIDIA显卡需要）con
PythonOCC-Core 7.8.1版本Conda安装指南
PythonOCC-Core7.8.1版本Conda安装指南pythonocc-coretpaviot/pythonocc-core:是一个基于Python的OpenCASCADE(OCCT)几何内核库，提供了三维几何形状的创建、分析和渲染等功能。适合对3D建模、CAD、CAE以及Python有兴趣的开发者。项目地址:https://gitcode.com/gh_mirrors/py/python
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数