徐洲更hoptop

使用Snakemake搭建分析流程

## 目前已有的框架

A review of bioinformatics pipeline framework 的作者对已有的工具进行很好的分类

作者的看法：

implicit，也就是Make rule语法更适合用于整合不同执行工具
基于配置的流程更加稳定，也比较适合用于集群分配任务。

最后作者建议是：

如果实验室既不是纯粹的生物学试验（不需要workbench这种UI界面），也不需要高性能基于类的流程设计，不太好选，主要原则是投入和产出比
如果实验室进行的是重复性的研究，那么就需要对数据和软件进行版本控制，建议是 configuration-based pipelines
如果实验室做的是探索性的概念证明类工作（exploratory proofs-of-concept)，那么需要的是 DSL-based pipeline。
如果实验室用不到高性能计算机(HPC)，只能用云服务器，就是server-based frameworks.

目前已有的流程可以在awesome-pipeline 进行查找。

就目前来看，pipeline frameworks & library 这部分的框架中 nextflow 是点赞数最多的生物学相关框架。只可惜nextflow在运行时需要创建fifo，而在NTFS文件系统上无法创建，所以我选择 snakemake , 一个基于Python写的DSL流程框架。

环境准备

为了能够顺利完成这部分的教程，请准备一个Linux环境，如果使用Windows，则按照biostarhandbook(一)分析环境和数据可重复部署一个虚拟机，并安装miniconda3。

如下步骤会下载所需数据，并安装所需要的软件，并且启动工作环境。

wget https://bitbucket.org/snakemake/snakemake-tutorial/get/v3.11.0.tar.bz2
tar -xf v3.11.0.tar.bz2 --strip 1
cd snakemake-snakemake-tutorial-623791d7ec6d
conda env create --name snakemake-tutorial --file environment.yaml
source activate snakemake-tutorial
# 退出当前环境
source deactivate

当前环境下的所有文件

├── data
│   ├── genome.fa
│   ├── genome.fa.amb
│   ├── genome.fa.ann
│   ├── genome.fa.bwt
│   ├── genome.fa.fai
│   ├── genome.fa.pac
│   ├── genome.fa.sa
│   └── samples
│       ├── A.fastq
│       ├── B.fastq
│       └── C.fastq
├── environment.yaml
└── README.md

基础：一个案例流程

如果你编译过软件，那你应该见过和用过make, 但是你估计也没有仔细想过make是干嘛用的。Make是最常用的软件构建工具，诞生于1977年，主要用于C语言的项目，是为了处理编译时存在各种依赖关系，尤其是部分文件更新后，Make能够重新生成需要更新的文件以及其对应的文件。

Snakemake和Make功能一致，只不过用Python实现，增加了许多Python的特性，并且和Python一样非常容易阅读。下面将使用Snakemake写一个变异检测流程。

第一步：序列比对

Snakemake非常简单，就是写各种rule来完成不同的任务。我们第一条rule就是将序列比对到参考基因组上。如果在命令行下就是bwa mem data/genome.fa data/samples/A.fastq | samtools view -Sb - > mapped_reads/A.bam。但是按照Snakemake的规则就是下面的写法。

# 用你擅长的文本编辑器
vim Snakefile
# 编辑如下内容
rule bwa_map:
    input:
        "data/genome.fa",
        "data/samples/A.fastq"
    output:
        "mapped_reads/A.bam"
    shell:
        """
        bwa mem {input} | samtools view -Sb - > {output}
        """

解释一下：这几行定义了一个规则(rule)，在这个规则下，输入(input)有两个，而输出(output)只有一个，在shell中运行命令，只不过里面的文件都用{}形式替代。伪执行一下:snakemake -np mapped_reads/A.bam检查一下是否会出错，真实运行情况如下（不带规则，默认执行第一个规则）:

第二步：推广序列比对规则

如果仅仅是上面这样子处理一个文件，还无法体现snakemake的用途，毕竟还不如手动敲代码来的方便。snakemake的一个有点在于它能够使用文件名通配的方式对一类文件进行处理。将上面的A改成{sample},就可以将符合*.fastq的文件处理成*.bam.

rule bwa_map:
    input:
        "data/genome.fa",
        "data/samples/{sample}.fastq"
    output:
        "mapped_reads/{sample}.bam"
    shell:
        """
        bwa mem {input} | samtools view -Sb - > {output}
        """

那么，用snakemake -np mapped_reads/{A,B,C}.bam，就会发现，他非常机智的就比对了B.fastq和C.fastq，而不会再比对一遍A.fastq, 也不需要你写一堆的判断语句去手动处理。

当然，如果你用touch data/samples/A.fastq改变A.fastq的时间戳，他就会认位A.fastq文件发生了改变，那么重复之前的命令就会比对A.fastq。

第三步：比对后排序

比对后的文件还需要进一步的排序，才能用于后续分析，那么规则该如何写呢？

rule samtools_sort:
    input:
        "mapped_reads/{sample}.bam"
    output:
        "sorted_reads/{sample}.bam"
    shell:
        "samtools sort -T sorted_reads/{wildcards.sample}"
        " -O bam {input} > {output}"

以之前的输出作为输出文件名，输出到另一个文件夹中。和之前的规则基本相同，只不过这里用到了wildcards.sample来获取通配名用作-T的临时文件的前缀sample实际名字。

运行snakemake -np sorted_reads/B.bam，你就会发现他就会非常智能的先比对再排序。这是因为snakemake会自动解决依赖关系，并且按照依赖的前后顺序进行执行。

第四步：建立索引和对任务可视化

这里我们再写一个规则，对之前的排序后的BAM文件建立索引。

rule samtools_index:
    input:
        "sorted_reads/{sample}.bam"
    output:
        "sorted_reads/{sample}.bam.bai"
    shell:
        "samtools index {input}"

目前已经写了三个规则，那么这些规则的执行和依赖关系如何呢？ snakemake提供了--dag选项用于dot命令进行可视化

snakemake --dag sorted_reads/{A,B}.bam.bai | dot -Tsvg > dag.svg

第五步：基因组变异识别

基因组变异识别需要整合之前所有的BAM文件，你可能会打算这样写

rule bcftools_call:
    input:
        fa="data/genome.fa",
        bamA="sorted_reads/A.bam"
        bamB="sorted_reads/B.bam"
        baiA="sorted_reads/A.bam.bai"
        baiB="sorted_reads/B.bam.bai"
    output:
        "calls/all.vcf"
    shell:
        "samtools mpileup -g -f {input.fa} {input.bamA} {input.bamB} | "
        "bcftools call -mv - > {output}"

这样写的却没有问题，但是以后每多一个样本就需要多写一个输入，太麻烦了。这里就体现出Snakemake和Python所带来的特性了，我们可以用列表推导式的方法搞定。

["sorted_reads/{}.bam".format(sample) for sample in ["A","B"]]

进一步，可以在规则外定义SAMPLES=["A","B"]，则规则内的输入可以写成bam=["sorted_reads/{}.bam".format(sample) for sample in SAMPLES]. 由于列表推导式比较常用，但是写起来有点麻烦，snakemake定义了expand进行简化, 上面可以继续改写成expand("sorted_reads/{sample}.bam", sample=SAMPLES)

那么最后的规则就是

SAMPLES=["A","B"]
rule bcftools_call:
    input:
        fa="data/genome.fa",
        bam=expand("sorted_reads/{sample}.bam", sample=SAMPLES),
        bai=expand("sorted_reads/{sample}.bam.bai", sample=SAMPLES)
    output:
        "calls/all.vcf"
    shell:
        "samtools mpileup -g -f {input.fa} {input.bam} | "
        "bcftools call -mv - > {output}"

小练习：请用snakemake生成当前的DAG图。

第六步：编写报告

上面都是在规则里执行shell脚本，snakemake的一个优点就是可以在规则里面写Python脚本，只需要把shell改成run，此外还不需要用到引号。

rule report:
    input:
        "calls/all.vcf"
    output:
        "report.html"
    run:
        from snakemake.utils import report
        with open(input[0]) as vcf:
            n_calls = sum(1 for l in vcf if not l.startswith("#"))

        report("""
        An example variant calling workflow
        ===================================

        Reads were mapped to the Yeast
        reference genome and variants were called jointly with
        SAMtools/BCFtools.

        This resulted in {n_calls} variants (see Table T1_).
        """, output[0], T1=input[0])

这里还用到了snakemake的一个函数，report，可以对markdown语法进行渲染生成网页。

第七步：增加目标规则

之前运行snakemake都是用的snakemake 目标文件名, 除了目标文件名外，snakemake还支持规则名作为目标。通常我们按照习惯定义一个all规则，来生成结果文件。

rule all:
    input:
        "report.html

基础部分小结：

总结下学习过程，知识点如下：

Snakemake基于规则执行命令，规则一般由input, output,shell三部分组成。
Snakemake可以自动确定不同规则的输入输出的依赖关系，根据时间戳来判断文件是否需要重新生成
Snakemake以{sample}.fa形式进行文件名通配，用{wildcards.sample}获取sample的实际文件名
Snakemake用expand()生成多个文件名，本质是Python的列表推导式
Snakemake可以在规则外直接写Python代码，在规则内的run里也可以写Python代码。
Snakefile的第一个规则通常是rule all，因为默snakemake默认执行第一条规则

进阶：对流程进一步修饰

在基础部分中，我们完成了流程的框架，下一步则是对这个框架进行不断完善，比如说编写配置文件，声明不同rule的消耗资源，记录运行日志等。

第一步：声明所需进程数

对于一些工具，比如说bwa，多进程或者多线程运行能够大大加速计算。snakemake使用threads来定义当前规则所用的进程数，我们可以对之前的bwa_map增加该指令。

rule bwa_map:
    input:
        "data/genome.fa",
        "data/samples/{sample}.fastq"
    output:
        "mapped_reads/{sample}.bam"
    threads:8
    shell:
        "bwa mem -t {threads} {input} | samtools view -Sb - > {output}"

声明threads后，Snakemake任务调度器就会在程序运行的时候是否并行多个任务。这主要和参数中的--cores相关。比如说

snakemake --cores 10

由于总体上就分配了10个核心，于是一次就只能运行一个需要消耗8个核心的bwa_map。但是当其中一个bwa_map运行完毕，这个时候snakemaek就会同时运行一个消耗8个核心的bwa_map和没有设置核心数的samtools_sort,来保证效率最大化。因此对于需要多线程或多进程运行的程序而言，将所需的进程单独编码，而不是硬编码到shell命令中，能够更有效的使用资源。

第二步：配置文件

之前的SAMPLES写在了snakefile，也就是意味这对于不同的项目，需要对snakefile进行修改，更好的方式是用一个配置文件。配置文件可以用JSON或YAML语法进行写，然后用configfile: "config.yaml"读取成字典，变量名为config。

config.yaml内容为:

samples:
    A: data/samples/A.fastq
    B: data/samples/B.fastq

YAML使用缩进表示层级关系，其中缩进必须用空格，但是空格数目不重要，重要的是所今后左侧对齐。上面的YAML被Pytho读取之后，以字典保存，形式为{'samples': {'A': 'data/samples/A.fastq', 'B': 'data/samples/B.fastq'}}

而snakefile也可以改写成

configfile: "config.yaml"
...
rule bcftools_call:
    input:
        fa="data/genome.fa",
        bam=expand("sorted_reads/{sample}.bam", sample=config["samples"]),
        bai=expand("sorted_reads/{sample}.bam.bai", sample=config["smaples])
    output:
        "calls/all.vcf"
    shell:
        "samtools mpileup -g -f {input.fa} {input.bam} | "
        "bcftools call -mv - > {output}"

虽然sample是一个字典，但是展开的时候，只会使用他们的key值部分。

关于YAML格式的教程，见阮一峰的博客：http://www.ruanyifeng.com/blog/2016/07/yaml.html

第三步：输入函数

既然已经把文件路径都存入到配置文件中，那么可以进一步的改写之前的bwa_map里的输入部分。也就是从字典里面提取到存放的路径。最开始我就是打算这样写

rule bwa_map:
    input:
        "data/genome.fa",
        config['samples']["{sample}"]
    output:
        "mapped_reads/{sample}.bam"
    threads:8
    shell:
        "bwa mem -t {threads} {input} | samtools view -Sb - > {output}"

毕竟"{sample}"从理论上应该得到sample的名字。但是snakemake -np显示出现错误

KeyError in line 11 of /home6/zgxu/snakemake-snakemake-tutorial-623791d7ec6d/Snakefile:
'{sample}'

这可能是{sample}的形式只能在匹配的时候使用，而在获取值的时候应该用基础第三步的wildcards.sample形式。于是继续改成config["samples"][wildcards.sample]。然而还是出现了错误。

name 'wildcards' is not defined

为了理解错误的原因，并找到解决方法，我们需要理解Snakemake工作流程执行的一些原理，它执行分为三个阶段

在初始化阶段，工作流程会被解析，所有规则都会被实例化
在DAG阶段，也就是生成有向无环图，确定依赖关系的时候，所有的通配名部分都会被真正的文件名代替。
在调度阶段，DAG的任务按照顺序执行

也就是说在初始化阶段，我们是无法获知通配符所指代的具体文件名，必须要等到第二阶段，才会有wildcards变量出现。也就是说之前的出错的原因都是因为第一个阶段没通过。这个时候就需要输入函数推迟文件名的确定，可以用Python的匿名函数，也可以是普通的函数

rule bwa_map:
    input:
        "data/genome.fa",
        lambda wildcards: config["samples"][wildcards.sample]
    output:
        "mapped_reads/{sample}.bam"
    threads: 8
    shell:
        "bwa mem -t {threads} {input} | samtools view -Sb - > {output}"

第四步：规则参数

有些时候，shell命令不仅仅是由input和output中的文件组成，还需要一些静态的参数设置。如果把这些参数放在input里，则会因为找不到文件而出错，所以需要专门的params用来设置这些参数。

rule bwa_map:
    input:
        "data/genome.fa",
        lambda wildcards: config["samples"][wildcards.sample]
    output:
        "mapped_reads/{sample}.bam"
    threads: 8
    params:
        rg="@RG\tID:{sample}\tSM:{sample}"
    shell:
        "bwa mem -R '{params.rg}' '-t {threads} {input} | samtools view -Sb - > {output}"

写在rule中的params的参数，可以在shell命令中或者是run里面的代码进行调用。

第五步：日志文件

当工作流程特别的大，每一步的输出日志都建议保存下来，而不是输出到屏幕，这样子出错的时候才能找到出错的所在。snakemake非常贴心的定义了log,用于记录日志。好处就在于出错的时候，在log里面定义的文件是不会被snakemake删掉，而output里面的文件则是会被删除。继续修改之前的bwa_map.

rule bwa_map:
    input:
        "data/genome.fa",
        lambda wildcards: config["samples"][wildcards.sample]
    output:
        "mapped_reads/{sample}.bam"
    params:
        rg="@RG\tID:{sample}\tSM:{sample}"
    log:
        "logs/bwa_mem/{sample}.log"
    threads: 8
    shell:
        "(bwa mem -R '{params.rg}' -t {threads} {input} | "
        "samtools view -Sb - > {output}) 2> {log}"

这里将标准错误重定向到了log中。

第六步：临时文件和受保护的文件

由于高通量测序的数据量通常很大，因此很多无用的中间文件会占据大量的磁盘空间。而特异在执行结束后写一个shell命令清除不但写起来麻烦，而且也不好管理。Snakemake使用temp()来将一些文件标记成临时文件，在执行结束后自动删除。

rule bwa_map:
    input:
        "data/genome.fa",
        lambda wildcards: config["samples"][wildcards.sample]
    output:
        temp("mapped_reads/{sample}.bam")
    params:
        rg="@RG\tID:{sample}\tSM:{sample}"
    log:
        "logs/bwa_mem/{sample}.log"
    threads: 8
    shell:
        "(bwa mem -R '{params.rg}' -t {threads} {input} | "
        "samtools view -Sb - > {output}) 2> {log}"

修改之后的代码，当samtools_sort运行结束后就会把"mapped_reads"下的BAM删掉。同时由于比对和排序都比较耗时，得到的结果要是不小心被误删就会浪费大量计算时间，最后的方法就是用protected()保护起来

rule samtools_sort:
    input:
        "mapped_reads/{sample}.bam"
    output:
        protected("sorted_reads/{sample}.bam")
    shell:
        "samtools sort -T sorted_reads/{wildcards.sample} "
        "-O bam {input} > {output}"

最后，snakemake就会在文件系统中对该输出文件写保护，也就是最后的权限为-r--r--r--, 在删除的时候会问你rm: remove write-protected regular file ‘A.bam’?.

进阶部分小结

使用threads:定义不同规则所需线程数，有利于snakemake全局分配任务，最优化任务并行
使用configfile:读取配置文件，将配置和流程分离
snakemake在DAG阶段才会知道通配的具体文件名，因此在input和output出现的wildcards就需要推迟到第二步。
在log里定义的日志文件，不会因任务失败而被删除
在params定义的参数，可以在shell和run中直接调用
temp()中的文件运行结束后会被删除，而protected()中的文件会有写保护，避免意外删除。

高级：实现流程的自动部署

上面的分析流程都是基于当前环境下已经安装好要调用的软件，如果你希望在新的环境中也能快速部署你的分析流程，那么你需要用到snakmake更高级的特性，也就是为每个rule定义专门的运行环境。

全局环境

我建议你在新建一个snakemake项目时，都先用conda create -n 项目名 python=版本号创建一个全局环境，用于安装一些常用的软件，例如bwa、samtools、seqkit等。然后用如下命令将环境导出成yaml文件

conda env export -n 项目名 -f environment.yaml

那么当你到了一个新的环境，你就可以用下面这个命令重建出你的运行环境

conda env create -f environment.yaml

局部环境

当然仅仅依赖于全局环境或许还不够，对于不同的规则(rule)可能还有Python2和Python3的区别，所以你还得为每个规则创建环境。

snakemake有一个参数--use-conda,会解析rule中的conda规则，根据其提供的yaml文件安装特定版本的工具，以基础第一步的序列比对为例，

rule bwa_map:
    input:
        "data/genome.fa",
        "data/samples/A.fastq"
    output:
        "mapped_reads/A.bam"
    conda:
        "envs/map.yaml"
    shell:
        """
        mkdir -p mapped_reads
        bwa mem {input} | samtools view -Sb - > {output}
        """

随后在snakemake执行的目录下创建envs文件夹，增加map.yaml, 内容如下

name: map
channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - defaults
dependencies:
  - bwa=0.7.17
  - samtools=1.9
show_channel_urls: true

注意: YAML文件的name行不是必要的，但是建议加上。

那么当你用snakmake --use-conda执行时，他就会在.snakemake/conda下创建专门的conda环境用于处理当前规则。对于当前项目，该conda环境创建之后就会一直用于该规则，除非yaml文件发生改变。

如果你希望在实际运行项目之前先创建好环境，那么可以使用--create-envs-only参数。

由于默认情况下，每个项目运行时只会在当前的.snakemake/conda查找环境或者安装环境，所以在其他目录执行项目时，snakemake又会重新创建conda环境，如果你担心太占地方或者环境太大，安装的时候太废时间，你可以用--conda-prefix指定专门的文件夹。

代码总结

最后的代码如下

configfile: "config.yaml"


rule all:
    input:
        "report.html"


rule bwa_map:
    input:
        "data/genome.fa",
        lambda wildcards: config["samples"][wildcards.sample]
    output:
        temp("mapped_reads/{sample}.bam")
    params:
        rg="@RG\tID:{sample}\tSM:{sample}"
    log:
        "logs/bwa_mem/{sample}.log"
    threads: 8
    shell:
        "(bwa mem -R '{params.rg}' -t {threads} {input} | "
        "samtools view -Sb - > {output}) 2> {log}"


rule samtools_sort:
    input:
        "mapped_reads/{sample}.bam"
    output:
        protected("sorted_reads/{sample}.bam")
    shell:
        "samtools sort -T sorted_reads/{wildcards.sample} "
        "-O bam {input} > {output}"


rule samtools_index:
    input:
        "sorted_reads/{sample}.bam"
    output:
        "sorted_reads/{sample}.bam.bai"
    shell:
        "samtools index {input}"


rule bcftools_call:
    input:
        fa="data/genome.fa",
        bam=expand("sorted_reads/{sample}.bam", sample=config["samples"]),
        bai=expand("sorted_reads/{sample}.bam.bai", sample=config["samples"])
    output:
        "calls/all.vcf"
    shell:
        "samtools mpileup -g -f {input.fa} {input.bam} | "
        "bcftools call -mv - > {output}"


rule report:
    input:
        "calls/all.vcf"
    output:
        "report.html"
    run:
        from snakemake.utils import report
        with open(input[0]) as vcf:
            n_calls = sum(1 for l in vcf if not l.startswith("#"))

        report("""
        An example variant calling workflow
        ===================================

        Reads were mapped to the Yeast
        reference genome and variants were called jointly with
        SAMtools/BCFtools.

        This resulted in {n_calls} variants (see Table T1_).
        """, output[0], T1=input[0])

执行snakemake

写完Snakefile之后就需要用snakemake执行。snakemake的选项非常多，这里列出一些比较常用的运行方式。

运行前检查潜在错误：

snakemake -n
snakemake -np
snakemake -nr
# --dryrun/-n: 不真正执行
# --printshellcmds/-p: 输出要执行的shell命令
# --reason/-r: 输出每条rule执行的原因

直接运行:

snakemake
snakemake -s Snakefile -j 4
# -s/--snakefile 指定Snakefile，否则是当前目录下的Snakefile
# --cores/--jobs/-j N: 指定并行数，如果不指定N，则使用当前最大可用的核心数

强制重新运行：

snakemake -f
# --forece/-f: 强制执行选定的目标，或是第一个规则，无论是否已经完成
snakemake -F
# --forceall/-F: 也是强制执行，同时该规则所依赖的规则都要重新执行
snakemake -R some_rule
# --forecerun/-R TARGET: 重新执行给定的规则或生成文件。当你修改规则的时候，使用该命令

可视化：

snakemake --dag  | dot -Tsvg > dag.svg
snakemake --dag  | dit -Tpdf > dag.pdf
# --dag: 生成依赖的有向图
snakemake --gui 0.0.0.0:2468
# --gui: 通过网页查看运行状态

集群执行：

snakemake --cluster "qsub -V -cwd -q 投递队列" -j 10
# --cluster /-c CMD: 集群运行指令
## qusb -V -cwd -q， 表示输出当前环境变量(-V),在当前目录下运行(-cwd), 投递到指定的队列(-q), 如果不指定则使用任何可用队列
# --local-cores N: 在每个集群中最多并行N核
# --cluster-config/-u FILE: 集群配置文件

参考资料

snakemake官方文档
用snakemake写RNA-Seq流程
阮一峰的YAML教程
阮一峰的Make命令教程
conda管理环境

你可能感兴趣的:(生物信息学)

2025.03.22【读书笔记】| fastq-multx：高效barcode拆分数据解决工具穆易青读书笔记数据处理读书笔记 linux 运维服务器
文章目录1.工具介绍为什么需要`fastq-multx`？`fastq-multx`的特点2.安装方式通过源代码编译安装使用包管理器安装3.使用命令基本命令高级参数设置结语1.工具介绍在生物信息学的世界里，工具的选择至关重要。今天，我们要介绍的这个工具，就是fastq-multx，一个用于高效barcode去复用和demultiplex的解决方案。fastq-multx是一个专门设计用于处理高通量
R语言绘图 | 环状柱状图+散点柱状组合图绘制小杜的生信筆記 R语言精美图形绘制教程 r语言开发语言科研绘图生物信息学
原文：R语言绘图|环状柱状图+散点柱状组合图绘制(点击访问)小杜的生信筆記，主要发表或收录生物信息学教程，以及基于R分析和可视化（包括数据分析，图形绘制等）；分享感兴趣的文献和学习资料!!
计算基因组学需要计算机知识吗,生物信息学——计算基因组学的一些参考书 weixin_39610422 计算基因组学需要计算机知识吗
有两个都可以在新浪爱问资料Bioinformatics.For.Dummies.2nd.Ed.2007.pdfAnIntroductiontoBioinformaticsAlgorithms.pdf另外看到Virginia大学的一些课程The2012ComputationalGenomicsCoursehasbeenrescheduledtoNovember28-December4,2012用mo
Python在生物信息学中的应用：基因组学与蛋白质组学 PyTechShare Python教程-基础 python
摘要：本文主要介绍了Python在生物信息学中的应用，特别是在基因组学和蛋白质组学领域。文章详细讲述了各个原理，并以代码实例展示了实际应用。我们将探讨如何利用Python分析基因组数据，解析蛋白质序列，以及进行比对分析等。文章目录1.引言2.分析基因组数据2.1读取和解析FASTA文件2.2基因频率分析2.3代码实例3.蛋白质组学3.1解析蛋白质序列3.2蛋白质序列比对3.3代码实例4.总结1.引
数组中最长递增子序列问题的深入研究 cloudman08 算法
目录摘要一、引言二、问题定义三、问题分析3.1暴力枚举法的困境3.2动态规划的应用3.3二分查找优化四、算法设计4.1动态规划算法4.2二分查找优化算法4.3代码实现（Python）4.4代码解释五、复杂度分析5.1动态规划算法复杂度5.2二分查找优化算法复杂度六、实际应用6.1数据分析6.2生物信息学6.3信号处理七、结论摘要在数组处理的算法领域，寻找最长递增子序列是一个经典且具有广泛应用的问题
基于多模态大模型的不完整多组学数据特征选择策略 m0_65156252 人工智能
基于多模态大模型的不完整多组学数据特征选择策略是当前生物信息学和精准医学领域的一个前沿问题。在多组学数据中，通常包括不同层次的生物信息（如基因组、转录组、蛋白质组、代谢组等），这些数据通常存在缺失、噪声或不一致的情况。因此，如何有效地在这些不完整的数据中进行特征选择，是实现精确疾病预测和个性化治疗的关键。结合多模态大模型（如自监督学习、图神经网络、Transformer等）可以有效解决这一问题。以
生物信息学工作流（Bioinformatics Workflow）：概念、历史、现状与展望？ lisw05 生物信息学生物信息学工作流
李升伟整理1.引言生物信息学工作流是指通过一系列计算步骤和工具，对生物学数据进行处理、分析和解释的系统化流程。随着高通量测序技术的普及和生物数据的爆炸式增长，生物信息学工作流在基因组学、转录组学、蛋白质组学等领域中扮演着至关重要的角色。它不仅提高了数据分析的效率，还为生命科学研究提供了新的视角和方法。2.生物信息学工作流的概念生物信息学工作流的核心是将复杂的生物学数据分析任务分解为多个可管理的步骤
LM_Funny-2-01 递推算法：从数学基础到跨学科应用王旭·wangxu_a 算法
目录第一章递推算法的数学本质1.1形式化定义与公理化体系定理1.1(完备性条件)1.2高阶递推的特征分析案例：Gauss同余递推4第二章工程实现优化技术2.1内存压缩的革新方法滚动窗口策略分块存储技术2.2异构计算加速方案GPU并行递推量子计算原型第三章跨学科应用案例3.1密码学中的递推构造混沌流密码系统3.2生物信息学的序列分析DNA甲基化预测第一章递推算法的数学本质1.1形式化定义与公理化体系
R语言安装生物信息数据库包 Bio Coder R语言 r语言数据库
R语言安装生物信息数据库包在生物信息学领域，R语言是重要的数据分析工具。今天，我们就来聊聊在R语言环境下，安装生物信息数据库包（org.*.*.db）的步骤。为什么要安装org.*.*.db系列包生物信息学分析中，我们常处理基因相关数据，比如基因功能注释、位置、参与的生物学通路等。org.*.*.db系列包就像基因百科全书，提供不同物种的基因注释信息。比如研究人类基因时，能帮我们快速获取基因别名、
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
Perl 语言入门学习指南：探索高效脚本编程的奥秘我的运维人生简约运维 perl Perl编程脚本语言文本处理 Perl基础语法
引言Perl，全称PracticalExtractionandReportLanguage，是一种功能强大的编程语言，特别擅长于文本处理、报告生成以及系统自动化管理任务。自1987年诞生以来，Perl凭借其灵活性、强大的内置功能库和广泛的社区支持，在Web开发、生物信息学、网络管理等多个领域发挥着重要作用。本文旨在为初学者提供一份Perl语言入门学习指南，帮助大家快速掌握这门强大的脚本语言。一、P
gseapy python包GO、KEGG富集(注释)分析 loong_XL 生信 python golang 开发语言
文档案例参考：https://gseapy.readthedocs.io/en/latest/gseapy_example.html#Over-representation-analysis-by-Enrichr-web-services简介：富集分析是一种常见的生物信息学分析方法，通过比较一个给定的基因集（如一组显著差异表达基因）与已知的生物过程、通路或功能的数据库，来发现哪些过程、通路或功能与
Java 大视界 -- Java 大数据在生物信息学中的应用与挑战（67）青云交大数据新视界 Java 大视界大数据生物信息学基因序列分析蛋白质结构预测数据质量计算资源机器学习
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
三甲医院大型生信服务器多配置方案剖析与应用（2024版） Allen_LVyingbo 数智化医院2024 服务器数据库运维
一、引言1.1研究背景与意义在当今数智化时代，生物信息学作为一门融合生物学、计算机科学和信息技术的交叉学科，在三甲医院的科研和临床应用中占据着举足轻重的地位。随着高通量测序技术、医学影像技术等的飞速发展，生物医学数据呈爆发式增长，这些数据涵盖了基因组、蛋白质组、代谢组等多个层面的信息，为医学研究和临床诊断提供了前所未有的机遇与挑战。从科研角度来看，生物信息学助力三甲医院开展前沿性的医学研究。通过对
Python3 【集合】项目实战：3 个新颖的学习案例李智 - 重庆 Python 精讲精练 -从入门到实战 python 经验分享案例学习编程技巧
Python3【集合】项目实战：3个新颖的学习案例以下是3个应用“Python集合”知识的综合应用项目，这些项目具有新颖性、前瞻性和实用性，每个项目都包含完整的代码、解释说明、测试案例和执行结果。基因序列比对文章推荐系统运行日志分析项目1：基因序列比对（集合运算与去重）项目描述在生物信息学中，比对两个基因序列的相似性。使用集合的交集和并集计算相似度。代码实现#基因序列（简化为字符串集合）seque
AI人工智能深度学习算法：在生物信息学中的应用 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能深度学习算法：在生物信息学中的应用关键词：人工智能、深度学习、生物信息学、基因组学、蛋白质结构预测、药物发现、个性化医疗文章目录AI人工智能深度学习算法：在生物信息学中的应用1.背景介绍2.核心概念与联系2.1人工智能（AI）2.2机器学习（ML）2.3深度学习（DL）2.4生物信息学2.5应用领域3.核心算法原理&具体操作步骤3.1算法原理概述3.1.1卷积神经网络（CNN）3.1.
Spark GraphX原理与代码实例讲解 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
SparkGraphX原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着互联网和大数据技术的迅猛发展，社交网络、推荐系统、生物信息学、图分析等领域对图计算的需求日益增长。传统的图处理技术如GraphLab、Neo4j等，虽然功能强大，但往往存在扩展性差、易用性低、计算效率不足等问题。为了解决这些问题，A
R语言的计算机基础 java熊猫包罗万象 golang 开发语言后端
R语言计算机基础引言R语言是一种用于数据分析、统计计算和图形显示的编程语言。它被广泛应用于统计学、数据科学、生态学、生物信息学等多个领域。由于其强大的功能和灵活性，R语言在学术界和工业界都得到了广泛的认可和应用。本文将从R语言的基本概念、数据类型、数据结构、函数、控制结构、图形绘制等方面进行介绍，帮助读者掌握R语言的基础知识。一、R语言的基本概念R语言源于新西兰的维特利大学，最初由RobertGe
Web APP 阶段性综述预测模型的开发与应用研究 APP construction web app
WebAPP阶段性综述当前，WebAPP主要应用于电脑端，常被用于部署数据分析、机器学习及深度学习等高算力需求的任务。在医学与生物信息学领域，WebAPP扮演着重要角色。在生物信息学领域，诸多工具以WebAPP的形式呈现，相较之下，医学领域的此类应用数量相对较少。在医学和生物信息学的学术论文中，WebAPP是展示研究成果的有效工具，并且还能部署到网络上，服务于实际应用场景。ShinyAPP平台特性
推荐一份生物信息学入门很好的参考材料小明的数据分析笔记本
链接是https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/这个是康涅狄格大学（UniversityofConnecticut）提供的一份教程，主要的内容包括1、生物信息学中经常用到的文件格式image.png2、linux操作系统和R语言的基础知识image.png3、转录组数据的处理流程image.png这里包括有参
【机器学习】朴素贝叶斯方法的概率图表示以及贝叶斯统计中的共轭先验方法 Lossya 机器学习概率论人工智能朴素贝叶斯共轭先验
引言朴素贝叶斯方法是一种基于贝叶斯定理的简单概率模型，它假设特征之间相互独立。文章目录引言一、朴素贝叶斯方法的概率图表示1.1节点表示1.2边表示1.3无其他连接1.4总结二、朴素贝叶斯的应用场景2.1文本分类2.2推荐系统2.3医疗诊断2.4欺诈检测2.5情感分析2.6邮件过滤2.7信息检索2.8生物信息学三、朴素贝叶斯的优点四、朴素贝叶斯的局限性4.1特征独立性假设4.2敏感于输入数据的表示4
零基础入门生信数据分析——导读呆猪儿生信之转录组——上游分析生信之转录组——下游分析学习方法 r语言数据分析数据库数据挖掘需求分析大数据
零基础入门生信数据分析——导读生信数据分析，即生物信息学数据分析，是一个涵盖了生物学、计算机科学、数学和统计学等多个领域的交叉学科。它主要利用计算机算法和统计方法对生物学数据进行处理、分析和解释，以揭示生物分子、细胞、组织和生物体等各个层次的生物学规律和机制。本帖主要是为生信数据分析的各个分析点提供跳转链接（简单说就是提供了一个目录供大家选择自己想要的知识点可以直接跳转）关联的生信数据分析的分析点
NCBI BLAST+：分析生物内在编码的工具 belldeep 生物信息学 Blast 生物数据分析
在生物信息学的广阔领域中，NCBI（NationalCenterforBiotechnologyInformation，美国国立生物技术信息中心）开发的BLAST（BasicLocalAlignmentSearchTool，基本局部比对搜索工具）无疑是一把不可或缺的分析工具。NCBIBLAST+，作为其最新版本2.16.0+，为科研工作者提供了一套强大的序列比对和搜索功能，帮助解析生命现象背后的遗
【图论简介】 WA-自动机图论深度优先算法架构后端前端面试
图论简介图论是一门数学分支，主要研究图（Graph）的性质、结构和应用。图论在计算机科学、网络理论、优化问题、生物信息学等多个领域都有广泛的应用。本文将简要介绍图论的基本概念、常见算法及其在实际中的应用。一、图的基本概念图（Graph）：图是由一组顶点（Vertices）和连接顶点的边（Edges）组成的结构。可以表示为(G=(V,E))，其中(V)是顶点的集合，(E)是边的集合。根据边的不同属性
生信圆桌：专业生信服务器与平台服务的提供者生信圆桌x生信云服务器服务器人工智能运维
生信圆桌是一个专注于提供生物信息学（生信）服务器和平台服务的领先企业，致力于为全球科研机构、企业和独立研究者提供高性能的生信分析解决方案。随着生物信息学研究对计算资源的需求日益增加，生信圆桌凭借其先进的服务器技术和专业的服务团队，成为了生信领域中不可或缺的合作伙伴。访问生信圆桌,使用生信云。高效分析少走弯路www.tebteb.cc生信圆桌的核心服务高性能生信服务器定制：生信圆桌为客户提供定制化的
用Python实现生信分析——基序（Motif）识别详解写代码的M教授生信分析 python 开发语言
1.什么是基序（Motif）？在生物信息学中，基序（Motif）是指在生物序列（如DNA、RNA或蛋白质序列）中具有特定功能或结构的短序列片段。基序通常在生物进化中得到保留，因为它们在生物学功能中起着重要作用。例如，在DNA序列中，基序可能是一个转录因子结合位点；在蛋白质序列中，基序可能是一个具有特定功能的结构域。基序识别是指从一组生物序列中识别出保守的短序列片段，这对于功能预测、基因调控网络分析
数据结构与算法——动态规划 passion更好数据结构 C++动态规划算法
目录引言最优子结构重叠子问题打家劫舍（LeetCode198题）经典例题1.爬楼梯（LeetCode70题）2.斐波那契数列（LeetCode126题）3.最长公共子序列（LeetCode95题）引言动态规划（DynamicProgramming,简称DP）是一种在数学、计算机科学、经济学和生物信息学等领域广泛使用的算法设计技术。它通过把原问题分解为相对简单的子问题的方式，来求解复杂问题。动态规划
深度学习——概念引入韶光流年都束之高阁深度学习日记深度学习人工智能职场和发展
深度学习深度学习简介深度学习分类根据网络结构划分：循环神经网络卷积神经网络根据学习方式划分：监督学习无监督学习半监督学习根据应用领域划分：计算机视觉自然语言处理语音识别生物信息学深度学习简介深度学习（DeepLearning，DL）是机器学习领域中的一个新的研究方向，主要是通过学习样本数据的内在规律和表示层次，让机器能够具有类似于人类的分析学习能力。深度学习的最终目标是让机器能够识别和解释各种数据
考研调剂：中医生命科学菌心说双脑论
科学网—考研调剂——欢迎研究生调剂到我们的招生专业方向“中西医结合基础”：中医药与肠道菌群、生物信息学等交叉学科-张成岗的博文http://blog.sciencenet.cn/home.php?mod=space&uid=40692&do=blog&id=1281078欢迎各位有志于从事中医生命科学、解码中医、中西医结合以及医学与数学、计算机科学等交叉学科研究的青年才俊加入我们的研究团队，共同见
2020-04-07 liuyang2020
学习小组Day2笔记--linux入门（刘阳）1.为什么学习linux大多数人用的是可视化界面，便捷的windows，linux用户量比较少，但是需要知道，linux的功能相当的强大，对于数据处理、程序运行方面的优势，那是其它的系统无法比拟的，生物信息学数据处理对电脑要求较高，因此学习linux，，嘿嘿，大势所趋。2.linux操作2.1登录远程登录linux服务器，好像有很多连接软件，今天尝试应
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod