垚垚爸爱学习

操作记录-2020-10-30：daizhongye_RNA_seq

隔了一个月又来操作一次，老菜鸟的脑子明显不够用啊。

dir=/f/xudonglab/zexing/projects/daizhongye/RNA_seq/2020_10_29
mkdir -p ${dir}/aligned ${dir}/aligned/ballgown ${dir}/aligned/bam ${dir}/aligned/bam.index ${dir}/aligned/bam.sort ${dir}/aligned/sam ${dir}/fastqc_report ${dir}/GSEA ${dir}/MD5_txt ${dir}/raw ${dir}/scripts_log

1. 检查上传数据的完整性

操作记录如下：

#显示各数据的完整性代码
(base) zexing@DNA:~/projects/daizhongye/RNA_seq/2020_10_29/MD5_txt$ cat md5.txt
efcc57e9ff0bd5c3f4a04dcd01513903  raw/E14_Scr_SL_1.fq.gz
657fe81df85e0f3c246c3bcfbc07a4c3  raw/E14_Scr_SL_2.fq.gz
56808aabfa366957e63df968e586d7bc  raw/E14_shT1_1_1.fq.gz
6497464b97496d6da76d22177bddd672  raw/E14_shT1_1_2.fq.gz
e292972349e7331dc28200421b6a927c  raw/E14_shT1_2_1.fq.gz
366826927ab1ea176d82352daf08f6ba  raw/E14_shT1_2_2.fq.gz
0f132bcf9b81fecb450db1ba33b2f577  raw/E14_shT2_1_1.fq.gz
b16d41d1eabcb03feafce2fd197090b8  raw/E14_shT2_1_2.fq.gz
f201561de55191ebfcf8987f1ae45571  raw/E14_shT2_2_1.fq.gz
99693aa2350c21c1f57b9845740c604e  raw/E14_shT2_2_2.fq.gz
#将各数据的完整代码统一写入待检查的文件中
(base) zexing@DNA:~/projects/daizhongye/RNA_seq/2020_10_29/MD5_txt$ echo "efcc57e9ff0bd5c3f4a04dcd01513903  raw/E14_Scr_SL_1.fq.gz
657fe81df85e0f3c246c3bcfbc07a4c3  raw/E14_Scr_SL_2.fq.gz
56808aabfa366957e63df968e586d7bc  raw/E14_shT1_1_1.fq.gz
6497464b97496d6da76d22177bddd672  raw/E14_shT1_1_2.fq.gz
e292972349e7331dc28200421b6a927c  raw/E14_shT1_2_1.fq.gz
366826927ab1ea176d82352daf08f6ba  raw/E14_shT1_2_2.fq.gz
0f132bcf9b81fecb450db1ba33b2f577  raw/E14_shT2_1_1.fq.gz
b16d41d1eabcb03feafce2fd197090b8  raw/E14_shT2_1_2.fq.gz
f201561de55191ebfcf8987f1ae45571  raw/E14_shT2_2_1.fq.gz
99693aa2350c21c1f57b9845740c604e  raw/E14_shT2_2_2.fq.gz" >check_md5sum.txt
#执行md5sum 命令对其完整性进行检测
(base) zexing@DNA:~/projects/daizhongye/RNA_seq/2020_10_29$ md5sum -c check_md5sum.txt
raw/E14_Scr_SL_1.fq.gz: OK
raw/E14_Scr_SL_2.fq.gz: OK
raw/E14_shT1_1_1.fq.gz: OK
raw/E14_shT1_1_2.fq.gz: OK
raw/E14_shT1_2_1.fq.gz: OK
raw/E14_shT1_2_2.fq.gz: OK
raw/E14_shT2_1_1.fq.gz: OK
raw/E14_shT2_1_2.fq.gz: OK
raw/E14_shT2_2_1.fq.gz: OK
raw/E14_shT2_2_2.fq.gz: OK

2. 使用FastQC软件对数据进行质控

vim新建fastqc_script脚本如下：

#上面一行宣告这个script的语法使用bash语法，当程序被执行时，能够载入bash的相关环境配置文件。
# Program:
#       This program is used for analysis of RNA-seq data by FastQC.
#History:
# 2020/10/29         zexing              First release
#fastqc命令为质控命令
#Usage: fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
#简写代码：fastqc -t 16 -o  seqfile1
#调用程序fastqc，参数-t设置线程数为8，参数-o设置结果输出的目录，参数-c可以加入污染物选项（接头信息），最后为读入文件。
dir=/f/xudonglab/zexing/projects/daizhongye/RNA_seq/2020_10_29
fastqc -t 16 -o ${dir}/fastqc_report/ ${dir}/raw/*.fq.gz

后台运行fastqc_scrip如下脚本：

(base) zexing@DNA:~/projects/daizhongye/RNA_seq/2020_10_29/scripts_log$ nohup bash fastqc_script > fastqc_script_log &
[1] 176237

3. 使用Hisat2软件对测序结果进行比对

vim新建hisat2_script脚本如下：

#! /bin/bash
#上面一行宣告这个script的语法使用bash语法，当程序被执行时，能够载入bash的相关环境配置文件。
# Program:
#       This program is used for aligning of RNA-seq data.
#History:
# 2020/10/30         zexing              First release
#对变量${i}利用 for ${i} in A B C D 的方式遍历指定
#hisat2命令为序列比对命令
#Usage: hisat2 [options]* -x  {-1  -2  | -U  | --sra-acc } [-S ]
#简写代码：hisat2 -t -p 8 -x  -1 fq.gz -2 fq.gz -S 
#调用程序hisat2，参数-t显示时间，参数-p设定线程数，参数-x指定参考基因组索引文件的前缀（目录及文件前缀）
#参数-1指定双向测序的第一条.fq.gz测序数据，如果多组数据，使用逗号将文件分隔
#参数-2指定双向测序的第二条.fq.gz测序数据，如果多组数据，使用逗号将文件分隔
#参数-S指定比对结果的输出目录及名称
dir=/f/xudonglab/zexing/projects/daizhongye/RNA_seq/2020_10_29
for i in E14_Scr_SL E14_shT1_1 E14_shT1_2 E14_shT2_1 E14_shT2_2
do
hisat2 -t -p 16 -x /f/xudonglab/zexing/reference/UCSC_mm10/hisat2_index/hisat2_index_mm10 \
-1 ${dir}/raw/${i}_1.fq.gz \
-2 ${dir}/raw/${i}_2.fq.gz \
-S ${dir}/aligned/sam/${i}.sam
done

后台运行hisat2_script脚本如下：

(base) zexing@DNA:~/projects/daizhongye/RNA_seq/2020_10_29/scripts_log$ nohup bash hisat2_script > hisat2_script_log &
[1] 180160

4. 使用SAMtools软件对文件进行格式转换、排序

vim新建samtools_script如下：

#!/bin/bash
#上面一行宣告这个script的语法使用bash语法，当程序被执行时，能够载入bash的相关环境配置文件。
# Program:
#这里写一个脚本，将samtools的view、sort、index和flagstat四个命令串联在一起，对RNA-seq数据批量处理。
#History:
# 2020/10/30         李泽兴      First release
#对变量${i}利用 for ${i} in A B C D 的方式遍历指定
#samtools view为格式转换命令
#Usage: samtools view [options]  |  |  [region...]
#-@设置线程数为8， -S输入sam文件，-1b使用快速压缩比生成bam文件，-o设定标准输出文件名。
#简写代码：samtools view -@ 8 -S {$i}.sam -1b -o {$i}.bam
#samtools sort为排序命令
#Usage: samtools sort [options..] [in.bam]
#-@设置线程数为8，-l设置压缩比为5，-o设定标准输出文件名，最后一个为输入.bam文件，该命令默认为染色体位置排序，不影响后期操作。
#简写代码：samtools sort -@ 8 -l 5 -o {$i}.bam.sort {$i}.bam
#index为建立索引命令，目前还不知道这样建立索引有何用处，暂且写下来以备后续使用。
#Usage: samtools index [-bc] [-m INT]  
#-@设置线程数为8，输入bam文件，输出index文件。
#简写代码：samtools index -@ 8 {$i}.bam.sort {$i}.bam.index
#flagstat为查看比对情况命令，目前暂且对这部分不是很熟悉，暂且写下来以备后续使用。
#Usage: samtools flagstat [options] 
#-@设置线程数为8，对于输出内容重定向写入>指定文件
#简写代码：samtools flagstat -@ 8 {$i}.bam.sort > {$i}.bam.flagstat
dir=/f/xudonglab/zexing/projects/daizhongye/RNA_seq/2020_10_29/aligned
for i in E14_Scr_SL E14_shT1_1 E14_shT1_2 E14_shT2_1 E14_shT2_2
do
samtools view -@ 16 -S ${dir}/sam/${i}.sam -1b -o ${dir}/bam/${i}.bam
samtools sort -@ 16 -l 5 -o ${dir}/bam.sort/${i}.bam.sort ${dir}/bam/${i}.bam
samtools index -@ 16 ${dir}/bam.sort/${i}.bam.sort ${dir}/bam.index/${i}.bam.index
samtools flagstat -@ 16 ${dir}/bam.sort/${i}.bam.sort > ${dir}/${i}.bam.flagstat
done

后台运行samtools_script脚本如下：

#后台运行命令如下：
 zexing@DNA:~/projects/daizhongye/RNA_seq/2020_10_29/scripts_log$ nohup bash samtools_script > samtools_script_log &
[3] 6353

5. 使用Stringtie软件进行拼接和定量

vim新建stringtie_script如下：

#!/bin/bash
#上面一行宣告这个script的语法使用bash语法，当程序被执行时，能够载入bash的相关环境配置文件。
#program
#     This program is to perform HTSeq-count assay for RNA-seq data.
#History
#     2020/10/30       zexing            First release
#对变量${i}利用 for ${i} in A B C D 的方式遍历指定
#创建针对不同样品的ballgown/"$i"目录，以存放输出结果
#stringtie为转录本拼接和定量的软件
#利用stringtie分别输出gene count数目和FPKM值，gene count数用户基因差异分析，FPKM值为基因表达值，用于heatmap等绘制
#Usage: stringtie  [options]
#aligned_reads.bam 是输入文件，该输入文件要求必须按基因组位置排序
#参数-o []，设置StringTie组装转录本的输出GTF文件的路径和文件名。
#参数-p 指定组装转录本的线程数（CPU）
#参数-G 使用参考注释基因文件指导组装过程，格式GTF/GFF3。输出文件中既包含已知表达的转录本，也包含新的转录本。
#参数-B 应用该选项，则会输出Ballgown输入表文件（* .ctab），其中包含用-G选项给出的参考转录本的覆盖率数据。
#参数-e 限制reads比对的处理，仅估计和输出与用-G选项给出的参考转录本匹配的组装转录本。使用该选项，则会跳过处理与参考转录本不匹配的组装转录本，这将大大的提升了处理速度。
#参数-A  输出基因丰度的文件（制表符分隔格式）
#简写代码：stringtie {$i}.bam.sort -o path/name.gtf -p 16 -G gene.gtf -eB -A path/name.tab
#此次主要输出两个文件：gtf文件用于转换gene count文件；tab文件包含FPKM数值。
dir=/f/xudonglab/zexing/projects/daizhongye/RNA_seq/2020_10_29/aligned
for i in E14_Scr_SL E14_shT1_1 E14_shT1_2 E14_shT2_1 E14_shT2_2
do
mkdir ${dir}/ballgown/"$i"
stringtie ${dir}/bam.sort/"$i".bam.sort -o ${dir}/ballgown/"$i"/"$i".gtf \
-p 16 -G /f/xudonglab/zexing/reference/UCSC_mm10/mm10_genes.gtf -e -B \
-A ${dir}/ballgown/"$i"/"$i".gene.tab
done

后台运行stringtie_script脚本如下

(base) zexing@DNA:~/projects/daizhongye/RNA_seq/2020_10_29/scripts_log$ nohup bash stringtie_script > stringtie_script_log &
[1] 36868

6. 使用prepDE.py脚本提取read counts数值

注意：prepDE.py为python2的脚本，应该先将python设置为低版本后再运行脚本。
操作记录如下：

#从之前的文件夹中将prepDE.py脚本拷贝至当前文件夹中的ballgown子文件夹中
(base) zexing@DNA:~/projects/daizhongye/RNA_seq/2020_10_29/aligned/ballgown$  cp /f/xudonglab/zexing/projects/zhaoxiujuan/aligned/ballgown_1/prepDE.py ./

#退出当前conda环境
(base) zexing@DNA:~/projects/daizhongye/RNA_seq/2020_10_29/aligned/ballgown$ conda deactivate

#检查服务器中的python版本信息
zexing@DNA:~/projects/daizhongye/RNA_seq/2020_10_29/aligned/ballgown$ python --version
Python 2.7.12

#使用python命令直接运行脚本
zexing@DNA:~/projects/daizhongye/RNA_seq/2020_10_29/aligned/ballgown$ python prepDE.py

#查看运行结果
zexing@DNA:~/projects/daizhongye/RNA_seq/2020_10_29/aligned/ballgown$ ll
total 1.8M
drwxrwxr-x 7 zexing zexing 4.0K 10月 30 13:02 .
drwxrwxr-x 8 zexing zexing 4.0K 10月 29 16:26 ..
drwxrwxr-x 3 zexing zexing 4.0K 10月 30 12:46 E14_Scr_SL
drwxrwxr-x 2 zexing zexing 4.0K 10月 30 12:48 E14_shT1_1
drwxrwxr-x 2 zexing zexing 4.0K 10月 30 12:51 E14_shT1_2
drwxrwxr-x 2 zexing zexing 4.0K 10月 30 12:55 E14_shT2_1
drwxrwxr-x 2 zexing zexing 4.0K 10月 30 12:59 E14_shT2_2
-rw-rw-r-- 1 zexing zexing 794K 10月 30 13:02 gene_count_matrix.csv
-rw-rw-r-- 1 zexing zexing  12K 10月 30 12:47 prepDE.py
-rw-rw-r-- 1 zexing zexing 987K 10月 30 13:02 transcript_count_matrix.csv

#其中"gene_count_matrix.csv"即是DESeq2的输入文件。

以下分析在本地机的Rstudio中完成

7. 利用DESeq2包进行差异基因分析

代码如下：

#This script is used for analysis of daizhongye RNA-seq data
#History
# Lizexing           2020-10-30             First release
#genecount文件来源于Stringtie软件分析，后面为本地电脑操作
# DESeq2进行差异分析 ----------------------------------------------------------------

#清空环境变量
rm(list=ls())
#设置工作目录
setwd("G:/daizhongye/RNA-seq/2020_10_29/gene_count/")
#读入基因表达值，设定行名为gene_id
gene_count <- read.csv("gene_count_matrix.csv",stringsAsFactors = F)
#对gene_id一列进行拆分，去除重复名称
library(stringr)
#设置空的"gene_count_1"向量，行数与上面的测序结果一致
gene_count_1<-rep(NA,nrow(gene_count))
#利用for循环，对gene_count数据框中的重复列进行拆分提取
for (i in 1:nrow(gene_count)){
  gene_count_1[i] <- unlist(str_split(gene_count[i,1], pattern = "\\|"))[1]
}
#显示拆分后的结果
head(gene_count_1)
#对原数据框中的特定序列重新赋值
gene_count$gene_id <- gene_count_1
#显示文件的前6行信息
head(gene_count)
#将第一列作为文件的行名
rownames(gene_count) <- gene_count[,1]
gene_count <-gene_count[,-1]
#显示文件的前6行信息
head(gene_count)
#将各组数据分开
gene_count_group_1 <- gene_count[, 1:3]
gene_count_group_2 <- gene_count[, c(1, 4, 5)]
#将该文件保存至对应目录
write.csv(gene_count_group_1, file = "G:/daizhongye/RNA-seq/2020_10_29/gene_count/gene_count_group_1.csv", row.names = TRUE)
write.csv(gene_count_group_2, file = "G:/daizhongye/RNA-seq/2020_10_29/gene_count/gene_count_group_2.csv", row.names = TRUE)

#加载DESeq2包
library(DESeq2)
#DESeq2需要三种矩阵，分别为countData表达矩阵,colData样品信息矩阵及design差异表达矩阵
#countData为表达矩阵即gene_count
#colData为样品信息矩阵即coldata
#design为差异表达矩阵即批次和条件（对照、处理）等
#设置condition样品组别、重复数
condition_group_1 <- factor(c(rep("scr", 1), rep("shT1", 2)), levels = c("scr","shT1"))
condition_group_2 <- factor(c(rep("scr", 1), rep("shT2", 2)), levels = c("scr","shT2"))
#显示condition设置信息
condition_group_1
condition_group_2
#设置group组对应的样品信息矩阵colData
colData_group_1 <- data.frame(row.names = colnames(gene_count_group_1), condition_group_1)
colData_group_2 <- data.frame(row.names = colnames(gene_count_group_2), condition_group_2)
#显示colData设置信息
colData_group_1
colData_group_2
#在R里面用于构建公式对象，~左边为因变量，右边为自变量。
#标准流程：dds <- DESeqDataSetFromMatrix(countData = cts, colData = coldata, design= ~ batch + condition) 
#countData为表达矩阵即countdata
#colData为样品信息矩阵即coldata
#design为差异表达矩阵即批次和条件（对照、处理）等
#对dds_group进行标准流程构建
dds_group_1 <- DESeqDataSetFromMatrix(gene_count_group_1, colData_group_1, design = ~condition_group_1)
dds_group_2 <- DESeqDataSetFromMatrix(gene_count_group_2, colData_group_2, design = ~condition_group_2)
#对原始dds_group进行normalize
dds_group_1 <- DESeq(dds_group_1)
dds_group_2 <- DESeq(dds_group_2)
#显示dds信息
dds_group_1
dds_group_2

# 对差异分析结果进行保存 -------------------------------------------------------------

#使用DESeq2包中的results()函数，提取差异分析的结果
#Usage:results(object, contrast, name, .....）
#将提取的差异分析结果定义为变量"res" 
#contrast: 定义谁和谁比较，处理组在前，对照组在后
#将group组提取分析结果并保存为res
res_group_1 = results(dds_group_1, contrast=c("condition_group_1","shT1","scr"))
res_group_2 = results(dds_group_2, contrast=c("condition_group_2","shT2","scr"))

#对结果res利用order()函数按pvalue值进行排序
#创建矩阵时，X[i,]指矩阵X中的第i行，X[,j]指矩阵X中的第j列
#order()函数先对数值排序，然后返回排序后各数值的索引，常用用法：V[order(V)]或者df[order(df$variable),]
#对res_group组进行排序
res_group_1 = res_group_1[order(res_group_1$pvalue),]
res_group_2 = res_group_2[order(res_group_2$pvalue),]

#显示res结果前6行信息
head(res_group_1)
head(res_group_2)

#对res_group矩阵进行总结，利用summary命令统计显示一共多少个genes上调和下调
summary(res_group_1)
summary(res_group_2)

#将差异分析的所有结果进行输出保存
write.csv(res_group_1, file="G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/all_different_genes/all_different_genes_group_1_genecount.csv")
write.csv(res_group_2, file="G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/all_different_genes/all_different_genes_group_2_genecount.csv")

#利用table函数统计显著差异基因的数目
#显著差异的定义为pvalue<0.05
table(res_group_1$pvalue<0.05)
table(res_group_2$pvalue<0.05)

#对具有显著性差异的结果进行过滤、提取
#获取pvalue小于0.05，表达倍数取以2为对数后大于0.584963或者小于-0.584963的差异表达基因（即表达倍数相差1.5倍及以上）
#使用subset()函数过滤需要的结果至新的变量significant_different_genes_group中
#Usage:subset(x, ...)，其中x为objects，...为筛选参数或条件
#对group中数据进行过滤、提取
significant_pvalue_different_genes_group_1 <- subset(res_group_1, pvalue < 0.05 & abs(log2FoldChange) > 0.584963)
significant_pvalue_different_genes_group_2 <- subset(res_group_2, pvalue < 0.05 & abs(log2FoldChange) > 0.584963)

#使用dim函数查看该结果的维度、规模
dim(significant_pvalue_different_genes_group_1)
dim(significant_pvalue_different_genes_group_2)
#显示结果的前6行信息
head(significant_pvalue_different0_genes_group_1)
head(significant_pvalue_different_genes_group_2)

#对显著差异基因进行输出保存
write.csv(significant_pvalue_different_genes_group_1, file = "G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/significant_different_genes/significant_pvalue_different_genes_group_1_genecount.csv")
write.csv(significant_pvalue_different_genes_group_2, file = "G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/significant_different_genes/significant_pvalue_different_genes_group_2_genecount.csv")

8. 利用ggpubr包绘制火山图

代码如下：

# 火山图 ---------------------------------------------------------------------

#代码参考网站：https://www.jianshu.com/p/e651a182c65d
#火山图的图形非常像火山喷发的形状。
#火山图通常用来展示差异表达的基因，常常出现在芯片、转录组、蛋白组、代谢组等组学检测技术的结果中，并且通常伴随热图一起出现。

#清空环境变量
rm(list=ls())
#获取当前工作目录
getwd()
#设置工作目录
setwd("G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/all_different_genes")
#读取数据至deg.data变量中
#此处需要读取DESeq2分析的全部差异基因，包括显著和非显著基因
#对group_1的全部差异基因进行读取
deg.data_group_1 <- read.csv("G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/all_different_genes/all_different_genes_group_1_genecount.csv", header = T, sep = ",")
#对group_2的全部差异基因进行读取
deg.data_group_2 <- read.csv("G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/all_different_genes/all_different_genes_group_2_genecount.csv", header = T, sep = ",")

#更改文件行名称为第一列
rownames(deg.data_group_1) <- deg.data_group_1$X
rownames(deg.data_group_2) <- deg.data_group_2$X

#更改文件列名称为需要的名称
colnames(deg.data_group_1)  <- c("gene_symbol",colnames(deg.data_group_1)[c(2:7)])
colnames(deg.data_group_2)  <- c("gene_symbol",colnames(deg.data_group_2)[c(2:7)])

#显示文件前6行查看文件信息
head(deg.data_group_1)
head(deg.data_group_2)

###画火山图只需要其中的log2FC和padj就可以，daizhongye选用pvalue值进行筛选，故此后使用pvalue进行设置
#adj.p.value为校正后的P值，因为基因和基因并不是相互独立的，所以我们需要对P值进行校正来降低结果的假阳性，常用的校正方法为FDR校正
#绘图之前需要对pvalue进行转换，可以拉开差异表达基因之间的间距
#对差异基因pvalue值进行log10转换
deg.data_group_1$logP <- -log10(deg.data_group_1$pvalue)
deg.data_group_2$logP <- -log10(deg.data_group_2$pvalue)

#开始绘制基本热图
#利用ggplot2的两个包绘制火山图
#安装ggpubr包、ggthemes包
#install.packages("ggpubr")
#install.packages("ggthemes")
#设置工作目录
setwd("G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/火山图")

#加载ggpubr包
library(ggpubr)
library(ggthemes)
#x轴为实验组基因表达量比对照组基因表达量的倍数差异
#y轴则为实验组比对照组之后的pvalue值
#火山图上一个点代表一个基因，而颜色则代表他们是显著上调还是显著下调
ggscatter(deg.data_group_1, x="log2FoldChange", y="logP") + theme_base()
ggscatter(deg.data_group_2, x="log2FoldChange", y="logP") + theme_base()

#上述命令出来的图很丑，需要对log2FoldChange和pvalue数据进行过滤
#新加一列Group
deg.data_group_1$Group = "not-significant"
deg.data_group_2$Group = "not-significant"

#将pvalue<0.05且log2FC>=0.584963的基因设为显著上调基因
deg.data_group_1$Group[which((deg.data_group_1$pvalue<0.05) & (deg.data_group_1$log2FoldChange >=0.584963))] ="up-regulated"
deg.data_group_2$Group[which((deg.data_group_2$pvalue<0.05) & (deg.data_group_2$log2FoldChange >=0.584963))] ="up-regulated"

#将pvalue<0.05且log2FC=<-1的基因设为显著下调基因
deg.data_group_1$Group[which((deg.data_group_1$pvalue<0.05) & (deg.data_group_1$log2FoldChange <= -0.584963))] ="down-regulated"
deg.data_group_2$Group[which((deg.data_group_2$pvalue<0.05) & (deg.data_group_2$log2FoldChange <= -0.584963))] ="down-regulated"

#查看上调和下调基因数目
table(deg.data_group_1$Group)
table(deg.data_group_2$Group)

#使用添加了上调和下调基因的数据重新绘制火山图
#使用color参数指定点的颜色
ggscatter(deg.data_group_1, x = "log2FoldChange", y = "logP", 
          color = "Group") + theme_base()

ggscatter(deg.data_group_2, x = "log2FoldChange", y = "logP", 
          color = "Group") + theme_base()

#修改点的大小size和更改差异表达基因的颜色palette
ggscatter(deg.data_group_1, x = "log2FoldChange", y = "logP", 
          color = "Group",
          palette = c("green", "gray", "red"),
          size = 1) + theme_base()

ggscatter(deg.data_group_2, x = "log2FoldChange", y = "logP", 
          color = "Group",
          palette = c("green", "gray", "red"),
          size = 1) + theme_base()

#使用geom_hline和geom_vline分别添加横向和纵向的辅助线
#为火山图添加logP分界线（geom_hline）和logFC分界线（geom_vline）
ggscatter(deg.data_group_1, x = "log2FoldChange", y = "logP", 
          color = "Group",
          palette = c("green", "gray", "red"),
          size = 1) + theme_base() +
  geom_hline(yintercept = 1.30, linetype="dashed") +
  geom_vline(xintercept = c(-0.584963,0.584963), linetype="dashed")

ggscatter(deg.data_group_2, x = "log2FoldChange", y = "logP", 
          color = "Group",
          palette = c("green", "gray", "red"),
          size = 1) + theme_base() +
  geom_hline(yintercept = 1.30, linetype="dashed") +
  geom_vline(xintercept = c(-0.584963,0.584963), linetype="dashed")

#为数据增加新的一列Label，将上调和下调差异表达前十的基因绘制在火山图中
#新加一列Label
deg.data_group_1$Label = ""
deg.data_group_2$Label = ""

#对差异表达基因的pvalue值进行从小到大排序
deg.data_group_1 <- deg.data_group_1[order(deg.data_group_1$pvalue),]
deg.data_group_2 <- deg.data_group_2[order(deg.data_group_2$pvalue),]

#高表达的基因中，选择pvalue最小的10个
up.genes_group_1 <- head(deg.data_group_1$gene_symbol[which(deg.data_group_1$Group == "up-regulated")], 10)
up.genes_group_2 <- head(deg.data_group_2$gene_symbol[which(deg.data_group_2$Group == "up-regulated")], 10)

#低表达的基因中，选择pvalue最小的10个
down.genes_group_1 <- head(deg.data_group_1$gene_symbol[which(deg.data_group_1$Group == "down-regulated")], 10)
down.genes_group_2 <- head(deg.data_group_2$gene_symbol[which(deg.data_group_2$Group == "down-regulated")], 10)

#将up.genes和down.genes合并
deg.top10.genes_group_1 <- c(as.character(up.genes_group_1), as.character(down.genes_group_1))
deg.top10.genes_group_2 <- c(as.character(up.genes_group_2), as.character(down.genes_group_2))

#将top10.gens加入到Label中
deg.data_group_1$Label[match(deg.top10.genes_group_1, deg.data_group_1$gene_symbol)] <- deg.top10.genes_group_1
deg.data_group_2$Label[match(deg.top10.genes_group_2, deg.data_group_2$gene_symbol)] <- deg.top10.genes_group_2

#参数说明：https://www.jianshu.com/p/674f90e020fa
#改变火山图点的颜色和坐标轴标注，使图片更美观
#绘制group1的最终火山图
#对输出的图保存至相应目录
pdf("Group_1_火山图.pdf")
ggscatter(deg.data_group_1, x = "log2FoldChange", y = "logP", 
          color = "Group",
          palette = c("#2f5688", "#BBBBBB", "#CC0000"),
          size = 1,
          label =deg.data_group_1$Label,
          font.label = 8,
          repel =T,
          xlim = c(-15, 15),  # x坐标轴的范围
          xlab = "log2FoldChange",
          ylab = "-log10(P-value)",) + theme_base() +
  geom_hline(yintercept = 1.30, linetype="dashed") +
  geom_vline(xintercept = c(-0.584963,0.584963), linetype="dashed")
dev.off()

#绘制group2的最终火山图
#对输出的图保存至相应目录
pdf("Group_2_火山图.pdf")
ggscatter(deg.data_group_2, x = "log2FoldChange", y = "logP", 
          color = "Group",
          palette = c("#2f5688", "#BBBBBB", "#CC0000"),
          size = 1,
          label =deg.data_group_2$Label,
          font.label = 8,
          repel =T,
          xlim = c(-10, 10),  # x坐标轴的范围
          xlab = "log2FoldChange", 
          ylab = "-log10(P-value)",) + theme_base() +
  geom_hline(yintercept = 1.30, linetype="dashed") +
  geom_vline(xintercept = c(-0.584963,0.584963), linetype="dashed")
dev.off()

9. 利用 pheatmap包绘制heatmap图

代码如下：

# heatmap ----------------------------------------------------------------------
#heatmap绘制时，需要使用gene_symbol和FPKM值
#关于FPKM值的说明
#在绘制heatmap热图时，需要使用差异基因所对应的FPKM值，该值的获取有几个办法：
#利用Stringtie的-A参数直接获得
#利用DESeq2的-FPKM参数由count转化获得
#利用ballgown包进行转化获得
#本次采用StringTie的-A参数直接获得

#关于gene_symbol的说明
#对于绘制heatmap图的gene，使用具有差异性的基因进行绘图
#利用之前DESeq2分析得到的abs(log2FoldChange)>=1的基因来做图
#需要根据"significant_different_genes"来从包含FPKM值的文件中将其提取出来，使用到了match()函数

#绘图前的准备工作

#对FPKM数据进行整理
#清空环境变量
rm(list=ls())
#获取当前工作目录
getwd()
#设置工作目录
setwd("G:/daizhongye/RNA-seq/2020_10_29/gene_tab/")

##将StringTie分析得到的含有FPKM数据的TAB文件导入当前工作环境中
E14_Scr_SL.gene.tab <- read.table("G:/daizhongye/RNA-seq/2020_10_29/gene_tab/E14_Scr_SL.gene.tab", header = TRUE, sep = "\t" , quote = "\"")
E14_shT1_1.gene.tab <- read.table("G:/daizhongye/RNA-seq/2020_10_29/gene_tab/E14_shT1_1.gene.tab", header = TRUE, sep = "\t" , quote = "\"")
E14_shT1_2.gene.tab <- read.table("G:/daizhongye/RNA-seq/2020_10_29/gene_tab/E14_shT1_2.gene.tab", header = TRUE, sep = "\t" , quote = "\"")
E14_shT2_1.gene.tab <- read.table("G:/daizhongye/RNA-seq/2020_10_29/gene_tab/E14_shT2_1.gene.tab", header = TRUE, sep = "\t" , quote = "\"")
E14_shT2_2.gene.tab <- read.table("G:/daizhongye/RNA-seq/2020_10_29/gene_tab/E14_shT2_2.gene.tab", header = TRUE, sep = "\t" , quote = "\"")


##提取指定列的内容
###对数据中的Gene.ID和FPKM两列数据进行提取
E14_Scr_SL.FPKM <- E14_Scr_SL.gene.tab[,c(1,8)]
E14_Scr_SL.FPKM <- E14_shT1_1.gene.tab[,c(1,8)]
E14_shT1_2.FPKM <- E14_shT1_2.gene.tab[,c(1,8)]
E14_shT2_1.FPKM <- E14_shT2_1.gene.tab[,c(1,8)]
E14_shT2_2.FPKM <- E14_shT2_2.gene.tab[,c(1,8)]

###重命名指定列
###重命名全部的列是name(data) <- c("NO","name")
###重命名单个列是colnames(data)[2] <- 'newname'
colnames(E14_Scr_SL.FPKM)[2] <-"Scr_SL"
colnames(E14_shT1_1.FPKM)[2] <-"shT1_1"
colnames(E14_shT1_2.FPKM)[2] <-"shT1_2"
colnames(E14_shT2_1.FPKM)[2] <-"shT2_1"
colnames(E14_shT2_2.FPKM)[2] <-"shT2_2"

###显示新的数据信息
head(E14_Scr_SL.FPKM)
head(E14_shT1_1.FPKM)
head(E14_shT1_2.FPKM)
head(E14_shT2_1.FPKM)
head(E14_shT2_2.FPKM)


##将得到的各样本的FPKM值数据保存入heatmap目录
write.table(E14_Scr_SL.FPKM, file = "G:/daizhongye/RNA-seq/2020_10_29/gene_tab/E14_Scr_SL.FPKM", row.names = FALSE, quote = FALSE, sep = "\t")
write.table(E14_shT1_1.FPKM, file = "G:/daizhongye/RNA-seq/2020_10_29/gene_tab/E14_shT1_1.FPKM", row.names = FALSE, quote = FALSE, sep = "\t")
write.table(E14_shT1_2.FPKM, file = "G:/daizhongye/RNA-seq/2020_10_29/gene_tab/E14_shT1_2.FPKM", row.names = FALSE, quote = FALSE, sep = "\t")
write.table(E14_shT2_1.FPKM, file = "G:/daizhongye/RNA-seq/2020_10_29/gene_tab/E14_shT2_1.FPKM", row.names = FALSE, quote = FALSE, sep = "\t")
write.table(E14_shT2_2.FPKM, file = "G:/daizhongye/RNA-seq/2020_10_29/gene_tab/E14_shT2_2.FPKM", row.names = FALSE, quote = FALSE, sep = "\t")


#对差异基因list进行整理
##设置工作目录
setwd("G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/significant_different_genes")
##将各实验组的差异基因导入当前工作环境
group_1 <- read.csv("significant_pvalue_different_genes_group_1_genecount.csv")
group_2 <- read.csv("significant_pvalue_different_genes_group_2_genecount.csv")

##将各实验组的差异基因list进行提取
group_1_gene <- group_1[,1]
group_2_gene <- group_2[,1]

##查看各差异基因名信息
View(group_1_gene)
View(group_2_gene)

#利用match函数对差异基因List信息（小文件）和FPKM值信息（大文件）进行提取
##利用match函数提取各样品中差异基因所在的行数并重新命名为row.NO文件
##match(x,y)函数输出结果：x向量在y向量中所处的位置，x向量元素不存在y向量中的返回NA
##match(x, table$i)函数输出结果：返回x向量在table中$i列中所处的位置
##对group1各样品进行处理
E14_Scr_SL_group_1_row.NO <- c(match(group_1_gene, E14_Scr_SL.FPKM$Gene.ID))
E14_shT1_1_group_1_row.NO <- c(match(group_1_gene, E14_shT1_1.FPKM$Gene.ID))
E14_shT1_2_group_1_row.NO <- c(match(group_1_gene, E14_shT1_2.FPKM$Gene.ID))


##对group2各样品进行处理
E14_Scr_SL_group_2_row.NO <- c(match(group_2_gene, E14_Scr_SL.FPKM$Gene.ID))
E14_shT2_1_group_2_row.NO <- c(match(group_2_gene, E14_shT2_1.FPKM$Gene.ID))
E14_shT2_2_group_2_row.NO <- c(match(group_2_gene, E14_shT2_2.FPKM$Gene.ID))


#根据以上行数，对各样品的FPKM值进行提取
##对group1各样品的FPKM值进行提取
E14_Scr_SL_group_1_gene_FPKM <- E14_Scr_SL.FPKM[E14_Scr_SL_group_1_row.NO ,]
E14_shT1_1_group_1_gene_FPKM <- E14_shT1_1.FPKM[E14_shT1_1_group_1_row.NO ,]
E14_shT1_2_group_1_gene_FPKM <- E14_shT1_2.FPKM[E14_shT1_2_group_1_row.NO ,]

###查看提取结果，确认各样品行数和基因名一致性
View(E14_Scr_SL_group_1_gene_FPKM)
View(E14_shT1_1_group_1_gene_FPKM)
View(E14_shT1_2_group_1_gene_FPKM)


##对group2各样品的FPKM值进行提取
E14_Scr_SL_group_2_gene_FPKM <- E14_Scr_SL.FPKM[E14_Scr_SL_group_2_row.NO ,]
E14_shT2_1_group_2_gene_FPKM <- E14_shT2_1.FPKM[E14_shT2_1_group_2_row.NO ,]
E14_shT2_2_group_2_gene_FPKM <- E14_shT2_2.FPKM[E14_shT2_2_group_2_row.NO ,]

###查看提取结果，确认各样品行数和基因名一致性
View(E14_Scr_SL_group_2_gene_FPKM)
View(E14_shT2_1_group_2_gene_FPKM)
View(E14_shT2_2_group_2_gene_FPKM)


#利用merge函数对各组实验的FPKM值进行合并
##merge(x,y, by="")
##对group1各样品的FPKM值进行合并
group_1_gene_FPKM <- merge(E14_Scr_SL_group_1_gene_FPKM, merge(E14_shT1_1_group_1_gene_FPKM, E14_shT1_2_group_1_gene_FPKM,by="Gene.ID"), by="Gene.ID")

##对group2各样品的FPKM值进行合并
group_2_gene_FPKM <- merge(E14_Scr_SL_group_2_gene_FPKM, merge(E14_shT2_1_group_2_gene_FPKM, E14_shT2_2_group_2_gene_FPKM, by="Gene.ID"), by="Gene.ID")

##查看合并结果，确认
View(group_1_gene_FPKM)
View(group_2_gene_FPKM)

#将各实验组差异基因对应的FPKM数据保存至heatmap文件中
write.table(group_1_gene_FPKM, file = "G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/heatmap/group_1_gene_FPKM", row.names = FALSE)
write.table(group_2_gene_FPKM, file = "G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/heatmap/group_2_gene_FPKM", row.names = FALSE)

#开始绘制heatmap图啦啦啦啦啦啦啦啦啦
#代码参考网站：https://www.jianshu.com/p/d86e4afe1065

#安装包（作者说这种方式下载的pheatmap包版本更新一些）
#install.packages('devtools')
#library(devtools)
#install_github("raivokolde/pheatmap")

#清空环境变量
rm(list=ls())
#获取当前工作目录
getwd()
#设置工作目录
setwd("G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/heatmap/")

#加载包
library(RColorBrewer)#设置颜色用的
library(pheatmap)
#设置配色方案
cc = colorRampPalette(rev(brewer.pal(n=7, name="RdYlBu"))) #Rd=red Yl=yellow Bu=blue
#读入文件，如果确实过多，会无法聚类，最好保证没有缺失，或将缺失替换为0
Group_1<-read.table(file = "group_1_gene_FPKM",row.names = 1,header = T,check.names = F) 
Group_2<-read.table(file = "group_2_gene_FPKM",row.names = 1,header = T,check.names = F)

#如果矩阵内容是fpkm表达量，一般取log10(fpkm+1)绘图
Group_1=log2(Group_1+1)
Group_2=log2(Group_2+1)

#pheatmap参数解释：
#第一个参数是需要用pheatmap画图的数据
#color: 设置颜色。如果想画得更精细一些，可以取cc(1000)
#main: 标题，会显示在最上面
#fontsize: row的字体大小
#scale: 是否归一化为正态分布，可选row,column,none。一般对row进行归一化的情况比较多，column较少。
#border_color: 是否显示边框及边框的颜色，NA不显示, red显示红色。支持简单的颜色单词
#na_col: 设置缺失值的颜色，支持简单颜色单词，一般设置为灰色就满好识别的。
#cluster_rows & cluster_cols: 设置是否对行进行聚类，这个就见仁见智，看你的实际需求了。当缺失值较多的时候是无法进行聚类的。一个解决办法是读取数据的时候不设置缺失值。
#show_rownames & show_colnames: 是否显示行/列的名称
#treeheight_row & treeheight_col: 当前面设置了聚类之后，两边会出现聚类的树，这个参数是设置树的高度的。
#cellheight & cellwidth: 设置每个各自的宽度和高度。有的时候不设置这两个值画出来的树容易放飞自我????
#cutree_row & cutree_col: 是否根据聚类情况把树切开，可以设置切开的份数。
#display_numbers: 设置是否显示每个单元格的值。这个也是个人喜好及文章需求。
#legend: 设置是否显示旁边的bar状图例，emmmm好像还没碰到说不要那个玩意儿的情况。。
#filename: 设置输出文件的名字。可以设置的文件类型有：pdf，png，jpg，tiff，bmp

#绘图group_1
heatmap=pheatmap(Group_1,color = cc(1000),
                 main=" ",
                 fontsize = 15,
                 scale="row",
                 border_color = NA,
                 na_col = "grey",
                 cluster_rows = T,cluster_cols = T,
                 show_rownames = T,show_colnames = T,
                 treeheight_row = 30,treeheight_col = 30,
                 cellheight = 15,cellwidth = 30,
                 cutree_row=2,cutree_col=2,
                 display_numbers = F,legend = T,
                 filename = "Group_1.tiff")

#绘图group_2
heatmap=pheatmap(Group_2,color = cc(1000),
                 main=" ",
                 fontsize = 15,
                 scale="row",
                 border_color = NA,
                 na_col = "grey",
                 cluster_rows = T,cluster_cols = T,
                 show_rownames = T,show_colnames = T,
                 treeheight_row = 30,treeheight_col = 30,
                 cellheight = 15,cellwidth = 30,
                 cutree_row=2,cutree_col=2,
                 display_numbers = F,legend = T,
                 filename = "Group_2.tiff")

10. 利用 clusterProfiler包进行GO_KEGG分析

代码如下：

# GO_KEGG -----------------------------------------------------------------

#参考文章：https://www.jianshu.com/p/435d863e0238，

#清空环境变量
rm(list=ls())

#安装包
#BiocManager::install("clusterProfiler")
#BiocManager::install("stringr")
#加载包
library(clusterProfiler)
library(stringr)
library(DOSE)
library(ggplot2)

#clusterProfiler 包里的一些默认作图方法，例如
#barplot(kegg)  #富集柱形图
#dotplot(kegg)  #富集气泡图
#cnetplot(kegg) #网络图展示富集功能和基因的包含关系
#emapplot(kegg) #网络图展示各富集功能之间共有基因关系
#heatplot(kegg) #热图展示富集功能和基因的包含关系
#Barplot画图参数详解:http://blog.sciencenet.cn/blog-1468811-939797.html

#参考物种的基因注释数据库：人类org.Hs.eg.db，果蝇org.Dm.eg.db，拟南芥org.At.tair.db，小鼠org.Mm.eg.db。
#下载参考小鼠的基因注释库
#BiocManager::install("org.Mm.eg.db")
#加载小鼠的基因注释库
library(org.Mm.eg.db)

#准备输入数据
##待分析的数据就是一串基因名称，可以是ensembl_id、entrze_id或者symbol_id等类型
##读入差异基因的列表（此处根据daizhongye的实验结果，选取significant_gene[pvalue<0.05,abs(log2FC)>=1]进行作图分析
##对于上调、下调基因，需要手动分割成两个单独文件

#设置工作目录
setwd("G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/significant_different_genes/")

#对group_1样品进行读入
sig.gene_up_group_1 <- read.csv("G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/significant_different_genes/significant_pvalue_different_genes_group_1_genecount_up.csv")
sig.gene_dn_group_1 <- read.csv("G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/significant_different_genes/significant_pvalue_different_genes_group_1_genecount_down.csv")

#对group_2样品进行读入
sig.gene_up_group_2 <- read.csv("G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/significant_different_genes/significant_pvalue_different_genes_group_2_genecount_up.csv")
sig.gene_dn_group_2 <- read.csv("G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/significant_different_genes/significant_pvalue_different_genes_group_2_genecount_down.csv")

##提取差异基因的列表
gene_up_group_1 <- sig.gene_up_group_1$X
gene_dn_group_1 <- sig.gene_dn_group_1$X

gene_up_group_2 <- sig.gene_up_group_2$X
gene_dn_group_2 <- sig.gene_dn_group_2$X

##调整数据格式为字符
gene_up_group_1 <- as.character(gene_up_group_1)
gene_dn_group_1 <- as.character(gene_dn_group_1)

gene_up_group_2 <- as.character(gene_up_group_2)
gene_dn_group_2 <- as.character(gene_dn_group_2)

##对基因由SYMBOL转换为ENTREZID格式
##select(x, keys, columns, keytype, ...)：基于keys, columns和keytype以data.frame数据类型返回数据，可以是一对多的关系
##mapIds(x, keys, column, keytype, ..., multiVals)： 类似于select，只不过就返回一个列。
gene_up_group_1.df <- select(org.Mm.eg.db,           #小鼠基因注释库
                             keys = gene_up_group_1,  #样品组信息
                             columns = "ENTREZID",    #指定基因名称类型
                             keytype ="SYMBOL")       #输入的基因名称类型

gene_dn_group_1.df <- select(org.Mm.eg.db,           #小鼠基因注释库
                             keys=gene_dn_group_1,    #样品组信息
                             columns = "ENTREZID",    #指定基因名称类型
                             keytype="SYMBOL")        #输入的基因名称类型

gene_up_group_2.df <- select(org.Mm.eg.db,           #小鼠基因注释库
                             keys=gene_up_group_2,    #样品组信息
                             columns = "ENTREZID",    #指定基因名称类型
                             keytype="SYMBOL")        #输入的基因名称类型

gene_dn_group_2.df <- select(org.Mm.eg.db,           #小鼠基因注释库
                             keys=gene_dn_group_2,    #样品组信息
                             columns = "ENTREZID",    #指定基因名称类型
                             keytype="SYMBOL")        #输入的基因名称类型

#GO富集分析
GO_BP_group_1_up <- enrichGO(gene= gene_up_group_1.df$ENTREZID, #基因列表文件中的基因名称
                             OrgDb = org.Mm.eg.db,               #指定物种的基因数据库，此为小鼠
                             keyType = "ENTREZID",               #指定给定的基因名称类型，此为symbol_id
                             ont = "BP",                         #可选BP、MF、CC，也可以指定 ALL 同时计算 3 者
                             pAdjustMethod = "BH",               #指定p值校正方法
                             pvalueCutoff = 0.05,                #指定p值阈值，不显著的值将不显示在结果中
                             qvalueCutoff = 0.2,                 #指定q值阈值，不显著的值将不显示在结果中
                             readable = TRUE)                    #whether mapping gene ID to gene Name
# minGSSize                         minimal size of genes annotated by Ontology term for testing.
# maxGSSize                         maximal size of genes annotated for testing
# pool                              If ont=’ALL’, whether pool 3 GO sub-ontologies

GO_BP_group_1_dn <- enrichGO(gene= gene_dn_group_1.df$ENTREZID, #基因列表文件中的基因名称
                             OrgDb = org.Mm.eg.db,               #指定物种的基因数据库，此为小鼠
                             keyType = "ENTREZID",               #指定给定的基因名称类型，此为symbol_id
                             ont = "BP",                         #可选BP、MF、CC，也可以指定 ALL 同时计算 3 者
                             pAdjustMethod = "BH",               #指定p值校正方法
                             pvalueCutoff = 0.05,                #指定p值阈值，不显著的值将不显示在结果中
                             qvalueCutoff = 0.2,                 #指定q值阈值，不显著的值将不显示在结果中
                             readable = TRUE)                    #whether mapping gene ID to gene Name 
# minGSSize                         minimal size of genes annotated by Ontology term for testing.
# maxGSSize                         maximal size of genes annotated for testing
# pool                              If ont=’ALL’, whether pool 3 GO sub-ontologies

GO_BP_group_2_up <- enrichGO(gene= gene_up_group_2.df$ENTREZID, #基因列表文件中的基因名称
                             OrgDb = org.Mm.eg.db,               #指定物种的基因数据库，此为小鼠
                             keyType = "ENTREZID",               #指定给定的基因名称类型，此为symbol_id
                             ont = "BP",                         #可选BP、MF、CC，也可以指定 ALL 同时计算 3 者
                             pAdjustMethod = "BH",               #指定p值校正方法
                             pvalueCutoff = 0.05,                #指定p值阈值，不显著的值将不显示在结果中
                             qvalueCutoff = 0.2,                 #指定q值阈值，不显著的值将不显示在结果中
                             readable = TRUE)                    #whether mapping gene ID to gene Name
# minGSSize                         minimal size of genes annotated by Ontology term for testing.
# maxGSSize                         maximal size of genes annotated for testing
# pool                              If ont=’ALL’, whether pool 3 GO sub-ontologies

GO_BP_group_2_dn <- enrichGO(gene= gene_dn_group_2.df$ENTREZID, #基因列表文件中的基因名称
                             OrgDb = org.Mm.eg.db,               #指定物种的基因数据库，此为小鼠
                             keyType = "ENTREZID",               #指定给定的基因名称类型，此为symbol_id
                             ont = "BP",                         #可选BP、MF、CC，也可以指定 ALL 同时计算 3 者
                             pAdjustMethod = "BH",               #指定p值校正方法
                             pvalueCutoff = 0.05,                #指定p值阈值，不显著的值将不显示在结果中
                             qvalueCutoff = 0.2,                 #指定q值阈值，不显著的值将不显示在结果中
                             readable = TRUE)                    #whether mapping gene ID to gene Name
# minGSSize                         minimal size of genes annotated by Ontology term for testing.
# maxGSSize                         maximal size of genes annotated for testing
# pool                             If ont=’ALL’, whether pool 3 GO sub-ontologies


#对GO富集分析的结果进行输出保存
#设置工作目录
setwd("G:/daizhongye/RNA-seq/2020_10_29/Rtreatment/GO_KEGG/")

write.csv(as.data.frame(GO_BP_group_1_up), "GO_BP_group_1_up.csv")
write.csv(as.data.frame(GO_BP_group_1_dn), "GO_BP_group_1_dn.csv")
write.csv(as.data.frame(GO_BP_group_2_up), "GO_BP_group_2_up.csv")
write.csv(as.data.frame(GO_BP_group_2_dn), "GO_BP_group_2_dn.csv")

#对GO富集分析进行绘图并输出保存
tiff("GO_BP_group_1_up.tiff")
barplot(GO_BP_group_1_up, showCategory = 16,title="The GO_BP enrichment analysis of all DEGs ") + 
  scale_size(range=c(2, 12))+
  scale_x_discrete(labels=function(GO_BP_group_1_up) str_wrap(GO_BP_group_1_up, width = 30))
dev.off()

tiff("GO_BP_group_1_dn.tiff")
barplot(GO_BP_group_1_dn, showCategory = 16,title="The GO_BP enrichment analysis of all DEGs ") + 
  scale_size(range=c(2, 12))+
  scale_x_discrete(labels=function(GO_BP_group_1_dn) str_wrap(GO_BP_group_1_dn, width = 30))
dev.off()

tiff("GO_BP_group_2_up.tiff")
barplot(GO_BP_group_2_up, showCategory = 16,title="The GO_BP enrichment analysis of all DEGs ") + 
  scale_size(range=c(2, 12))+
  scale_x_discrete(labels=function(GO_BP_group_2_up) str_wrap(GO_BP_group_2_up, width = 30))
dev.off()

tiff("GO_BP_group_2_dn.tiff")
barplot(GO_BP_group_2_dn, showCategory = 16,title="The GO_BP enrichment analysis of all DEGs ") + 
  scale_size(range=c(2, 12))+
  scale_x_discrete(labels=function(GO_BP_group_2_dn) str_wrap(GO_BP_group_2_dn, width = 30))
dev.off()


#KEGG富集分析
#clusterProfiler的KEGG富集分析方法特殊，它无需加载本地注释库，
#自动使用KEGG的在线数据库进行注释，因此给定的基因名称只能识别entrze id。
#每次打开R计算时，它会自动连接kegg官网获得最近的物种注释信息，因此数据库一定都是最新的

KEGG_group_1_up <- enrichKEGG( gene = gene_up_group_1.df$ENTREZID,   #基因列表文件中的基因名称
                               keyType = 'kegg',                      #kegg 富集
                               organism = 'mmu',                      #物种，mmu 代表小鼠，hsa代表人类，oas代表绵羊
                               pAdjustMethod = 'BH',                  #指定 p 值校正方法
                               pvalueCutoff = 0.05,                   #指定 p 值阈值，不显著的值将不显示在结果中
                               qvalueCutoff = 0.2,                    #指定 q 值阈值，不显著的值将不显示在结果中
                               use_internal_data= FALSE )

KEGG_group_1_dn <- enrichKEGG( gene = gene_dn_group_1.df$ENTREZID,   #基因列表文件中的基因名称
                               keyType = 'kegg',                      #kegg 富集
                               organism = 'mmu',                      #物种，mmu 代表小鼠，hsa代表人类，oas代表绵羊
                               pAdjustMethod = 'BH',                  #指定 p 值校正方法
                               pvalueCutoff = 0.05,                   #指定 p 值阈值，不显著的值将不显示在结果中
                               qvalueCutoff = 0.2,                    #指定 q 值阈值，不显著的值将不显示在结果中
                               use_internal_data= FALSE )

KEGG_group_2_up <- enrichKEGG( gene = gene_up_group_2.df$ENTREZID,   #基因列表文件中的基因名称
                               keyType = 'kegg',                      #kegg 富集
                               organism = 'mmu',                      #物种，mmu 代表小鼠，hsa代表人类，oas代表绵羊
                               pAdjustMethod = 'BH',                  #指定 p 值校正方法
                               pvalueCutoff = 0.05,                   #指定 p 值阈值，不显著的值将不显示在结果中
                               qvalueCutoff = 0.2,                    #指定 q 值阈值，不显著的值将不显示在结果中
                               use_internal_data= FALSE )

KEGG_group_2_dn <- enrichKEGG( gene = gene_dn_group_2.df$ENTREZID,   #基因列表文件中的基因名称
                               keyType = 'kegg',                      #kegg 富集
                               organism = 'mmu',                      #物种，mmu 代表小鼠，hsa代表人类，oas代表绵羊
                               pAdjustMethod = 'BH',                  #指定 p 值校正方法
                               pvalueCutoff = 0.05,                   #指定 p 值阈值，不显著的值将不显示在结果中
                               qvalueCutoff = 0.2,                    #指定 q 值阈值，不显著的值将不显示在结果中
                               use_internal_data= FALSE )

#KEGG分析结果各列内容：
#ID和Description，富集到的KEGG id和描述；
#GeneRatio和BgRatio，分别为富集到该KEGG条目中的基因数目/给定基因的总数目，以及该条目中背景基因总数目/该物种所有已知的KEGG功能基因数目；
#pvalue、p.adjust和qvalue，p值、校正后p值和q值信息；
#geneID和Count，富集到该KEGG条目中的基因名称（分析中使用的entrze id，故这里也显示的entrze id）和数目。
#如期望显示其它类型的基因id，如通俗的symbol id等类型，由于该分析中只能输入entrze id，因此可以通过基因名称转换的方式对entrze id和symbol id作个匹配转换。

#输出结果
write.table(KEGG_group_1_up, 'KEGG_group_1_up.csv', sep = ',', quote = FALSE, row.names = FALSE)
write.table(KEGG_group_1_dn, 'KEGG_group_1_dn.csv', sep = ',', quote = FALSE, row.names = FALSE)
write.table(KEGG_group_2_up, 'KEGG_group_2_up.csv', sep = ',', quote = FALSE, row.names = FALSE)
write.table(KEGG_group_2_dn, 'KEGG_group_2_dn.csv', sep = ',', quote = FALSE, row.names = FALSE)

#将输出结果的"ENTREZID"转为"SYMBOL"
#读取数据

#对group_1_up的gene进行名称类型转换
KEGG_group_1_up_df <- read.csv("KEGG_group_1_up.csv") 
#查看文件的整体信息以确认需要转换的列
KEGG_group_1_up_df
#with({})函数中的花括号语句，只针对括号内的语句执行，无需担心名字的冲突
#with()函数局限性在于赋值仅在此函数的括号内生效
with(KEGG_group_1_up_df, {
  gene = NA    #对变量gene进行一个定义
  for (i in 1:nrow(KEGG_group_1_up_df))        #for（i in seq)语句做循环，#nrow()对数据取行数
  {
    aaa = unlist(str_split(KEGG_group_1_up_df$geneID[i],"/"))  #str_split函数对字符串进行拆分，unlist函数将拆分的数据合并
    gene = c(gene, aaa)      #将所有的拆分结果合并在一起
  }
  KEGG_gene_group_1_up <<- gene[-1]        #对最开始的gene赋值进行剔除
})
#查看最终提取结果
KEGG_gene_group_1_up
#对提取的"ENTREZID"利用select()函数进行转换
#使用birt()函数也可以对ID和symbol进行转换，但是对于重复ID不再进行重复输出
KEGG_gene_group_1_up <- select(org.Mm.eg.db,              #小鼠基因注释库
                               keys=KEGG_gene_group_1_up,  #样品组信息
                               columns = "SYMBOL",         #指定基因名称类型
                               keytype="ENTREZID")         #输入的基因名称类型
#查看最终转换结果
KEGG_gene_group_1_up


#对group_1_dn的gene进行名称类型转换
KEGG_group_1_dn_df <- read.csv("KEGG_group_1_dn.csv") 
#查看文件的整体信息以确认需要转换的列
KEGG_group_1_dn_df
#with({})函数中的花括号语句，只针对括号内的语句执行，无需担心名字的冲突
#with()函数局限性在于赋值仅在此函数的括号内生效
with(KEGG_group_1_dn_df, {
  gene = NA    #对变量gene进行一个定义
  for (i in 1:nrow(KEGG_group_1_dn_df))        #for（i in seq)语句做循环，#nrow()对数据取行数
  {
    aaa = unlist(str_split(KEGG_group_1_dn_df$geneID[i],"/"))  #str_split函数对字符串进行拆分，unlist函数将拆分的数据合并
    gene = c(gene, aaa)      #将所有的拆分结果合并在一起
  }
  KEGG_gene_group_1_dn <<- gene[-1]        #对最开始的gene赋值进行剔除
})
#查看最终提取结果
KEGG_gene_group_1_dn
#对提取的"ENTREZID"利用select()函数进行转换
#使用birt()函数也可以对ID和symbol进行转换，但是对于重复ID不再进行重复输出
KEGG_gene_group_1_dn <- select(org.Mm.eg.db,              #小鼠基因注释库
                               keys=KEGG_gene_group_1_dn,  #样品组信息
                               columns = "SYMBOL",         #指定基因名称类型
                               keytype="ENTREZID")         #输入的基因名称类型
#查看最终转换结果
KEGG_gene_group_1_dn


#对group2_up的gene进行名称类型转换
KEGG_group_2_up_df <- read.csv("KEGG_group_2_up.csv") 
#查看文件的整体信息以确认需要转换的列
KEGG_group_2_up_df
#with({})函数中的花括号语句，只针对括号内的语句执行，无需担心名字的冲突
#with()函数局限性在于赋值仅在此函数的括号内生效
with(KEGG_group_2_up_df, {
  gene = NA    #对变量gene进行一个定义
  for (i in 1:nrow(KEGG_group_2_up_df))        #for（i in seq)语句做循环，#nrow()对数据取行数
  {
    aaa = unlist(str_split(KEGG_group_2_up_df$geneID[i],"/"))  #str_split函数对字符串进行拆分，unlist函数将拆分的数据合并
    gene = c(gene, aaa)      #将所有的拆分结果合并在一起
  }
  KEGG_gene_group_2_up <<- gene[-1]        #对最开始的gene赋值进行剔除
})
#查看最终提取结果
KEGG_gene_group_2_up
#对提取的"ENTREZID"利用select()函数进行转换
#使用birt()函数也可以对ID和symbol进行转换，但是对于重复ID不再进行重复输出
KEGG_gene_group_2_up <- select(org.Mm.eg.db,              #小鼠基因注释库
                               keys=KEGG_gene_group_2_up,  #样品组信息
                               columns = "SYMBOL",         #指定基因名称类型
                               keytype="ENTREZID")         #输入的基因名称类型
#查看最终转换结果
KEGG_gene_group_2_up


#对group2_dn的gene进行名称类型转换
KEGG_group_2_dn_df <- read.csv("KEGG_group_2_dn.csv") 
#查看文件的整体信息以确认需要转换的列
KEGG_group_2_dn_df
#with({})函数中的花括号语句，只针对括号内的语句执行，无需担心名字的冲突
#with()函数局限性在于赋值仅在此函数的括号内生效
with(KEGG_group_2_dn_df, {
  gene = NA    #对变量gene进行一个定义
  for (i in 1:nrow(KEGG_group_2_dn_df))        #for（i in seq)语句做循环，#nrow()对数据取行数
  {
    aaa = unlist(str_split(KEGG_group_2_dn_df$geneID[i],"/"))  #str_split函数对字符串进行拆分，unlist函数将拆分的数据合并
    gene = c(gene, aaa)      #将所有的拆分结果合并在一起
  }
  KEGG_gene_group_2_dn <<- gene[-1]        #对最开始的gene赋值进行剔除
})
#查看最终提取结果
KEGG_gene_group_2_dn

#对提取的"ENTREZID"利用select()函数进行转换
#使用birt()函数也可以对ID和symbol进行转换，但是对于重复ID不再进行重复输出
KEGG_gene_group_2_dn <- select(org.Mm.eg.db,              #小鼠基因注释库
                               keys=KEGG_gene_group_2_dn,  #样品组信息
                               columns = "SYMBOL",         #指定基因名称类型
                               keytype="ENTREZID")         #输入的基因名称类型
#查看最终转换结果
KEGG_gene_group_2_dn


#对转换后的结果输出保存
write.table(KEGG_gene_group_1_up, 'KEGG_gene_group_1_up.csv', sep = ',', quote = FALSE, row.names = FALSE)
write.table(KEGG_gene_group_1_dn, 'KEGG_gene_group_1_dn.csv', sep = ',', quote = FALSE, row.names = FALSE)

write.table(KEGG_gene_group_2_up, 'KEGG_gene_group_2_up.csv', sep = ',', quote = FALSE, row.names = FALSE)
write.table(KEGG_gene_group_2_dn, 'KEGG_gene_group_2_dn.csv', sep = ',', quote = FALSE, row.names = FALSE)


#对KEGG富集分析的结果进行输出保存
tiff("KEGG_group_1_up.tiff")
barplot(KEGG_group_1_up, showCategory = 16,title="The KEGG enrichment analysis of all DEGs ") + 
  scale_size(range=c(2, 12))+
  scale_x_discrete(labels=function(KEGG_group_1_up) str_wrap(KEGG_group_1_up, width = 30))
dev.off()

tiff("KEGG_group_1_dn.tiff")
barplot(KEGG_group_1_dn, showCategory = 16,title="The KEGG enrichment analysis of all DEGs ") + 
  scale_size(range=c(2, 12))+
  scale_x_discrete(labels=function(KEGG_group_1_dn) str_wrap(KEGG_group_1_dn, width = 30))
dev.off()

tiff("KEGG_group_2_up.tiff")
barplot(KEGG_group_2_up, showCategory = 16,title="The KEGG enrichment analysis of all DEGs ") + 
  scale_size(range=c(2, 12))+
  scale_x_discrete(labels=function(KEGG_group_2_up) str_wrap(KEGG_group_2_up, width = 30))
dev.off()

tiff("KEGG_group_2_dn.tiff")
barplot(KEGG_group_2_dn, showCategory = 16,title="The KEGG enrichment analysis of all DEGs ") + 
  scale_size(range=c(2, 12))+
  scale_x_discrete(labels=function(KEGG_group_2_dn) str_wrap(KEGG_group_2_dn, width = 30))
dev.off()

你可能感兴趣的:(操作记录)

MyPrint打印设计器（二）vue3 实现历史步骤记录那叫一个优雅 Myprint 可视化打印设计器 vue 历史记录打印设计 MyPrint
通过vueuse中的useManualRefHistory，快速实现历史操作记录所需环境：vue实现目标历史记录撤销重做记录覆盖代码原理把键盘监听事件挂载在document上，当键盘事件发生时，依次匹配事先订阅的快捷键/单按键事件，如果有匹配到对应的订阅，则进行事件回调，并且停止键盘事件的回调。按下的按键进行转换，把mac/win的键盘差异进行了兼容实现效果vue历史记录实战核心代码import{
命令模式与宏命令：批量操作的高效实现勤劳兔码农命令模式
目录引言背景与重要性命令模式与宏命令概述命令模式的基础概念命令模式的定义与结构关键组件及其角色命令模式的优点与缺点命令模式的应用场景用户操作记录与撤销/重做请求队列与任务调度GUI操作的解耦宏命令的引入与发展宏命令的定义与结构宏命令与命令模式的关系宏命令的优点与局限性宏命令在批量操作中的应用批量操作的需求分析宏命令实现批量操作的优势常见批量操作场景与宏命令应用实例命令模式与宏命令的协同使用构建复杂
移远5G平台交叉编译C++、OpenSSL 初级代码游戏工业 5G 交叉编译 openssl
初级代码游戏的专栏介绍与文章目录-CSDN博客我的github：codetoys，所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。这些代码大部分以Linux为目标但部分代码是纯C++的，可以在任何平台上使用。这是操作记录。移远的某款5G平台，arm64，简化版linux系统。交叉编译环境为ubuntu18（我用的是最小安装的liveserver）。交叉编译工具：unisoc-in
openGauss2.0.0 主备安装部署 openGaussMan 算法 openGauss 数据库
openGauss2.0.0主备安装部署openGauss2.0.0于2021年3月31日正式发布，大部分对openGauss数据库感兴趣的小伙伴首先想到的应该是先把新版本软件下载下来，搭建一套自己的测试环境，然后再根据官方文档研究研究新特性的使用和原理。本文基于openGauss2.0.0搭建1主+1备+1级联备测试环境，并将操作记录共享出来，希望能帮到有需要的小伙伴。2.0.0版新增特性特性介
浅谈 MySQL 写数据一致性保障机制 Jo_hn_Doe MySQL mysql 数据库 java
如何保障-2PCMySQL是通过2PC来保证写数据一致性的，具体步骤如下。执行器先向存储引擎取指定行。如果这些行数据所在的数据页本来就在内存中，就直接返回给执行器，否需要先从磁盘读入内存，然后再返回。执行器拿到数据后更新，得到新的数据，再调用存储引擎接口写入新数据。存储引擎将新数据更新到内存，同时将这个更新操作记录到redo-log里面，此时redo-log是prepare状态。然后告知执行器执行
应急响应实战笔记02日志分析篇（2） Pluto－2003 应急响应笔记服务器 linux 网络安全安全
第2篇:Linux日志分析0x00前言Linux系统拥有非常灵活和强大的日志功能，可以保存几乎所有的操作记录，并可以从中检索出我们需要的信息。本文简介一下Linux系统日志及日志分析技巧。0x01日志简介日志默认存放位置：/var/log/查看日志配置情况：more/etc/rsyslog.conf日志文件说明/var/log/cron记录了系统定时任务相关的日志/var/log/cups记录打印
oracle主库增加redo组数 z.. l.. oracle 数据库云原生
redolog（重做日志）：重做日志：简单来说就是，将oracle数据库的DML、DDL（数据库操作语言，数据库定义i语言）操作记录在日志中，方便恢复及备库使用，以组的方式管理redofile，最少两组redo，循环使用，数据文件存放到不同的磁盘上，需读写速度快的磁盘。redo的4种状态：inactive脏页已经刷到磁盘可以删除active存在脏页，回滚时候可能还会用到的current当前在用的正
2022-07-20 f2406968661a
蒙氏教具，学生操作记录熊欢吸水，滴水操作，感受水的有形与无形一次次的吸水将水滴入小模型中，培养孩子的耐性，手指的控制力，水的形状的变化，如何才能将滴入的水不流出来？需要使多大的力？是需要用心去感受体会的。周君墨用橡皮泥捏出自己喜欢的形状用橡皮泥捏出了恐龙，一只飞翔的恐龙，参加战斗的恐龙橡皮泥的柔软让孩子感受到柔软的美，也正是因为这份柔软，可以得到我们想要的模型。在生活中刚强是不可再生发的，而柔软是
2021年3月12日300ETF早盘期权操作记录老威期权说
早盘操作情况：操作合约：300ETF购3月5.0操作逻辑：昨日外围市场情绪偏多，今日A股高开低走，急跳水之后，预测会有一波反抽，因此在9：47，大盘跳水到3423时入购。又由于昨日企稳信号的发出，加上今天是周五，因此我们判断今日行情不会单边涨也不会单边跌，所以跌多了认购，涨多了认沽，做波段为主。盈亏状况：目前浮盈1240元（策略体验群：十万模拟资金，需要入群可联系。观点建议仅供参考）
使用git reset回退版本大草原的小灰灰 git git
1、gitlog命令介绍在介绍版本回退之前先介绍下如何gitlog命令，可以查看我们的提交历史记录。gitlog多页时，空格向下翻页，b向上翻页，q退出gitlog--pretty=online简洁一些gitlog--oneline更简洁一些gitreflog会显示到移动到某一版本需要多少步以及你的所有操作记录2、gitreset--hard回退版本先看下我的提交记录最新的提交中，我在main.c
新增同步管理、操作日志模块，支持公共链接分享，DataEase开源数据可视化分析平台v2.3.0发布 FIT2CLOUD飞致云开源数据分析数据可视化 DataEase 数据大屏仪表板
2024年2月5日，DataEase开源数据可视化分析平台正式发布v2.3.0版本。这一版本的功能升级包括：新增“同步管理”功能模块，用户可通过此模块，将传统数据库中的数据定时同步到ApacheDoris中，让数据分析更快速；新增“操作日志”功能模块，用户可以在此模块查看自己在DataEase中的所有操作记录，方便用户对日常操作进行审计；仪表板方面，支持对指定的仪表板或数据大屏进行公共链接分享；图
showdoc在centos安装操作记录（转载）小钟钟同学
转载参考地址：https://www.cnblogs.com/EmptyFS/p/9180621.html相关的安装的流程按大神步骤操作即可：这里备注一下实现过程几个小问题点.都是关于权限的的问题遇到问题记录：1：提示：目录[./server/Application/Runtime/]不可写2：相关目录的权限image.png3：数据库文件权限image.pngimage.png解决赋权：[roo
[C语言] 实现简易2048小游戏廊桥遗梦728 c语言
实现功能：1.利用循环结构实现游戏基本功能，例如：重新开始，退出游戏，上下左右移动等。2.采用文件流相关操作记录历史最高分，若玩家从未玩过，则默认最高分为0。3.使用贴图操作完成相关界面（如下图所示，较为简陋）。实现代码：#include#include#include#include#includeintshuzi[4][4]={0};intshifoujieshu=1;//判断是否结束intc
mysql Change buffer详解少林码僧 mysql 数据库
MySQL的Changebuffer是一种用来优化更新操作的机制。当对数据库进行更新操作时，MySQL会先将更新操作记录到Changebuffer中，然后再将更新操作应用到实际的数据页中。Changebuffer的原理如下：当需要更新某个数据页时，MySQL首先会检查该数据页是否在内存中。如果数据页在内存中，直接在内存中进行更新操作；如果不在内存中，MySQL会将该数据页加载到内存中，然后在内存中
git 基本操作记录 mihuayishi git 大数据
git操作1.常用git操作1.1xcclone#加上名字可以直接clone到想要的文件gitpushoriginHEAD:refs/for/xxxx#例如gitpushoriginHEAD:refs/for/master#回退到某次提交的版本gitreset--hardde62ce5c0539bfab44e83b262b2e6e731d9f4dd4(commitid)#清楚环境并且pullgit
mysql 数据修改记录日志_mysql对数据的更新操作记录在哪个日志中？小珂and小洋 mysql 数据修改记录日志
mysql对数据的更新操作记录在通用查询日志和二进制日志中。通用查询日志用来记录用户的所有操作，包括启动和关闭MySQL服务、更新语句和查询语句等；二进制日志会以二进制的形式记录数据库的各种操作，但不记录查询语句。(推荐教程：mysql视频教程)日志是数据库的重要组成部分，主要用来记录数据库的运行情况、日常操作和错误信息。MySQL通用查询日志(GeneralQueryLog)通用查询日志(Gen
Git的常用命令快速入门 - 配图例嗯嗯** Git版本库 git 快速入门使用 1024程序员节
文章目录丢弃某个文件工作区的内容修改-restore比对文件内容区别-diff查看项目分支-branch切换分支-checkout-创建并切换到新分支-checkout-b删除分支-branch-d合并分支-merge查看git所有操作记录-reflog将代码回溯到某个commit版本-reset--hard回溯到当前版本的之前版本--hardhard与无hard的区别有hard-工作区、暂存区、
StarRocks -- 基础概念(数据模型及分区分桶) lj907722644 StarRocks java 大数据数据库
1.数据模型StarRocks提供四种数据模型：DuplicateKey,AggregateKey,UniqueKey,PrimaryKey1.1DuplicateKey适用场景：分析原始数据，如原始日志和原始操作记录。可以使用多种方法查询数据，不受预聚合方法的限制。加载日志数据或时序数据。新数据以追加模式写入，现有数据不更新。注意：默认情况下，如果没有指定排序键列，StarRocks将使用前三列
QT 使用XML保存操作记录柳暗花明、又一春 QT编程 qt xml java 配置文件生成 Qt工程文件生成
文章目录1实现程序保存操作记录的思路2XML文档基本结构3QDomDocument实现XML读写3.1QDomDocument实现生成XML文件3.2QDomDocument实现读取XML文件4QXmlStreamWriter实现读写4.1QXmlStreamWriter实现生成XML4.2QXmlStreamWriter实现读取XML1实现程序保存操作记录的思路思路来源：由于在一些绘图工具中，有
jupyter出现问题ModuleNotFoundError: No module named ‘exceptiongroup‘ 我的心永远是冰冰哒 jupyter python windows
今天使用pyg的jupyter环境发现这个环境没法用,所以只能把这个kernel给重删了然后再装，操作记录如下查看kerneljupyterkernelspeclist注意不是jupyterkernel--list需要加关键字spec,删除kerneljupyterkernelspecremovepyg当重新安装这个kernel时可能会出错python-mipykernelinstall--nam
关于sublime text 如何使用fastolympiccoding插件实现高效刷题（循环测试） GHOSTANDBREAD 算法笔记 sublime text 编辑器
最近我发现了这个非常高效的插件，但是在sublimetext上下载后却没有意料中的效果，经过各种查阅资料，不断删除下载重试，最后发现原来是自己电脑的问题，操作是没有问题的。所以还是把操作记录一下吧首先下载sublimetext，从官网下或者哪里都可以。下载后打开sublimetext，然后Ctrl+shift+P，调出框框，输入install，下载packagecontrol下载完成后再次Ctrl
工作常用的GIT操作记录 Postman.Zeng Git git
1.拉取动作gitpullgitpulloriginmaster拉取远端主分支代码强制拉取远端master代码gitfetch--allgitreset--hardorigin/mastergitpull2.本地创建分支a)gitcheckout-blocal_branch创建本地分支local_branch并切换到local_branchb)gitbranchlocal_branch创建本地分支
4、电科院FTU检测标准学习笔记-功能检测2 six2me 配电自动化(FTU)测试笔记学习笔记 FTU 电科院检测
作者简介：本人从事电力系统多年，岗位包含研发，测试，工程等，具有丰富的经验在配电自动化验收测试以及电科院测试中，本人全程参与，积累了不少现场的经验目录技术要求历史数据内容说明文件类型及命名规范文件格式SOE遥控操作记录极值记录文件定点记录文件冻结点能量记录文件电源失电后数据不丢失，支持远程调阅SOE事件顺序记录要求：验证过程：定点记录
basis事务码 weixin_30367873 数据库操作系统
SM01锁定解锁事务码SM02发送即时消息SM59RFC连接配置SM28一致性检查SM19配置用户登陆等的审计dbco创建数据库连接db02，SAP访问的TNSNAMES在数据库级别配置tnsnames.ora路径/sapmnt/DEV/profile/oracleDB01查看数据库的WAITDB14DBA的操作记录，查看brtools的报错RZ11查看参数RZ10查看参数文件RZ20ccms监视
如何精准记录系统用户的每一步操作？深入探索 Java 审计日志实现一叶飘零_sweeeet java 果酱紫 java java审计 AOP
为什么要记录用户操作？在回答这个问题之前，让我们先想象一个场景：你的银行账户突然被擅自转账，而银行却告诉你他们不知道是谁操作的。这听起来无疑是一个噩梦。同样，在软件系统中，如果没有适当的操作记录，一旦出现数据泄露或错误操作，将无法追踪到责任人。记录用户操作可以帮助我们：提高安全性：通过审计日志，可以检测到未授权的操作和潜在的安全威胁。简化故障排除：当系统出现问题时，操作日志可以提供关键信息，帮助快
H3C SS5500 交换机配置操作记录子妙815 点滴记录交换机 h3c
交换机Port1vlan1上联华三网关，port45vlan100被镜像到port9，dhcp服务器，可接电脑或者AP。system-view#配置DHCP服务器1)创建V100dhcpserverip-poolvlan100network172.16.100.0mask255.255.255.0gateway-list172.16.100.1dns-list114.114.114.114expi
.git 文件夹结构解析 dralexsanderl git git
.git文件夹结构解析在这篇文章就让我们来看看这个Git仓库里的文件分别都是用来干什么的，以及在执行了相关的Git命令后这些文件会如何响应。hooks（钩）：存放一些shell脚本info：存放仓库的一些信息logs：保存所有分支的commit记录及HEAD操作记录。HEAD：映射到refs引用，这样就能够找到当前分支最新的一次提交的hash值。objects：存放所有的git对象refs：hea
Mysql的骚操作说明 ifanatic MySQL mysql android 数据库
Mysql的常规操作记录些不常用，但是很实用的操作，旨在在MySQL语言能解决的批量操作的问题，不动用其他动态或静态语言的辅助。1、FROM_UNIXTIME时间戳转时间格式selectscode,sid,gender,type,FROM_UNIXTIME(report_time)asreport_time,FROM_UNIXTIME(add_time)asadd_time,FROM_UNIXTI
Kettle资源库配置变为灰色，且没有connect按钮 W_枫叶 KETTLE etl
问题背景：在日常使用Kettle的过程中，有时候会发现自己打开Kettle以后，资源库配置变为灰色，且没有connect按钮，简单操作即可解决。转载别人文件后，添加自己的操作记录问题分析：Kettle作为ETL众多软件中的一员，可以说是对中文很不友好，在使用过程中我们尽可能的少使用中文，不然会带来意想不到的错误。长话短说，出现如标题的问题是因为我们在创建资源库时用中文命名或者是在描述中用到了中文，
记一次Redis漏洞导致服务器被入侵以及解决的过程 orisonchan
其实这个问题在网上都有说明。然而因为本人是开发出身，运维方面比较欠缺，所以才会遇到此问题，遂记录下来，以此为戒。被入侵现象服务器多了很多莫名其妙的操作，根据查看操作记录命令history得到。服务器会莫名其妙重启。经常ssh免密登录失效。apt-get使用报错。报错log如下：insserv:warning:script'S01wipefs'missingLSBtagsandoverridesin
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR