理想吃饭没

The pipeline of RNA-seq（菜鸟教学）

一、准备工作

1.1 设置好专门的用于RNA分析的环境

在SRA中下载目标序列，使用wget指令

使用conda激活rna分析环境

1.2 工作目录管理

## 示例如下：
├── database # 数据库存放目录，包括参考基因组，注释文件，公共数据库等
├── project # 项目分析目录
└── Human-16-Asthma-Trans #具体项目
├── data # 数据存放目录
│   ├── cleandata # 过滤后的数据
      │   ├── trim_galore # trim_galore过滤
              │   └── fastp   # fastp过滤
│   └── rawdata # 原始数据
├── Mapping # 比对目录
│   ├── Hisat2 # Hisat比对
│   └── Subjunc # subjunc比对
└── Expression # 定量
├── featureCounts # featureCounts
└── Salmon # salmon定量

# 进入到个人目录
cd ~

## 1.建立数据库目录：在数据库下建立参考基因组数据库，注意命名习惯：参考基因组版本信息
mkdir -p database/genome/GRCh38_release104

## 2.建立项目分析目录
mkdir project
cd project

mkdir Human-16-Asthma-Trans # 注意项目命名习惯：物种-样本数-疾病-分析流程
cd Human-16-Asthma-Trans

# 建立数据存放目录
mkdir -p data/rawdata  data/cleandata/trim_galore  data/cleandata/fastp

# 建立比对目录
mkdir -p Mapping/Hisat2 Mapping/Subjunc

# 建立定量目录
mkdir -p Expression/featureCounts  Expression/Salmon

#查看目录
tree

二、原始数据质量评估

2.1 数据质量评估

FastQC软件可以对fastq格式的原始数据进行质量统计，评估测序结果，为下一步修建过滤提供参考。

常见参数如下:

# 激活conda环境
conda activate rna

# 连接数据到自己的文件夹
cd $HOME/project/Human-16-Asthma-Trans/data/rawdata
ln -s /teach/t_rna/data/airway/fastq_raw25000/*gz ./

# 使用FastQC软件对单个fastq文件进行质量评估，结果输出到qc/文件夹下
fastqc  -t   6   -o  ./   SRR1039510_1.fastq.gz

# 多个数据质控
fastqc -t 6 -o ./  SRR*.fastq.gz

# 使用MultiQc整合FastQC结果
multiqc *.zip

脚本后台运行： nohup &，两种方式

nohup : no hang up ，退出终端不会影响程序的运行。

&: 后台运行

#plan 1
#直接在命令前后加上nohup &，适用于较短的命令，方便快捷
nohup fastqc -t 6 -o ./ SRR*.fastq.gz &

#plan 2
#将命令写入sh脚本，使用nohup &运行sh脚本，适用于比较长和复杂的命令
nohup sh qc.sh > qc.sh.log &

三、数据过滤

测序得到的原始序列含有接头序列或低质量序列，为了保证信息分析的准确性，需要对原始数据进行质量控制，得到高质量序列(即Clean Reads)，原始序列质量控制的标准为:
（1）去除含接头的reads;
（2）过滤去除低质量值数据，确保数据质量;
（3）去除含有N(无法确定碱基信息）的比例大于5%的reads;

3.1 trim_galore过滤

软件1名称：trim_galore

常用参数：

# 激活小环境
conda activate rna

# 新建文件夹trim_galore
cd $HOME/project/Human-16-Asthma-Trans/data/cleandata
mkdir trim_galore
cd trim_galore

# 单个样本，使用tab键补全路径
trim_galore --phred33 -q 20 --length 36 --max_n 3 --stringency 3 --fastqc -o ./ --paired ../../rawdata/SRR1039510_1.fastq.gz ../../rawdata/SRR1039510_2.fastq.gz


# 先生成一个变量,为样本ID
ls $HOME/project/Human-16-Asthma-Trans/data/rawdata/*_1.fastq.gz | awk -F'/' '{print $NF}' | cut -d'_' -f1 >ID

# 多个样本 vim trim_galore.sh，以下为sh的内容
rawdata=$HOME/project/Human-16-Asthma-Trans/data/rawdata
cleandata=$HOME/project/Human-16-Asthma-Trans/data/cleandata/trim_galore

cat ID | while read id
do
  trim_galore --phred33 -q 20 --length 36 --max_n 3 --stringency 3 --fastqc --paired -o ${cleandata} ${rawdata}/${id}_1.fastq.gz ${rawdata}/${id}_2.fastq.gz
done

# 提交任务到后台
nohup sh trim_galore.sh >trim_galore.log &

3.2 fastp过滤

软件2名称：fastp

常用参数：

d $HOME/project/Human-16-Asthma-Trans/data/cleandata
mkdir fastp
cd fastp

# 定义文件夹
cleandata=$HOME/project/Human-16-Asthma-Trans/data/cleandata/fastp/
rawdata=$HOME/project/Human-16-Asthma-Trans/data/rawdata/

# 单个样本
fastp -i $rawdata/SRR1039510_1.fastq.gz \
      -I $rawdata/SRR1039510_2.fastq.gz \
      -o $cleandata/SRR1039510_1.fastp.fq.gz \
      -O $cleandata/SRR1039510_2.fastp.fq.gz \
      -h $cleandata/SRR1039510.html \
      -j $cleandata/SRR1039510.json \
      -l 36 -q 20 --compression=6 -R $cleandata/SRR1039510

# 多个样本
cat ../trim_galore/ID | while read id
do
fastp -l 36 -q 20 --compression=6 \
  -i ${rawdata}/${id}_1.fastq.gz \
  -I ${rawdata}/${id}_2.fastq.gz \
  -o ${cleandata}/${id}_1.fastp.fq.gz \
  -O ${cleandata}/${id}_2.fastp.fq.gz \
  -R ${cleandata}/${id} \
  -h ${cleandata}/${id}.fastp.html \
  -j ${cleandata}/${id}.fastp.json 
done

# 运行fastp脚本
nohup sh fastp.sh >fastp.log &

3.3 数据过滤前后变化

1.有一些reads长度发生了变化

2.有一些reads直接被过滤掉了总read数减少

3.大部分reads都满足过滤条件没有变化

# 进入过滤目录
cd $HOME/project/Human-16-Asthma-Trans/data/cleandata/trim_galore

# 原始数据
zcat $rawdata/SRR1039510_1.fastq.gz | paste - - - - > raw.txt

#  过滤后的数据
zcat SRR1039510_1_val_1.fq.gz |paste - - - - > trim.txt
awk '(length($4)<63){print$1}' trim.txt > Seq.ID

head -n 100 Seq.ID > ID100
grep -w -f ID100 trim.txt | awk '{print$1,$4}' > trim.sm
grep -w -f ID100 raw.txt | awk '{print$1,$4}' > raw.sm
paste raw.sm trim.sm | awk '{print$2,$4}' | tr ' ' '\n' |less -S

四、参考基因组的下载

4.1 下载平台

Ensembl： www.ensembl.org

NCBI： https://www.ncbi.nlm.nih.gov/projects/genome/guide/human/index.shtml

UCSC：http://www.genome.ucsc.edu/

4.2 fasta文件的下载

wget分别下载基因组序列和转录组序列

## 参考基因组准备:注意参考基因组版本信息
# 下载，Ensembl：http://asia.ensembl.org/index.html
# http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/

# 进入到参考基因组目录
cd $HOME/database/genome/GRCh38_release104

# 下载基因组序列
nohup wget -c http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz >dna.log &


# 下载转录组
nohup wget -c http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz >rna.log &

4.3 参考基因组注释文件的下载

有gtf和gff两种文件格式

gff格式如下：

第九列的详解如下：

两种文件的差异及比较：

# 下载基因组注释文件
nohup wget -c http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz >gtf.log &

# 解压
nohup gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz Homo_sapiens.GRCh38.cdna.all.fa.gz >unzip.log &

五、数据比对

5.1 构建索引

软件：Hisat2 ————转录组数据的比对

命令：hisat2-build 参考基因组fa文件前缀

hisat2主要参数：

# 进入参考基因组目录
cd $HOME/database/genome/GRCh38_release104

# Hisat2构建索引，构建索引时间比较长，建议携程sh脚本提交后台运行
hisat2-build Homo_sapiens.GRCh38.dna.primary_assembly.fa Homo_sapiens.GRCh38.dna.primary_assembly

# 提交后台
nohup sh index.sh >index.sh.log &

5.2 任务串联

三步走：

1. 比对

2. sam转bam （samtools作为工具）

3. bam建索引

单样本

# 进入比对文件夹
cd $HOME/project/Human-16-Asthma-Trans/Mapping/Hisat2

# 输入输出定义文件夹
index=/home/t_rna/database/genome/GRCh38_release95/Homo_sapiens.GRCh38.dna.primary_assembly
inputdir=$HOME/project/Human-16-Asthma-Trans/data/cleandata/trim_galore/
outdir=$HOME/project/Human-16-Asthma-Trans/Mapping/Hisat2

# 单个样本比对
hisat2 -p 5 -x  ${index} \
-1 ${inputdir}/SRR1039510_1_val_1.fq.gz \
-2 ${inputdir}/SRR1039510_2_val_2.fq.gz \
-S ${outdir}/SRR1039510.Hisat_aln.sam

# sam转bam
samtools sort -@ 6 -o SRR1039510.Hisat_aln.sorted.bam SRR1039510.Hisat_aln.sam

# 对bam建索引
samtools index SRR1039510.Hisat_aln.sorted.bam SRR1039510.Hisat_aln.sorted.bam.bai

多样本

# 多个样本批量进行比对，排序，建索引
# Hisat.sh内容： 注意命令中的-，表示占位符，表示|管道符前面的输出。
# vim Hisat.sh
index=/home/t_rna/database/genome/GRCh38_release95/Homo_sapiens.GRCh38.dna.primary_assembly
inputdir=$HOME/project/Human-16-Asthma-Trans/data/cleandata/trim_galore/
outdir=$HOME/project/Human-16-Asthma-Trans/Mapping/Hisat2

cat ../../data/cleandata/trim_galore/ID | while read id
do
  hisat2 -p 5 -x ${index} -1 ${inputdir}/${id}_1_val_1.fq.gz -2 ${inputdir}/${id}_2_val_2.fq.gz 2>${id}.log  | samtools sort -@ 3 -o ${outdir}/${id}.Hisat_aln.sorted.bam - &&  samtools index ${outdir}/${id}.Hisat_aln.sorted.bam ${outdir}/${id}.Hisat_aln.sorted.bam.bai
done

# 统计比对情况
multiqc -o ./    SRR*log

# 提交后台运行
nohup sh Hisat.sh >Hisat.log &

MultiQC 整理 hisat2 结果： multiqc *log

5.3sam/bam格式

比对结果部分

1.每一行表示一个read的比对信息

2.每行包括11给必须字段和1个可选字段，字段之间用制表符分割

sam/bam格式-----FLAG：samtools flags 99

sam/bam格式-----CIGAR：简要比对信息表达式

常用指令如下：

5.4 subjunc比对

常见参数：

构建索引

# 进入参考基因组目录
cd $HOME/database/genome/GRCh38_release104

# subjunc构建索引，构建索引时间比较长，建议携程sh脚本提交后台运行
subread-buildindex -o Homo_sapiens.GRCh38.dna.primary_assembly Homo_sapiens.GRCh38.dna.primary_assembly.fa

单样本

# 进入文件夹
cd $HOME/project/Human-16-Asthma-Trans/Mapping/Subjunc

# 输入输出定义文件夹，上课使用的index为教师目录
index=/home/t_rna/database/genome/GRCh38_release95/Homo_sapiens.GRCh38.dna.primary_assembly
inputdir=$HOME/project/Human-16-Asthma-Trans/data/cleandata/trim_galore
outdir=$HOME/project/Human-16-Asthma-Trans/Mapping/Subjunc
 
# subjunc单样本比对
subjunc -T 6 -i ${index} \
        -r ${inputdir}/SRR1039510_1_val_1.fq.gz \
        -R ${inputdir}/SRR1039510_2_val_2.fq.gz \
        -o ${outdir}/SRR1039510.Subjunc.bam \
        >${outdir}/SRR1039510.Subjunc.log

# 排序以及构建bam索引 
samtools sort -@ 6 -o SRR1039510.Subjunc.sorted.bam SRR1039510.Subjunc.bam

# 建索引，.bai结尾的文件为索引
samtools index SRR1039510.Subjunc.sorted.bam  SRR1039510.Subjunc.sorted.bam.bai

多样本

# vim subjunc.sh
index=/home/t_rna/database/genome/GRCh38_release95/Homo_sapiens.GRCh38.dna.primary_assembly
inputdir=$HOME/project/Human-16-Asthma-Trans/data/cleandata/trim_galore
outdir=$HOME/project/Human-16-Asthma-Trans/Mapping/Subjunc

cat ../../data/cleandata/trim_galore/ID | while read id
do
  subjunc -T 10 -i ${index} -r ${inputdir}/${id}_1_val_1.fq.gz -R ${inputdir}/${id}_2_val_2.fq.gz -o ${outdir}/${id}.Subjunc.bam 1>${outdir}/${id}.Subjunc.log 2>&1 && samtools sort -@ 6 -o ${outdir}/${id}.Subjunc.sorted.bam  ${outdir}/${id}.Subjunc.bam && samtools index ${outdir}/${id}.Subjunc.sorted.bam ${outdir}/${id}.Subjunc.sorted.bam.bai
done

# 运行
nohup sh subjunc.sh >subjunc.log &

六、表达定量

6.1 featurecounts

常用参数如下：

结果解析如下：

cd $HOME/project/Human-16-Asthma-Trans/Expression/featureCounts

## 定义输入输出文件夹
gtf=/home/t_rna/database/genome/GRCh38_release95/Homo_sapiens.GRCh38.95.gtf.gz
inputdir=$HOME/project/Human-16-Asthma-Trans/Mapping/Hisat2/

# featureCounts对bam文件进行计数
featureCounts -T 6 -p -t exon -g gene_id -a $gtf -o all.id.txt $inputdir/*.sorted.bam

# 对定量结果质控
multiqc all.id.txt.summary

# 得到表达矩阵
cat all.id.txt | cut -f1,7- > counts.txt

# 处理表头，/teach/t_rna/要换成自己的路径
less -S all.id.txt |grep -v '#' |cut -f 1,7- |sed 's#/teach/t_rna/project/Human-16-Asthma-Trans/Mapping/Hisat2//##g' |sed 's#.Hisat_aln.sorted.bam##g' >raw_counts.txt


# 列对齐显示
head raw_counts.txt  |column -t

6.2 salmon

1. Salmon 可以快速从 fastq 快速得到基因表达

2. salmon的相关参数：

3. 相应的结果如下：

• Name：target transcript 名称，由输入的 transcript database (FASTA file)所提供。

• Length：target transcript 长度，即有多少个核苷酸。

• EffectiveLength：target transcript 计算的有效长度。此项考虑了所有建模的因素，这将影响从这个转录本中取样片段的概率，包括片段长度分布和序列特异性和gc片段偏好

• TPM：估计转录本的表达量

• NumReads：估计比对到每个转录本的reads数

4.步骤如下：

构建索引

cd $HOME/database/genome/GRCh38_release104

# 构建salmon索引
salmon index -t Homo_sapiens.GRCh38.cdna.all.fa.gz -i Homo_sapiens.GRCh38.cdna.all.salmon

单个样本

cd $HOME/project/Human-16-Asthma-Trans/Expression/Salmon

# 定义文件夹
index=/home/t_rna/database/genome/GRCh38_release95/Homo_sapiens.GRCh38.cdna.all.salmon/
input=$HOME/project/Human-16-Asthma-Trans/data/cleandata/trim_galore
outdir=$HOME/project/Human-16-Asthma-Trans/Expression/Salmon

# 单样本测试：\后面不能有空格，否则会报错
salmon quant -i $index -l A -p 5 \
             -1 $input/SRR1039510_1_val_1.fq.gz \
             -2 $input/SRR1039510_2_val_2.fq.gz \
             -o $outdir/SRR1039510.quant

多个样本

# 编写脚本，使用salmon批量对目录下所有fastq文件进行定量
# vim salmon.sh
index=/home/t_rna/database/genome/GRCh38_release95/Homo_sapiens.GRCh38.cdna.all.salmon/
input=$HOME/project/Human-16-Asthma-Trans/data/cleandata/trim_galore
outdir=$HOME/project/Human-16-Asthma-Trans/Expression/Salmon

cat ../../data/cleandata/trim_galore/ID |while read id 
do
  salmon quant -i ${index} -l A -1 ${input}/${id}_1_val_1.fq.gz -2 ${input}/${id}_2_val_2.fq.gz -p 5 -o ${outdir}/${id}.quant
done

# 后台运行脚本
nohup bash salmon.sh 1>salmon.log 2>&1 &

七、差异表达分析

7.1样本异常值与重复性检验

1. 前期准备

rm(list = ls())

## Installing R packages
bioPackages <-c( 
  "corrplot","ggrepel",           # 绘制相关性图形
  "stringr",                      # 处理字符串的包
  "FactoMineR","factoextra",      # PCA分析软件
  "limma","edgeR","DESeq2",       # 差异分析的三个软件包
  "clusterProfiler", "org.Hs.eg.db",  # 安装进行GO和Kegg分析的扩展包
  "GSEABase","GSVA"               # 安装进行GSEA分析的扩展包
  )

## If you are in China, run the command below
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor/")
options("repos" = c(CRAN="http://mirrors.cloud.tencent.com/CRAN/")) 
options(download.file.method = 'libcurl')
options(url.method='libcurl')

# 检查是否设定完毕
getOption("BioC_mirror")
getOption("CRAN")

if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager")

# 安装devtools管理github上的软件包
if (!requireNamespace("devtools", quietly = TRUE)) install.packages("devtools")


## Installing missing packages
lapply( bioPackages, 
        function( bioPackage ){
          if(!bioPackage %in% rownames(installed.packages())){
              CRANpackages <- available.packages()
              if(bioPackage %in% rownames(CRANpackages)){
                 install.packages( bioPackage)
              }else{
                 BiocManager::install(bioPackage,suppressUpdates=F,ask=F)
              }
          }
        })


## 验证R包是否安装成功
library(limma)
library(edgeR)
library(DESeq2)
library(FactoMineR)
library(factoextra)
library(clusterProfiler)
library(org.Hs.eg.db)

2.过滤去重

rm(list = ls())
options(stringsAsFactors = F)
library(stringr)

## ====================1.读取数据
# 读取raw count表达矩阵
rawcount <- read.table("data/raw_counts.txt",row.names = 1, 
                       sep = "\t", header = T)
colnames(rawcount)

# 查看表达谱
rawcount[1:4,1:4]

# 去除前的基因表达矩阵情况
dim(rawcount)

# 获取分组信息
group <- read.table("data/filereport_read_run_PRJNA229998_tsv.txt",
                    header = T,sep = "\t",quote = "\"")
colnames(group)

# 提取表达矩阵对应的样本表型信息
group <- group[match(colnames(rawcount),group$run_accession),
               c("run_accession","sample_title")]
group

# 差异分析方案为：Dex vs untreated
group_list <- str_split_fixed(group$sample_title,pattern  = "_", n=2)[,2]
group_list



## =================== 2.表达矩阵预处理
# 过滤低表达基因
# 1.过滤在至少在75%的样本中都不表达的基因
# 2.过滤平均值count<10的基因
# 3.过滤平均cpm <10 的基因
keep <- rowSums(rawcount>0) >= floor(0.75*ncol(rawcount))
table(keep)

filter_count <- rawcount[keep,]
filter_count[1:4,1:4]
dim(filter_count)

# 加载edgeR包计算counts per millio(cpm) 表达矩阵,并对结果取log2值
library(edgeR)
express_cpm <- log2(cpm(filter_count)+ 1)
express_cpm[1:6,1:6]

# 保存表达矩阵和分组结果
save(filter_count,express_cpm,group_list,
     file = "data/Step01-airwayData.Rdata")

3.箱线图、小提琴图和概率分布图的绘制

rm(list = ls())
options(stringsAsFactors = F)

# 加载原始表达的数据
lname <- load(file = "data/Step01-airwayData.Rdata")
lname

exprSet <- express_cpm
exprSet[1:6,1:6]

# 样本表达总体分布-箱式图
library(ggplot2)
# 构造绘图数据
data <- data.frame(expression=c(exprSet),
                   sample=rep(colnames(exprSet),each=nrow(exprSet)))
head(data)

p <- ggplot(data = data,aes(x=sample,y=expression,fill=sample))
p1 <- p + geom_boxplot() + theme(axis.text.x = element_text(angle = 90)) + 
  xlab(NULL) + ylab("log2(CPM+1)")
p1


# 保存图片
pdf(file = "result/sample_boxplot.pdf",width = 6,height = 8)
print(p1)
dev.off()


# 样本表达总体分布-小提琴图
p2 <- p + geom_violin() + 
  theme(axis.text = element_text(size = 12),
        axis.text.x = element_text(angle = 90)) + 
  xlab(NULL) + ylab("log2(CPM+1)")
p2

# 保存图片
pdf(file = "result/sample_violin.pdf",width = 6,height = 8)
print(p2)
dev.off()

# 样本表达总体分布-概率密度分布图
m <- ggplot(data=data, aes(x=expression))
p3 <- m +  geom_density(aes(fill=sample, colour=sample),alpha = 0.1) + 
  xlab("log2(CPM+1)")
p3

# 保存图片
pdf(file = "result/sample_density.pdf",width = 7,height = 8)
print(p3)
dev.off()

4.主成分分析和热图

# 一键清空
rm(list = ls())  
options(stringsAsFactors = F)

# 加载数据并检查
lname <- load(file = 'data/Step01-airwayData.Rdata')
lname

dat <- express_cpm
dat[1:4,1:4]
dim(dat)


## 1.样本之间的相关性-层次聚类树----
sampleTree <- hclust(dist(t(dat)), method = "average")
temp <- as.data.frame(cutree(sampleTree,k = 2))

plot(sampleTree)

pdf(file = "result/sample_Treeplot.pdf",width = 6,height = 8)
plot(sampleTree)
dev.off()


## 2.样本之间的相关性-PCA----
# 第一步，数据预处理
dat <- as.data.frame(t(dat))
dat$group_list <- group_list


# 第二步，绘制PCA图
library(FactoMineR)
library(factoextra)

# 画图仅需要数值型数据，去掉最后一列的分组信息
dat_pca <- PCA(dat[,-ncol(dat)], graph = FALSE)
class(dat_pca)

p <- fviz_pca_ind(dat_pca,
                  geom.ind = "text", # 只显示点，不显示文字
                  col.ind = dat$group_list, # 用不同颜色表示分组
                  palette = c("#00AFBB", "#E7B800"),
                  addEllipses = T, # 是否圈起来
                  legend.title = "Groups") + theme_bw()
p



## 3.样本之间的相关性-cor----
exprSet <- express_cpm

library(corrplot)
dim(exprSet)

# 计算相关性
M <- cor(exprSet)
M
g <- corrplot(M,order = "AOE",addCoef.col = "white")

corrplot(M,order = "AOE",type="upper",tl.pos = "d",method = "pie")
corrplot(M,add=TRUE, type="lower", method="number",order="AOE",diag=FALSE,
         tl.pos="n", cl.pos="n")

# 绘制样本相关性的热图
library(pheatmap)
anno <- data.frame(sampleType=group_list)
rownames(anno) <- colnames(exprSet)
anno

p <- pheatmap::pheatmap(M,display_numbers = T,
                        annotation_col = anno,
                        fontsize = 12,cellheight = 30,
                        cellwidth = 30,cluster_rows = T,
                        cluster_cols = T)
p

pdf(file = "result/sample_cor.pdf")
print(p)
dev.off()

7.2 差异表达分析方法

7.2.1 limma

分析步骤：

1.创建设计矩阵和对比

2.构建edgeR的DGEList对象，并归一化，拟合模型

3.提取过滤差异分析结果

# 清空当前对象
rm(list = ls())
options(stringsAsFactors = F)

# 读取基因表达矩阵
lname <- load(file = "data/Step01-airwayData.Rdata")
lname

exprSet <- filter_count
# 检查表达谱
dim(exprSet)
exprSet[1:6,1:6]
table(group_list)

# 加载包
library(limma)
library(edgeR)

## 第一步，创建设计矩阵和对比：假设数据符合分布，构建线性模型
# 0代表x线性模型的截距为0
design <- model.matrix(~0+factor(group_list))
colnames(design) <- levels(factor(group_list))
rownames(design) <- colnames(exprSet)
design

# 设置需要进行对比的分组，需要修改
comp <- 'Dex-untreated'
cont.matrix <- makeContrasts(contrasts=c(comp),levels = design)


## 第二步，进行差异表达分析
# 将表达矩阵转换为edgeR的DGEList对象
dge <- DGEList(counts=exprSet)
dge
v <- voom(dge,design,plot=TRUE, normalize="quantile") 
fit <- lmFit(v, design)
fit2 <- contrasts.fit(fit,cont.matrix)
fit2 <- eBayes(fit2)
fit2

## 第三步，提取过滤差异分析结果
tmp <- topTable(fit2, coef=comp, n=Inf,adjust.method="BH")
DEG_limma_voom <- na.omit(tmp)
head(DEG_limma_voom)

# 筛选上下调，设定阈值
fc_cutoff <- 2
pvalue <- 0.05


DEG_limma_voom$regulated <- "normal"

loc_up <- intersect(which(DEG_limma_voom$logFC > log2(fc_cutoff) ),
                    which(DEG_limma_voom$P.Value < pvalue) )

loc_down <- intersect(which(DEG_limma_voom$logFC< (-log2(fc_cutoff))),
                      which(DEG_limma_voom$P.Value

 
  7.2.2 edgeR 
  分析步骤： 
  1.创建设计矩阵和对比 
  2.构建edgeR的DGEList对象，并归一化，拟合模型 
  3.提取分析结果并筛选显著差异基因 
  rm(list = ls())
options(stringsAsFactors = F)

# 读取基因表达矩阵信息并查看分组信息和表达矩阵数据
lname <- load(file = "data/Step01-airwayData.Rdata")
lname

exprSet <- filter_count
dim(exprSet)
exprSet[1:4,1:4]
table(group_list)

# 加载包
library(edgeR)

# 构建线性模型。0代表x线性模型的截距为0
design <- model.matrix(~0+factor(group_list))
rownames(design) <- colnames(exprSet)
colnames(design) <- levels(factor(group_list))
design

# 构建edgeR的DGEList对象
DEG <- DGEList(counts=exprSet, 
               group=factor(group_list))
DEG$samples$lib.size

# 归一化基因表达分布
DEG <- calcNormFactors(DEG)
DEG$samples$norm.factors

# 计算线性模型的参数
DEG <- estimateGLMCommonDisp(DEG,design)
DEG <- estimateGLMTrendedDisp(DEG, design)
DEG <- estimateGLMTagwiseDisp(DEG, design)

# 拟合线性模型
fit <- glmFit(DEG, design)

# 进行差异分析，1,-1意味着前比后
lrt <- glmLRT(fit, contrast=c(1,-1)) 

# 提取过滤差异分析结果
DEG_edgeR <- as.data.frame(topTags(lrt, n=nrow(DEG)))
head(DEG_edgeR)

# 筛选上下调，设定阈值
fc_cutoff <- 1.5
pvalue <- 0.05

DEG_edgeR$regulated <- "normal"

loc_up <- intersect(which(DEG_edgeR$logFC>log2(fc_cutoff)),
                    which(DEG_edgeR$PValue
 
  7.2.3 DESeq2 
  分析步骤： 
  1.构建DESeq2的DESeq对象 
  2.进行差异表达分析 
  3.提取差异分析结果，trt组对untrt组的差异分析结果 
  rm(list = ls())
options(stringsAsFactors = F)

# 读取基因表达矩阵信息
lname <- load(file = "data/Step01-airwayData.Rdata")
lname 

# 查看分组信息和表达矩阵数据
exprSet <- filter_count
dim(exprSet)
exprSet[1:6,1:6]
table(group_list)

# 加载包
library(DESeq2)

# 第一步，构建DESeq2的DESeq对象
colData <- data.frame(row.names=colnames(exprSet), 
                      group_list=group_list)
colData

dds <- DESeqDataSetFromMatrix(countData = exprSet,
                              colData = colData,
                              design = ~ group_list)

# 第二步，进行差异表达分析
dds2 <- DESeq(dds)

# 提取差异分析结果，trt组对untrt组的差异分析结果
tmp <- results(dds2,contrast=c("group_list","Dex","untreated"))
DEG_DESeq2 <- as.data.frame(tmp[order(tmp$padj),])
head(DEG_DESeq2)

# 去除差异分析结果中包含NA值的行
DEG_DESeq2 = na.omit(DEG_DESeq2)

# 筛选上下调，设定阈值
fc_cutoff <- 1.5
pvalue <- 0.05

DEG_DESeq2$regulated <- "normal"

loc_up <- intersect(which(DEG_DESeq2$log2FoldChange>log2(fc_cutoff)),
                    which(DEG_DESeq2$padj
 
  7.2.4 三种方法的比较 
  limma,edgeR，DESeq2三大包基本是做转录组差异分析的金标准，大多数转录组的文章都是用这三个R包进行差异分析。 
  edgeR差异分析速度快，得到的基因数目比较多，假阳性高(实际不差异结果差异)。 
  DESeq2差异分析速度慢，得到的基因数目比较少，假阴性高（实际差异结果不差异)。 
  rm(list = ls())
options(stringsAsFactors = F)

# 读取3个软件的差异分析结果
load(file = "data/Step03-limma_voom_nrDEG.Rdata")
load(file = "data/Step03-DESeq2_nrDEG.Rdata")
load(file = "data/Step03-edgeR_nrDEG.Rdata")
ls()

# 提取所有差异表达的基因名
limma_sigGene <- DEG_limma_voom[DEG_limma_voom$regulated!="normal",1]
edgeR_sigGene <- DEG_edgeR[DEG_edgeR$regulated!="normal",1]
DESeq2_sigGene <- DEG_DESeq2[DEG_DESeq2$regulated!="normal",1]

data <- list(limma=limma_sigGene,
             edgeR=edgeR_sigGene,
             DESeq2=DESeq2_sigGene)

library(VennDiagram)
# 设置颜色
col <- c('#0099CC','#FF6666','#FFCC99')
venn.diagram(data, lwd=1, lty=1, col=col, fill=col,
            cat.col=col, cat.cex = 1.8, rotation.degree = 0,
            cex=1.5, alpha = 0.5, reverse=TRUE,
            width=4000,height = 4000,resolution =600,margin=0.2,
            filename="result/DEG_venn.png",imagetype="png")
 
  火山图 
  rm(list = ls())
options(stringsAsFactors = F)

# 加载原始表达矩阵
load(file = "data/Step01-airwayData.Rdata")

# 读取3个软件的差异分析结果
load(file = "data/Step03-limma_voom_nrDEG.Rdata")
load(file = "data/Step03-DESeq2_nrDEG.Rdata")
load(file = "data//Step03-edgeR_nrDEG.Rdata")
ls()

# 根据需要修改DEG的值
data <- DEG_limma_voom
colnames(data)


# 绘制火山图
library(ggplot2)
colnames(data)
p <- ggplot(data=data, aes(x=logFC, y=-log10(P.Value),color=regulated)) + 
     geom_point(alpha=0.5, size=1.8) + 
  theme_set(theme_set(theme_bw(base_size=20))) + 
     xlab("log2FC") + ylab("-log10(Pvalue)") +
  scale_colour_manual(values = c('blue','black','red'))
p
 
  热图 
  rm(list = ls())
options(stringsAsFactors = F)

# 加载原始表达矩阵
load(file = "data/Step01-airwayData.Rdata")

# 读取3个软件的差异分析结果
load(file = "data/Step03-limma_voom_nrDEG.Rdata")
load(file = "data/Step03-DESeq2_nrDEG.Rdata")
load(file = "data/Step03-edgeR_nrDEG.Rdata")
ls()

# 提取所有差异表达的基因名
limma_sigGene <- DEG_limma_voom[DEG_limma_voom$regulated!="normal",1]
edgeR_sigGene <- DEG_edgeR[DEG_edgeR$regulated!="normal",1]
DESeq2_sigGene <- DEG_DESeq2[DEG_DESeq2$regulated!="normal",1]
head(DESeq2_sigGene)

# 绘制热图
dat <- express_cpm[match(limma_sigGene,rownames(express_cpm)),]
dat[1:4,1:4]
group <- data.frame(group=group_list)
rownames(group)=colnames(dat)
group

# 加载包
library(pheatmap)
p <- pheatmap(dat,scale = "row",show_colnames =T,show_rownames = F, 
              cluster_cols = F, 
              annotation_col=group,
              main = "limma's DEG")

group
dex_exp <- express_cpm[,match(rownames(group)[which(group$group=="Dex")],
                              colnames(express_cpm))]

untreated_exp <- express_cpm[,match(rownames(group)[which(group$group=="untreated")],
                              colnames(express_cpm))]

data_new <- cbind(dex_exp, untreated_exp)
dat1 <- data_new[match(limma_sigGene,rownames(data_new)),]

p <- pheatmap(dat1, scale = "row",show_colnames =T,show_rownames = F, 
              cluster_cols = F, 
              annotation_col=group,
              main = "limma's DEG") 
  7.3 功能注释和功能富集 
  7.3.1 功能注释 
   利用GO/KEGG注释给这些基因赋以 “功能标签” 
   
  rm(list = ls())
options(stringsAsFactors = F)

library(clusterProfiler)
library(org.Hs.eg.db)

# 读取3个软件的差异分析结果
load("data/Step01-airwayData.Rdata")
load(file = "data/Step03-limma_voom_nrDEG.Rdata")
load(file = "data/Step03-DESeq2_nrDEG.Rdata")
load(file = "data/Step03-edgeR_nrDEG.Rdata")
ls()

# 提取所有差异表达的基因名
limma_sigGene <- DEG_limma_voom[DEG_limma_voom$regulated!="normal",1]
edgeR_sigGene <- DEG_edgeR[DEG_edgeR$regulated!="normal",1]
DESeq2_sigGene <- DEG_DESeq2[DEG_DESeq2$regulated!="normal",1]


# 根据需要更改DEG的值
DEG <- limma_sigGene
head(DEG)
gene_all <- rownames(filter_count)


#### 第一步，从org.Hs.eg.db提取ENSG的ID 和GI号对应关系
keytypes(org.Hs.eg.db)

# bitr in clusterProfiler
allID <- bitr(gene_all, fromType = "ENSEMBL", 
              toType = c( "ENTREZID" ), 
              OrgDb = org.Hs.eg.db )
head(allID)
degID <- bitr(DEG, fromType = "ENSEMBL", 
              toType = c( "ENTREZID" ), 
              OrgDb = org.Hs.eg.db )
head(degID)


# KEGG analysis----
# 设置pvalue与qvalue为最大值，输出所有结果，
# 然后根据结果来筛选显著性通路，
# 这样就不必因为没有显著性结果重新跑一边富集过程
enrich <- enrichKEGG(gene = degID[,2],
                     organism='hsa',
                     universe=allID[,2],
                     pvalueCutoff=1,
                     qvalueCutoff=1)

# 计算富集因子
GeneRatio <- as.numeric(lapply(strsplit(enrich$GeneRatio,split="/"),function(x) 
  as.numeric(x[1])/as.numeric(x[2])))
head(GeneRatio)

BgRatio <- as.numeric(lapply(strsplit(enrich$BgRatio,split="/"),function(x) 
  as.numeric(x[1])/as.numeric(x[2])  ))
head(BgRatio)

enrich_factor <- GeneRatio/BgRatio

out <- data.frame(enrich$ID,
                  enrich$Description,
                  enrich$GeneRatio,
                  enrich$BgRatio,
                  round(enrich_factor,2),
                  enrich$pvalue,
                  enrich$qvalue,
                  enrich$geneID)

colnames(out) <- c("ID","Description","GeneRatio","BgRatio","enrich_factor","pvalue","qvalue","geneID")
write.table(out,"result/trut_VS_untrt_enrich_KEGG.xls",row.names = F,sep="\t",quote = F)

out_sig0.05 <- out[out$qvalue<0.01,]

# barplot
bar <- barplot(enrich,showCategory=20,title="KEGG Pathway",
               colorBy="p.adjust")
bar

# 保存
pdf(file = "result/kegg_bar_plot.pdf",width = 8,height = 6)
print(bar)
dev.off()

# dotplot
dot <- dotplot(enrich,x="geneRatio",showCategory=10,font.size=12,title="KEGG Pathway")
dot

# 保存
pdf(file = "result/kegg_dot_plot.pdf",width = 8,height = 6)
print(dot)
dev.off()


# GO 
enrich <- enrichGO(gene =degID[,2],OrgDb='org.Hs.eg.db',
                   ont="BP",universe=allID[,2],pvalueCutoff=1,qvalueCutoff=1)

# 计算富集因子
GeneRatio <- as.numeric(lapply(strsplit(enrich$GeneRatio,split="/"),function(x) 
  as.numeric(x[1])/as.numeric(x[2])))

BgRatio <- as.numeric(lapply(strsplit(enrich$BgRatio,split="/"),function(x) 
  as.numeric(x[1])/as.numeric(x[2])))

enrich_factor <- GeneRatio/BgRatio

out <- data.frame(enrich$ID,
                  enrich$Description,
                  enrich$GeneRatio,
                  enrich$BgRatio,
                  round(enrich_factor,2),
                  enrich$pvalue,
                  enrich$qvalue,
                  enrich$geneID)

colnames(out) <- c("ID","Description","GeneRatio","BgRatio","enrich_factor","pvalue","qvalue","geneID")
write.table(out,"result/trut_VS_untrt_enrich_GO.xls",row.names = F,sep="\t",quote = F)

out_sig0.05 <- out[out$qvalue<0.01,]


# barplot
bar <- barplot(enrich,showCategory=10,title="Biological Pathway",colorBy="p.adjust")
bar

# 保存
pdf(file = "result/BP_bar_plot.pdf",width = 6,height = 6)
print(bar)
dev.off()

# dotplot
dot <- dotplot(enrich,x="geneRatio",showCategory=10,font.size=12,title="Biological Pathway")
dot

# 保存
pdf(file = "result/BP_dot_plot.pdf",width = 6,height = 6)
print(dot)
dev.off() 
  7.3.2 功能富集GSEA 
   Broad 研究所在提出 GSEA 方法的同时还提供了一个基因集数据库 ——MSigDB 。它从 位置，功能，代谢途径，  靶标结合等多种角度出发 ，构建出了许多的基因集合，并将其保存在 MSigDB。 
   
  # 清空当前环境变量
rm(list = ls())
options(stringsAsFactors = F)

# 加载包
library(GSEABase)
library(clusterProfiler)

# 加载数据
lnames <- load("data/Step03-limma_voom_nrDEG.Rdata")
lnames

DEG <- DEG_limma_voom

## 构造GSEA分析数据
# 去掉没有配对上symbol的行
DEG <- DEG[DEG$SYMBOL!="NA",]
geneList <- DEG$logFC
names(geneList) <- DEG$SYMBOL
head(geneList)
geneList <- sort(geneList,decreasing = T)
head(geneList)


# 选择gmt文件（MigDB中的全部基因集）
geneset <- read.gmt("data/MsigDB/v7.1/c2.cp.kegg.v7.1.symbols.gmt")
egmt <- GSEA(geneList, 
             TERM2GENE=geneset, 
             verbose=T,pvalueCutoff = 1)

kegg_gsea <- as.data.frame(egmt@result)
colnames(kegg_gsea)
write.table(kegg_gsea,"result/gsea_kegg_fc.xls",
            row.names = F,sep="\t",quote = F)

library(enrichplot)
gseaplot2(egmt, "KEGG_RIBOSOME",
          title = "KEGG_RIBOSOME",
          pvalue_table = T,color = "red") 
  7.3.3 功能富集GSVA 
   基因集变异分析（ Gene Set Variation Analysis ， GSVA ），一种以非监督方式对一个简  
   
   单群体 评估通路活性变异 的 GSE 方法。 
   
  rm(list = ls())
options(stringsAsFactors = F)

## 读取基因表达矩阵
lnames <- load(file = "data/Step01-airwayData.Rdata")
lnames

## 将表达矩阵的ensembl ID换成gene symbol
library(org.Hs.eg.db)
keytypes(org.Hs.eg.db)

library(clusterProfiler)
id2symbol <- bitr(rownames(express_cpm), 
                  fromType = "ENSEMBL", 
                  toType = "SYMBOL", OrgDb = org.Hs.eg.db )
head(id2symbol)

express_cpm <- data.frame(GeneID=rownames(express_cpm),express_cpm)
express_cpm[1:4,1:4]

express_cpm <- merge(id2symbol, express_cpm, by.x="ENSEMBL", by.y="GeneID")
dim(express_cpm)

# 处理多个ID对一个symbol的情况
library(limma)
exprSet <- limma::avereps(express_cpm[,-c(1:2)],ID=express_cpm[,2])
dim(exprSet)
exprSet[1:4,1:4]



## 将表达矩阵转换成通路矩阵
library(GSEABase)
library(GSVA)
geneset <- getGmt("data/MsigDB/v7.1/c2.cp.kegg.v7.1.symbols.gmt")
class(geneset)

es_max <- gsva(exprSet, geneset, mx.diff=F, verbose=T, parallel.sz=8)
dim(es_max)


## 做差异分析
library(limma)

design <- model.matrix(~0+factor(group_list))
colnames(design) <- levels(factor(group_list))
rownames(design) <- colnames(es_max)
design
    
contrast.matrix <- makeContrasts("Dex-untreated",levels = design)
contrast.matrix

fit <- lmFit(es_max,design)
fit2 <- contrasts.fit(fit, contrast.matrix) 
fit2 <- eBayes(fit2)
res <- decideTests(fit2, p.value=0.05)
summary(res)

tempOutput <- topTable(fit2, coef=1, n=Inf)
nrDEG <- na.omit(tempOutput) 
head(nrDEG)

# 得到显著通路
nrDEG_sig <- nrDEG[nrDEG$P.Value<0.01,]


## barplot
library(pheatmap)
library(stringr)
data <- es_max[match(rownames(nrDEG_sig),rownames(es_max)),]
rownames(data) <- gsub("KEGG_","",rownames(data))

anno <- data.frame(group=group_list)
rownames(anno) <- colnames(data)
p <- pheatmap::pheatmap(data, fontsize_row = 8,
                        height = 11,annotation_col = anno,show_colnames = F)

Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
3.增删改查--连接查询问女何所忆
关系型数据库的一个特点就是，多张表之间存在关系，以致于我们可以连接多张表进行查询操作，所以连接查询会是关系型数据库中最常见的操作。连接查询主要分为三种，交叉连接、内连接和外连接，我们一个个说。1、交叉连接交叉连接其实连接查询的第一个阶段，它简单表现为两张表的笛卡尔积形式，具体例子：如果你没学过数学中的笛卡尔积概念，你可以这样简单的理解这里的交叉连接：两张表的交叉连接就是一个连接合并的过程，T1表中
docker from指令的含义_多个FROM-含义 weixin_39722188 docker from指令的含义
小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提到的图像FROM是新图像的“基础图像”。这是否意味着如果我neo4j/neo4j在FROM指令中声明，则在运行映像时，neo数据库将自动运行并且可在端口7474的容器中使用？仅当您不覆盖CMD和时ENTRYPOINT。但是图像
Redis:缓存击穿我的程序快快跑啊缓存 redis java
缓存击穿(热点key)：部分key(被高并发访问且缓存重建业务复杂的)失效,无数请求会直接到数据库，造成巨大压力1.互斥锁：可以保证强一致性线程一：未命中之后，获取互斥锁，再查询数据库重建缓存，写入缓存，释放锁线程二：查询未命中，未获得锁(已由线程一获得)，等待一会，缓存命中互斥锁实现方式：redis中setnxkeyvalue:改变对应key的value,仅当value不存在时执行，以此来实现互
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your †徐先森® Oracle数据库 Web相关错误集
createtablestudents(idintunsignedprimarykeyauto_increment,namevarchar(50)notnull,ageintunsigned,highdecimal(3,2),genderenum('男','女','中性','保密','妖')default'保密',cls_idintunsigned);在对数据库插入如上带有中文带有默认值的字段的时
Redis 有哪些危险命令？如何防范？花小疯 redis 缓存数据库危险命令大数据
Redis有哪些危险命令？Redis的危险命令主要有以下几个：1.keys客户端可查询出所有存在的键。2.flushdb删除Redis中当前所在数据库中的所有记录，并且此命令从不会执行失败。3.flushall删除Redis中所有数据库中的所有记录，不止是当前所在数据库，并且此命令从不会执行失败。4.config客户端可修改Redis配置。怎么禁用和重命名危险命令？看下redis.conf默认配置
【Golang】 Golang 的 GORM 库中的 Rows 函数不爱洗脚的小滕 golang 开发语言后端
文章目录前言一、Rows函数解释二、代码实现三、总结前言在使用Go语言进行数据库操作时，GORM（GoObject-RelationalMapping）库是一个常用的工具。它提供了一种简洁和强大的方式来处理数据库操作。本文将介绍GORM库中的Rows函数，这是一个用于执行原生SQL查询并返回结果的函数。一、Rows函数解释在GORM库中，Rows函数用于执行原生SQL查询并返回*sql.Rows结
接口测试如何设计测试用例李蕴Ronnie
接口测试用例设计方式针对每个必填参数，都设计一条参数为空的测试用例必填参数不存在传的参数值在数据库中不存在添加数据接口，传入已有的数据重复添加编辑数据接口，各个字段分别编辑，合并编辑参数数据类型限制，针对每个参数设计一条参数值类型不符合的逆向用例参数自身取值范围，针对所有参数，设计一条每个参数值在取值范围内最大值的正向测试用例是否满足前提条件（token、headers），几个前提条件几条用例针对
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
非关系型数据库天秤-white nosql
一、为什么要用Nosql1.单机MySQL的时代。一个基本的网站访问量一般不会太大，单个数据库完全足够。那时候更多使用的静态网页html，服务器根本没有太大压力。这时候网站的瓶颈是什么？-数据量如果太大，一个机器放不下。-数据量太大需要建立数据的索引（B+Tree），一个服务器内存放不下。-访问量读写混合，一个服务器承受不了。2.memcached缓存+MySQL+垂直拆分（读写分离）。网站80%
六、全局锁和表锁：给表加个字段怎么有这么多阻碍 nieniemin
数据库锁设计的初衷是处理并发问题。作为多用户共享的资源，当出现并发访问的时候，数据库需要合理地控制资源的访问规则。而锁就是用来实现这些访问规则的重要数据结构。根据加锁的范围，MySQL里面的锁大致可以分成全局锁、表级锁和行锁三类。6.1全局锁全局锁就是对整个数据库实例加锁。MySQL提供了一个加全局读锁的方法，命令是Flushtableswithreadlock(FTWRL)。当你需要让整个库处于
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s