Candlelight_yujia

【生信进阶练习1000days】day16~day22-RNA-seq data analysis with limma edgeR and Glimma

文章目录

学习来源
1. 数据准备

学习目标
1.1 安装RNAseq123包和所需的包，并下载样本数据
1.2 读入文件
1.3 构建样本的分组信息
1.4 基因注释

2. 数据预处理

2.1 转换count数据为CPM值
2.2 过滤表达量太低的基因
2.3 基因表达标准化
2.4 样本非监督聚类

3. 差异表达分析

3.1 差异表达分析
3.2 绘制Venn图
3.3 导出差异表达基因的数据
3.4 Examining individual DE genes from top to bottom

4. 差异基因结果可视化

4.1 log-CPM ~ logFC图
4.2 绘制热图

使用limma,edgeR,Glimma 进行完整的数据分析流程指南可参见：
http://master.bioconductor.org/packages/release/workflows/html/RNAseq123.html

学习来源

https://bioconductor.github.io/BiocWorkshops/rna-seq-analysis-is-easy-as-1-2-3-with-limma-glimma-and-edger.html

1. 数据准备

学习目标

read in count data and format as a DGEList-object 读取count格式的数据，并格式化为DGE对象
annotate Entrez gene identifiers with gene information 注释基因
filter out lowly expressed genes 过滤低表达的基因
normalise gene expression values 标准化基因表达数据
unsupervised clustering of samples (standard and interactive plots) 对样本进行无监督聚类
linear modelling for comparisons of interest 对感兴趣的分组用线性模型进行比较
remove heteroscedascity
examine the number of differentially expressed genes 检查差异表达基因的数目
mean-difference plots (standard and interactive plots) 画图
heatmaps 绘制热图

1.1 安装RNAseq123包和所需的包，并下载样本数据

suppressPackageStartupMessages({
  library(limma)
  library(Glimma)
  library(edgeR)
  library(Mus.musculus)
})

BiocManager::install("RNAseq123")
## download sample data
url <- "https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE63310&format=file"  
utils::download.file(url, destfile="GSE63310_RAW.tar", mode="wb")   
utils::untar("GSE63310_RAW.tar", exdir = ".")  
files <- c("GSM1545535_10_6_5_11.txt", "GSM1545536_9_6_5_11.txt", "GSM1545538_purep53.txt",
           "GSM1545539_JMS8-2.txt", "GSM1545540_JMS8-3.txt", "GSM1545541_JMS8-4.txt",
           "GSM1545542_JMS8-5.txt", "GSM1545544_JMS9-P7c.txt", "GSM1545545_JMS9-P8c.txt")
for(i in paste(files, ".gz", sep=""))  
  R.utils::gunzip(i, overwrite=TRUE)

1.2 读入文件

每份文件，都包含给定样本的count数；我们本次练习只包含 basal, LP 和 ML这三类样本

## read data
read.delim(file.path(".", files[1]), nrow=5)

## Use readDEG read counts
x <- readDGE(file.path(".", files), columns=c(1,3))
class(x)
dim(x)

如果count的数据是存储在单个文件中，那么可以使用 DEGList 函数，将数据读入函数后转为 DGEList 对象

1.3 构建样本的分组信息

对于下游分析而言，每个样本的分组实验信息需要添加上去。
包括：细胞类型(本次练习中是 basal,LP,ML)，基因型(wild-type野生型，knock-out 敲除型)，表型(disease,status,sex,age)，样本处理情况(drug,control)，实验的批次信息等等
我们的DGEList对象包括：一个存储了所有细胞类型(group)和批次(lane)的 samples 的数据框。注意，通过使用 x$sanples 提取数据时，每个样本的文库的大小会自动计算，并且标准化因子会设置为1 。

为了简化后续的运算，我们首先将GEO 样本ID中的 GSM前缀 去除

## Organising sample information 设定sample的名字
# 提取sample的名字
samplenames <- substring(colnames(x), 12, nchar(colnames(x)))
samplenames

## 设置样本信息
colnames(x) <- samplenames
# 分组
group <- as.factor(c("LP", "ML", "Basal", "Basal", "ML", "LP", 
                     "Basal", "ML", "LP"))
x$samples$group <- group ＃ 为每个样本添加细胞类型信息
lane <- as.factor(rep(c("L004","L006","L008"), c(3,4,2))) 
x$samples$lane <- lane # 添加lane的信息
x$samples  # 此时sample信息中就会多出分组和细胞类型两列

1.4 基因注释

DGEList 对象中包含名为 genes 的二级数据框，它主要用来存储和count矩阵相对应的行的基因相关信息。基因的信息可以使用物种包(例如小鼠的 Mus.musculus 包，人类的 Homo.sapiens 包) ，或者 biomaRt 包来完成填充注释。

本例中，我们使用提取物种包 Mus.musculus 中的注释基因 gene symbols 和染色体信息来为count矩阵做注释（我们count矩阵原来是按照entrez id 来对基因进行表示的，这次我们通过与entrez id 对应的 gene symbol和染色体信息，来完善矩阵的基因注释）

## using the Mus.musculus package 
## to retrieve associated gene symbols and chromosome information
geneid <- rownames(x)
genes <- select(Mus.musculus, keys=geneid, columns=c("SYMBOL", "TXCHROM"), 
                keytype="ENTREZID")   # 提取symbol和chr, 以entrezid作为map id的源头
head(genes) 
## !duplicated replicate genes
genes <- genes[!duplicated(genes$ENTREZID),]
## add genes 将提取好的基因信息添加入我们的DGEList中genes这个二级数据框
x$genes <- genes
x

需要注意的是
在本例中，注释和数据对象中的基因顺序是相同的。如果由于缺失和/或重新排列的基因id而不是这种情况，则可以使用 match 函数对基因进行正确排序。然后，将基因注释的数据框架添加到数据对象中，并整齐地打包在DGEList对象中，DGEList对象包含原始计数数据以及相关的样本信息和基因注释。

这个时候就可以看到我们的DGEList对象x中有 三 个二级数据框了：samples， counts， genes

> x
An object of class "DGEList"
$samples
                                 files group lib.size norm.factors lane
5_10_6_5_11 ./GSM1545535_10_6_5_11.txt    LP 32863052            1 L004
6_9_6_5_11   ./GSM1545536_9_6_5_11.txt    ML 35335491            1 L004
8_purep53     ./GSM1545538_purep53.txt Basal 57160817            1 L004
9_JMS8-2       ./GSM1545539_JMS8-2.txt Basal 51368625            1 L006
0_JMS8-3       ./GSM1545540_JMS8-3.txt    ML 75795034            1 L006
1_JMS8-4       ./GSM1545541_JMS8-4.txt    LP 60517657            1 L006
2_JMS8-5       ./GSM1545542_JMS8-5.txt Basal 55086324            1 L006
4_JMS9-P7c   ./GSM1545544_JMS9-P7c.txt    ML 21311068            1 L008
5_JMS9-P8c   ./GSM1545545_JMS9-P8c.txt    LP 19958838            1 L008

$counts
           Samples
Tags        5_10_6_5_11 6_9_6_5_11 8_purep53 9_JMS8-2 0_JMS8-3 1_JMS8-4 2_JMS8-5 4_JMS9-P7c
  497097              1          2       342      526        3        3      535          2
  100503874           0          0         5        6        0        0        5          0
  100038431           0          0         0        0        0        0        1          0
  19888               0          1         0        0       17        2        0          1
  20671               1          1        76       40       33       14       98         18
           Samples
Tags        5_JMS9-P8c
  497097             0
  100503874          0
  100038431          0
  19888              0
  20671              8
27174 more rows ...

$genes
   ENTREZID  SYMBOL TXCHROM
1    497097    Xkr4    chr1
2 100503874 Gm19938    
3 100038431 Gm10568    
4     19888     Rp1    chr1
5     20671   Sox17    chr1
27174 more rows ...

2. 数据预处理

2.1 转换count数据为CPM值

差异表达分析之前，由于不同的测序深度会导致counts数目不同，所以为了消除这种由建库引起的基因之间的差异，我们需要将数据归一化。归一化常见的方法有： CPM, log-CPM, RPKM 和 FPKM 。本例中使用CPM值（这已足够）。

本例中使用 edgeR 包中的 cpm 函数来完成数据的归一化，log转换的时候取0.25作为先验来避免取到0 . （edgeR 包也提供了 rpkm 函数来计算 RPKM值）

## convert counts to CPM and log-CPM
cpm <- cpm(x)
lcpm <- cpm(x, log=TRUE) # 取log值

2.2 过滤表达量太低的基因

## Removing genes that are lowly expressed
# 首先查看那些在所有样本中均为0的基因数目
table(rowSums(x$counts==0)==9) # 可以发现有5153个基因在所有样本中表达量均为0

在任何情况下，生物学水平上没有表达的基因都应该被丢弃，这样可以将基因的子集缩小到那些感兴趣的基因，并在做差异表达时减少下游分析所用于检验的基因数量。通过检验log-CPM值可以看出，每个样本中都有很大比例的基因未表达或低表达(如图a所示)。
以CPM为1(相当于log-CPM值为0)作为分界线阈值来检查基因是低表达或者高表达，如果其表达高于此阈值，则视为表达，否则为低表达。基因必须在至少一组中表达(或在整个实验中至少三个样本中表达)，以备后续分析。
在这里，CPM值为1意味着如果一个基因在测序深度最低的样本中至少有20个计数(JMS9-P8c，文库大小约为2600万)。在测序深度最大的样本中至少有76个计数(JMS8-3，库大小约为。7600万)。如果测得的reads是外显子的而不是整个基因的，或实验的测序深度较低，则可以考虑较低的CPM阈值。

# 取出至少在三个样本中cpm值均大于1的基因
keep.exprs <- rowSums(cpm>1)>=3
x <- x[keep.exprs,, keep.lib.sizes=FALSE]
dim(x)

通过以上代码的过滤操作，我们就把基因的数量减少到最开始输入的一半了
接下来我们通过绘图，来可视化这个过程

## 绘图展示基因过滤前后log-cpm值的分布情况
library(RColorBrewer)
nsamples <- ncol(x)
col <- brewer.pal(nsamples, "Paired") ## 配置绘图调色盘的主题，paired 是 qualitative palettes 中的一个颜色配置
# col <- brewer.pal(nsamples, "Pastel1") # 尝试使用其它颜色
par(mfrow=c(1,2))
plot(density(lcpm[,1]), col=col[1], lwd=2, ylim=c(0,0.21), las=2, 
     main="", xlab="") # 首先对第一列的第一个样本绘图
title(main="A. Raw data", xlab="Log-cpm") # 加入title
abline(v=0, lty=3) # 在0坐标处添加分隔虚线
for (i in 2:nsamples){ # 批量在同一画布上绘出其它样本的cpm分布情况
  den <- density(lcpm[,i])
  lines(den$x, den$y, col=col[i], lwd=2)
}
legend("topright", samplenames, text.col=col, bty="n") # 添加图例
## 开始对过滤后的lcpm绘图,函数功能注释基本同上
lcpm <- cpm(x, log=TRUE)
plot(density(lcpm[,1]), col=col[1], lwd=2, ylim=c(0,0.21), las=2, 
     main="", xlab="") 
title(main="B. Filtered data", xlab="Log-cpm")
abline(v=0, lty=3)
for (i in 2:nsamples){
  den <- density(lcpm[,i])
  lines(den$x, den$y, col=col[i], lwd=2)
}
legend("topright", samplenames, text.col=col, bty="n")

2.3 基因表达标准化

使用 edgeR 包中的 calcNormFactors 函数来进行数据标准化 ,
这里计算的标准化因子用作库大小的比例因子。
当用此函数对 DGEList 对象做标准化时，标准化后的尺度因子会自动存储在 x$samples$norm.factors 中。
对于本例数据集而言，TMM标准化的过程比较温和，可以发现标准化的尺度因子基本都接近于1

x <- calcNormFactors(x, method = "TMM")
x$samples$norm.factors
[1] 0.9053456 1.0211400 1.0406751 1.0414376 0.9933397 0.9145960 0.9962872
[8] 1.1050585 0.9978264

接下来可视化展示数据标准化后的情况
为了使可视化更加的直观，我们对数据进行略微的调整：使第一个样本的计数减少到原始值的5%，而在第二个样本中，它们被扩大到原来的5倍

x2 <- x # 制作一份copy x2
x2$samples$norm.factors <- 1
x2$counts[,1] <- ceiling(x2$counts[,1]*0.05)
x2$counts[,2] <- x2$counts[,2]*5

绘制箱线图

par(mfrow=c(1,2))
lcpm <- cpm(x2, log=TRUE)
boxplot(lcpm, las=2, col=col, main="")
title(main="A. Example: Unnormalised data",ylab="Log-cpm")
x2 <- calcNormFactors(x2)  
x2$samples$norm.factors
#> [1] 0.05472223 6.13059440 1.22927355 1.17051887 1.21487709 1.05622968
#> [7] 1.14587663 1.26129350 1.11702264
lcpm <- cpm(x2, log=TRUE)
boxplot(lcpm, las=2, col=col, main="")
title(main="B. Example: Normalised data",ylab="Log-cpm")

明显看到标准化后数据更加整齐了

2.4 样本非监督聚类

差异分析之前，一个重要的工作，就是对样本进行聚类画图分析。聚类可以揭示样本之间的相似性与差异性，这样也更好的帮助我们去判断哪些样本可以用来进行差异比较。如果是同一个处理中的多个重复样本，那么这些样本聚类的时候就会聚在一起，否则很可能是实验中数据有问题。

limma包中提供了 plotMDS 函数来实现多维标度图的绘制。

## 非监督聚类
# 展示样本之间的差异性与相似性
# 同一个处理的多个重复，没啥实验误差的话一般会聚在一起
lcpm <- cpm(x, log=TRUE)
par(mfrow=c(1,2)) # set huabu
col.group <- group
levels(col.group) <- brewer.pal(nlevels(col.group), "Set1")
col.group <- as.character(col.group)
col.lane <- lane
levels(col.lane) <- brewer.pal(nlevels(col.lane), "Set2")
col.lane <- as.character(col.lane)
plotMDS(lcpm, labels=group, col=col.group)
title(main="A. Sample groups")
plotMDS(lcpm, labels=lane, col=col.lane, dim=c(3,4))
title(main="B. Sequencing lanes")

可以看到，LP，ML，Basal 三种细胞类型的样本，重复处理之间都聚在了一起。也可以发现，如果对LP 和 ML 做比对的话，可能差异比较小

也可以使用 Glimma 包中 glMDSPlot 绘制MDS(multi-dimensional scaling)图 (Glimma的图是有动态效果的，很炫酷)

# Glimma 提供的绘MDS图函数
glMDSPlot(lcpm, labels=paste(group, lane, sep="_"), 
          groups=x$samples[,c(2,5)], launch=FALSE)

3. 差异表达分析

首先设置好分组矩阵

# First,建立分组信息
design <- model.matrix(~0+group+lane) # 设置分组矩阵
colnames(design) <- gsub("group", "", colnames(design)) # 去掉列名中的group
design

添加比对信息

# Second,use makeContrasts function 建立比较信息
contr.matrix <- makeContrasts(
  BasalvsLP = Basal-LP, # Basal 和 LP 比较
  BasalvsML = Basal - ML, # Basal 和 ML 比较
  LPvsML = LP - ML, # LP 和 ML 比较
  levels = colnames(design)) 
contr.matrix

3.1 差异表达分析

绘制 log-CPM均值与方差关系的图像，具有高生物学变异的实验通常导致更平坦的趋势，其中方差值在高表达值处稳定。具有低生物变异的实验倾向于导致急剧下降的趋势

使用voom函数将count reads 转换为log-CPM值，并估计它的均值差异关系，从而为之后线性建模做准备

Transform count data to log2-counts per million (logCPM), estimate the mean-variance relationship and use this to compute appropriate observation-level weights. The data are then ready for linear modelling.

par(mfrow=c(1,2))
v <- voom(x, design, plot=TRUE) # Transform RNA-Seq Data Ready for Linear Modelling
v

拟合线性模型&差异表达分析

vfit <- lmFit(v, design) # Fit linear model for each gene given a series of arrays
vfit <- contrasts.fit(vfit, contrasts=contr.matrix)
efit <- eBayes(vfit)
plotSA(efit, main="Final model: Mean-variance trend")

查看基因分布结果

summary(decideTests(efit))

使用 treat 从大量的差异基因中，选出更有意义的基因

# treat 类似于 ebayes
# When the number of DE genes is large, 
# treat is often useful for giving preference to 
# larger fold-changes and for prioritizing genes 
# that are biologically important
tfit <- treat(vfit, lfc=1)
dt <- decideTests(tfit) # 使用decideTest 提取多重比较的差异基因结果
> head(dt)
#        Contrasts
#         BasalvsLP BasalvsML LPvsML
#  497097         1         1      0
#  27395          0         0      0
#  18777          0         0      0
#  21399          0         0      0
#  58175         -1        -1      0
#  108664         0         0      0
summary(dt)
#>        BasalvsLP BasalvsML LPvsML
#> Down        1417      1512    203
#> NotSig     11030     10895  13780
#> Up          1718      1758    182

dt 中的0代表非差异基因，1代表上调基因，-1代表下调基因

3.2 绘制Venn图

## Fourth, plot Venn 
# 取出BasalvsLP和BasalvsML 这两组比较中的共同差异基因
de.common <- which(dt[,1]!=0 & dt[,2]!=0) 
# 查看共同差异基因数目
length(de.common)
# 查看前20个基因symbol
head(tfit$genes$SYMBOL[de.common], n=20)
# 绘制Venn图
vennDiagram(dt[,1:2], circle.col=c("turquoise", "salmon"))

3.3 导出差异表达基因的数据

## Fifth , output result
write.fit(tfit, dt, file="results.txt")

3.4 Examining individual DE genes from top to bottom

# 使用 topTreat() 将差异基因按padj,logFC,log-CPM,t值 从小到大排序
# n=Inf 表示选取所有基因参与排序
basal.vs.lp <- topTreat(tfit, coef=1, n=Inf) # coef在此处代表选取的比对的组别
basal.vs.ml <- topTreat(tfit, coef=2, n=Inf)
head(basal.vs.lp)
head(basal.vs.ml)

4. 差异基因结果可视化

4.1 log-CPM ~ logFC图

## 差异基因结果可视化
# plot MD
plotMD(tfit, column=1, status=dt[,1], main=colnames(tfit)[1], 
       xlim=c(-8,13))
# plot MD using GLimma 这个包绘制出来的是动态的MD图
glMDPlot(tfit, coef=1, status=dt, main=colnames(tfit)[1],
         side.main="ENTREZID", counts=x$counts, groups=group, launch=FALSE)

4.2 绘制热图

library(gplots)
basal.vs.lp.topgenes <- basal.vs.lp$ENTREZID[1:100]
i <- which(v$genes$ENTREZID %in% basal.vs.lp.topgenes)
mycol <- colorpanel(1000,"blue","white","red")
heatmap.2(v$E[i,], scale="row",
          labRow=v$genes$SYMBOL[i], labCol=group, 
          col=mycol, trace="none", density.info="none", 
          margin=c(8,6), lhei=c(2,10), dendrogram="column")

热图:basal与LP两个分组中前100个基因DE的log-CPM值的热图。对每个基因(或行)的表达进行了缩放，使平均值为零，标准偏差为1。给定基因表达量较高的样本用红色标记，表达量较低的样本用蓝色标记。浅色和白色代表中等表达水平的基因。采用层次聚类的方法对样本和基因进行重新排序。给出了样本聚类的树状图。

你可能感兴趣的:(【生信进阶练习1000days】day16~day22-RNA-seq data analysis with limma edgeR and Glimma)

如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
【网络】数据流（Data Workflow）Routes（路由）、Controllers（控制器）、Models（模型）和 Middleware（中间件）一袋米扛几楼98 网络工程/安全中间件
在图片中，数据流（DataWorkflow）描述了应用程序中数据的流动过程，涉及Routes（路由）、Controllers（控制器）、Models（模型）和Middleware（中间件）。作为初学者，理解这些组件及其联系是掌握Web应用程序开发的关键。以下是对每个技术点的详细解释，以及它们如何相互关联的分析。1.Routes（路由）定义：路由定义了应用程序的URL端点（Endpoints）以及服
dv-scroll-board 鼠标移入单元格显示单元格所有数据 mengfei-super 计算机外设前端 vue.js
前言：在使用大屏组件库data-v开发大屏驾驶舱系统，dv-scroll-board实现表格数据滚动的效果，但是某一列数据较多，需求提出：鼠标移上去要显示对应的问题，完全展示出来。奈何以前没有搞过这个问题，随即立马找向百度麻麻！实现效果及方法如下：{{dvTextName}}exportdefault{data(){return{dvText:{keyX:"15px",keyY:"0px",},d
my.ini mysql_怎么修改mysql的my.ini文件周海棣 my.ini mysql
步骤：1、查找my.ini位置，可通过windows服务所对应mysql启动项，查看其对应属性->可执行文件路径，获取my.ini路径。"D:\MySQL\MySQLServer5.5\bin\mysqld"--defaults-file="D:\MySQLData\my.ini"MySQL552、编辑my.ini中对应datadir改前：datadir="D:\MySQLData\data\"改
MySql的my.ini文件位置货物搬运工 mysql 数据库 java
MySql的my.ini文件位置PS:搜了好多文章。说什么你在xx目录下没有my.ini文件就需要新建。简直是在恶心人。（他都不知道我咋按得就叫我新建，这不有什么大病么？）my.ini位置（这就是你数据库的数据存放目录）C:\ProgramData\MySQL\MySQLServer8.0由于我当时将两个安装位置相同（DataDirectory路径下最后没有\data），导致下面的DataDire
echarts map3D区域颜色单独设置浪漫不敌风月 echarts echarts 前端 3d
效果图：实现：用的是map3D，之前试了下geo3d因为版本问题不好控制（地图上字体颜色都没法设置）只需要在series的data中加上你要标色的区域名称和颜色即可。此效果实现的是无图例着色。series:[{type:"map3D",//系列类型name:"map3D",//系列名称map:"yuhang",//地图类型。data:[{name:"鸬鸟镇",itemStyle:{color:"#
Java进阶面试速记登陆成功200 JAVA进阶开发语言 java
注解注解@Override类似一个标签,作用在方法上,表示此方法是从父类中重写而来注解是java中的标注方式,可以最用在类,方法,变量,参数成员上在编译期间,会被编译到字节码文件中,运行时通过反射机制获得注解内容,进行解析.内置注解java中内定好的注解例如@Override@Deprecated-标记过时方法。如果使用该方法，会报编译警告。@SuppressWarnings-指示编译器去忽略注解
C# 调用 VITS，推理模型将文字转wav音频调试 -数字人分支未来之窗软件服务 c#开发语言人工智能数字人
Microsoft.ML.OnnxRuntime.OnnxRuntimeException:[ErrorCode:InvalidArgument]Inputname:'input_name'isnotinthemetadata在Microsoft.ML.OnnxRuntime.InferenceSession.LookupInputMetadata(StringnodeName)位置D:\a\_w
Windows Docker Desktop 无法启动报错 Docker Desktop is shutting down 的可能解决办法 Bruce-li__ Docker docker 容器运维
直接把整个AppData\Roaming\Docker目录删了，然后立刻就好了……这里还有一些其他的解决方案，Docker社区论坛也供参考：检查一下daemon.json配置文件是否有问题https://forums.docker.com/t/solved-docker-failed-to-start-docker-desktop-for-windows/106976
Linux find 命令完全指南可问可问春风 Linux从新手到入门 linux chrome 运维
find是Linux系统最强大的文件搜索工具，支持嵌套遍历、条件筛选、执行动作。以下通过场景分类解析核心用法，涵盖高效搜索、文件管理及高级技巧：一、基础搜索模式1.按文件名搜索（精确/模糊匹配）find/path-name"*.log"#精确匹配.log后缀（区分大小写）find/home-iname"*.TXT"#模糊匹配.txt后缀（忽略大小写）find.-name"data_[0-9].cs
达梦主备集群部署 sunny05296 数据库数据库达梦
DM数据守护（DataWatch）介绍DM数据守护（DataWatch）是一种集成化的高可用、高性能数据库解决方案，是数据库异地容灾的首选方案。达梦数据守护可快速恢复服务，只需数秒时间就可以将备库切换为主库对外提供数据库服务。DM数据守护提供多种解决方案，可以配置成实时主备、MPP主备、DMDSC主备或读写分离集群。实时主备由一个主库以及一个或者多个配置了实时（Realtime）归档的备库组成，其
C++和标准库速成(十一)——简单雇员系统梦醒沉醉 C++20 c++
目录1.雇员记录系统2.Employee类2.1Employee模块接口文件2.1.1实现细节2.1.2完整代码2.2Employ模块实现文件2.2.1实现细节2.2.2完整代码2.3Employee测试文件3.Database类3.1Database模块接口文件3.1.1实现细节3.1.2完整代码3.2Database模块实现文件3.2.1实现细节3.2.2完整代码3.3Database测试文件
C++：类（通识版）愚戏师 C++c++开发语言数据结构算法
类的基本思想是数据抽象（dataabstraction）和封装（encapsulation）。数据抽象是一种依赖于接口（interface）和实现（implementation）分离的编程（以及设计）技术。类的接口包括用户所能执行的操作；类的实现则包括类的数据成员、负责接口实现的函数体以及定义类所需的各种私有函数。封装实现了类的接口和实现的分离。封装后的类隐藏了它的实现细节，也就是说，类的用户只能
Excel-to-JSON 2.1.0: Your Privacy-First Excel Add-in for JSON Conversion wtsolutions excel与json互相转换 excel json
IntroductionExcel-to-JSONisapowerfulMicrosoftExceladd-inthatseamlesslyconvertsExceldataintoJSONformat.Version2.1.0bringsenhancedfeatureswhilemaintainingourcommitmenttodataprivacyandcross-platformacces
2025年三个月自学手册网络安全（黑客技术）网安kk web安全安全网络网络安全 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习导航
基于QScriptEngine的简单解释器有追求的菜鸟 qt 解释器模式
需求：voidDataFormatPipline::DataFormatPipline(QMapdata,QStringListtarger){}data中保存元素数据，类似Fe-1.2,Cu-2.4，Mn3.5,QStringList中的为Fe/Cu，Fe/Cu-Mn，Fe*Cu+Mn，如何利用解释器或者其它简单的方法完成这个需求？解决方案：现在项目中添加scriptQT+=corescript
通过Bokeh实现大规模数据可视化的最佳实践【从静态图表到实时更新】步入烟尘算法指南信息可视化 Bokeh python
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
python使用Bokeh库实现实时数据的可视化 Oona_01 python 信息可视化数据分析
Python语言以其丰富的数据科学生态系统而闻名,其中Bokeh库作为一种功能强大的可视化工具,为实时数据的可视化提供了优秀的支持,本文将介绍如何使用Bokeh库实现实时数据的可视化,并提供相关代码实例,需要的朋友可以参考下使用Python的Bokeh库进行实时数据可视化的实现Bokeh简介实时数据可视化的需求使用Bokeh实现实时数据可视化的步骤代码示例Bokeh的进阶应用总结使用Python的
pytorch v1.4.0安装问题大柠丶 pytorch 人工智能 python
直接使用conda安装报错：(CenterNet)C:\Users\16323>condainstallpytorch==1.4.0torchvision==0.5.0cudatoolkit=10.1-cpytorch-cconda-forgeChannels:-pytorch-conda-forge-defaultsPlatform:win-64Collectingpackagemetadata
Spring Boot 中的 @ConditionalOnBean 注解详解 weixin_44563169 spring boot java 后端
SpringBoot中的@ConditionalOnBean注解详解1.前言2.`@ConditionalOnBean`作用与基本用法2.1`@ConditionalOnBean`的作用2.2基本用法示例：当`DataSource`Bean存在时，才创建`MyService`Bean3.`@ConditionalOnBean`详解3.1`value`和`type`属性（指定Bean类型）3.2`n
JAVA代码实现ElasticSearch搜索（入门-进阶）(一):搜索方法、多字段查询、高亮展示 majunssz elasticsearch elasticsearch
一、搜索方法对比首先存入一条数据count="ilikeeatingandkuing"默认分词器应该将内容分为“i”“like”“eating”“and”“kuing”1.QueryBuilders.matchQuery("count",count);会将搜索词分词，再与目标查询字段进行匹配，若分词中的任意一个词与目标字段匹配上，则可查询到。count="i"可查出count="ili"可查出co
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
Flink CDC 与 SeaTunnel CDC 简单对比窝窝和牛牛 flink 大数据 cdc SeaTunnel
FlinkCDC与SeaTunnelCDC简单对比CDC技术概述变更数据捕获（ChangeDataCapture，简称CDC）是一种用于捕获数据库中数据变更的技术，能够实时识别、捕获并输出数据库中的插入、更新和删除操作。CDC技术在现代数据架构中扮演着至关重要的角色，特别是在实时数据集成、数据同步和事件驱动架构等场景中。CDC的工作原理CDC主要通过以下几种方式捕获数据变更：基于日志的CDC：直接
Azure Delta Lake、Databricks和Event Hubs实现实时欺诈检测 weixin_30777913 azure 云计算
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合AzureEventHubs/Kafka摄入实时数据，通过DeltaLake实现Exactly-Once语义，实时欺诈检测（流数据写入DeltaLake，批处理模型实时更新），以及具体实现的详细步骤和关键PySpark代码。完整实现代码需要根据具体数据格式和业务规则进行调整，建议通过DatabricksR
nested exception is redis.clients.jedis.exceptions.JedisDataException: NOAUTH Authentication requir qianyel springboot redis
springboot1.5X升级2.0时，redis配置密码报错org.springframework.dao.InvalidDataAccessApiUsageException:NOAUTHAuthenticationrequired.;nestedexceptionisredis.clients.jedis.exceptions.JedisDataException:NOAUTHAuthen
SpringBoot中Redis报错：NOAUTH Authentication required.； nested exception is redis.clients.jedis.exceptio 大象_ 本地缓存 DB-NoSQL 数据仓库
SpringBoot中Redis报错：NOAUTHAuthenticationrequired.;nestedexceptionisredis.clients.jedis.exceptions.JedisDataException:NOAUTHAuthenticationrequired.1、复现org.springframework.dao.InvalidDataAccessApiUsageEx
Vue2与Vue3组件开发全维度对比实战指南 Forever丿顾北专题文章 vue.js 前端前端框架
Vue2与Vue3组件开发全维度对比实战指南一、组件基础架构对比1.1组件定义方式演进Vue2OptionsAPI详解在Vue2中，组件主要通过OptionsAPI来定义。OptionsAPI将组件的不同方面，如数据、方法、生命周期钩子等，分开定义在一个对象中。这种方式对于初学者来说，易于理解和上手。以一个简单的计数器组件为例：{{count}}增加exportdefault{data(){ret
C语言基础与进阶学习指南（附运行效果图及术语解析）算法练习生 C语言 c语言开发语言
C语言基础与进阶学习指南（附运行效果图及术语解析）目录C语言标准与编译流程CPU与内存基础C语言基础语法数据类型详解变量与内存管理运算符与表达式输入输出函数函数与内存管理指针与内存操作结构体与高级应用1.C语言标准与编译流程1.1C语言标准演进K&RC（1978）：最初由DennisRitchie和BrianKernighan开发，无标准，依赖文档。ANSIC/C89（1989）：首个国际标准，定
CAD二次开发之图纸特性字段AcDbDatabaseSummaryInfo 我的sun&shine CAD二次开发开发语言 c++
一、CAD接口类AcDbDatabaseSummaryInfo接口函数acdbGetSummaryInfo(pDb,pSum);addCustomSummaryInfo(key,value);acdbPutSummaryInfo(pSum);二、使用方法1.实现功能：在一张图纸中定义好字段，插入到另外一张图中，对应的字段会更新值。原图纸需要将对应位置写入字段的表达式例如%%%%%%%%新图纸在创建
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟