璐璐璐璐璐952

AGS测序下游分析一条龙

1. 表达矩阵

ensembl_matrix.Rdata,原始矩阵

rm(list=ls())
options(stringsAsFactors = F)
library(stringr)  

  a1=read.table('/mnt/AGS_RNA-seq/featureCounts/all.counts.txt',header = T)
  dim(a1)
  a1[1:4,1:4]
  mat= a1[,7:ncol(a1)] 
  rownames(mat)=a1$Geneid
  mat[1:4,1:4]
  keep_feature <- rowSums (mat > 1) > 1
  table(keep_feature)
  mat <- mat[keep_feature, ]
  mat[1:4,1:4]
  dim(mat) 
  colnames(mat)
  #删去62，194组内相关性较差的两组
  #mat <- mat[,-2]
  #mat <- mat[,-5]
  colnames(mat)=c("61","62","63","191","193","194")
  colnames(mat)
  ensembl_matrix=mat
  colnames(ensembl_matrix)
  
  #添加分组信息
  b=read.csv('~/AGS_RNAseq/AGS_4/logs/samples.txt')
  group_list=b$status
  table(group_list)
  save(ensembl_matrix,group_list,file='ensembl_matrix.Rdata')

#samples.txt
Sample,status
61,high
62,high
63,high
191,low
193,low
194,low

2. 数据check，PCA，热图，相关性分析

rm(list = ls()) 
options(stringsAsFactors = F)
load(file = 'ensembl_matrix.Rdata')

# 每次都要检测数据
exprSet=ensembl_matrix
dat=log2(edgeR::cpm(exprSet)+1)
dat[1:4,1:4] 
colnames(exprSet)
table(group_list)

## PCA
dat=t(dat) 
library("FactoMineR")
library("factoextra")  
dat.pca <- PCA(dat , graph = FALSE)#现在dat最后列是group_list，需要重新赋值给一个dat.pca,这个矩阵是不含有分组信息的
fviz_pca_ind(dat.pca,
             geom.ind = "point", # show points only (nbut not "text")
             col.ind =  group_list, # color by groups
             #palette = c("#00AFBB", "#E7B800"),
             addEllipses = TRUE, # Concentration ellipses
             legend.title = "Groups"
)
ggsave('all_samples_PCA_by_type.png')
 

exprSet=ensembl_matrix
dat=log2(edgeR::cpm(exprSet)+1)
dat[1:4,1:4] 
table(group_list)

#表达数据log后较之前均一，看相关性
View(dat)
colnames(dat)
[1] "61"  "62"  "63"  "191" "193" "194"
pheatmap::pheatmap(cor(dat))
colD=data.frame(group=group_list)
rownames(colD)=colnames(dat)
pheatmap::pheatmap(cor(dat),annotation_col = colD, 
                   show_rownames = T, 
                   color = colorRampPalette(brewer.pal(9, "OrRd"))(50),
                   cluster_rows = FALSE, 
                   cluster_cols = FALSE, 
                   display_numbers = T, 
                   number_format = "%.3f", ##显示相关系数，三位小数
                   filename = 'cor_log2_all.png')


##热图

cg=names(tail(sort(apply(dat,1,sd)),1000))#apply按行（'1'是按行取，'2'是按列取）取每一行的方差，从小到大排序，取最大的1000个
library(pheatmap)
pheatmap(dat[cg,],show_colnames =F,show_rownames = F) #对那些提取出来的1000个基因所在的每一行取出，组合起来为一个新的表达矩阵
n=t(scale(t(dat[cg,]))) # 'scale'可以对log-ratio数值进行归一化
n[n>2]=2 
n[n< -2]= -2
n[1:4,1:4]
pheatmap(n,show_colnames =F,show_rownames = F)
ac=data.frame(group=group_list)
rownames(ac)=colnames(n) 
pheatmap(n,show_colnames =F,show_rownames = F,
         annotation_col=ac)
pheatmap(n,show_colnames =T,show_rownames = F,
         annotation_col=ac,filename = 'heatmap_top1000_sd.png')


# 相似性，原始矩阵
rm(list = ls())
options(stringsAsFactors = F)
load(file = 'ensembl_matrix.Rdata')

exprSet=ensembl_matrix
colnames(exprSet)
colD=data.frame(group=group_list)
rownames(colD)=colnames(exprSet)
pheatmap::pheatmap(cor(exprSet),annotation_col = colD, 
                   show_rownames = T, 
                   color = colorRampPalette(brewer.pal(9, "OrRd"))(50),
                   cluster_rows = FALSE, 
                   cluster_cols = FALSE, 
                   display_numbers = T, 
                   number_format = "%.3f", 
                   filename = 'cor_all.png')

dim(exprSet)
#[1] 61541     6
exprSet=exprSet[apply(exprSet,1, function(x) sum(x>1) > 3),]
dim(exprSet)
#[1] 18341     6

exprSet=log(edgeR::cpm(exprSet)+1)
dim(exprSet)
exprSet=exprSet[names(sort(apply(exprSet, 1,mad),decreasing = T)[1:500]),]
dim(exprSet)
#[1] 500   6
M=cor(log2(exprSet+1)) 
pheatmap::pheatmap(M,annotation_col = colD)
pheatmap::pheatmap(M,
                   annotation_col = colD,
                   show_rownames = T, 
                   color = colorRampPalette(brewer.pal(9, "OrRd"))(50),
                   cluster_rows = FALSE, 
                   cluster_cols = FALSE, 
                   display_numbers = T, 
                   number_format = "%.3f",  
                   filename = 'cor_top500.png')

log2_all

top500

3. DESeq2

生成数据：DEG_DEseq2

rm(list = ls())
options(stringsAsFactors = F)
load(file = 'ensembl_matrix.Rdata') 
exprSet=ensembl_matrix 

##可以提前写好完整代码：source('~/AGS_RNAseq/AGS_4/logs/DEG3.R')
##DEG3.R附在最下

table(group_list)  
exprSet[1:4,1:4]
dim(exprSet)
exprSet=exprSet[apply(exprSet,1, function(x) sum(x>1) > 3),]#apply'1'是按行取,'2'是按列取
dim(exprSet) 
 
table(group_list)
##写好的代码中的function：
##run_DEG_RNAseq(exprSet,group_list,
               g1="low",g2="high",
               pro='AGS')

##DESeq2
colnames(exprSet)
library(DESeq2)
g1="low"
g2="high"
colData <- data.frame(row.names=colnames(exprSet), 
                        group_list=group_list) 
dds <- DESeqDataSetFromMatrix(countData = exprSet,
                                colData = colData,
                                design = ~ group_list)
dds <- DESeq(dds)
##会显示标准化进程##
res <- results(dds, 
                 contrast=c("group_list",g2,g1))
mcols(res,use.names= TRUE) # 查看res矩阵每一列的含义
summary(res) # 对res矩阵进行总结
table(res$padj<0.05) # 统计padj小于0.05的数据
resOrdered <- res[order(res$padj),]#按FDR值排序
head(resOrdered)
diff_gene_deseq2 <- subset(res,padj < 0.05 & (log2FoldChange >1 | log2FoldChange < -1)) 
head (diff_gene_deseq2, n=5) # 查看diff_gene_deseq2矩阵的前5行
diff_gene_deseq2 <- row.names(diff_gene_deseq2) # 提取diff_gene_deseq2的行名
head (diff_gene_deseq2, n=5)
resdata <- merge (as.data.frame(res),as.data.frame(counts(dds,normalize=TRUE)),by="row.names",sort=FALSE)
head (resdata,n=5)
write.csv(resdata, file="high_low_diff_gene_deseq2.csv") # 将结果导出

DEG =as.data.frame(resOrdered)
DEG = na.omit(DEG)
nrDEG=DEG
DEG_DEseq2=nrDEG 
nrDEG=DEG_DEseq2[,c(2,6)]
colnames(nrDEG)=c('log2FoldChange','pvalue') 

#离散曲线绘制
png("DESeq2_qc_dispersions.png", 1000, 1000, pointsize=20)
plotDispEsts(dds, main="Dispersion plot")
dev.off()

rld <- rlogTransformation(dds)
exprMatrix_rlog=assay(rld)
    
x=apply(exprMatrix_rlog,1,mean)
y=apply(exprMatrix_rlog,1,mad) 
plot(x,y) 
    
png("DESeq2_RAWvsNORM.png",height = 800,width = 800)
par(cex = 0.7)
n.sample=ncol(exprSet)
if(n.sample>40) par(cex = 0.5)
cols <- rainbow(n.sample*1.2)
par(mfrow=c(2,2))
boxplot(exprSet, col = cols,main="expression value",las=2)
boxplot(exprMatrix_rlog, col = cols,main="expression value",las=2)
hist(as.matrix(exprSet))
hist(exprMatrix_rlog)
dev.off()

红色离散曲线随着表达水平增加离散值越来越小，说明数据拟合DESeq2模型(11条消息) 哈佛大学——差异表达分析（九）DESeq2步骤描述_零级伪码农的博客-CSDN博客_deseq2差异表达分析

4. edgeR

生成data：DEG_edgeR

  library(edgeR)
  g=factor(group_list)
  g=relevel(g,g1)
  d <- DGEList(counts=exprSet,group=g)
  keep <- rowSums(cpm(d)>1) >= 2
  table(keep)
  d <- d[keep, , keep.lib.sizes=FALSE]
  d$samples$lib.size <- colSums(d$counts)
  d <- calcNormFactors(d)
  d$samples
  
  dge=d
  design <- model.matrix(~0+factor(group_list))
  rownames(design)<-colnames(dge)
  colnames(design)<-levels(factor(group_list))
  
  dge <- estimateGLMCommonDisp(dge,design)
  dge <- estimateGLMTrendedDisp(dge, design)
  dge <- estimateGLMTagwiseDisp(dge, design)
  
  fit <- glmFit(dge, design)
  lrt <- glmLRT(fit,  contrast=c(1,-1)) 
  nrDEG=topTags(lrt, n=nrow(dge))
  nrDEG=as.data.frame(nrDEG)
  head(nrDEG)
  DEG_edgeR =nrDEG
  diff_gene_edgeR <- subset(DEG_edgeR,FDR < 0.05 & (logFC >1 | logFC < -1)) 
  head (diff_gene_edgeR, n=5)
  write.csv(diff_gene_edgeR, file="high_low_diff_gene_edgeR.csv") # 将结果导出

  nrDEG=DEG_edgeR[,c(1,5)]
  colnames(nrDEG)=c('log2FoldChange','pvalue')

5.limma

生成data：DEG_limma_voom

  suppressMessages(library(limma))
  design <- model.matrix(~0+factor(group_list))
  colnames(design)=levels(factor(group_list))
  rownames(design)=colnames(exprSet)
  design
  
  dge <- DGEList(counts=exprSet)
  dge <- calcNormFactors(dge)
  logCPM <- cpm(dge, log=TRUE, prior.count=3)
  
  v <- voom(dge,design,plot=TRUE, normalize="quantile")
  fit <- lmFit(v, design)
  
  group_list
  con=paste0(g2,'-',g1)
  cat(con)
  cont.matrix=makeContrasts(contrasts=c(con),levels = design)
  fit2=contrasts.fit(fit,cont.matrix)
  fit2=eBayes(fit2)
  
  tempOutput = topTable(fit2, coef=con, n=Inf)
  write.csv(tempOutput, file="high_low_limma_DEG_all.csv")
  
  DEG_limma_voom = na.omit(tempOutput)
  head(DEG_limma_voom)
  nrDEG=DEG_limma_voom[,c(1,4)]
  colnames(nrDEG)=c('log2FoldChange','pvalue')

保存数据：AGS_DEG_results.Rdata

save(DEG_limma_voom,DEG_DEseq2,DEG_edgeR,
       dds,exprSet,group_list,
       file = 'AGS_DEG_results.Rdata')

6.火山图、热图

绘制function

#绘制function
draw_h_v <- function(exprSet,need_DEG,n='DEseq2'){
library(pheatmap)
  exprSet=log(edgeR::cpm(exprSet)+1)
  choose_gene=c(head(rownames(need_DEG),50),
                tail(rownames(need_DEG),50)) ## 50 maybe better
  choose_matrix=exprSet[choose_gene,]
  choose_matrix=t(scale(t(choose_matrix)))
  choose_matrix[choose_matrix>2]=2 
  choose_matrix[choose_matrix< -2]= -2
  choose_matrix[1:4,1:4]
  colD=data.frame(group_list=group_list)
  rownames(colD)=colnames(exprSet)
#热图绘制
  pheatmap(choose_matrix,annotation_col = colD,
           show_rownames = F,
           treeheight_row = 30, #设置聚类线高度
           color = colorRampPalette(c("slategray", "white", "palevioletred2"))(50),
           filename = paste0(n,'_need_DEG_top100_heatmap.png'))
  
#火山图绘制
  logFC_cutoff <- with(need_DEG,mean(abs( log2FoldChange)) + 2*sd(abs( log2FoldChange)) )
  # 可以设置logFC_cutoff=1
  
  need_DEG$change = as.factor(ifelse(need_DEG$pvalue < 0.05 & abs(need_DEG$log2FoldChange) > logFC_cutoff,
                                     ifelse(need_DEG$log2FoldChange > logFC_cutoff ,'UP','DOWN'),'NOT')
  )
  this_tile <- paste0('Cutoff for logFC is ',round(logFC_cutoff,3),
                      '\nThe number of up gene is ',nrow(need_DEG[need_DEG$change =='UP',]) ,
                      '\nThe number of down gene is ',nrow(need_DEG[need_DEG$change =='DOWN',])
  )
  library(ggplot2)
  g = ggplot(data=need_DEG, 
             aes(x=log2FoldChange, y=-log10(pvalue), 
                 color=change)) +
    geom_point(alpha=0.4, size=1.75) +
    theme_set(theme_set(theme_bw(base_size=20)))+
    xlab("log2 fold change") + ylab("-log10 p-value") +
    ggtitle( this_tile ) + theme(plot.title = element_text(size=15,hjust = 0.5))+
    scale_colour_manual(values = c('blue','black','red')) ## corresponding to the levels(res$change)
  print(g)
  ggsave(g,filename = paste0(n,'_volcano.png'))
}

#调用绘制function
draw_h_v(exprSet,nrDEG,paste0(pro,'_DEseq2'))
draw_h_v(exprSet,nrDEG,paste0(pro,'_edgeR'))
draw_h_v(exprSet,nrDEG,paste0(pro,'_limma'))

结果如下图，参数可自行修改，如

logFC_cutoff可以设为1

热图参数修改：

(11条消息) pheatmap 参数整理_GeekFocus-CSDN博客_pheatmap 参数详解

常用参数：

scale = "row"归一化

cluster_row = FALSE参数设定不对行进行聚类

legend_breaks参数设定图例显示范围，legend_labels参数添加图例标签

border=FALSE参数去掉边框线

treeheight_row=20和treeheight_col参数设定行和列聚类树的高度，默认为50

cellwidth=15和cellheight参数设定每个热图格子的宽度和高度

main=“主标题”，标题设置

7.KEGG/GO富集

KEGG

load(file = '~/AGS_RNAseq/AGS_4/all/AGS_DEG_results.Rdata')
load(file = '~/AGS_RNAseq/AGS_4/ensembl_matrix.Rdata')
source('~/AGS_RNAseq/AGS_4/logs/DEG3.R')

#DEG3.R中的function
getDEGs <- function(DEG_DEseq2,DEG_edgeR,DEG_limma_voom,thre_logFC=1,thre_p=0.05){
  head(DEG_DEseq2)
  head(DEG_edgeR)
  head(DEG_limma_voom)
  thre_logFC=1
  thre_p=0.05
  u1=rownames(DEG_DEseq2[with(DEG_DEseq2,log2FoldChange>thre_logFC & padjthre_logFC & FDRthre_logFC & adj.P.Val%
    mutate(pvalue = ifelse(group == "up",-log10(pvalue),log10(pvalue))) %>%
    arrange(group,pvalue)
  double_kegg$Description = factor(double_kegg$Description, 
                                   levels = unique(double_kegg$Description), 
                                   ordered = T)
  head(double_kegg)
  breaks = with(double_kegg, 
                labeling::extended(range(pvalue)[1], range(pvalue)[2],m = 5));breaks
  lm = breaks[c(1,length(breaks))];lm
  KEGG <- ggplot(double_kegg,aes(x=Description,y=pvalue)) +
    geom_segment(aes(x=Description,xend=Description, 
                     y=0,yend=pvalue,color = group),
                 size=5,alpha=0.9) + 
    theme_light() + 
    theme(panel.border = element_rect(fill=NA,color="black", size=0.5, linetype="solid")) + #外框线
    xlab("Pathway") + 
    ylab("-log10(PValue)") + 
    ylim(lm) + 
    scale_y_continuous(breaks = breaks,labels = abs(breaks)) +
    scale_color_brewer(palette = "Pastel2") + # 颜色设置
    labs(title="Pathway Enrichment") + #标题设置
    theme(plot.title = element_text(hjust = 0.5)) + #标题居中
    coord_flip()
  print(KEGG)
  ggsave(KEGG,filename = 'AGS_kegg_up_down.png')

结果：

明天继续。

【科研绘图系列】R语言绘制堆积图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制堆积图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(reshape)library(ggalluvial)library(ggprism
【科研绘图系列】R语言绘制棒棒图和哑铃图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据画图系统信息参考介绍【科研绘图系列】R语言绘制棒棒图和哑铃图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(RColorBrewer)library(grid)library(scales
3篇5章2节：绘制临床研究中的趋势图与ROC曲线 MD分析用R探索医药数据科学信息可视化 r语言 r语言-4.2.1 数据分析趋势变化图模型性能评估
在医学统计分析与数据科学实践中，趋势图与ROC曲线不仅是可视化的“门面担当”，更是揭示数据背后规律与诊断性能的核心工具。无论是观察血压、血糖等临床指标随时间或干预手段的变化，还是评估模型的判别能力与诊断准确性，一幅设计得当的图表，往往胜过千言万语。本文围绕R语言中两个功能强大的可视化函数展开，深入剖析它们在实际科研中的应用技巧与美化策略。通过案例演示与参数讲解，你将学会如何绘制清晰、美观、信息量丰
R语言绘制散点图 Ora_ge R语音
［转自：http://blog.sina.com.cn/s/blog_69ffa1f90101siek.html］函数。简单地说，把一些R语句（赋值、计算或其他操作步骤）包装起来并给它一个名称，这就是函数。我们前面接触过的getClass(),class(),head(),rep(),cbind(),rbind()等都是函数。显示（打印）对象也有函数print()，但R有更简单的方法：输入对象名（
【科研绘图系列】R语言绘制配对散点图连线柱状图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制配对散点图连线柱状图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(ggpubr)library(patchwork)library(ggprism
【科研绘图系列】R语言绘制柱状散点连线图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制柱状散点连线图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(ggpubr)library(patchwork)library(ggprism
R语言基础语法及示例路飞VS草帽 R语言 R语言
1.变量赋值在R中，可以使用5){print("x大于5")}else{print("x小于或等于5")}#输出:[1]"x大于5"8.循环使用for和while进行循环。r#for循环for(iin1:5){print(i)}#输出:#[1]1#[1]2#[1]3#[1]4#[1]5#while循环i<-1while(i<=5){print(i)i<-i+1}#输出:#[1]1#[1]2#[1]
ica算法c语言,独立成分分析(ICA)的模拟实验(R语言) weixin_39632212 ica算法c语言
本笔记是ESL14.7节图14.42的模拟过程。第一部分将以ProDenICA法为例试图介绍ICA的整个计算过程；第二部分将比较ProDenICA、FastICA以及KernelICA这种方法，试图重现图14.42。ICA的模拟过程生成数据首先我们得有一组独立(ICA的前提条件)分布的数据$S$(未知)，然后经过矩阵$A_0$混合之后得到实际的观测值$X$，即$$X=SA_0$$也可以写成$$S=
R语言金融工程：量化价值投资中的数据处理技巧量化价值投资入门到精通 r语言金融开发语言 ai
R语言金融工程：量化价值投资中的数据处理技巧关键词：R语言、金融工程、量化价值投资、数据处理、财务指标、时间序列、风险控制摘要：在量化价值投资领域，高质量的数据处理是策略有效性的核心基础。本文系统解析基于R语言的金融数据处理全流程，涵盖数据获取、清洗、特征工程、时间序列分析等关键环节。通过财务指标计算、异常值检测、缺失值处理、因子标准化等实用技巧，结合quantmod、TTR、dplyr等R包的深
GEV/POT/Markov/点过程/贝叶斯极值全解析；基于R语言的极值统计学
极值统计学就是专门研究自然界和人类社会中很少发生，然而发生之后有着巨大影响的极端现象的统计建模及分析方法；在水文、气象、环境、生态、保险和金融等领域都有着广泛的应用。专题一、独立假设下的极值统计建模主要内容包括：1.广义极值模型.2.极小值的处理.3.广义Pareto模型.4.第r大次序统计量建模.5.R语言中极值统计学包.6.实例操作1-2.(提供案例数据及代码)专题二、平稳时间序列的极值统计建
【科研绘图系列】R语言绘制分组直方图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制分组直方图加载R包library(ggplot2)library(ggpubr)rm(list=ls())options(stringsAsFactors=F)</
Copula 回归与结构方程模型：R 语言构建多变量因果关系网络
技术点目录专题一、R及Python语言及相关性研究初步专题二、二元Copula理论与实践（一）专题三、二元Copula理论与实践（二）【R语言为主】专题四、Copula函数的统计检验与选择【R语言为主】专题五、高维数据与VineCopula【R语言】专题六、正则VineCopula（一）【R语言】专题七、正则VineCopula（二）【R语言】专题八、时间序列中的Copula【R语言】专题九、Co
最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
基于R语言的极值统计学及其在相关领域中的实践技术应用科研的力量语言类课程极值统计学
受到气候变化、温室效应以及人类活动等因素的影响，自然界中极端高温、极端环境污染、大洪水和大暴雨等现象的发生日益频繁；在人类社会中，股市崩溃、金融危机等极端情况也时有发生；今年的新冠疫情就是非常典型的极端现象。研究此类极端现象需要新的统计学方法，该类统计学的理论和方法都与传统的基于高斯分布的统计学模型有极大的不同。极值统计学就是专门研究自然界和人类社会中很少发生，然而发生之后有着巨大影响的极端现象的
【数据分析】多数据集网络分析：探索健康与退休研究中的变量关系生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理函数网络分析画图保存图片总结系统信息介绍在医学和社会科学研究中，理解多个变量之间的复杂关系对于揭示潜在的病理生理机制和社会行为模式至关重要。本文介绍了一种基于R语言的网络分析方法，用于探索HRS（健康与退休研究）及其类似研究（CHARLS、ELSA、MHAS、SHARE）中的变
R语言舆情监控与可视化统计 q56731523 r语言开发语言爬虫
用R语言进行舆情监控并且做到可视化，对我来说，总体难度还算可以，主要是舆情监控通常涉及文本数据的收集（如社交媒体、新闻评论），然后进行情感分析，最后通过图表展示结果。步骤看似简单实则一点也不简单。以下就是我使用R语言进行舆情监控和可视化统计的完整示例。该方案包括文本情感分析和时间趋势可视化：#加载必要的包library(tidyverse)#数据处理和可视化library(tidytext)#文本
R 语言数据框连接操作详解：join 与 merge 方法对比晚风keeper r语言开发语言学习笔记学习方法
在数据分析工作中，我们经常需要将多个数据集按照某些条件进行合并。R语言提供了多种数据框连接方法，本文将详细介绍如何使用dplyr包的join系列函数和基础R的merge函数进行数据框的各种连接操作，并对比它们之间的差异。一、数据框连接操作概述数据框连接是将两个或多个数据框按照某些共同的列或条件组合成一个新的数据框的过程。常见的连接类型包括：左连接（LeftJoin）：保留左数据框的所有行，匹配右数
Readr 项目安装与配置指南芮奕滢Kirby
Readr项目安装与配置指南readr项目地址:https://gitcode.com/gh_mirrors/rea/readr1.项目基础介绍readr是一个R语言的开源项目，由HadleyWickham创建和维护。该项目的主要目的是提供一种快速且友好的方式来读取分隔文件（如CSV和TSV）中的矩形数据。readr能够解析多种数据类型，并在解析过程中提供详细的错误报告，以便用户能够快速识别和解决
4篇2章5节：ANOVA 功效的单次精确模拟与可视化全解析 MD分析用R探索医药数据科学 r语言-4.2.1 r语言功效曲线单次精确模拟分析
在医学研究尤其是糖尿病等干预性试验中，精准的实验设计与功效分析是确保研究价值的关键。R语言为重复测量方差分析（ANOVA）提供了强大工具，从实验设计构建、单次精确模拟分析，到功效曲线可视化，覆盖研究全流程。本文结合糖尿病胰岛素治疗试验案例，深度拆解函数的应用逻辑，手把手教你用数据驱动实验设计，让“样本量规划”“效应检测能力”从抽象概念变为可操作、可视化的研究支撑。一、相关函数的介绍在医学研究中，实
R语言如何接入实时行情接口
目录1.安装必要的R包2.导入库3.连接WebSocket4.处理连接成功后的操作5.处理接收到的消息6.处理连接关闭和错误7.发送心跳数据8.自动重连机制9.启动连接和重连总结在数据分析和金融研究中，实时行情数据的获取至关重要，但市面上的实时行情接口并不多，本文将一步步教你如何使用R语言接入实时行情接口，获取来自WebSocket的实时数据。1.安装必要的R包首先，确保你已安装了以下R包，用于处
【R语言】Can‘t subset elements that don‘t exist. 新子y r语言开发语言 excel
Errorin`select()`:ℹInargument:`all_of(label_col)`.Causedbyerrorin`all_of()`:!Can'tsubsetelementsthatdon'texist.✖Element`Label`doesn'texist.Run`rlang::last_trace()`toseewheretheerroroccurred.原文中文解释涉及关键
r读取文件夹下的所有csv文件_R语言读取文件夹下多个文件并进行合并数据生成总数据文件... seiji morisako r读取文件夹下的所有csv文件
在流水化办公中，通常有格式统一的表格文件产生，但是到最后要将这一堆表格文件整合为大表却很揪心，累断手，如何用R语言进行一次性导入整合呢？假设我们将D:/input文件夹作为需要导入的表格的存放点，文件夹内所有文件均为此次需要导入数据，那么可以用以下程序进行操作setwd("D:/")#设定工作目录为D盘a=list.files("input")#list.files命令将input文件夹下所有文件
从0开始学习R语言--Day41--Moran‘s I Chef_Chen 学习
在处理带有空间特征的数据，我们往往都直接一股脑地处理数据点，但很多时候，空间上的信息对于处理后续衍生出来的问题会有很大帮助，例如对于城市里大小县城的发展情况，只知道单一县城的经济发展曲线，很难解释一些拐点和突然的攀升，而如果知道相邻县城存在经济发展飞快的例子，可能就是被带动了经济水平；亦或者是在处理社交网络的好有问题时，只知道谁和谁是朋友（类似于空间矩阵），是无法推断出经济收入相似的推论的，所以说
结构方程模型（SEM）高阶应用系列梦想的初衷~ 结构方程生态环境 python 开发语言结构方程
结构方程模型（StructuralEquationModeling）是分析多变量间因果关系的利器，在众多学科领域具有巨大应用潜力。我们前期推出的《基于R语言结构方程模型》通过结构方程原理介绍、结构方程全局和局域估计、模型构建和调整、潜变量分析、复合变量分析及结构方程贝叶斯方法实现等一系列专题的介绍及大量案例讲解，由浅入深地系统介绍了结构方程模型的建立、拟合、评估、筛选和结果展示全过程，得到学员广泛
r语言改变数据框列名_数据决定离线强化学习将如何改变我们的语言习惯杨_明 python 大数据人工智能 java 机器学习
r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec
【数据分析】R语言基于虚弱指数的心血管疾病风险评估生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理画图其他1其他2其他3其他4总结系统信息介绍生存分析是医学和生物统计学中常用的方法，用于研究事件（如疾病发生、死亡等）发生的时间和相关影响因素。本文介绍了一种基于R语言的生存分析方法，用于评估虚弱指数（FrailtyIndex,FI）对心血管疾病（CVD）发生风险的影响。通过这
【科研绘图系列】R语言绘制论文组合图（multiple plots）生信学习者1 SCI科研绘图系列 (2025版)r语言数据分析数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载函数数据预处理画图1画图2画图3画图4画图5画图6总结系统信息介绍这段代码是一个用于生成多种复杂数据可视化的R脚本，主要利用ggplot2、tidyverse和自定义函数来处理和展示与小鼠实验相关的数据。它通过读取、处理数据，并生成多种图形，旨在清晰地展示不同实验组的小鼠在不同时间点的抗体浓度和
如何自定义R语言函数？参数中的省略号`...`有什么用？「已注销」 python 编程语言 java 人工智能 c++
学习R未必要学习很多工具包，有时候根据自己的理解去自定义函数也是一个不错的选择。本篇推文主要介绍两方面的内容：在R语言中自定义函数的一般方法；函数参数中...的作用。在看函数的帮助文档时会发现许多函数的参数中都有...符号，它是表示被省略的参数吗？如果是，作者为什么会省略它？如果不是，那又表示什么含义呢？不久前，学堂君分享了自己编写的计算空间可达性的函数，详见推文：两步移动搜索法（2SFCA）计算
Logistic回归预测模型2：R语言实现模型的内部和外部验证
前面我们讲了logistic回归预测模型的建立，今天介绍的是模型的验证，可以在训练集和验证集中通过ROC曲线、校准曲线和决策曲线分别进行验证。1、原始数据原始数据分为训练集和验证集，其中训练集用于模型的构建和内部验证，验证集用于外部验证。两个数据集都包含5列，且列名相同。组别Group为因变量，1代表阳性结局，0代表阴性结局。自变量1和4为连续性变量，自变量2和3为二分类变量。2、安装所需要的R包
R 列表：深入解析与高效应用沐知全栈开发开发语言
R列表：深入解析与高效应用引言在R语言中，列表（List）是一种非常重要的数据结构，它允许我们将不同类型的数据组合在一起。列表在数据分析和统计建模中扮演着至关重要的角色。本文将深入探讨R列表的概念、创建方法、操作技巧以及在实际应用中的高效使用。R列表概述定义R列表是一种可以包含多种数据类型的数据结构，如数值、字符、逻辑值、其他列表等。列表可以看作是一个容器，可以存储任意数量的元素。类型R列表分为两
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1