yiyaaaaaaaa

RNA-seq数据分析

一、数据收集

1.NCBI GEO数据库收集相关RNA-seq数据

样本信息以及引用文献可以点击对应链接查看

2.SRA Run Selector 查看数据单双端类型（SINGLE or PAIRED)及分组信息

可以点击Accession List下载对应的SRR_Acc_List.txt

二、RNA-seq 处理流程

使用HISAT, StringTie and Ballgown处理流程

<一>下载并解压SRA文件

1.根据下载的SRR_Acc_List.txt下载原始sra文件至SRR文件夹

prefetch -O SRR/ --option-file SRR_Acc_List.txt

2.解压sra文件生成对应的fastq文件至fastq文件夹

for i in SRR/SRR*/*.sra; do echo $i ; fasterq-dump -O fastq/  -e  16 --split-3 $i; done
#--split-3, 会把双端sra文件拆分成两个文件,但是单端并不会保存成两个文件

<二>对数据进行质量控制

fastqc进行质控，multiqc合并质控结果

#fastqc
#fastqc质控
for i in fastq/*.fastq; do echo $i ; fastqc -t 20 -o fastq/quality $i; done
#multiqc
multiqc fastq/quality/ -n before_report.html -o fastq/

<三> 数据裁剪

1.fastp使用

#单端测序数据（single-end，SE）
fastp -i in.fq -o out.fq
#双端测序数据（paired-end，PE）
fastp -i in.R1.fq -o out.R1.fq -I in.R2.fq -O out.R2.fq

2.参数详解

#单端数据
for filename in fastq/*.fastq
do
base=$(basename $filename .fastq)
echo $base
fastp -i fastq/${base}.fastq -o fastq/deal/${base}.fastq -w 16  -x --trim_poly_x --poly_x_min_len 20 -q 20 -u 40 -n 5 -3 -W 4 -M 25
done 
#-w 16 线程数  
#-x --trim_poly_x --poly_x_min_len 20 切除polyx尾巴，尾巴长度设置为20
#-q 20 -u 40 表示一个 read 最多只能有 40%的碱基的质量值低于Q20，否则会被扔掉  
#-n 5 过滤N碱基过多的reads  
#-3 -W 4 -M 25 从3'开始移动滑动窗口，滑窗大小为4， 平均质量低于25被切

#双端数据
for filename in fastq/*_1.fastq
do
base=$(basename $filename _1.fastq)
echo $base
fastp -i fastq/${base}_1.fastq -I fastq/${base}_2.fastq -o fastq/deal/${base}_1.fastq -O fastq/deal/${base}_2.fastq -w 16  -x --trim_poly_x --poly_x_min_len 20 -q 20 -u 40 -n 5 -3 -W 4 -M 25 -c --overlap_len_require 30 --overlap_diff_limit 5 --overlap_diff_percent_limit 20
done
#-c, --correction 对PE碱基校正，使用该参数是基于检测overlap。
#--overlap_len_require overlap的长度要求，默认是30，即默认overlap区域的长度不低于30bp；
#--overlap_diff_limit overlap中最大错配数，默认是5，即默认overlap时最多有5个错配；
#--overlap_diff_percent_limit overlap中最大错配数在重叠区的占比，默认是20，即默认最大错配数的碱基占比不高于20%；否则认为无overlap。`

<四>检查数据质量

#fastqc
#fastqc质控
for i in fastq/deal/*.fastq; do echo $i ; fastqc -t 20 -o fastq/deal/quality $i; done
#multiqc
multiqc fastq/deal/quality/ -n after_report.html -o fastq/

<五>Hisat比对

1.参考基因组及对应注释文件（gtf）下载

参考基因组与注释文件要对应，否则比对率很低且下游分析比较麻烦
iGenomes

2.Hisat2索引

模式生物可以直接进入hisat2官网进行index下载http://daehwankimlab.github.io/hisat2/download/
非模式生物需要自己建立索引

hisat2-build -p 16 genome.fa genome
#genome.fa  为对应的参考基因组
#genome 为建立的索引名称

3.mapping到参考基因组

#单端文件比对
for filename in fastq/deal/*.fastq
do
base=$(basename $filename .fastq)
echo $base
hisat2 -t -p 16 --dta -x /lustre/home/acct-clsdqw/clsdqw-user1/Desktop/RNA-seq/E.coli/reference/hisat2/genome \
-U fastq/deal/${base}.fastq -S process/sam/${base}.sam

#双端文件比对
for filename in fastq/deal/*_1.fastq
do
base=$(basename $filename _1.fastq)
echo $base
hisat2 -t -p 20 -x /lustre/home/acct-clsdqw/clsdqw-user1/Desktop/RNA-seq/code/Yeast/reference/hisat2/genome \
-1 fastq/deal/${base}_1.fastq -2 fastq/deal/${base}_2.fastq -S process/sam/${base}.sam

-x 要写到对应的索引名称

<六>samtools进行格式转换并排序

1.view: 将sam文件与bam文件互换
bam文件优点：bam文件为二进制文件，占用的磁盘空间比sam文本文件小；利用bam二进制文件的运算速度快。
2.sort: 对bam文件进行排序(sort)
这些操作是对bam文件进行的，因而当输入为sam文件的时候，不能进行该操作

samtools view -@ 16 -S process/sam/${base}.sam -b > process/bam/${base}.bam
samtools sort -@ 16 process/bam/${base}.bam -o process/bam_sort/${base}.bam

<七>得到转录本并进行组装

#获得gtf
for filename in process/bam_sort/*.bam
do
base=$(basename $filename .bam)
echo $base
stringtie -p 16 process/bam_sort/${base}.bam -G /lustre/home/acct-clsdqw/clsdqw-user1/Desktop/RNA-seq/E.coli/reference/E.coli.gtf -o process/gtf/${base}.gtf
done

#获得strimerge.gtf
for filename in process/gtf/*.gtf
do
base=$(basename $filename .gtf)
echo process/gtf/${base}.gtf >> process/gtf/mergelist.txt
done
stringtie --merge -p 16 -G /lustre/home/acct-clsdqw/clsdqw-user1/Desktop/RNA-seq/E.coli/reference/E.coli.gtf -o process/gtf/strimerge.gtf process/gtf/mergelist.txt

<八>Ballgown获得所有转录本及其丰度

#ballgown
for filename in process/bam_sort/*.bam
do
base=$(basename $filename .bam)
echo $base
stringtie -e -B -p 16 -G process/gtf/strimerge.gtf -o ballgown/${base}/${base}.gtf process/bam_sort/${base}.bam
done

三、下游分析

1.使用R语言进行差异表达基因筛选，GO KEGG富集分析并绘图

my_DEG_analysis <-function(gse_name,phenodata,ballgownfile,smallprotein,logfc,pvalue)
{

	library(ballgown)
	library(genefilter)
	library(dplyr)
	library(devtools)
	library(ggplot2)
	library(GSEABase)
  

	###指定分组信息
	sampleGroup <- read.csv(phenodata, header = TRUE)
	#DESeq2说明清楚哪个因子level对应的control，避免后面解释数据遇到麻烦（你不知道到底logFC是以谁做参照的，希望是以control作为参照，这样logFC>1就表示实验组表达大于对照组；但是R不知道，R默认按字母顺序排列因子顺序，所以要对这个因子顺序set一下：
	
	#factor levels，写在前面的level作为参照
	sampleGroup$Treatment <- factor(sampleGroup$Treatment, levels = c("control", "case"))

	###读入数据
	bg_chrX=ballgown(dataDir =ballgownfile,samplePattern = "SRR", meas='all',pData=sampleGroup)
	whole_tx_table=texpr(bg_chrX, 'all')
	transcript_fpkm=texpr(bg_chrX, 'FPKM')
	colnames(transcript_fpkm)<-substring(colnames(transcript_fpkm), 6)
	rownames(transcript_fpkm)<-whole_tx_table$gene_name
	
	###提取fpkm矩阵
	data<-transcript_fpkm
	group_list <- sampleGroup$Treatment
	
	expMatrix <- data
	fpkmToTpm <- function(fpkm)
	{
	  exp(log(fpkm) - log(sum(fpkm)) + log(1e6))
	}
	tpms <- apply(expMatrix,2,fpkmToTpm)
	tpms[1:3,]
	colSums(tpms)
	exprSet <- tpms
	
	#limma 对数据进行归一化处理
	library(limma) 
	exprSet2=normalizeBetweenArrays(exprSet)
	#boxplot(exprSet2,outline=FALSE, notch=T,col=group_list, las=2)
	#判断数据是否需要转换
	exprSet3 <- log2(exprSet2+1)
	
	###主成分分析图
	dat <- t(exprSet2)#画PCA图时要求是行名时样本名，列名时探针名，因此此时需要转换
	dat <- as.data.frame(dat)#将matrix转换为data.frame
	dat <- cbind(dat,group_list) #cbind横向追加，即将分组信息追加到最后一列
	#dat[1:5,1:5]
	
	#BiocManager::install("FactoMineR")
	#BiocManager::install("factoextra")
	library("FactoMineR")
	library("factoextra") 
	
	# before PCA analysis
	dat.pca <- PCA(dat[,-ncol(dat)], graph = FALSE)#现在dat最后一列是group_list，需要重新赋值给一个dat.pca,这个矩阵是不含有分组信息的
	
	fviz_pca_ind(dat.pca,
	             geom.ind = "point", # show points only (nbut not "text")
	             col.ind = dat$group_list, # color by groups
	             # palette = c("#00AFBB", "#E7B800"),
	             addEllipses = TRUE, # Concentration ellipses
	             legend.title = "Groups"
	)
	ggsave(file=paste(gse_name,"all_samples_PCA.png"))
	
	
	###差异分析
	dat <- exprSet3
	#design <- model.matrix(~0+factor(group_list))
	design=model.matrix(~factor( group_list ))
	fit=lmFit(dat,design)
	fit=eBayes(fit)
	options(digits = 4)
	topTable(fit,coef=2,adjust='BH')
	degene=topTable(fit,coef=2,adjust='BH',number = Inf)
	head(degene) 
	write.csv(degene,paste(gse_name,"gene_results.csv") ,row.names=FALSE)
	
	###筛选差异表达小蛋白
	library(ggrepel)
	smallp<-read.csv(smallprotein,header = F)
	deg<-subset(degene,degene$ID %in% smallp$V1)
	write.csv(deg, paste(gse_name,"smallprotein_results.csv"),row.names=FALSE)
	
	deg$g=ifelse(deg$P.Value<pvalue & abs(deg$logFC) >logfc,
	             ifelse(deg$P.Value<pvalue & deg$logFC > logfc,'UP','DOWN'),'STABLE') 
	
	table(deg$g)
	data<-deg
	data$threshold = as.factor(deg$g)
	data$label <- ifelse(data$P.Value < pvalue & abs(data$logFC) >= logfc,data$ID,"")
	p<-ggplot(data, aes(logFC, -log10(P.Value),col = threshold)) +
	  ggtitle("Differential genes") +
	  geom_point(alpha=0.3, size=2) +
	  scale_color_manual(values=c("blue", "grey","red")) +
	  labs(x="logFC",y="-log10 (p-value)") +
	  theme_bw()+
	  geom_hline(yintercept = -log10(as.numeric(pvalue)), lty=4,col="grey",lwd=0.6) +
	  geom_vline(xintercept = c(-1, 1), lty=4,col="grey",lwd=0.6) +
	  theme(plot.title = element_text(hjust = 0.5),
	        panel.grid=element_blank(),
	        axis.title = element_text(size = 12),
	        axis.text = element_text(size = 12))
	p
	p+geom_text_repel(data = data, aes(x = logFC, y = -log10(P.Value), label = label),
	                  size = 3,box.padding = unit(0.5, "lines"),
	                  point.padding = unit(0.8, "lines"),
	                  segment.color = "black",
	                  show.legend = FALSE)
	
	ggsave(file=paste(gse_name,"VolcanoSP.png"),width = 7, height = 7)
	
	
	
	###差异基因注释分析
	library(ggstatsplot)
	library(cowplot)
	library(clusterProfiler)
	library(enrichplot)
	library(ReactomePA)
	library(stringr)
	library(tidyr)
	library(org.Sc.sgd.db)
	
	degene$ENSEMBL=degene$ID
	df <- bitr(unique(degene$ENSEMBL), fromType = "ENSEMBL", 
	           toType = c("ENTREZID","GENENAME"),
	           OrgDb = org.Sc.sgd.db)
	#head(df)
	DEG=degene
	#head(DEG)
	DEG$g=ifelse(DEG$P.Value<pvalue & abs(DEG$logFC) >logfc,
	             ifelse( DEG$P.Value<pvalue & DEG$logFC > logfc,'UP','DOWN'),'STABLE') 
	
	DEG=merge(DEG,df,by='ENSEMBL')
	head(DEG)
	
	save(DEG,file = 'anno_DEG.Rdata')
	DEG_diff=DEG[DEG$g == 'UP' | DEG$g == 'DOWN',] 
	gene_diff=DEG_diff$ENSEMBL
	
	###通路与基因之间的关系可视化
	###制作genlist三部曲：
	## 1.获取基因logFC
	geneList <- as.numeric(DEG$logFC)
	## 2.命名
	names(geneList) = as.character(DEG$ENSEMBL)
	## 3.排序很重要
	geneList = sort(geneList, decreasing = TRUE)
	geneList = na.omit(geneList)
	head(geneList)


	geneListgo <- as.numeric(DEG$logFC)
	names(geneListgo) = as.character(DEG$ENTREZID)
	geneListgo = sort(geneListgo, decreasing = T)
	geneListgo <- geneListgo[!is.na(geneListgo)]
	head(geneListgo)

	
	###GO分析
	library(DOSE)
	library(ggnewscale)
	library(topGO)
	GO<-enrichGO(DEG_diff$ENSEMBL, OrgDb = "org.Sc.sgd.db", keyType = "ENSEMBL",ont = "all", pvalueCutoff = 0.5, 
	             pAdjustMethod = "BH", qvalueCutoff = 0.5, minGSSize = 10, 
	             maxGSSize = 500, readable = FALSE, pool = FALSE)
	write.csv(GO, paste(gse_name,"GO_results.csv"),row.names=FALSE)
	if (length(GO$ID) > 0){
		dotplot(GO, split="ONTOLOGY") + facet_grid(ONTOLOGY~., scale="free")
		ggsave(file=paste(gse_name,"GO_dotplot.png"))
		barplot(GO, split="ONTOLOGY")+facet_grid(ONTOLOGY~., scale="free")
		ggsave(file=paste(gse_name,"GO_barplot.png"))

		enrichplot::cnetplot(GO,circular=FALSE,colorEdge = TRUE)
		ggsave(file=paste(gse_name,"GO_gene_pathway.png"))
	
	
		enrichplot::heatplot(GO,foldChange=geneListgo,showCategory = 50)
		ggsave(file=paste(gse_name,"GO_gene_pathway_heatmap.png"))
	}
	
	
	
	###KEGG 
	enrichKK <- enrichKEGG(gene   =   as.character(gene_diff),
	                       organism  = 'sce',
	                       keyType = "kegg",
	                       #universe     = gene_all,
	                       pvalueCutoff = 0.5,
	                       qvalueCutoff = 0.5)
	write.csv(enrichKK, paste(gse_name,"KEGG_results.csv"),row.names=FALSE)
	print(enrichKK)
	#head(enrichKK)[,1:6] 
	#气泡图
	if (length(enrichKK$ID) > 0){
		dotplot(enrichKK)
		ggsave(file=paste(gse_name,"KEGG_dotplot.png"))
		##最基础的条形图和点图
		#条带图
		barplot(enrichKK,showCategory=20)
		ggsave(file=paste(gse_name,"KEGG_barplot.png"))
		
		enrichplot::cnetplot(enrichKK,circular=FALSE,colorEdge = TRUE)#circluar为指定是否环化，基因过多时建议设置为FALSE
		ggsave(file=paste(gse_name,"KEGG_gene_pathway.png"))

		enrichplot::heatplot(enrichKK,foldChange=geneList,showCategory = 50)
		ggsave(file=paste(gse_name,"KEGG_gene_pathway_heatmap.png"))
	}
	
	GSEA_KEGG <- gseKEGG(geneList, organism = 'sce', nPerm = 1000, minGSSize = 10, maxGSSize = 500, pvalueCutoff = 1)
	if (length(GSEA_KEGG$ID) > 0){
 		ridgeplot(GSEA_KEGG)
 		ggsave(file=paste(gse_name,"enrichKEGG_ridgeplot.png"))
		if(length(GSEA_KEGG$ID) < 5){
		enrichplot::gseaplot2(GSEA_KEGG,1:as.numeric(dim(GSEA_KEGG)[1]))
		ggsave(file=paste(gse_name,"enrichKEGG_gseaplot.png"))
		}else{
		enrichplot::gseaplot2(GSEA_KEGG,1:5)
		ggsave(file=paste(gse_name,"enrichKEGG_gseaplot.png"))
		}
	}
	
	GSEA_GO <-  gseGO(geneList     = geneListgo ,
	                OrgDb        = org.Sc.sgd.db,
	                 keyType      = "ENTREZID",
	                 ont          = "all",
	                 nPerm        = 1000,   ## 排列数
	                 minGSSize    = 5,
	                 maxGSSize    = 500,
	                 pvalueCutoff = 0.95,
	                 verbose      = TRUE)
	print(GSEA_GO)
	if (length(GSEA_GO$ID) > 0){
		ridgeplot(GSEA_GO) 
		ggsave(file=paste(gse_name,"enrichGO_ridgeplot.png"))
		if(length(GSEA_GO$ID) < 5){
		enrichplot::gseaplot2(GSEA_GO,1:as.numeric(dim(GSEA_GO)[1]))
		ggsave(file=paste(gse_name,"enrichGO_gseaplot.png"))
		}else{
		enrichplot::gseaplot2(GSEA_GO,1:5)
		ggsave(file=paste(gse_name,"enrichGO_gseaplot.png"))
		}
		
	}
	
}
#my_DEG_analysis("GSE63516","phenodata.csv","ballgown","smallprotein.csv",1.5,0.05)
args = commandArgs(trailingOnly=TRUE)
gse_name<-args[1]
phenodata<-args[2]
ballgownfile<-args[3]
smallprotein<-args[4]
logfc<-args[5]
pvalue<-args[6]

my_DEG_analysis(gse_name,phenodata,ballgownfile,smallprotein,logfc,pvalue)

2.服务器调用sh文件

#!/bin/bash

mkdir jobid
#传入用户上传的phenodata.csv
mkdir jobid_yeast/ballgown
#copy指定SRR的表达文件
awk -F"," '{if (NR>1)print$1}' jobid_yeast/phenodata.csv | while read input;do cp -r /home/qzhao/database/Saccharomyces_cerevisiae/GSE/GSE56622/ballgown/$input jobid_yeast/ballgown;done
cd jobid_yeast
source activate R3.6
Rscript /home/qzhao/database/Saccharomyces_cerevisiae/reference/DEG_function.R  jobid  phenodata.csv  ballgown /home/qzhao/database/Saccharomyces_cerevisiae/reference/sp.csv 1 0.05

3.结果说明

Figure1. all_samples_PCA
Each sample represents a sample of GSE data.

Figure2. VolcanoSP
Volcano plot shows fold change and p-value for a particular comparison (case versus control). The y-axis represents the p-value of genes. The x-axis represents the logFC of genes. The gray dashed line shows selected fold change and p-value cutoff. Small proteins at the selected logFC and P-value threshold are highlighted in red (indicate upregulation) and blue(indicate downregulation) separately.

Figure3. GO_barplot.
The y-axis represents GO-enriched terms. The x-axis represents the genes’ number. The size of the bar represents the number of genes under a specific GO term. The BP(biological processes), CC(cellular component), MF(molecular function) GO terms are colored by the adjusted p-values.

Figure4. GO_dotplot.
The y-axis represents GO-enriched terms. The x-axis represents the GeneRatio. The size of dots represents the number of genes under a specific term. The color of the dots represents the adjusted P-value.

Figure5. GO_gene_pathway_heatmap
The y-axis represents GO-enriched terms. The x-axis represents the gene name. The color represents the fold change.

Figure6. GO_gene_pathway
The nodes represent the significantly regulated DEGs. The edges represent the interaction of significantly regulated DEGs. DEGs, differentially expressed genes.

Figure7. KEGG_barplot.
The y-axis represents KEGG-enriched terms. The x-axis represents the genes’ number. The size of the bar represents the number of genes under a specific term. The KEGG terms are colored by the adjusted p-values.

Figure8. KEGG_dotplot.
The y-axis represents KEGG-enriched terms. The x-axis represents the GeneRatio. The size of dots represents the number of genes under a specific term. The color of the dots represents the adjusted P-value.

Figure9. KEGG_gene_pathway_heatmap.
The y-axis represents KEGG-enriched terms. The x-axis represents the gene name. The color represents the fold changes.

Figure10. KEGG_gene_pathway
The nodes represent the significantly regulated DEGs. The edges represent the interaction of significantly regulated DEGs. DEGs, differentially expressed genes.

Figure11. enrichGO_gseaplot
Each line representing one particular gene set with unique color and the display limit is 5. Only gene sets with FDR q < 0.05 were considered significant.

Figure12.enrichGO_ ridgeplot.
Grouped by gene set, density plots are generated by using the frequency of fold change values per gene within each set.

Figure13. enrichKEGG_ridgeplot.
Grouped by gene set, density plots are generated by using the frequency of fold change values per gene within each set.

Figure14. enrichKEGG_gseaplot
Each line representing one particular gene set with unique color and the display limit is 5. Only gene sets with FDR q < 0.05 were considered significant.

Table 1. smallprotein_results

ID: the small protein gene names
LogFC: estimate of the log2-fold-change corresponding to the contrast(case vs control)
AveExpr: average log2-expression for the sample
t: moderated t-statistic
P.Value: raw p-value
B: log-odds that the gene is differentially expressed

Table 2. GO_results

ONTOLOGY: Three categories of functions subordinate to GO (MF: molecular function, CC: cellular component, BP: biological process)
ID: enriched GO terms
Description: GO function description
GeneRatio: The ratio of the number of genes annotated to the corresponding GO to the total number of genes with GO annotations
BgRatio: The ratio of the number of genes related to the Term among all (bg) genes to all (bg) genes.
pvalue: statistically significant level of enrichment analysis, under normal circumstances, P-value <0.05 this function is an enrichment item
p.adjust: adjust corrected P-Value
qvalue: the q value for statistical testing of the p-value
geneID: the gene names annotated to the corresponding GO term
Cout: the number of genes annotated to the corresponding GO term

Table 3. KEGG_results

ID: enriched KEGG terms
Description: KEGG function description
GeneRatio: The ratio of the number of genes annotated to the corresponding KEGG to the total number of genes with KEGG annotations
BgRatio: The ratio of the number of genes related to the Term among all (bg) genes to all (bg) genes.
pvalue: statistically significant level of enrichment analysis, under normal circumstances, P-value <0.05 this function is an enrichment item
p.adjust: adjust corrected P-Value
qvalue: the q value for statistical testing of the p-value
geneID: the gene names annotated to the corresponding KEGG term
Cout: the number of genes annotated to the corresponding KEGG term

4.phenodata.csv

AIGC视觉生成革命：文生图、图生图与视频生成垂直模型发展全景报告（2025） Liudef06小白 AIGC 人工智能 AI作画语言模型
一、引言：从实验工具到产业引擎的跃迁人工智能生成内容（AIGC）技术正经历从文本向多模态的范式转移。2023-2025年间，文生图、图生图与视频生成垂直模型逐步跨越技术奇点，从实验室玩具进化为工业化生产力工具。这一进程的核心驱动力在于架构创新、数据优化与场景深耕的三重突破：扩散模型与Transformer的融合催生了更高保真度的图像生成；十亿级多模态数据训练解决了复杂语义理解难题；而面向影视、电商
python笔记-Selenium谷歌浏览器驱动下载 hero.zhong python 笔记 selenium
Selenium谷歌浏览器驱动下载地址：https://googlechromelabs.github.io/chrome-for-testing/#stable下面是遇到的问题：python网络爬虫技术中使用谷歌浏览器代码，报错：OSError:[WinError193]%1不是有效的Win32应用程序：遇到错误OSError:[WinError193]%1不是有效的Win32应用程序通常意味着
网络编程底层通信（socket） En^_^Joy python应用网络 python
文章目录一、socket函数介绍二、TCP/IP服务端/客户端三、UDP/IP服务端/客户端四、多线程服务器（threading）五、网络编程常见问题（地址复用、粘包、数据长度）网络编程指通过计算机网络实现程序间通信的技术。Python提供了丰富的库支持各种网络协议和编程模式套接字是网络通信的基本操作单元，是应用层与TCP/IP协议族通信的中间软件抽象层。它提供了一组接口，允许不同主机或同一主机的
[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
python unicode汉字转成各种进制，以及进制互相转换丧尽天良的良！ python python
例如，汉字：“五”的unicode编码为：4e94，使用二进制的结果为：100111010010100，转换为十进制是：20116对应转换如下：
Python办公—Excel嵌入图片提取&重命名(包含重复图片) 小庄-Python办公 Python办公自动化 python excel Excel图片获取 Excel批量获取嵌入图片 Excel嵌入图片
目录专栏导读背景解决方案1、背景介绍2、库的介绍①：openpyxl3、库的安装4、核心代码5、完整代码总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础专栏：请点击—
Python 是如何执行我的代码的？冰糖心书房 Python python java linux
理解Python如何执行你的代码，可以帮助我们解释很多“为什么”——为什么会有.pyc文件？为什么Python相对较慢？多线程为什么不能利用多核？我们可以用一个“厨师做菜”的比喻来理解整个过程，然后再深入技术细节。一、比喻：厨师（Python）根据菜谱（你的代码）做菜想象一下，你是一位顾客，写了一份非常精确的菜谱（你的.py文件）交给一位名叫CPython的大厨（最常见的Python解释器）。第一
探索Cachier：Python函数的持久化缓存利器胡同琥Randolph
探索Cachier：Python函数的持久化缓存利器cachierPersistent,stale-free,localandcross-machinecachingforPythonfunctions.项目地址:https://gitcode.com/gh_mirrors/ca/cachier在Python开发的世界中，性能优化和资源管理是永恒的话题。今天，我们要介绍的是一个强大的开源项目——C
Pyramda：Python 中的函数式编程利器惠悦颖
Pyramda：Python中的函数式编程利器pyramdaPythonpackagesupportingheavyfunctionalprogrammingthroughcurrying.TranslationoftheRamdalibraryfromjavascripttopython.项目地址:https://gitcode.com/gh_mirrors/py/pyramdaPyramda是
[特殊字符] Excel 读取收件人 + Outlook 批量发送带附件邮件 —— Python 自动化实战 happydog007 python自动化办公 excel outlook python
许多公司定期需要将不同部门或客户的报告发送给指定人员。手动操作容易出错、耗时且繁琐。今天这篇文章教你如何利用Python实现：从Excel中读取“收件人+抄送人+附件文件路径”；使用win32com.client调用Outlook自动生成并发送邮件；✅附加模板正文，并保持批量发送规范无需手工操作。从Excel中读取部门、收件人与附件路径fromopenpyxlimportload_workbook
[特殊字符] Python 实战 | 批量统计中文文档词频并导出 Excel happydog007 python自动化办公 python 开发语言
本文展示如何用Python脚本：批量读取文件夹中的多篇中文文档；用jieba分词并统计词频（过滤停用词与单字符）；将各文档词频输出为对应Excel文件；是文本分析、内容审查、报告编写中的实用技巧。Step1：批量加载文件夹中文本文件路径importospath='主要业务'files=[os.path.join(path,f)forfinos.listdir(path)]使用标准库os.listd
探索开源虚拟 Excel 函数模块：Python 中的 Excel 功能利器
在数据处理和分析的领域中，Excel一直是一款备受青睐的工具，它提供了丰富多样的函数，帮助用户高效地完成各种数据操作。而现在，我（董翔）开发一个基于Python的虚拟Excel函数模块，它将Excel的强大功能带到了Python的世界里，让你在Python环境中也能轻松使用类似Excel的函数。这个模块我已经在GitHub上发布，项目链接为：https://github.com/dxiang-wi
深度 |AI高质量数据集交易爆发式增长数智前沿数字化转型人工智能数据集
AI产业从通用模型向行业垂直应用快速融合下沉的阶段演进，人工智能三大基本要素之一数据，面临的高质量数据不足问题却凸显。财联社记者最新从业内获悉，目前各大模型企业迫切希望获得更多更好的高质量数据集，需求集中于头部企业行业知识底座构建，人工智能高质量数据集的需求量、交易量激增，已成为数据流通最活跃的领域。不过，高质量数据集的建设、流通环节均面临诸多问题，目前数据交易所并非模型语料最主要的采购途径。需求
轻量化分布式AGI架构：基于区块链构建终端神经元节点的互联网智脑探客木木夕分布式 agi 人工智能架构区块链
在2025年的技术发展背景下，轻量化分布式AGI架构正成为人工智能领域的重要突破方向。通过将终端设备转化为神经元节点，结合区块链技术构建去中心化的互联网智脑，不仅能够突破传统AGI开发的算力瓶颈，还能实现数据安全共享与价值分配。**这一架构将重塑人工智能的发展范式，使AGI能力从中心化实验室扩散至全球终端设备网络，最终形成一个去中心化、自演进、高可用的互联网级智能系统**。研究显示，通过知识密度提
写测试太烦？Copilot + Jest 让你 3 分钟搞定单元测试
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
60天python训练营打卡day46
学习目标：60天python训练营打卡学习内容：DAY46通道注意力(SE注意力)知识点回顾：1.不同CNN层的特征图：不同通道的特征图2.什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。3.通道注意力：模型的定义和插入的位置4.通道注意力后的特征图和热力图学习时间：2025.06.29@浙大疏锦行
如何在YashanDB中实现数据趋势预测数据库
数据趋势预测已成为数据驱动决策中的一个重要方面。在面临海量数据时，如何精确而高效地提取潜在趋势，对于企业的战略规划具有重要意义。YashanDB作为一款高性能的数据库产品，提供多种存储和查询优化功能，使得实现数据趋势预测成为可能。特别是在数据存储结构和多版本并发控制（MVCC）等特性下，趋势预测的场景应用可以得到有效支持。数据分析基础在进行数据趋势预测之前，首先必须了解基础的数据分析过程。Yash
python规划 t_hj python
-----------动态内容与反爬策略----------动态页面处理Selenium：自动化浏览器（点击、滚动、表单提交）Playwright（更现代的替代方案）API逆向工程分析Ajax请求（ChromeDevTools）直接调用API接口（如知乎热榜API）反爬应对User-Agent轮换、IP代理（免费/付费代理池）验证码处理（简单验证码用OCR，复杂验证码需打码平台）请求频率控制（ti
Python 训练营打卡 Day 46 2401_86382089 Python打卡 python
通道注意力一、什么是注意力注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。transformer中的叫做自注意力机制，他是一种自己学习自己的机制，他可以自动学习到图片中的主体，并忽略背景。我们现在说的很多模块，比如通道注意力、空间注意力、通道注意力等等，都是基于自注意力机制的。从数学角度看，注意力机制是对输入特征进行加权求
Python训练营打卡 Day53 yunvwugua__ python自学打卡 python 开发语言
对抗生成网络知识点回顾：对抗生成网络的思想：关注损失从何而来生成器、判别器nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法leakyReLU介绍：避免relu的神经元失活现象对抗生成网络（GAN）知识点回顾对抗生成网络的思想思想：就像在餐厅中，有一个厨师（生成器）负责制作假菜，一个评论家（判别器）负责区分真菜和假菜。厨师的目标是制作出评论家无法区分的假菜，而评论家的目标是找
华为OD机试 2025B卷 - 货币单位转换(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD机试华为OD机试2025B卷华为OD2025B卷华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述记账本上记录了若干条多国货币金额，需要转换成人民币分（fen），汇总后输出。每行记录一条金额，金额带有货币单位，格式为数字+单位，可能是单独元，或者单独分，或者元与分的组合。要求将这些货币全部换算成人民币分（fen）后进行汇总，汇总结果仅保留整数，小数部分舍弃。元和分的换算关系都是
Python 训练营打卡 Day 50 2401_86382089 Python打卡 python
预训练模型CBAM注意力现在我们思考下，是否可以对于预训练模型增加模块来优化其效果，这里我们会遇到一个问题：预训练模型的结构和权重是固定的，如果修改其中的模型结构，是否会大幅影响其性能。其次是训练的时候如何训练才可以更好的避免破坏原有的特征提取器的参数。所以今天的内容，我们需要回答2个问题。resnet18中如何插入cbam模块？采用什么样的预训练策略，能够更好的提高效率？可以很明显的想到，如果是
Python训练营打卡 Day50
预训练模型+CBAM模块知识点回顾：resnet结构解析CBAM放置位置的思考针对预训练模型的训练策略差异化学习率三阶段微调预训练模型+CBAM模块知识点回顾ResNet结构解析残差块：ResNet的核心是残差块，它通过残差连接解决了深层网络的梯度消失问题。残差块允许梯度直接传播到后面的层，从而使得网络能够训练得更深。网络结构：ResNet由多个残差块组成，每个残差块包含两个或三个卷积层，以及一个
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
Python爬虫实战：研究chardet库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 chardet
1.引言1.1研究背景与意义在互联网信息爆炸的时代，网络数据采集技术已成为信息获取、数据分析和知识发现的重要手段。Python作为一种高效的编程语言，凭借其丰富的第三方库和简洁的语法，成为爬虫开发的首选语言之一。然而，在网络数据采集中，文本编码的多样性和不确定性一直是困扰开发者的主要问题之一。不同网站可能采用不同的编码方式（如UTF-8、GBK、GB2312等），甚至同一网站的不同页面也可能使用不
开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
Kafka-python 核心 API 深度解析：BrokerConnection 与 ClusterMetadata 的全方位指南佑瞻 python工程化 kafka python 分布式
在Kafka应用开发中，我们时常会面临连接管理混乱、元数据获取不及时等问题，这些问题的根源往往在于对底层API的理解不够深入。今天我们将聚焦kafka-python客户端中两个核心类——BrokerConnection和ClusterMetadata，通过剖析其核心功能与应用场景，帮助大家建立系统化的Kafka连接与元数据管理知识体系。BrokerConnection：Kafka连接管理的中枢神经
KafkaAdminClient 技术详解：Python 操作 Kafka 集群的管理接口佑瞻 python工程化 python kafka
一、KafkaAdminClient基础概念KafkaAdminClient是kafka-python客户端提供的集群管理类，用于通过编程方式管理Kafka集群资源。其核心定位是为开发者提供一套标准化接口，实现对主题、分区、ACL、消费者组等资源的全生命周期管理。核心特性说明：接口定位：专门用于集群资源管理，区别于KafkaConsumer/KafkaProducer的数据读写功能版本要求：要求B
Python日志模块
Python日志模块学习教程：b站王铭东老师Python中logging模块能够完成相关信息的记录，在debug时使用它事半功倍一、模块介绍日志级别DEBUG、INFO、WARNING、ERROR、CRITICAL默认是WARNING，当在WARNING或其之上时才被跟踪日志格式logging.basicConfig函数中，可以指定日志的输出格式format，这个参数可以输出很多有用的信息一般使用
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持