Nuvolar

在Windows下完成ChIP-Seq分析

纯粹就是记录下如何在Window下完成ChIP-Seq,并没有详细讲解ChIP-Seq的原理和每一步背后的含义。想深入了解可以翻生信技能树，生信宝典，组学大讲堂等等公众号。本文里的命令都是用(powershell or cmd, 部分需要cygwin64) 和 R脚本。
本文参考文章
Genome‑wide discovery of OsHOX24‑binding sites and regulation
of desiccation stress response in rice

工具准备

conda （需要添加到环境变量, 这里用的是3.8，miniconda 就可以了）Windows 10下安装Miniconda3
perl5 (需要添加到环境变量, 我装的草莓版的)windows环境安装Perl
java (需要添加到环境变量)[JAVA(windows)安装教程]
R Windows下安装R的详细教程
SRA Toolkit (需要添加到环境变量，仅用于将sra文件转为fastq)下载地址
bowtie2 (需要添加到环境变量，最新版的还没被编译到windows平台，这里用的是2.3.4版本，名字含mingw的zip就可以。运行bowtie2需要perl在环境变量中)下载地址
Trimmomatic (用来去reads的接头，需要java)下载地址
samtools (需要添加到环境变量，这个是1.3.1版本。原作者Li Heng 写过能用mingw/msy2编译的makefile文件，但在最新版的1.13版的编译中总是报错，所以找了个旧的支持windows的版本)[下载地址]
FastQC windows 安装 fastqc; fastqc
IGV 简单介绍IGV软件的安装和使用
cygwin64 (用于跑HOMER，在安装过程中需要选装gcc-core gcc-g++ make zip unzip wget ,gcc 建议装低版本，不然编译HOMER过程会有奇怪的问题) Windows：安装cygwin教程
HOMER 我是参考了[软件使用 2] HOMER安装和使用攻略，如何获取Motif?
。在官网下载configureHomer.pl，然后在cygwin终端就是用perl configureHomer.pl -install 进行安装，会安装在configureHomer.pl所在的文件夹，安装好后记得要把该目录下bin文件夹加入环境变量，并在cygwin的配置文件夹（一般就是\cygwin64\home\user\）下找到.bash_profile，在最后加上PATH=$PATH:/cygdrive/d/wgc_tools/HOMER/.//bin/(d/wgc_tools/HOMER/就是安装HOMER的位置)。成功安装如下图，如果有报错就把gcc调低个版本，在把-install 换成-make，这样就不用重新下载了。

bedtools (需要添加到环境变量) 这个软件官方也是没有能直接在windows下运行的文件，但我在Unipro UGENE的tools里找到了2.29.2版本的exe文件。安装好Unipro UGENE能在其tools文件夹下找到。Unipro UGENE
python 包：
multiqc install
macs2.2.7.1 需要先用conda install libpython m2w64-toolchain -c msys2 装一些库，下载source code，解压后找到PeakDetect.pyx文件，把145-148行改成下图。

在有setup.py文件为文件夹用

pip install -e .

命令就能安装了。我这里只是用了callpeak 命令没有问题，其他的还没试过。
R包：
ChIPseeker
clusterProfiler
DiffBind
ChIPQC

数据下载

文献中有项目号：GSE144419。可以直接在GEO里找到数据下载。我这下的是SRA文件，就快一点。可以看到作者的实验设计是过表达和野生型分别在正常和干旱胁迫做ChIP，两个重复。我发现重复间的文件大小差的有点大，估计是这个重复做的不太行。

用fastq-dump 转成fastq格式

在powershell 键入命令

#sra to fastq.gz
cd F:\chip-seq\ #存SRR的文件夹
for($x=45;$x -lt 61;$x=$x+1)
{
#--split-3 用于双端测序 --gzip 输出结果为fastq.gz格式比较省空间，缺点是比对过程会慢些
fastq-dump --split-3 --gzip SRR109821$x
rm SRR109821$x
}

数据分析

FastQC

这里用FastQC和multiqc 来查看reads质量。multiqc 能把FastQC的结果汇总，更好看点。

#fastqc
mkdir ./output/fastqc #存放fastqc结果
for($x=45;$x -lt 61;$x=$x+1)
{
perl D:\RNA-Seq_tools\FastQC\fastqc -t 4 SRR109821${x}_1.fastq.gz -q -o .\output\fastqc
perl D:\RNA-Seq_tools\FastQC\fastqc -t 4 SRR109821${x}_2.fastq.gz -q -o .\output\fastqc
###不知道为啥这个循环里的fastqc 是并行的，为了避免一次占太多线程，这个用了下sleep
sleep -s 150 #隔2.5分钟跑下一个
}

multiqc ./output/fastqc/*fastqc.zip -o ./output/fastqc --export # summary report

可以看到56号这个样本质量比较差。

Trimmomatic

Trimmomatic是比较常用质控软件。质控后清除没用的文件，省点空间。
Trimmomatic参数参考

mkdir ./output/clean #存放质控后的fastq
for($x=45;$x -lt 61;$x=$x+1)
{
#存放trimmomatic的位置
java -jar "D:/RNA-Seq_tools/Trimmomatic-0.39/trimmomatic-0.39.jar" PE -threads 16 -phred33 -trimlog ./output/log/SRR109821${x}_trim.log SRR109821${x}_1.fastq.gz SRR109821${x}_2.fastq.gz ./output/clean/SRR109821${x}_R1.clean.fastq.gz ./output/clean/SRR109821${x}_R1.unpaired.fastq.gz ./output/clean/SRR109821${x}_R2.clean.fastq.gz ./output/clean/SRR109821${x}_R2.unpaired.fastq.gz ILLUMINACLIP:Merged.Adapter.fa:2:30:10:8:true SLIDINGWINDOW:4:15 LEADING:3 TRAILING:3 MINLEN:36
}
rm ./output/log/*_trim.log #clean trim log
rm SRR109821*.fastq.gz #clean ori fastq 
rm ./output/clean/*.unpaired.fastq.gz #clean unpaired fastq

bowtie2 alignment

bowtie2 比对快一点，16个样本差不多用了15个小时。

#bulit index
mkdir .\output\ref #放引索
mkdir .\output\log 
bowtie2-build E:\IRGSP-1.0_representative\referent_fasta\all.chrs.fasta output/ref/ref >> output/log/bowtie2.log 
samtools faidx E:\IRGSP-1.0_representative\referent_fasta\all.chrs.fasta >> output/log/samtools.log

#alignment
mkdir ./output/bam #放bam
for($x=45;$x -lt 61;$x=$x+1)
{
bowtie2 -p 6 -x output/ref/ref -1 ./output/clean/SRR109821${x}_R1.clean.fastq.gz -2 ./output/clean/SRR109821${x}_R2.clean.fastq.gz -S ./output/bam/SRR109821${x}.sam >> ./output/log/alignment.log 2>&1 
samtools fixmate -O bam ./output/bam/SRR109821${x}.sam ./output/bam/SRR109821${x}_fixmate.bam
rm ./output/bam/SRR109821${x}.sam
# 排序
samtools sort -@ 6 -O bam -m 1G -o ./output/bam/SRR109821${x}_sort.bam ./output/bam/SRR109821${x}_fixmate.bam 
rm ./output/bam/SRR109821${x}_fixmate.bam
# 去掉重复reads
samtools rmdup -sS ./output/bam/SRR109821${x}_sort.bam ./output/bam/SRR109821${x}_rmdup.bam 
rm ./output/bam/SRR109821${x}_sort.bamg
# 去掉质量低reads
samtools view -@ 6 -b -q 1 -o ./output/bam/SRR109821${x}.bam ./output/bam/SRR109821${x}_rmdup.bam
rm ./output/bam/SRR109821${x}_rmdup.bam
# bam 构建引索
samtools index ./output/bam/SRR109821${x}.bam ./output/bam/SRR109821${x}.bam.bai
}

得到bam可以直接用IGV查看。可以用自己的参考序列，这里我用的MSU下载到的染色体序列，也支持输入多个bam。ChIP-Seq的结果是能直接看到差异的peaks。

call peaks

这一步还是有很多选择的，最经常维护的是HOMER和macs2，主流就是用macs2，但我用HOMER发现得到的peaks少太多了。并且不同参数会对产生大的结果，并不是默认参数就是最好的，如果对你的蛋白和实验越了解，得到的结果越准确。文献中用的是macs2，这里用的是文献给的参数(其实就是软件默认值)。这里得到的结果发现重复样品peaks数差异很大，应该就是测序或取样没弄好。

HOMER

用HOMER 来call peaks 输入文件是sam格式和makeTagDirectory，findPeaks。由于HOMER安装好后会生成这两个软件的exe执行文件所以可以在powershell里调用。

mkdir ./output/callpeakHOMER

for($x=45;$x -lt 61;$x=$x+1)
{
mkdir ./output/callpeakHOMER/SRR109821${x} #存放makeTagDirectory
###生成sam文件
samtools view -h -o ./output/bam/SRR109821${x}.sam ./output/bam/SRR109821${x}.bam
###call peaks 预处理 前一个是目标文件夹，后一个是输入的sam文件，由于是去重的reads，所有可以--keepAll
makeTagDirectory ./output/callpeakHOMER/SRR109821${x} ./output/bam/SRR109821${x}.sam -format sam -sspe --keepAll >> ./output/log/callpeakHOMER.log 2>&1
sleep -s 150
rm ./output/bam/SRR109821${x}.sam
}
###-style factor 是类型，一共是7种，还有组蛋白，增强子，启动子，具体可以看官方文档 -i 是对照样本的文件夹，得到差异的peaks，也可以不加，就是得到所有的peaks。
###得到的结果是narrowPeaks格式，可以用HOMER自带脚本转成bed格式
for($x=45;$x -lt 61;$x=$x+4)
{
$y=$x+2
$m=$x+1
$n=$x+3
findPeaks ./output/callpeakHOMER/SRR109821${x} -i ./output/callpeakHOMER/SRR109821${y} -style factor -o ./output/callpeakHOMER/SRR109821_${x}_${y}.txt >> ./output/log/callpeakHOMER.log 2>&1
perl D:/wgc_tools/HOMER/bin/pos2bed.pl ./output/callpeakHOMER/SRR109821_${x}_${y}.txt > ./output/callpeakHOMER/SRR109821_${x}_${y}.bed 
findPeaks ./output/callpeakHOMER/SRR109821${x} -style factor -o ./output/callpeakHOMER/SRR109821_${x}.txt >> ./output/log/callpeakHOMER.log 2>&1
perl D:/wgc_tools/HOMER/bin/pos2bed.pl ./output/callpeakHOMER/SRR109821_${x}.txt > ./output/callpeakHOMER/SRR109821_${x}.bed 
findPeaks ./output/callpeakHOMER/SRR109821${y} -style factor -o ./output/callpeakHOMER/SRR109821_${y}.txt >> ./output/log/callpeakHOMER.log 2>&1
perl D:/wgc_tools/HOMER/bin/pos2bed.pl ./output/callpeakHOMER/SRR109821_${y}.txt > ./output/callpeakHOMER/SRR109821_${y}.bed 
findPeaks ./output/callpeakHOMER/SRR109821${m} -i ./output/callpeakHOMER/SRR109821${n} -style factor -o ./output/callpeakHOMER/SRR109821_${m}_${n}.txt >> ./output/log/callpeakHOMER.log 2>&1
perl D:/wgc_tools/HOMER/bin/pos2bed.pl ./output/callpeakHOMER/SRR109821_${m}_${n}.txt > ./output/callpeakHOMER/SRR109821_${m}_${n}.bed 
findPeaks ./output/callpeakHOMER/SRR109821${m} -style factor -o ./output/callpeakHOMER/SRR109821_${m}.txt >> ./output/log/callpeakHOMER.log 2>&1
perl D:/wgc_tools/HOMER/bin/pos2bed.pl ./output/callpeakHOMER/SRR109821_${m}.txt > ./output/callpeakHOMER/SRR109821_${m}.bed 
findPeaks ./output/callpeakHOMER/SRR109821${n} -style factor -o ./output/callpeakHOMER/SRR109821_${n}.txt >> ./output/log/callpeakHOMER.log 2>&1
perl D:/wgc_tools/HOMER/bin/pos2bed.pl ./output/callpeakHOMER/SRR109821_${n}.txt > ./output/callpeakHOMER/SRR109821_${n}.bed 
}

macs2

###-f 是输入文件格式 BAMPE 双端的BAM文件；-g是基因组大小，水稻大概是3.9e8 -t 是treat 样本; -c是对照样本
### 其他有关模型的参数可以看用户手册，这玩意儿有点复制
for($x=45;$x -lt 61;$x=$x+4)
{
$y=$x+2
python C:/ProgramData/Miniconda3/envs/ngs/Scripts/macs2 callpeak -f BAMPE -g 3.9e8 -q 1e-5 -m 5 50 --bw 300 --keep-dup all -B --outdir ./output/callpeakmacs2 -n SRR109821_${x}_${y} -t ./output/bam/SRR109821${x}.bam -c ./output/bam/SRR109821${y}.bam >> ./output/log/macs2.log 2>&1 
}

for($x=46;$x -lt 61;$x=$x+4)
{
$y=$x+2
python C:/ProgramData/Miniconda3/envs/ngs/Scripts/macs2 callpeak -f BAMPE -g 3.9e8 -q 1e-5 -m 5 50 --bw 300 --keep-dup all -B --outdir ./output/callpeakmacs2 -n SRR109821_${x}_${y} -t ./output/bam/SRR109821${x}.bam -c ./output/bam/SRR109821${y}.bam >> ./output/log/macs2.log 2>&1 
}

主要重要的结果就是narrowPeak和bed文件，用于后续分析。

重复样本 overlapping 鉴定

文献中用的是bedops来鉴定重复样品中的overlapping peaks，但windows装不上。这里参考了第6篇：重复样本的处理——IDR
用bedtools的代码

mkdir ./output/bedtools/ #输出文件夹
# -wo 是输出overlap -a 是第一个bed文件 -b 是第二或更多的bed文件 narrowpeak文件也是可以的
for($x=45;$x -lt 61;$x=$x+4)
{
## 顺带按文献中定义修改个名字
if($x -eq 45){$name="WT-CT"}
if($x -eq 49){$name="H49-CT"}
if($x -eq 53){$name="WT-DS"}
if($x -eq 57){$name="H49-DS"}
$y=$x+2
$m=$x+1
$n=$x+3
bedtools intersect -wo -a ./output/callpeakmacs2/SRR109821_${x}_${y}_peaks.narrowPeak -b ./output/callpeakmacs2/SRR109821_${m}_${n}_peaks.narrowPeak >./output/bedtools/$name.bed
}

用idr
使用IDR需要先对MACS2的结果文件narrowPeak根据-log10(p-value)进行排序。用excel 对narrowPeak文件的第八列按大到小排序就可以了。

mkdir ./output/idr/ #放结果文件
for($x=45;$x -lt 61;$x=$x+4)
{
if($x -eq 45){$name="WT-CT"}
if($x -eq 49){$name="H49-CT"}
if($x -eq 53){$name="WT-DS"}
if($x -eq 57){$name="H49-DS"}
$y=$x+2
$m=$x+1
$n=$x+3
python C:/ProgramData/Miniconda3/envs/ngs/Scripts/idr --input-file-type narrowPeak --rank p.value --plot --output-file-type bed --log-output-file ./output/log/$name.idr.log --output-file ./output/idr/$name_peaks.narrowPeak --samples ./output/idr/SRR109821_${x}_${y}_peaks.narrowPeak ./output/idr/SRR109821_${m}_${n}_peaks.narrowPeak
}

用idr得到的peaks会比bedtools的少一些，但基本一致。

Peaks Annotation

这里主流的软件就是HOMER和ChIPseeker，文献里用的是HOMER，这里都介绍下。

HOMER

HOMER可以用来找peaks附近的genes和查找motifs。但这里要在cygwin终端里跑。

cd /cygdrive/f/chip-seq/ #chiq-seq文件位置
### 注释 这里用的是自己的参考基因组序列和注释文件(-gff3) 因为HOMER自带的注释文件和运行不了
mkdir ./output/annotateHOMER/ #结果存放
annotatePeaks.pl ./output/idr/WT-CT.bed E:/IRGSP-1.0_representative/referent_fasta/all.chrs.fasta -gff3 E:/IRGSP-1.0_representative/all.gff3 > ./output/annotateHOMER/WT-CT.annotation
annotatePeaks.pl ./output/idr/H49-CT.bed E:/IRGSP-1.0_representative/referent_fasta/all.chrs.fasta -gff3 E:/IRGSP-1.0_representative/all.gff3 > ./output/annotateHOMER/H49-CT.annotation
annotatePeaks.pl ./output/idr/WT-DS.bed E:/IRGSP-1.0_representative/referent_fasta/all.chrs.fasta -gff3 E:/IRGSP-1.0_representative/all.gff3 > ./output/annotateHOMER/WT-DS.annotation
annotatePeaks.pl ./output/idr/H49-DS.bed E:/IRGSP-1.0_representative/referent_fasta/all.chrs.fasta -gff3 E:/IRGSP-1.0_representative/all.gff3 > ./output/annotateHOMER/H49-DS.annotation

###findMotifs 这里只是示范下，因为findMotifsGenome这个脚本运行不了 rice.IRGSP-1.0 是HOMER 的参考序列
mkdir ./output/MotifsHOMER_H49-CT/
perl D:/wgc_tools/HOMER/bin/findMotifsGenome.pl ./output/idr/H49-CT.bed rice.IRGSP-1.0 ./output/MotifsHOMER_H49-CT/ -size 100 -keepFiles

虽然findMotifs运行不了，但找motifis是件很容易的事儿。narrowpeak文件前三列分别是Chr，start，end。可以用TBtools上的Fasta Extract SubSeq功能提取peaks的序列，然后再用MEME Wrapper就能搞定。

ChIPseeker

ChIPseeker 的功能比HOMER全，而且能注释到更多信息。ChIPseeker 需要用到txdb文件，也就是所有的转录本序列，但Bioc目前还没有水稻的序列和注释文件需要自己构造。

### r script
library("GenomicFeatures")
library("biomaRt")
listMarts()
listMarts(host = "http://plants.ensembl.org")
mart<-useMart(biomart = "plants_mart",host = "http://plants.ensembl.org")
datasets <- listDatasets(mart)
datasets$dataset #显示已有的物种
## rice
# 构造水稻的txdb文件，由于是在线下载，网速不好会下的比较慢，慢，慢
rice_txdb <- makeTxDbFromBiomart(biomart = "plants_mart",dataset = "osativa_eg_gene",host = "http://plants.ensembl.org") 
saveDb(rice_txdb, file="E:/简书/Chip-seq/rice_2021_10.sqlite") #保存txdb文件

文件准备

### r script
library(ChIPseeker)
library(GenomicFeatures)
library(UpSetR)
rice_txdb <- loadDb("E:/简书/Chip-seq/rice_2021_10.sqlite") #调用你建好的txdb对象
# 下载对应的注释文件(gff3)来构建annoDb，要不然可能会报错，在http://plants.ensembl.org里下
rice_anno_txdb <- makeTxDbFromGFF("E:/IRGSP-1.0_representative/Oryza_sativa.IRGSP-1.0.51.gff3.gz") 
#bed 文件中chromsome ID 要和注释文件的一致 
dir <- "F:/chip-seq/output/idr/"
bed_file <- c("WT-CT","H49-CT","WT-DS","H49-DS")
tail <- "bed"
### 去掉bed文件中的 Chr
bed_rebulid <- function(filename,str){
    sample <-read.table(paste0(dir,filename,".",tail),sep = "\n")
    test <- data.frame(gsub(str,"",sample$V1))
    write.table(test,file=paste0(dir,filename,"_rebulid",".",tail), row.names = FALSE, col.names =FALSE, quote =FALSE)
}
lapply(bed_file, bed_rebulid,str="Chr")

Chip peaks coverage plot，peaks在染色体上的分布。这里是peaks太少了，看起来不是很好看。

### r script
#读取bed文件
WT_CT <- readPeakFile(paste0(dir,bed_file[1],"_rebulid",".",tail))
H49_CT <- readPeakFile(paste0(dir,bed_file[2],"_rebulid",".",tail))
WT_DS <- readPeakFile(paste0(dir,bed_file[3],"_rebulid",".",tail))
H49_DS <- readPeakFile(paste0(dir,bed_file[4],"_rebulid",".",tail))
list_peak <- list(WT_CT,H49_CT,WT_DS,H49_DS)
#covplot
covplot(WT_CT,title="WT-CT")
covplot(H49_CT,title="H49-CT")
covplot(WT_DS,title="WT-DS")
covplot(H49_DS,title="H49-DS")

Heatmap of ChIP binding to TSS regions 这个可以看蛋白和启动子结合强度。WT-DS对启动子结合强度更高。启动子其实没有具体定义一定是多少kb以内，这里设的是上下游3kb。

### r script
promoter <- getPromoters(TxDb=rice_txdb, upstream=3000, downstream=3000)
tagMatrix <- lapply(list_peak, getTagMatrix,windows=promoter)
tagHeatmap(tagMatrix,xlim = c(-3000,3000),color = "red") # Heatmap of ChIP binding to TSS regions
plotAvgProf(tagMatrix,xlim = c(-3000,3000),conf = 0.95) # Average Profile of ChIP binding to TSS region

annotatePeak 同样这里也把启动子设为上下游3kb。然后画出一些列的图。

### r script
peakAnnoList <- lapply(list_peak,annotatePeak,tssRegion=c(-3000, 3000),TxDb=rice_txdb, annoDb="rice_anno_txdb")
plotDistToTSS(peakAnnoList) #tss feature
plotAnnoBar(peakAnnoList) #peaks feature
for (i in 1:length(list_peak)) {
    plotAnnoPie(peakAnnoList[[i]]) 
    vennpie(peakAnnoList[[i]])
    write.table(data.frame(peakAnnoList[[i]]),file = paste0(dir,bed_file[i],"_anntation",".txt"),sep="\t", row.names = FALSE, col.names =TRUE, quote =FALSE) #output anntation
}
genes <- lapply(peakAnnoList, function(i) data.frame(i)$geneId)
names(genes) <- bed_file
genes <- fromList(genes)
upset(genes) #类似维恩图，但更直观，推荐这个这种展示方法。

KEGG&GO

富集分析的软件和网页工具太多了，但一定要选择还在维护的数据库。可以看看Y叔的推文不比不知道，我再也不敢用DAVID了
这里偷个懒，再用下Y叔的clusterProfiler包。

### r script
library(clusterProfiler)
###由于官方没有注释包 这里用下xu zhougen 做的水稻GO注释包
install.packages("https://github.com/xuzhougeng/org.Osativa.eg.db/releases/download/v0.01/org.Osativa.eg.db.tar.gz",repos = NULL,type="source")
library(org.Osativa.eg.db)
rice <- org.Osativa.eg.db
out_dir <- "F:/chip-seq/output/kegg&go/"
dir.create(out_dir)
#输入genelist 
dir <- "F:/chip-seq/output/idr/"
sample_file <- c("WT-CT","H49-CT","WT-DS","H49-DS")
tail <- "_anntation.txt"
peak_gene <- list()
peak_transcript <- list() #对应kegg 的"dosa",kegg 号
#由于文件中有5' UTR 的 ' 会被识别为边界，把quote 随便换个文件中没有的字符就可以了
for(i in 1:length(sample_file)){
    peak_gene[[i]] <- read.table(paste0(dir,sample_file[i],tail),sep="\t",quote = "~",header = T)$geneId
    peak_gene[[i]] <- peak_gene[[i]][!duplicated(peak_gene[[i]])] #去重
    peak_transcript[[i]] <- read.table(paste0(dir,sample_file[i],tail),sep="\t",quote = "~",header = T)$transcriptId
    peak_transcript[[i]] <- peak_transcript[[i]][!duplicated(peak_transcript[[i]])] #去重
}
names(peak_gene) <- sample_file
names(peak_transcript) <- sample_file

KEGG

### r script
## kegg中有注释的基因比较少,大概只有30多个基因有注释，就把p,q,padj 调的松一点
## showCategory 是画图时的通路数量
keggplot <- function(i,showCategory){
    kk <- enrichKEGG(peak_transcript[[i]],organism='dosa',keyType = 'kegg',                
                 pvalueCutoff=1, pAdjustMethod='none',                 
                 qvalueCutoff=1)
    print(barplot(kk,showCategory = showCategory,title = sample_file[i]))
    print(dotplot(kk,showCategory = showCategory,title = sample_file[i]))
    print(heatplot(kk,showCategory = showCategory))
    write.table(data.frame(kk@result),file = paste0(out_dir,sample_file[i],"_kegg",".txt"),sep="\t", row.names = FALSE, col.names =TRUE, quote =FALSE) #output 
}
lapply(1:length(sample_file), keggplot,showCategory=10)

### r script
goplot <- function(i,showCategory){
    ego.BP <- enrichGO(peak_gene[[1]],OrgDb = rice, keyType = "RAP", ont="BP",              
                 pvalueCutoff=1, pAdjustMethod='none',                 
                 qvalueCutoff=1)
    ego.CC <- enrichGO(peak_gene[[1]],OrgDb = rice, keyType = "RAP", ont="CC",              
                 pvalueCutoff=1, pAdjustMethod='none',                 
                 qvalueCutoff=1)
    ego.MF <- enrichGO(peak_gene[[1]],OrgDb = rice, keyType = "RAP", ont="MF",              
                 pvalueCutoff=1, pAdjustMethod='none',                 
                 qvalueCutoff=1)
    ego <- enrichGO(peak_gene[[i]],OrgDb = rice, keyType = "RAP", ont="ALL",              
                 pvalueCutoff=1, pAdjustMethod='none',                 
                 qvalueCutoff=1)
    write.table(data.frame(ego@result),file = paste0(out_dir,sample_file[i],"_go",".txt"),sep="\t", row.names = FALSE, col.names =TRUE, quote =FALSE) #output 
    print(barplot(ego.BP,showCategory = showCategory,title = paste0(sample_file[i],"_","BP")))
    print(dotplot(ego.BP,showCategory = showCategory,title = paste0(sample_file[i],"_","BP")))
    print(heatplot(ego.BP,showCategory = showCategory))
    print(plotGOgraph(ego.BP))
    print(barplot(ego.CC,showCategory = showCategory,title = paste0(sample_file[i],"_","CC")))
    print(dotplot(ego.CC,showCategory = showCategory,title = paste0(sample_file[i],"_","CC")))
    print(heatplot(ego.CC,showCategory = showCategory))
    print(plotGOgraph(ego.CC))
    print(barplot(ego.MF,showCategory = showCategory,title = paste0(sample_file[i],"_","MF")))
    print(dotplot(ego.MF,showCategory = showCategory,title = paste0(sample_file[i],"_","MF")))
    print(heatplot(ego.MF,showCategory = showCategory))
    print(plotGOgraph(ego.MF))
}
lapply(1:length(sample_file), goplot,showCategory=10)

其他工具

DiffBand

这是个得到重复样本差异peaks的R包，这个包是基于DESeq2和edgeR来得到差异peaks的。这个准备文件格式有点复杂。建议看看官方文档。

### r script
library(DESeq2)
library(edgeR)
library(spiky)
library(DiffBind)

out_dir <- "F:/chip-seq/output/DiffBind/"
dir.create(out_dir)

input_code <- c(47,48,51,52,55,56,59,60)

dir <- "F:/chip-seq/output/callpeakmacs2/"
bed_file <- paste0("SRR109821_",paste(input_code-2,input_code,sep = "_"))
tail <- "_peaks.narrowPeak"

move_file <- function(filename){
    file.copy(from = paste0(dir,filename,tail),to = paste0(out_dir,filename,tail))
}
lapply(bed_file, move_file)

sheettitle <-  c("SampleID","Tissue","Factor","Condition","Treatment","Replicate","bamReads","ControlID","bamControl","Peaks","PeakCaller")

sampleSheet <- list()

for (i in 1:length(sheettitle)) {
    sampleSheet[[i]] <- rep(NA,length(input_code))
}
names(sampleSheet) <- sheettitle
sampleSheet <- data.frame(sampleSheet)

### fill the info
sampleSheet$SampleID <- bed_file
sampleSheet$Tissue <- "seedlings"
sampleSheet$Factor <- "H49"
sampleSheet$Condition <- c(rep("CT",4),rep("DS",4))
sampleSheet$Treatment <- NA
sampleSheet$Replicate <- rep(c(1,2),4)
sampleSheet$bamReads <- paste0("F:/chip-seq/output/bam/SRR109821",input_code-2,".bam")
sampleSheet$ControlID <- paste0("SRR109821",input_code)
sampleSheet$bamControl <- paste0("F:/chip-seq/output/bam/SRR109821",input_code,".bam")
sampleSheet$Peaks <- paste0(out_dir,bed_file,tail)
sampleSheet$PeakCaller <- "narrow"

write.csv(sampleSheet,file = paste0(out_dir,"sampleSheet",".csv"), row.names = FALSE, quote =FALSE)

overlap peaksets

### r script
#BiocManager::valid()
dbObj <- dba(sampleSheet = paste0(out_dir,"sampleSheet",".csv"))
dbObj <- dba.count(dbObj, bUseSummarizeOverlaps=TRUE)
dba.plotPCA(dbObj,  attributes=DBA_FACTOR, label=DBA_ID)
plot(dbObj)

diff peaks

### r script
# Establishing a contrast 
dbObj <- dba.contrast(dbObj, categories=DBA_FACTOR,minMembers = 2)
dbObj <- dba.analyze(dbObj, method=DBA_ALL_METHODS)
#  summary of results
dba.show(dbObj, bContrasts=T)
#  overlapping peaks identified by the two different tools (DESeq2 and edgeR)
dba.plotVenn(dbObj,contrast=1,method=DBA_ALL_METHODS)

result output

### r script
comp1.edgeR <- dba.report(dbObj, method=DBA_EDGER, contrast = 1, th=1)
comp1.deseq <- dba.report(dbObj, method=DBA_DESEQ2, contrast = 1, th=1)
# EdgeR
out <- as.data.frame(comp1.edgeR)
write.table(out, file=paste0(out_dir,"edger",".txt"), sep="\t", quote=F, col.names = NA)
# DESeq2
out <- as.data.frame(comp1.deseq)
write.table(out, file=paste0(out_dir,"deseq2",".txt"), sep="\t", quote=F, col.names = NA)
# Create bed files for each keeping only significant peaks (p < 0.05)
# EdgeR
out <- as.data.frame(comp1.edgeR)
edge.bed <- out[ which(out$FDR < 0.05), 
                 c("seqnames", "start", "end", "strand", "Fold")]
write.table(edge.bed, file=paste0(out_dir,"edger",".bed"), sep="\t", quote=F, row.names=F, col.names=F)
# DESeq2
out <- as.data.frame(comp1.deseq)
deseq.bed <- out[ which(out$FDR < 0.05), 
                 c("seqnames", "start", "end", "strand", "Fold")]
write.table(deseq.bed, file=paste0(out_dir,"deseq2",".bed"), sep="\t", quote=F, row.names=F, col.names=F)

ChIPQC

这个包是和DiffBand类似的质控的R包，输入格式DiffBand的一样。最后结果能生成网页报告，更好看点，就是时间有点久。

library(BiocParallel)###PC run request
register(SerialParam())
library(ChIPQC)
library(GenomicRanges)
library(GenomicFeatures)

###构建ChIPQC能用的annotation 要和bam文件中的染色体号一致  这里图省事了就加了"Chr",用对应的gff3也可以构建
rice_txdb <- loadDb("E:/简书/Chip-seq/rice_2021_10.sqlite") #调用你建好的txdb对象
tem <- data.frame(genes(rice_txdb))

riceAnnotation <- list(version="rice")
for (i in 1:nrow(tem)) {
    riceAnnotation[[tem$gene_id[i]]] = GRanges(paste0("Chr",tem$seqnames[i]) ,IRanges(tem$start[i],tem$end[i]),tem$strand[i])
}

out_dir <- "F:/chip-seq/output/ChIPQC/"
dir.create(out_dir)

input_code <- c(47,48,51,52,55,56,59,60)

dir <- "F:/chip-seq/output/callpeakmacs2/"
bed_file <- paste0("SRR109821_",paste(input_code-2,input_code,sep = "_"))
tail <- "_peaks.narrowPeak"

move_file <- function(filename){
    file.copy(from = paste0(dir,filename,tail),to = paste0(out_dir,filename,tail))
}
lapply(bed_file, move_file)

sheettitle <-  c("SampleID","Tissue","Factor","Condition","Treatment","Replicate","bamReads","ControlID","bamControl","Peaks","PeakCaller")

sampleSheet <- list()

for (i in 1:length(sheettitle)) {
    sampleSheet[[i]] <- rep(NA,length(input_code))
}
names(sampleSheet) <- sheettitle
sampleSheet <- data.frame(sampleSheet)

### fill the info
sampleSheet$SampleID <- bed_file
sampleSheet$Tissue <- "seedlings"
sampleSheet$Factor <- "H49"
sampleSheet$Condition <- c(rep("CT",4),rep("DS",4))
sampleSheet$Treatment <- NA
sampleSheet$Replicate <- rep(c(1,2),4)
sampleSheet$bamReads <- paste0("F:/chip-seq/output/bam/SRR109821",input_code-2,".bam")
sampleSheet$ControlID <- paste0("SRR109821",input_code)
sampleSheet$bamControl <- paste0("F:/chip-seq/output/bam/SRR109821",input_code,".bam")
sampleSheet$Peaks <- paste0(out_dir,bed_file,tail)
sampleSheet$PeakCaller <- "narrow"

write.csv(sampleSheet,file = paste0(out_dir,"sampleSheet",".csv"), row.names = FALSE, quote =FALSE)
### peaks在的染色体
chrom <- c()
for (i in length(bed_file)) {
    chrom <- c(chrom,read.table(sampleSheet$Peaks[i],header = F,sep = "\t")$V1)
}
chrom <- chrom[!duplicated(chrom)]

Create ChIPQC object

###这一步会比较久
chipqc <- ChIPQC(sampleSheet,annotation = riceAnnotation,chromosomes = chrom)
ChIPQCreport(chipqc, reportName="ChIP QC report", reportFolder="ChIPQCreport")

最后

ChIP-seq 是个十分成熟的技术流程，但我目前还没看到有在windows环境下运行完整个流程的，于是这里就是做了下总结。写这个东西前前后后花了有十天的时间，本来还想写下ATAC-Seq在windows下的流程，也没啥兴趣了。ATAC-Seq和ChIP-seq在数据分析流程上区别不大，ATAC-Seq就是做的是转录因子。但有综述说macs2不适合用于ATAC-Seq的call peaks 步骤，并且HOMER call 出的质量还不如macs2。macs的作者也说macs2不适用于ATAC-Seq，但在macs3会更合适。这里推荐ATAC-Seq call peak用macs3 或HMMRATAC。只需这一步换一下真的其他就都一样了，并且ATAC-Seq是有专门的R包ATACseqQC。但这里有点小问题macs3目前还是测试版，windows下安装会有各种报错；HMMRATAC是用java运行，但目前来看维护不太及时，希望以后会好些。还有bam文件统计还有个常用的选择就是deeptools，但这个也装不上，因为这个包是依赖pysam的，pysam在windows环境也很难装。不过deeptools 能做到的图这里也基本有了。

总而言之，祝各位科研顺利！

推荐阅读

ChIP-seq基本分析流程
ChIP-seq 数据分析
ChIP-seq基础入门
Chip-seq处理流程
用ChIP-Seq公共数据探索组蛋白表观遗传修饰参与目标基因的调控情况
ChIP-seq实践（非转录因子，非组蛋白）
Epigenetics: Core misconcept
一文读懂 ChIPseq
测序数据基本信息统计 | reads,coverage,depth
对bam文件作基础统计
MACS2 安装与使用
第3篇：用MACS2软件call peaks
这个能是最棒的MACS2使用说明
使用MACS2进行差异peak分析
MACS
使用HOMER进行peak calling
flacs软件如何使用_[软件使用 2] HOMER安装和使用攻略，如何获取Motif?
使用homer进行peak注释
HOMER
第6篇：重复样本的处理——IDR
idr
植物chip-seq数据的可视化（Y叔的神器chip-seeker包）
第9篇：差异peaks分析——DiffBind
ATAC-Seq分析教程：用ChIPseeker对peaks进行注释和可视化
第5篇：对ATAC-Seq/ChIP-seq的质量评估（二）——ChIPQC
CHipQC在PC环境成功运行
From reads to insight: A hitchhiker’s guide to ATAC-seq data analysis
文献分享：从原始数据开始一步一步分析ATAC-seq
ATAC-Seq 数据分析（上）
果然全面：ATAC-seq分析流程综述全解

你可能感兴趣的:(windows,生物信息学)

阿里云个人博客外网访问中断应急指南：从安全组到日志的七步排查法云心雨禅云服务器操作教程阿里云安全云计算网络
1.检查安全组配置确认已开放外网访问的端口（如HTTP80或HTTPS443），包括入方向和出方向规则。操作指南：登录阿里云控制台→选择云服务器ECS→进入安全组配置→添加规则允许目标端口，授权对象设置为0.0.0.0/0。2.检查本地防火墙确保服务器防火墙未阻止外部流量。Windows环境：在防火墙高级设置中启用HTTP或HTTPS入站规则，或手动添加端口例外。Linux环境：运行sudoipt
Visual Studio Code 基本使用指南 The god of big data 教程神器？三叉戟？vscode ide 编辑器
VisualStudioCode（简称VSCode）是一款由微软开发的免费、开源、跨平台的代码编辑器，凭借其轻量级设计、丰富的插件生态和强大的功能，成为全球开发者的首选工具。本文将从安装配置到核心功能，全面解析VSCode的基本使用方法。一、安装与配置下载与安装访问VSCode官网下载对应操作系统的安装包（支持Windows、macOS、Linux）134。安装类型选择：UserInstaller
手机无线投屏到windows11电脑 HAPPY酷智能手机 windows 音视频媒体网络安全网络
1安装无线投影组件2电脑端打开允许其他设备投影的开关3手机找到投屏选项4手机搜索可用设备连接即可这里的官方文档给的不太好,给了一些让人眼花撩乱的信息,以下是经过整合的有效信息
OpenCV连续数字识别—可运行验证正冬升 OpenCV opencv 人工智能计算机视觉
前言文章开始，瞎说一点其他的东西，真的是很离谱，找了至少两三个小时，就一个简单的需求：1、利用OpenCV在Windows进行抓图2、利用OpenCV进行连续数字的检测。3、使用C++，Qt3、将检测的结果显示出来就这么简单的需求，结果网上找了各种版本硬是找不到,要是代码可能没啥问题，但是运行不了，你这运行不了，我怎么知道你到底能不能用，我代码调半天能用了，结果你跟我说最后效果不好，为啥呢？因为图
Win11及CUDA 12.1环境下PyTorch安装及避坑指南：深度学习开发者的福音郁云爽
Win11及CUDA12.1环境下PyTorch安装及避坑指南：深度学习开发者的福音【下载地址】Win11及CUDA12.1环境下PyTorch安装及避坑指南本资源文件旨在为在Windows11操作系统及CUDA12.1环境下安装PyTorch的用户提供详细的安装步骤及常见问题解决方案。无论你是初学者还是有经验的开发者，这份指南都将帮助你顺利完成PyTorch的安装，并避免常见的坑项目地址:htt
华为手机无线投屏到win10笔记本电脑程裕强华为手机 win10电脑无线投屏
1、win10笔记本电脑设置（1）开始菜单–>设置，进入Windows设置（2）单击“系统”，进入系统设置页面（3）选择投影到此电脑2、华为手机设置（1）与笔记本电脑在同一网络下（2）手机顶端下拉，找到无线投屏（3）搜索到当前笔记本电脑（4）进入无线投屏
如何将安卓手机投屏到Windows 10电脑上诸神缄默不语生活学习笔记智能手机电脑 AirDroid Cast 安卓 Android Win10 Windows
诸神缄默不语-个人CSDN博文目录我之所以要干这个事是为了用手机直播的时候在电脑上看弹幕……文章目录1.方法一：直接用Win10内置的投影到此电脑2.方法二：用AirDroidCast投屏到电脑上1.方法一：直接用Win10内置的投影到此电脑在设置中搜索“投影”，就能直接打开“投影至此电脑”。但是我的电脑无法直接使用这一功能，我这边显示：我问了电脑售后客服，说确实不行，他们说只能平板用这个，台式机
手机投屏到电脑，将一加手机投射到Linux大屏共享娱乐 AirDroid_cn 手机投屏手机投屏远程投屏无线投屏手机投屏电脑 Linux
当有多个朋友或家人想要一起观看手机上的内容时，投屏到电脑上可以让每个人都能轻松看到，无需挤在一起看小屏幕，提升了共享的乐趣。无论你是想展示旅行中拍摄的照片和视频，还是播放最新的电影或音乐作品，亦或是进行一场紧张刺激的游戏对战，通过简单的操作就能实现从移动设备到大屏幕的无缝连接。以一加手机投屏到Linux系统电脑为例，教大家将手机投屏到电脑的方法（安卓、iOS可投屏到Windows、macOS或Li
新版Python安装，新手入门必看，报错分析东眠的鱼 python 开发语言 pycharm pygame 异常
Python的下载和安装过程相对简单，以下是一个详细的步骤指南，适用于大多数用户：一、下载Python访问Python官网：打开浏览器，访问Python的官方网站：https://www.python.org/。选择下载版本：在官网首页，点击“Downloads”按钮，进入下载页面。根据你的操作系统类型（如Windows、macOS、Linux等）选择合适的下载链接。注意选择适合你电脑架构的版本（
华为手机投屏到Windows电脑，不是华为电脑怎么投屏？ AirDroid_cn 手机投屏华为智能手机电脑手机投屏无线投屏手机投屏电脑
很多人都知道华为手机协同办公的功能，手机往电脑上一靠，手机屏幕就展现到电脑屏幕上，速度快得有点惊人。然而不是每款华为手机都有这项功能，也不是每台Windows电脑都恰好满足协同办公的需求。如果随便一台华为手机想要投屏到随便一台Windows系统的电脑，怎么办？你可以用AirDroidCast投屏。AirDroidCast可以让安卓或iOS手机快捷投屏到Windows或macOS电脑，华为手机当然不
Windows 红色警戒合集含红警1+2+3代所有版本内含明细介绍免安装中文版私人珍藏库 win 红警红色警戒游戏
H_红警合集链接：https://pan.xunlei.com/s/VOKyS2GdO7kLToCJWES-LqhQA1?pwd=v6vc#红警大合集，附送地图+修改器包含红警1+红警2+红警3所有版本其中,红警2含超级大全，包括:红色警戒2:共和国之辉联机版(可上对战平台)红色警戒2:共和国之辉疯狂版红色警戒2:原版(开局有cg)红色警戒2:兵临城下红色警戒2:第三帝国红色警戒2:钢铁意志红色警
Windows Defender SmartScreen 已阻止启动个未识别的应用 https
对于软件开发者来说，您开发的软件在被下载时，出现“WindowsDefenderSmartScreen已阻止启动个未识别的应用，运行此应用可能会导致您的电脑面临风险”提示，可能会导致下载量下降，软件不被信任，甚至被杀毒软件报毒一．出现提示的原因这是因为您的软件在WindowsSmartScreen等安全筛选器中未建立建立信誉，系统识别出该应用可能存在风险，因此阻止了它的启动。WindowsDefe
Etcd学习笔记江小年 etcd 学习笔记
etcd的介绍与安装主要用于微服务的配置中心和服务发现，数据可靠性比redis更强在对外api的应用中，如何知道order服务的rpc地址？如果服务的ip地址变化了怎么办？在传统的配置文件模式，修改配置文件，应用程序是需要重启才能解决的，所以引入etcdwindows安装etcd-v3.5.16-windows-amd64.zipdocker安装dockerrun--nameetcd-d-p237
基于深度学习的恶意软件检测系统：设计与实现机器懒得学习深度学习人工智能
引言随着信息技术的飞速发展，恶意软件（如病毒、木马、勒索软件等）对全球网络安全构成了严重威胁。传统的恶意软件检测方法（如特征码匹配、行为分析等）在面对新型恶意软件变种时往往力不从心。近年来，深度学习技术在模式识别和分类任务中取得了显著成效，为恶意软件检测领域带来了新的机遇。本文将详细介绍一个基于深度学习的恶意软件检测系统的开发过程，该系统利用长短期记忆网络（LSTM）对Windows可执行程序的A
python学习，Windows图标一键替换工具开发详解木木黄木木 python 学习 windows
Windows图标一键替换工具开发详解项目概述本项目是一个基于Python开发的Windows图标一键替换工具，提供了简单易用的图形界面，让用户能够轻松地替换Windows系统中的回收站图标、快捷方式图标以及应用程序图标。功能特点支持三种图标替换模式：回收站图标替换桌面快捷方式图标替换系统应用程序图标替换图标预览功能：实时预览选择的图标支持缩放预览支持多种图片格式（ICO、PNG、JPEG等）便捷
在 CLion 中使用 Boost.Test 进行 C++ 单元测试獨梟单元测试 c++单元测试开发语言
1.安装Boost.TestBoost.Test是BoostC++库的一部分，因此需要安装完整的Boost库。方法1：使用包管理器安装（推荐）Windows（vcpkg）直接使用CLion集成的vcpkg安装boost-test：也可以通过命令来安装：gitclonehttps://github.com/microsoft/vcpkg.gitcdvcpkgbootstrap-vcpkg.batvc
AWS AppStream 2.0：开启云端应用交付新范式（实战解决方案剖析） AWS官方合作商 aws 云计算系统架构
导言：数字化转型中的"最后一公里"挑战当企业加速上云进程时，CAD设计软件、财务系统等专业工具受制于终端性能、数据安全与跨平台难题。AWSAppStream2.0作为全托管应用流服务，正为2000+企业破解这一困局——无需代码改造，将Windows应用转化为云服务。一、为什么AppStream2.0成为技术决策者新宠？1.1技术架构革命（对比传统VDI）去终端化部署：3D渲染/CAD等GPU应用在
python关闭一个子进程_python3关闭子进程的两种方式 weixin_39646695 python关闭一个子进程
用scrapy做爬虫的时候需要开多个爬虫子进程，为了定时开启和关闭爬虫子进程，需要对子进程做控制，而关闭进程有两种方法-----要简单高效，直接看方法2吧-----方法1：通过获取全部windows进程，获取增量进程方式该方法是通过获取所有windows进程，将所有进程名为“python.exe”的获取，最后在杀的时候，除了主进程外，全部杀掉该方法存在的问题在于，如果杀进程的时候刚好有其他人的py
关于 Scapy 的详细介绍、安装指南、使用方法及配置说明程序员的世界你不懂效率工具提升百度新浪微博
一、Scapy简介Scapy是一个开源的Python库，专注于网络数据包的创建、嗅探、分析和注入。它支持几乎所有标准的网络协议（如IP、TCP、UDP、ICMP、ARP等），并提供灵活的扩展机制，可自定义协议字段或开发专用工具。核心特点：跨平台：支持Linux、Windows、macOS等操作系统。低层级操作：直接访问原始数据包的二进制格式。强大的过滤与分析：支持BPF表达式过滤数据包。脚本化：可
Linux(Centos 7.6)基本信息查看豆是浪个 linux centos 运维
1.服务器硬件信息查看1.1.服务器厂商、产品名称查看dmidecode-ssystem-manufacturer：查看服务器厂商信息dmidecode-ssystem-product-name：查看服务器产品名称信息1.Windows使用VMware安装的Linux(Centos7.6)后，服务器厂商、产品名称信息查看。[root@localhost~]#dmidecode-ssystem-ma
Linux(Centos 7.6)命令详解：zip 豆是浪个 linux 运维服务器
1.命令作用打包和压缩(存档)文件(packageandcompress(archive)files)；该程序用于打包一组文件进行分发；存档文件；通过临时压缩未使用的文件或目录来节省磁盘空间；且压缩文件可以在Linux、Windows和macOS中轻松提取。2.命令语法usage:zip[-options][-bpath][-tmmddyyyy][-nsuffixes][zipfilelist][
如何在rust中解析 windows 的 lnk文件（快捷方式）周万宁.FoBJ rust windows 开发语言
一、从标题二开始看这些天在使用rust写一个pc端应用程序，需要解析lnk文件获取lnk的图标以及原程序地址，之前并没有过pc端应用程序开发的经验，所以在广大的互联网上游荡了两天。额今天找到了这个库lnk_parse很好的解决标题的这个问题。二、文档及github地址您可以在以下链接找到他：lib.rs（推荐）:https://lib.rs/crates/lnk_parsergithub（推荐）：
wsl安装及nginx安装新阿伟先生环境搭建前端 linux windows 10
Windows装wsl实现Linux搭建本地服务器目前大部分前端项目均运行在Linux服务器上在Windows上搭建环境可开始测试服务器相关问题Wsl官方教程：安装wslWsl版本控件：windowsterminal（微软商店下载）Wsl为纯命令行，windows预览版的话可以加装wslg有图形环境，wslg只在21h2和win11里提供搭建nginx服务器：安装nginx：sudoaptupda
Windows下的PaddleOCR本地部署 wangkun_cl 开源软件
目录一、环境配置（一）PaddlePaddle运行环境部署1.安装anaconda（网上教程很多很详细）2.创建环境3.激活环境并在该环境下安装PaddlePaddle框架4.下载requirments.txt中的库（二）PaddleOCR安装【非重点】二、在自己的数据集上训练模型（一）制作自己的数据集1.安装PPOCRLabel并为自己的数据打标签，构建数据集2.数据集的划分（二）训练1.文本检
输入wsl后报错“没有可用发行版” 2301_79191335 windows ubuntu linux
题主经历：按照微软文档（安装WSL|MicrosoftLearn），输入wsl--install并顺利安装。“开始界面”里也出现新安装的Ubuntu。但当再输入wsl试图打开ubuntu时，终端报错：适用于Linux的Windows子系统没有已安装的分发版。可以通过访问MicrosoftStore来安装分发版:https://aka.ms/wslstore试图通过开始菜单打开Ubuntu，首先显示
ASP.NET教务信息管理系统的设计与实现(源代码+论文) 技术宅小伙 asp.net 后端
随着我国教育事业的不断发展，各级教育层次的教学规模日益扩大，采用传统的教务信息管理方法（如直接手工管理或者开发程度不高的管理系统）不但浪费大量人力、物力和财力资源，而且不能满足当前教育发展的需求。教务信息管理系统是一种融合管理科学、信息科学、系统科学和计算机技术为一体的综合性先进管理手段。系统是建立在WINDOWS操作系统上的基于C/S（客户机/服务器）模式的教务信息管理系统，选用VB.NET＋S
NapCatQQ+Springboot基于onebot协议实现qq机器人 m0_74824534 面试学习路线阿里巴巴 spring boot 机器人后端
目录了解什么是NapCat？使用流程1.开始安装windows:?Linux：其他：2.启动QQ和NapCatwindows:Linux:3.通过WebUI配置OneBot服务1.获取Token2.配置WebUI（可省略）springboot实现websocket服务端1.新建springboot项目2.测试了解什么是NapCat？由此可以看出NapCat是类似于中间件的东西，也可称之为框架，这里
番外篇 - Docker的使用穿梭的编织者 Python爬虫训练营 docker 容器爬虫
一、Docker的介绍Docker是一个开源的应用容器引擎，基于Go语言并遵从Apache2.0协议开源。Docker可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中，然后发布到任何流行的Linux机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口（类似iPhone的app）,更重要的是容器性能开销极低二、Docker的安装1.Windows系统的安装win7
C# Label控件使用详解 Ro小陌 C#开发语言 microsoft c#microsoft 开发语言
在C#中，Label控件是WindowsForms应用程序中用于显示静态文本或不可编辑信息的基础控件。它通常用于标识其他控件（如文本框、列表框等）或向用户提供说明性信息。以下是关于Label控件的详细解析：一、Label控件的基本特性用途：显示不可编辑的文本、图标或图像。交互性：默认不支持用户输入（但可通过事件实现交互，如点击事件）。轻量级：资源占用低，适合高频次使用。二、常用属性以下是Label
electron打包结构了解 shaoin_2 electron javascript 前端
Electron应用打包后的文件结构和内容取决于你使用的打包工具（如electron-builder、electron-packager等）以及目标操作系统（Windows、macOS、Linux）。以下是典型Electron应用打包后的文件结构和关键组成部分：1.基本打包结果Windows：生成一个.exe安装文件或直接可执行的文件夹（包含.exe和依赖文件）。macOS：生成.app应用程序包
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam