linuxonly801

复现Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown文章代码

文章目录

前言
一、安装R和Rstudio和相应的包
二、文章复现
- 0. 前期准备：下载文章中的数据
- 1. 把所有的测序数据map到reference genome。
- 2. 将SAM文件转换成BAM文件
- 3. 组装transcripts
- 4. 把所有样品的transcripts merge到一起
- 5. optional-使用gffcompare检查transcripts与参考基因组比对情况
- 6. 估算transcript的abundances并生成供ballgown使用的table counts
- 7. 使用R进行差异分析

前言

刚开始接触RNA-seq，本文主要是为了记录自己的学习过程。

一、安装R和Rstudio和相应的包

这个直接参考自己之前的文章就可以了。

二、文章复现

文章中给出的数据分析流程：

0. 前期准备：下载文章中的数据

先新建一个文件夹用于存放所有的数据和R代码：

mkdir RNAseqDEMO  # 生成文件夹
cd RNAseqDEMO  # 进入文件夹
wget ftp://ftp.ccb.jhu.edu/pub/RNAseq_protocol/chrX_data.tar.gz  # 下载数据
tar xvzf chrX_data.tar.gz  # 解压数据

解压完成后会多出一个文件夹：chrX_data，这个文件夹下面有4个directory和两个文件：

samples文件夹：包含12个paired-end RNA-seq reads。所有序列都是fastq格式。
indexes文件夹：包含8个ht2文件，是HISAT2对X染色体的indexes。
genome文件夹：仅包含一个chrX.fa文件，就是人X染色体的序列文件。如果使用人的全基因级，genome文件夹下也应只包含一个文件，但是这个文件需要包含所有染色体的序列。
genes文件夹：仅包含一个chrX.gtf文件，内容是RefSeq中GRCh38的基因annotations信息。
mergelist.txt和geuvadis_phenodata.csv：文章作者提供的，用于做比对的text文件。如果是自己分析，需要自己创建。作者只是提供出来让新手更容易入门。

1. 把所有的测序数据map到reference genome。

所有的fastq文件都是一个文本，使用more命令打开后可以看到文件包含4行，分别是read名，序列，+号，测序质量。
使用HISAT2软件进行map：

hisat2 -p 8 --dta -x chrX_data/indexes/chrX_tran -1 chrX_data/samples/ERR188044_chrX_1.fastq.gz -2 chrX_data/samples/ERR188044_chrX_2.fastq.gz -S ERR188044_chrX.sam
hisat2 -p 8 --dta -x chrX_data/indexes/chrX_tran -1 chrX_data/samples/ERR188104_chrX_1.fastq.gz -2 chrX_data/samples/ERR188104_chrX_2.fastq.gz -S ERR188104_chrX.sam
hisat2 -p 8 --dta -x chrX_data/indexes/chrX_tran -1 chrX_data/samples/ERR188234_chrX_1.fastq.gz -2 chrX_data/samples/ERR188234_chrX_2.fastq.gz -S ERR188234_chrX.sam
hisat2 -p 8 --dta -x chrX_data/indexes/chrX_tran -1 chrX_data/samples/ERR188245_chrX_1.fastq.gz -2 chrX_data/samples/ERR188245_chrX_2.fastq.gz -S ERR188245_chrX.sam
hisat2 -p 8 --dta -x chrX_data/indexes/chrX_tran -1 chrX_data/samples/ERR188257_chrX_1.fastq.gz -2 chrX_data/samples/ERR188257_chrX_2.fastq.gz -S ERR188257_chrX.sam
hisat2 -p 8 --dta -x chrX_data/indexes/chrX_tran -1 chrX_data/samples/ERR188273_chrX_1.fastq.gz -2 chrX_data/samples/ERR188273_chrX_2.fastq.gz -S ERR188273_chrX.sam
hisat2 -p 8 --dta -x chrX_data/indexes/chrX_tran -1 chrX_data/samples/ERR188337_chrX_1.fastq.gz -2 chrX_data/samples/ERR188337_chrX_2.fastq.gz -S ERR188337_chrX.sam
hisat2 -p 8 --dta -x chrX_data/indexes/chrX_tran -1 chrX_data/samples/ERR188383_chrX_1.fastq.gz -2 chrX_data/samples/ERR188383_chrX_2.fastq.gz -S ERR188383_chrX.sam
hisat2 -p 8 --dta -x chrX_data/indexes/chrX_tran -1 chrX_data/samples/ERR188401_chrX_1.fastq.gz -2 chrX_data/samples/ERR188401_chrX_2.fastq.gz -S ERR188401_chrX.sam
hisat2 -p 8 --dta -x chrX_data/indexes/chrX_tran -1 chrX_data/samples/ERR188428_chrX_1.fastq.gz -2 chrX_data/samples/ERR188428_chrX_2.fastq.gz -S ERR188428_chrX.sam
hisat2 -p 8 --dta -x chrX_data/indexes/chrX_tran -1 chrX_data/samples/ERR188454_chrX_1.fastq.gz -2 chrX_data/samples/ERR188454_chrX_2.fastq.gz -S ERR188454_chrX.sam
hisat2 -p 8 --dta -x chrX_data/indexes/chrX_tran -1 chrX_data/samples/ERR204916_chrX_1.fastq.gz -2 chrX_data/samples/ERR204916_chrX_2.fastq.gz -S ERR204916_chrX.sam

参数说明：
可以参考：http://daehwankimlab.github.io/hisat2/manual/

-p (pthreads)，线程数。
–dta (downstream-transcriptome-assembly)，专门为包括StringTie在内的assemblers程序生成align结果用于分析。添加该参数后，HISAT2需要更长的anchor长度来重新发现剪接位点。这将减少与short-anchors的align，从而帮助assemblers程序显著提高计算和内存使用。
-x (hisat2-idx，参考基因组索引文件的前缀)
-1 (m1，pair-end测序中的mate1文件)
-2 (m2，pair-end测序中的mate2文件)
-S (hit,可以理解为save，保存为SAM文件)
比对结束后，会在当前文件夹中生成.SAM文件，SAM文件占用空间大，需要转换成BAM文件（BAM是SAM文件的二进制binary形式，内容是一样的）。

2. 将SAM文件转换成BAM文件

需要进行sort的原因：

BAM is compressed. Sorting helps to give a better compression ratio because similar sequences are grouped together. BAM 文件是压缩的二进制文件，对文件内容排序之后相似的内容排在一起，使得文件压缩比提高了，因此排序之后的 BAM 文件变小了，相对应的 SAM 文件就是纯文本文件，对 SAM 文件进行排序就不会改变文件大小。
stringtie官网指出，必须使用sort之后的文件：The main input of the program () must be a SAM, BAM or CRAM file with RNA-Seq read alignments sorted by their genomic location (for example the accepted_hits.bam file produced by TopHat or the output of HISAT2 after sorting and converting it using samtools as explained below).

samtools sort -@ 8 -o ERR188044_chrX.bam ERR188044_chrX.sam
samtools sort -@ 8 -o ERR188104_chrX.bam ERR188104_chrX.sam
samtools sort -@ 8 -o ERR188234_chrX.bam ERR188234_chrX.sam
samtools sort -@ 8 -o ERR188245_chrX.bam ERR188245_chrX.sam
samtools sort -@ 8 -o ERR188257_chrX.bam ERR188257_chrX.sam
samtools sort -@ 8 -o ERR188273_chrX.bam ERR188273_chrX.sam
samtools sort -@ 8 -o ERR188337_chrX.bam ERR188337_chrX.sam
samtools sort -@ 8 -o ERR188383_chrX.bam ERR188383_chrX.sam
samtools sort -@ 8 -o ERR188401_chrX.bam ERR188401_chrX.sam
samtools sort -@ 8 -o ERR188428_chrX.bam ERR188428_chrX.sam
samtools sort -@ 8 -o ERR188454_chrX.bam ERR188454_chrX.sam
samtools sort -@ 8 -o ERR204916_chrX.bam ERR204916_chrX.sam

参数说明：
-@ 排序和压缩的线程数，默认是单线程。
-o 输出文件名
最后一个是sam文件名

生成的bam文件和sam文件内容相同，但是bam需要使用binary方式打开，所以如果想查看内容，可以使用excel打开sam文件。
可以参考：http://samtools.github.io/hts-specs/SAMv1.pdf

内容说明
表头：
HD(header description)：VN: version number，SO: sorting order。
SQ:Reference sequence dictionary. SN: reference sequence name，LN: reference sequence length
PG：program. (会记录使用的命令)

文件：
共11列。
第1列：QNAME，query template name，即reads名。
第2列：FLAG标签。bitwise FLAG。
第3列：RNAME，比对到基因组的位置。
第4列：比对到参考基因组的物理位置。
第5列：MAPQ, map quality。比对质量(0-60)。
第6列：CIAGR（用于记录插入、缺失等信息）。
第7列：RNEXT, 配对reads比对到的染色体，=表示相同。
第8列：PNEXT, 配对reads比对到参考基因组的物理位置。
第9列：ISIZE, 文库插入序列大小；
第10列：sequence。
第11列：quality。

看看就行，不用太在意。有几列需要说明一下：
49M586N27M：49+27=76。49和27都是M（match）到基因组上的，一共76bp，正好是一个read的长度。586N表示在match到的49bp和27bp之间有586个bp是内含子。
-458: = 53561814 - 53562196 - 76（这个自己品吧，就是两个位置的差，再减去测序read长度。）

3. 组装transcripts

好像不使用 -l 参数也是可以的，原始论文里面写的代码运行时会报错。下面的是正确的。
官网给出的-l参数的解释如下：
-l (label): Sets (label) as the prefix for the name of the output transcripts. Default: STRG

stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188044_chrX.gtf ERR188044_chrX.bam
stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188104_chrX.gtf ERR188104_chrX.bam
stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188234_chrX.gtf ERR188234_chrX.bam
stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188245_chrX.gtf ERR188245_chrX.bam
stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188257_chrX.gtf ERR188257_chrX.bam
stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188273_chrX.gtf ERR188273_chrX.bam
stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188337_chrX.gtf ERR188337_chrX.bam
stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188383_chrX.gtf ERR188383_chrX.bam
stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188401_chrX.gtf ERR188401_chrX.bam
stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188428_chrX.gtf ERR188428_chrX.bam
stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188454_chrX.gtf ERR188454_chrX.bam
stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR204916_chrX.gtf ERR204916_chrX.bam

参数说明：
-p: 线程数
-G: (guide_gff) 参考基因组的gtf文件路径
-o: (output) 输出文件，gtf格式
最后一个是组装用的bam文件

这样就可以把所有测序的结果组装在一起，从而就可以等到每个transcript对应的FPKM和TPM值。
生成的gtf文件包含9列：
1.seq_id：序列编号，一般为chr或者scanfold编号。
2.source: 注释的来源，可以是数据库的名称，也可以是软件的名称，也可以为空，用.填充。
3.type: 特征类型：Gene, cDNA, mRNA, 5UTR, 3UTR, exon, CDS, start_codon, stop_codon, transcript等。
4.start:起始位置。
5.end: 终止位置。
6.score: 得分，注释信息可能性说明，可以是序列相似性比对时的E-values值或者基因预测是的P-values值，“.”表示为空。
7.strand: +正链，-负链，?不清楚，.正负无意义。
8.phase: 仅对type为“CDS”有效，表示CDS下一个密码子开始的位置。
9.attributes:属性，key value格式。必须包含gene_id和transcript_id。
结果看看就行。如果想多看看，只需要关注FPKM和TPM的值就行，还有就是是不是所有的exon都测出来了。

4. 把所有样品的transcripts merge到一起

merge到一起的原因：
StringTie将GTF/GFF文件列表作为输入，并将这些转录本合并/组合成一组非冗余的转录本。这种模式用于新的差异分析管道，以生成跨多个RNA序列样本的一组全局统一转录本（异构体）。

这时就用到了上面说的mergelist.txt。

mergelist.txt和geuvadis_phenodata.csv：文章作者提供的，用于做比对的text文件。如果是自己分析，需要自己创建。作者只是提供出来让新手更容易入门。

这个txt文件的作用就是告诉软件，你有哪些文件想merge在一起。文件内容很简单，就是把上一步组装的所有gtf文件全部写进来就可以了：

stringtie --merge -p 8 -G chrX_data/genes/chrX.gtf -o stringtie_merged.gtf chrX_data/mergelist.txt

处理后，软件会把所有的（这里是12个）gtf文件合并成一个gtf文件。使用more命令查看一下merge前后的文件：

上面是merge前的gtf文件，下面是merge后的gtf文件。可以看到，merge后就不再有FPKM和TPM信息了。

5. optional-使用gffcompare检查transcripts与参考基因组比对情况

当与参考注释（也作为 GFF 提供）进行比较时，程序 gffcompare 可用于比较、合并、注释和估计一个或多个 GFF 文件的准确性。
我使用的是ubuntu 20.04，发现gffcompare好像无法直接使用，需要进入到gffcompare的解压目录，使用./gffcompare才能运行。代码如下，注意相对路径的使用：

./gffcompare -r ../../Rprojects/RNAseqDemo/chrX_data/genes/chrX.gtf -G -o merged ../../Rprojects/RNAseqDemo/stringtie_merged.gtf

运行完成后，会生成两个文件：merged.stringtie_merged.gtf.refmap 和 merged.stringtie_merged.gtf.tmap。两个文件都可以使用excel打开。
refmap文件的内容如下：

一共4列。主要看class_code就行，=号代表match。

tmap文件内容如下：
一共12列。看看就行，没啥好讲的。

6. 估算transcript的abundances并生成供ballgown使用的table counts

原始论文里面写的代码运行时会报错。需要把 -B -e放到最后。
先新建一个ballgown（名子随便）的文件夹，在stringtie的-o命令里面需要把output的文件都放到这里面。

mkdir ballgown

然后再运行下面的代码，这里使用到了第4步生成的stringtie_merged.gtf作为guide_gff（参考基因组），：

stringtie -p 8 -G stringtie_merged.gtf -o ballgown/ERR188044/ERR188044_chrX.gtf ERR188044_chrX.bam -B -e
stringtie -p 8 -G stringtie_merged.gtf -o ballgown/ERR188104/ERR188104_chrX.gtf ERR188104_chrX.bam -B -e
stringtie -p 8 -G stringtie_merged.gtf -o ballgown/ERR188234/ERR188234_chrX.gtf ERR188234_chrX.bam -B -e
stringtie -p 8 -G stringtie_merged.gtf -o ballgown/ERR188245/ERR188245_chrX.gtf ERR188245_chrX.bam -B -e
stringtie -p 8 -G stringtie_merged.gtf -o ballgown/ERR188257/ERR188257_chrX.gtf ERR188257_chrX.bam -B -e
stringtie -p 8 -G stringtie_merged.gtf -o ballgown/ERR188273/ERR188273_chrX.gtf ERR188273_chrX.bam -B -e
stringtie -p 8 -G stringtie_merged.gtf -o ballgown/ERR188337/ERR188337_chrX.gtf ERR188337_chrX.bam -B -e
stringtie -p 8 -G stringtie_merged.gtf -o ballgown/ERR188383/ERR188383_chrX.gtf ERR188383_chrX.bam -B -e
stringtie -p 8 -G stringtie_merged.gtf -o ballgown/ERR188401/ERR188401_chrX.gtf ERR188401_chrX.bam -B -e
stringtie -p 8 -G stringtie_merged.gtf -o ballgown/ERR188428/ERR188428_chrX.gtf ERR188428_chrX.bam -B -e
stringtie -p 8 -G stringtie_merged.gtf -o ballgown/ERR188454/ERR188454_chrX.gtf ERR188454_chrX.bam -B -e
stringtie -p 8 -G stringtie_merged.gtf -o ballgown/ERR204916/ERR204916_chrX.gtf ERR204916_chrX.bam -B -e

参数说明（直接把官网的复制过来了）：
-e: this option directs StringTie to operate in expression estimation mode; this limits the processing of read alignments to estimating the coverage of the transcripts given with the -G option (hence this option requires -G).
-B: This switch enables the output of Ballgown input table files (*.ctab) containing coverage data for the reference transcripts given with the -G option. (See the Ballgown documentation for a description of these files.) With this option StringTie can be used as a direct replacement of the tablemaker program included with the Ballgown distribution. If the option -o is given as a full path to the output transcript file, StringTie will write the *.ctab files in the same directory as the output GTF.

这时就需要对第三步和第六步的代码进行对比。可以看到，两者几乎一样，只是使用的guide_gff不一样。在第三步使用的是整个X染色体的gtf文件，而在第六步使用的是自己在第四步生成的merge后的gtf。
可以对比一下这两个文件：

我也看不出有多大区别，反正就是X染色体有CDS、start_codon等注释，并且第9列信息也更多。等我有了更多的理解后，再来添加吧。

运行完成后，会在ballgown文件夹下生成对应的文件夹，每个文件夹下面都包含6个文件，其中5个ctab文件是用于ballgown分析用的。
所有的ctab文件都可以使用exel打开，每个文件的内容如下（直接copy的官网）。

e_data.ctab: exon-level expression measurements. One row per exon. Columns are e_id (numeric exon id), chr, strand, start, end (genomic location of the exon), and the following expression measurements for each sample:
    rcount: reads overlapping the exon
    ucount: uniquely mapped reads overlapping the exon
    mrcount: multi-map-corrected number of reads overlapping the exon
    cov average per-base read coverage
    cov_sd: standard deviation of per-base read coverage
    mcov: multi-map-corrected average per-base read coverage
    mcov_sd: standard deviation of multi-map-corrected per-base coverage
i_data.ctab: intron- (i.e., junction-) level expression measurements. One row per intron. Columns are i_id (numeric intron id), chr, strand, start, end (genomic location of the intron), and the following expression measurements for each sample:
    rcount: number of reads supporting the intron
    ucount: number of uniquely mapped reads supporting the intron
    mrcount: multi-map-corrected number of reads supporting the intron
t_data.ctab: transcript-level expression measurements. One row per transcript. Columns are:
    t_id: numeric transcript id
    chr, strand, start, end: genomic location of the transcript
    t_name: Cufflinks-generated transcript id
    num_exons: number of exons comprising the transcript
    length: transcript length, including both exons and introns
    gene_id: gene the transcript belongs to
    gene_name: HUGO gene name for the transcript, if known
    cov: per-base coverage for the transcript (available for each sample)
    FPKM: Cufflinks-estimated FPKM for the transcript (available for each sample)
e2t.ctab: table with two columns, e_id and t_id, denoting which exons belong to which transcripts. These ids match the ids in the e_data and t_data tables.
i2t.ctab: table with two columns, i_id and t_id, denoting which introns belong to which transcripts. These ids match the ids in the i_data and t_data tables.

这里，又生成的一个gtf文件，此时的gtf文件与第三步生成的文件名子相同，可以看一下两者的区别：

两者内容相似但不相同，我找了同一个基因，对比如下（上面是第三步生成的文件，下面的第六步生成的文件）：
可以看到，两个文件在前8列的内容是一样的。区别出现在第9列，即 attributes:属性，第六步生成的文件应该是经过了两次计算，所以结果更准确。因此在后续使用R分析的时候，使用的就是这个文件了。

到这里，全部的linux操作就完成了，后面是R语言的分析了，有空再补上。

7. 使用R进行差异分析

进入R环境。

导入下面的包：
ballgown (for data analysis，用于数据分析)
RSkittleBrewer (for setting up colors，用于设置颜色),
genefilter(for fast calculation of means and variances，用于快速计算均值和方差),
dplyr (for sorting and arranging results，用于筛选和整理结果)
devtools (for reproducibility and installing packages，用于结果复现和安装包)

>library(ballgown)
>library(RSkittleBrewer)
>library(genefilter)
>library(dplyr)
>library(devtools)

对于ballgown的使用，还是参考官方教程比较好：https://www.bioconductor.org/packages/release/bioc/html/ballgown.html 。在Rstudio中也可以使用browseVignettes(“ballgown”)来查看教程。

加载样品的phenotype
这里使用到了作者提供的geuvadis_phenodata.csv文件，如果是自己做其它的分析，这个文件是需要自己准备的。
文件内容很简单，注意此时所在的路径一定要是：RNAseqDemo：

>pheno_data = read.csv('./chrX_data/geuvadis_phenodata.csv')

读取表达数据

>bg_chrX = ballgown(dataDir = "ballgown", samplePattern = "ERR", pData=pheno_data)

ballgown各参数的含义可以通过下面的代码查看：

library("ballgown")
?ballgown

删除低丰度的基因

RNA-seq数据经常会有很低或0 counts。因此需要对这些数据进行去除。过滤方式可以按照自己的实验需求进行。

bg_chrX_filt = subset(bg_chrX,"rowVars(texpr(bg_chrX)) >1",genomesubset=TRUE)

找出显著基因

results_transcripts = stattest(bg_chrX_filt, feature="transcript",covariate="sex",adjustvars = c("population"), getFC=TRUE, meas="FPKM")

Llama.cpp 服务器安装指南（使用 Docker，GPU 专用）田猿笔记 AI 高级应用 llama 服务器 docker llama.cpp
前置条件在开始之前，请确保你的系统满足以下要求：操作系统：Ubuntu20.04/22.04（或支持Docker的Linux系统）。硬件：NVIDIAGPU（例如RTX4090）。内存：16GB+系统内存，GPU需12GB+显存（RTX4090有24GB）。存储：15GB+可用空间（用于源码、镜像和模型文件）。网络：需要互联网连接以下载源码和依赖。软件：已安装并运行Docker。已安装NVIDIA
Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
redis集群迅速搭建（个人学习和测试用） yinhezhanshen redis 学习 java
笔者使用ubuntu操作系统下载redis地址：Indexof/releases/，选择最新的版本下载。解压后进入目录，直接make就可以编译。编译成功后在src目录下会生成redis-server和redis-cli可执行文件。进入redis目录下的utils/create-cluster目录，执行./create-clusterstart,快速启动6个实例zy@zy-VirtualBox:~/
使用Python或R语言重新拟合模型 pk_xz123456 python 算法 python r语言开发语言
以下分别给出使用Python和R语言完成该任务的示例代码，假设我们有一个包含被试编号、实验条件和反应时的数据，并且要拟合一个线性回归模型。Python实现importpandasaspdimportnumpyasnpimportstatsmodels.apiassm#生成示例数据data={'subject':np.repeat(range(1,11),5),'condition':np.tile
《AI 大模型 ChatGPT 的传奇》武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js 算法数据结构
《AI大模型ChatGPT的传奇》——段方某世界100强企业大数据/AI总设计师教授北京大学博士后助理：1三6三二四61四五41AI大模型的概念和特点1.1什么是”大模型、多模态“？1.2大模型带来了什么？1.3大模型为什么能产生质变？1.4算法层面的跃升1.4.1RNN到transformor1.4.2扩散模型diffusion1.4.3跨模态的CLIP框架1.5AIGC的耀眼成果1.5.1AI
Redis Lua沙盒绕过RCE（CVE-2022-0543）不想秃头的烟花 Redis漏洞 redis lua 网络安全 web安全数据库
原理RedisLua沙盒绕过RCE的原理主要涉及到Redis在Lua沙箱中遗留了一个对象package。在Debian以及Ubuntu发行版的源在打包Redis时，不慎在Lua沙箱中遗留了这个对象package。攻击者可以利用这个对象提供的方法加载动态链接库liblua里的函数，进而逃逸沙箱执行任意命令。具体来说，Redis一直有一个攻击面，就是在用户连接Redis后，可以通过eval命令执行Lu
十、大数据资源平台功能架构 moton2017 大数据治理大数据大数据治理数据资产数据管理元数据架构数据资源
一、大数据资源平台的功能架构图总体结构大数据资源平台功能架构图关键组件：1.用户（顶行）此部分标识与平台交互的各种利益相关者。其中包括：市领导各部门分析师区政府外部组织公民开发人员运营经理2.功能模块（顶部水平部分）这些代表平台的主要功能区域：门户（Portal）：用户访问平台的入口。开放中心（开放中心）：方便数据共享和访问。共享中心（共享中心）：管理数据共享和协作。运营中心：监控和管理平台的运营
ubuntu系统 pycharm 卡死了，我用资源监视器将其杀死后，再打开就变成了直接卡死且在点击Quit Windows无法关闭，只能再次杀死不会编程的-程序猿 Ubuntu操作命令 ubuntu pycharm linux
1.问题分析：ubuntu系统中pycharm意外卡死了，我用资源监视器将其杀死后，再打开就变成了直接卡死且在点击QuitWindows无法关闭此时，只能通过再次杀死Java进程来关掉，但是关掉之后，再打开还是卡死。我必须重启电脑后才能解决上述问题2.解答每次都需要重启电脑才能解决，这说明问题可能与未完全清理的进程或临时文件有关。当用户强制杀死PyCharm进程时，可能仍有后台进程残留，比如Jav
ubuntu14.04 sqlite3 及可视化工具安装 Andre-S linux工具可视化工具 sqlite3 界面数据库 ubuntu
1.安装sqlite3sudoapt-getinstallsqlite3检查版本：sqlite3-version2.使用方法查看帮助信息.help创建数据库sqlite3test.db查询数据库信息.database查看该数据库内的表信息.tables退出.exit3.安装图形化界面sudoapt-getinstallsqlitebrowser4.使用方法sqlitebrowsertest.db注
分布式系统架构设计原理与实战：理解分布式系统的基本概念 AI天才研究院计算大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍在当今的互联网时代，数据量的爆炸性增长和业务的快速发展，使得单一的计算机系统已经无法满足我们的需求。为了解决这个问题，分布式系统应运而生。分布式系统是一种能在多台计算机（也称为节点）上运行，并通过网络进行通信和协调的系统。它能够提供高可用性、高可靠性、高扩展性和高性能等特性，因此在云计算、大数据、微服务等领域得到了广泛的应用。然而，设计和实现一个分布式系统并不是一件容易的事情。它涉及到
阿里云服务器的作用腾云服务器阿里云服务器云计算
使用阿里云服务器能做什么？大家都知道可以用来搭建网站、数据库、机器学习、Python爬虫、大数据分析等应用，阿里云服务器网来详细说下使用阿里云服务器常见的玩法以及企业或个人用户常见的使用场景：玩转阿里云服务器使用阿里云服务器最常见的应用就是用来搭建网站，例如个人博客、企业网站等；除了搭建网站还可以利用阿里云GPU服务器搭建机器学习和深度学习等AI应用；使用阿里云大数据类型云服务器做数据分析；利用云
数据湖构建 HaoHao_010 服务器云服务器云计算阿里云
阿里云的数据湖构建（DataLake）是一种用于存储和处理大量不同类型数据的解决方案，通常用于大数据分析和机器学习等应用场景。数据湖与传统的数据仓库不同，它能够存储结构化、半结构化和非结构化数据，支持大规模数据的整合、存储、查询和分析。阿里云提供了一整套工具和服务来帮助企业构建数据湖，以下是数据湖构建的主要步骤和关键服务：1.数据湖概述数据湖是一种统一的数据存储库，能承载来自多个来源的数据，包括：
Java进阶-在Ubuntu上部署SpringBoot应用 m0_74823611 面试学习路线阿里巴巴 java ubuntu spring boot
随着云计算和容器化技术的普及，Linux服务器已成为部署Web应用程序的主流平台之一。Java作为一种跨平台的编程语言，具有广泛的应用场景。本文将详细介绍如何在Ubuntu服务器上部署Java应用，包括环境准备、应用发布、配置反向代理（Nginx）、设置系统服务以及日志管理等步骤。一、部署准备在开始之前，请确保你具备以下条件：一台运行Ubuntu（如Ubuntu20.04或22.04）的服务器，具
HTML5期末大作业：基于 html css js仿腾讯课堂首页 web学生网页设计 web前端 css dreamweaver html html5期末作业
精彩专栏推荐文末获取联系✍️作者简介:一个热爱把逻辑思维转变为代码的技术博主作者主页:【主页——获取更多优质源码】web前端期末大作业：【毕设项目精品实战案例(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】超炫酷的Echarts大屏可视化源码：【Echarts大屏展示大数据平台可视化(150套)】HTML+CSS+JS实例代码：【️HTML+CSS+JS实例代码
在 Ubuntu 22.04 上搭建 Dify 应用的完整指南 jdfklaakjsdf AIGC ubuntu linux 运维
Dify是一款开源的AI应用开发平台，支持快速构建基于大语言模型（如GPT-3、ChatGLM等）的应用。本教程将详细演示如何在Ubuntu22.04系统上部署Dify。一、环境准备1.系统要求Ubuntu22.04LTS最低配置：2核CPU/4GB内存/20GB硬盘推荐配置：4核CPU/8GB内存/40GB硬盘2.更新系统sudoaptupdate&&sudoaptupgrade-ysudoap
在Ubuntu系统上部署Dify（开源大语言模型应用开发平台） [shenhonglei] deepseek ubuntu 开源语言模型人工智能
在Ubuntu系统上部署Dify（开源大语言模型应用开发平台）环境准备Dify部署接入本地模型（如Ollama）安装Ollama运行模型并接入Dify环境准备系统要求Ubuntu20.04/22.04，建议CPU≥2核，内存≥4GB。安装Docker及DockerCompose：#安装Dockersudoaptupdatesudoaptinstallapt-transport-httpsca-ce
docker部署GPU环境 atom goper gru docker
使用Docker部署GPU环境涉及到几个关键步骤，以下是详细步骤：1.安装NVIDIA驱动程序确保你的系统已经安装了NVIDIAGPU驱动。这是使用GPU的前提条件。2.安装Docker和nvidia-container-toolkit首先，确保你已经安装了Docker。然后，安装NVIDIAContainerToolkit，它允许Docker容器访问宿主机上的GPU资源。对于Ubuntu系统，安
python天气数据分析与处理,用python数据分析天气 2401_84504019 人工智能
本篇文章给大家谈谈python天气预报可视化分析报告，以及基于python的天气预测系统研究，希望对各位有所帮助，不要忘了收藏本站喔。基于大数据重庆市气象数据分析摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对气象数据等问题，对气象信息进行研究分析，然后开发设计出气象数据分
VM虚拟机+Ubuntu系统NAT网络配置问道飞鱼后端开发技术实践计算机相关知识科普付费专栏 ubuntu linux 运维
一、VM虚拟网络配置配置入口：编辑->虚机网络编辑器(不要开启“使用本地的DHCP服务”，会造成虚拟机一旦关闭重启，IP就会发生变化，不是我们希望看到的)点开NAT设置虚拟机配置如下：二、本地操作系统网络配置找到虚拟网卡配置静态地址
Java本地缓存技术选型（Guava Cache、Caffeine、EhCache）子龙技术 java
前言对一个java开发者而言，提到缓存，第一反应就是Redis。利用这类缓存足以解决大多数的性能问题了，我们也要知道，这种属于remotecache（分布式缓存），应用的进程和缓存的进程通常分布在不同的服务器上，不同进程之间通过RPC或HTTP的方式通信。这种缓存的优点是缓存和应用服务解耦，支持大数据量的存储，缺点是数据要经过网络传输，性能上会有一定损耗。与分布式缓存对应的是本地缓存，缓存的进程和
从0-1学习Mysql第七章: 分区与分库分表一小路一掌握 Go 语言：编程世界的进阶钥匙学习 mysql 数据库后端面试
第七章:分区与分库分表在大数据时代，单个数据库或表往往难以应对海量数据带来的存储、查询和维护压力。分区、分表和分库分表技术正是在这种背景下应运而生。它们通过将数据进行逻辑或物理拆分，实现数据管理的灵活性和系统性能的优化。1.分区表的概念与使用场景1.1什么是分区表？分区表是将一个大表按照某种规则（如范围、列表、哈希等）划分为多个逻辑子表的技术。虽然物理上数据仍存储在同一张表内，但查询时数据库可以根
Spark之PySpark james二次元大数据 Spark Python PySpark
PySpark是ApacheSpark的PythonAPI，它允许开发者使用Python编程语言进行大规模数据处理和分析。ApacheSpark是一个快速、通用、可扩展的大数据处理引擎，支持批处理、流处理、机器学习、图计算等多种数据处理模式。PySpark使得Python开发者能够利用Spark强大的分布式计算能力，处理大数据集，并执行高效的并行计算。一、PySpark核心概念1.RDD（弹性分布
天气API接口在日常生活与商业决策中的应用 FB13713612741 python
天气，作为自然界中最不可控却又对人类活动影响巨大的因素之一，其变化无常的特性使得人们长期以来都在寻找预测和控制它的方法。随着科技的进步，尤其是互联网和大数据技术的发展，天气信息的获取和应用变得更加便捷和高效。天气API接口，作为连接天气数据与各类应用的桥梁，正逐步渗透到我们日常生活的方方面面，并在商业决策中发挥着越来越重要的作用。一、天气API接口的基本概念与技术原理天气API接口是一种提供天气数
大数据最全大模型入门到应用——LangChain：索引（Indexes）-[文本分割器 2401_84182507 程序员 langchain
分类目录：《大模型从入门到应用》总目录LangChain系列文章：基础知识快速入门安装与环境配置链（Chains）、代理（Agent:）和记忆（Memory）快速开发聊天模型模型（Models）基础知识大型语言模型（LLMs）基础知识LLM的异步API、自定义LLM包装器、虚假LLM和人类输入LLM（HumanInputLLM）缓存LLM的调用结果加载与保存LLM类、流式传输LLM与ChatMod
pandas series 相加_Numpy和Pandas教程 weixin_39778393 pandas series 相加
Pandas简介-python数据分析library-基于numpy(对ndarray的操作)-有一种用python做Excel/SQL/R的感觉-为什么要学习pandas?-pandas和机器学习的关系，数据预处理，featureengineering。-pandas的DataFrame结构和大家在大数据部分见到的spark中的DataFrame非常类似。目录-numpy速成-Series-Da
如何连接到服务器 Honeysea_70 基础知识服务器运维
连接到服务器的方法取决于你使用的操作系统和服务器的类型（如Linux服务器、Windows服务器等）。这里我提供两种常见的连接方法：通过SSH连接Linux服务器和通过RDP连接Windows服务器。1.通过SSH连接Linux服务器如果你要连接的是Linux服务器（例如Ubuntu、CentOS等），可以通过SSH协议进行连接。以下是步骤：在Linux或MacOS系统中：打开终端。使用以下命令连
2025届毕业设计选题参考，包含网站管理系统开发，微信小程序开发，APP开发，大数据分析，人工智能平姐设计计算机毕业设计选题清单微信小程序开发语言人工智能数据分析
网站开发选题：1、基于Java的企业食堂管理系统的设计与实现2、基于web的办公平台3、综合学工服务系统4、超市管理系统5、基于springboot的云笔记共享系统6、毕业生实习管理系统7、驾校预约管理系统8、基于Java的航空订票系统9、企业资源规划系统10、洗衣房预约管理系统的设计与实现11、桌面端有声小说12、基于Python的毕业生就业率分析管理系统的设计与实现13、基于VUE的富平县农产
十分钟了解大数据处理的五大关键技术及其应用 IT时代周刊 2019年5月大数据程序员编程语言 hadoop
其中主要工作环节包括：♦大数据采集、♦大数据预处理、♦大数据存储及管理、♦大数据分析及挖掘、♦大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。一、大数据采集技术数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取
【FL0091】基于SSM和微信小程序的社区二手物品交易小程序猿毕设小程序微信小程序 spring boot python 后端 java
‍博主介绍‍全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/知乎/b站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战，以及程序定制化开发、文档编写、答疑辅导等。精彩专栏推荐订阅计算机毕业设计精品项目案例（持续更新）文末获取源码+数据库+文档感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和学长沟
ubuntu终端指令集 shell编程基础（一） zm 数据库 tomcat 服务器
磁盘指令连接与查看：磁盘与Ubuntu有两种连接方式；使用ls/dev/sd*查看是否连接成功，通过df系列指令查看磁盘使用信息。若U盘已挂载，相关操作可能失败，需用umount取消挂载。磁盘操作：使用sudofdisk磁盘对磁盘操作，如d删除分区、n添加新分区等；用sudomkfs.格式化的类型分区格式化磁盘；挂载时先创建目录，再用mount挂载的分区挂载点挂载，使用完用umount取消挂载。开
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr