万木春❀

理解：RPM、RPKM、FPKM、TPM、DESeq、TMM、SCnorm、GeTMM、ComBat-Seq

文章目录

- 前言
- 为什么有不同的标准化表达单位（Expression Units）
- 理解Expression Units 和计算Calculation
- - RPM or CPM
  - - 例子：RPM or CPM normalization 使用Python Tool：[`bioinfokit`](https://github.com/reneshbedre/bioinfokit)
  - RPKM (Reads per kilo base per million mapped reads)
  - - 例子RPKM
    - 例子：RPKM or FPKM normalization 使用 Python Tool：[`bioinfokit`](https://github.com/reneshbedre/bioinfokit)
  - TPM (Transcripts per million)
  - - 例子：TPM normalization 使用Python Tool：[`bioinfokit`](https://github.com/reneshbedre/bioinfokit)
  - 手动计算比较RPKM和TPM（python）
  - TMM (Trimmed Mean of M-values)
  - - TMM计算：
    - TMM 的实现：`edgeR`
  - DESeq or DESeq2 标准化 (median-of-ratios method)
  - - DESeq2 normalization ：使用R Package ：`DESeq2`
  - SCnorm for single cell RNA-seq (scRNA-seq)
  - ComBat-Seq method
  - GeTMM method
  - - GeTMM normalization ：R package `edgeR`
- 参考

理解：RPM、RPKM、FPKM、TPM、DESeq、TMM、SCnorm、GeTMM、ComBat-Seq_第1张图片

前言

在RNAseq 等二代测序数据的分析中，总会遇到各种各样的基因表达单位：RPM, RPKM, FPKM, TPM, TMM, DESeq, SCnorm, GeTMM, ComBat-Seq 和 Raw Reads Counts等（就像长度单位厘米）。Expression units 提供了基因或转录本等相对丰度的数学度量。大多数时候很难理解这些Expression units怎么从Raw count算来的。
在这里进行简单的总结整理。欢迎批评指正
公众号：猪猪的乌托邦

为什么有不同的标准化表达单位（Expression Units）

对原始数据的标准化是必要的，测序深度越深，在同一水平上表达的基因reads 就会越多，基因越长，相同水平的reads 会越多。标准化的Expression Units 可以一定程度上消除实验技造成的偏差，如测序深度、基因长度等，并使数据在样本内和样本间具备直接的可比性。（expression units，可以说是标准化的表现形式）
Normalized expression units 有助于消除批次效应，使数据具备可比性。

理解Expression Units 和计算Calculation

RPM or CPM

RPM：Reads per million mapped reads ；CPM： Counts per million mapped reads

$\frac{Reads\,Number\,of\,a\,Gene\times 10^6}{Total\,number\,of\,Mapped\, Reads }$

比如：测 5 Million(M) reads 的库，其中 4 M 比对到基因组上并且5000 Reads 匹配到某基因。此时RPM or CPM: $\frac{5000 \times 10^6} {4 \times 10^6} = 1250$

Tips：

不考虑对基因或转录长度的标准化
适合未考虑基因长度的方法获取的的Raw Reads Counts

例子：RPM or CPM normalization 使用Python Tool：`bioinfokit`

from bioinfokit.analys import norm, get_data
# 载入甘蔗的RNAseq原始基因表达矩阵(Bedre et al.,2019)
df = get_data('sc_exp').data
df.head(2)
# 输出
               gene  ctr1  ctr2  ctr3  trt1  trt2  trt3  length
0  Sobic.001G000200   338   324   246   291   202   168  1982.0
1  Sobic.001G000400    49    21    53    16    16    11  4769.0

# 矩阵中有长度这一列，先删掉
df = df.drop(['length'], axis=1)
# 将gene列作为索引列
df = df.set_index('gene')
df.head(2)
# 输出
                  ctr1  ctr2  ctr3  trt1  trt2  trt3
gene
Sobic.001G000200   338   324   246   291   202   168
Sobic.001G000400    49    21    53    16    16    11

# now, normalize raw counts using CPM method 
nm = norm()
nm.cpm(df=df)
# get CPM normalized dataframe
cpm_df = nm.cpm_norm
cpm_df.head(2)
# 输出
                        ctr1        ctr2        ctr3        trt1        trt2        trt3
gene
Sobic.001G000200  100.695004  101.731189   74.721094   92.633828   74.270713   95.314714
Sobic.001G000400   14.597796    6.593688   16.098447    5.093269    5.882829    6.240844

RPKM (Reads per kilo base per million mapped reads)

$\frac{Reads\,Number\,of gene \times10^3\times10^6}{Total\,number\,of\,Mapped\, Reads \times gene\,length\,in\,bp}$
$10^3$ 对基因长度normalize， $10^6$ 针对测序深度的因素，RPKM 单端
FPKM (Fragments per kilo base per million mapped reads) 与RPKM 类似，针对双端测序数据，在双端测序中，（左右）两条Reads来自同一个DNA Fragment，双端数据做比对时，一个Fragment中的两条Reads 或者只有一个高质量的Reads可以比对到参考基因组上。为了避免混淆和重复计数，对两个或单个Reads比对上的Fragment进行Count，并用于FPKM计算。

例子RPKM

测了一个5 Million(M) Reads 的库，其中，共 4 M 比对到基因组上，并且5000 Reads 匹配到某基因，该基因长度为2000bp。那么，RPKM的计算方式为： $\frac{5000 \times10^3\times 10^6} {4 \times 10^6\times2000} = 625$

Notes：

RPKM Normalize的时候考虑了基因长度
RPKM 适合有基因长度的测序数据
RPKM单端测序，FPKM双端测序

Tips： RPKM/FPKM不代表相对RNA摩尔浓度（rmc）的真值，由于每个样本的总标准化计数将不同，此方法倾向应用于差异表达基因的鉴定。建议使用TPM作为RPKM的替代方法。

例子：RPKM or FPKM normalization 使用 Python Tool：`bioinfokit`

# 还是前面的数据
df.head(2)
# output
                  ctr1  ctr2  ctr3  trt1  trt2  trt3  length
gene                                                        
Sobic.001G000200   338   324   246   291   202   168  1982.0
Sobic.001G000400    49    21    53    16    16    11  4769.0

# now, normalize raw counts using RPKM method
# gene的长度单位必须是bp
nm = norm()
nm.rpkm(df=df, gl='length')
# get RPKM normalized dataframe
rpkm_df = nm.rpkm_norm
rpkm_df.head(2)
# output
                       ctr1       ctr2       ctr3       trt1       trt2       trt3
gene                                                                              
Sobic.001G000200  50.804745  51.327542  37.699846  46.737552  37.472610  48.090169
Sobic.001G000400   3.060976   1.382614   3.375644   1.067995   1.233556   1.308627

PS：…有人认为RPKM/FPKM 没有意义，不是很合理，简书上黄树嘉的文章做了总结……

TPM (Transcripts per million)

$\frac{A}{\sum A} \times 10^6$

$\frac{Reads\,Number\,of\,gene\times10^3}{gene\,length\,in\,bp}$
TPM与RPKM 转换
$\frac{RPKM}{\sum RPKM} \times10^6$
Notes：

TPM normalization 考虑了基因长度
TPM 适合有基因长度的测序数据

相对于RPKM度量的不精确性，建议将TPM作为RPKM的替代方法。与RPKM相比，TPM平均值是恒定的，并且与相对RNA摩尔浓度（rmc）成比例

例子：TPM normalization 使用Python Tool：`bioinfokit`

# 接前面
nm.tpm(df=df, gl='length')
# get TPM normalized dataframe
tpm_df = nm.tpm_norm
tpm_df.head(2)
# output
                       ctr1       ctr2       ctr3       trt1       trt2       trt3
gene                                                                              
Sobic.001G000200  99.730156  97.641941  72.361658  89.606265  69.447237  90.643338
Sobic.001G000400   6.008723   2.630189   6.479263   2.047584   2.286125   2.466582

手动计算比较RPKM和TPM（python）

import pandas as pd
import numpy as np

def read_counts2tpm(df, sample_name):
    """
    convert read counts to TPM (transcripts per million)
    :param df: a dataFrame contains the result coming from featureCounts
    :param sample_name: a list, all sample names, same as the result of featureCounts
    :return: TPM
    """
    result = df
    sample_reads = result.loc[:, sample_name].copy()
    gene_len = result.loc[:, ['Length']]
    rate = sample_reads.values / gene_len.values
    tpm = rate / np.sum(rate, axis=0).reshape(1, -1) * 1e6
    return pd.DataFrame(data=tpm, columns=sample_name, index=df['Gene'])

def read_counts2rpkm(df, sample_name):
    result = df
    sample_reads = result.loc[:, sample_name].copy()
    gene_len = result.loc[:, ['Length']]
    total_reads = np.sum(sample_reads.values, axis=0).reshape(1, -1)
    rate = sample_reads.values / gene_len.values
    tpm = rate / total_reads * 1e6
    return pd.DataFrame(data=tpm, columns=sample_name, index=df['Gene'])

   
# raw data
a = pd.DataFrame(data = {
    'Gene': ("A","B","C","D","E"),
    'Length': (100, 50, 25, 5, 1),
     'S1': (80, 10,  6,  3,   1),
     'S2': (20, 20, 10, 50, 400)
})

tpm = read_counts2tpm(a, ['S1', 'S2'])

rpkm = read_counts2rpkm(df=a, sample_name=['S1', 'S2']) 

# TPM
Gene    S1              S2  
A    281690.140845   486.618005
B    70422.535211    973.236010
C    84507.042254    973.236010
D    211267.605634   24330.900243
E    352112.676056   973236.009732

# RPKM
Gene  S1      S2
A     8000.0  400.0
B     2000.0  800.0
C     2400.0  800.0
D     6000.0  20000.0
E    10000.0  800000.0

b = pd.DataFrame(data = {
    'RPKM_col_sum': (rpkm['S1'].sum(),
                     rpkm['S2'].sum()),
    'TPM_col_sum': (tpm['S1'].sum(),
                    tpm['S2'].sum())
})
b
# 比较就可以发现TPM的优势，每个样本总的TPM值是相同的，这样的结果便于样本间差异的比较
   RPKM_col_sum  TPM_col_sum
0  28400.0       1000000.0
1  822000.0      1000000.0

TMM (Trimmed Mean of M-values)

区别去之前提到的样本内标准化方法，TMM 是一种样本间的标准化方法
TMM 假定大部分基因的表达在样本间是没有差异的
TMM 对样本间的总Reads Counts进行normalize，而且不对基因长度或者library的大小进行normalize处理
TMM considers sample RNA population and effective in normalization of samples with diverse RNA repertoires (e.g. 不同组织样本). 在比较不同组织或基因型的样品，或者在样本间RNA Population 有显著差异时，TMM在处理数据批次效应上，具备一定的优势。
TMM在样本间比较方面表现更好，可以使用R package：edgeR实现，
edgeR假定基因长度在样本之间是恒定的，不考虑对基因长度normalize

TMM计算：

获取每个样本中每个基因的library size normalized read count
计算两个样本间的Log $_2$ Fold Change (M value) ：
$\log_2\frac{Treated\,Sample\,Counts}{Control\,Sample\,Counts}$
获取绝对表达量 (A value)：
$\frac{\log_2(Treated\,Sample\,Counts) + \log_2(Control\,Sample\,Counts)}{2}$
处理数据（去除M值的±30%，去除A值的±5%）
修剪后得到M的加权平均值，计算Normalize Factor (Robinson et al., 2010 for details)

TMM 的实现：`edgeR`

# load library
library(edgeR)
x <- read.csv("https://reneshbedre.github.io/assets/posts/gexp/df_sc.csv",row.names="gene")
# delete last column (gene length column)
x <- x[,-7]
head(x)
                ctr1 ctr2 ctr3 trt1 trt2 trt3
Sobic.001G000200  338  324  246  291  202  168
Sobic.001G000400   49   21   53   16   16   11
Sobic.001G000700   39   49   30   46   52   25
Sobic.001G000800  530  530  499  499  386  264
Sobic.001G001000   12    3    4    3   10    7
Sobic.001G001132    4    2    2    3    4    1

group <- factor(c('c','c', 'c', 't', 't', 't'))
y <- DGEList(counts=x, group=group)
# normalize for library size by cacluating scaling factor using TMM (default method)
y <- calcNormFactors(y)
# normalization factors for each library
y$samples
     group lib.size norm.factors
ctr1     c  3357347    1.0290290
ctr2     c  3185467    0.9918449
ctr3     c  3292872    1.0479952
trt1     t  3141934    0.9651681
trt2     t  2720231    0.9819187
trt3     t  1762881    0.9864858

# count per million read (normalized count)
norm_counts <- cpm(y)
head(norm_counts)    
                   ctr1        ctr2        ctr3        trt1       trt2        trt3
Sobic.001G000200  97.860339 102.5561297  71.3023988  95.9799323  75.634827  96.6223700
Sobic.001G000400  14.186854   6.6471566  15.3618989   5.2772471   5.990877   6.3264647
Sobic.001G000700  11.291578  15.5100320   8.6954145  15.1720855  19.470352  14.3783289
Sobic.001G000800 153.449643 167.7615701 144.6337277 164.5841451 144.529917 151.8351528
Sobic.001G001000   3.474332   0.9495938   1.1593886   0.9894838   3.744298   4.0259321
Sobic.001G001132   1.158111   0.6330625   0.5796943   0.9894838   1.497719   0.5751332

DESeq or DESeq2 标准化 (median-of-ratios method)

DESeq (DESeq2) 标准化方法和TMM类似
DESeq normalization 方法同样假定大部分基因的表达是不存在差异的
The DESeq 计算每个样本的大小因子，比较不同样本在不同不同深度下的Counts
DESeq normalization uses the median of the ratios of observed counts to calculate size factors.
通过将每个样品的Counts除以其几何平均值来计算比值
然后将 Size Factor 定义为每个样本的该比值的中位数。
接下来使用Size Factor ** 对每个样本的原始计数矩阵（Raw Count Data） **执行标准化
同样，DESeq or DESeq2 不考虑基因长度的影响，并假定基因长度在每个样本之间都是恒定的
DESeq or DESeq2 更适用于样本间比较

Note： 使用 DESeq2 进行分析的时候，需要整数形式的数据作为输入。如果用RSEM(RNA-Seq by Expectation-Maximization)，建议使用 tximport导入数据，再使用DESeq2的 DESeqDataSetFromTximport()执行接下来的基因表达水平分析。此外，也可以使用 RSEM 的近似整数矩阵，但会失去tximport提供的例如对每个基因转录长度的Normalize。

DESeq2 normalization ：使用R Package ：`DESeq2`

library(DESeq2)
x <-read.csv("https://reneshbedre.github.io/assets/posts/gexp/df_sc.csv",row.names="gene")
cond <- read.csv("https://reneshbedre.github.io/assets/posts/gexp/condition.csv",row.names="sample")
cond$condition <- factor(cond$condition)
x <- x[, rownames(cond)]
head(x)
                 ctr1 ctr2 ctr3 trt1 trt2 trt3
Sobic.001G000200  338  324  246  291  202  168
Sobic.001G000400   49   21   53   16   16   11
Sobic.001G000700   39   49   30   46   52   25
Sobic.001G000800  530  530  499  499  386  264
Sobic.001G001000   12    3    4    3   10    7
Sobic.001G001132    4    2    2    3    4    1
# get dds
dds <- DESeqDataSetFromMatrix(countData = x, colData = cond, design = ~ condition)
dds <- estimateSizeFactors(dds)
# DESeq2 normalization counts
y <- counts(dds, normalized = TRUE)
head(y)
                       ctr1       ctr2       ctr3       trt1       trt2
Sobic.001G000200 272.483741 290.412982 199.133348 272.915069 211.917896
Sobic.001G000400  39.502081  18.823064  42.902713  15.005640  16.785576
Sobic.001G000700  31.440432  43.920482  24.284555  43.141214  54.553122
Sobic.001G000800 427.267404 475.058273 403.933092 467.988384 404.952020
Sobic.001G001000   9.673979   2.689009   3.237941   2.813557  10.490985
Sobic.001G001132   3.224660   1.792673   1.618970   2.813557   4.196394
                       trt3
Sobic.001G000200 271.037655
Sobic.001G000400  17.746513
Sobic.001G000700  40.332984
Sobic.001G000800 425.916314
Sobic.001G001000  11.293236
Sobic.001G001132   1.613319

# get size factors
sizeFactors(dds)
     ctr1      ctr2      ctr3      trt1      trt2      trt3
1.2404410 1.1156526 1.2353531 1.0662658 0.9531993 0.6198401

SCnorm for single cell RNA-seq (scRNA-seq)

以上都是针对bulk RNA-seq ，但是应用于 scRNA-seq（单细胞的）就会存在偏差。因为单细胞数据存在大量的非零Counts、Counts与测序深度的关系多变性（基因表达对测序深度的依赖性）、以及其他的技术因素
Bacher et al., 2017 ，提出了SCnorm—— 一个针对scRNA-seq数据的稳定而准确的样本间标准化单位（Normalization Unit）
SCnorm normalization大致步骤
- 使用**RSEM**** featureCounts ****Rsubread****或者 **HTSeq 等获取表达矩阵，取其近似估计值
- 过滤掉低表达的基因（Counts至少为10）
- 使用分位数回归估计 Counts和测序深度的关系
- 使用Count-Depth关系，对基因的表达进行聚类
- 针对每个类群计算缩放比例（scale factor ），用于对表达矩阵的normalize
SCnorm可以在 Bioconductor 中获取

ComBat-Seq method

Zhang et al., 2020 提出ComBat-Seq (批次效应矫正方法) 以解决RNA-seq测序中由于批次效应引起的差异
ComBat-Seq 的优势在于矫正了原始数据（Raw Counts）中的批次效应，比如技术性差别：不同的测序仪器或者不同的公司的试剂、不同的实验人员等，并且ComBat-Seq与上述方法都不同(e.g. RPKM, TPM, TMM)，其提供了整数形式的数据矩阵，校正后的数据可以直接作为DESeq2 的输入，执行接下来的分析。
**ComBat-Seq **使用未标准化的数据作为输入，并且使用负二项回归模型进行批次矫正，ComBat-Seq 使用edgeR，RSEM 的输出数据也OK，但是更推荐使用未标准化的数据作为输入。
ComBat-Seq 通过比较数据经验分布的分位数与数据中没有批次效应的预期分布来调整原始数据
ComBat-Seq 可以在R 中获取

GeTMM method

Smid et al., 2018 提出** GeTMM **(Gene length corrected TMM) 在样本间、样本内的基因表达分析中都具有优势
GeTMM 基于TMM normalization，但会同时考量 TMM 和 DESeq 或 DESeq2 中缺失的，针对基因长度的Normalize
GeTMM, 首先计算每个基因的RPK ，然后使用TMM Normalization处理数据，再乘以 $10^{-6}$ 进行缩放 (Smid et al., 2018 for detailed calculation)

GeTMM normalization ：R package `edgeR`

load library
library(edgeR)
x <- read.csv("https://reneshbedre.github.io/assets/posts/gexp/df_sc.csv",row.names="gene")
# calculate reads per Kbp of gene length (corrected for gene length)
# gene length is in bp in exppression dataset and converted to Kbp
rpk <- ( (x[,1:6]*10^3 )/x[,7])
# comparing groups
group <- factor(c('c','c', 'c', 't', 't', 't'))
y <- DGEList(counts=rpk, group=group)
# normalize for library size by cacluating scaling factor using TMM (default method)
y <- calcNormFactors(y)
# normalization factors for each library
y$samples
    group  lib.size norm.factors
ctr1     c 1709962.4    1.0768821
ctr2     c 1674190.8    0.9843634
ctr3     c 1715232.3    1.0496310
trt1     t 1638517.0    0.9841989
trt2     t 1467549.5    0.9432728
trt3     t  935125.2    0.9680985

# count per million read (normalized count)
norm_counts <- cpm(y)
head(norm_counts)
                      ctr1      ctr2      ctr3      trt1      trt2      trt3
Sobic.001G000200 92.610097 99.192986 68.940090 91.044874 73.623702 93.630285
Sobic.001G000400  5.579741  2.671970  6.172896  2.080457  2.423609  2.547863
Sobic.001G000700 19.324103 27.128459 15.203763 26.026360 34.273836 25.196497
Sobic.001G000800 74.410581 83.143635 71.656315 79.998205 72.089293 75.392505
Sobic.001G001000  9.283023  2.593127  3.164924  2.650027 10.290413 11.014674
Sobic.001G001132  7.464699  4.170389  3.817485  6.392849  9.929718  3.795926

参考

https://www.cnblogs.com/Belter/p/13205635.html

https://www.reneshbedre.com/blog/expression_units.html

https://f1000research.com/articles/4-1521/v1

https://www.jianshu.com/p/35e861b76486

从 C# 到 Python：项目实战第五天的飞跃 AI、少年郎数据库 c#开发语言
在前面三天的学习中，我们已经掌握了Python的基础语法、数据结构以及一些核心库的使用。今天，我们将通过三个实战项目，深入对比C#和Python在命令行工具开发、Web应用开发以及数据处理方面的差异，感受Python在实际项目中的强大魅力。一、命令行工具开发：文件批量处理命令行工具是开发者日常工作中经常用到的工具，无论是文件处理、数据转换还是系统管理，都离不开命令行工具的身影。下面我们就来对比一下
2025AI智能体平台，10个Agent智能体开发平台推荐 cczixun 人工智能智能体大数据安全
1、扣子（Coze）开发平台字节跳动推出的AI智能体开发平台，用户无需编程基础，通过拖拽和配置即可快速创建聊天机器人，并部署到豆包、飞书、抖音、微信等多个平台。平台提供超过1万+的插件，内置豆包・Functioncall32k、通义千问-Max8k等多个大模型，还具备知识库、数据库、图像流等功能。2、通义千问Agent平台阿里巴巴基于通义千问大模型打造的智能体开发框架，以强大的多模态能力和工具集成
章节十四：乱序中的“指挥家”：堆排序奥义 - (堆排序 / Heap Sort) 杨小扩常用算法详解算法
各位老铁，阿扩又来啦！前面我们聊了各种数据结构和算法，从基础的排序查找，到复杂的图算法、动态规划，再到巧妙的Trie树和布隆过滤器。今天，我们要再次回到排序算法的舞台，但这次的主角，可不是简单的“冒泡”或“选择”，而是一位在乱序中能高效组织、精准定位的“指挥家”——堆排序(HeapSort)！你可能听说过快速排序、归并排序，它们都是O(NlogN)级别的排序算法。堆排序也同样拥有这个优秀的性能，而
用 Trae AI Vibe Coding 写一个 AI 智能体太@阳#鸟 LangChain 人工智能状态模式
这里写自定义目录标题前言代码识别成果展示开发反思与洞见未来演进方向结语：新范式革命前言在初步学习了Langchain的基础知识后，我产生了一个大胆的想法：能否完全不写代码，仅靠AI直接生成一个完整的智能体系统？这个想法最终催生了Agent-Zero-一个完全由AI生成的智能体框架。万万没想到真的给我实现了，弄了一个Agent-Zero的简易版本，全程一个代码都没有写，准确的来说我可能还有很多代码不
python docker 阿狸的家 SDN docker
我们的开发人员和布署人员经常因环境问题，而使得安装过程困难重重，相比于虚拟机较少硬件资源的虚拟化，同时不需要加载虚拟机操作系统的耗时，因为docker共享宿主机的操作系统Centos和Ubunta共用内核kernel即bootfs相同，但是加载内核的rootfs不同，即文件的结构目录不同docker三要素docker可以看作为一个小型的linux系统，部署时秒级启动镜像：模板（应用程序代码），一个
车载诊断架构 --- 诊断功能开发流程汽车电子实验室电子电器架构开发流程车载电子电气架构架构电子电气架构 ECU刷写与busoff原则电气电子架构开发的应对策略开发语言
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
【时时三省】(C语言基础)字符指针作函数参数时时三省【理论+经验】c语言入门 c语言基础知识点 c语言
山不在高，有仙则名。水不在深，有龙则灵。----CSDN时时三省如果想把一个字符串从一个函数“传递”到另一个函数，可以用地址传递的办法，即用字符数组名作参数，也可以用字符指针变量作参数。在被调用的函数中可以改变字符串的内容，在主调函数中可以引用改变后的字符串。例题1用函数调用实现字符串的复制。解题思路：定义一个函数copy_string用来实现字符串复制的功能，在主函数中调用此函数，函数的形参和实
python实现自动化sql布尔盲注(二分查找) 海星船长丶 python 自动化 sql 网络安全 web安全
为了优化自动化布尔盲注的代码，我们可以使用二分查找来减少猜测次数，从而提高效率。以靶场sqli为例：importrequests#目标URLurl="http://127.0.0.1/sqli/Less-8/index.php"#要推断的数据库信息（例如：数据库名）database_name=""#字符集（可以根据需要扩展）charset="abcdefghijklmnopqrstuvwxyzAB
第一部分：MySQL 基础与核心架构（第二节：存储引擎深度解析之 MySQL存储引擎选择策略） jarenyVO Mysql mysql 架构数据库
第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之MySQL存储引擎选择策略）文章目录第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之MySQL存储引擎选择策略）MySQL存储引擎选择策略深度解析一、存储引擎选择决策框架1.核心决策维度2.关键评估指标矩阵二、典型业务场景引擎选择策略1.电商系统2.内容管理系统3.金融系统三、性能与一致性权衡策略1.CAP理论应用2.读写
Kubernetes面试题分类整理 jarenyVO 面试题 K8s kubernetes 容器云原生
Kubernetes面试题分类整理文章目录Kubernetes面试题分类整理一、基础概念类1.什么是Kubernetes？它解决了什么问题？2.Pod是什么？为什么需要Pod而不是直接使用容器？二、核心组件类1.Kubernetes主节点(Master)有哪些核心组件？各自的作用是什么？2.kubelet和kube-proxy有什么区别？三、网络类1.Kubernetes网络模型的基本原则是什么？
服务网关面试题分类整理 jarenyVO 面试题中间件面试
服务网关面试题分类整理文章目录服务网关面试题分类整理一、基础概念类1.什么是服务网关？它解决了什么问题？2.服务网关和负载均衡器有什么区别？二、核心功能类1.服务网关的五大核心功能是什么？2.动态路由是如何实现的？三、技术实现类1.主流网关技术选型对比2.网关如何实现高性能？四、高可用设计类1.如何保证网关自身的高可用？2.网关如何避免成为单点瓶颈？五、安全防护类1.网关如何实现API安全？2.如
【RAG专题】如何选择合适的RAG架构？星际棋手人工智能
选择适合的RAG架构需结合自身业务需求、数据特点、性能要求等因素综合判断，以下是关键考量维度及对应架构选择建议：1.按数据规模与类型选择•小规模、单一类型数据（如纯文本文档库）：适合基础单阶段检索架构（检索模块+生成模块）。◦检索：用轻量级嵌入模型（如BGE-base、all-MiniLM）+简单向量数据库（如FAISS）。◦生成：搭配中小型LLM（如Llama2-7B、Mistral），无需复杂
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
rpg_trajectory_evaluation工具评估SLAM/VIO系统
rpg_trajectory_evaluation工具评估SLAM/VIO系统1、安装系统环境：ubuntu18.04+ROSmelodic代码：https://github.com/uzh-rpg/rpg_trajectory_evaluationtutorial:http://rpg.ifi.uzh.ch/docs/IROS18_Zhang.pdf1.1首先安装依赖的python库pipins
做人脸识别遇到的问题 princesshu python pycharm
最开始安装的时候直接用pipinstalldlib却一直显示错误提示“Failedbuildingwheelfordlib”之后去网上搜来了各种下载链接依然错误我发现问题是！！python版本问题，我下载所有的包都与我的python版本不匹配于是我先安装了cmakeboost之后最后直接在终端安好了dlib～
前端基础知识Vue系列 - 17（vue中key的原理）
一、Key是什么开始之前，我们先还原两个实际工作场景当我们在使用v-for时，需要给单元加上key...用+newDate()生成的时间戳作为key，手动强制触发重新渲染那么这背后的逻辑是什么，key的作用又是什么？一句话来讲key是给每一个vnode的唯一id，也是diff的一种优化策略，可以根据key，更准确，更快的找到对应的vnode节点场景背后的逻辑当我们在使用v-for时，需要给单元加上
【Hugging Face全面拥抱LangChain：全新官方合作包】
文末有福利！❝最近HuggingFace官宣发布langchain_huggingface，这是一个由HuggingFace和LangChain共同维护的LangChain合作伙伴包。这个新的Python包旨在将HuggingFace最新功能引入LangChain并保持同步。通过HuggingFace官方包的加持，开发小伙伴们通过简单的api调用就能在langchain中轻松使用HuggingFa
高中英语突破140分的学习方法，在120分遇到瓶颈，不是因为没天赋大咖看学习
本人高考英语143分，客观题部分满分。高中毕业进入同济德语专业，大学四年做了4年兼职高中英语培训老师。在这个过程中，发现英语高分生最容易卡在120多分，提不上去。●提分要点一：克服固执，接受新方法在上海四年，我最拿手的是给零基础的同学提分，40分起步的同学，我大部分可以提分到120-130，偶尔还能提分到140+。天生120分段的学生，虽然质地比零基础的同学好，但是他们普遍存在一些心理层面的问题。
【技术工具】python人员照片简介批量对照（千人级） Allen_Lyb 医疗高效编程研发 python 开发语言自然语言处理健康医疗语言模型
要实现根据照片上的工号批量添加人员姓名和工号到照片上，可以按照以下步骤操作（使用Python+PIL/Pillow+OpenCV+pytesseract）：解决方案步骤准备数据创建人员信息表（CSV格式）：姓名,工号确保所有照片文件名包含工号（如工号.jpg），或照片中有清晰可见的工号文本安装依赖库pipinstallpillowopencv-pythonpandaspytesseract#额外安
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
Linux机器上Selenium+Python3+Chrome使用driver.get()只能获取到标签而没有内容的解决方法
代码：#!/usr/bin/python3#coding=utf8fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionschrome_options=Options()chrome_options.add_argument('--headless')chrome_options.add_argume
解决 python 中的 huggingface_hub code_welike python 前端数据库
解决python中的huggingface_hub.utils._validators.HFValidationErrorRepoidmustbeintheformrepo_nameorname问题在使用python的huggingface_hub库时，有时候会遇到类似于“huggingface_hub.utils._validators.HFValidationErrorRepoidmustbe
汽车ECU控制器通信架构汽车电子实验室车载通信架构汽车架构汽车ECU控制器通信架构 web安全电子电气架构分布式
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
使用Python调用Hugging Face Question Answering (问答)模型墨如夜色 python easyui 开发语言 Python
使用Python调用HuggingFaceQuestionAnswering(问答)模型在自然语言处理领域，问答系统是一种能够回答用户提出的问题的智能系统。HuggingFace是一个知名的开源软件库，提供了许多强大的自然语言处理工具和模型。其中，HuggingFace的QuestionAnswering模型可以帮助我们构建问答系统，使得我们能够从给定的文本中提取答案。本文将介绍如何使用Pytho
深入解析与实战应用：利用Python和Amazon Product Advertising API实战分析不进则退i python 开发语言
在电商平台的运营中，关键词搜索接口是不可或缺的一部分，特别是在亚马逊这样的全球电商平台。通过关键词搜索接口，商家可以高效地获取商品信息，优化选品策略，提升销售业绩。本文将详细介绍如何接入亚马逊的关键字搜索接口，并提供一个Python代码示例。点击获取key和secret1.注册开发者账号并获取API权限首先，你需要访问亚马逊开发者中心，注册一个开发者账号，并获取相应的API权限。在注册过程中，你将
在美国，现在有超过10万台atm机允许你用借记卡购买比特币麦田财经
在美国，通过普通自动取款机购买比特币已经成为现实。这一进展预示着Genmega和LibertyX之间最近的合作关系。通过这种合作，人们可以用借记卡从多台atm机上购买比特币。通过ATM机使用借记卡购买比特币“金融时报”2018年10月15日(星期一)发布的一份新闻稿显示，该国所有的Genmega自动取款机现在基本上都是比特币自动取款机。在合作的基础上，Genmega自动取款机现在将提供Freety
Python爬虫【四十七章】异步爬虫与K8S弹性伸缩：构建百万级并发数据采集引擎程序员_CLUB Python入门到进阶 kubernetes python 爬虫
目录一、背景与行业痛点二、核心技术架构解析2.1异步爬虫引擎设计2.2K8S弹性伸缩架构三、生产环境实践数据3.1性能基准测试3.2成本优化效果四、高级优化技巧4.1协程级熔断降级4.2预测式扩容五、总结Python爬虫相关文章（推荐）一、背景与行业痛点在数字经济时代，企业每天需要处理TB级结构化数据。某头部金融风控平台曾面临以下挑战：数据时效性：需实时采集10万+新闻源，传统爬虫系统延迟超12小
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
音视频开发基础理论-视频篇 _小沫
11上篇：音视频开发基础理论-音频篇视频是怎么形成的？视频是如何播放的？mp4和mkv等有什么区别？H.264是什么？...带着这些疑问，我们一起来看看视频相关的知识；颜色颜色是通过眼、脑和我们的生活经验所产生的一种对光的视觉效应颜色就是人对光的一种感觉，由大脑产生的一种感觉人类肉眼由视锥细胞及视杆细胞组成，它们共同影响眼睛对不同频率的光的感知程度的不同，对不同亮度的感知程度的不同；视锥细胞：视网
第一部分：MySQL 基础与核心架构（第二节：存储引擎深度解析之 InnoDB 架构与核心特性） jarenyVO Mysql mysql 架构数据库
第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之InnoDB架构与核心特性）文章目录第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之InnoDB架构与核心特性）一、InnoDB架构概述1.内存结构2.磁盘结构二、核心特性深度解析1.事务支持(ACID)2.多版本并发控制(MVCC)3.锁机制4.缓冲池优化5.双写缓冲区(DoubleWriteBuffer)三、关键性能优
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方