咕叽咕叽小菜鸟

条件随机场（CRF）原理小结（1）

1. CRF学习方法简要概括
2. 相关概念
- 2.1 概率图模型
- - 2.1.1 有向概率图模型（贝叶斯网）
  - 2.1.2 无向概率图模型（马尔科夫网）
  - 2.1.3 有向图、无向图模型比较
- 2.2 生成式模型 vs 判别式模型
- - 两种模型比较
- 2.3 RF $\rightarrow$ MRF $\rightarrow$ CRF $\rightarrow$ linear chain CRF
- - 2.3.1 随机场（RF）
  - 2.3.2 马尔科夫随机场（MRF）
  - 2.3.3 条件随机场（CRF）
  - 2.3.4 线性链条件随机场（linear chain CRF）
3. 线性链CRF $P (Y ∣ X)$ 的因子分解式
- 3.1 参数化形式
- 3.2 简化形式
- 3.3 矩阵形式
4. HMM 与 CRF的联系
5. LR（逻辑斯蒂回归）与 CRF的联系对数线性模型
完整代码地址
参考

本博客中使用到的完整代码请移步至: 我的github：https://github.com/qingyujean/Magic-NLPer，求赞求星求鼓励~~~

CRF系列文章：

条件随机场（CRF）原理小结（1）
条件随机场（CRF）原理小结（2）
BiLSTM-CRF实现中文命名实体识别（NER）

1. CRF学习方法简要概括

适用问题：标注

模型特点：条件概率分布模型、对数线性模型

模型类型：判别模型

损失函数：对数似然损失

学习策略：极大似然估计，正则化的极大似然估计

学习算法：IIS（改进的迭代尺度法）、拟牛顿法、梯度下降法

2. 相关概念

这部分主要是想捋清一些相关概念，从概率图模型（有向图、无向图）梳理各个相关模型，以及从模型类型（生成式还是判别式模型）梳理一下各个相关模型。

2.1 概率图模型

概率图模型 是一类用图来表达变量相关关系的概率模型，是概率论与图论的结合。图中的节点表示随机变量，节点之间存在边则表示节点对应的随机变量有依赖关系，节点之间不存在边，则假设对应随机变量条件独立。

概率图模型大致可分为2类：有向无环图模型和无向图模型

2.1.1 有向概率图模型（贝叶斯网）

使用 有向无环图 表示变量间的依赖关系（局部依赖关系：节点与父节点的关系）），称为 有向图模型 或者 贝叶斯网（Bayesian network）

例如：NaiveBayes（生成式模型）、HMM（生成式模型）、MEMM（最大熵马尔科夫模型，判别式模型）、LDA（主题模型，生成式模型）） 等

有向图模型的联合概率分解：每个节点的条件概率分布表示为 $P (当前节点 ∣ 它的父节点)$ ，即 有向概率图的联合分布 可表示为：
$P(X_1,X_2,...,X_N)=\prod\limits_{i=1}^N P(X_i|\pi (X_i))$
其中 $\pi(X_i)$ 表示 $X_i$ 的父节点集。

2.1.2 无向概率图模型（马尔科夫网）

使用 无向图 表示变量间的相关关系，称为 无向图模型 或 马尔科夫网 （Markov network）

例如：MEM（最大熵模型，判别式模型）、MRF（马尔科夫随机场，生成式模型）、CRF（条件随机场，判别式模型） 等

概率无向图的联合概率分布 可表示为其最大团上的随机变量的函数的乘积形式：

$P(Y)=\frac{1}{Z}\prod\limits_C \psi_C(Y_C)\\Z=\sum\limits_Y \prod\limits_C \psi_C(Y_C)$

这里的 $C$ 表示无向图的最大团，乘积是在无向图的所有最大团上进行的。 $Y_C$ 表示 $C$ 中的节点对应的随机变量（组）。 $P (Y)$ 表示联合概率分布， $Y$ 是一组随机变量，是无向图中所有节点对应的随机变量（组）。

这里的函数 $\psi_C(Y_C)$ 称为势函数，为了满足非负性，指数函数常被定义为势函数：
$\psi_C(Y_C)=\exp\{-E(Y_C)\}$

2.1.3 有向图、无向图模型比较

共同之处：

可将复杂的联合分布分解为多个因子的乘积，都可以更精确的表示为因子图（factor graph）模型。

不同之处：

无向图模型因子是势函数，需要全局归一
有向图模型因子是概率分布，无需全局归一

优缺点：

无向图模型中势函数设计不受概率分布约束，设计灵活，但全局归一代价高
有向图模型无需全局归一、训练相对高效
无向图可以表示有向图无法表示的一些依赖关系，比如循环依赖
有向图可以表示无向图无法表示的一些关系，比如因果关系

2.2 生成式模型 vs 判别式模型

生成式模型：构建观测 $X$ 和标记 $Y$ 的联合概率分布 $P (X, Y)$ ，因此可以根据联合概率来生成样本，如HMM，NaiveBayes，MRF等。
判别式模型：构建观测 $X$ 和标记 $Y$ 的条件概率分布 $P (Y ∣ X)$ ，因为没有 $Y$ 的知识，无法生成样本，只能判断分类，如SVM，CRF，MEMM （最大熵马尔科夫模型），MEM（最大熵模型）等。

生成式模型：无穷样本 ==》概率密度模型 = 生成模型 ==》预测
判别式模型：有限样本 ==》判别函数 = 预测模型 ==》预测

两种模型比较

生成式模型（Generative model ）：从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度，不关心判别边界。

优点:

实际上带的信息要比判别模型丰富，研究单类问题比判别模型灵活性强
能更充分的利用先验知识
模型可以通过增量学习得到

缺点：

学习过程比较复杂
在目标分类（object classification）问题中易产生较大的错误率

判别式模型（Discriminative model）：寻找不同类别之间的最优分类面，反映的是异类数据之间的差异。

优点:

分类边界更灵活，比使用纯概率方法或生产模型得到的更高级。
能清晰的分辨出多类或某一类与其他类之间的差异特征
在聚类、viewpoint changes, partial occlusion and scale variations中的效果较好
适用于较多类别的识别

缺点：

不能反映训练数据本身的特性。
能力有限，可以告诉你的是1还是2，但没有办法把整个场景描述出来。

二者关系：由生成模型可以得到判别模型，但由判别模型得不到生成模型。

2.3 RF $\rightarrow$ MRF $\rightarrow$ CRF $\rightarrow$ linear chain CRF

2.3.1 随机场（RF）

随机场包含两个要素：位置（site），相空间（phase space）。随机场是由若干个位置组成的整体，当给每一个位置中按照某种分布随机赋予相空间的一个值之后，其全体就叫做随机场。

2.3.2 马尔科夫随机场（MRF）

马尔可夫随机场，是典型的马尔科夫网（即概率无向图模型），是一个由无向图表示的联合概率分布。其表示的随机变量（或随机变量组）之间存在：

成对马尔科夫性
局部马尔科夫性
全局马尔科夫性

【注意】：这三种马尔科夫性的定义是等价的。

概率无向图最大的特点：易于因子分解。

概率无向图的因子分解，即概率无向图的联合概率分布可表示为其最大团上的随机变量的函数的乘积形式：

$P(Y)=\frac{1}{Z}\prod\limits_C \psi_C(Y_C)\\Z=\sum\limits_Y \prod\limits_C \psi_C(Y_C)$

这里的函数 $\psi_C(Y_C)$ 称为势函数，为了满足非负性，指数函数常被定义为势函数： $\psi_C(Y_C)=\exp\{-E(Y_C)\}$ 。一般 $E(Y_C)$ 常见的形式如下：

$\sum\limits_{u,v \in C,u\ne v} \alpha_{uv}y_u y_v+\sum\limits_{v\in C}\beta_vy_v$

其中 $\alpha_{uv}$ 和 $\beta_v$ 是参数，第一项考虑的是每一对儿节点的关系，第二项考虑的是单个节点。

2.3.3 条件随机场（CRF）

条件随机场是一种判别式无向概率图模型，是指在给定随机变量 $X$ 条件下，随机变量 $Y$ 构成一个由无向图 $G = < V, E >$ 表示的马尔可夫随机场：

$P(Y_v|X,Y_{V-\{v\} })=P(Y_v|X,Y_{n(v)})$

其中 $V-\{v\}$ 表示除了 $v$ 其他的结点， $n (v)$ 表示结点 $v$ 的邻接结点。也就是说， $Y_v$ 只与其对应结点 $v$ 邻接节点有条件依赖关系的，与其他不邻接的结点对应的随机变量是条件独立的。

条件随机场和马尔可夫随机场均使用团上的势函数定义概率，二者在形式上没有显著区别，但CRF处理的是条件概率，而MRF处理的是联合概率。（西瓜书）

2.3.4 线性链条件随机场（linear chain CRF）

理论上说，CRF对应的无向图 $G$ 可以有任意结构，只要能表示变量之间的条件独立性关系即可。但现实应用中，尤其是对标记序列建模时，最常用的还是线性链结构的条件随机场：

在此情况下， $X=(X_1,X_2,..,X_n),Y=(Y_1,Y_2,..,Y_n)$ ，而其最大团是相邻的两个结点的集合，且条件概率分布 $P (Y ∣ X)$ 构成条件随机场（即满足马尔科夫性）：

$P(Y_i|X,Y_1,Y_2,...,Y_{i-1},Y_{i+1},...,Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1})\\i=1,2,...,n\;(i=1和n时只考虑单边)$

在标注问题中， $X$ 表示输入观测序列， $Y$ 表示对应的输出标记序列或状态序列。

3. 线性链CRF $P (Y ∣ X)$ 的因子分解式

线性链CRF $P (Y ∣ X)$ 的因子分解式，各因子是定义在相邻2个结点（最大团）上的势函数。

3.1 参数化形式

$P(y|x)=\frac{1}{Z(x)}\exp \big( \sum\limits_k \sum\limits_{i} \lambda_k t_k(y_{i-1},y_i,x,i) + \sum\limits_l \sum\limits_{i} \mu_l s_l(y_i,x,i)\big)\\Z(x)=\sum\limits_y \exp \big( \sum\limits_k \sum\limits_{i} \lambda_k t_k(y_{i-1},y_i,x,i) + \sum\limits_l \sum\limits_{i} \mu_l s_l(y_i,x,i)\big)$

$t_k$ 是定义在观测序列的2个相邻标记位置上的转移特征函数，用于刻画相邻标记变量之间的相关关系以及观测序列 $x$ 对它们的影响。

$s_l$ 是定义在观测序列的标记位置 $i$ 上的状态特征函数，用于刻画观测序列 $x$ 对标记变量的影响。

$\lambda_k$ 和 $\mu_l$ 是参数， $Z (x)$ 是规范化因子。

特征函数 $t_k$ 和 $s_l$ 都依赖于位置，是局部特征函数。联想到在最大熵模型时，也有引入特征函数。这里的特征函数也是一样的，通常也是实值函数，用以刻画数据的一些很可能成立或期望成立的经验特性。一般当满足某些特征条件时取值为1，否则为0。

要使用CRF，就需要定义合适的特征函数。以词性标注任务为例，当我们知道第 $i$ 个观测值 $x_i$ 为单词“at”时，相应的标记 $y_{i-1}$ 和 $y_{i}$ 很可能分别为动词和介词，那么此时就可以构造如下的转移特征函数和状态特征函数：
$t_k(y_{i-1},y_i,x,i)=\begin{cases}1,& if \,y_{i-1}=[V],y_{i}=[P]\,and\;x_{i}=\text{'at'}\\0,&others\end{cases}$

$s_l(y_i,x,i)=\begin{cases}1,& if \,y_{i}=[P]\,and\;x_{i}=\text{'at'}\\0,&others\end{cases}$

3.2 简化形式

注意到无论是转移特征函数 $t_k$ 还是状态特征函数 $s_l$ ，在各个位置 $i$ 上都有定义，且其形式上各个特征函数分别都有在各个位置上求和，那么可以考虑将2种特征函数统一的符号表示，其对应的权值也用统一的符号表示，则这个统一后的特征，其每个特征都有在各个位置上求和，这样局部的特征函数就转化为了全局的特征函数，线性链CRF就可以表示为权值向量和特征向量的内积形式了：
$f_k(y_{i-1},y_i,x,i)=\begin{cases}t_k(y_{i-1},y_i,x,i),& k=1,2,...,K_1\\s_l(y_i,x,i),&l=K_1+l;\,l=1,2,...,K_2\end{cases}$

其中 $K_1$ 表示有 $K_1$ 个转移特征， $K_2$ 表示有 $K_2$ 个状态特征， $K=K_1+K_2$ 表示一共有 $K$ 个特征函数。

对特征在各个位置求和后，记作：

$f_k(y,x)=\sum\limits_{i=1}^n f_k(y_{i-1},y_i,x,i),\;k=1,2,...,K$

$f_k(y,x)$ 对应的权值 $w_k$ 表示为：

$w_k=\begin{cases}\lambda_k,& k=1,2,...,K_1\\\mu_l,&l=K_1+l;\,l=1,2,...,K_2\end{cases}$

此时，线性链CRF $p (y ∣ x)$ 就可以写成如下形式：
$\begin{aligned}P(y|x)&=\frac{1}{Z(x)}\exp \big( \sum\limits_k w_kf_k(y,x) + \sum\limits_l w_l f_l(y,x)\big)\\&=\frac{1}{Z(x)}\exp \big( \sum\limits_{k=1}^K w_kf_k(y,x)\big)\end{aligned}\\Z(x)=\sum\limits_y \exp \sum\limits_{k=1}^K w_kf_k(y,x)$

改写为内积形式，即为：

$P_w(y|x)=\frac{\exp(w\cdot F(y,x))}{Z_w(x)}\\Z_w(x)=\sum\limits_y \exp (w\cdot F(y,x))$

其中 $F (y, x)$ 表示全局特征向量： $F(y,x)=(f_1(y,x),f_2(y,x),...,f_K(y,x))^T$ ， $w$ 表示权值向量： $w=(w_1,w_2,...,w_K)^T$ 。

3.3 矩阵形式

假设对每个位置 $i$ 的标记 $y_i$ 有 $m$ 种状态的取值，定义一个m 阶矩阵随机变量：

$M_i(x)=[M_i(y_{i-1},y_i|x)]=[\exp(W_i(y_{i-1},y_i|x))]=[\exp(\sum\limits_{k=1}^K w_kf_k(y_{i-1},y_i,x,i))]$

其中 $y_i$ 表示随机变量 $Y_i$ 的取值（同理 $y_{i-1}$ ）。为每个标记序列引入起点状态标记和终点状态标记 $y_0=start,y_{n+1}=stop$ ，这样，标记序列 $y$ 的条件概率可表示为n+1个矩阵元素的乘积：

$P_w(y|x)=\frac{1}{Z_w(x)} \prod\limits_{i=1}^{n+1}M_i(y_{i-1},y_i|x)\\Z_w(x)=[M_1(x)M_2(x)...M_{n+1}(x)]_{start,stop}$

规范化因子 $Z_w(x)$ 是以start为起点stop为终点的所有状态路径 $y_1 y_2...y_n$ 的非规范化概率之和。非规范化概率就是指 $\prod\limits_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$ 。

【注意】非规范化概率 $M_{i}(y{i-1},y_i|x)$ 起的作用和HMM中的隐藏状态转移概率很像，但是这儿的概率是非规范化的。

4. HMM 与 CRF的联系

回顾HMM中，假设状态序列为I，观测序列为O时，则在HMM模型中，I与O的联合概率为：
$\begin{aligned}P(O,I/\lambda)&=\pi_{i_1}b_{i_1}(o_1)a_{i_1 i_2}b_{i_2}(o_2)...a_{i_{T-1} i_T}b_{i_T}(o_T)\\&=\pi_{i_1}\cdot \prod\limits_{t=1}^{T-1} a_{i_t i_{t+1}} \cdot \prod\limits_{t=1}^{T} b_{i_t}(o_t)\end{aligned}$

其中 $\lambda$ 为模型参数， $b_j(k)$ 为发射概率 $P(o_t=v_k|i_t=q_j)$ ， $a_{ij}$ 为转移概率 $P(i_{t+1}=q_j|i_t=q_i)$ 。对上述概率取对数，可得到：

$logP(O,I|\lambda)=log\pi_{0}+\sum\limits_{i}logP(y_{i}|y_{i-1})+\sum_ilogP(x_i|y_i)$

如果我们将这些对数概率值，看作是转换特征与发射特征（或者叫状态特征）的权重 $w$ ，并为其构建合适的特征函数 $f_k(y_{i-1},y_i,x,i)$ ，那么这就完全具备了CRF的对数线性形式。即我们可以对任意的HMM建立等价的CRF：

为每个HMM的转换概率 $P(y_{i}=q_|y_{i-1}=q')$ ，定义一组转换形式为 $t_{q,q'}(y_{i-1},y_i,x,i)=1$ if $y_i=q \;and\; y_{i-1}=q'$ 的CRF转换特征，给每个特征的权重为 $w_{q,q'}=logP(y_{i}=q_|y_{i-1}=q')$
为每个发射概率 $P(x_i=o|y_i=q)$ 定义一组发射特征 $s_{q,o}(y_i,x,i)=1$ if $x_i=o \;and\; y_{i}=q$ ，给每个特征的权重为 $w_{q,o}=logP(x_i=o|y_i=q)$

这样通过CRF 使用这些特征函数计算得到的 $P (Y ∣ X)$ 与相应HMM计算得到的得分是精确成正比 的，所以每个HMM都存在某个对等的CRF。但是，CRF比HMM更强大，原因在于：

CRF可以定义更广泛的特征集，而HMM本质上是局部的特征（每个观测仅依赖于当前状态，每个状态仅依赖于上一时刻状态），而CRF（非线性链CRF）可以使用更加全局的特征。
CRF可以有任意权重值，而HMM的概率值（从HMM的CRF特征函数形式来看）必须满足特定的约束（概率约束，例如 $0\leqslant P(x_i|y_i) \leqslant1，\sum\limits_{o}P(x_i=o|y_i)=1$ ），而CRF的权重没有限制。而关于这一点的差异，其实本质上是无向图（CRF等）和有向图（HMM等）模型的差异。

5. LR（逻辑斯蒂回归）与 CRF的联系对数线性模型

线性链CRF $P (Y ∣ X)$ 的因子分解式，尤其是3.2节中的简化形式看起来很熟，来回顾一下（二元）逻辑斯蒂回归模型表达式：

$P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}\\P(Y=0|x)=\frac{1}{1+\exp(w\cdot x)}$

多元逻辑斯蒂回归模型表达式：

$P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum\limits_{k=1}^{K-1}\exp(w_k\cdot x)},\;k=1,2,...,K-1\\P(Y=K|x)=\frac{1}{1+\sum\limits_{k=1}^{K-1}\exp(w_k\cdot x)}$

以及最大熵模型：

$P_w(y|x)=\frac{1}{Z_w(x)}\exp\big(\sum\limits_{i=1}^n w_i f_i(x,y) \big)\\Z_w(x)=\sum\limits_y \exp\big(\sum\limits_{i=1}^n w_i f_i(x,y) \big)$

其中 $f_i(x,y)$ 特征函数， $w_i$ 为对应特征函数的权重。

再来看看CRF模型的形式：

$\begin{aligned}P_w(y|x)&=\frac{1}{Z_w(x)}\exp \big( \sum\limits_{k=1}^K w_kf_k(y,x)\big)\end{aligned}\\Z_w(x)=\sum\limits_y \exp \sum\limits_{k=1}^K w_kf_k(y,x)$

可以看到，CRF和最大熵一样，都与逻辑斯蒂回归模型有着类似的形式，分子上都是指数形式，分母都为归一化因子，取对数后都能得到一个线性表示，所以它们都称为 对数线性模型，模型的学习就是在给定的训练数据条件下对模型进行极大似然估计或者正则化的极大似然估计。

可以说，CRF实际上就是序列版本的逻辑回归，更确切的说，逻辑回归是分类问题的对数线性模型，CRF是时序数据问题的对数线性模型。

完整代码地址

完整代码请移步至: 我的github：https://github.com/qingyujean/Magic-NLPer，求赞求星求鼓励~~~

最后：如果本文中出现任何错误，请您一定要帮忙指正，感激~

参考

[1] 统计学习方法（第2版）李航
[2] 概率图模型 —— 串连 NB、LR、MEM、HMM、CRF

LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
数据安全审计平台的三大关键技术：日志分析、行为监测与智能告警 KKKlucifer 安全算法
在数字化浪潮中，数据安全审计是企业守护核心资产的“瞭望塔”。通过日志分析、行为监测、智能告警三大技术，数据安全审计平台构建起“全流程监控-异常识别-快速响应”的闭环，为数据安全筑牢防线。以下从技术原理、实践价值与行业应用展开解析。日志分析：数据安全的“DNA图谱”1.多源日志融合技术实现：通过Agent采集操作系统、数据库、网络设备等200+日志源，利用正则表达式、NLP技术解析非结构化日志（如“
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

条件随机场（CRF）原理小结（1）