PD我是你的真爱粉

命名实体识别BiLSTM-CRF

命名实体识别BiLSTM-CRF – 潘登同学的NLP笔记

文章目录

- 命名实体识别BiLSTM-CRF -- 潘登同学的NLP笔记
标注策略
早期方法
基于统计学习的方法
深度学习方法
BiLSTM-CRF
- 如果不加CRF层
- CRF 层可以从训练数据学习限制
- CRF层
- - Emission score(发射分数)
  - Transition score(转移分数)
  - Loss函数
  - 训练阶段-动态规划
  - 推理阶段-动态规划

标注策略

IOB 比如识别人名：PER

B：begin表示人名起始点
O：out表示非人名
I：internal表示人名,但不是起始点(中部或者结尾点)

BMES 比如识别人名: PER

B：begin表示人名起始点
M：middle表示人名中部
S: single表示非人名
E:end表示人名结束点

早期方法

是基于规则与词典的方式，就是把所有词记录下来，再用词典去匹配文章…

优点: 准
缺点: 泛化能力不好

基于统计学习的方法

HMM\CRF(jieba分词器)
混合方法
- 统计学习方法之间或内部层叠融合(集成学习)
- 规则、词典和机器学习方法之间的融合
- 将各类模型、算法结合起来，将前一级模型的结果作为下一级的训练数据(stacking)

深度学习方法

NN/CNN-CRF
RNN-CRF/LSTM-CRF
注意力机制
迁移学习(BERT-BiLSTM-CRF)

BiLSTM-CRF

普通的BiLSTM最后接的的一个softmax层, 在处理序列标注问题的时候, softmax也没考虑到序列结果，如连续出现两个动词，在一句话中是不太可能的；所以后面接一层CRF，CRF是使得最终的出现的结果序列Loss最小，从而能应用于序列标注问题上

生成式模型: (统计学习方法，计算(联合)概率分布的参数,不一定要x,y,有的话更好) HMM GMM Naive-bayes
判别式模型: (有判别式的，计算P(y|x)需要x,y来训练计算) CRF DT LR NN

我们假设我们有一个数据集有两类实体类型，Person 和 Organization。因此事实上在我们的数据集中，我们有 5 个实体标签：

B-Person
I- Person
B-Organization
I-Organization
O

进而，x 是一个句子包含 5 个词， $w_0,w_1,w_2,w_3,w_4$ 。更多地，在句子 x, $w_0,w_1]$ 是一个 Person entity, $w_3]$ 是一个 Organization entity 和其它的是“O”

首先, 在句子每个词，x 被表达为一个向量，向量由包含词的字嵌入和词嵌入组成。字的嵌入是随机初始化的。词嵌入通常是来自于预训练的词嵌入模型文件。在整个训练过程中所有的嵌入将会被细粒度的调优。
其次, BiLSTM-CRF 模型的输入是那些嵌入向量，输出是对于句子 x 中词的预测标签
BiLSTM层的输出是一个类别的logist(就是softmax之间的Z)，然后输入CRF层，CRF根据所有输入的Z，计算一条最有可能的路径(类似于维特比算法计算条件概率最大的那条路径)，最后得到一整段输出

如果不加CRF层

很明显，I-Organization I-Person和I-Organization I-Person这些输出是无效的。

CRF 层可以从训练数据学习限制

CRF 层可以加一些限制给最后的预测标签去确保它们是有效的。这些限制通过训练过程可以被 CRF 层从训练集数据中自动学到, 这些限制可以是

句子开头首个词的标签应该是B- 或O, 而不是I-
B-label1 I-label2 I-label3 I-..., 在这个模式中, label1, label2, label3 … 应该是同样的命名实体标签 . 例如 , B-Person I-Person 是有效的 , 但 B-Person I-Organization是无效的;

有了这些有用的限制，无效的预测标签序列的数量会急剧的下降

CRF层

在 CRF 层的损失函数中，我们有两种类型的分数。这两分数是 CRF 层的关键;

Emission score(发射分数)

第一个是 emission score。这些 emission scores 来自于 BiLSTM 层(就是前面说的 $Z$ )

我们使用 $x_i,x_j$ 去表达一个 emission score。 $i$ 是词的索引同时 $j$ 是标签的索引。例如,根据图, $x_i=1,x_j=2) = (x_{w1},x_{B-Organization})=0.1$ 这意味着 w1 作为 B-Organization 的分数是 0.1

Transition score(转移分数)

我们使用 $y_i,y_j)$ 去表达一个 transition score。例如, (y_{B-Person},y_{I-Person})=0.9$ 意味着标签转移B−Person→I−Person 的分数是 0.9。因此, 我们有一个转移分数矩阵存储了所有的标签和标签之间的分数;

为了去使得转移分数矩阵更加的鲁棒，我们将多添加两个标签 START 和 END。START 意味着句子的开始，不是第一个词。END 意味着句子的结束。

举个例子

	START	B-Person	I-Person	B-Organization	I-Organization	O	END
START	0	0.8	0.007	0.7	0.0008	0.9	0.08
B-Person	0	0.6	0.9	0.2	0.0006	0.6	0.009
I-Person	-1	0.5	0.53	0.55	0.0003	0.85	0.008
B-Organization	0.9	0.5	0.0003	0.25	0.8	0.77	0.006
I-Organization	0	0.8	0.007	0.7	0.65	0.76	0.2
O	0	0.65	0.0007	0.7	0.0008	0.9	0.08
END	0	0	0	0	0	0	0

事实上，这个矩阵是 BiLSTM-CRF 模型的参数。在你训练这个模型之前，你可以随机初始化矩阵中的所有转移分数。在模型的训练过程中所有随机的分数将会被自动地更新。换句话说, CRF 层可以由它自己学习那些限制。我们没有必要去手动建立这个矩阵。这些分数随着训练迭代的增加会逐渐变得越来越合理;

Loss函数

CRF 的损失函数，它由真正路径的分数和所有可能路径的总分数构成；

我们也有一个含有 5 个单词的句子。这些可能的路径将会是:

START B-Person B-Person B-Person B-Person B-Person END
START B-Person I-Person B-Person B-Person B-Person END

START B-Person I-Person O B-Organization O END

…
O O O O O O O

假设每一个可能的路径有一个分数 $P_i$ ，并且这里总共有 N 种可能的路径, 这些路径的
总分数是
$P_{total} = P_1 + P_2 + \cdots + P_N = e^{S_1} + e^{S_2} + \ldots + e^{S_N}$
其中， $S_i$ 可以理解为一个路径的分数, $S_i$ 由两部分组成 $S_i=EmissionScore+TransitionScore$ (之所以用e，是与softmax类似)
$P_i = \frac{e^{Z_i}}{e^{Z_1} + e^{Z_2} + \cdots + e^{Z_k}}$

如果我们说 $10^{th}$ 路径是真实的标签路径, 换句话说, the $10^{th}$ path 是由训练集提供的标签。分数 $P_{10}$ 它就应该是在所有可能路径中有最大比例的。下面给出的式子同时也是损失函数，在训练过程中，我们 BiLSTM-CRF 模型的参数值将会被不断的更新，为了保障真实路径的分数所占比例不断的增加。
$-\frac{P_{Real Path}}{P_1 + P_2 + \ldots + P_N}$

以START B-Person I-Person O B-Organization O END为例,
$EmissionScore = x_{0,START} + x_{1,B-Person} + x_{2,I-Person} + x_{3,O} + x_{4,B-Organization} + x_{5,O} + x_{6,END} \\ TransitionScore = t_{START,B-Person} + t_{B-Person,I-Person} + t_{I-Person,O} + t_{O,B-Organization} + t_{B-Organization,END} \\$

对Loss函数取对数
$\begin{aligned} LogLossFunction &= -log\frac{P_{RealPath}}{P_1 + P_2 + \ldots + P_N} \\ &= -log\frac{e^{S_{RealPath}}}{e^{S_1} + e^{S_2} + \ldots + e^{S_N}} \\ &= -(log(e^{S_{RealPath}}) - log(e^{S_1} + e^{S_2} + \ldots + e^{S_N})) \\ &= -(S_{RealPath} - log(e^{S_1} + e^{S_2} + \ldots + e^{S_N})) \\ \end{aligned}$
$S_{RealPath}$ 的计算方法已知，关键是怎么计算 $log(e^{S_1} + e^{S_2} + \ldots + e^{S_N})$

训练阶段-动态规划

目标： $log(e^{S_1} + e^{S_2} + \ldots + e^{S_N})$

这是过程是一个分数的累加。思想类似于动态规划,为了简化，我们假设句子长度为3，标签数量为2

Emission scores

	$l_1$	$l_2$
$w_0$	$x_{0,1}$	$x_{0,2}$
$w_1$	$x_{1,1}$	$x_{1,2}$
$w_2$	$x_{2,1}$	$x_{2,2}$

Transition scores

	$l_1$	$l_2$
$l_1$	$t_{0,1}$	$t_{0,2}$
$l_2$	$t_{1,1}$	$t_{1,2}$

第一个单词 $W_0$

$Obs = [x_{0,1},x_{0,2}],previous=None$

在第一个单词，我们没有之前的结果，因此previous是空，另外，我们只能观测第一个单词的发射分数是 $Obs = [x_{0,1},x_{0,2}]$ ,此时 $W_0$ 的所有路径的总分数
$TotalScore(w_0) = log(e^{x_{0,1}} + e^{x_{0,2}})$

更新 $previous = [log(e^{x_{0,1}}),log(e^{x_{0,2}})]$

第二个单词 $W_1$

$Obs = [x_{1,1},x_{1,2}],previous=[x_{0,1},x_{0,2}]$ (Obs与previous的长度始终等于标签数量)

扩展previous为
$\begin{pmatrix} x_{0,1} & x_{0,1} \\ x_{0,2} & x_{0,2} \\ \end{pmatrix}$

扩展Obs为
$\begin{pmatrix} x_{1,1} & x_{1,2} \\ x_{1,1} & x_{1,2} \\ \end{pmatrix}$

加和previous，obs和transition scores
$\begin{pmatrix} x_{0,1} & x_{0,1} \\ x_{0,2} & x_{0,2} \\ \end{pmatrix} + \begin{pmatrix} x_{1,1} & x_{1,2} \\ x_{1,1} & x_{1,2} \\ \end{pmatrix} + \begin{pmatrix} t_{1,1} & t_{1,2} \\ t_{2,1} & t_{2,2} \\ \end{pmatrix} = \begin{pmatrix} x_{0,1} + x_{1,1} + t_{1,1} & x_{0,1} + x_{1,2} + t_{1,2} \\ x_{0,2} + x_{1,1} + t_{2,1} & x_{0,2} + x_{1,2} + t_{2,2} \\ \end{pmatrix}$

transition scores是转移分数，所以前面两个矩阵的第二个下标，要与transition scores的下标对上，第一个矩阵中元素的第二个下标，是transition scores中的第一个下标；第二个矩阵中元素的第二个下标，是transition scores中的第二个下标

更新 $previous = [log(e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}}),log(e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}})]$

计算总分数
$\begin{aligned} TotalScore(w_0 \to w_1) &= log(e^{previous[0]} + e^{previous[1]}) \\ &= log(e^{log(e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}})} + e^{log(e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}})}) \\ &= log(e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}} + e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}})\\ \end{aligned}$

上面这个式子就是我们的目标 $log(e^{S_1} + e^{S_2} + \ldots + e^{S_N})$ 的一个具体表述了，更一般的我们再推一步

第三个单词 $W_2$

$Obs = [x_{2,1},x_{2,2}],previous=[log(e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}}),log(e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}})]$

扩展previous为
$\begin{pmatrix} log(e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}}) & log(e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}}) \\ log(e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}}) & log(e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}}) \\ \end{pmatrix}$

扩展Obs为
$\begin{pmatrix} x_{2,1} & x_{2,2} \\ x_{2,1} & x_{2,2} \\ \end{pmatrix}$

加和previous，obs和transition scores
$\begin{pmatrix} log(e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}}) & log(e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}}) \\ log(e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}}) & log(e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}}) \\ \end{pmatrix} + \begin{pmatrix} x_{2,1} & x_{2,2} \\ x_{2,1} & x_{2,2} \\ \end{pmatrix} + \begin{pmatrix} t_{1,1} & t_{1,2} \\ t_{2,1} & t_{2,2} \\ \end{pmatrix} = \begin{pmatrix} log(e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}}) + x_{2,1} + t_{1,1} & log(e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}}) + x_{2,2} + t_{1,2} \\ log(e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}}) + x_{2,1} + t_{2,1} & log(e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}}) + x_{2,2} + t_{2,2} \\ \end{pmatrix}$

更新 $\begin{aligned} previous &= [log(e^{log(e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}}) + x_{2,1} + t_{1,1}} + e^{log(e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}}) + x_{2,1} + t_{2,1}}), \\ & log(e^{log(e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}}) + x_{2,2} + t_{1,2}} + e^{log(e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}}) + x_{2,2} + t_{2,2}})] \\ & = [log((e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}})e^{x_{2,1} + t_{1,1}} + (e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}})e^{x_{2,1} + t_{2,1}}), \\ & log((e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}})e^{x_{2,2} + t_{1,2}} + (e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}})e^{x_{2,2} + t_{2,2}})] \\ \end{aligned}$

计算总分数
$\begin{aligned} TotalScore(w_0 \to w_1 \to w_2) &= log(e^{previous[0]} + e^{previous[1]}) \\ &= log(e^{log(log((e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}})e^{x_{2,1} + t_{1,1}} + (e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}})e^{x_{2,1} + t_{2,1}}))} \\ & + e^{log(log((e^{x_{0,1} + x_{1,1} + t_{1,1}} + e^{x_{0,2} + x_{1,1} + t_{2,1}})e^{x_{2,2} + t_{1,2}} + (e^{x_{0,1} + x_{1,2} + t_{1,2}} + e^{x_{0,2} + x_{1,2} + t_{2,2}})e^{x_{2,2} + t_{2,2}}))}) \\ &= log(e^{x_{0,1} + x_{1,1} + t_{1,1} + x_{2,1} + t_{1,1}} \\ &+ e^{x_{0,2} + x_{1,1} + t_{2,1} + x_{2,1} + t_{1,1}} \\ &+ e^{x_{0,1} + x_{1,2} + t_{1,2} + x_{2,1} + t_{2,1}} \\ &+ e^{x_{0,2} + x_{1,2} + t_{2,2} + x_{2,1} + t_{2,1}} \\ &+ e^{x_{0,1} + x_{1,1} + t_{1,1} + x_{2,2} + t_{1,2}} \\ &+ e^{x_{0,2} + x_{1,1} + t_{2,1} + x_{2,2} + t_{1,2}} \\ &+ e^{x_{0,1} + x_{1,2} + t_{1,2} + x_{2,2} + t_{2,2}} \\ &+ e^{x_{0,2} + x_{1,2} + t_{2,2} + x_{2,2} + t_{2,2}}) \\ \end{aligned}$

可以发现，计算总分数其实是穷举法，但是只是列出的表达式看上去是穷举（第二个词的时候TotalScore是由四个路径构成，第三个词的时候TotalScore则是由八个路径构成），但是实际上计算的时候，一直都是Obj，previous与transition scores这三个矩阵的加法，所以动规解决了很多计算量…

推理阶段-动态规划

也是上面的步骤

计算当前Obs(Emission scores)
计算scores
$\begin{pmatrix} previous[0] & previous[0] \\ previous[1] & previous[1] \\ \end{pmatrix} + \begin{pmatrix} Obs[0] & Obs[1] \\ Obs[0] & Obs[1] \\ \end{pmatrix} + \begin{pmatrix} t_{11} & t_{12} \\ t_{21} & t_{22} \\ \end{pmatrix}$
更新 $p r e v i o u s ， p r e v i o u s = [m a x (s c o r e s [0, 0], s c o r e s [1, 0]), m a x (s c o r e s [0, 1], s c o r e s [1, 1])]$ , previous装的是到当前时刻，从前面过来，到当前时刻该标签的分数最大的那条路径
将分数保留在 $\alpha_0$ 里，对应列索引保留在 $\alpha_1$ 里( $\alpha_1$ 表示上一个节点是什么标签,关键是 $t$ 矩阵(transition scores)的下标,)
$\alpha_0 = [(0.5,0.4)], \alpha_1 = [(1,1)]$

以三个单词为例，最终 $\alpha_0$ 与 $\alpha_1$ 中存储的值如下
$\alpha_0 = [(0.5,0.4),(0.8,0.9)], \alpha_1 = [(1,1),(1,0)]$
我们选择最大的分数0.9，0.9本身是标签2，他的前一个节点是标签0，在前一个节点是标签1，所以就能得到路径，具体路径选择如下图所示

计算机毕业设计——springboot的准妈妈孕期交流平台
**欢迎来到琛哥的技术世界！**博主小档案：琛哥，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：琛哥在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，琛哥更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。博客亮点：琛哥坚信“授人以渔胜于授人以鱼”，因此我的博客中，你不仅可以找到关于技术的深入解
信而泰×DeepSeek：AI推理引擎驱动网络智能诊断迈向 “自愈”时代
DeepSeek-R1：强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力，融合了自然语言处理（NLP）、深度学习、大规模数据分析等前沿技术。DeepSeek-R1具备卓越的逻辑推理、多模态分析（文本/图像/语音）和实时交互能力，能够高效处理代码生成、复杂问题求解、跨模态学习等高阶任务。凭借其开源、高效、多模态
NLP论文速读|chameleon：一个即插即用的组合推理模块Plug-and-Play Compositional Reasoning with Large Language Models Power2024666 NLP论文速读自然语言处理人工智能机器学习深度学习 nlp 语言模型
论文速读|Chameleon:Plug-and-PlayCompositionalReasoningwithLargeLanguageModels论文信息：简介:该论文介绍了一个名为Chameleon的人工智能系统，旨在解决大型语言模型（LLMs）在处理复杂推理任务时存在的固有限制，例如无法访问最新信息、使用外部工具以及执行精确的数学和逻辑推理。Chameleon通过插入即用模块增强LLMs，使其
AI深度噪音抑制技术
这两年人工智能快速发展，AI已经渗透到了各行各业。在噪音抑制技术领域，AI也同样发挥了巨大的作用。AI深度噪音抑制技术是一种利用人工智能和深度学习算法来动态处理和减少音频信号中的噪声，从而提升音频的清晰度和质量。与传统的噪音抑制技术相比，AI深度噪音抑制能够更智能、更精准地分辨出背景噪音与有用的语音或音乐信号，尤其在复杂、多样的环境下表现尤为出色。1.工作原理AI深度噪音抑制技术基于深度神经网络（
【深度学习】softmax 回归的从零开始实现与简洁实现 Douglassssssss 深度学习深度学习回归人工智能 softmax回归交叉熵损失函数
前言小时候听过一个小孩练琴的故事，老师让他先弹最简单的第一小节，小孩练了两天后弹不出。接着，老师让他直接去练更难的第二小节，小孩练习了几天后还是弹不出，开始感觉到挫败和烦躁了。小孩以为老师之后会让他从简单的开始练，谁知老师直接让他开始练最难的一小节。小孩不干了，问老师是不是故意刁难他。老师笑笑，让他现在弹弹第一小节试试。神奇的是，小孩竟然发现自己已经能完整弹出来了。这有点像我现在的学习状况，前些天
数据集标准化:软件2.0的基石工程 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
数据集标准化,软件工程,数据质量,机器学习,人工智能,数据治理,数据可信度1.背景介绍在当今数据爆炸的时代，数据已成为企业和组织的核心资产。然而，海量的原始数据往往杂乱无章，格式不统一，质量参差不齐，这严重阻碍了数据价值的挖掘和应用。数据标准化作为解决这一问题的关键技术，已成为软件2.0时代不可或缺的基石工程。软件2.0时代，人工智能、机器学习等技术蓬勃发展，对数据质量提出了更高的要求。传统的软件
李开复：AI 2.0 时代的意义 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，伦理问题，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从最初的局限于特定领域的应用，逐渐发展到能够处理更复杂的任务，甚至展现出一些类似人类智能的能力。2010年以来，深度学习技术的兴起，特别是Transformer模型的出现，为AI发展带来了新的突破。这些模型能够处理海量数据，学习复杂的模式，并在自然语言处理
Python 现代时间序列预测第二版（五）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/22eab741fce9c15dfad894ecf37bdd51译者：飞龙协议：CCBY-NC-SA4.0第十七章：概率预测及更多在整本书中，我们学习了生成预测的不同技术，包括一些经典方法，使用机器学习以及一些深度学习架构。但我们一直在关注一种典型的预测问题——为连续时间序列生成点预测，并且没有层级关系且历史数据足够丰富。我们之所以这样做，是因为这
人的价值就是能让别人生活得更有价值——读荆志强老师的书有感花婆婆
最近读了荆志强老师的专著《快乐地做教育》，前言就提到：教育的本真，就是通过激励为学生赋能，帮助学生产生足够的“自我效能感”，让学生主动获取知识技能、培育情感态度；帮助学生建立自主深度学习的能力。荆志强老师倡导的“赋能教育”主要从两个方面建构：激励型课堂、自主化管理。其中，他还谈到生本教育的学习观：学习是生命成长的过程，它是人自身的一种需要，而不是外在压力的结果。教育的一切行为都应该是为了满足儿童的
RAG 助力教育个性化：重塑学习体验的科技引擎 hy098543 学习科技
一、引言1.1研究背景与动机随着自然语言处理（NLP）技术的飞速发展，大语言模型（LLM）在众多任务中展现出了强大的能力，如文本生成、问答系统和机器翻译等。然而，传统的大语言模型在知识存储和更新方面存在一定的局限性。一方面，模型的知识主要依赖于预训练阶段所接触的数据，这导致其知识更新滞后，难以应对快速变化的现实世界信息。例如，对于一些新出现的事件、技术或研究成果，模型可能无法及时给出准确的信息。另
ChatGPT 之后的下一步是什么？四个迫在眉睫的进步 iCloudEnd
OpenAI的文本生成器ChatGPT进入公共领域已经两个半月了，该机器人令人印象深刻且深思熟虑的答案已经引起了1300万日常用户的注意，他们已经将其用于一般问题、开发想法和写作全长文章。尽管ChatGPT存在重大缺陷（例如一些事实不准确），但许多人担心这可能对劳动力、学校、新闻业等产生影响。然而，我们可能正处于一场巨大的人工智能革命的开端。OpenAI总裁兼联合创始人GregBrockman于1
喜爱购有什么新消息？如何打造百城万店氧惠好物
自2020年10月起，西安喜爱购商贸商贸股份有限公司全力打造的“百城万店”新零售商业模式应运而生。在探索新零售的道路上,通过互联网、大数据、云计算、人工智能等新技术,重构“人、货、场”商业元素,秉持“舍利差赚服务”经营理念,在全国至少一百个城市的“一千户以上的中高端社区”,打造至少两万家“一区一店”社区生活超市。大家好！我是氧惠最大团队&联合创始人氧惠达人导师。氧惠佣金更高，模式更好，终端用户不流
AI 驱动自动化运维平台架构与实现大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 算法机器学习人工智能决策树大数据
摘要：随着云计算、容器化和大规模分布式系统的普及，传统人工运维方法已难以满足现代IT环境中海量指标、日志和拓扑关系的实时分析与故障响应需求。AI驱动的自动化运维（AIOps）平台通过融合机器学习、深度学习、图分析以及强化学习等多学科技术，实现对海量运维数据的智能感知、预测、诊断和自动化修复。本文深入探讨AI驱动自动化运维平台的整体架构设计与核心技术实现，涵盖数据采集与预处理、AI引擎设计、自动化执
冒充顺华文庭内部群胜天半子毛顺华就是骗子，中粮仓智慧农业虚拟盘及早远离切勿被套！昌龙律法
人到老年，就怕手头没钱。一些不法分子利用老年人信息闭塞、认知较弱等特点瞄准了老年人的“钱袋子”花样百出实施诈骗老年人损失财产的同时还饱受精神打击不能忍！这些套路，应该让爸妈知道智慧农业，低碳环保双探交易市场，数字体育，人工智能十选五就是骗局我们曾曝光了无数种金融骗局，不知道能有多少人看到，能帮一个是一个，再次曝光一种炒股诱导做慈善参加数字经济的骗局，相信作为股民，大家都会经常接到一下分析个股，或者
人工智能真的能编程吗？研究勾勒出自主软件工程的障碍 WSSWWWSSW 人工智能软件工程
想象一下这样一个未来：人工智能悄然承担起软件开发的繁重工作：重构杂乱无章的代码、迁移遗留系统以及排查竞态条件，这样人类工程师就可以专注于架构、设计以及那些机器仍然无法解决的真正新颖的问题。最近的进展似乎让这个未来近在咫尺，但麻省理工学院计算机科学与人工智能实验室（CSAIL）以及其他几家合作机构的研究人员发表的一篇新论文指出，要实现这个潜在的未来，需要认真审视当前面临的挑战。这篇题为《面向软件工程
GPU 之后，IMU 登场：AI 发展的下一次飞跃
你早晨醒来，手机上的大模型帮你写完邮件、翻译合同，却依旧不能帮你把厨房里洒掉的牛奶擦干。你戴上的AR眼镜知道“那里有杯子”，却抓不到它——AI会说不会做。是不是哪里少了一截？人工智能（AI）的发展历程中，我们见证了从简单的数据处理到复杂的语言生成能力的飞跃。然而，尽管AI在虚拟世界中表现出色，它在物理世界中的表现却相对滞后。为了填补这一空白，AI正在进入一个新的发展阶段：行动驱动时代。在本文中，我
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架（原创创新算法）
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架项目背景随着深度学习技术的快速发展，目标检测在各个领域都取得了显著的进展。然而，现有的监督学习方法在实际应用中面临着标注数据稀缺、泛化能力不足等挑战。特别是在火灾烟雾检测、工业质检等特定场景中，获取大量高质量标注数据的成本极高。为了解决这一问题，本项目基于最新发布的YOLOv13架构，结合EfficientTeacher半监督学习框架，
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
语音识别开源项目推荐：GitHub热门仓库盘点 AGI大模型与大数据研究院 AI大模型应用开发实战语音识别开源 github ai
2024年必看！GitHub热门语音识别开源项目全解析：从入门到实战关键词语音识别(ASR)、开源项目、GitHub、Whisper、FunASR、PaddleSpeech、深度学习摘要想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（AutomaticSpeechRecognition,ASR）技术正在改变我们与机器
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
分类模型（BERT）训练全流程巴伦是只猫人工智能分类 bert 数据挖掘
使用BERT实现分类模型的完整训练流程BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种强大的预训练语言模型，在各种NLP任务中表现出色。下面我将详细梳理使用BERT实现文本分类模型的完整训练过程。1.准备工作1.1环境配置pipinstalltransformerstorchtensorflowpandassklearn1.2
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
生命3.0时代，面对人工智能时代的到来，我们可以做些什么笃定的沙丁鱼
生命的定义生命的定义有很多，最为人所熟知的是在生物学上的定义，即生命是蛋白质存在的一种形式。但是，这种定义可能不太适用于未来的智能机器和外星文明，我们不能将我们对未来生命的思考局限在过去遇到过的物种，所以需要将生命定义得更广阔一些：生命是一个能保持自身复杂性并能进行复制的过程。复制的对象并不是由原子组成的物质，而是能阐明原子是如何排列的信息，这种信息由比特组成。换句话说：我们可以将生命看作一种自我
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
不正规不靠谱：假摩根士丹利内部群推荐绿色低碳减排平台骗局揭露!送一万体验资金做慈善全是假的! 易星辰分享普法
关于曝光网上摩根士丹利何晓斌宝丰能源节能减排在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class