qjf42

N-gram语言模型 & Perplexity & 平滑

文章目录

- 1. N-gram语言模型
- 2. Perplexity（困惑度）
- 3. 平滑方法
- - - 3.1 问题
    - 3.2 常用方法
    - - 3.2.1 Laplace平滑 (add-one, add-α)
        
        3.2.2 Good-Turing Smoothing
        
        3.2.3 Backoff (Katz)
        
        3.2.4 Interpolation（Jelinek-Mercer）
        
        3.2.5 Recursive Interpolation
        
        3.2.6 Absolute Discounting
        
        3.2.7 Witten-Bell Smoothing
        
        3.2.8 Kneser-Ney discounting
        
        3.2.9 Stupid Backoff
    - 3.3 小结
- 4. Reference

1. N-gram语言模型

语言模型（Language Model,LM）的一个常见任务，是已知一句话的前面几个词，预测下一个是什么，即对 $P(w_i|w_1^{i−1})$ 建模
N-gram语言模型，是基于Markov假设，假设文本中的每个词只与前面的n-1个词有关，即 $P(w_i|w_{1}^{i-1}) \approx P(w_i|w_{i-n+1}^{i-1}) = P(w_i|w_{i-1}, \dots ,w_{i-n+1})$
这可以通过对训练语料做极大似然估计，
$P(w_i|w_{i-n+1}^{i-1}) = \frac{Count(w_i, w_{i−1},…,w_{i−n+1})}{Count(w_{i−1},…,w_{i−n+1)}}$
由此我们可以求一段文本（句子） $s$ 的概率
- 首先在句子的首尾增加两个特殊标记 $\text{<s>, </s>}$
- 再通过链式法则，以bigram（n=2）为例，
  $\begin{aligned} P(s) &= P(\text{<s>}, w_1, \dots, w_N, \text{</s>}) \\ &= P(\text{<s>}) P(w_1 | \text{<s>}) P(w_2 | w_1, \text{<s>}) \dots P(w_N |w^{N−1}_1, \text{<s>})P( \text{</s>} |w^N_1, \text{<s>}) \\ &= P(w_1 | \text{<s>}) P(w_2 | w_1) \dots P(w_N |w_{N−1})P( \text{</s>} | w_N) \end{aligned}$
  
  这里忽略 $P(\text{<s>})$ ~~，因为始终等于1~~
  
  ~~这里一共是 $N + 1$ 项（与很多地方说的都不一样）~~
  
  ~~不能没有 $\text{</s>}$~~
  
  可以证明，对于一个固定长度 $N$ ，所有可能句子 ${S_N\}$ 的概率之和，即
  $\sum_{s \in \{S_N\}} P(\text{<s>}, w_1, \dots, w_N) = 1$
  
  ~~那么对于不同长度的句子集合，即“所有可能的句子”，其概率之和 > 1~~

2. Perplexity（困惑度）

刚才我们通过训练集得到了语言模型，而perplexity是一种评价语言模型在测试集上表现的方法

对一句句子来说，
$P(s)^{-\frac{1}{N+1}} = 2^{-\frac{1}{N+1} \cdot \log P(s)}$

对于bigram LM来说，就是
$\sqrt[N+1]{\frac{1}{P(w_1 | \text{<s>}) P(w_2 | w_1) \dots P(w_N |w_{N−1})P( \text{</s>} | w_N)}}$

对于整个测试集，我们再对所有句子的perplexity，求几何平均，得到整体的结果
这里用 $N^{'}$ 表示所有测试集中句子长度之和，即 $N'=\sum (N_k+1)$ ，
$P(S)^{-\frac{1}{N'}} = 2^{-\frac{1}{N'} \cdot \log P(S)} = 2^{-\frac{\sum \log P(s_k)}{\sum (N_k+1)}}$

解释

注意上面的指数表达形式，其中 $-\frac{1}{N'} \log p(S)$ 可以理解为（对词平均的）交叉熵（cross-entropy），也就是 $-\sum q(w) \log p(w)$

这里 $q (w)$ 是经验分布，即 $\frac{n}{N'}$ ， $n = C o u n t (w)$ ， $-\log p(w)$ 表示其信息量（编码长度，惊讶程度(?)）

所以，perplexity就是在某种编码方式（语言模型）下评估测试集的平均编码长度(平均惊讶程度(?))，也就是交叉熵的含义

LM拟合得越好，即模型越贴近真实分布 $q$ ，perplexity（交叉熵）越小，KL散度越小，越接近真实分布的熵
$H(q,p)=\mathbb {E}_q [-\log p] = H(q) + D_{KL}(q\|p) \ge H(q)$

注意

不同LM比较时，需要有相同的词表，否则比较结果可能会不可靠

举个极端的例子：某个模型中词表中只包含两个词：“的” 和 $\text{<unk>}$ （下面提到的OOV的一种处理方式，可以看做一个特殊词），因为两者出现的次数都足够多，那么其LM必然是很准的

3. 平滑方法

PS：以下对"ngram"和"词"不做区分

3.1 问题

假如我们词表的大小是50万，则要覆盖所有的bigram情况，需要至少2500亿个词的语料，参数必然也是这个数量级；对于trigram（n=3）以及更大的n，还会更大，显然这是不现实的

很多的词不会相邻出现，即大部分 $P(w_i|w_{i-n+1}^{i-1}) = 0$ (稀疏)，另外，还有很多训练语料中不存在(OOV, Out-of-vocabulary) 的词

所以，如果训练语料数量不够大，或者词表不够全，得到的语言模型容易出现过拟合

3.2 常用方法

3.2.1 Laplace平滑 (add-one, add-α)

$\frac{c + \alpha}{n + \alpha v}$

其中 $\le \alpha \le 1,\ v = |V|$

$\alpha = 0$ 时，即为不做平滑的结果

$\alpha = 1$ 时，即为常说的add-one

两类词

对于词表内的词， $\sum_{1}^{v} {p} = 1$ ，也就是说，在做了平滑之后，表内词概率和为1（也就是说算上OOV所有可能出现的词概率之和>1 !）

可以理解为一个利用了 Dirichlet-Multinomial 共轭 的MAP（最大后验估计）

假设词表的先验分布 $P_{prior} \sim Dir(\alpha \cdot I_v)$ ，其中 $I_v$ 是长度为 $v$ ，元素都是1的向量（不考虑OOV）（从期望上看，各个词是相等的）

语料中的词服从多项分布 $P_{data} \sim {Mult}()$

则词的后验分布为 $P_{post} \sim Dir(\{c_i + \alpha\})$ ，期望为上面的 $p$

对于OOV的词， $\Rightarrow p=\frac{\alpha}{n + \alpha v} = \frac{1}{n/\alpha + v}$ ， $\alpha$ 的选择可以用cross-validation

3.2.2 Good-Turing Smoothing

假设语料中出现了 $r$ 次的词有 $N_r$ （出现 $r$ 次的词的集合大小），语料大小为 $N$ ，则 $\sum_{r=1}^{\infty} r N_r$

考虑unigram（n=1），出现 $r$ 次的所有词，其概率为 $\frac{r}{N}$

当 $r$ 较小时，极大似然估计可能不准确，同时我们也要考虑一下那些没有出现（ $r = 0$ ）的词，从而我们给所有 $r$ 打一个“折扣”（discount）,
$d_r = (r + 1)\frac{N_{r+1}}{N_r}$
容易证明， $\sum_{r=0}^{\infty} d_r N_r$

根据Zipf’s law， $r$ 越大， $N_r$ 越小，所以，一般情况下， $r^*<r$

可以证明， $d_r \approx E(r) = E(c^{*}(w)|c(w) = r)$

因为有未知的信息（unseen ngram），所以观测的统计量的方差较大（但仍是无偏的），所以设计一个条件概率来减小方差（?）

3.2.3 Backoff (Katz)

上面的两种处理方式，是对原先概率为0的情况作了一刀切地处理，但是有些ngram其实比另一些更有可能出现，所以这么做肯定不那么准确。由此，我们分两种情况：

对于见过的ngram，优先用训练语料来拟合

对于unseen-ngram，取折扣因子(discounting factor)为剩下的概率，再递归地去寻找 (n-1)-gram（回退补偿，backoff）

$P_{BO}(w_n | w_{n−N+1}^{n-1}) = \begin{cases} P^∗(w_n | w_{n−N+1}^{n-1}), & if\ Count(w_{n−N+1}^{n}) > 0 \\ \alpha(w_{n−N+1}^{n-1}) P_{BO}(w_n | w_{n−N+2}^{n-1}), & else \end{cases}$

这里的 $P^∗(w_n | w_{n−N+1}^{n-1})$ 可以通过上面的Good-Turing Smoothing得到

因为没有加入 $r = 0$ 的情况，所以概率之和<1，剩下的部分就尽量匀给第二种情况，即 $\alpha(w_{n−N+1}^{n-1}) = 1 - \sum_{w_n} P^∗(w_n | w_{n−N+1}^{n-1})$

3.2.4 Interpolation（Jelinek-Mercer）

除了backoff之外，另一种利用多层context的方法是做插值，两者的不同在于

backoff在“证据充分”的情况下，会尽量用ngram直接估计，不行才会求助于更短的上下文

而插值法每次都会综合多个层次，这对于数据量少时减少过拟合很有用

以trigram为例，
$p_I(w_n|w_{n-1}, w_{n-2}) = \lambda_1 p(w_n) + \lambda_2 p(w_n|w_{n-1}) + \lambda_3 p(w_n|w_{n-1}, w_{n-2}) \\ s.t\ \ \ \lambda_1 + \lambda_2 + \lambda_3 = 1$

其中 $\lambda$ 也可以和上文（context）有关，即 $\lambda_1(w_{n-2}^{n-1}), \lambda_2(w_{n-2}^{n-1}), \lambda_3(w_{n-2}^{n-1})$

3.2.5 Recursive Interpolation

递归地调用插值法

$p_n^{I}(w_i | w_{i−n+1}^{i−1}) = \lambda(w_{i−n+1}^{i−1})\ p_n(w_i | w_{i−n+1}^{i−1}) + (1 − \lambda(w_{i−n+1}^{i−1}))\ p_{n−1}^{I}(w_i |w_{i−n+2}^{i−1})$

3.2.6 Absolute Discounting

上面的很多做法都需要对训练集中的ngram做discount，把剩下的概率匀给unseen ngram。

Church & Gale (1991) 做了一项实验，他们将语料库分成大小相同的两部分（训练集和验证集分别有2200万），观察那些在训练集中出现了 $r$ 次的bigram 在验证集中平均出现的次数。
下面给出不同的 $r$ 的结果，

可以看出，除了 $r = 0 或 1$ 的bigram之外，验证集中的平均出现次数，都约等于 $r - 0.75$ 。
和Good-Turing Smoothing不同的是，Absolute discounting 直接对 $r$ 进行某种确定性的操作，不依赖于训练集的 $N_r$ 。

照着这个思路，
$P_{AD}(w_i | w_{i-1}) = (Count(w_i, w_{i-1}) - d) / Count(w_{i-1}) + \lambda(w_{i−1})P(w_i)$

其中， $d$ 可以根据 $Count(w_i, w_{i-1})=0,1 或 \ge 2$ 设置不同的值

注意右边的第二个插值项（Good-Turing 中没有加这个）， $\lambda$ 不是一刀切，和context有关（比如可以用下面的Witten-Bell Smoothing来选择）

3.2.7 Witten-Bell Smoothing

一种确定插值法中 $\lambda$ 的思路

某些context ngram的下文的选择较少（e.g spite后一般固定搭配跟of），说明一般这个ngram本身会有一些代表性（信息量），需要 $\lambda$ 大一些

反之，对于一些下文分布的可能性较多的context（e.g constant，常见的形容词），这个context的信息量就比较小，要缩小context看看（甚至不用context），所以反过来 $\lambda$ 不能太大

具体计算方式，其中考虑每个context的可能的下文（possible extension）数量

3.2.8 Kneser-Ney discounting

让我们来看一道完形填空： I can’t see without my reading (York/glasses).

该选哪个呢？如果用unigram来选的话，York因为经常以New York的形式出现，且出现次数比glasses多，所以瞎猜的话，更倾向于选这个

但是也正因为York前面能选的并不多，而glasses之前的可能性明显更多一点（the, my, buy, break等），所以从这个角度来说，猜glasses更可能对

所以，与Witten-Bell的思路类似，但我们这里考虑可能的上文，或者说这个词本身作为下文（as continuation）的可能性

$P_{continuation}(w) \propto |\{v : C(vw) > 0\}|$

然后，我们normalize一下
$P_{continuation}(w) = \frac{|\{v : C(v,w) > 0\}|}{|\{v', w' : C(v',w') > 0\}|} = \frac{Count(w可能的上文种类)}{Count(所有出现过的bigram)}$

从而，我们有
$P_{KN}(w_i | w_{i−1}) = \frac{max(Count(w_i, w_{i-1}) - d, 0)}{Count(w_{i-1})}+\lambda(w_{i−1}) P_{continuation}(w_i)$

这里，我们用 $P_{continuation}(w_i)$ 代替了unigram $P(w_i)$

如果用的 $d$ 是一样的，那么 $\lambda(w_{i−1}) = \frac{d}{Count(w_{i-1})} |w : Count(w_{i−1}, w) > 0|$

对于更高阶的ngram，我们可以用递归的方式
$P_{KN}(w_i | w_{i-n+1}^{i-1}) = \frac {max(C_{KN}(w_{i-n+1}^{i}) - d, 0)}{C_{KN}(w_{i-n+1}^{i-1})} + \lambda(w_{i-n+1}^{i-1})P_{KN}(w_i | w_{i-n+2}^{i-1})$

其中，
$\begin{aligned} C_{KN}(\cdot) = \begin{cases} Count(\cdot) ,&\text{for the highest order}\\ continuation\ count(\cdot), &\text{for lower order} \end{cases} \end{aligned}$

解释一下，因为采用了递归形式，原先的第二项 $P_{continuation}$ 没有了；为了能用第一项的形式表达continuation，对于低阶的ngram，其count要用计算continuation时的方法

如果不限制 $d$ 是固定的，而采用absolute discounting中区分count为0, 1, >1的方法，那就变成了Modified Kneser-Ney discounting，基本是目前效果最好的平滑方法之一了

3.2.9 Stupid Backoff

google提出的一种面向大型语料库的方法，在语料足够多的情况下，效果可以与Kneser-Ney媲美
（有兴趣可以玩一下google ngram）

语料足够时（文中最大1.8万亿tokens，3000亿ngram(n=1-5)），对于seen ngram，直接用极大似然的结果，也能保证方差不会太大

而对于剩下的情况，用最简单的backoff处理
$\begin{aligned} S(w_n | w_{n−N+1}^{n-1}) = \begin{cases} P(w_n | w_{n−N+1}^{n-1}), & if\ Count(w_{n−N+1}^{n}) > 0 \\ \lambda(w_{n−N+1}^{n-1}) S(w_n | w_{n−N+2}^{n-1}), & else \end{cases} \end{aligned}$

因为没有对seen ngram做discount，所以总的概率之和>1，这里用 $S$ 而不是 $P$ 来表示

论文中， $\lambda$ 一刀切用了0.4

对大规模语料，ngram的抽取可以用map-reduce并行处理加快速度

3.3 小结

backoff/interpolation很管用，能尽可能地利用低阶信息，减少过拟合

在训练集比较小时，插值法更好一些

在训练集比较大时，backoff 可以直接用高阶的信息，所以效果会更好

具体的参数选择，需要通过在验证集上的表现决定

4. Reference

Speech and Language Processing 3rd ed, Chapter 4, Daniel Jurafsky.,

Statistical Machine Translation, Chapter 7, Koehn

Rust+ChatBoxAI：实战
ChatboxAIChatboxAI是一款基于人工智能技术的智能助手工具，旨在通过自然语言交互帮助用户完成多种任务。以下是其核心功能与特点：功能概述多模型支持：可连接OpenAI、Claude、Gemini等主流大语言模型，用户能自由切换不同AI服务。本地运行：支持离线使用，数据隐私性较强，适合敏感信息处理场景。跨平台兼容：提供Windows、macOS和Linux客户端，同步支持移动端应用。核心
基于R、Python的Copula变量相关性分析及AI大语言模型应用阁楼里的小花儿 R语言 Python Copula变量相关性分析 AI大语言模型结构方程模型贝叶斯网络统计学
前言：在工程、水文和金融等各学科的研究中，总是会遇到很多变量，研究这些相互纠缠的变量间的相关关系是各学科的研究的重点。虽然皮尔逊相关、秩相关等相关系数提供了变量间相关关系的粗略结果，但这些系数都存在着无法克服的困难。例如，皮尔逊相关系数只能反映变量间的线性相关，而秩相关则更多的适用于等级变量。大多数情况下变量间的相关性非常复杂，而且随着变量取值的变化而变化，而这些相关系数都是全局性的，因此无法提供
丰盛日记第三天幸运星小燕子
第123期NLP执行师二阶4组章艳Day3分享《有效引导他人的能力》学到情绪管理的方法和体验练习中感动的一天，我很开心！1、复习大脑结构:由原始脑、情绪脑、皮质层三部分组成；三部分需要充分配合和相互制约，考虑三赢后，才能做出正确的决定。2、情绪体验小游戏:树和松鼠，让我们提醒不同的情绪感受。3、处理情绪的四个方法:思维、体能、环境、关系；导师建议可以使用呼吸放松法，使自己的情绪可以及时的醒觉→_→
【转】【译】How to Handle Very Long Sequences with LSTM（LSTM RNN 超长序列处理）开始奋斗的胖子机器学习 RNN LSTM 序列深度学习
原文地址http://machinelearningmastery.com/handle-long-sequences-long-short-term-memory-recurrent-neural-networks/一个长的输入序列却只对应一个或者一小段输出就是我们经常说的序列标注和序列分类。主要包括下面一些例子：包含上千个词的文件情感分类（NLP）包含上千个时间状态的脑电痕迹分类（Medici
大型语言模型在自动化AI科学研究与论文撰写中的应用与展望这是Jamon AI4SR 人工智能
1.引言：LLM驱动科学研究与论文撰写的范式转变大型语言模型（LLM）的快速发展正在科学发现领域引发一场深刻的范式转变。这些模型正从最初的任务特定自动化工具，逐步演变为能够自主执行复杂任务的智能代理，从根本上重新定义了研究过程以及人机协作的模式。LLM所展现出的新兴能力，例如高级规划、复杂推理和精确指令遵循，显著加速了科学发现的步伐。传统科学研究通常是一个由人类主导的、高度线性且劳动密集型的过程，
LLM4SR: A Survey on Large Language Models for Scientific Research UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
文章主要内容文章围绕大语言模型（LLMs）在科学研究中的应用展开，系统探讨了其在科研各关键阶段的作用、方法、挑战及未来方向。科学假设发现：LLMs生成科学假设的研究源于“基于文献的发现”和“归纳推理”。现有方法通过灵感检索策略、反馈模块等组件提升假设生成质量，相关基准测试分为基于文献和数据驱动两类，评估指标涵盖新颖性、有效性等。虽取得一定成果，但面临实验验证困难、依赖现有LLMs能力等挑战。实验规
DeepSeekMath：突破开源语言模型在数学推理中的极限 AI专题精讲强化学习人工智能强化学习 AI技术应用
温馨提示：本篇文章已同步至"AI专题精讲"DeepSeekMath：突破开源语言模型在数学推理中的极限摘要数学推理由于其复杂且结构化的特性，对语言模型构成了重大挑战。本文介绍了DeepSeekMath7B，该模型在DeepSeek-Coder-Base-v1.57B的基础上继续进行了预训练，使用了来自CommonCrawl的120B数学相关token，同时包含自然语言和代码数据。DeepSeekM
通过 Ollama 获取并运行本地大型语言模型（LLM）
Ollama是一个开源工具，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。它支持多种操作系统（Windows、macOS、Linux），并提供简单的命令行接口和API，适合开发者、研究人员以及对数据隐私有较高要求的用户。本文档将详细指导您如何通过Ollama在本地获取和运行LLM。1.准备工作在开始之前，请确保您的系统满足以下要求：操作系统：Windows、macOS或Linux（支
Prompt：开启与AI高效对话的钥匙
解密Prompt：开启与AI高效对话的钥匙一、什么是Prompt？——AI的“使用说明书”想象一下，你正在指挥一位无所不知但毫无主动性的“实习生”——人工智能（AI）。你不能指望它“心领神会”，你必须给出清晰、具体的指令，它才能准确地完成你想要的任务。这个指令，就是Prompt（提示或提示词）。简单来说，Prompt是你向AI（如大型语言模型LLM）发出的文本或问题，用以引导它生成特定的、高质量的
“闭门造车”之多模态思路浅谈：自回归学习与生成 PaperWeekly 回归学习数据挖掘人工智能机器学习
©PaperWeekly原创·作者|苏剑林单位|科学空间研究方向|NLP、神经网络这篇文章我们继续来闭门造车，分享一下笔者最近对多模态学习的一些新理解。在前文《“闭门造车”之多模态思路浅谈：无损》中，我们强调了无损输入对于理想的多模型模态的重要性。如果这个观点成立，那么当前基于VQ-VAE、VQ-GAN等将图像离散化的主流思路就存在能力瓶颈，因为只需要简单计算一下信息熵就可以表明离散化必然会有严重
带你走进相位解包裹算法课程 Cedric1113 程序人生
第一节：相位解包裹基础理论与核心概念课程导入相位解包裹在三维测量中的重要性（工业检测、生物医学等）包裹相位与真实相位的关系（反正切函数的主值限制）核心概念解析相位跳变的原因与表现（噪声、光照不均等干扰）解包裹算法分类：路径跟踪法vs.全局优化法经典算法初探Goldstein枝切法（残差点检测与枝切线构建）最小二乘法（全局平滑优化原理）实验演示：仿真包裹相位图的生成与基础算法解包裹效果对比第二节：路
LLM模型贪婪、温度、Top-k、核采样方式的区别---附代码与示例繁星意未平 AI python 开发语言
LLM模型贪婪、温度、Top-k、核采样方式的区别—附代码与示例在自然语言生成任务中，不同的采样技术用于从语言模型的输出中选择下一个生成的单词或词语。这些技术包括贪婪采样、温度采样、Top-k采样和核（Nucleus）采样。它们在选择生成单词的过程中有不同的策略，本文将介绍这四种采样方式的区别。1.贪婪采样(GreedySampling)贪婪采样是一种直接选择最可能的下一个词的策略。具体步骤为：从
自动字幕生成器：Auto-Subtitle — 技术解析与应用指南房耿园Hartley
自动字幕生成器：Auto-Subtitle—技术解析与应用指南在视频内容日益丰富的今天，自动字幕生成工具变得越来越重要，尤其是对于听障人士、非母语者和在嘈杂环境下观看视频的人来说。Auto-Subtitle是一个开源项目，它利用先进的自然语言处理（NLP）技术为你的视频自动生成准确的字幕。本文将深入探讨这个项目的原理、功能、应用场景及特点，以期吸引更多开发者和用户关注并使用。项目简介Auto-Su
LLM 的Top-P参数是在LLM中的每一层发挥作用，还是最后一层？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 人工智能算法机器学习 transformer 自然语言处理
LLM的Top-P参数是在LLM中的每一层发挥作用，还是最后一层？Top-P（核采样）是在大语言模型（LLM）生成文本的最后一步发挥作用，具体来说是在模型输出**原始分数（Logits）**之后、应用Softmax函数生成概率分布之前进行筛选。它的作用机制与Temperature（温度）类似，但逻辑不同，以下从技术原理、代码实现和应用场景三个维度展开说明：一、技术原理：仅作用于生成阶段的最后一步1
本地部署 Kimi K2 全指南（llama.cpp、vLLM、Docker 三法）迎风斯黄 llama docker 容器 kimi
KimiK2是MoonshotAI于2025年7月11日发布的高性能多专家语言模型（MoE），支持最大128K上下文，激活参数规模为32B，具备极强的推理、代码生成与多轮对话能力。自从其权重以多种格式开源以来，许多开发者希望将其部署在本地，以获得更高的私密性和灵活性。本文将详细介绍三种主流本地部署路径，并提供完整的配置步骤和使用建议。准备工作（通用部分）在进行部署前，请准备如下环境与资源：✅最低硬
KAIST：LLM混合递归推理大模型任我行大模型-推理优化人工智能自然语言处理语言模型论文笔记
标题：Mixture-of-Recursions:LearningDynamicRecursiveDepthsforAdaptiveToken-LevelComputation来源：arXiv,2507.10524摘要缩放语言模型解锁了令人印象深刻的能力，但伴随的计算和内存需求使训练和部署都很昂贵。现有的效率工作通常针对参数共享或自适应计算，留下了如何同时实现两者的问题。我们引入了混合递归(MoR
GPT-4和Claude哪个好姜暮儿人工智能
选择GPT-4还是Claude？这就像在问“苹果还是橙子哪个更好”——‌答案完全取决于你的具体需求‌。两者都是顶尖大语言模型，但各有特色。我为你做了详细对比，帮你快速定位哪个更适合你：核心能力对比特性GPT-4(OpenAI)Claude(Anthropic)‌语言理解/推理‌顶尖水平，尤其擅长逻辑推理、代码生成极强，注重自然语言流畅性‌长文本处理‌上下文最大128Ktokens，但实际效果不如C
Python 机器学习：NumPy 实现朴素贝叶斯分类器 Python编程之道 Python编程之道 python 机器学习 numpy ai
Python机器学习：NumPy实现朴素贝叶斯分类器关键词：朴素贝叶斯分类器、NumPy、机器学习、概率模型、条件概率、拉普拉斯平滑、向量化计算摘要：本文系统讲解朴素贝叶斯分类器的核心原理，基于NumPy实现高效的算法框架，涵盖从概率理论到工程实现的完整流程。通过数学公式推导、代码实现和鸢尾花数据集实战，展示如何利用向量化计算优化概率估计，解决特征独立性假设下的分类问题。同时分析算法优缺点及实际应
人工智能界的“黑话“大揭秘：AI新词汇速成指南
人工智能界的"黑话"大揭秘：AI新词汇速成指南你是否曾在科技大佬们讨论AI时一头雾水？听到RAG、Agent、PromptEngineering时以为他们在说天书？别担心，今天我们就来一场AI术语的"通俗化运动"，让你轻松混入AI圈子，秒变内行人！LLM（大型语言模型）：AI界的"大胃王"LLM是吞噬了互联网大部分文字的"数据饕餮"。特点：训练数据以TB（万亿字节）计算参数动辄上千亿计算能力堪比小
解密Claude系列：从原理到实践的全方位解析软考和人工智能学堂强化学习人工智能 Claude快速入门 Claude
引言：Claude系列模型的崛起在人工智能领域，大型语言模型(LLM)的发展日新月异。OpenAI的GPT系列和Anthropic的Claude系列无疑是这一领域的双子星。Claude系列模型以其独特的"ConstitutionalAI"理念和强大的对话能力，正在重塑人机交互的未来。本文将深入探讨Claude系列的技术原理、架构特点，并通过实践代码展示其强大能力。Claude系列的技术演进1.Cl
SPARKLE：深度剖析强化学习如何提升语言模型推理能力
摘要：强化学习（ReinforcementLearning，RL）已经成为赋予语言模型高级推理能力的主导范式。尽管基于RL的训练方法（例如GRPO）已经展示了显著的经验性收益，但对其优势的细致理解仍然不足。为了填补这一空白，我们引入了一个细粒度的分析框架，以剖析RL对推理的影响。我们的框架特别研究了被认为可以从RL训练中受益的关键要素：（1）计划遵循和执行，（2）问题分解，以及（3）改进的推理和知
略说NLP引入公理模型的可行性金井PRATHAMA 知识图谱与NLP 自然语言处理人工智能知识图谱
在自然语言处理（NLP）的深层语义分析中，公理化体系的引入具有理论可行性，但其实际应用仍面临挑战。以下从公理模型的设计思路、关键技术要点及注意事项三个方面展开分析，结合搜索结果的多个相关技术点进行综合说明：一、公理模型在深层语义分析中的设计思路公理的定义与语义形式化公理模型需以形式化逻辑为基础，定义语义分析中的原始概念（如谓词、实体、关系）和推理规则。例如：原始概念：将语义角色（如施事者、受事者）
NLP中情感分析如何结合知识图谱在跨文化领域提升观念分析和价值判断的准确性？
情感分析结合知识图谱，能够显著提升观念分析和价值判断的准确性。这一融合的核心在于利用知识图谱的结构化语义网络，为情感分析提供深层语境、实体关联和领域知识支撑。以下是具体机制和应用场景的分析：一、知识图谱如何提升情感分析的语义理解1.解决歧义与上下文依赖问题：情感词（如“冷”）在不同语境中含义不同（“服务态度冷”表负面，“冷静分析”表中性）。方案：知识图谱通过实体链接识别文本中的对象（如“服务态度”
OpenCV 入门指南 —— 从环境搭建到图像处理 m0_74751715 opencv 图像处理人工智能 python
文章目录前言一、什么是OpenCV？二、环境准备与安装1.Python虚拟环境2.安装OpenCV3.验证安装三、读取与显示图像四、常见图像处理操作1.色彩空间转换2.图像平滑（模糊）3.边缘检测（Canny算法）4.在图像上绘制图形与文字五、视频与摄像头操作六、推荐学习路线七、参考资料前言在计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）凭借其开源、
SBERT、CoSENT和BETR以及transformers的区别和联系 panshengnan NLP nlp transformer
SBERT、CoSENT、BETR和Transformers的区别和联系这几个模型（SBERT、CoSENT、BETR）和框架（Transformers）都是围绕自然语言处理（NLP）的句子嵌入和语义理解任务展开的。它们的联系主要在于基于Transformer架构，并针对特定任务做了优化；区别则在于目标任务、优化策略、训练方法和适用场景等方面。1.联系基于Transformer架构：它们的核心编码
2025年最流行跑分最高的图片理解大模型调研报告
2025年最流行跑分最高的图片理解大模型调研报告引言当前，图片理解大模型正处于快速演进阶段，其技术发展呈现多维度深化与融合的特征。从技术演进方向来看，多模态融合已成为核心趋势之一，文本、图像、视频等不同模态的交互与协同能力显著提升。大型视觉-语言模型（LVLMs）作为人工智能领域的重要突破，标志着多模态理解与交互进入变革性发展阶段，尽管当前模型在各类任务中表现出色，但在细粒度视觉任务等基础能力层面
入门大模型神器：开源项目Happy LLM保姆级教程！
Happy-LLMHappy-LLM——从零开始的大语言模型原理与实践教程。本项目是一个系统性的LLM学习教程，将从NLP的基本研究方法出发，根据LLM的思路及原理逐层深入，依次为读者剖析LLM的架构基础和训练过程。同时，我们会结合目前LLM领域最主流的代码框架，演练如何亲手搭建、训练一个LLM，期以实现授之以鱼，更授之以渔。希望大家能从这本书开始走入LLM的浩瀚世界，探索LLM的无尽可能。特点•
django parler 使用教程
1.什么是DjangoParler？DjangoParler是一个强大的Django插件，用于实现多语言模型字段。它允许你在Django模型中定义可翻译的字段，使得每个语言版本的数据能够独立存储和管理。2.安装与配置首先，使用pip安装DjangoParler：pipinstalldjango-parler然后，在你的Django项目的settings.py中添加parler到INSTALLED_
SFT：大型语言模型专业化定制的核心技术体系——原理、创新与应用全景大千AI助手人工智能 Python #OTHER 语言模型人工智能自然语言处理深度学习机器学习微调 SFT
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！以下基于权威期刊、会议论文及技术报告，对监督微调（SupervisedFine-Tuning,SFT）的技术框架、创新方法与实际应用进行系统梳理：一、核心定义与技术原理基本概念SFT是在预训练语言模型（如GPT、BERT）基础上，利用标注数据集对模型进
【DeepSeek实战】10、模型上下文协议（MCP）全解析：从核心架构到实战应用，揭秘AI协作的“凤雏”之力无心水人工智能架构 DeepSeek实战模型上下文协议MCP CSDN技术干货 DeepSeek AI大模型
在人工智能技术飞速发展的今天，大型语言模型（LLM）的能力不断突破，但跨模型协作、上下文一致性维护等问题却成为制约AI系统向更智能、更协同方向发展的瓶颈。模型上下文协议（ModelContextProtocol，MCP）作为专为大模型设计的标准化通信框架，如同“凤雏”之于“卧龙”，为解决这些核心问题提供了关键方案。本文将全面解析MCP的核心概念、架构设计、实操代码、应用案例及未来趋势，通过5000
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

N-gram语言模型 & Perplexity & 平滑

文章目录

1. N-gram语言模型

2. Perplexity（困惑度）

3. 平滑方法

3.1 问题

3.2 常用方法

3.2.1 Laplace平滑 (add-one, add-α)

3.2.2 Good-Turing Smoothing

3.2.3 Backoff (Katz)

3.2.4 Interpolation（Jelinek-Mercer）

3.2.5 Recursive Interpolation

3.2.6 Absolute Discounting

3.2.7 Witten-Bell Smoothing

3.2.8 Kneser-Ney discounting

3.2.9 Stupid Backoff

3.3 小结

4. Reference

你可能感兴趣的:(NLP,ngram,语言模型,平滑,perplexity)