馨歌

拉呱NLP：传统文本表示（一）

文章目录

- - - - 1. One Hot编码
      - 2. Bag-of-words（BOW：词袋模型）
      - 3. N-gram
      - 4. NNLM（神经网络语言模型）

计算机只能算数而无法直接理解人类语言，所以就需要将其翻译成数字以便于处理，这个翻译的过程就是编码。具体到每个字/词要编成啥样式、多大的数字，方法就很很多了，本篇俺就按发展历史介绍几种重要的传统文本表示方法。

1. One Hot编码

最简单的编码，我相信地球人都能想到，没错，就是每个词用一个数字ID表示，比如 【我：1，爱：2，你：3】，这样计算机见到 “我爱你”就知道是“123”，见到“321”就知道是“你爱我”。我们知道数字都是有大小的，这个时候就有问题了，大家都是汉字，凭什么你是3，我是1，所以，为了体现字字平等，天下大同，大家都是1，都是可以区分的1，怎么区分呢，三个词一商量，要不我就是100，爱是010，你是001，这样问题就解决了（当然谁是100，谁是010，都没有关系）。这就是大名鼎鼎的One Hot（独热编码）。

如图所示，一个字/词一个id/index，再转成one-hot向量。对于单词 A，它出现在词表中的位置为 k，它的向量就是“第 k 位为1，其他位置为0 ”的一个向量。
优点就很明显了：

1.可以处理非数值型的特征，在逻辑回归等传统机器学习算法上应用比较广泛
2.一定程度上可以扩充特征，比如性别这一属性，经one-hot后就成为男、女两个特征

当然缺点也显而易见：

1.词与词是有语义关系的，one-hot显然没有考虑这种情况，每个词编码都是独立的；
2.词表有多长，每个词向量维度就有多长，造成维度灾难，计算量大，很容易OOM。

2. Bag-of-words（BOW：词袋模型）

把已有文本的所有词去重后放一个袋子里，就是BOW，没错，就是这么easy。但是怎么用呢？俺先来举个：

假设一共有这两句话，那组成的词袋去重后就包含9个词：

这时候t1、t2的表征向量长度就是9，大小用每个词的词频来表示：

t1、t2的距离：
$length(\vec{t1},\vec{t2})=||\vec{t1}-\vec{t2}||=\sqrt{1+1+1+1+1+1+1+1+1}=3$
BOW本质和one-hot是一样的，可以处理离散的非数值型数据，一定程度上扩充特征。但当文本很多时，句向量较长且很多为0，会得到一个稀疏矩阵；且词袋模型依赖词频，没有考虑词序等涉及语义的信息，文本的微小变动，也会造成很大影响，如“喜欢”前多加一个“不”字，语义完全相反但得出的结果仍然很相似。
提到文档和词频，自然就会想到TF-IDF，这是判断词的重要性算法，以后再说。

3. N-gram

语言模型的目标是啥呢？其实就是让语言字符拼起来能是一句人话，咋判断哪个字符串是最像人话的呢，没错，概率！概率越大越可能拼对了。语言模型的本质是对语句的概率分布建模。数学语言就是：
给定任意的字符串 $w_{1}^{n}=w_1w_2w_3...w_n$ ，计算该字符串出现的概率 $p(w_{1}^{n})$
根据贝叶斯公式，联合概率分解：
$p(w_{1}^n)=p(w_1w_2w_3...w_n)=p(w_{2}^n|w_1)p(w_1)=p(w_1)p(w_2|w_1)p(w_2|w_{1}^2)...p(w_n|w_{1}^{n-1})=\prod_{k=1}^{n}p(w_k|w_{1}^{k-1})$
其中： $p(w_3|w_{1}^2)\approx\frac{count(w_1w_2w_3)}{count(w_1w_2)}$
表示在词 $w_1w_2$ 一起出现的条件下， $w_1w_2w_3$ 排列出现的概率。

举个： $\textbf{text}\rightarrow\textbf{好客山东欢迎您}$
$p(text)=p(w_1=好,w_2=客,...,w_7=您)=p(好)p(客|好)p(山|好客)p(东|好客山)...p(您|好客山东欢迎)$
$p(山|好客)\approx\frac{count(好客山)}{count(好客)}$
这种方式存在的问题：
1.参数空间问题：从公式可以看出，随着字符串长度增加，参数会指数级暴增（条件概率 $p(w_n|w_{1}^{n-1})$ 的可能性太多），几乎不可能正确的估计这些参数。
2.数据稀疏严重(零概率/OOV问题)：对于非常多词对的组合，在语料库中都没有出现，依据最大似然估计得到的概率将会是0。而且当 $co u n t (好客山) = co u n t (好客)$ 时，也不能认为 $p (山 ∣ 好客) = 1$

为了解决问题1，引入了马尔科夫假设：随意一个词出现的概率只与它前面出现的n-1个词有关。基于该假设的统计语言模型就是N-gram语言模型。

当n=1时，即一个词的出现与它周围的词是独立，称为unigram。[我，爱，自，然，语，言，处，理]

当n=2时，即一个词的出现仅与它前面的一个词有关时，称为bigram

当n=3时，即一个词的出现仅与它前面的两个词有关，称为trigram

参数的数量级是n取值的指数倍，所以尽管理论上n的取值越大，效果越好。但在实践中用的最多的是bigram和trigram了，高于四元的用的非常少，由于训练它须要更庞大的语料，并且数据稀疏严重，时间复杂度高，精度却提高的不多。

n	模型参数
1(unigram)	$2\cdot10^5$
2(bigram)	$4\cdot10^{10}$
3(trigram)	$8\cdot10^{15}$
4(4gram)	$16\cdot10^{20}$

为了解决问题2，即由于语料的稀疏性，有些词序列找不到，所以需要对数据进行平滑处理，简单列几种数据平滑的方法：

加一平滑(拉普拉斯平滑)：将每个计数+1，使得概率为0的词序列得到一个很小的概率

优点：算法简单，解决了概率为0的问题
缺点：给训练语料中没有出现过的词分配了太多的概率空间，认为所有未出现的词概率相等也不合理。
古德-图灵平滑(Good-turing Smoothing)：用看见过1次的事情估计未看见的事件，并依次类推，用看见过2次的事件估计看见过1次的事件。 $r^*=(r+1)\frac{n_{r}+1}{n_r}，n_r:出现了r次n元对的个数$
所以N-gram中N元对 $w_{i-n+1}^{i}$ 出现次数为r的概率为： $P_{GT}(w_{i-n+1}^i)=\frac{r^*}{\sum_{r=0}^{\infty}r^*}$
古德-图灵估计公式中缺乏利用低元模型对高元模型插值的思想，通常不单独使用，而作为其他平滑算法中的一个计算工具。
回退平滑(Katz smoothing)：古德-图灵的改进版，当某一事件在样本中的概率大于阈值K（通常取0或1）时，运用最大似然估计的减值法来估计其概率。否则使用低阶的，即用 (n−1)gram的概率来替代n−gram的概率，这种替代受归一化因子 $\alpha$ 的作用。 $P_{KATZ}(w_{i-1}^i)=\begin{cases}d_r\frac{c(w^i_{i-1})}{c(w_i-1)}，\quad c(w_{i-1}w_i)=r>0\\\alpha(w_{i-1})P_{ML}(w_i)，\quad c(w_{i-1}w_i)=r=0\end{cases}$
其中 $r$ 表示出现次数， $P_{ML}(w_{i})$ 表示 $w_i$ 的最大似然估计概率，折扣率 $d_{r}$ 近似等于 $\frac{r^{*}}{r}$ ，减值由古德-图灵估计方法预测。
线性插值平滑(Jelinek Mercer)：利用低阶N-gram模型对高阶N-gram模型进行线性插值。 $P_{int\, erp}(w_i|w_{i-n+1}^{i-1})=\lambda_{w_{i-n+1}^{i-1}}*P_{ML}(w_{i-1}|w_{i-n+1}^{i-1})+(1-\lambda)*P_{int\, erp}(w_i|w_{i-n+2}^{i-1})$
N-gram模型可以递归地定义为：由最大似然估计得到的N-gram模型和线性插值的 (N-1)-gram模型。

N-gram语言模型的优点：

1.bigram，trigram 实现简单，能够很好地应用在一些经典场景中，例如检查拼写错误（极大似然句子概率）
2.常见搜索引擎的输入下拉帮助，就是通过n-gram来实现的
3.可解释性强，易于理解和调试。
4.易于增量实现和并行训练。

N-gram语言模型的缺点：

需要解决数据稀疏性的问题，需要利用平滑算法。

由于是离散型变量，没有办法度量词语之间相似度。

模型巨大，与|V| 词库大小呈指数增长。

4. NNLM（神经网络语言模型）

讲N-gram的时候，我们已经提到链式概率法则： $p(w_{1}^n)=p(w_1)p(w_2|w_1)p(w_2|w_{1}^2)...p(w_n|w_{1}^{n-1})=\prod_{k=1}^{n}p(w_k|w_{1}^{k-1})$
根据马尔科夫假设，当前词只与前 $m$ 个词有关：
$p(w_1^n)\approx\prod_{k=1}^{n}p(w_n|w_{n-m+1}^{n-1})$ $w_n：要预测的词 \quad w_{n-m+1}^{n-1}=w_{n-m+1},...,w_{n-1}：w_n前面的历史词语$
对上式进行建模，常采用极大似然估计，将目标函数设为： $L=\sum log\:p(w_n|w_{n-m+1}^{n-1})$ 对该函数进行最大化，可见概率 $p(w_n|w_{n-m+1}^{n-1})$ 已被视为 $w_n$ 关于 $w_{n-m+1}^{n-1}$ 的函数： $p(w_n|w_{n-m+1}^{n-1})=F(w_n,w_{n-m+1}^{n-1},\theta),\quad \theta表示待定参数集$ 这种方法相较于 $N - g r am$ 不需要先计算并保存所有的概率值，而是对函数 $F$ 进行优化得到最优的 $\theta^*$ 就可以了，且 $\theta^*$ 的量级远小于 $N - g r am$ 的参数量。
$\textbf{关键问题是函数F的构造，下面的NNLM就是通过神经网络来来构造F。}$
$\color{red}{NNLM也是word2vec算法的基础}$

NNLM来源于Bengio等人2003年的论文《A neural probabilistic language model . Journal of Machine Learning Research》,该论文提出的神经概率语言模型也用到了词向量一词。NNLM是一个简单易懂的模型，4层结构输入层(Input Layer)、投影层(Projection Layer)、隐藏层（Hidden Layer）、输出层（Output Layer）

对于语料 $C$ 中的任意词 $w$ ， $C o n t e x t (w)$ 表示其前面的 $n - 1$ 个词，这样的二元组 $(w, C o n t e x t (w))$ 为一个样本，对于一句话中前面几个词，其前面不够 $n - 1$ 个词，填充几个向量就好了，它们也参与训练。
其实更多时候，我们将其视为三层的网络结构，看个人怎么理解：

Bengio还考虑了输出层和投影层之间边相连的情况，这样无非是二者之间多了一个权重矩阵，有没有都不影响对算法本质的理解，只是作者发现多加入一个权重矩阵，虽然效果没有提升，但收敛速度会加快，减少迭代次数。
给定语料 $C$ 和设定词向量的长度 $l$ 之后，投影层和输出层的规模就确定了 $\textbf (n-1)\cdot l$ ，因为输入层包含 $C o n t e x t (w)$ 中的 $n - 1$ 个词，而投影层的 $X_w$ 则是由 $n - 1$ 个词向量首尾拼接起来的长向量，长度为 $(n-1)\cdot m$ ，计算过程为： $\begin {cases}Z_w=tanh(W_{X_w}+p)\\Y_w=U_{Z_w}+q\end{cases}$ $t anh$ ：双曲正切函数，作为隐藏层的激活函数。 $ℎ\:=\frac{ℎ\:}{ℎ\:}=\frac{e^x-e^{-x}}{e^x+e^{-x}}$

经过计算得到的 $Y_w=(y_{w1},y_{w2},y_{w3},...,y_{wn})^T$ 是长度为 $N$ (词汇表的长度)的向量，其分量 $y_{wi}$ 还不能表示概率，如果要 $y_{wi}$ 表示当上文为 $C o n t e x t (w)$ 时下文正好是 $D$ (词汇表)中的第 $i$ 个词时，还需要 $so f t ma x$ 归一化，即 $P(w|Context(w))=\frac{e^{y_{w,i_w}}}{\sum_{i=1}^{N}e^{y_{wi}}}$ $i_w$ 表示词 $w$ 在词典 $D$ 中的索引。
下面这张图则来自Benjio的论文：

该神经网络需要确定的参数就是我们前面提到的 $\theta^*$ ，在投影层和隐藏层，其实参数量还是比较大的，后面的 $w or d 2 v ec$ 就有对这部分的优化工作。
与 $N - g r am$ 模型相比，NNLM的优点主要体现在2个方面：
①词语之间的相似性可以通过词向量来体现。举个：如果 $t 1 =$ “狗坐在沙发上看电视”这句话出现了 $1000$ 次，而 $t 2 =$ “猫坐在沙发上看电视”只出现 $1$ 次，用 $N - g r am$ 的话，概率 $p (t 1)$ 明显大于 $p (t 2)$ ，但 $p (t 1)$ 、 $p (t 2)$ 应该很相近才对。在神经网络语言模型中，有一个假定，就是 $\color{red}{拥有了相似上下文的词语也应该有相似的语义}$ ，同时概率函数关于词向量是光滑的，即词向量的一个小变化对概率的影响也是小变化。
②该词向量模型自带平滑功能，不会出现像 $N - g r am$ 那样概率为0的情况。
缺点：
①计算量巨大，主要在于两个大矩阵的乘法；
②静态词向量的通病：没有解决一词多义；
③网络的输入窗口为固定值，不能更改；
④整个网络的参数，也是随着词表的增大呈线性增长的。

可以看到，NNLM模型中的词向量是模型训练过程中，目标函数的辅助参数，训练结束后，其实只是模型的一个副产品，但这个副产品很重要。事实上，大部分情况下，词向量和语言模型都是捆绑在一起的，训练后二者同时得到。

参考链接：
1.https://blog.csdn.net/qq_42734492/article/details/109076898
2.https://zhuanlan.zhihu.com/p/265716548
3.https://zhuanlan.zhihu.com/p/111534577
4.https://cloud.tencent.com/developer/news/455980
5.https://blog.csdn.net/u010379324/article/details/79564605
6.https://blog.csdn.net/itplus/article/details/37969519

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include