堂姐在这儿。

序列标注模型综述

命名实体识别是序列标注的子问题，需要将元素进行定位和分类，如人名、组织名、地点、时间、质量等。命名实体识别的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比） 命名实体。

一般来说进行命名实体识别的方法可以分成两大类：基于规则的方法和基于统计的方法。
基于规则的方法是要人工建立实体识别规则，存在着成本高昂的缺点。
基于统计的方法一般需要语料库来进行训练，常用的方法有最大熵、CRF、HMM、神经网络等方法。

逐一介绍。

1. 必备知识点

1.1 概率图

1.1.1 概览

在统计概率图（probability graph models）中，参考宗成庆老师的书，是这样的体系结构：

在概率图模型中，数据(样本)由公式 $G = (V, E)$ 建模表示：

$V$ 表示节点，即随机变量（可以是一个token或者一个label），具体地，用 $Y=(y_1,y_2,...y_n)$ 为随机变量建模，注意 $Y$ 现在是代表了一批随机变量（想象对应一条sequence，包含了很多的token）， $P (Y)$ 为这些随机变量的分布；
$E$ 表示边，即概率依赖关系。后面结合HMM或CRF的graph具体解释。

1.1.2 有向图 vs 无向图

上图可以看到，贝叶斯网络（信念网络）都是有向的，马尔可夫网络无向。所以，贝叶斯网络适合为有单向依赖的数据建模，马尔可夫网络适合实体之间互相依赖的建模。具体地，他们的核心差异表现在如何求 $P = (Y)$ ，即怎么表示 $Y=(y_{1},\cdots,y_{n}）$ 这个的联合概率。

有向图
对于有向图模型，这么求联合概率：

举个例子，对于下面的这个有向图的随机变量：

应该这样表示他们的联合概率:
无向图
对于无向图，一般就指马尔可夫网络。

如果一个图太大，可以用因子分解将 P=(Y) 写为若干个联合概率的乘积。将一个图分为若干个“小团”，注意每个团必须是“最大团”。则有：

其中：

所以像上面的无向图：

其中， $\psi_{c}(Y_{c} )$ 是一个最大团 C 上随机变量们的联合概率，一般取指数函数的：

上面的函数叫做势函数。注意 $e^{\sum_{k}\lambda_{k}f_{k}(c,y|c,x)}$ 即有CRF的影子~

那么概率无向图的联合概率分布可以在因子分解下表示为：

上述公式是CRF的开端~

1.1.3 齐次马尔可夫假设&马尔可夫性

齐次马尔科夫假设
齐次马尔科夫假设，这样假设：马尔科夫链 $x_1,x_2,...,x_n)$ 里的 $x_i$ 总是只受 $x_{i-1}$ 一个参数的影响。
马尔科夫假设这里相当于就是个1-gram。

马尔科夫过程呢？即，在一个过程中，每个状态的转移只依赖于前n个状态，并且只是个n阶的模型。最简单的马尔科夫过程是一阶的，即只依赖于其哪一个状态。
马尔科夫性马尔科夫性是是保证或者判断概率图是否为概率无向图的条件。
三点内容：a. 成对，b. 局部，c. 全局。

1.2 判别式（discriminative）模型 vs. 生成式(generative)模型

在监督学习下，模型可以分为判别式模型与生成式模型。
根据经验，A批模型（神经网络模型、SVM、perceptron、LR、DT……）与B批模型（NB、LDA……）的区别：

A批模型是这么工作的，他们直接将数据的Y（或者label），根据所提供的features，学习，最后画出了一个明显或者比较明显的边界（具体怎么做到的？通过复杂的函数映射，或者决策叠加等等mechanism），这一点线性LR、线性SVM很明显。
B批模型是这么工作的，他们先从训练样本数据中，将所有的数据的分布情况摸透，然后最终确定一个分布，来作为所有的输入数据的分布，并且他是一个联合分布 $P (X, Y)$ (注意 $X$ 包含所有的特征 $x_i$ ， $Y$ 包含所有的label)。然后来了新的样本数据（inference），通过学习来的模型的联合分布 $P (X, Y)$ ，再结合新样本给的 $X$ ，通过条件概率就能出来 $Y$ ：

判别式模型

A批模型对应了判别式模型。根据上面的两句话的区别，可以知道判别模型的特征了，所以有句话说：判别模型是直接对 $P (Y ∣ X)$ 建模，即直接根据X特征来对Y建模训练。
具体地，训练过程是确定构件 $P (Y ∣ X)$ 模型里面“复杂映射关系”中的参数，然后再去inference一批新的sample。
- 所以判别式模型的特征总结如下：
1. 对 P(Y|X) 建模
2. 对所有的样本只构建一个模型，确认总体判别边界
3. 根据新输入数据的特征，预测最可能的label
4. 判别式的优点是：对数据量要求没生成式的严格，速度也会快，小数据量下准确率也会好些。
生成式模型
B批模型对应了生成式模型。并且需要注意的是，在模型训练中，学习到的是X与Y的联合模型 $P (X, Y)$ ，也就是说，在训练阶段是只对 $P (X, Y)$ 建模，需要确定维护这个联合概率分布的所有的信息参数。完了之后在inference再对新的sample计算 $P (Y ∣ X)$ ，导出 $Y$ ,但这已经不属于建模阶段了。

结合NB过一遍生成式模型的工作流程。学习阶段，建模： $P (X, Y) = P (X ∣ Y) P (Y)$ ,然后 $\frac{P(X,Y)}{P(X)}$ 。另外，LDA也是这样，只是需要确定很多个概率分布，并且建模抽样都比较复杂。
- 所以生成式总结下有如下特点：
1. 对 $P (X, Y)$ 建模
2. 这里我们主要讲分类问题，所以是要对每个label( $y_i$ )都需要建模，最终选择最优概率的label为结果，所以没有什么判别边界。（对于序列标注问题，那只需要构件一个model）
3. 中间生成联合分布，并可生成采样数据。
4. 生成式模型的优点在于，所包含的信息非常齐全，所以不仅可以用来输出label，还可以干其他的事情。生成式模型关注结果是如何产生的。但是生成式模型需要非常充足的数据量以保证采样到了数据本来的面目，所以速度相比之下，慢。

最后identity the picture below:

1.3 序列建模

常见的序列有如：时序数据、本文句子、语音数据等等。广义下的序列有这些特点：

节点之间有关联依赖性/无关联依赖性序列的
节点是随机的/确定的
序列是线性变化/非线性的……

对不同的序列有不同的问题需求，常见的序列建模方法总结有如下：

拟合，预测未来节点（或走势分析）：
a. 常规序列建模方法：AR、MA、ARMA、ARIMA
b. 回归拟合
c. Neural Networks
判断不同序列类别，即分类问题：HMM、CRF、General Classifier（ML models、NN models）
不同时序对应的状态的分析，即序列标注问题：HMM、CRF、RecurrentNNs

本文只关注在2. & 3. 类问题下的建模过程和方法。

1. 最大熵模型

2. 隐马尔可夫模型HMM

2.1理解HMM

HMM属于典型的生成式模型。对照1.2的讲解，是要从训练数据中学到数据的各种分布，这正是HMM的5要素，其中有3个就是整个数据的不同角度的概率分布：

$Q$ , 隐藏状态集 $N=\{q_1,q_2,...,q_N\}$ , 隐藏节点不能随意取，只能限定取包含在隐藏状态集中的符号。，
$V$ , 观测集 $M=\{v_1,v_2,...v_M\}$ , 同样观测节点不能随意取，只能限定取包含在观测状态集中的符号。
A ，状态转移概率矩阵，这是其中一个概率分布。 $A=[a_{ij}]_{N*M}$ （N为隐藏状态集元素个数），其中 $a_{ij}=P(i_{t+1}=q_j|i_t=q_i)$ 即第i个隐状态节点在t时刻处于状态 $q_i$ 的条件下在t+1转移到 $q_j$ 的概率。
B，观测概率矩阵，这个就是另一个概率分布。 $B=[b_{ij}]_{N*M}$ （N为隐藏状态集元素个数，M为观测集元素个数），其中 $b_{ij}=P(o_t=v_k|i_t=q_j)$ 即第i个观测节点时刻t处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。
$π$ ，初始状态概率向量： $π=(π_i)$ ,其中， $π_i=P(i_1=q_i)$ ，是时刻t=1处于状态 $q_i$ 的概率。

隐马尔科夫模型由初始状态向量 $π$ ，状态转移矩阵A和观测概率矩阵B决定。。 $π$ 和A决定状态序列，B决定观测序列。因此，马尔科夫模型可以用三元符号表示，即 $\lambda$ =(A,B, $π$ ),A,B, $π$ 称为隐马尔科夫模型的三要素。

状态转移概率矩阵A与初始状态概率向量 $π$ 确定了隐藏的马尔科夫链，生成不可观测的状态序列。
观测概率矩阵B与状态序列综合确定了如何产生观测序列。

模型先去学习确定以上5要素，之后在inference阶段的工作流程是：首先，隐状态节点 $i_t$ 是不能直接观测到的数据节点， $o_t$ 才是能观测到的节点，并且注意箭头的指向表示了依赖生成条件关系， $i_t$ 在A的指导下生成下一个隐状态节点 $i_{t+1}$ ，并且 $i_t$ 在 B 的指导下生成依赖于该 $i_t$ 的观测节点 , 并且只能观测到序列 $o_1,o_2,...o_i)$ 。
举例子说明（序列标注问题，POS，标注集BES）：
input: “学习出一个模型，然后再预测出一条指定”
expected output: 学/B 习/E 出/S 一/B 个/E 模/B 型/E ，/S 然/B 后/E 再/E 预/B 测/E ……
其中，input里面所有的char构成的字表，形成观测集，因为字序列在inference阶段是我所能看见的；
标注集BES构成隐藏状态集，这是无法直接获取的，也是预测任务；至于A,B, $π$ ，这些概率分布信息都是在学习过程中所确定的参数。

高层次的理解：

根据概率图分类，可以看到HMM属于有向图，并且是生成式模型，直接对联合概率分布建模:

(注意，这个公式不在模型运行的任何阶段能体现出来，只是都这么来表示HMM是个生成式模型，他的联合概率 $P (O, I)$ 就是这么计算的)。
并且B中 $b_{ij}=P(o_t|i_t)$ ，这意味着o对i有依赖性。
在A中， $a_{ij}=P(i_{t+1|i_t})$ ，也就是说只遵循了一阶马尔科夫假设，1-gram。试想，如果数据的依赖超过1-gram，那肯定HMM肯定是考虑不进去的。这一点限制了HMM的性能。

2.2 模型运行过程

模型的运行过程（工作流程）对应了HMM的3个问题。
2.2.1 学习训练过程
对照1.2的讲解，HMM学习训练的过程，就是找出数据的分布情况，也就是模型参数的确定。
主要学习算法按照训练数据除了观测状态序列 $o_1,o_2,...o_i)$ 是否还有隐状态序列 $i_1,i_2,...i_i)$ 分为：

极大似然估计, with 隐状态序列
Baum-Welch(前向后向), without 隐状态序列
这里不展开讲~

3. 条件随机场CRF

4. Bi-LSTM+CRF

该命名实体识别方法是一种将深度学习方法和机器学习方法相结合的模型。

Bi-LSTM+CRF模型结构图

如图：

输入层是一个将文本序列中的每个汉字利用预先训练好的字向量进行向量化，作为Bi-LSTM层的输入。
利用一个双向的LSTM(Bi-LSTM)对输入序列进行encode操作，也就是进行特征提取操纵。采用双向LSTM的效果要比单向的LSTM效果好，因为双向LSTM将序列正向和逆向均进行了遍历，相较于单向LSTM可以提取到更多的特征。
在经过双向LSTM层之后，我们这里使用一个CRF层进行decode，将Bi-LSTM层提取到的特征作为输入，然后利用CRF从这些特征中计算出序列中每一个元素的标签。

CRF是机器学习的方法，机器学习中困难的一点就是如何选择和构造特征。Bi-LSTM属于深度学习方法，深度学习的优势在于不需要人为的构造和选择特征，模型会根据训练语料自动的选择构造特征。因此采用Bi-LSTM进行特征的选择构造，然后采用CRF根据得到的特征进行decode，得到最终的序列标注的结果。这样讲深度学习和机器学习相结合的，互相取长补短。

参考：https://www.zhihu.com/search?type=content&q=条件随机场
https://www.zhihu.com/question/35866596/answer/236886066

你可能感兴趣的:(NLP)

分类模型（BERT）训练全流程巴伦是只猫人工智能分类 bert 数据挖掘
使用BERT实现分类模型的完整训练流程BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种强大的预训练语言模型，在各种NLP任务中表现出色。下面我将详细梳理使用BERT实现文本分类模型的完整训练过程。1.准备工作1.1环境配置pipinstalltransformerstorchtensorflowpandassklearn1.2
从API到Agent：万字洞悉LangChain工程化设计 bpluo42657 langchain
——构建下一代AI应用的核心范式迁移一、传统API范式的局限性：为什么需要Agent？接口式AI的痛点python#传统NLPAPI调用示例response=openai.Completion.create(model="text-davinci-003",prompt="请翻译：Helloworld",max_tokens=50)单次请求/响应模式缺乏状态管理与上下文延续硬编码逻辑难以应对复杂场
利用 Python 爬取小红书热门笔记并进行标签关键词分析程序员威哥最新爬虫实战项目 python 笔记开发语言
一、背景与目标小红书（RED）作为中国最活跃的内容社区之一，拥有大量关于美妆、穿搭、美食、旅游等领域的用户生成内容（UGC）。对于产品、品牌方或研究人员来说，提取热门笔记的标签关键词，可以有效捕捉用户关注点、消费趋势及内容热词。本项目目标：使用Python爬取小红书某个话题下的热门笔记；分析每篇笔记中的标题、正文、标签等字段；利用NLP技术提取高频关键词；对关键词进行可视化与聚类分析。二、技术难点
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
敏捷开发中的自然语言处理集成项目管理实战手册项目管理最佳实践敏捷流程自然语言处理 easyui ai
敏捷开发中的自然语言处理集成：让代码与需求“说人话”关键词：敏捷开发、自然语言处理（NLP）、用户故事分析、需求自动化、持续集成优化摘要：在敏捷开发中，“快速响应变化”的核心目标常被繁琐的文本处理拖慢——需求文档像“天书”、用户故事靠“脑补”、缺陷报告整理耗时……自然语言处理（NLP）就像一位“智能翻译官”，能让开发团队与需求文档“流畅对话”。本文将用“搭积木”“翻译机”等生活化比喻，带您理解如何
甘超波：NLP中EMBA状态管理甘超波
哈喽，大家好我是甘超波，一名NLP爱好者，每天一篇文章，分享我的NLP实战经验和案例，希望给你些启发和帮助，这是第23篇原创文章什么是EMBAEMBA：是总裁班吗？在NLP中EMBA指的一种状态管理，我们NLP所有技巧都是在EMBA中展开的，像催眠，潜意识沟通......等都是在基于EMBA。如果把NLP比作一个楼房，EMBA就是楼房的地基如果把NLP比作一个汽车，EMBA就是汽车的发动机。其中E
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
题解 | #使用join查询找出没有分类的电影id以及名称# 愤怒的小青春 java
58同城java后端一面凉经主流的哈希算法有哪几种？帮闺蜜们找靠谱男票hc多多光彩积云是什么企业，查不到有用信息太抽象了！培训班装公司招聘阿里巴巴前端暑期实习——无语八面挂怎么写自我介绍|自我介绍保姆级教学灵犀互娱客户端一面面经(求过啊)24找运维实习，这简历可行吗拓竹科技测试开发面经（25届暑期实习）分享一波攒了整个秋招的NLP算法岗面经腾讯广告暑期实习面试1、JVM垃圾回收机制2、syncho
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 基于wordcloud库实现词云图
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解基于wordcloud库实现词云图视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更新中..
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
丰盛日记第三天幸运星小燕子
第123期NLP执行师二阶4组章艳Day3分享《有效引导他人的能力》学到情绪管理的方法和体验练习中感动的一天，我很开心！1、复习大脑结构:由原始脑、情绪脑、皮质层三部分组成；三部分需要充分配合和相互制约，考虑三赢后，才能做出正确的决定。2、情绪体验小游戏:树和松鼠，让我们提醒不同的情绪感受。3、处理情绪的四个方法:思维、体能、环境、关系；导师建议可以使用呼吸放松法，使自己的情绪可以及时的醒觉→_→
【转】【译】How to Handle Very Long Sequences with LSTM（LSTM RNN 超长序列处理）开始奋斗的胖子机器学习 RNN LSTM 序列深度学习
原文地址http://machinelearningmastery.com/handle-long-sequences-long-short-term-memory-recurrent-neural-networks/一个长的输入序列却只对应一个或者一小段输出就是我们经常说的序列标注和序列分类。主要包括下面一些例子：包含上千个词的文件情感分类（NLP）包含上千个时间状态的脑电痕迹分类（Medici
“闭门造车”之多模态思路浅谈：自回归学习与生成 PaperWeekly 回归学习数据挖掘人工智能机器学习
©PaperWeekly原创·作者|苏剑林单位|科学空间研究方向|NLP、神经网络这篇文章我们继续来闭门造车，分享一下笔者最近对多模态学习的一些新理解。在前文《“闭门造车”之多模态思路浅谈：无损》中，我们强调了无损输入对于理想的多模型模态的重要性。如果这个观点成立，那么当前基于VQ-VAE、VQ-GAN等将图像离散化的主流思路就存在能力瓶颈，因为只需要简单计算一下信息熵就可以表明离散化必然会有严重
自动字幕生成器：Auto-Subtitle — 技术解析与应用指南房耿园Hartley
自动字幕生成器：Auto-Subtitle—技术解析与应用指南在视频内容日益丰富的今天，自动字幕生成工具变得越来越重要，尤其是对于听障人士、非母语者和在嘈杂环境下观看视频的人来说。Auto-Subtitle是一个开源项目，它利用先进的自然语言处理（NLP）技术为你的视频自动生成准确的字幕。本文将深入探讨这个项目的原理、功能、应用场景及特点，以期吸引更多开发者和用户关注并使用。项目简介Auto-Su
略说NLP引入公理模型的可行性金井PRATHAMA 知识图谱与NLP 自然语言处理人工智能知识图谱
在自然语言处理（NLP）的深层语义分析中，公理化体系的引入具有理论可行性，但其实际应用仍面临挑战。以下从公理模型的设计思路、关键技术要点及注意事项三个方面展开分析，结合搜索结果的多个相关技术点进行综合说明：一、公理模型在深层语义分析中的设计思路公理的定义与语义形式化公理模型需以形式化逻辑为基础，定义语义分析中的原始概念（如谓词、实体、关系）和推理规则。例如：原始概念：将语义角色（如施事者、受事者）
NLP中情感分析如何结合知识图谱在跨文化领域提升观念分析和价值判断的准确性？
情感分析结合知识图谱，能够显著提升观念分析和价值判断的准确性。这一融合的核心在于利用知识图谱的结构化语义网络，为情感分析提供深层语境、实体关联和领域知识支撑。以下是具体机制和应用场景的分析：一、知识图谱如何提升情感分析的语义理解1.解决歧义与上下文依赖问题：情感词（如“冷”）在不同语境中含义不同（“服务态度冷”表负面，“冷静分析”表中性）。方案：知识图谱通过实体链接识别文本中的对象（如“服务态度”
SBERT、CoSENT和BETR以及transformers的区别和联系 panshengnan NLP nlp transformer
SBERT、CoSENT、BETR和Transformers的区别和联系这几个模型（SBERT、CoSENT、BETR）和框架（Transformers）都是围绕自然语言处理（NLP）的句子嵌入和语义理解任务展开的。它们的联系主要在于基于Transformer架构，并针对特定任务做了优化；区别则在于目标任务、优化策略、训练方法和适用场景等方面。1.联系基于Transformer架构：它们的核心编码
入门大模型神器：开源项目Happy LLM保姆级教程！
Happy-LLMHappy-LLM——从零开始的大语言模型原理与实践教程。本项目是一个系统性的LLM学习教程，将从NLP的基本研究方法出发，根据LLM的思路及原理逐层深入，依次为读者剖析LLM的架构基础和训练过程。同时，我们会结合目前LLM领域最主流的代码框架，演练如何亲手搭建、训练一个LLM，期以实现授之以鱼，更授之以渔。希望大家能从这本书开始走入LLM的浩瀚世界，探索LLM的无尽可能。特点•
【原创】下雨天要游泳饶金霞家庭教育心理咨询
下午，我照着昨天与小儿的约定，在四点半，就来到幼儿园门口接孩子。老师打开大门，孩子从教室里走出来，一见到我就问:“老妈，泳衣准备好了吗？”我半蹲下来拥抱他说：“都放在车上啦！”儿子在我额头上亲一口说：“你真是世界上最讲信用的好妈妈！”我有点怀疑我这儿子有NLP的基因，总是能及时地给沟通者作出良好的回应，而且还会用米尔顿。其实看着这满天的乌云，我心里还在嘀咕，这场大雨可能不会等到我们去游泳场。果不其
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
AI数字人系统开发上线全攻略：从0到1全流程解析 v_qutudy 人工智能 AI系统开发 AI数字人开发
一、需求分析：定义数字人核心能力1.1功能规划矩阵模块基础功能进阶功能形象生成2D/3D建模实时表情捕捉与驱动语音交互TTS语音合成情感识别与应激反应动作系统预设动作库骨骼动画与物理引擎智能决策规则引擎强化学习驱动决策多模态交互文本/语音输入AR/VR空间交互1.2非功能性指标实时性：唇形同步延迟B[语音识别]A-->C[姿态检测]A-->D[文本理解]B-->E[NLP引擎]C-->F[动作解析
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
数据安全审计平台的三大关键技术：日志分析、行为监测与智能告警 KKKlucifer 安全算法
在数字化浪潮中，数据安全审计是企业守护核心资产的“瞭望塔”。通过日志分析、行为监测、智能告警三大技术，数据安全审计平台构建起“全流程监控-异常识别-快速响应”的闭环，为数据安全筑牢防线。以下从技术原理、实践价值与行业应用展开解析。日志分析：数据安全的“DNA图谱”1.多源日志融合技术实现：通过Agent采集操作系统、数据库、网络设备等200+日志源，利用正则表达式、NLP技术解析非结构化日志（如“
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他