花生酱Scarlett

NLP|中文分词技术及应用

摘要：中文分词是中文信息处理的重要基础，本文详细阐述了目前主要的几种中文分词算法的技术原理、中文分词目前的瓶颈和评价准则，以及中文分词的具体应用。

中文分词指将一个汉字序列切分成一个个单独的词。现有的中文分词算法有五大类：基于词典的方法，基于统计的方法，基于规则的方法，基于字标注的方法，基于人工智能技术（基于理解）的方法。中文分词目前主要有四个瓶颈，分别是分词歧义、未登录词识别、分词粒度问题、错别字和谐音字规范化。中文分词有五大评价准则：分词正确率，切分速度，功能完备性，易扩充性和可维护性，可移植性。中文信息处理包括三个层次：词法分析，句法分析，语义分析，其中中文分词是词法分析的第一步，非常重要。中文分词是大部分下游应用的基础，这些下游应用小到POS词性标注、NER命名实体识别，大到自动分类、自动摘要、自动校对、语言模型、机器翻译、搜索引擎、语音合成等等。

一、中文分词是什么

中文分词是中文信息处理的基本技术，指将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记。

二、中文分词的技术原理

2.1 中文分词算法

现有的中文分词算法有五大类：基于词典的分词方法，基于统计的分词方法，基于规则的分词方法，基于字标注的分词方法，基于人工智能技术（基于理解）的分词方法。

图1：中文分词算法总结

2.1.1 基于词典的方法

基于词典的方法：字符串匹配，机械分词方法

原理：按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。

按照扫描方向的不同：正向匹配 & 逆向匹配
按照长度的不同：最大匹配 & 最小匹配
按照是否与词性标注过程相结合：单纯分词方法 & 分词与标注相结合

1.正向最大匹配算法（MM）

步骤

从左向右取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数
查找大机器词典并进行匹配，若匹配成功，则将这个匹配字段作为一个词切分出来；若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为信我的匹配字段，进行再次匹配，重复以上过程直到切分出所有词为止

2.邻近匹配算法

邻近匹配算法

对正向最大匹配算法的改进，因为正向正向最大匹配算法对每个不存在的长字符串都要进行一次二分搜索，算法复杂度太高，可以利用同一个首字符下的词条按升序排列这一条件，在找到某个字符串后，在其后增加一个字得到一个新字串，如果新字串在词典中出现，那么新词一定在原字串的后面，且相隔位置不会太远
优点：可以加快匹配进程

3.逆向最大匹配算法（RMM）

逆向最大匹配算法

是正向最大匹配的逆向思维（最大匹配的顺序不是从首字母开始，而是从末尾开始，由右向左），匹配不成功，将匹配字段的最前一个字去掉
优点：逆向最大匹配算法要优于正向最大匹配算法（实践证明）

4.双向最大匹配法(Bi-directction Matching method,BM)

双向最大匹配法：将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。

中文中90.0％左右的句子，正向最大匹配法和逆向最大匹配法完全重合且正确，只有大概9.0％的句子两种切分方法得到的结果不一样，但其中必有一个是正确的（歧义检测成功），只有不到1.0％的句子，或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的，或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对（歧义检测失败）。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。

5.最短路径匹配算法（Shortest path match）

最短路径匹配算法

根据词典，找出字串中所有可能的词（也称全分词），然后构造词语切分有向无环图
每一个词对应图中的一条有向边。若赋给相应的边长一个权值（该权值可以是常数，也可以是构成的词的属性值），然后针对该切分图，在起点到终点的所有路径中，求出最短路径，该最短路径上包含的词就是该句子的切分结果
最短路径匹配算法的规则是使切分处理的词数最少，符合汉语自身的语言规律
缺点：在实际应用中，同样不能正确切分出许多不完全符合规则的句子。如果有多条最短路径，往往只能保留其中一个结果，这样对其他同样符合要求的结果不公平，也缺乏理论依据。

6.基于字符串匹配的分词方法的优缺点

优点：简单，易于实现

缺点

匹配速度慢
存在交集型和组合型歧义切分问题
词本身没有一个标准的定义，没有统一标准的词集
不同词典产生的歧义也不同
缺乏自学习的智能性

2.1.2 基于统计的分词（无字典分词）

主要思想

上下文中，相邻的字同时出现的次数越多，就越可能构成一个词。因此字与字相邻出现的概率或频率能较好的反映词的可信度。
可以对训练文本中相邻出现的各个字的组合的频度进行统计，计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可以认为此字组可能构成了一个词。该方法又称为无字典分词。

主要统计模型有：N 元文法模型、隐Markov 模型和最大熵模型等。

在实际应用中一般是将其与基于词典的分词方法结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

1.N-gram模型思想

N-gram模型思想：第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。

2.隐马尔科夫模型（HMM，HiddenMarkov Model）

原理：根据观测值序列找到真正的隐藏状态值序列。

2.1.3 基于规则的分词（基于语义）

原理：通过模拟人对句子的理解，达到识别词的效果，基本思想是语义分析，句法分析，利用句法信息和语义信息对文本进行分词。

优点：自动推理，并完成对未登录词的补充。

语义分词法引入了语义分析，对自然语言自身的语言信息进行更多的处理，如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。

扩充转移网络法：以有限状态机概念为基础。有限状态机只能识别正则语言，对有限状态机作的第一次扩充使其具有递归能力，形成递归转移网络（RTN）。在RTN 中，弧线上的标志不仅可以是终极符（语言中的单词）或非终极符（词类），还可以调用另外的子网络名字分非终极符（如字或字串的成词条件）。这样，计算机在运行某个子网络时，就可以调用另外的子网络，还可以递归调用。词法扩充转移网络的使用，使分词处理和语言理解的句法处理阶段交互成为可能，并且有效地解决了汉语分词的歧义。
矩阵约束法：其基本思想是先建立一个语法约束矩阵和一个语义约束矩阵，其中元素分别表明具有某词性的词和具有另一词性的词相邻是否符合语法规则，属于某语义类的词和属于另一词义类的词相邻是否符合逻辑，机器在切分时以之约束分词结果。

2.1.4 基于字标注的中文分词方法

基于字标注的中文分词方法

实质上是构词方法，即把分词过程视作字在字符串中的标注问题；分词的过程就成为字重组的简单过程
基于规则/统计的分词方法的弊端：一般都依赖于一个事先编制好的词典，而自动分词的过程就是通过词表和相关信息来做出词语切分的决策
本分词法的优点：能够平衡地看待词表词和未登录词的识别问题。因为文本中的词表词和未登录词都是用统一的字标注过程来实现，在学习架构上，既可以不必专门强调词表词信息，也不用专门设计特定的未登录词(如人名、地名、机构名)识别模块。这使得分词系统的设计大大简化。在字标注过程中，所有的字根据预定义的特征进行词位特性的学习，获得一个概率模型。然后，在待分字串上，根据字与字之间的结合紧密程度，得到一个词位的标注结果。最后，根据词位定义直接获得最终的分词结果。

2.1.5 基于人工智能技术的中文分词方法（基于理解）

基于人工智能技术的中文分词方法

原理：在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象
通常包括三个部分：分词子系统、句法语义子系统和总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程
条件：需要使用大量的语言知识和信息
目前基于理解的分词方法主要有：专家系统分词法，神经网络分词法，神经网络专家系统集成式分词法等

1.神经网络分词算法

神经网络分词算法

原理：以模拟人脑运行，分布处理和简历数值计算模型工作，将分词知识的隐式方法存入神经网内部，通过自学习和训练内部权值，以达到正确的分词结果
关键在于知识库（权重链表）的组织和网络推理机制的建立
算法的分词过程是一个生成分词动态网的过程，该过程是分步进行的：首先以确定待处理语句的权字串为基础，来确定网络处理单元；然后根据链接权重表激活输入/输出单元之间的链接，该过程可以采用某种激活方式，取一个汉字作为关键字，确定其链接表，不断匹配
优点：神经网络分词法具有自学习、自组织功能，可以进行并行、非线性处理，并且反应迅速、对外界变换敏感
缺点：目前的基于神经网络的分词算法存在着网络模型表达复杂，学习算法收敛速度较慢，训练时间长，并且对已有的知识维护更新困难等不足。

2.专家系统分词算法

专家系统分词算法

原理：从模拟人脑功能出发，构造推理网络，将分词过程看做是知识推理过程
该方法将分词所需要的语法、语意以及句法知识从系统的结构和功能上分离处理，将知识的表示、知识库的逻辑结构与维护作为首要考虑的问题。知识库按常识性知识与启发性知识分别进行组织。知识库是专家系统具有“智能”的关键行部件
优点：专家系统分词算法是一种统一的分词算法，不仅使整个分词处理过程简明，也使整个系统的运行效率提高

3.神经网络专家系统集成式分词法

神经网络专家系统集成式分词法

原理：首先启动神经网络进行分词，当神经网络对新出现的词不能给出准确切分时，激活专家系统进行分析判断，依据知识库进行推理，得出初步分析，并启动学习机制对神经网络进行训练
优点：可以较充分发挥神经网络与专家系统二者优势，进一步提高分词效率

2.2 中文分词瓶颈

1.分词歧义

分词歧义：指在一个句子中，一个字串可以有多种不同的切分方法，一个句子经常对应几个合法词序列，因此，汉语分词中的一个重要问题就是在所有这些可能的序列中选出一个正确的结果。

分词歧义是中文分词的主要困难
交集性歧义：可用动态规划来解决

e.g. “北京大学生前来报到”，容易被划分成“北京大学/生前/来/报到”

组合型歧义：指同一个子串既可合又可分；可用统计语言模型来解决

eg.“学生会宣传部”中的“学生会”是一个词，“学生会主动完成作业”里的“学生会”就必须拆开

统计语言模型：对于任意两个词语 w1、 w2 ，统计在语料库中词语 w1 后面恰好是 w2 的概率 P(w1, w2) 。这样便会生成一个很大的二维表。再定义一个句子的划分方案的得分为 P(∅, w1) · P(w1, w2) · … · P(wn-1, wn) ，其中 w1, w2, …, wn 依次表示分出的词。我们同样可以利用动态规划求出得分最高的分词方案。

2.未登录词识别

未登录词识别

未登录词包括：中外人名、中国地名、机构组织名、事件名、货币名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语，是种类繁多，形态组合各异，规模宏大的一个领域。对这些词语的自动辨识，是一件非常困难的事。

中文没有首字母大写，计算机很难分辨人名地名等专有名词
- 人名刚好与上下文组合成词：比如“高通向人大常委会提交报告”
- 人名刚好是常用词：比如“汪洋”
- 品牌名、机构名、地名等专有名词的识别
- 缩略词的识别
- 网络新词更难识别：甚至没有固定的生产机制

3.错别字、谐音字规范化

当处理不规范文本（如网络文本和语音转录文本）时，输入的句子中不可避免会存在一些错别字或刻意的谐音字（如香菇—>想哭），这些词对分词系统造成很大干扰。

4.分词粒度问题

对“词语的最小单位”的定义存在主观性，导致多人标注的语料存在大量不一致现象，即表达相同意思的同一字串，在语料中存在不同的切分方式。

2.3 中文分词的评价准则

中文分词主要有五项评价准则：分词正确率，切分速度，功能完备性，易扩充性和可维护性，可移植性。

1.分词正确率

中文分词是中文信息处理的重要基础，因此分词准确性对整体的信息处理任务来说十分重要。

为了获得分词系统切分正确率，应该进行整体测试，歧义测试和专业词测试。自动分词系统的切分正确率的基本公式为：

其中，S1，S2，S3。分别为总体测试、歧义测试和专业词测试的正确率；Bi(i=1，2，3)为三种测试加的权值。

2.切分速度

切分速度对中文信息处理任务也非常重要。比如对于搜索引擎来说，如果分词速度太慢，即使准确性再高，也是不可用的，因为搜索引擎需要处理数以亿计的网页，如果分词耗用的时间过长，会严重影响搜索引擎内容更新的速度。

切分速度

指单位时间内所处理的汉字个数
在分词正确率基本满足要求的情况下，切分速度是另一个很重要的指标，特别对于算法不单一，使用辅助手段，诸如联想，基于规则，神经网络，专家系统等方法更应注意这一点
通常中文信息处理的文本数量是相当大的，因此必须考虑方法是否能使系统总开销合理。在人机交互方式下处理歧义问题的策略和人机接口的设计，有时会严重影响切分速度，这也是应考虑的因素

3.功能完备性

自动分词方法除了完成分词功能外，还应具备词库增删、修改、查询和批处理等功能。

4.易扩充性和可维护性

易扩充性和可维护性是提供数据存储和计算功能扩充要求的软件属性，包括词库的存储结构，输入/输出形式的变化等方面的扩展和完善。这项指标与系统清晰性、模块性、简单性、结构性、完备性以及自描述性等软件质量准则有直接的联系，对于研究实验性质的软件是非常重要的，因为这类软件需要不断提高与改进，使之适应中文信息处理的各种应用。

5.可移植性

可移植性：指方法能从一个计算机系统或环境转移到另一个系统或环境的容易程度。一个好的分词方法不应该只能在一个环境下运行，而应该稍作修改便可在另一种环境下运行，使它更便于推广。

三、中文分词技术的应用

3.1 中文分词是中文信息处理的基础

中文分词是中文信息处理的基础，是自然语言处理的基础模块，中文信息处理包括三个层次：词法分析，句法分析，语义分析。中文分词是词法分析的第一步。

图2：自然语言句子级分析技术

Level1：词法分析 （Lexical Analysis）

分词（word segmentation）：将输出的子串切分成单独的词语
词性标注（part-of-speech tag）：为每个词赋予一个类别，如名词、动词、形容词 etc.；一般属于相同词性的词，在句子中承担类似的角色

Level2：句法分析（synactic parsing）：对输入的文本句子进行分析以得到句子的句法结构的处理过程；句法分析的输出结果常作为语义分析的输入

短语结构句法分析（phrase-structure syntactic parsing）：识别出句子中的酸雨结果以及短语间的层次句法关系
依存句法分析（dependency syntactic parsing）：识别句子中词汇与词汇之间的相互依存关系，属于浅层句法分析
深层文法句法分析：利用深层文法，如词汇化树邻接文法、词汇功能文法、组合范畴文法等，对句子进行深层的句法和语义分析

Level3：语义分析（semantic parsing）：理解句子表达的真实语义

语义角色标注（semantic role labeling）：属于浅层语义分析技术

三个层级的联合方式

级联：分词、词性标注、句法分析、语义分析分别训练模型；实际使用时，逐一使用各模块进行分析，最终得到所有结果
联合模型：多任务联合学习和解码，如分词词性联合、词性句法联合、分析词性句法联合、句法语义联合等，联合模型通常可显著提高分析质量（但复杂度高，速度慢）

3.2 具体应用（以搜索引擎为例）

中文分词是大部分下游应用的基础，这些下游应用小到POS词性标注、NER命名实体识别，大到自动分类、自动摘要、自动校对、语言模型、机器翻译、搜索引擎、语音合成等等。

下面以搜索引擎为例，具体阐述中文分词在搜索引擎中的应用。

搜索引擎针对用户提交查询的关键词串进行的查询处理后，根据用户的关键词串用各种匹配方法进行分词。

搜索引擎的查询处理

1.首先到数据库里索引相关信息
- 若用户提交的字符串不超过3个汉字，则直接去数据库索引
- 分词：若超过4个字符串，则用分隔符（如空格、标点）把用户提交的字符串分割成N个子查询串
2.再检测用户提供的字符串里有无重复词汇
- 若有，则丢弃，默认为一个词汇
- 检查用户提交的字符串有无字母和数字，若有则把字母和数字当做一个词

REFERENCE

中文分词算法基本介绍

中文分词技术介绍-月光博客

中文信息处理发展报告

btw：欢迎关注 ~

Github： https://github.com/ScarlettYellow

个人博客：https://scarletthuang.cn/

SpringAI赋能Java开发打造智能应用 java技术小馆 java AI编程
一、SpringAI是什么？为什么你需要它？想象一下，你的Java应用能够：理解自然语言自动生成代码智能分析数据提供个性化推荐这就是SpringAI带来的变革！它是Spring官方推出的AI集成框架，让你的Java应用轻松获得AI能力。传统开发vsSpringAI开发对比：能力传统开发SpringAI开发自然语言处理需要集成第三方SDK开箱即用开发效率手动实现复杂逻辑自动生成代码维护成本高低可扩展
LLM OS 系统架构详细设计 AI天才研究院 AI大模型企业级应用开发实战系统架构
LLMOS系统架构详细设计1.背景介绍近年来，大型语言模型（LargeLanguageModel,LLM）取得了飞速发展，在自然语言处理、对话系统、文本生成等领域展现出卓越的性能。然而，现有的LLM系统架构仍然存在诸多局限性，例如可扩展性不足、资源利用率低下、缺乏灵活的应用开发支持等。为了充分发挥LLM的潜力，迫切需要一个高效、灵活、易用的LLM操作系统（OperatingSystem,OS）。本
mac系统下安装pycharm 连小黑 python pycharm macos python
mac系统下安装pycharm前言Windows系统安装教程传送门链接:https://blog.csdn.net/lianxiaohei/article/details/121694126随着人工智能的不断发展，机器学习这门技术也越来越重要，也有很多人都因为做自动化，爬虫会学python，今天写的是pycharm编译器，在mac上如何安装,废话不多说，上步骤一、第一步下载示例：下载安装软件的第一
语义向量模型全解：从基础到现在的deepseek中的语义向量主流模型来自于狂人人工智能语言模型
一、语义向量模型：自然语言处理的基石语义向量模型（SemanticVectorModel）是自然语言处理（NLP）的核心技术，它将词汇、句子或文档映射为高维向量，在数学空间中量化语义信息。通过向量距离（如余弦相似度）衡量语义的相似性，支撑了搜索引擎、情感分析、机器翻译等实际应用。1.1发展简史1980s~2000s：基于统计的浅层模型，如TF-IDF（直接表征词的重要性）、LSA（通过矩阵分解降维
基于Ubuntu+vLLM+NVIDIA T4高效部署DeepSeek大模型实战指南来自于狂人 python 人工智能 pytorch 语言模型
一、前言：拥抱vLLM与T4显卡的强强联合在探索人工智能的道路上，如何高效地部署和运行大型语言模型（LLMs）一直是一个核心挑战。尤其是当我们面对资源有限的环境时，这个问题变得更加突出。原始的DeepSeek-R1-32B模型虽然强大，但在T4显卡上遭遇了显存溢出的问题，这限制了其在实际应用中的潜力。为了解决这一难题，我们转向了官方提供的优化版本——DeepSeek-R1-Distill-Qwen
深度学习算法模型：从原理到未来 YDH_AlwaysRunning 深度学习
近年来，人工智能（AI）技术以前所未有的速度改变着人类生活，而深度学习的崛起无疑是这场技术革命的核心驱动力。从手机中的语音助手到医学影像的智能诊断，从自动驾驶汽车到生成式AI创作的诗歌和画作，深度学习算法模型正逐渐渗透到社会的每个角落。本文将从基本原理出发，解析典型模型的运作机制，探讨其应用现状与发展趋势，带您全面认识这一改变世界的技术。一、深度学习的基本原理：让机器学会"思考"1.1神经网络的生
python 正则表达式李昊哲小课大数据人工智能 python python 正则表达式数据分析人工智能大数据
#coding:utf-8importre常用函数代码3-1使用match函数匹配文本match函数，从字符串‌起始位置‌匹配正则表达式，返回Match对象（匹配失败返回None）。text1='自然语言处理是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。'print('匹配的结果是：',re.match(r'自然语言处理
AI 芯片全解析：定义、市场趋势与主流芯片对比嵌入式Jerry AI 人工智能物联网嵌入式硬件服务器运维
1.引言：什么是AI芯片？随着人工智能（AI）的快速发展，AI计算的需求不断增长，从云计算到边缘计算，AI芯片成为推动智能化时代的核心动力。那么，什么样的芯片才算AI芯片？与普通处理器（如CPU、GPU）相比，AI芯片有什么不同？本文将详细解析AI芯片的定义、核心特性、市场上的流行产品（国内外），以及AI芯片的定位与发展趋势。2.什么才算AI芯片？2.1AI芯片的核心特性AI芯片专为神经网络计算、
预训练模型微调与下游任务迁移学习技术 AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习技术近年来在计算机视觉、自然语言处理等领域取得了飞速发展,这离不开大规模预训练模型的贡献。预训练模型通过在海量数据上的自监督学习,学习到了丰富的特征表示,为下游任务提供了强大的初始化。而对预训练模型进行有效的微调,可以充分利用预训练知识,在有限数据上快速达到出色的性能。此外,迁移学习技术也为模型在不同任务间的知识复用提供了有效途径。本文将详细介绍预训练模型微调与下游任务迁移学习
什么是预训练语言模型下游任务？衣衣困语言模型人工智能自然语言处理
问题：Word2Vec模型是预训练模型吗？由于训练的特性，word2Vec模型一定是与训练模型。给定一个词先使用独热编码然后使用预训练好的Q矩阵得到这个词的词向量。这里指的是词向量本身就是预训练的语言模型。什么是下游任务？在自然语言处理（NLP）和机器学习领域，下游任务（downstreamtasks）指的是使用已经训练好的模型或表示（如词向量、预训练的模型等）来解决的具体任务。这些任务通常依赖于
DeepSeek：大模型领域的创新力量 Kurbaneli 服务器
在人工智能大模型蓬勃发展的时代，DeepSeek以其独特的技术优势和广泛的应用潜力，迅速在市场中崭露头角。自年初发布以来，DeepSeek引发了行业内外的高度关注，对众多领域的发展产生了深远影响。一、技术优势剖析DeepSeek在技术层面展现出了诸多亮点。其核心的语言模型架构经过精心设计与优化，能够高效处理海量文本数据，实现精准的语义理解和生成。在自然语言处理任务中，无论是基础的文本翻译、问答系统
大语言模型原理与工程实践：大语言模型推理工程推理加速：算子优化 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍近年来，大语言模型（LargeLanguageModel，LLM）在自然语言处理（NLP）领域取得了显著的进展。其中，推理（Inference）过程是大语言模型的核心环节之一。然而，随着模型规模的不断扩大，推理过程中的计算复杂度和延时也逐渐成为制约模型应用的重要因素。因此，如何实现大语言模型推理工程的推理加速，成为研究者和工程师迫切需要解决的问题。2.核心概念与联系在本文中，我们将深入
AI辅助的企业估值报告生成器 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能人工智能 ai
AI辅助的企业估值报告生成器关键词AI辅助估值企业估值报告数据处理机器学习算法报告生成器摘要本文将探讨如何利用人工智能技术辅助企业估值报告的生成。通过分析估值报告的重要性、AI技术在估值报告中的应用场景、估值模型与数据处理方法，以及机器学习算法在估值中的应用，本文旨在为企业和投资者提供一个高效、准确、可视化的估值报告生成解决方案。同时，本文还将介绍一个估值报告生成器的实现过程，并通过实际案例进行分
全套DeepSeek使用手册分享【清华北大出品】咪咪360 pdf AI写作 AIGC 人工智能学习
资料链接：https://pan.quark.cn/s/517afdb4419c这两天，清华大学和北京大学的AI学习手册火了！随着人工智能的日益火爆，人们越来越重视AI的学习，而清华北大也顺应潮流，送出重磅福利。短短不到一个月，连续产出了多本高质量的DeepSeek学习手册。帮助普通人高效便捷的学习AI。完整版学习资料我已经帮大家整理好了，放在开头，大家自行领取学习。
微调（Fine-tuning）路野yue 人工智能深度学习
微调（Fine-tuning）是自然语言处理（NLP）和深度学习中的一种常见技术，用于将预训练模型（Pre-trainedModel）适配到特定任务上。它的核心思想是：在预训练模型的基础上，通过少量任务相关的数据进一步训练模型，使其更好地适应目标任务。1.微调的核心思想预训练模型：像BERT、GPT这样的模型，已经在大量通用文本数据上进行了预训练，学习到了丰富的语言知识（如语法、语义、上下文关系等
AI Agent，大模型重要落地方向 IT猫仔人工智能语言模型架构搜索引擎机器学习
01什么是AIAgent？OpenAI将AIAgent定义为，以大语言模型为大脑驱动，具有自主理解感知、规划、记忆和使用工具的能力，能自动化执行完成复杂任务的系统。在计算机、人工智能专业技术领域，一般将agent译为“智能体”，即是在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性（慎思性）、认知性等一种或多种智能特征的软件或硬件实体。它具有记忆、规划、行动和使用工具四个主要模块。通过四个
AI人工智能 Agent：对教育的影响 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：对教育的影响1.背景介绍1.1教育领域的转变随着科技的飞速发展,教育领域也在经历着前所未有的变革。传统的教学模式已经无法完全满足现代社会对人才培养的需求。在这种背景下,人工智能(AI)技术应运而生,为教育领域带来了全新的机遇和挑战。1.2人工智能在教育中的作用人工智能技术可以为教育提供个性化、智能化和高效的解决方案。AI智能代理(Agent)作为人工智能的重要组成部分,正在
项目开发实录（一）：基于RDK X5的智能垃圾分类垃圾桶一团乱毛线� RDK X5 地瓜机器人分类人工智能
文章目录项目简介硬件及材料列表整体架构流程技术细节后续开发安排-----------------------------分割线----------------------------------项目简介基于RDKX5开发板的智能垃圾分类垃圾桶项目，旨在利用人工智能技术实现垃圾的自动识别与分类。垃圾桶硬件装置应实现对行人投入垃圾的四分类投放(可回收垃圾、有害垃圾、厨余垃圾、其他垃圾)。该系统主要由摄
3 步低代码构建 AI 股票分析助手人工智能技术资讯低代码人工智能
在金融服务行业的数字化转型浪潮中，构建一个灵活、可扩展、高度可用的现代IT架构是金融机构面临的重中之重。在这一过程中，生成式人工智能（GenerativeAI）正成为助力金融从业者提高工作效率、优化决策过程的重要工具。在金融市场上，买方机构通常会努力发掘有关金融市场运作的信息，以期获得战胜市场的能力。他们通常需要发掘对投资组合风险有重大影响的风险因子，比如市场因子、行业因子、规模因子、价值因子等；
《DataWorks：为人工智能算法筑牢高质量数据根基》人工智能深度学习
在当今数字化时代，人工智能（AI）技术的迅猛发展深刻地改变着各个行业的面貌。从智能推荐系统到医疗影像诊断，从自动驾驶到自然语言处理，AI正以前所未有的速度渗透到我们生活和工作的方方面面。而在这一系列AI应用的背后，高质量的训练数据是其能够发挥强大效能的关键所在。就如同巧妇难为无米之炊，没有优质的数据，再先进的AI算法也难以施展拳脚。阿里巴巴的DataWorks，作为一款强大的大数据开发治理平台，在
基于Django的人脸识别考勤管理系统(源码+LW+部署讲解) 毕业程序员 python 计算机毕业设计 django python 后端
收藏关注不迷路文章目录前言一、项目介绍三、功能介绍四、核心代码五、效果图六、文章目录前言随着信息技术的快速发展和人工智能的广泛应用，人脸识别技术因其独特的识别优势和高效的处理能力，逐渐在考勤管理领域展现出巨大的应用潜力。本文首先回顾了人脸识别技术的发展历程，分析了其在考勤系统中的技术原理和实现方式。随后，文章详细介绍了人脸识别考勤系统的设计架构、核心算法及关键技术，包括图像采集、预处理、特征提取和
Claude 3.7 Sonnet上线，Anthropic向OpenAI和DeepSeek宣战！新加坡内哥谈技术人工智能自然语言处理语言模型深度学习学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/Anthropic最新发布的Claude3.7Sonnet正式加入AI智能体大战，不仅对
让AI团队来分析股票！一份可以参考的简单研报——基于Python的CrewAI库 Ra1n_Su ai 人工智能 python
引言在最近，一个更新的科技概念AIAgent（人工智能助手）引起了人们更为广泛的关注。比尔盖茨称其为“一个对科技行业的冲击波”。OpenAI将AIAgent定义为“以大语言模型为大脑驱动的系统，具备自主理解、感知、规划、记忆和使用工具的能力，能够自动化执行完成复杂任务的系统。”我们可以将其通俗地理解为一个“你提要求就行，任务我来做”的强大工具人。因此，本文要搭建一个扮演分析师角色的AIAgent。
ChatGPT-5：开创对话式AI的新纪元可有道？人工智能 AIGC
随着科技的飞速发展，人工智能（AI）正在迅速改变我们的生活方式。作为AI技术的前沿代表之一，ChatGPT自其初次发布以来，就以其强大的语言理解和生成能力受到了广泛关注和应用。如今，OpenAI推出最新版本——ChatGPT-5，（预计将于2024年下半年发布）这一版本在各个方面都进行了显著的升级和改进。这里详细介绍一下ChatGPT-5的技术基础、升级功能及其在日常生活中的应用。1.ChatGP
Spring AI：智能化的开发新趋势精神之祝 java 人工智能 spring java
SpringAI：智能化的开发新趋势在当今数字化时代，人工智能（AI）技术正在迅速渗透到各个行业和领域。作为Java开发者，掌握AI技术以及如何将其与现有的开发框架结合使用，已成为提升竞争力的重要途径。Spring生态系统的强大，使得开发者能够将AI集成到他们的应用程序中，今天将深入探讨SpringAI的各个方面，帮助你理解这一新兴技术。文章目录SpringAI：智能化的开发新趋势一、什么是Spr
Spring AI Alibaba：Java 开发者的 AI 应用开发新利器 ZnSoft〔100-1=0〕 java spring 人工智能
在当今这个由人工智能（AI）驱动的时代，AI技术正在以前所未有的速度改变着我们的工作和生活方式。对于Java开发者来说，将AI能力集成到他们的应用程序中，已经成为了一个迫切的需求。阿里云开源的SpringAIAlibaba框架，正是为了满足这一需求而生。本文将详细介绍SpringAIAlibaba的起源、核心特性，并通过一个示例展示其在AI应用开发中的便利性。一、SpringAIAlibaba的起
软件设计和软件架构之间的区别前网易架构师-高司机软件架构软件设计系统架构
作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业，消防等领域的工业化产品），合
一文轻松拿下HarmonyOS NEXT的自定义组件 harmonyos-next
程序员Feri一名12年+的程序员,做过开发带过团队创过业,擅长Java、嵌入式、鸿蒙、人工智能等,专注于程序员成长那点儿事,希望在成长的路上有你相伴！君志所向,一往无前！1.自定义组件基础在ArkUI中，UI显示的内容均为组件，由框架直接提供的称为系统组件，由开发者定义的称为自定义组件。相比于之前学习的轻量级UI复用机制@Builder，自定义组件的功能更为强大，日常开发中如果要进行UI或业务逻
AI人工智能代理工作流AI Agent WorkFlow：搭建可拓展的AI代理工作流架构 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI人工智能代理工作流AIAgentWorkFlow：搭建可拓展的AI代理工作流架构1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，特别是机器学习和深度学习技术的广泛应用，构建高度智能且自动化的代理系统成为了一个迫切的需求。这些代理系统能够自主地进行决策、执行任务并适应不断变化的环境。然而，现有的代理系统往往在面对复杂任务时缺乏灵活性和可扩展性，这限制了它们在实际应用中的广泛部署和大规模应
Chrome下载视频的插件爱编程的喵喵 Windows实用技巧 windows chrome 下载视频
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Chrome下载视频的插件，希望能对
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分