贾继康

【自然语言处理】详说中文自动分词

文章目录

详说中文自动分词

前言
一、 what is 中文分词
二、中文分词的用途
三、中文分词的特点和难点
四、常见的中文分词方法
五、中文分词工具

1、HanLP 中文分词

A、 python调用hanlp进行中文分词

2、 BosonNLP
3、语言云：
4、 NLPIR
5、新浪云
6、搜狗分词
7、结巴分词
8、 SCWS
9、腾讯文智
10、盘古分词
11、IKAnalyzer

六、结巴中文分词

1、结巴中文分词的特点
2、安装，获取结巴分词工具
3、主要分词功能
4、添加自定义词典

七、结巴分词工具说明

1、结巴分词的算法策略
2、算法实现分词

九、结巴分词基本用法

详说中文自动分词

前言

中文分词技术属于自然语言处理技术范畴，中文分词是其他中文信息处理的基础，比如搜索引擎只是中文分词的一个应用。

一、 what is 中文分词

中文分词指的是将一个汉字序列切分成一个个单独的词。分词就是将------>连续的字序列------>按照一定的规范------>重新组合成词序列------>的过程。
大家都知道，对于英文而言，单词之间是有固定的空格作为自然分界符的，中文只能是以句段通过明显分分界符来简单划界，而词没有一个形式上的分界符。

二、中文分词的用途

机器翻译，语音合成，自动分类，自动摘要，自动校对，搜索引擎这些都要用到中文分词。

三、中文分词的特点和难点

中文分词就是让计算机在词与词之间加上边界标记。当前研究所面临的问题和困难主要体现在三个方面：分词的规范、歧义词的切分和未登录词识别。

（1）分词的规范。
中文因其自身语言特性的局限，字（词）的界限往往很模糊，关于字（词）的抽象定义和词边界的划定尚没有一个公认的、权威的标准。曾经有专家对母语是汉语者进行了调查，结果显示，对汉语文本中“词”的认同率仅有 70% 左右。正是由于这种不同的主观分词差异，给汉语分词造成了极大的困难。尽管在 1992 年国家颁布了《信息处理用现代词汉语分词规范》，但是这种规范很容易受主观因素影响，在处理现实问题时也不免相形见绌。

（2）歧义词切分。
中文中的歧义词是很普遍的，歧义词即同一个词有多种切分方式，该如何处理这种问题呢？普遍认为中文歧义词有三种类型。
       ⊚ 交集型切分歧义，汉语词如AJB 类型，满足AJ 和JB 分别成词。如“大学生”一种切分方式“大学/生”，另一种切分方式“大/学生”。你很难去判定哪种切分正确，即使是人工切分也只能依据上下文，类似的有“结合成”“美国会”等。
       ⊚ 组合型切分歧义，汉语词如AB，满足A、B、AB 分别成词。如“郭靖有武功高超的才能”中的“才能”，一种切分为“郭靖/有/武功/高超/的/才能”，另一种切分“中国/什么/时候/才/能/达到/发达/国家/水平”显示是不同的切分方式。
       ⊚ 混合型切分歧义，汉语词包含如上两种共存情况。如“郭靖说这把剑太重了”，其中“太重了”是交集型字段，“太重”是组合型字段。

（3）未登录词（新词）识别。
       未登录词又称新词。这类词通常指两个方面，一是词库中没有收录的词，二是训练语料没有出现过的词。未登录词主要体现在以下几种。
       ⊚ 新出现的网络用词。如“蓝牙”“蓝瘦香菇”“房姐”“奥特”“累觉不爱”等。
       ⊚ 研究领域名称：特定领域和新出现领域的专有名词。如“苏丹红”“禽流感”“埃博拉”“三聚氰胺”等。
       ⊚ 其他专有名词：诸如城市名、公司企业、职称名、电影、书籍、专业术语、缩写词等。如“成都”“阿里巴巴”“三少爷的剑”“NLP”“川大”等。

四、常见的中文分词方法

（1）基于字符串匹配的分词方法。
基本思想是基于词典匹配，将待分词的中文文本根据一定规则进行切分和调整，然后跟词典中的词语进行匹配，匹配成功则按照词典的词分词，匹配失败则通过调整或者重新选择，如此反复循环即可。代表方法有基于正向最大匹配和基于逆向最大匹配及双向匹配法。

（2）基于理解的分词方法。
基本思想是通过专家系统或者机器学习神经网络方法模拟人的理解能力。前者是通过专家对分词规则的逻辑推理并总结形成特征规则，不断迭代完善规则，其受到资源消耗大和算法复杂度高的制约。后者通过机器模拟人类理解的方式，虽然可以取得不错的效果，但是依旧受训练时间长和过拟合等因素困扰。

（3）基于统计的分词方法。
       关于统计的中文分词方法的基本思想如下所示：
       ⊚ 基于隐马尔可夫模型的中文分词方法。基本思想是通过文本作为观测序列去确定隐藏序列的过程。该方法采用Viterbi 算法对新词识别，效果不错，但具有生成式模型的缺点，需要计算联合概率，因此随着文本增大，存在计算量大的问题。
       ⊚ 基于最大熵模型的中文分词方法。基本思想是学习概率模型时，在可能的概率分布模型中，认为熵最大的进行切分。该方法可以避免生成模型的不足，但是存在偏移量的问题。
       ⊚ 基于条件随机场模型的中文分词方法。基本思想主要来源于最大熵马尔可夫模型，主要关注的字跟上下文标记位置有关，进而通过解码找到词边界。因此需要大量训练语料，而训练和解码又非常耗时。

总的来说，基于词典和统计的方法分词速度比较快，但是在不同领域取得的效果差异很大，还存在构造费时费力、算法复杂度高、移植性差等缺点。
基于统计的中文分词，虽然其相较于规则的方法取得了不错的效果，但也存在模型训练时间长、分词速度慢等问题。

五、中文分词工具

1、HanLP 中文分词

HanLP 是由一系列模型与算法组成的Java 工具包，目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义等特点。在提供丰富功能的同时，HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布，使用起来非常方便，同时自带一些语料处理工具，帮助用户训练自己的语料

A、 python调用hanlp进行中文分词

代码所示：

 """
 author:jjk
 datetime:2018/11/5
 coding:utf-8
 project name:Pycharm_workstation
 Program function: python调用HanLP分词(中文)

"""
import jpype
from jpype import *

# 调用HanLP的java包，如下路径下载并解压c盘即可：
# 启动JVM，Linux需替换分号;为冒号:
startJVM(getDefaultJVMPath(),
         "-Djava.class.path=F:/Pycharm/Pycharm_workstation/NLP and actual combat/chapter eight\hanlp-1.6.8.jar;"
         "F:/Pycharm/Pycharm_workstation/NLP and actual combat/chapter eight", "-Xms1g", "-Xmx1g")

# 默认分词
print("=" * 30 + "HanLP分词" + "=" * 30)

paraStr1 = '中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程'
HanLP = JClass('com.hankcs.hanlp.HanLP')
print(HanLP.segment(paraStr1))

# 标准分词
print("=" * 30 + "标准分词" + "=" * 30)
StandardTokenizer = JClass('com.hankcs.hanlp.tokenizer.StandardTokenizer')
print(StandardTokenizer.segment(paraStr1))

# NLP分词NLPTokenizer会执行全部命名实体识别和词性标注
print("=" * 30 + "NLP分词" + "=" * 30)
NLPTokenizer = JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')
print(NLPTokenizer.segment(paraStr1))

# 索引分词
print("=" * 30 + "索引分词" + "=" * 30)
IndexTokenizer = JClass('com.hankcs.hanlp.tokenizer.IndexTokenizer')
termList = IndexTokenizer.segment(paraStr1)  # 获取分词内容
for term in termList:
    print(str(term) + " [" + str(term.offset) + ":" + str(term.offset + len(term.word)) + "]")

# 极速索引分词
print("=" * 30 + " 极速词典分词" + "=" * 30)
SpeedTokenizer = JClass('com.hankcs.hanlp.tokenizer.SpeedTokenizer')
print(NLPTokenizer.segment(paraStr1))

# 自定义分词
paraStr2 = '攻城狮逆袭单身狗，迎娶白富美，走上人生巅峰'
print("=" * 30 + " 自定义分词" + "=" * 30)
CustomDictionary = JClass('com.hankcs.hanlp.dictionary.CustomDictionary')
CustomDictionary.add('攻城狮')
CustomDictionary.add('单身狗')
HanLP = JClass('com.hankcs.hanlp.HanLP')
print(HanLP.segment(paraStr2))

# 命名实体标识和词性标注
print("=" * 20 + "命名实体识别与词性标注" + "=" * 30)
NLPTokenizer = JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')
print(NLPTokenizer.segment(paraStr1))

# 关键字提取
f = open("paraStr3.txt", "rb")  # 读取文本  
string = f.read().decode("utf-8")

# paraStr3="水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露，根据刚刚完成了水资源管理制度的考核，有部分省接近了红线的指标,有部分省超过红线的指标。对一些超过红线的地方，陈明忠表示，对一些取用水项目进行区域的限批,严格地进行水资源论证和取水许可的批准。"
print("=" * 30 + "关键词提取" + "=" * 30)
print(HanLP.extractKeyword(string, 8))

# 获取文字---自动生成摘要
ff = open("paraStr0.txt", "rb")  # 读取文本
string2 = ff.read().decode("utf-8")
print("=" * 30 + "自动摘要" + "=" * 30)
print(HanLP.extractSummary(string2, 5))

# 地方名识别
paraStr4 = ["武胜县新学乡政府大楼门前锣鼓喧天", "蓝翔给宁夏固原市彭阳县红河镇黑牛沟村捐赠了挖掘机"]
print("=" * 30 + "地名识别" + "=" * 30)
HanLP = JClass('com.hankcs.hanlp.HanLP')
segment = HanLP.newSegment().enablePlaceRecognize(True)
for sentence in paraStr4:
    print(HanLP.segment(sentence))

# 依存句法分析
paraStr5 = "徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。"
print("=" * 30 + "依存句法分析" + "=" * 30)
print(HanLP.parseDependency(paraStr5))

jpype.shutdownJVM()

结果如下所示(部分截图)：

2、 BosonNLP

玻森实验室开发的一款分词工具。

3、语言云：

以哈工大社会计算与信息检索研究中心研发的“语言技术平台（LTP）”为基础，为用户提供高效精准的中文自然语言处理云服务。

4、 NLPIR

中科院分词系统。

5、新浪云

6、搜狗分词

7、结巴分词

8、 SCWS

简易中文分词系统缩写。SCWS 由hightman 开发，并以BSD 许可协议开源发
布，源码托管在GitHub。

9、腾讯文智

10、盘古分词

11、IKAnalyzer

一个开源的、基于Java 语言开发的轻量级的中文分词工具包。

六、结巴中文分词

1、结巴中文分词的特点

（1）支持三种分词模式。

⊚ 精确模式，试图将句子最精确地切开，适合文本分析；
⊚ 全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；
⊚ 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

（2）支持繁体分词
（3）支持自定义词典

2、安装，获取结巴分词工具

       安装：命令窗口下：

       获取分词工具
       链接：https://pan.baidu.com/s/117i8BG_pslFpXFEgfJNCfw
       提取码：9jzf

3、主要分词功能

       ⊚ jieba.cut 方法接受三个输入参数：需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用HMM 模型。
       ⊚ jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。
       ⊚ 待分词的字符串可以是Unicode 或UTF-8 字符串、GBK 字符串。注意：不建议直接输入GBK 字符串，可能无法预料地错误解码成UTF-8。
       ⊚ jieba.cut 和jieba.cut_for_search 返回的结构都是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语（Unicode）。
       ⊚ jieba.lcut 和jieba.lcut_for_search 直接返回list。
       ⊚ jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

"""
 author:jjk
 datetime:2018/11/6
 coding:utf-8
 project name:Pycharm_workstation
 Program function: 结巴分词
"""
import jieba
import time
start_time = time.time()

# 默认是精确模式
seg_list = jieba.cut("我是倒霉贾，我来自昆明理工大学",cut_all=True)
print("全模式：" + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我是倒霉贾，我来自昆明理工大学",cut_all=False)
print("精确模式：" + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut_for_search("我是倒霉贾，我来自昆明理工大学")# 搜素引擎模式
print("搜索引擎模式：",", ".join(seg_list))

stop_time = time.time()
time_sum = stop_time-start_time
print("一共耗时：",time_sum)

4、添加自定义词典

载入词典

       ⊚ 开发者可以指定自己自定义的词典，以便包含jieba 词库里没有的词。虽然jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率。
       ⊚ 用法：jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径。
       ⊚ 词典格式和dict.txt 一样，一个词占一行；每一行分词语、词频（可省略）和词性（可省略）三部分，用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为UTF-8 编码。

七、结巴分词工具说明

1、结巴分词的算法策略

（1）基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG）。
（2）采用了动态规划查找最大概率路径，找出基于词频的最大切分组合。
（3）对于未登录词，采用基于汉字成词能力的HMM 模型，使用Viterbi 算法。

2、算法实现分词

（1）基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG）。
生成句子中汉字所有可能成词情况所构成的有向无环图。DAG 根据我们生成的前缀字典来构造一个这样的DAG，对一个sentence DAG 是以{key:list[i,j…], …} 的字典结构存储，其中key 是词在sentence 中的位置，list 存放的是在sentence 中以key 开始且词sentence[key:i+1]在前缀词典中以key 开始i 结尾的词的末位置i 的列表，即list 存放的是sentence 中以位置key 开始的可能词语的结束位置，这样通过查字典得到词，以及开始位置+ 结束位置列表。

例如：

句子“抗日战争”生成的DAG中{0:[0,1,3]} 这样一个简单的DAG, 就是表示0位置开始, 在0,1,3位置都是词。就是说0-0,0-1,0-3 即“抗”，“抗日”，“抗日战争”这三个词在dict.txt中是词。

（2）采用动态规划查找最大概率路径，找出基于词频的最大切分组合。基于上面的DAG 利用动态规划查找最大概率路径，理解DP 算法（动态规划算法）很容易就能明白了。根据动态规划查找最大概率路径的基本思路就是对句子从右往左反向计算最大概率。依次类推，最后得到最大概率路径，得到最大概率的切分组合（这里满足最优子结构性质，可以利用反证法进行证明）。代码实现中有个小诀窍，即概率对数（可以让概率相乘的计算变成对数相加，防止相乘造成下溢，因为在语料、词库中，每个词的出现概率平均下来还是很小的浮点数）。

（3）对于未登录词，采用基于汉字成词能力的HMM 模型，使用Viterbi 算法；未登录词其实就是词典dict.txt 中没有记录的词。这里采用了HMM 模型，HMM 是一个简单强大的模型HMM 在实际应用中主要用来解决3 类问题。

⊚ 评估问题（概率计算问题）：即给定观测序列O=O1,O2,O3…Ot 和模型参数λ=(A,B, $\pi$ )，怎样有效计算这一观测序列出现的概率（Forward-backward 算法）。
⊚ 解码问题（预测问题）：即给定观测序列O=O1,O2,O3…Ot 和模型参数λ=(A,B, $\pi$ )，怎样寻找满足这种观察序列意义上最优的隐含状态序列S （Viterbi 算法, 近似算法）。
⊚ 学习问题：即HMM 的模型参数λ=(A,B, $\pi$ ) 未知，如何求出这3 个参数以使观测序列 O=O1,O2,O3…Ot 的概率尽可能大（即用极大似然估计的方法估计参数，Baum-Welch，EM 算法）。
       模型的关键相应参数λ=(A,B, $\pi$ )，经过作者对大量语料的训练，得到了finalseg 目录下的三个文件（初始化状态概率（ $\pi$ ）即词语以某种状态开头的概率，其实只有两种，要么是B，要么是S。这个就是起始向量，就是HMM 系统的最初模型状态，对应文件prob _ start.py。
       隐含状态概率转移矩A 即字的几种位置状态（用BEMS 四个状态来标记，B 是开始begin 位置；E 是end，是结束位置；M 是middle，是中间位置；S 是single，单独成词的位置）的转换概率，对应文件prob _ trans.py；
       观测状态发射概率矩阵B 即位置状态到单字的发射概率，比如p（“狗”|M）表示一个词的中间现“狗”这个字的概率，对应文件prob_emit.py）。

九、结巴分词基本用法

至于结巴分词的用法，博主就不在这里一一详述了，以下的参考链接已经很好的说明了它的用法！！！
1、https://blog.csdn.net/meiqi0538/article/details/80218870
2、https://blog.csdn.net/meiqi0538/article/details/80213431

结束语：
       对于中文分词，是其他中文信息处理的基础，比如搜索引擎只是中文分词的一个应用。在内容中博主也阐述了何为中文分词，中文分词的用途，特点以及难点，中文分词常用的方法以及中文分词的工具。自然语言处理是一个交叉学科，真的是很难，学的东西很多，一个小小的分支就够博主深入研究到毕业啦，，，能看到此处，都是好孩纸加油吧骚年！！！
       说到中文分词的工具，你可能会想了解以下博文：
       https://blog.csdn.net/Jiajikang_jjk/article/details/83750758
       https://blog.csdn.net/Jiajikang_jjk/article/details/83756760
       https://blog.csdn.net/Jiajikang_jjk/article/details/83782825

推特关键词爬虫Python实现最新版（2025.2.20）才华是浅浅的耐心爬虫 python 开发语言
引言随着各类自媒体平台的兴起，数据挖掘和分析变得尤为重要。推特作为全球最大的自媒体平台，越来越来越多的人需要通过爬取其内容进行分析。然后自从马斯克接手推特之后，推特api不可再用，推特的反爬力度也在逐渐增强。今天小编就分享一个推特爬虫的教程。描述这篇文章主要通过关键词爬取帖子内容信息以及帖子作者主页相关信息，用户也可根据自己需要的时间段进行筛选。推特可支持筛选多种语言，我这里先展示中文和英文的。字
一文带你看懂URL地址加”/“和不加的区别高山仰止、景行行止前端
基础概念小科普URL，全称统一资源定位符，它就像互联网上资源的“身份证”，不管是网页、图片，还是各种API接口，都能靠它精准定位。打个比方，URL就是你在互联网这个超级大商场里找店铺的门牌号。这里还有个小知识：以“/”结尾的URL，就像一个敞开大门的大仓库，通常表示目录，比如https://example.com/folder/；不带“/”的URL呢，更像是仓库里的一件具体商品，通常指向具体的资源
Stream流与Guava工具类使用小薛博客 guava 数据库 java
Stream流与Guava工具类使用小薛博客官方地址Stream流与Guava工具类使用1、StreamAPI1、了解StreamJava8中有两大最为重要的改变。第一个是Lambda表达式；另外一个则是StreamAPI(java.util.stream.*)。Stream是Java8中处理集合的关键抽象概念，它可以指定你希望对集合进行的操作，可以执行非常复杂的查找、过滤和映射数据等操作。使用S
policy_does_not_allow_file_overwrite 前端uniapp云存储
uniapp云开发阿里云上传文件uniapp的出现，让前端人员和后端人员实现了“全栈”的小梦想，当然，真正跨端开发的时候，还是会遇到不少的问题，比如今天我们的主角，uniCloud.uploadFile,一般来说，这个api文件名动态生成，云端返回文件存储的链接即可，但是，假如我们的产品是针对用户存储的，即用户的头像、私有文件、图片等具有唯一性，要单独开个目录存放的时候，同样的文件名上传会存在无法
理解并使用基于n-gram重叠的示例选择器 shuoac easyui 前端 javascript python
在AI及自然语言处理任务中，选择与输入最相似的示例可以显著提升生成的质量和上下文相关性。本文将介绍如何使用NGramOverlapExampleSelector工具，通过n-gram重叠来筛选和排序示例，从而帮助实现这一目标。技术背景介绍n-gram重叠技术通过比较输入文本与示例文本在字符或词组上的相似度，计算一个介于0到1之间的分数来表示相似度。这个分数越高，表示文本间的重叠越大。NGramOv
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
机器视觉中图像的腐蚀和膨胀是什么意思？它能用来做什么？ yuanpan 机器学习人工智能计算机视觉图像处理
腐蚀（Erosion）和膨胀（Dilation）是两种基本的形态学操作，通常用于二值图像（黑白图像）的处理。它们是形态学图像处理的基础，广泛应用于图像分割、边缘检测、噪声去除等任务。1.腐蚀（Erosion）腐蚀操作通过对图像中的前景区域（通常为白色像素）进行“收缩”来去除边界上的像素。具体来说，腐蚀操作使用一个结构元素（通常是一个小的矩阵或核）在图像上滑动，只有当结构元素完全覆盖前景区域时，中心
ESP8266 与 ARM7 接口-LPC2148 创建 Web 服务器以控制 LED David WangYang ESP8266项目服务器运维
ESP8266与ARM7接口-LPC2148创建Web服务器以控制LEDESP8266Wi-Fi收发器提供了一种将微控制器连接到网络的方法。它被广泛用于物联网项目，因为它便宜、体积小且易于使用。在本教程中，我们将ESP8266Wi-Fi模块与ARM7-LPC2148微控制器连接，并创建一个Web服务器来控制连接到LPC2148的LED。工作流程将如下所示：从LPC2148向ESP8266发送AT命
2025年毕设ssm校园二手交易平台论文+源码锦程学长--毕设程序课程设计
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于校园二手交易平台的研究，现有成果多集中于社会综合型平台（如闲鱼、转转）的商业模式分析，或理论层面的共享经济模型探讨，而针对高校场景特殊性（如用户密度高、交易标的额小、社交属性强）的垂直型平台研究存在明显缺口。当前高校内二手交易多依赖社群、论坛等分散渠道，存在信息不对称、交易
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
小蓝的图书馆琴声码语算法蓝桥杯 c++哈希表 unordered_map
问题描述小蓝是一个热爱阅读的年轻人，他有一个小型图书馆。为了能够管理他的书籍库存，他需要一个程序来记录图书的信息并执行两种操作：添加图书add和查找作者find。初始小蓝没有书，给出n个操作。add操作给出两个字符串bookname,author，表示添加的图书图书名和作者；find操作给出一个字符串author，你需要输出小蓝的图书馆里这个author有多少本图书。输入格式第一行一个整数n，表示
知识库中的知识如何进行分类和标签管理？自不量力的A同学人工智能
知识库中的知识如何进行分类和标签管理？基于主题分类明确主题层级：首先确定主要的知识主题领域，如在一个企业知识库中，可以分为“人力资源”“市场营销”“技术研发”等大主题。然后在每个大主题下细分小主题，例如在“人力资源”主题下可以有“招聘”“培训”“绩效考核”等子主题。这样的层级分类有助于用户快速定位到自己需要的知识领域。参考行业标准和最佳实践：按照行业内公认的分类标准来划分知识。以医学知识库为例，可
大模型相关网站整理 gorgor在码农 AI实战 python java 人工智能
目录一：大模型开发网站1.开源模型平台2.私有化部署大模型3.LangChain中文网4.LangChain4j5.通过标准的OpenAIAPI格式访问所有的大模型二：国内AI大模型应用盘点聊天1、阿里云--通义千问2、科大讯飞--星火大模型园3、百度--文心一言4、字节跳动豆包5、智谱华章--智谱清言6、华为云园--盘古7、百川智能--百小应8、腾讯--腾讯元宝9、商汤--商量10、MiniMa
Git 修改分支名 scoone Git git 学习
在Git中修改分支名称，可以使用以下步骤：切换到要重命名分支之外的其他分支：gitcheckout重命名本地分支：gitbranch-m如果需要删除远程的旧分支并创建新分支：首先，删除远程旧分支：gitpushorigin--delete然后，推送新命名的本地分支到远程仓库：gitpushorigin如果其他人也在使用这个分支，需要通知他们更新本地分支：其他协作者需要执行以下命令来更新他们的本地分
程序员别再用GitHub了！这个国产神器让你的开发效率原地起飞后端
去年这个时候，我还在为团队协作的代码管理头疼不已。直到某天凌晨三点，盯着满屏的Git指令的我突然发现，自己居然把feature分支合并到了生产环境——这个要命的失误让我在茶水间被同事调侃了整整三个月。就在我准备写辞职信的时候，一个偶然的机会让我遇到了DeepSeek，这个国产开发神器彻底改变了我的职业生涯。你可能很难想象，现在我的团队每天要处理200多个合并请求，但再也没出现过那次凌晨三点的事故。
使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
计算机毕业设计PHP保利和院物业服务管理系统小程序（源码+程序+uni+lw+部署）计算机专业毕设程序课程设计 php 小程序
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
2.git和github操作：diff链接 MY Daisy 工具 git github
目录1.获取差异链接的核心方法方法1：通过分支/提交比较生成链接（适用于GitHub/GitLab/Bitbucket）方法2：使用单次提交的差异链接（查看某次提交的改动）方法3：通过PullRequest（PR）/MergeRequest（MR）2.快速生成diff链接的步骤Step1.获取提交哈希（或分支名称）Step2.拼接平台URLStep3.直接访问链接3.各平台差异链接格式对照表4.自
HoRain云--无需修改BIOS！Linux系统迁移根目录到新磁盘终极指南 HoRain 云小助手 linux 运维服务器
HoRain云小助手：个人主页⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。目录⛳️推荐一、原理简析二、操作步骤（以Ubuntu为例）1.准备工作2.临时挂载新磁盘3.修改GRUB配置4.更新引导配置5.验证配置（重要！）三、故障排查（附解决方案）四、永久生效设置五、注意事项一、原理简析通过GRUB
HoRain云--URI vs URL vs URN：彻底搞懂三者的区别与联系 HoRain 云小助手 java 前端开发语言
HoRain云小助手：个人主页⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。目录⛳️推荐URIvsURLvsURN：彻底搞懂三者的区别与联系一、核心概念解析1.URI（统一资源标识符）2.URL（统一资源定位符）3.URN（统一资源名称）二、三者关系图解三、关键区别对比表四、日常应用场景五、技术冷知
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
HoRain云--Node.js文件下载服务实战：Express实现安全高效的文件传输 HoRain云小助手 node.js express 安全
HoRain云小助手：个人主页个人专栏:《Linux系列教程》《c语言教程》⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。专栏介绍专栏名称专栏介绍《C语言》本专栏主要撰写C干货内容和编程技巧，让大家从底层了解C，把更多的知识由抽象到简单通俗易懂。《网络协议》本专栏主要是注重从底层来给大家一步步剖析网
【财经信息差】2024年12月27日最新财经资讯一览每日财经热点一网打尽代码简单说 AI观财经:财经信息差 AI观财经财经信息差今日财经资讯财经热点今日资讯
大家好，欢迎来到财经信息差！每天，我们将带你直击全球财经动态，精选最新的市场变化、政策动向与产业趋势，让你在最短的时间内，轻松掌握最关键的财经资讯。随着人工智能技术的迅猛发展，我们将用AI的视角为你解析财经热点、企业动向及全球经济变化，让复杂的信息变得简单易懂，帮助你做出更明智的投资决策。财经领域股票市场美股三大指数集体低开，大型科技股多数下跌，纳斯达克金龙指数跌1.07%。小鹏汽车跌3.32%，
低代码平台未来发展趋势有哪些？低代码
低代码平台的未来发展趋势呈现出多维度的创新与深化，以下结合JNPF快速开发平台的特性，为您分析其未来的发展方向：1.智能化与AI深度融合低代码平台将与人工智能技术深度融合，实现开发流程的智能化升级。例如，JNPF平台有望通过自然语言处理技术，让开发者仅需用自然语言描述需求，平台即可自动生成初步的应用架构和代码逻辑。此外，AI技术还将用于智能推荐、代码自动生成、流程自动化等功能，进一步提升开发效率。
同事的前端代码，我真的改不动了！！痛哭~~~ 前端程序员javascript
在日常开发中，我们经常会遇到需要修改同事代码的情况。有时可能会花费很长时间却只改动了几行代码，而且改完后还可能引发新的bug。我们聊聊导致代码难以维护的常见原因，以及相应的解决方案。常见问题及解决方案单文件代码过长问题描述：单个文件动辄几千行代码包含大量DOM结构、JS逻辑和样式需要花费大量时间才能理解代码结构解决方案：将大文件拆分成多个小模块，每个模块负责独立的功能。以一个品牌官网为例，可以这样
祛魅 Manus ，从 0 到 1 开源实现易迟人工智能 Agent 大模型 Manus
背景介绍Manus是最近一个现象级的大模型Agent工具，自从发布以来，被传出各种神乎其神的故事，自媒体又开始炒作人类大量失业的鬼故事，Manus体验码也被炒作为10w的高价。之后又出现反转，被爆出实际体验效果不佳，存在造假的问题，Manus在X平台的账号被冻结。沟通之后，3月8日，Manus官方X账号又被解冻。Manus的故事一波三折，开源社区也没有闲着，MetaGPT团队在Manus发布后3小
Git 的基本概念和使用方式成风693 git
Git是一种分布式版本控制系统，广泛用于协作开发和追踪代码变更历史。以下是Git的基本概念和使用方式：仓库（Repository）：Git仓库是存储代码和版本历史的地方。它可以是本地仓库（LocalRepository）或远程仓库（RemoteRepository）。提交（Commit）：提交是将代码变更保存到版本历史中的操作。每次提交都会生成一个唯一的标识符（SHA-1哈希值）。分支（Branc
Git 分支删除操作指南（含本地与远程）滴答滴答滴嗒滴开发 GIT 入门指南 git 团队开发人工智能 gitlab
Git分支删除操作指南（含本地与远程）在多人协作的开发过程中，定期清理已合并的临时分支（如feature/*、bugfix/*、hotfix/*等）可以保持仓库整洁，避免混乱。分支命名规范回顾分支名用途说明main生产环境主分支develop日常开发主干feature/*新功能开发分支bugfix/*日常问题修复分支release/*准备发布的版本分支hotfix/*紧急修复线上问题分支清理操作流
Git 分支使用规范全解（多人协作开发适用）滴答滴答滴嗒滴开发入门指南 git 个人开发前端后端边缘计算
Git分支使用规范全解（多人协作开发适用）本文将为你梳理一套清晰、标准、适合企业/团队使用的Git分支管理策略，适用于前后端、边缘端、AI项目等多种场景。为什么要规范分支管理？防止多人协作混乱、冲突频发清晰区分：开发中/待发布/已上线的版本快速定位问题来源：feature？hotfix？bugfix？支持代码审查、回滚、自动部署等流程️分支结构总览main#生产环境分支，仅上线代码！develop
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开