撸码的xiao摩羯

第08章中文分词

序言

1. 内容介绍

本章详细介绍了中文分词以及清洗的常用方法、中文词频统计方法以及词云可视化方法等内容。

2. 理论目标

了解中文分词以及清洗的常用方法；
了解中文词频统计方法以及词云可视化方法。

3. 实践目标

掌握中文分词以及清洗的常用方法，能完成目标中文文本分词及清洗任务；
掌握中文词频统计方法以及词云可视化方法，能完成目标中文词频列表统计以及词云可视化作图。

4. 实践案例

无

5. 内容目录

1.中文分词概述
2.结巴分词应用
3.词频统计应用
4.中文分词实战

第1节中文分词概述

中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

1. 常见中文分词方法

学者提出了很多关于统计模型的中文分词方法，主要有以下几种：

基于字符串匹配的分词方法

基本思想是基于词典匹配，将待分词的中文文本根据一定的规则切分和调整，然后跟词典中的词语进行匹配，匹配成功则按照词典的词进行分词，匹配失败则调整或者重新选择，如此反复循环即可。

基于理解的分词方法

基本思想是通过专家系统或者机器学习神经网络方法模拟人的理解能力。

前者是通过专家对分词规则的逻辑推理并总结形成特征规则，不断迭代完善规则，其受到资源消耗大和算法复杂度高的制约；

后者是通过机器模拟人类理解的方式，虽然可以取得不错的效果，但是依旧受训练时间长和过度拟合等因素困扰。

基于统计的分词方法

基本思想是通过不同的数学统计模型进行分析

基于隐马尔可夫模型的中文分词方法；

基于最大熵模型的中文分词方法；

基于条件随机场模型的中文分词方法。

本章将基于隐马尔可夫模型和自定义词典结合的方法，其在分词速度、歧义分析、新词发现和准确率方面都具有良好的效果

第2节结巴分词应用

1. 结巴分词概述

结巴分词（jieba分词）是基于Python 的中文分词工具，其分词功能强大且安装方便。该分词工具支持三种分词模式：

全模式分词，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；
精确模式分词，试图将句子最精确地切开，适合文本分析；
搜索引擎模式分词，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

安装命令

pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/

2. 结巴分词基本操作

中文分词方法

方法一、jieba.cut()

jieba.cut(sentence, cut_all=False, HMM=True)

参数说明

sentence：待分词的字符串

cut_all：是否采用全模式，分全模式 True、精确模式False

HMM：是否使用HMM模型 (隐马尔科夫模型)，基本少用

jieba.cut()返回的结构是一个可迭代的 generator。

1. 精确模式（默认 cut_all=False）

默认是精确模式，适合文本分析

import jieba s = "我来到中国北京故宫博物馆" segList = jieba.cut(s) print(segList) for segListi in segList: print(segListi)

我
来到
中国
北京故宫
博物馆

2. 全模式（cut_all=True）

全模式，扫描所有可以成词的词语，速度非常快，不能解决歧义

import jieba s = "我来到中国北京故宫博物馆" segList = jieba.cut(s, cut_all=True) print(segList) for segListi in segList: print(segListi)

我
来到
中国
北京
北京故宫
故宫
博物
博物馆

方法二、jieba.lcut()

jieba.lcut(sentence, cut_all=False, HMM=True)

参数说明

sentence：待分词的字符串

cut_all：是否采用全模式，分全模式 True、精确模式False

HMM：是否使用HMM模型 (隐马尔科夫模型)，基本少用

jieba.lcut()方法直接返回列表（List）。

import jieba s = "我来到中国北京故宫博物馆" segList = jieba.lcut(s) print(segList)

['我', '来到', '中国', '北京故宫', '博物馆']

方法三、jieba.cut_for_search()

jieba.cut_for_search(sentence, HMM=True)

参数说明

sentence：待分词的字符串

HMM：是否使用HMM模型 (隐马尔科夫模型)，基本少用

jieba.cut_for_search()返回的结构是一个可迭代的 generator。

搜索引擎模式，对长词再次切分，粒度比较细，提高召回率，适合用于搜索引擎分词。

import jieba s = "我来到中国北京故宫博物馆" segList = jieba.cut_for_search(s) print(segList) for segListi in segList: print(segListi)

我
来到
中国
北京
故宫
北京故宫
博物
博物馆

方法四、jieba.lcut_for_search()

jieba.lcut_for_search(sentence, HMM=True)

参数说明

sentence：待分词的字符串

HMM：是否使用HMM模型 (隐马尔科夫模型)，基本少用

jieba.lcut_for_search()方法直接返回列表（List）。

import jieba s = "我来到中国北京故宫博物馆" segList = jieba.lcut_for_search(s) print(segList)

['我', '来到', '中国', '北京', '故宫', '北京故宫', '博物', '博物馆']

词典定义方法

无论哪种分词都不能做到100%的准确，尤其是对一些歧义词的处理，比如“如果放在数据库中将会出错。”：

import jieba s = "如果放在数据库中将会出错。" segList = jieba.lcut(s) print(segList)

['如果', '放在', '数据库', '中将', '会', '出错', '。']

为解决以上问题，jieba 提供 动态修改词频 和 添加词典文件 两种方法。

方法一、动态修改词频 jieba.suggest_freq()

可以将自定义词典逐个插入词典

jieba.suggest_freq(segment, tune=True)

参数说明

segment：新增词组，可以为单字符串 / 元组 / 列

tune：是否分离出来

动态修改词频，调节单个词语的词频，使其能（不能）被分出来。

import jieba jieba.suggest_freq(['中', '将'], tune=True) s = "如果放在数据库中将会出错。" segList = jieba.lcut(s) print(segList)

['如果', '放在', '数据库', '中', '将', '会', '出错', '。']

方法二、添加词典文件 jieba.load_userdict()

可以将自定义词典放在一个文本文件中，实现批量添加到词典。

jieba.load_userdict(file_name)

参数说明

file_name：词典文件路径及名称

添加词典文件，文件需要有特定格式，并且为UTF-8编码。

import jieba jieba.load_userdict(r"./user_dict.txt") s = "今天很高兴在课室和大家交流学习。" segList = jieba.lcut(s) print(segList)

['今天', '很高兴', '在', '课室', '和', '大家', '交流学习', '。']

关键词提取方法

关键词就是最能够反映出文本主题或者意思的词语，关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。

但是网络上写文章的人不会像写论文那样告诉你本文的关键词是什么，这个时候就需要利用计算机自动抽取出关键词，算法的好坏直接决定了后续步骤的效果。

本文将基于TF-IDF关键词抽取算法展开介绍，先抽取出候选词，然后对各个候选词进行打分，然后输出topK个分值最高的候选词作为关键词。

from jieba import analyse # 引入TF-IDF关键词抽取接口 tfidf = analyse.extract_tags s = ''' 此外，公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元，增资后，吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。 2013年，实现营业收入0万元，实现净利润-139.13万元。 ''' kwList = tfidf(s,10, withWeight=True) ## s 表示待分词的字符串，10 表示显示前10个词组，withWeight=True 表示是否返回权重 for k, v in kwList: print('%s %s' % (k, v))

欧亚 0.7300142700289363
吉林 0.659038184373617
置业 0.4887134522112766
万元 0.3392722481859574
增资 0.33582401985234045
4.3 0.25435675538085106
7000 0.25435675538085106
2013 0.25435675538085106
139.13 0.25435675538085106
实现 0.19900979900382978

词性标注方法

词性标注就是对分词结果根据词性进行标记，在过滤特征词或者实体处理都是比较有用的。

import jieba s = "我来到中国北京故宫博物馆" words = jieba.posseg.cut(s) for word, flag in words: print('%s %s' % (word, flag))

我 r
来到 v
中国 ns
北京故宫 ns
博物馆 n

词性标注代码含义：

类型	代码	类型	代码
1.名词	n 名词	11.量词	q 量词
1.名词	nr 人名	11.量词	qv 动量词
1.名词	nr1 汉语姓氏	11.量词	qt 时量词
1.名词	nr2 汉语名字	12.副词	d 副词
1.名词	nrj 日语人名	13.介词	p 介词
1.名词	nrf 音译人名	13.介词	pba 介词“把”
1.名词	ns 地名	13.介词	pbei 介词“被”
1.名词	nsf 音译地名	14.连词	c 连词
1.名词	nt 机构团体名	14.连词	cc 并列连词
1.名词	nz 其它专名	15.助词	u 助词
1.名词	nl 名词性惯用语	15.助词	uzhe 着
1.名词	ng 名词性语素	15.助词	ule 了喽
2.时间词	t 时间词	15.助词	uguo 过
2.时间词	tg 时间词性语素	15.助词	ude1 的底
3.处所词	s 处所词	15.助词	ude2 地
4.方位词	f 方位词	15.助词	ude3 得
5.动词	v 动词	15.助词	usuo 所
5.动词	vd 副动词	15.助词	udeng 等等等云云
5.动词	vn 名动词	15.助词	uyy 一样一般似的般
5.动词	vshi 动词“是”	15.助词	udh 的话
5.动词	vyou 动词“有”	15.助词	uls 来讲来说而言说来
5.动词	vf 趋向动词	15.助词	uzhi 之
5.动词	vx 形式动词	15.助词	ulian 连（“连小学生都会”）
5.动词	vi 不及物动词（内动词）	16.叹词	e 叹词
5.动词	vl 动词性惯用语	17.语气词	y 语气词(delete yg)
5.动词	vg 动词性语素	18.拟声词	o 拟声词
6.形容词	a 形容词	19.前缀	h 前缀
6.形容词	ad 副形词	20.后缀	k 后缀
6.形容词	an 名形词	21.字符串	x 字符串
6.形容词	ag 形容词性语素	21.字符串	xx 非语素字
6.形容词	al 形容词性惯用语	21.字符串	xu 网址URL
7.区别词	b 区别词	22.标点符号	w 标点符号
7.区别词	bl 区别词性惯用语	22.标点符号	wkz 左括号，全角：（〔［｛《【〖〈半角：( [ { <
8.状态词	z 状态词	22.标点符号	wky 右括号，全角：）〕］｝》】〗〉半角： ) ] { >
9.代词	r 代词	22.标点符号	wyz 左引号，全角：“ ‘ 『
9.代词	rr 人称代词	22.标点符号	wyy 右引号，全角：” ’ 』
9.代词	rz 指示代词	22.标点符号	wj 句号，全角：。
9.代词	rzt 时间指示代词	22.标点符号	ww 问号，全角：？半角：?
9.代词	rzs 处所指示代词	22.标点符号	wt 叹号，全角：！半角：!
9.代词	rzv 谓词性指示代词	22.标点符号	wd 逗号，全角：，半角：,
9.代词	ry 疑问代词	22.标点符号	wf 分号，全角：；半角： ;
9.代词	ryt 时间疑问代词	22.标点符号	wn 顿号，全角：、
9.代词	rys 处所疑问代词	22.标点符号	wm 冒号，全角：：半角： :
9.代词	ryv 谓词性疑问代词	22.标点符号	ws 省略号，全角：…… …
9.代词	rg 代词性语素	22.标点符号	wp 破折号，全角：—— －－ ——－半角：— ----
10.数词	m 数词	22.标点符号	wb 百分号千分号，全角：％ ‰ 半角：%
10.数词	mq 数量词	22.标点符号	wh 单位符号，全角：￥＄￡ ° ℃ 半角：$

消除停用词方法

文本分词中的去除停用词在数据预处理中是不可或缺的内容，针对待分词文本，通过匹配停用词、数字、单个字符、空格，对文本内容进行清洗。

import sys import re import jieba # 1.加载自定义分词词典 jieba.load_userdict("./user_dict.txt") # 2.读取待分词文本信息 fNews = "./体育news.txt" with open(fNews,'r',encoding='utf-8') as f: docList = f.read().split('\n') # 3.读取停用词 fStopwords = "./NLPIR_stopwords.txt" with open(fStopwords,'r',encoding='utf-8') as f: stopwordList = f.read().split('\n') # 4.遍历待分词文本信息，去除符合规则的词组 docResult = [] for docListi in docList: # jieba.cut()返回可迭代的 generator，使用list() 转换为列表对象 docListiCut = list(jieba.cut(docListi, cut_all=False)) for i in range(len(docListiCut))[::-1]: if docListiCut[i] in stopwordList: # 去除停用词 docListiCut.pop(i) elif docListiCut[i].isdigit(): # 去除数字 docListiCut.pop(i) elif len(docListiCut[i]) == 1: # 去除单个字符 docListiCut.pop(i) elif docListiCut[i] == " ": # 去除空字符 docListiCut.pop(i) docResult.extend(docListiCut) print(docResult)

['马晓旭', '意外', '受伤', '国奥', '警惕', '无奈', '大雨', '青睐', '殷家', '记者', '傅亚雨', '沈阳', '报道', '来到', '沈阳', '国奥队', '依然', '摆脱', '雨水', '困扰', '下午', '国奥队', '日常', '训练', '再度', '大雨', '干扰', '无奈', '之下', '队员', '慢跑', '分钟', '草草收场', '上午', '国奥队', '奥体中心', '外场', '训练', '阴沉沉', '气象预报', '显示', '当天', '下午', '沈阳', '大雨', '幸好', '队伍', '上午', '训练', '干扰', '下午', '球队', '抵达', '训练场', '大雨', '几个', '小时', '丝毫', '停下来', '试一试', '态度', '球队', '当天', '下午', '例行', '训练', '分钟', '天气', '转好', '迹象', '保护', '球员', '国奥队', '中止', '当天', '训练', '全队', '返回', '酒店', '训练', '足球队', '稀罕', '奥运会', '全队', '变得', '娇贵', '沈阳', '一周', '训练', '国奥队', '保证', '现有', '球员', '出现意外', '伤病', '情况', '影响', '正式', '比赛', '这一', '阶段', '控制', '训练', '受伤', '控制', '感冒', '疾病', '队伍', '放在', '位置', '抵达', '沈阳', '后卫', '冯萧霆', '训练', '冯萧霆', '长春', '患上', '感冒', '参加', '塞尔维亚', '热身赛', '队伍', '介绍', '冯萧霆', '发烧', '症状', '两天', '静养', '休息', '感冒', '恢复', '训练', '冯萧霆', '例子', '国奥队', '对雨中', '训练', '显得', '特别', '谨慎', '担心', '球员', '受凉', '引发', '感冒', '非战斗', '减员', '女足', '队员', '马晓旭', '热身赛', '受伤', '导致', '无缘', '奥运', '前科', '沈阳', '国奥队', '警惕', '训练', '嘱咐', '队员', '动作', '再出', '事情', '一位', '工作人员', '长春', '沈阳', '雨水', '一路', '伴随', '国奥队', '长春', '几次', '训练', '大雨', '搅和', '没想到', '沈阳', '碰到', '事情', '一位', '国奥', '球员', '雨水', '青睐', '不解']

第3节词频统计应用

1. 词频统计概述

词频统计是一种用于情报检索与文本挖掘的常用加权技术，用以评估一个词对于一个文件的重要程度。

字词的重要性随着它在文件中出现次数成正比增加。

2. 基于Counter词频统计

collections 作为python的重点、高频模块，通过其中的 Counter类可快速实现字词列表的词频统计。

Counter作为字典dicit()的一个子类，将元素进行数量统计，计数后返回一个字典，键值为元素，值为元素个数。因此可参照字典进行基本操作。

from collections import Counter ## docResult 作为字词列表（见上节返回结果） Words = Counter(docResult) for k, v in Words.items(): print(k, v) # .items() 返回每个键值对组成的元组，按字典集合中，每一个元组的第二个元素排列。 WordsSorted=sorted(Words.items(),key=lambda x:x[1],reverse=False) print(WordsSorted)

马晓旭 2
意外 1
受伤 3
国奥 2
警惕 2
无奈 2
...

[('意外', 1), ('殷家', 1), ('记者', 1), ('傅亚雨', 1), ('报道', 1), ('来到', 1), ('依然', 1), ('摆脱', 1), ('困扰', 1), ('日常', 1), ('再度', 1), ('之下', 1), ('慢跑', 1), ('草草收场', 1), ('奥体中心', 1), ('外场', 1), ('阴沉沉', 1), ('气象预报', 1), ('显示', 1), ('幸好', 1), ('训练场', 1), ('几个', 1), ('小时', 1), ('丝毫', 1), ('停下来', 1), ('试一试', 1), ('态度', 1), ('例行', 1), ('天气', 1), ('转好', 1), ('迹象', 1), ('保护', 1), ('中止', 1), ('返回', 1), ('酒店', 1), ('足球队', 1), ('稀罕', 1), ('奥运会', 1), ('变得', 1), ('娇贵', 1), ('一周', 1), ('保证', 1), ('现有', 1), ('出现意外', 1), ('伤病', 1), ('情况', 1), ('影响', 1), ('正式', 1), ('比赛', 1), ('这一', 1), ('阶段', 1), ('疾病', 1), ('放在', 1), ('位置', 1), ('后卫', 1), ('患上', 1), ('参加', 1), ('塞尔维亚', 1), ('介绍', 1), ('发烧', 1), ('症状', 1), ('两天', 1), ('静养', 1), ('休息', 1), ('恢复', 1), ('例子', 1), ('对雨中', 1), ('显得', 1), ('特别', 1), ('谨慎', 1), ('担心', 1), ('受凉', 1), ('引发', 1), ('非战斗', 1), ('减员', 1), ('女足', 1), ('导致', 1), ('无缘', 1), ('奥运', 1), ('前科', 1), ('嘱咐', 1), ('动作', 1), ('再出', 1), ('工作人员', 1), ('一路', 1), ('伴随', 1), ('几次', 1), ('搅和', 1), ('没想到', 1), ('碰到', 1), ('不解', 1), ('马晓旭', 2), ('国奥', 2), ('警惕', 2), ('无奈', 2), ('青睐', 2), ('干扰', 2), ('分钟', 2), ('上午', 2), ('球队', 2), ('抵达', 2), ('全队', 2), ('控制', 2), ('热身赛', 2), ('事情', 2), ('一位', 2), ('受伤', 3), ('雨水', 3), ('队员', 3), ('当天', 3), ('队伍', 3), ('长春', 3), ('下午', 4), ('球员', 4), ('感冒', 4), ('冯萧霆', 4), ('大雨', 5), ('沈阳', 8), ('国奥队', 8), ('训练', 13)]

3. 基于NLTK词频统计

NLTK概述

NLTK（Natural Language Toolkit，自然语言工具包）是Python编程语言实现的自然语言处理工具，广泛应用于经验语言学、认知科学、人工智能、信息检索和机器学习领域。

nltk库安装

pip install nltk -i https://pypi.tuna.tsinghua.edu.cn/simple/

文本词频统计

使用NLTK的方法统计字词列表的词频信息：

from nltk import * ## docResult 作为字词列表（见上节返回结果） fdist = FreqDist(docResult) print(fdist) print(type(fdist)) words = fdist.keys() ## 字词列表 print(words) wordsFreq = fdist.values() ## 字词频数 print(wordsFreq)



dict_keys(['马晓旭', '意外', '受伤', '国奥', '警惕', '无奈', '大雨', '青睐', '殷家', '记者', '傅亚雨', '沈阳', '报道', '来到', '国奥队', '依然', '摆脱', '雨水', '困扰', '下午', '日常', '训练', '再度', '干扰', '之下', '队员', '慢跑', '分钟', '草草收场', '上午', '奥体中心', '外场', '阴沉沉', '气象预报', '显示', '当天', '幸好', '队伍', '球队', '抵达', '训练场', '几个', '小时', '丝毫', '停下来', '试一试', '态度', '例行', '天气', '转好', '迹象', '保护', '球员', '中止', '全队', '返回', '酒店', '足球队', '稀罕', '奥运会', '变得', '娇贵', '一周', '保证', '现有', '出现意外', '伤病', '情况', '影响', '正式', '比赛', '这一', '阶段', '控制', '感冒', '疾病', '放在', '位置', '后卫', '冯萧霆', '长春', '患上', '参加', '塞尔维亚', '热身赛', '介绍', '发烧', '症状', '两天', '静养', '休息', '恢复', '例子', '对雨中', '显得', '特别', '谨慎', '担心', '受凉', '引发', '非战斗', '减员', '女足', '导致', '无缘', '奥运', '前科', '嘱咐', '动作', '再出', '事情', '一位', '工作人员', '一路', '伴随', '几次', '搅和', '没想到', '碰到', '不解'])
dict_values([2, 1, 3, 2, 2, 2, 5, 2, 1, 1, 1, 8, 1, 1, 8, 1, 1, 3, 1, 4, 1, 13, 1, 2, 1, 3, 1, 2, 1, 2, 1, 1, 1, 1, 1, 3, 1, 3, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 4, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 4, 1, 1, 1, 1, 4, 3, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1])

特定字词词频统计

使用NLTK的方法统计特定字词的词频信息（频率和次数）：

from nltk import * ## docResult 作为字词列表（见上节返回结果） fdist = FreqDist(docResult) w = '训练' print(fdist.freq(w)) ## 特定字词出现的频率 print(fdist[w]) ## 特定字词出现的次数

0.06878306878306878
13

字词词频分布表

由于散落的列表形式不容易观察词频分布情况，因此需要使用词频分布表来显示。

from nltk import * ## docResult 作为字词列表（见上节返回结果） fdist = FreqDist(docResult) fdist.tabulate(10) ## 字词频率分布表：字词及频数

 训练  沈阳 国奥队  大雨  下午  球员  感冒 冯萧霆  受伤  雨水 
 13   8   8   5   4   4   4   4   3   3

4. 自定义去高低词频

在词频统计基础上，为了更加精准地分析特征词和模型结果，需要识别区分高频词和低频词。词频的选择主要考虑以下3个方面：

选择高低词频，有时候高低词频更能代表文本的特征，比如一篇足球的报告，其中足球、跑位等领域特征词频明显高于普通词，此刻就对高频词赋予更大的权重。
选择中间词，当特别高或特别低的词频是一种异常值时，不能突显文章的核心内容，此时可考虑截取中位特征词。
至于高低词频的选择，可根据实际应用环境设定。

from collections import Counter ''' 剔除频数过高或过低的字词 wordList：字词列表 nmin：低频词的数量阈值 nmax：高频词的数量阈值 ''' def wordFreq(wordList, nmin, nmax): wordResult = [] wordDict = Counter(wordList) for key in wordDict.keys(): if wordDict.get(key) > nmin and wordDict.get(key) < nmax: wordResult.append((key, wordDict.get(key))) return wordResult ## docResult 作为字词列表（见上节返回结果） wordSelect = wordFreq(docResult, 2, 15) print(wordSelect)

[('受伤', 3), ('大雨', 5), ('沈阳', 8), ('国奥队', 8), ('雨水', 3), ('下午', 4), ('训练', 13), ('队员', 3), ('当天', 3), ('队伍', 3), ('球员', 4), ('感冒', 4), ('冯萧霆', 4), ('长春', 3)]

5. 自定义规则提取特征词

特征词中有一类词特别重要，这类词指的是实体，包括人名、地名、机构名、数字、日期等。

因此会出现一个专门的研究方向叫做命名实体识别，可以借助上文的词性对命名实体进行简单的选择，比如需要提取人名、地名、机构团体和其他专有名词，对应的只需要选择（‘nr’,‘ns’,‘nt’,‘nz’）即可。

import jieba.posseg as ps # 1.读取待分词文本信息 fNews = "./体育news.txt" with open(fNews,'r',encoding='utf-8') as f: docList = f.read().split('\n') # 2.读取停用词 fStopwords = "./NLPIR_stopwords.txt" with open(fStopwords,'r',encoding='utf-8') as f: stopwordList = f.read().split('\n') # 3.遍历待分词文本信息，按既定规则进行特征抽取 userPosList = ['nr','ns','nt','nz'] docResult = [] for docListi in docList: for word, pos in ps.cut(docListi): if word not in stopwordList and (word, pos) not in docResult and pos in userPosList: docResult.append((word, pos)) print(docResult)

[('马晓旭', 'nr'), ('国奥', 'nz'), ('傅亚雨', 'nr'), ('沈阳', 'ns'), ('国奥队', 'nt'), ('奥体中心', 'nt'), ('冯萧霆', 'nr'), ('长春', 'ns'), ('非战斗', 'nz')]

第4节中文分词实战

1. 需求描述与实现思路

需求描述

结合前述的中文分词方法，实现目录下体育新闻文本的批量分词，并对字词列表进行消除停用词处理，以词云形式展示词频分布。

实现思路

实现思路：

遍历文件功能以类封装，遍历指定目录路径下文档，读取文档并返回文档内容
中文分词及清理以类封装，包括停用词文件路径初始化、加载停用词方法、中文文本分词及字词清洗方法
调用词云作图函数，对字词列表进行可视化

2. 实现遍历文件功能

基于《第七章文本信息提取》获取文件列表方法，函数返回值关键字 return 改为 yield，如此便成了生成器函数，可以大大提升代码执行效率。

import os ## 1. 遍历文件功能以类封装，遍历指定目录路径下文档，读取文档并返回文档内容 class loadFiles(): def __init__(self, par_path): self.par_path = par_path def __iter__(self): for file in os.listdir(self.par_path): # 遍历路径下所有文件 file_path = os.path.join(self.par_path, file) if os.path.isfile(file_path): # 判断是否为文件，以下仅针对文件进行操作 fin = open(file_path, 'rb') # rb读取方式更快 content = fin.read().decode('utf8') yield content fin.close() if __name__ == "__main__": path = "./sportnews/" files = loadFiles(path) for i, filei in enumerate(files): print("正在处理第{}篇文章……".format( i+1 )) # print(filei)

正在处理第1篇文章……
正在处理第2篇文章……
正在处理第3篇文章……
正在处理第4篇文章……
正在处理第5篇文章……
正在处理第6篇文章……
...

3. 实现中文分词及清理功能

结合第 2 节介绍的中文分词方法和消除停用词方法，通过函数封装，实现针对文本分词及清洗功能。

import sys import re import jieba ## 2. 中文分词及清理以类封装，包括停用词文件路径初始化、加载停用词方法、中文文本分词及字词清洗方法 class StrCut(): # 停用词文件路径初始化 def __init__(self, stopwordPath=r""): self.stopwordPath = stopwordPath self.stopwordList = [] # 加载停用词方法 def LoadStopword(self): with open(self.stopwordPath, 'r', encoding='utf-8') as f: self.stopwordList = f.read().split('\n') # 中文文本分词及字词清洗方法：去除停用词、去除数字、去除单个字符、去除空字符 def ClearWord(self, wordStr): docList = wordStr.split('\n') docResult = [] for docListi in docList: # jieba.cut()返回可迭代的 generator，使用list() 转换为列表对象 docListiCut = list(jieba.cut(docListi, cut_all=False)) for i in range(len(docListiCut))[::-1]: if docListiCut[i] in self.stopwordList: # 去除停用词 docListiCut.pop(i) elif docListiCut[i].isdigit(): # 去除数字 docListiCut.pop(i) elif len(docListiCut[i]) == 1: # 去除单个字符 docListiCut.pop(i) elif docListiCut[i] == " ": # 去除空字符 docListiCut.pop(i) docResult.extend(docListiCut) return docResult if __name__ == "__main__": # 1.读取待分词文本信息 fNews = "./体育news.txt" with open(fNews,'r',encoding='utf-8') as f: docList = f.read() ## 中文分词及清理类实例化 stopwordPath = "./NLPIR_stopwords.txt" fileCut = StrCut(stopwordPath) fileCut.LoadStopword() ## 加载停用词 docResult = fileCut.ClearWord(docList) print(docResult)

['马晓旭', '意外', '受伤', '国奥', '警惕', '无奈', '大雨', '青睐', '殷家', '记者', '傅亚雨', '沈阳', '报道', '来到', '沈阳', '国奥队', '依然', '摆脱', '雨水', '困扰', '下午', '国奥队', '日常', '训练', '再度', '大雨', '干扰', '无奈', '之下', '队员', '慢跑', '分钟', '草草收场', '上午', '国奥队', '奥体中心', '外场', '训练', '阴沉沉', '气象预报', '显示', '当天', '下午', '沈阳', '大雨', '幸好', '队伍', '上午', '训练', '干扰', '下午', '球队', '抵达', '训练场', '大雨', '几个', '小时', '丝毫', '停下来', '试一试', '态度', '球队', '当天', '下午', '例行', '训练', '分钟', '天气', '转好', '迹象', '保护', '球员', '国奥队', '中止', '当天', '训练', '全队', '返回', '酒店', '训练', '足球队', '稀罕', '奥运会', '全队', '变得', '娇贵', '沈阳', '一周', '训练', '国奥队', '保证', '现有', '球员', '出现意外', '伤病', '情况', '影响', '正式', '比赛', '这一', '阶段', '控制', '训练', '受伤', '控制', '感冒', '疾病', '队伍', '放在', '位置', '抵达', '沈阳', '后卫', '冯萧霆', '训练', '冯萧霆', '长春', '患上', '感冒', '参加', '塞尔维亚', '热身赛', '队伍', '介绍', '冯萧霆', '发烧', '症状', '两天', '静养', '休息', '感冒', '恢复', '训练', '冯萧霆', '例子', '国奥队', '对雨中', '训练', '显得', '特别', '谨慎', '担心', '球员', '受凉', '引发', '感冒', '非战斗', '减员', '女足', '队员', '马晓旭', '热身赛', '受伤', '导致', '无缘', '奥运', '前科', '沈阳', '国奥队', '警惕', '训练', '嘱咐', '队员', '动作', '再出', '事情', '一位', '工作人员', '长春', '沈阳', '雨水', '一路', '伴随', '国奥队', '长春', '几次', '训练', '大雨', '搅和', '没想到', '沈阳', '碰到', '事情', '一位', '国奥', '球员', '雨水', '青睐', '不解']

4. 词云可视化

词云可视化，需借助第三方库wordcloud 实现。词云可视化功能以函数封装，调用时只要函数名及传入字词列表参数即可。

词云库安装

pip install wordcloud -i https://pypi.tuna.tsinghua.edu.cn/simple/

import os import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt from PIL import Image import numpy as np ## 3. 调用词云作图函数，对字词列表进行可视化 ## 3.1.矩形词云图 def drawPic(docList): # 引用系统中文字体，以防文字无法显示 font = r"C:/Windows/Fonts/微软雅黑/msyhl.ttc" docStr = " ".join(docList) s = WordCloud( font_path=font, background_color=None, width=1200, height=600 ).generate(docStr) s.to_file("cloud.png") # 保存图片 plt.imshow(s) plt.axis("off") plt.show() ## 3.2.指定背景词云图 def drawSportPic(docList): # 引用系统中文字体，以防文字无法显示 font = r"C:/Windows/Fonts/微软雅黑/msyhl.ttc" docStr = " ".join(docList) img = Image.open("logo.jpg") mask = np.array(img) img.close() s = WordCloud( mask = mask, font_path=font, background_color='white', width=720, height=650 ).generate(docStr) s.to_file("sportcloud.png") # 保存图片 plt.imshow(s) plt.axis("off") plt.show() if __name__ == "__main__": # 1.读取待分词文本信息 fNews = "./体育news.txt" with open(fNews,'r',encoding='utf-8') as f: docList = f.read() ## 中文分词及清理类实例化 stopwordPath = "./NLPIR_stopwords.txt" fileCut = StrCut(stopwordPath) fileCut.LoadStopword() ## 加载停用词 docResult = fileCut.ClearWord(docList) drawPic(docResult) ## 矩形词云图 drawSportPic(docResult) ## 以指定图片为背景做词云图

5. 中文分词小结

综合以上步骤，经过类和函数封装，用户通过对象实例化和函数调用，只要输入待分词文本路径、停用词文件路径，即可完成指定目录下文件文本分词、字词清理、云图可视化等功能。

遍历文件功能类：

定义类 loadFiles

定义__init__方法（实例属性）

文件目录路径

定义__iter__方法

说明实例对象为可迭代的对象，获取文件列表方法

文分词及清理类：

定义类 StrCut

定义__init__方法（实例属性）

停用词文件路径

停用词列表

定义ClearWord方法

实现中文文本分词及字词清洗：去除停用词、去除数字、去除单个字符、去除空字符

词云作图函数，对字词列表进行可视化

3.1. 矩形词云图

3.2. 指定背景词云图

#!/usr/bin/python # -*- coding: utf-8 -*- # @Time : 2021年8月19日 # @Author : Alan # @Webchat : [email protected] # @FileName: ch08.py # @Software: Python 3.7 ''' 功能描述：实现目录下体育新闻文本的批量分词，并对字词列表进行消除停用词处理，以词云形式展示词频分布。实现思路： 1. 遍历文件功能以类封装，遍历指定目录路径下文档，读取文档并返回文档内容 2. 中文分词及清理以类封装，包括停用词文件路径初始化、加载停用词方法、中文文本分词及字词清洗方法 3. 调用词云作图函数，对字词列表进行可视化 ''' import os import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt from PIL import Image import numpy as np ## 1. 遍历文件功能以类封装，遍历指定目录路径下文档，读取文档并返回文档内容 class loadFiles(): ''' 输入： 1. par_path 指定待遍历文件的目录路径输出： 1. content 文档内容 ''' def __init__(self, par_path): self.par_path = par_path def __iter__(self): for file in os.listdir(self.par_path): # 遍历路径下所有文件 file_path = os.path.join(self.par_path, file) if os.path.isfile(file_path): # 判断是否为文件，以下仅针对文件进行操作 fin = open(file_path, 'rb') # rb读取方式更快 content = fin.read().decode('utf8') yield content fin.close() ## 2. 中文分词及清理以类封装，包括停用词文件路径初始化、加载停用词方法、中文文本分词及字词清洗方法 class StrCut(): ''' 输入： 1. stopwordPath 指定停用词文件路径输出： 1. docResult 文档字词经分词及清理后的列表 ''' # 停用词文件路径初始化 def __init__(self, stopwordPath=r""): self.stopwordPath = stopwordPath self.stopwordList = [] # 加载停用词方法 def LoadStopword(self): with open(self.stopwordPath, 'r', encoding='utf-8') as f: self.stopwordList = f.read().split('\n') # 中文文本分词及字词清洗方法：去除停用词、去除数字、去除单个字符、去除空字符 def ClearWord(self, wordStr): docList = wordStr.split('\n') docResult = [] for docListi in docList: # jieba.cut()返回可迭代的 generator，使用list() 转换为列表对象 docListiCut = list(jieba.cut(docListi, cut_all=False)) for i in range(len(docListiCut))[::-1]: if docListiCut[i] in self.stopwordList: # 去除停用词 docListiCut.pop(i) elif docListiCut[i].isdigit(): # 去除数字 docListiCut.pop(i) elif len(docListiCut[i]) == 1: # 去除单个字符 docListiCut.pop(i) elif docListiCut[i] == " ": # 去除空字符 docListiCut.pop(i) docResult.extend(docListiCut) return docResult ## 3. 调用词云作图函数，对字词列表进行可视化 ## 3.1.矩形词云图 def drawPic(docList): # 引用系统中文字体，以防文字无法显示 font = r"C:/Windows/Fonts/微软雅黑/msyhl.ttc" docStr = " ".join(docList) s = WordCloud( font_path=font, background_color=None, width=1200, height=600 ).generate(docStr) s.to_file("cloud.png") # 保存图片 plt.imshow(s) plt.axis("off") plt.show() ## 3.2.指定背景词云图 def drawSportPic(docList): # 引用系统中文字体，以防文字无法显示 font = r"C:/Windows/Fonts/微软雅黑/msyhl.ttc" docStr = " ".join(docList) img = Image.open("logo.jpg") mask = np.array(img) img.close() s = WordCloud( mask = mask, font_path=font, background_color='white', width=720, height=650 ).generate(docStr) s.to_file("sportcloud.png") # 保存图片 plt.imshow(s) plt.axis("off") plt.show() if __name__ == "__main__": ## 遍历文件功能类实例化 path = "./sportnews/" fileStrs = loadFiles(path) ## 中文分词及清理类实例化 stopwordPath = "./NLPIR_stopwords.txt" fileCut = StrCut(stopwordPath) fileCut.LoadStopword() ## 加载停用词 ## 遍历文件，将所有字词合并到一个列表 docList = [] for i, fileStrsi in enumerate(fileStrs): print("正在处理第{}篇文章……".format(i)) docListi = fileCut.ClearWord(fileStrsi) docList.extend(docListi) #drawPic(docList) ## 矩形词云图 drawSportPic(docList) ## 以指定图片为背景做词云图

开始实验

第5节附录

你可能感兴趣的:(爬虫,中文分词,机器学习,人工智能)

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
requests的使用
一·概念requests作为爬虫的基础库，在我们快速爬取和反爬破解中起到很重要的作用，其中的知识点大概有以下几个方面：二·内容一，request：1-requests.get…get请求获取数据2-requests.post…post请求获取数据二，response:1-response.text.响应体str类型2-response.encoding从HTTPheader中获取响应内容的编码方式
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
windows exe爬虫：exe抓包程序猿阿三爬虫项目实战 exe抓包
不论任何爬虫，抓包是获取数据最直接和最方便的方式，这章节我们一起看一下windowsexe是如何拦截数据的。用mitmproxy/Charles/Fiddler或Wireshark拦截它的HTTP/HTTPS/TCP流量。如果是HTTPS，安装并信任代理的根证书。由于exe大部分可能走的是自定义应用层协议。在不知情所拦截应用使用的流量时，所以建议用Wireshark。本文利用python代码，实现
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

第08章 中文分词

序言