E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
jieba
如何在
jieba
分词中加自定义词典_常见中文分词包比较
1
jieba
jieba
.cut方法接受三个输入参数:需要分词的字符串;cut_all参数用来控制是否采用全模式;HMM参数用来控制是否使用HMM模型
jieba
.cut_for_search方法接受两个参数
weixin_39771791
·
2023-10-20 12:16
文本分类
1、首先使用
Jieba
分词工具将文本进行分词segment,得到。2、分别针对分词后的文本和类别构建字典dictX和dictY,构建词典就相当于给所有词汇添加索引index,给类别标序号。
是小橙子呀
·
2023-10-19 22:16
Python实战:打造属于你的词云图生成器
首先,我们需要安装Python的两个库,分别是
jieba
和wordcloud。
jieba
库是中文分词库用于对文本进行分词处理;wordcloud
代码编织匠人
·
2023-10-19 10:04
python
开发语言
python初级教程 doc_3分钟教你用python制作一个简单词云|python基础教程|python入门|python教程...
https://www.xin3721.com/eschool/pythonxin3721/首先需要安装三个包:#安装:pipinstallmatplotlib#安装:pipinstall
jieba
#安装
weixin_39538536
·
2023-10-19 07:09
python初级教程
doc
python制作的简单程序_python制作一个简单词云
首先需要安装三个包:#安装:pipinstallmatplotlib#安装:pipinstall
jieba
#安装pipinstallwordcloud1.制作英文字母的词云效果图:代码实现:importmatplotlib.pyplotaspltimport
jieba
fromwordcloudimportWordCloud
Lin jk
·
2023-10-19 07:38
python制作的简单程序
《你好,旧时光》数据分析
用到的技术聚类分析wordcount工具包词云主要函数
jieba
工具包,分词函数停用词实验步骤实验步骤tf-idf主题模型图解LDALDA生成过程实验内容代码如下,完整版https://download.csdn.net
撸码的xiao摩羯
·
2023-10-18 20:29
Python
java
开发语言
NLP学习------HanLP使用实验
我跟据词向量的作者[6]所使用的分词工具来分词,会比不同工具(
jieba
)的效果要好,因为都是同一模式的分词,分出来的词应该都会存在于大型语料库中。
gladosAI
·
2023-10-18 12:03
NLP
NLP
hanlp
jieba
2020-02-14:伯禹打卡笔记
伯禹文本预处理课程学习文本预处理一般的文本预处理步骤:分词(中英文不同,中文分词难度大一些,有一些分词工具:spaCy、NLTK、
jieba
等,还可以在分词之后去除停用词等,根据语料及使用场景决定)词的向量表示
hc2zzcj
·
2023-10-15 04:38
golang实现中文分词,scws,
jieba
一、scws1、安装scws官网以及文档https://github.com/hightman/scwswget-q-O-http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2|tarxjf-cdscws-1.2.3./configure--prefix=/usr/local/scws--enable-sharedmake&&makeinstal
raoxiaoya
·
2023-10-15 00:26
golang
golang
中文分词
开发语言
如何使
jieba
自定义词典持久化
jieba
分词是利用python进行自然语言处理中必不可少的常用工具,添加自定义词典也是
jieba
分词中的的常用功能。
菜菜鑫
·
2023-10-14 17:13
计算机毕业设计Python+Flask+LSTM招聘爬虫可视化大数据分析系统
3Python所需的库:flask、pymysql、pandas、numpy、time、datetime、requests、etree、
jieba
、re、json、decimal(没有的话pip或conda
计算机毕业设计大神
·
2023-10-14 16:49
Python【
jieba
】词性标注表
文章目录
jieba
词性标注表(0.39版)读取
jieba
词库,生成词性标注表,保存为excel带词性的分词词与词性间映射en2cn字典映射0.42版后paddle模式词性和专名类别标签其它词性标注表nltk
小基基o_O
·
2023-10-14 15:18
自然语言处理
自然语言处理---------
jieba
调整词频与词性标注
寻找志同道合的朋友如果觉得有帮助记得一键三连┗|`O′|┛嗷~~有些句子中出现了一些词语,但是被分开为两个单独的字,虽然这样可以调整词库,只需要重新加载自定义的词库即可,除此之外我们还可以用”调整词频来解决这个问题”import
jieba
import
jieba
.possegaspg
不良使
·
2023-10-14 15:45
python
自然语言处理
python
自然语言处理
python:
jieba
分词+词性标注
python:
jieba
分词+词性标注处理数据
jieba
分词导入相关包创建停用词
jieba
.cut分词进行词性标注文件读取写入做实验室的一个项目,暂时要做的内容:对文本数据作摘要(<8)。
Cactus_xixi
·
2023-10-14 15:14
python
python
自然语言处理
【自然语言处理】-
jieba
库学习笔记(二)
jieba
三种分词方法精确模式精确模式将句子最精确的切分开,每个词都只有一种含义。
勤奋努力的野指针
·
2023-10-14 15:42
python
python
自然语言处理
python
jieba
词性标注 中文词性分类 nlp
jieba
.posseg
参考:https://blog.csdn.net/yellow_python/article/details/83991967from
jieba
.possegimportdtdt.word_tag_tab
mohana48833985
·
2023-10-14 15:39
python
自然语言处理
开发语言
TypeError: parse() got an unexpected keyword argument 'transport_encoding'
在anaconda3环境下,安装
jieba
词库,在cmd下输入pipinstall
jieba
,出现提示:TypeError:parse()gotanunexpectedkeywordargument'transport_encoding
3f31023436c0
·
2023-10-14 13:14
在Hanlp词典和
jieba
词典中手动添加未登录词
在使用Hanlp词典或者
jieba
词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一下
lanlantian123
·
2023-10-14 04:51
文本向量化方法比较:tf-idf、doc2bow、doc2vec、lsi、lda
效果时好时坏,偶然性大,不稳lsi、lda效果好且较稳,但lda计算量偏大fromgensim.modelsimportdoc2vecfromgensimimportcorpora,modelsimport
jieba
帅气的学术狗
·
2023-10-13 14:48
python借助
jieba
、addressparser第三库准确提取省市区地址
内容包含“地址”一列,我想提取省市区三个部分的内容总体思路:---------->(1)安装jiabapipinstall-ihttps://pypi.mirrors.ustc.edu.cn/simple/
jieba
weixin_43718742
·
2023-10-13 02:33
python
开发语言
后端
Python利用
jieba
分词提取字符串中的省市区(字符串无规则)
目录背景库(
jieba
)代码拓展结尾背景今天的需求就是在一串字符串中提取包含,省、市、区,该字符串不是一个正常的地址;,如下字符串"安徽省、浙江省、江苏省、上海市,冷运标快首重1kg价格xx元,1.01kg
一晌小贪欢
·
2023-10-13 02:59
自己的笔记
python
windows
开发语言
Python词频统计——《红楼梦》人物出场次数统计
目录代码实现运行结果代码讲解代码实现import
jieba
asjnames=['贾母','贾珍','贾蓉','贾赦','贾政','袭人','王熙凤','紫鹃','翠缕','香菱','豆官','薛蝌','
Corone
·
2023-10-12 21:22
#
Python词频统计
python
python通过tkinter制作词云图工具
本地上传的图片需要进行抠图处理,并将抠图结果保存到本地4.背景图形颜色可通过调节RGB值和十六进制颜色值的方式进行设置5.绘制好的词云图可供预览,并且可保存到本地二、python程序importreimportioimport
jieba
黑小慕
·
2023-10-12 15:01
python
python
开发语言
【问题】WARNING: There was an error checking the latest version of pip.
目录1、问题描述:2、解决办法:3、结果:参考文献:1、3、4可以解决问题今天在学习NLP是需要安装
jieba
库和word2vec库,但是在安装的时候出现了一下问题。
空城老祖
·
2023-10-11 22:17
Bug
pip
词云图大揭秘:如何从文本中挖掘热点词汇?
废话不多说,直接上源码:一、源码import
jieba
importmatplotlib.pyplotaspltimportrefromwordcl
White-Legend
·
2023-10-11 14:00
人工智能
python
数据挖掘
Python之
jieba
库使用自建字典库
一、自建分词字典的原因有时候我们在使用
jieba
库分词的时候,分词给我们的结果并不是我们需要的准确的结果,如:充电宝变成了充电、宝,所以我们需要建立自己的分词字典库并且“训练”它。
边牧哥哥sos
·
2023-10-11 09:37
自己动手做词云
#安装
jieba
,wordcloud,matplotlib,pillow#复制字体并改名#运行文件输出import
jieba
fromwordcloudimportWordCloudtxt='弱小的人,才习惯
f4ck3sdn
·
2023-10-10 06:10
服务器
linux
python
jieba
库分词并生成词云
import
jieba
importwordcloudstop_words={}withopen('D:/res/stopwords.txt','r',encoding='utf-8')asf:stop_words
装B且挨揍の
·
2023-10-10 03:13
Python
python
中文分词原理
jieba
原理一、步骤1、基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)2、采用了动态规划查找最大概率路径,找出基于词频的最大切分组合3、对于未登录词,
money666
·
2023-10-10 02:38
NLP - 数据预处理 - 文本按句子进行切分
-文本按句子进行切分一、前言二、环境配置1、安装nltk库2、下载punkt分句器三、运行程序四、额外补充一、前言 在学习对数据训练的预处理的时候遇到了一个问题,就是如何将文本按句子切分,使用传统的
jieba
风吹落叶花飘荡
·
2023-10-09 01:22
python实践
学习笔记
自然语言处理
人工智能
Python大数据之PySpark(七)SparkCore案例
文章目录SparkCore案例PySpark实现SouGou统计分析总结后记SparkCore案例PySpark实现SouGou统计分析
jieba
分词:pipinstall
jieba
从哪里下载pypi三种分词模式精确模式
Maynor996
·
2023-10-08 06:46
#
PySpark
python
大数据
开发语言
文本处理算法_第四天:文本处理流程——分词
以下是我们分词常用的库,具体如图所示:其中我们用的最多的中文分词就是
Jieba
分词工具。我们直接可以在黑屏终端安装;直接按win+R打开黑屏终端;如图所示:并且在其终端
weixin_39607474
·
2023-10-05 13:56
文本处理算法
Python 应用-
jieba
分词1:进行批量文本分词
知识点小结os.walk()os.walk()方法用于通过在目录树中游走输出在目录中的文件名,向上或者向下。os.walk()方法是一个简单易用的文件、目录遍历器,可以帮助我们高效的处理文件、目录方面的事情。os.walk(top[,topdown=True[,οnerrοr=None[,followlinks=False]]]),top --是你所要遍历的目录的地址,返回生成器,每次生成一个三元
艽野尘梦better
·
2023-10-05 13:23
Python应用
python
自然语言处理
中文分词
文本分词、生成tfidf值并降序排序
#coding:utf-8importosimportsysimport
jieba
fromsklearnimportfeature_extractionfromsklearn.feature_extraction.textimportTfidfTransformerfromsklearn.feature_extraction.textimportCountVectorizersys.path.ap
骑单车的王小二
·
2023-10-05 13:22
python实战
python
自然语言处理
对需求的内容进行
jieba
分词并按词频排序输出excel文档
读入excel数据结构:importpandasaspdimport
jieba
df=pd.read_excel('xuqiufenxi.xls')print(df)#新建一列存放分词结果df['fenci
佛系人僧
·
2023-10-05 13:50
pandas
产品
python
pandas
开发语言
文本分词排序
文本分词在这个代码的基础上把英语单词作为一类汉语,作为一类然后列出选项1.大小排序2.小大排序3.不排序打印保存代码import
jieba
#输入文本,让我陪你聊天吧~lines=[]print("请输入多行文本
代码改变社会
·
2023-10-05 13:49
python
青少年编程
自动化
数据库
中文分词
常用Python中文分词工具
1.
jieba
分词“结巴”分词,GitHub最受欢迎的分词工具,立志做最好的Python中文分词组件,支持多种分词模式,支持自定义词典特点支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析
逍遥_yjz
·
2023-10-05 00:27
Python爬取人民网文章标题
最后改弄词云了,无奈╮(╯▽╰)╭爬取网址:传送门:http://www.people.com.cn/爬虫大体思路和方法:大体思路:(1)这个页面相对简单,获取页面标签里的文本和链接就不说了(2)利用
jieba
MMddyhc
·
2023-10-03 17:43
Python
爬虫
python
爬虫
python红楼梦词频统计
python红楼梦词频统计《红楼梦》人物的出场统计涉及对词汇的统计,中文文章的需要分词才能进行词频统计,需要用到
jieba
库。
锦枫_JF
·
2023-10-03 17:34
1024程序员节
打印优雅文字
开始的代码importosfromPILimportImage,ImageDraw,ImageFontimport
jieba
defgenerate_image_with_white_bg(text,font_path
代码改变社会
·
2023-10-03 17:00
python
自动化
青少年编程
数据库
图像处理
计算机二级Python备考(23年3月)(持续更新中)
目录一、选择题1.在Python语言中:2.知识点二、基本操作题1.
jieba
库考点知识点:题目1:2.format格式化输出考查知识点:题目1:3random库考察知识点:常考题目1:importrandom
夏天的遥遥漓曦
·
2023-10-02 16:43
python
开发语言
ES基础篇 Docker部署的ES中安装IK分词器
前言之前写了Docker部署Elasticsearch和Kinbana,但Elasticsearch毕竟是国外的,对分词方面明显跟不上我们的需求,所以在很多时候,我们都会安装分词器插件,如IK分词器、
JieBa
Genterator
·
2023-10-02 04:04
ES从入门到跑路
elasticsearch
docker
搜索引擎
python中文情感分析分类和英文情感分析的库和方法汇总
以下是用Python写的一个简单的情感分析分类函数的代码示例:import
jieba
importnumpyasnpdefsentiment_analysis(text):#读取情感词典sentiment_words
朴拙数科
·
2023-10-02 01:53
python
分类
自然语言处理
jieba
.posseg是
jieba
中的一个组件,它用于对文本进行词性标注
jieba
.posseg是Python中的一个分词工具,它可以将文本切割成词语,并且为每个词语标注词性。这个工具可以帮助我们更好地理解和处理自然语言文本。
代码改变社会
·
2023-10-01 07:30
python
自动化
python
前端
【深度学习】实验18 自然语言处理
文章目录自然语言处理分词技术1.正向最大匹配算法2.HanLP常用方法3.
Jieba
常用方法构建词向量1.基于sklearn构建One-hot词向量2.基于gensim构建word2vec词向量附:系列文章自然语言处理自然语言处理
Want595
·
2023-09-30 16:36
《
深度学习
》
深度学习
自然语言处理
人工智能
中文分词的词典中的词性标记
词性标记:包含ICTPOS3.0词性标记集、ICTCLAS汉语词性标注集、
jieba
字典中出现的词性、simhash中可以忽略的部分词性。
沐雪架构师
·
2023-09-30 11:48
中文分词
自然语言处理
《学术小白学习之路10》论文常见方法:Doc2vec-句向量模型实现
1.数据用于文献的摘要的相似度的计算##导包importpandasaspdimport
jieba
importgensimfromgensim.modelsimportDoc2Vecfromgensim.models.doc2vecimportTaggedDocument
驭风少年君
·
2023-09-29 17:19
学术小白学习之路
学习
笔记
【问题解决】pip安装工具包超时问题解决
在安装
jieba
时,总是超时。pip.
蜗牛慢行
·
2023-09-28 23:50
python
使用Gensim进行文本信息分类
朋友圈信息代码:#-*-coding:utf-8-*-importnumpyasnpfromgensimimportcorpora,models,similaritiesimporttimeimport
jieba
defload_stopword
后海里的过桥
·
2023-09-28 00:23
MOOC例题
BatchInstall.pybatch批量install安装importos#lib库文件创建一个集合libs={'numpy','matplotlib','pillow','sklearn','requests','
jieba
Emily_ASL
·
2023-09-27 10:48
python
二级
pygame
python
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他