jieba 第6页

如何在jieba分词中加自定义词典_常见中文分词包比较

1jiebajieba.cut方法接受三个输入参数:需要分词的字符串；cut_all参数用来控制是否采用全模式；HMM参数用来控制是否使用HMM模型jieba.cut_for_search方法接受两个参数

weixin_39771791·2023-10-20 12:16

文本分类

1、首先使用Jieba分词工具将文本进行分词segment，得到。2、分别针对分词后的文本和类别构建字典dictX和dictY，构建词典就相当于给所有词汇添加索引index，给类别标序号。

是小橙子呀·2023-10-19 22:16

Python实战：打造属于你的词云图生成器

首先，我们需要安装Python的两个库，分别是jieba和wordcloud。jieba库是中文分词库用于对文本进行分词处理；wordcloud

代码编织匠人·2023-10-19 10:04

python初级教程 doc_3分钟教你用python制作一个简单词云|python基础教程|python入门|python教程...

https://www.xin3721.com/eschool/pythonxin3721/首先需要安装三个包：#安装：pipinstallmatplotlib#安装：pipinstalljieba#安装

weixin_39538536·2023-10-19 07:09

python制作的简单程序_python制作一个简单词云

首先需要安装三个包：#安装：pipinstallmatplotlib#安装：pipinstalljieba#安装pipinstallwordcloud1.制作英文字母的词云效果图：代码实现：importmatplotlib.pyplotaspltimportjiebafromwordcloudimportWordCloud

Lin jk·2023-10-19 07:38

《你好，旧时光》数据分析

用到的技术聚类分析wordcount工具包词云主要函数jieba工具包，分词函数停用词实验步骤实验步骤tf-idf主题模型图解LDALDA生成过程实验内容代码如下，完整版https://download.csdn.net

撸码的xiao摩羯·2023-10-18 20:29

NLP学习------HanLP使用实验

我跟据词向量的作者[6]所使用的分词工具来分词，会比不同工具（jieba）的效果要好，因为都是同一模式的分词，分出来的词应该都会存在于大型语料库中。

gladosAI·2023-10-18 12:03

2020-02-14：伯禹打卡笔记

伯禹文本预处理课程学习文本预处理一般的文本预处理步骤：分词（中英文不同，中文分词难度大一些，有一些分词工具：spaCy、NLTK、jieba等，还可以在分词之后去除停用词等，根据语料及使用场景决定）词的向量表示

hc2zzcj·2023-10-15 04:38

golang实现中文分词，scws，jieba

一、scws1、安装scws官网以及文档https://github.com/hightman/scwswget-q-O-http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2|tarxjf-cdscws-1.2.3./configure--prefix=/usr/local/scws--enable-sharedmake&&makeinstal

raoxiaoya·2023-10-15 00:26

如何使jieba自定义词典持久化

jieba分词是利用python进行自然语言处理中必不可少的常用工具，添加自定义词典也是jieba分词中的的常用功能。

菜菜鑫·2023-10-14 17:13

计算机毕业设计Python+Flask+LSTM招聘爬虫可视化大数据分析系统

3Python所需的库：flask、pymysql、pandas、numpy、time、datetime、requests、etree、jieba、re、json、decimal（没有的话pip或conda

计算机毕业设计大神·2023-10-14 16:49

Python【jieba】词性标注表

文章目录jieba词性标注表（0.39版）读取jieba词库，生成词性标注表，保存为excel带词性的分词词与词性间映射en2cn字典映射0.42版后paddle模式词性和专名类别标签其它词性标注表nltk

小基基o_O·2023-10-14 15:18

自然语言处理---------jieba调整词频与词性标注

寻找志同道合的朋友如果觉得有帮助记得一键三连┗|｀O′|┛嗷~~有些句子中出现了一些词语，但是被分开为两个单独的字，虽然这样可以调整词库，只需要重新加载自定义的词库即可，除此之外我们还可以用”调整词频来解决这个问题”importjiebaimportjieba.possegaspg

不良使·2023-10-14 15:45

python：jieba分词+词性标注

python：jieba分词+词性标注处理数据jieba分词导入相关包创建停用词jieba.cut分词进行词性标注文件读取写入做实验室的一个项目，暂时要做的内容：对文本数据作摘要（<8）。

Cactus_xixi·2023-10-14 15:14

【自然语言处理】-jieba库学习笔记(二)

jieba三种分词方法精确模式精确模式将句子最精确的切分开，每个词都只有一种含义。

勤奋努力的野指针·2023-10-14 15:42

python jieba 词性标注中文词性分类 nlp jieba.posseg

参考：https://blog.csdn.net/yellow_python/article/details/83991967fromjieba.possegimportdtdt.word_tag_tab

mohana48833985·2023-10-14 15:39

TypeError: parse() got an unexpected keyword argument 'transport_encoding'

在anaconda3环境下，安装jieba词库，在cmd下输入pipinstalljieba，出现提示：TypeError:parse()gotanunexpectedkeywordargument'transport_encoding

3f31023436c0·2023-10-14 13:14

在Hanlp词典和jieba词典中手动添加未登录词

在使用Hanlp词典或者jieba词典进行分词的时候，会出现分词不准的情况，原因是内置词典中并没有收录当前这个词，也就是我们所说的未登录词，只要把这个词加入到内置词典中就可以解决类似问题，如何操作呢，下面我们来看一下

lanlantian123·2023-10-14 04:51

文本向量化方法比较：tf-idf、doc2bow、doc2vec、lsi、lda

效果时好时坏，偶然性大，不稳lsi、lda效果好且较稳，但lda计算量偏大fromgensim.modelsimportdoc2vecfromgensimimportcorpora,modelsimportjieba

帅气的学术狗·2023-10-13 14:48

python借助jieba、addressparser第三库准确提取省市区地址

内容包含“地址”一列，我想提取省市区三个部分的内容总体思路：---------->(1)安装jiabapipinstall-ihttps://pypi.mirrors.ustc.edu.cn/simple/jieba

weixin_43718742·2023-10-13 02:33

Python利用jieba分词提取字符串中的省市区(字符串无规则)

目录背景库（jieba）代码拓展结尾背景今天的需求就是在一串字符串中提取包含，省、市、区，该字符串不是一个正常的地址;,如下字符串"安徽省、浙江省、江苏省、上海市,冷运标快首重1kg价格xx元,1.01kg

一晌小贪欢·2023-10-13 02:59

Python词频统计——《红楼梦》人物出场次数统计

目录代码实现运行结果代码讲解代码实现importjiebaasjnames=['贾母','贾珍','贾蓉','贾赦','贾政','袭人','王熙凤','紫鹃','翠缕','香菱','豆官','薛蝌','

Corone·2023-10-12 21:22

python通过tkinter制作词云图工具

本地上传的图片需要进行抠图处理，并将抠图结果保存到本地4.背景图形颜色可通过调节RGB值和十六进制颜色值的方式进行设置5.绘制好的词云图可供预览，并且可保存到本地二、python程序importreimportioimportjieba

黑小慕·2023-10-12 15:01

【问题】WARNING: There was an error checking the latest version of pip.

目录1、问题描述：2、解决办法：3、结果：参考文献:1、3、4可以解决问题今天在学习NLP是需要安装jieba库和word2vec库，但是在安装的时候出现了一下问题。

空城老祖·2023-10-11 22:17

词云图大揭秘：如何从文本中挖掘热点词汇？

废话不多说，直接上源码：一、源码importjiebaimportmatplotlib.pyplotaspltimportrefromwordcl

White-Legend·2023-10-11 14:00

Python之jieba库使用自建字典库

一、自建分词字典的原因有时候我们在使用jieba库分词的时候，分词给我们的结果并不是我们需要的准确的结果，如：充电宝变成了充电、宝，所以我们需要建立自己的分词字典库并且“训练”它。

边牧哥哥sos·2023-10-11 09:37

自己动手做词云

#安装jieba,wordcloud,matplotlib,pillow#复制字体并改名#运行文件输出importjiebafromwordcloudimportWordCloudtxt='弱小的人,才习惯

f4ck3sdn·2023-10-10 06:10

jieba库分词并生成词云

importjiebaimportwordcloudstop_words={}withopen('D:/res/stopwords.txt','r',encoding='utf-8')asf:stop_words

装B且挨揍の·2023-10-10 03:13

中文分词原理

jieba原理一、步骤1、基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)2、采用了动态规划查找最大概率路径,找出基于词频的最大切分组合3、对于未登录词，

money666·2023-10-10 02:38

NLP - 数据预处理 - 文本按句子进行切分

-文本按句子进行切分一、前言二、环境配置1、安装nltk库2、下载punkt分句器三、运行程序四、额外补充一、前言在学习对数据训练的预处理的时候遇到了一个问题，就是如何将文本按句子切分，使用传统的jieba

风吹落叶花飘荡·2023-10-09 01:22

Python大数据之PySpark(七)SparkCore案例

文章目录SparkCore案例PySpark实现SouGou统计分析总结后记SparkCore案例PySpark实现SouGou统计分析jieba分词：pipinstalljieba从哪里下载pypi三种分词模式精确模式

Maynor996·2023-10-08 06:46

文本处理算法_第四天：文本处理流程——分词

以下是我们分词常用的库，具体如图所示：其中我们用的最多的中文分词就是Jieba分词工具。我们直接可以在黑屏终端安装；直接按win+R打开黑屏终端；如图所示：并且在其终端

weixin_39607474·2023-10-05 13:56

Python 应用-jieba分词1：进行批量文本分词

知识点小结os.walk()os.walk()方法用于通过在目录树中游走输出在目录中的文件名，向上或者向下。os.walk()方法是一个简单易用的文件、目录遍历器，可以帮助我们高效的处理文件、目录方面的事情。os.walk(top[,topdown=True[,οnerrοr=None[,followlinks=False]]])，top --是你所要遍历的目录的地址，返回生成器，每次生成一个三元

艽野尘梦better·2023-10-05 13:23

文本分词、生成tfidf值并降序排序

#coding:utf-8importosimportsysimportjiebafromsklearnimportfeature_extractionfromsklearn.feature_extraction.textimportTfidfTransformerfromsklearn.feature_extraction.textimportCountVectorizersys.path.ap

骑单车的王小二·2023-10-05 13:22

对需求的内容进行jieba分词并按词频排序输出excel文档

读入excel数据结构：importpandasaspdimportjiebadf=pd.read_excel('xuqiufenxi.xls')print(df)#新建一列存放分词结果df['fenci

佛系人僧·2023-10-05 13:50

文本分词排序

文本分词在这个代码的基础上把英语单词作为一类汉语，作为一类然后列出选项1.大小排序2.小大排序3.不排序打印保存代码importjieba#输入文本，让我陪你聊天吧~lines=[]print("请输入多行文本

代码改变社会·2023-10-05 13:49

常用Python中文分词工具

1.jieba分词“结巴”分词，GitHub最受欢迎的分词工具，立志做最好的Python中文分词组件，支持多种分词模式，支持自定义词典特点支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析

逍遥_yjz·2023-10-05 00:27

Python爬取人民网文章标题

最后改弄词云了，无奈╮(╯▽╰)╭爬取网址：传送门：http://www.people.com.cn/爬虫大体思路和方法：大体思路：（1）这个页面相对简单，获取页面标签里的文本和链接就不说了（2）利用jieba

MMddyhc·2023-10-03 17:43

python红楼梦词频统计

python红楼梦词频统计《红楼梦》人物的出场统计涉及对词汇的统计，中文文章的需要分词才能进行词频统计，需要用到jieba库。

锦枫_JF·2023-10-03 17:34

打印优雅文字

开始的代码importosfromPILimportImage,ImageDraw,ImageFontimportjiebadefgenerate_image_with_white_bg(text,font_path

代码改变社会·2023-10-03 17:00

计算机二级Python备考（23年3月）（持续更新中）

目录一、选择题1.在Python语言中：2.知识点二、基本操作题1.jieba库考点知识点：题目1：2.format格式化输出考查知识点：题目1：3random库考察知识点：常考题目1：importrandom

夏天的遥遥漓曦·2023-10-02 16:43

ES基础篇 Docker部署的ES中安装IK分词器

前言之前写了Docker部署Elasticsearch和Kinbana，但Elasticsearch毕竟是国外的，对分词方面明显跟不上我们的需求，所以在很多时候，我们都会安装分词器插件，如IK分词器、JieBa

Genterator·2023-10-02 04:04

python中文情感分析分类和英文情感分析的库和方法汇总

以下是用Python写的一个简单的情感分析分类函数的代码示例：importjiebaimportnumpyasnpdefsentiment_analysis(text):#读取情感词典sentiment_words

朴拙数科·2023-10-02 01:53

jieba.posseg是jieba中的一个组件，它用于对文本进行词性标注

jieba.posseg是Python中的一个分词工具，它可以将文本切割成词语，并且为每个词语标注词性。这个工具可以帮助我们更好地理解和处理自然语言文本。

代码改变社会·2023-10-01 07:30

【深度学习】实验18 自然语言处理

文章目录自然语言处理分词技术1.正向最大匹配算法2.HanLP常用方法3.Jieba常用方法构建词向量1.基于sklearn构建One-hot词向量2.基于gensim构建word2vec词向量附：系列文章自然语言处理自然语言处理

Want595·2023-09-30 16:36

中文分词的词典中的词性标记

词性标记：包含ICTPOS3.0词性标记集、ICTCLAS汉语词性标注集、jieba字典中出现的词性、simhash中可以忽略的部分词性。

沐雪架构师·2023-09-30 11:48

《学术小白学习之路10》论文常见方法：Doc2vec-句向量模型实现

1.数据用于文献的摘要的相似度的计算##导包importpandasaspdimportjiebaimportgensimfromgensim.modelsimportDoc2Vecfromgensim.models.doc2vecimportTaggedDocument

驭风少年君·2023-09-29 17:19

【问题解决】pip安装工具包超时问题解决

在安装jieba时，总是超时。pip.

蜗牛慢行·2023-09-28 23:50

使用Gensim进行文本信息分类

朋友圈信息代码:#-*-coding:utf-8-*-importnumpyasnpfromgensimimportcorpora,models,similaritiesimporttimeimportjiebadefload_stopword

后海里的过桥·2023-09-28 00:23

MOOC例题

BatchInstall.pybatch批量install安装importos#lib库文件创建一个集合libs={'numpy','matplotlib','pillow','sklearn','requests','jieba

Emily_ASL·2023-09-27 10:48

推荐频道

jieba