jieba 第7页

R语言爬虫豆瓣高评分电影（喝最烈的酒，熬最深的夜，吃最好的胃药，敷最贵的面膜）

豆瓣电影TOP250抓取下了那么多包没用多少东西，看着黑人，反正pradaprada的赶紧逃，赶紧的，你会炸的这里面主要用到R/Rstudio里面的RCurl、XML、wordcloud、stringr、jiebaR

LEEBELOVED·2023-09-21 01:44

Python——对每条评论（每个单元格文本）进行词频统计

C列为统计结果#-*-coding:utf-8-*-"""CreatedonFriAug3108:57:452018@author:Shirley"""importxlrdimportjiebafromcollectionsimportdefaultdictfromopenpyxlimportload_workbookstopwords

大力SAMA·2023-09-20 09:47

文本预处理，语言模型，循环神经网络

本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：读入文本分词建立字典，将每个词映射到一个唯一的索引（index）将文本从词的序列转换为索引的序列，方便输入模型用现有工具进行分词spaCy，NLTK,jieba

头号大眼睛·2023-09-19 18:26

机器学习第七课--情感分析系统

常用的分词工具#encoding=utf-8importjieba#基于jieba的分词参考:https://github.com/fxsjy/jiebaseg_list=jieba.cut("贪心学院是国内最专业的

好人cc·2023-09-19 08:58

python爬虫爬取电影数据并做可视化

请求库和保存库importpandasaspd#读取csv文件以及操作数据fromlxmlimportetree#解析html库frompyecharts.chartsimport*#可视化库注意：后续用到分词库jieba

BUG再也不见·2023-09-19 05:22

WorldCloud

一、生成词云图片testCloud.pyimportjieba#分词frommatplotlibimportpyplotasplt#绘图，数据可视化fromwordcloudimportWordCloud

凹凸曼说我是怪兽y·2023-09-18 20:01

语义通信理论必看论文：Towards a Theory of Semantic Communication

目录论文简介文章介绍语义通信的模型语义熵提出三个定理知识点论文简介作者JieBaoPrithwishBasuMikeDeanCraigPartridge发表期刊or会议《IEEENetworkScienceWorkshop

一去不复返的通信er·2023-09-17 20:05

一个Python里最好的分词库!

在Python中，最好用的中文分词库是jieba。用“结巴”给一个中文分词库命名，非常生动形象，同时还带有一种程序员式的幽默感。最好的Python中文分词组件“结巴”中文分词

菜鸟学Python·2023-09-17 14:47

jieba.load_userdict报错：FileNotFoundError: [Errno 2] No such file or directory

一、报错原因分析一开始我以为是文件路径有问题，绝对路径相对路径都试了一遍，还是不行；二是怀疑文件名不合适，于是修改了文件名至不含任何中文字符或特殊字符，还是不行。二、最终解决办法其实是文件名后缀问题，有可能去掉.txt或者加上.txt就可以了。很简单的问题，希望下次遇到不会再浪费时间。

高考坐后排的边牧·2023-09-17 10:17

TAGS与分类

分类树形结构TAGS强调更贴近使用用Python,jieba分词，通过TF-IDF算法，提取文章中的高频词，选取N个作为TAGS，并写回数据库。如何用Python做中文分词？

普笛·2023-09-17 10:58

Python安装jieba的方法

作者：rookiequ安装jieba的方法方法一：一个博主写的，通过镜像下载，瞬间下载好，不要太爽。

codequ·2023-09-15 21:27

结巴分词jieba添加自定义词典

然后使用jieba.load_userdict

JECK_ケーキ·2023-09-13 15:11

学习python的第三天

importjieba1.读取小说内容withopen('.

睡睡小悠菜·2023-09-13 12:42

使用Langchain+GPT+向量数据库chromadb 来创建文档对话机器人

chromadb来创建文档对话机器人一.效果图如下：二.安装包pipinstalllangchainpipinstallchromadbpipinstallunstructuredpipinstalljieba

g3230863·2023-09-13 10:26

NLP案例

基础案例1：运用朴素贝叶斯进行分类，使用到了停用词：importnumpyasnpimportjiebaimportmatplotlib.pyplotaspltfromsklearn.feature_extraction.textimportCountVectorizerfromsklearn.naive_bayesimportMultinomialNB

枭玉龙·2023-09-12 20:36

使用jieba 分词拆分文本的逻辑和逻辑对象并制作搜索引擎

jieba中采用了《现代汉语词性标记》标准来标记汉语的词性，使用大量的中文细致地对汉语的各个词性进行分类，详细的列表可参考官方文档：jieba词性标注下面是jieba支持的词性名字及其代号的对照表：名称代号名称代号名称代号名称代号名词

东方佑·2023-09-11 22:05

机器学习面试：tfidf&BM25的理解与应用

一个直接的想法是对整篇文章进行分词，统计每个词出现的次数按照次数进行排序，出现次数越多的词重要性越高importjiebafromcollect

我家大宝最可爱·2023-09-11 03:31

python-jieba库

jieba库，python提供的中文分词函数库的第三方库，它可以将一段中文文本分割成中文词语序列。

蔷莫·2023-09-10 01:59

python词云图生成简单实用

首先：导入主要模块jieba、matplotlib、wordcloud、numpy、PILimportjiebafrommatplotlibimportpyplotaspltfromwordcloudimportWordCloudfromPILimportImagefrommatplotlibimportcolorsimportnumpyasnp

he盒子nu·2023-09-10 01:48

Python 统一地铁线路名称

importjieba#分词fromfnmatchimpor

lxx199603·2023-09-09 07:29

Python 自然语言处理文本分类地铁方面留言文本

importnumpyasnpimportpandasaspdimportjieba#分词importre#正则fromfnmatchimportfnmatch#通配符fromsklearn.preprocessingimportLabelEncoderfromsklearn.feature_extraction.textimpo

lxx199603·2023-09-09 07:25

ES-Docker部署的ES中安装IK分词器

前言之前写了Docker部署Elasticsearch和Kinbana，但Elasticsearch毕竟是国外的，对分词方面明显跟不上我们的需求，所以在很多时候，我们都会安装分词器插件，如IK分词器、JieBa

小松猿·2023-09-08 09:40

[Python]第三方库

NumPy:N维数据表示和运算pipinstallnumpyMatplotlib：二维数据可视化PIL：图像处理Scikit-Learn:机器学习和数据挖掘Requests:HTTP协议访问及网络爬虫Jieba

居家龙龙·2023-09-08 02:30

使用python生成文字视频

定时显示几个词语；好几次刷到这些视频，想到应该可以使用python生成；基本原理1、读取文本获取分词或分段列表2、通过分词列表生成文字素材视频列表3、通过文字素材生成视频4、视频合并音频用到的库：分词库jieba

liangblog·2023-09-07 11:00

Rasa 3.1 机器学习三中文模型训练，预言结果无法命中默认回复配置

action_dafault_fallback2、config.ymlrecipe:default.v1assistant_id:20230829-135604-instant-radixlanguage:zhpipeline:-name:JiebaTokenizer

山不在高_有仙则灵·2023-09-07 05:25

python学习之绘制词云

使用第三方jieba库来分隔中文。importjiebaw=jieba.lc

小张是个测试·2023-09-07 00:08

利用python进行QQ聊天分析

importreimportjiebaimportpandasaspdimportnumpyasnpfromdatetimeimportdatetimefromsnownlpimportSnowNLPfromcollectionsimportCounterfromwordcloudimportWordCloudimportmatplotlib.pyplotaspltfromdatetimeimpo

Tokeii·2023-09-06 23:23

文本分析-自定义词典

在做本文分析时，由于有较多的专用术语和名词，在jieba词库是没有的词，需要添加自定义词典，保证更高的正确率。

starfly·2023-09-06 13:11

Python学习的第三天

三国TOP10人物分析importjiebafromwordcloudimportWordCloud#1.读取小说内容withopen('.

Asano_·2023-09-06 10:40

python-wordcloud词云

导入模块fromwordcloudimportWordCloudimportjiebaimportimageioimportmatplotlib.pyplotaspltfromPILimportImageGrabimportnumpyasnpwordcloud

蔷莫·2023-09-05 06:08

python中文分词基础操作：jieba分词库(基础知识+实例)

jieba【中文分词操作】目录jieba【中文分词操作】jieba库是什么jieba库的安装和导入jieba库的使用1）精确模式：2）全模式：3）搜索引擎模式：4）jieba库常用函数：————————

乌拉的故事·2023-09-05 05:36

自然语言处理：提取长文本进行文本主要内容（文本意思）概括（两种方法，但效果都一般）

本文主要针对长文本进行文本提取和中心思想概括，原文档放在了附件里面：-----------------------------------方法一：jieba分词提取文本（句子赋分法）----------

mnwl12_0·2023-09-04 22:31

jieba基于 TF-IDF 算法的关键词抽取-运行样例

代码示例（关键词提取）https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py需要将这个文件保存下来，然后在cmd中运行，这样就可以运行成功了

正在看书的Sophie·2023-09-04 03:09

如何分析识别文章/内容中高频词和关键词？

theme:orange要分析一篇文章的高频词和关键词，可以使用Python中的nltk库和collections库或者jieba库来实现，本篇文章介绍基于两种库分别实现分析内容中的高频词和关键词。

青Cheng序员石头·2023-09-03 06:34

怎么从0到1创建一个PHP框架-1？

框架地址：https://github.com/yijiebaiyi/fast_framework整体思路开发一款web框架，首先要考虑这个框架的整体运行架构，然后具体到那些功能的扩展。

一介白衣ing·2023-09-03 00:16

怎么从0到1创建一个PHP框架-2？

框架地址：https://github.com/yijiebaiyi/fast_framework实现缓存框架中的缓存、日志、ORM都是使用适配器模式。即定义一个抽象类，抽象类中定义若干抽象方法。

一介白衣ing·2023-09-03 00:16

怎么从0到1创建一个PHP框架-3？

框架地址：https://github.com/yijiebaiyi/fast_framework实现容器依赖注入首先我们先了解概念。框架中的容器指的是什么？什么是依赖注入？

一介白衣ing·2023-09-03 00:45

pypinyin的使用 2018-10-26

importjieba#导入jieba模块x='分词的准确度直接影响了后续文本处理和挖掘算法的最终效果。'

Mr_Du_Biao·2023-09-02 09:03

Python安装第三方包的三种方式

平时安装第三方包时都是直接pipinstallpackage_name，但有时会因为各种情况装不上下面以jieba为例：方式一：全自动安装pipinstalljiebaeasy_installjieba

我以为你是流过泪的人·2023-09-01 16:47

jieba 加whooh 构建自己本地数据库的搜索引擎

例子fromwhoosh.indeximportcreate_infromwhoosh.fieldsimportSchema,TEXT,IDfromjieba.analyseimportChineseAnalyzerfromwhoosh.qparserimportQueryParserimportosanalyzer

东方佑·2023-08-31 08:53

词云图

Python2.7wordcloud-英文，jieba-中文，但是不严谨matplotlibjieba词云图，文字图：https://www.jianshu.com/p/4fb27471295f快捷工具

慧玲说·2023-08-31 03:21

Python运行requirements.txt 文件安装包

pypi.tuna.tsinghua.edu.cn/simple加上后面的-ihttps://pypi.tuna.tsinghua.edu.cn/simple可以很快就下载完了requirements.txt文件格式jieba

我是_程序员·2023-08-31 02:40

2019-05-22

importnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.feature_extraction.textimportTfidfVectorizerimportreimportstringimportjiebafromsklearn.linear_modelimportSGDClassifierfromsk

yujie8888·2023-08-28 04:53

Python第三方库概览

Python第三方库概览知识点第三方库的获取和安装脚本程序转变为可执行程序的第三方库:PyInstaller库(必选)第三方库:jieba库(必选)、wordcloud库（可选）知识导图1、Python

Token_w·2023-08-27 18:48

中文分词和tfidf特征应用

的基础任务--分词2.中文分词2.1中文分词-难点2.2中文分词-正向最大匹配2.2.1实现方式一2.2.2实现方式二利用前缀字典2.3中文分词-反向最大匹配2.4中文分词-双向最大匹配2.5中文分词-jieba

@kc++·2023-08-27 17:57

【大模型AIGC系列课程 2-3】动手为ChatGPT打造第二大脑

pipinstalljiebaimportjieba#中文分词包text='''6月27日，世界经济论坛发布了《2023年10大新兴技术》报告。

小爷毛毛（卓寿杰）·2023-08-27 00:56

Python统计中文词频的四种方法

中文词频统计主要是通过open()打开文本，然后read()方法读取后，采用结巴分词(jieba)模块进行分词，接着用推表推导式、Counter或者是字典的方法来统计词频，也可以采用NLTK的方法，最后格式化打印出来

PythonFun·2023-08-26 18:15

学习Python的第三天

/novel/threekingdom.txt','r',encoding='utf-8')asf:words=f.read()分词words_list=jieba.lcut(words)每个词出现的次数

宁静夏天_37b0·2023-08-26 02:30

基于Ｓｐａｒｋ框架的新闻推荐系统的设计与实现

1.摘要离线ALS算法，以及基于内容的推荐算法进行结合.实时计算部分，使用Ｓｐａｒｋ平台上的ＳｐａｒｋＳｔｒｅａｍｉｎｇ流处理技术，处理日志收集框架Ｆｌｕｍｅ收集的日志信息.2.需要的技术jieba

Wzideng·2023-08-25 06:12

NLP - 如何解决ModuleNotFoundError: No module named ‘jieba‘的问题

错误描述在JUPYTER中，使用结巴分词，出错：ModuleNotFoundError:Nomodulenamed'jieba'解决方案在AnacondaPrompt中，执行以下指令（可以解决）：pipinstalljieba-ihttps

cloneme01·2023-08-23 07:35

推荐频道

jieba