E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
jieba
NLP_
jieba
中文分词的常用模块
1.
jieba
分词模式(1)精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.(2)全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义(3)paddle
Hiweir ·
·
2024-09-13 12:48
NLP_jieba的使用
自然语言处理
中文分词
人工智能
nlp
Python的情感词典情感分析和情绪计算
情感分析的基本流程如下图所示,通常包括:自定义爬虫抓取文本信息;使用
Jieba
工具进行中文分词、词性标注;定义情感词典提取每行文本的情感词;通过情感词构建情感矩阵,并计算情感分数;结果评估,包括将情感分数置于
yava_free
·
2024-09-12 00:51
python
大数据
人工智能
使用Python和
Jieba
库进行中文情感分析:从文本预处理到模型训练的完整指南
使用Python和
Jieba
库进行中文情感分析:从文本预处理到模型训练的完整指南情感分析(SentimentAnalysis)是自然语言处理(NLP)领域中的一个重要分支,旨在从文本中识别出情绪、态度或意见等主观信息
快撑死的鱼
·
2024-09-11 21:27
Python算法精解
python
人工智能
开发语言
关键字提取
关键词提取importpandasaspdimport
jieba
.analyse#导入关键词库读取文本fn=open('d:/collect.txt',encoding='UTF-8')string_data
蓝色滑行
·
2024-09-11 04:31
NLP面试题(9月4日笔记)
常见的分词方法有
jieba
分词,
jieba
分词支持多种分词模模式:精确模式,全模式,搜索引擎模式。
好好学习Py
·
2024-09-08 13:41
自然语言处理
自然语言处理
笔记
人工智能
自动安装第三方库python,python第三方库自动安装脚本
第三方库自动安装脚本,需要在cmd中运行此脚本#BatchInstall.pyimportoslibs={"numpy","matplotlib","pillow","sklearn","requests",\"
jieba
杏仁菌子
·
2024-09-06 14:16
自动安装第三方库python
Python爬虫案例五:将获取到的文本生成词云图
基础知识:#词云图wordcloud#1、导包
jieba
wordcloudimport
jieba
fromwordcloudimportWordClouddata='全年经济社会发展主要目标任务圆满完成'
躺平的花卷
·
2024-09-02 19:03
python
爬虫
开发语言
文本数据分析-(TF-IDF)(2)
文章目录一、TF-IDF与
jieba
库介绍1.TF-IDF概述2.
jieba
库概述二、TF-IDF与
jieba
库的结合1.结合2.提取步骤三,代码实现1.导入必要的库读取文件:3.将文件路径和内容存储到
红米煮粥
·
2024-09-01 11:14
数据分析
tf-idf
python
文本分析之关键词提取(TF-IDF算法)
准备工作首先,我们需要准备一些工具和库,包括Pandas、
jieba
(结巴分词)、sklearn等。Pandas:用于数据处理。
jieba
:用于中文分词。skl
SEVEN-YEARS
·
2024-08-30 03:11
tf-idf
python爬虫521
就成功了(╹▽╹)importmatplotlibimportrequestsfromwordcloudimportWordCloudimportmatplotlib.pyplotaspltimport
jieba
PUTAOAO
·
2024-08-29 10:47
python
爬虫
开发语言
Boss直聘招聘数据分析岗位小分析
目前是小社畜一枚~~前言完整数据包括一些简单的分析,做得很简单,因为累了要睡了详细文档与数据下载超链接importpandasaspdimportmatplotlib.pyplotaspltimport
jieba
fromcollectionsimp
数据闲逛人
·
2024-08-28 22:51
【数据分析项目】
数据分析
数据挖掘
Python数据可视化词云展示周董的歌
Python3.6IDE:根据个人喜好,自行选择模块:Matplotlib是一个Python的2D数学绘图库pipinstallmatplotlibimportmatplotlib.pyplotasplt
jieba
PathonDiss
·
2024-08-27 13:23
自然语言处理NLP之中文分词和词性标注
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录一、Python第三方库
jieba
(中文分词
陈敬雷-充电了么-CEO兼CTO
·
2024-08-24 10:53
自然语言处理
今日无更新
搞定之后连着四五月份要写两篇论文,再加上五月底的课程论文还有紧接着的文献综述,看样子要疯……现在梳理一下自己手里的锤子:转到Pytorch,使用AllenNLP了解Transformer、了解LSTM了解
jieba
我的昵称违规了
·
2024-03-17 17:12
python语料处理_Python中文语料批量预处理手记
手记实用系列文章:语料预处理封装类:#coding=utf-8importosimport
jieba
importsysimportreimporttimeimport
jieba
.possegaspsegsys.path.append
weixin_39588445
·
2024-02-20 16:44
python语料处理
jieba
安装和使用教程
文章目录
jieba
安装自定义词典关键词提取词性标注
jieba
安装pipinstall
jieba
jieba
常用的三种模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来
Cachel wood
·
2024-02-20 10:02
自然语言处理nlp
windows
开发语言
jieba
知识图谱
neo4j
人工智能
python
pg_
jieba
在windows上编译安装
2024.02.03修改,添加关键词增加了独占锁.1源码下载cdD:\buildgitclonehttps://github.com/jaiminpan/pg_
jieba
gitclone--depth=
kmblack1
·
2024-02-20 09:58
windows
pg_jieba
报告pg_
jieba
中的bug
PostgreSQL是多进程,pg_
jieba
的字典数据在每个进程中都加载了比较耗费内存,个人觉得字典数据应该加载在share_buffers中.使用字典中不存在的关键字"新华三"证明如下:1启动二个psql
kmblack1
·
2024-02-20 09:26
bug
golang-centos的镜像
why项目引用了github上的
jieba
分词golang版本,windows和centos都正常启动,但是ubantu等不能启动,总是提示缺少文件等错误于是干脆重新制作一个centos的镜像解决问题DockerfileFROMcentos
carl-Xiao
·
2024-02-20 06:01
对于Go的学习
【7-1】实验——实体统一和歧义消除
一、使用
jieba
完成公司名的实体统一#核心代码:建立main_extract,当输入公司名,返回会被统一的简称defmain_extract(company_name,d_4_delete,stop_word
铁盒薄荷糖
·
2024-02-19 22:05
知识图谱实战6+3天
windows
c#
开发语言
django-haystack + whoosh +
jieba
实现全文搜索
网站实现全文搜索,并对中文进行分词搜索开发环境:Python3.7Django3.2需求:网站内有商品、求购2个模块,搜索栏输入塑料玩具时,希望优先搜索出匹配塑料玩具的信息,并同时匹配出塑料、玩具等信息,按照匹配度排序。同时当输入玩具塑料或塑料玩巨错别字时,同样能匹配到塑料玩具类的信息。匹配英文大小写分析1.djangoorm的模糊匹配icontains表示Mysql的like,不满足业务分词需求
Vvvvvvv四季
·
2024-02-15 03:16
python笔记——
jieba
库
文章目录一.概述二.
jieba
库使用三.实例一.概述1.
jieba
库概述
jieba
库是一个重要的第三方中文分词函数库,不是安装包自带的,需要通过pip指令安装pip3install
jieba
二.
jieba
Toby不写代码
·
2024-02-14 08:02
python学习
python
pytohn3+pycharm实现将txt文件 使用
jieba
分词 worldcloud制作词云 ——以《三国演义》的txt文件为例
代码以及释义如下:```import
jieba
import
jieba
.analyseimportwordcloudfromPILimportImage,ImageSequenceimportnumpyasnpimportmatplotlib.pyplotaspltfromwordcloudimportWordCloud
dlwlrmaIU
·
2024-02-14 02:41
什么是
jieba
?
简介
jieba
是一个流行的中文分词工具,它能够将一段文本切分成有意义的词语。它是目前Python中最常用的中文分词库之一,具有简单易用、高效准确的特点。
zg1g
·
2024-02-12 22:33
easyui
前端
javascript
ecmascript
前端框架
基于
jieba
库实现中文词频统计
要实现中文分词功能,大家基本上都是在使用
jieba
这个库来实现,下面就看看怎样实现一个简单文本分词功能。安装python的工具,安装当然是使用pip安装了。
kongxx
·
2024-02-12 12:43
基于
jieba
、TfidfVectorizer、LogisticRegression的垃圾邮件分类,模型平均得分为0.98左右(附代码和数据集)
基于
jieba
、TfidfVectorizer、LogisticRegression的垃圾邮件分类,模型平均得分为0.98左右(附代码和数据集)。
代码讲故事
·
2024-02-11 18:04
机器人智慧之心
数据挖掘
jieba
TfidfVectorizer
垃圾邮件
深度学习
机器学习
模型
Django+haystack+whoosh+
jieba
实现全局搜索和关键词高亮--简单包会
引言最近要做一个项目,要用到Django了,才发现自己已经忘了好多Django的相关知识了,这次趁着这个项目也复习一下,本篇文章主要是django+haystack+whoosh实现全文检索及关键字高亮,话不多说,我们这就开始。DjangoDjango是一个开放源代码的Web应用框架,由Python写成。采用了MTV的框架模式,即模型M,视图V和模版T。它最初是被开发来用于管理劳伦斯出版集团旗下的
与世无争小菜鸡
·
2024-02-11 18:13
如何使用Python进行地址信息(省/市/区/姓名/电话)提取
准备工作在开始之前,我们需要安装一些必要的Python库:
jieba
:一个中文分词库,可以用来识别中文文本中的词语。paddle:百度开发的深度学习平台
·
2024-02-11 17:50
gensim 语言训练库 2018-10-26
一、安装gensimpipinstallgensim二、使用这个训练库很厉害,里面封装很多机器学习的算法,是目前人工智能的主流应用库import
jieba
importgensimfromgensimimportcorporafromgensimimportmodelsfromgensimimportsimilaritiesl1
Mr_Du_Biao
·
2024-02-11 15:17
2021-02-08
完成
jieba
分词3个小时完成程序怎样运行的书看完完成并查集7道完成4道字符串3道完成肝5天java视频完成计算机导论肝3章完成第三周7天(学习了38个小时78/3
夏天_f806
·
2024-02-10 13:08
NLP学习(二)—中文分词技术
本篇博文会主要介绍基于规则的分词、基于统计的分词、
jieba
库等内容。一直在说中文分词,那中文分词和欧语系的分词有什么不同或者说是难点的呢?主要难点在于汉语结构与印欧体系语种差异
陈易德
·
2024-02-09 02:19
NLP自然语言处理
Python 词云 【中/英】小白简单入门教程
1.分析构建词云需要具备:原料即文章等内容将内容进行分词将分词后的内容利用构建词云的工具进行构建保存成图片2.需要的主要模块
jieba
中文分词wordcloud构建词云3.模块原理wordcloud的实现原理文本预处理词频统计将高频词以图片形式进行彩色渲染
嗨学编程
·
2024-02-09 01:08
Glide下载图片卡片视图CardView
/article/details/80537255AndroidApp开发图像加工中卡片视图CardView和给图像添加装饰的讲解以及实战(附源码简单易懂)https://blog.csdn.net/
jieba
oshayebuhui
chezabo6116
·
2024-02-08 22:56
glide
CPP项目:Boost搜索引擎
2.对于搜索引擎的相关宏观理解3.搜索引擎技术栈及项目环境技术栈:c/c++,c++11,STL,Boost准标准库,Jsoncpp,cpp
jieba
,cpp-httplib,html5,css,js
函数指针
·
2024-02-08 05:14
搜索引擎
用Py做文本分析3:制作词云图
import
jieba
#对小说文本第一回分词word_list=
jieba
.lcut(chapter.txt[1])word_list[:10]['第一回','','风雪','惊变','钱塘江','浩浩
凡有言说
·
2024-02-07 16:19
simhash去重算法实践
自己实践simhash算法的几点经验:1数据已处理,正则表达式去除各种转义符号2将文本中的数字和字母等去除3分词后去除停顿词步骤,1文本预处理代码步骤1
jieba
分词获取features2hash函数计算
想努力的人
·
2024-02-07 08:37
算法
simhash
算法
预处理
jieba
+wordcloud 词云分析 202302 QCon 议题 TOP 关键词
效果图步骤(1)依赖python库pipinstall
jieba
wordcloud数据概览$head-n5input.txt中国软件技术发展洞察和趋势预测报告2023QCon大会内容策划思路FinOps
xchenhao
·
2024-02-07 05:24
数据
开发
python
jieba
wordcloud
词云
分词
python显示词云
例如:将zaa.txt文本文件进行处理成词云图片import
jieba
,wordcloud,iofilepath='zaa.txt'f=io.open(filepath,'r',encoding='utf
计西
·
2024-02-06 02:24
TF-IDF入门与实例
我们对文档分析的时候,通常需要提取关键词,中文分词可以使用
jieba
分词,英文通过空格和特殊字符分割即可。那么分割之后是不是出现频率越高这些词就能越好代表这篇文章描述的内容呢?
lawenliu
·
2024-02-05 17:50
赘婿词云图制作
数据准备赘婿小说txt停用词表一张赘婿相关背景图制作流程读取小说文本利用
jieba
库对文本进行分词设置停用词表利用wordcloud库制作词云图代码根据上面的流程,编写代码。
罗罗攀
·
2024-02-05 16:35
用Stanford corenlp进行词性标注时遇到的问题
因为毕业设计的需要,得对中英文双语语料进行词性标注了,中文我就用了
jieba
,英文的没找到别的工具,用了Stanfordcorenlp了,首先用一片短文试运行了一下,运行没问题,但是用我自己的语料(十万行
20c5bd2d61e1
·
2024-02-05 11:12
调用Gensim库训练Word2Vec模型
一、前期工作:1.安装Gensim库pipinstallgensim2.安装chardet库pipinstallchardet3.对原始语料分词选择《人民的名义》的小说原文作为语料,先采用
jieba
进行分词
风筝超冷
·
2024-02-05 02:56
word2vec
python
深度学习
理论与实战:一篇看懂Python词云
实现原理导入一篇txt文档,使用
jieba
库对文档中的文字进行分词,计算各个词汇出现的频率,使用wordcloud库按照词汇频率的大小生成词云。
工业甲酰苯胺
·
2024-02-04 21:29
python
c#
开发语言
Python 中
jieba
库
文章目录
jieba
库一、简介1、是什么2、安装二、基本使用1、三种模式2、使用语法2.1对词组的基本操作2.2关键字提取2.3词性标注2.4返回词语在原文的起止位置
jieba
库一、简介1、是什么(1)
jieba
SteveKenny
·
2024-02-04 03:52
python
python
开发语言
后端
wordcloud库和
jieba
库的使用
文章目录wordcloud库的简单示范使用wordcloud库报错记录anaconda安装第三方
jieba
库
jieba
库的简单示范任务1:三国演义中的常见词汇分布在“三国"这两个隶书字上,出现频率高的词字体大任务
Mount256
·
2024-02-04 03:19
Python
python
词云
jieba
wordcloud
使用python简单实现《西游记》文本分析,通过词频对比探索西游记的主角
使用
jieba
模块简单统计西游记词频,并进行同义词处理(如合并行者,大圣为悟空)及排除词处理。
西红薯炒番茄
·
2024-02-03 22:42
笔记
文本分析
python
数据挖掘
python3.6.国家政策文本分析代码
-基于TF-IDF算法的关键词抽取(原文:https://blog.csdn.net/zhangyu132/article/details/52128924)import
jieba
.analysejieb
Luzichang
·
2024-02-01 20:53
养老政策
神经网络
python
政策
TF/IDF
文本处理
阅读笔记5:Polyamine metabolite spermidine rejuvenates oocyte quality by enhancing mitophagy
Polyaminemetabolitespermidinerejuvenatesoocytequalitybyenhancingmitophagyduringfemalereproductiveaging作者:YuZhang,
JieBa
i
盲人骑瞎马5555
·
2024-02-01 12:23
生殖医学
笔记
#RAG|NLP|
Jieba
|PDF2WORD# pdf转word-换行问题
文档在生成PDF时,文宁都发生了什么。本文讲解了配置对象、resources对象和content对象的作用,以及字体、宇号、坐标、文本摆放等过程。同时,还解释了为什么PDF转word或转文字都是一行一行的以及为什么页眉页脚的问题会加大识别难度。最后提到了文本的编码和PDF中缺少文档结构标记的问题。PDF转word更像是一种逆向工程。第三方库pdf转word的痛点-格式不保留本文着力解决换行问题:源
向日葵花籽儿
·
2024-02-01 07:54
VDB
NLP
数据分析
自然语言处理
pdf
word
各种中文分词工具的使用方法
诸神缄默不语-个人CSDN博文目录本文将介绍
jieba
、HanLP、LAC、THULAC、NLPIR、spacy、stanfordcorenlp、pkuseg等多种中文分词工具的简单使用方法。
诸神缄默不语
·
2024-01-30 17:30
人工智能学习笔记
python
中文分词
jieba
LAC
spacy
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他