E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
jieba分词
Python 红楼梦的字频与词频统计
Python红楼梦的字频与词频统计使用
jieba分词
工具分词,在网上下载了一个停用词表(包括标点符号)去除停用词。使用wordcloud生成词云。
Iovebecky
·
2020-08-11 02:37
自然语言处理
利用python实现简单词频统计、构建词云
1、利用
jieba分词
,排除停用词stopword之后,对文章中的词进行词频统计,并用matplotlib进行直方图展示#coding:utf-8importcodecsimportmatplotlib.pyplotaspltimportjieba
weixin_30379973
·
2020-08-10 22:01
聚类算法实例:k-means实现文档分类(用
jieba分词
)
文档分类对文档进行分类即对文本信息进行聚类。文本聚类是聚类算法在文本上的应用。由于聚类算法针对的是数学数据,要计算出样本点之间的“距离”。所以首先,我们要将文本数据转化为数学信息。可以使用TF-IDF加权技术计算单个词的权值。TF-IDF常用于咨询检索与文本挖掘,用于估计某一个词对于文件集中某一文件的重要程度。TF-IDF原理是词的重要性与它在该文件出现次数成正比,与它在文件集中出现的次数成反比。
wangqianqianya
·
2020-08-10 05:36
机器学习
python爬取腾讯视频《斗罗大陆》弹幕并制作词云(WordCloud)
最近闲来无事,就用前段时间学习的
jieba分词
和词云WordCloud,以及网上看的python爬虫爬取了《斗罗》最燃的107集弹幕,结合做了词云分析,从这个过程中确实学到了不少技术,下面就分别详细的介绍吧
一个妄想崛起的程序员
·
2020-08-10 05:23
python学习
爬虫
8月随笔[Python-jieba库的使用]
jieba库的使用jieba库是一个优秀的中文分词第三方库,可以使用pipinstall下载
jieba分词
模式精确模式:把文本精确的切分开,不存在冗余单词全模式:把文本中所有可能的词语都扫描出来,有冗余搜索引擎模式
风声在耳
·
2020-08-10 00:11
假期随笔
基于Python3.6编写的
jieba分词
组件+Scikit-Learn库+朴素贝叶斯算法小型中文自动分类程序
实验主题:大规模数字化(中文)信息资源信息组织所包含的基本流程以及各个环节执行的任务。本文所采用的分类及程序框架主要参考了这篇博客基本流程:如下图所示,和信息资源信息组织的基本流程类似,大规模数字化(中文)信息资源组织的基本流程也如下:1信息资源的预处理、2信息外部特征描述、3信息内部特征标引、4信息资源的分类、5得到序化的信息资源图11.1在信息资源预处理环节,首先要选择处理文本的范围,建立分类
狄克推多er
·
2020-08-09 23:41
机器学习
自然语言处理
jieba分词
源码阅读
jieba是一个开源的中文分词库,这几天看了下源码,就做下记录。下载jieba后,tree得到主要部分的目录树结构如下:├──jieba│ ├──analyse│ │ ├──analyzer.py│ │ ├──idf.txt│ │ ├──__init__.py│ │ ├──textrank.py│ │ └──tfidf.py│ ├──_compat.py│ ├──dict
KIDGIN7439
·
2020-08-09 06:00
自然语言处理
基于Doc2vec的段落向量训练及文本相似度计算
这里采用的是网上爬取的问答对中的query作为训练集,在段落向量训练之前必须进行训练数据预处理:中文分词,这里采用的是
jieba分词
。
Steven灬
·
2020-08-08 11:11
文本相似度
爬取B站中的《啥是佩奇》的实时弹幕并利用
jieba分词
形成词云效果
这一连好多天都在忙,到今天为止,终于忙完了,可以认真学习一些自己的技术了!这次我的目标是爬取B站中《啥是佩奇》的实时弹幕,下面我们开始吧!找到网址,检查,并找到实时弹幕的API接口凭我自己的实力,我还真的找不到实时弹幕的API,还是借鉴别人的成果才找到API。具体的寻找方式,请看下图:还有一张图片:在浏览器中输入后的效果:我们的前期工作处理完之后,我们就可以写代码了找到必要的信息,然后获取这些数据
zhiguo98
·
2020-08-08 02:53
Python--网络爬虫
结巴分词之用户自定义词典的使用
jieba分词
简介:jieba对于一长段文字,其分词原理大体可分为三部:1.首先用正则表达式将中文段落粗略的分成一个个句子。2.将每个句子构造成有向无环图,之后寻找最佳切分方案。
有梦想有行动
·
2020-08-07 20:35
数据预处理
python
Python学习——
jieba分词
库和time模块
项目需要用到分词,所以找了一天合适的分词库,网上推荐最多的是
jieba分词
,在linux环境下安装很方便,输入命令:pipinstalljieba即可。
nkulm
·
2020-08-07 11:44
python
linux
基于jieba中文分词进行N-Gram
jieba提供很好的中文分词,但是并没有提供N-Gram;sklearn的CountVectorizer能提供很好的N-Gram分词,但却没有jieba那么对切词灵活,下面就介绍基于
jieba分词
进行N-Gram
姚贤贤
·
2020-08-06 10:42
机器学习
使用
jieba分词
+pyecharts+request库爬取bilibili视频评论并统计词频可视化
环境:python3.Xpyechartssnapshot_phantomjsnumpyasnppandasaspdjiebacodecsrequestsreossysjson#数据爬取利用bilibiliapi接口#B站API详情https://github.com/Vespa314/bilibili-api/blob/master/api.mdimportrequestsimportreimp
mandala -chen
·
2020-08-05 04:08
数据科学
爬虫
(python爬虫+
jieba分词
+词云)
12星座都是什么性格,大数据告诉你!下面是利用python爬取12星座性格相关的微博,产生的12星座性格特征词云!白羊座为例,其他的在最后。上代码(以白羊座为例):1.微博数据爬取(需要selenium,Firefox的驱动geckodriver)#coding=utf-8importtimeimportdatetimeimportreimportosimportsysimportcodecsim
m0_37435073
·
2020-08-04 11:41
12星座
Jupyter无法导入已安装的 module
问题描述:已经用pipinstalljieba安装好
jieba分词
工具,但是在Jupyter里importjieba运行一直提示ImportError:Nomodulenamed'jieba'好郁闷!
redhorse_plus
·
2020-08-04 00:44
杂七杂八
NLP 使用
jieba分词
相比于机械法分词法,jieba联系上下文的分词效果更好。同时使用HMM模型对词组的分类更加准确。测试对如下文本的分词效果南门街前段时间经过整改劝阻摆摊占道的情况改善了很多,但是情况好了几天又慢慢的和以前一样了,只要有人带头后面慢慢又摆出来,很多商户现在干脆用钩子把一些货物挂门口屋檐下的电线上,上有政策下就有对策,城管来检查就稍微好点,城管一走又摆出来又是老样子,希望有关部门采取强硬点的措施,每次都
没有胡子的猫
·
2020-08-03 22:34
机器学习
jieba分词
,识别【带空格的词】
文章目录自定义添加【带空格的词】,并分词识别jiebajieba.posseg补充jieba.posseg的玩法数字和英文的分词问题解决方法:自写分词器add_word和load_userdict自定义添加【带空格的词】,并分词识别方法:找到源码的变量进行修改示例:使【BladeMaster】这类中间有空格的词被识别jiebaimportjieba,resentence='BladeMaster疾
基基伟
·
2020-08-03 14:59
自然语言处理
jieba分词
并提取关键词
将分词结果写入一个文本文档,再将排名前100的关键词写入另一个文本文档。importjiebaimportjieba.analyse#关键词提取SourceTxt="E:\\Programe\\PySeg\\RawTxt\\14.txt"#待分词的文本TargetTxt="E:\\Programe\\PySeg\\TagTxt\\14.txt"#分词后写入的文本jieba.load_userdic
MilkLeong
·
2020-08-03 13:00
自然语言处理
Python文本数据分析:新闻分类任务(贝叶斯,TF-IDF词向量)
文章目录基本思路1.文本分析11.查看数据1.2转换为llist格式1.3使用
jieba分词
1.4转换为DataFrame格式1.5使用停用词1.6查看词频1.7生成词云2.TF-IDF关键词提取2.1
王大阳_
·
2020-08-03 08:57
数据分析与数据挖掘
机器学习
[Python爬虫]新闻网页爬虫+
jieba分词
+关键词搜索排序
前言最近做了一个python3作业题目,涉及到:网页爬虫网页中文文字提取建立文字索引关键词搜索涉及到的库有:爬虫库:requests解析库:xpath正则:re分词库:jieba...放出代码方便大家快速参考,实现一个小demo。题目描述搜索引擎的设计与实现输入:腾讯体育的页面链接,以列表的方式作为输入,数量不定,例如:["http://fiba.qq.com/a/20190420/001968.
weixin_34237596
·
2020-08-03 07:28
对爬取到的微博进行数据处理,
jieba分词
去停词,tf-idf关键词提取,LDA :主题模型
主要实现在csv文件里对某一列进行提取,对其进行分词,去停用词,使用TF-IDF:提取关键词等操作,并把处理好的数据放入到csv文件中去。方便接下来的操作。#-*-coding:utf-8-*-importjiebaimportnumpyasnpimportpandasaspdfileee="D:\PycharmProjects2020\qingganfenlei\data\weibo1.csv"
自然语言处理玄学实践者
·
2020-08-03 03:48
nlp自然语言处理
新闻分类系统(Python):爬虫(bs+rq)+数据处理(
jieba分词
)+分类器(贝叶斯)
新闻分类系统(Python):爬虫(bs+rq)+数据处理(
jieba分词
)+分类器(贝叶斯)简介新闻分类系统可以对十种新闻进行自动分类并显示准确性的结果。
橘子派
·
2020-08-02 20:37
机器学习-实战-Python
【机器学习】算法详解与实战
(九)
jieba分词
后,无法去除停用词的解决方法
问题原因:编码问题1、测试codeimportchardetif__name__=='__main__':f=file2file()s='中国是个好地方,我住在这里。'stopwords=set(sum(f.readtxt('../data/HITstopwords.txt'),[]))#查看s字符集s_charset=chardet.detect(s)#jiebacut=jieba.lcut(s
看我七十三变
·
2020-08-02 15:54
python学习
Python爬虫-爬取电影《星际穿越》评论并提取关键词
我的个人博客:https://jmbaozi.top/这次选择了我最喜欢的电影《星际穿越》的短评,共爬取了500条评论,并且用
jieba分词
提取了100个关键词。
JMbaozi
·
2020-08-02 13:59
人工智能系列2 聊天机器人的应用
中文分词中文分词就是将一句句子拆分成独立的词语,Python提供的
Jieba分词
库可以帮助我们完成这项工作。
live_for_tomorrow
·
2020-08-01 13:18
人工智能
jieba分词
强制词语切分或合并
jieba分词
强制词语切分或合并#jieba强制将词语切分s1="如果放到post中将出错"print(jieba.lcut(s1))#['如果','放到','post','中将','出错']jieba.suggest_freq
wen_1108
·
2020-08-01 06:20
jieba
jieba中文分词组件
目录jieba简介组件特点安装方法算法使用
jieba分词
添加自定义词典载入词典调整词典关键词提取基于TF-IDF算法的关键词抽取基于TextRank算法的关键词抽取词性标注并行分词Tokenize:返回词语在原文的起止位置默认模式搜索模式
pengjunlee
·
2020-07-31 20:55
Java网页爬虫
如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化展示
1、在Python中做词云,需要用到wordcloud库和
jieba分词
库,没有安装的伙伴可以直接pip安装即可。2、之后你可能还需要
Python进阶学习交流
·
2020-07-30 21:10
分词练习
分词分析的内容为:原版文字.png而用MLPIR分词得出的结果为:MLPIR分词png然后用
jieba分词
的结果为:jieba源码
梁下小人
·
2020-07-30 19:50
python实现关键词提取
简单的关键词提取的代码文章内容关键词的提取分为三大步:(1)分词(2)去停用词(3)关键词提取分词方法有很多,我这里就选择常用的结巴
jieba分词
;去停用词,我用了一个停用词表。
weixin_30429201
·
2020-07-30 02:20
python
谣言识别系统(Python):爬虫(bs+rq)+数据处理(
jieba分词
)+分类器(贝叶斯)
谣言识别系统(Python):爬虫(bs+rq)+数据处理(
jieba分词
)+分类器(贝叶斯)简介谣言识别系统是新闻分类系统的后续,这次我补充了正确新闻的数据集,为了体现新闻的绝对正确性,我爬取了澎湃新闻的数据
橘子派
·
2020-07-30 00:21
机器学习-实战-Python
【机器学习】算法详解与实战
大数据基础-词云
jieba分词
cut用法"""词云就是对网络上的出现频率较高的“关键词”予以视觉上的突出。形成关键词云层,关键渲染层,从而过滤掉大量的文本信息,通过浏览图层就可以浏览文本的主旨词云需要安装两个库:jieba和wordcloudpipinstalljiebapipinstallwordcloud""""""中文分词介绍:中文分词就是将一个汉字序列切分成一个单独的词,分词就是将连续的文本序列按照一定的规范重新组合成
**猿来是你**
·
2020-07-29 22:48
python大数据分析基础
【pyspark】jieba 中文分词
:
jieba分词
包https://github.com/fxsjy/jieba:python安装pipinstalljieba:测试importjiebaseg_list=jieba.cut("我来到北京清华大学
baibaiw5
·
2020-07-29 17:46
python
【统计词频】python+excel +jieba
python简单词频统计——简单统计一个小说中哪些个汉字出现的频率最高参考:https://www.cnblogs.com/jiayongji/p/7119065.html|好玩的分词——python
jieba
神创
·
2020-07-29 10:06
python
txt
matplotblib
python爬虫实战:获取豆瓣热映电影评分热评
改进点:1.爬取更多页的评论2.过滤无效字符3.
jieba分词
绘制词云importurllib.requestfrombs4importBeautifulSoupimportredouban_path=
_朝闻道_
·
2020-07-28 21:31
python爬虫
运用python模拟登录豆瓣爬取并分析某部电影的影评
前段时间奉俊昊的《寄生虫》在奥斯卡上获得不少奖项,我也比较喜欢看电影,看过这部电影后比较好奇其他人对这部电影的看法,于是先用R爬取了部分豆瓣影评,
jieba分词
后做了词云了解,但是如果不登录豆瓣直接爬取影评只可以获得十页短评
孔阳Phil
·
2020-07-28 07:43
python
爬虫
#
可视化
jieba分词
+wordcloud——《斗破苍穹》词云
效果图:环境:python、jieba、wordcloud。材料:《斗破苍穹》、背景图(背景图需要保证除了图案之外,其他地方是‘空白’,友情提示:空白是空白,不是看起来白,要保证像素值为0)jieba和wordcloud都可以通过pipinstall来安装,很省事。结巴分词千言万语抵不过官方一句:https://github.com/fxsjy/jieba总之,我们给jieba文章,jieba给我
落在地上的乐乐
·
2020-07-28 07:26
ML实战
KNN+交叉验证
KNN+交叉验证复习机器学习概述概念样本特征工程概念作用特征抽取特征值化one-hot
jieba分词
特征的预处理归一化标准化特征选择PCA方差过滤机器学习基础数据集的获取sklearn数据集的切分训练集测试集数据类型离散型连续性回归问题回归模型分类问题分类模型
浅笑_7cad
·
2020-07-21 22:23
python 结巴分词学习
https://www.toutiao.com/a6643201326710784520/2019-01-0610:14:00结巴分词(自然语言处理之中文分词器)
jieba分词
算法使用了基于前缀词典实现高效的词图扫描
喜欢打酱油的老鸟
·
2020-07-15 07:12
人工智能
结巴分词2--基于前缀词典及动态规划实现分词
1简介
jieba分词
主要是基于统计词典,构造一个前缀词典;然后利用前缀词典对输入句子进行切分,得到所有的切分可能,根据切分位置,构造一个有向无环图;通过动态规划算法,计算得到最大概率路径,也就得到了最终的切分形式
weixin_34342578
·
2020-07-15 05:06
Jieba中文分词说明
之前我写过Ansj分词器的介绍说明博客,现在细谈一下
Jieba分词
的详细思路及其实现过程。结巴分词主页结巴分词的github主页地址是:https://github.com/fxsjy/jieba
狮子座明仔
·
2020-07-14 22:52
NLP
NLP
and
Machine
Learning(Deep
Learning)
jieba分词
工具的实战例子(对一个文本分析)
一个小小的结巴分词使用的实例(涉及了大部分关于结巴的操作)importjiebaimportjieba.analyseasana#关键词importjieba.possegaspos#词性#打开或创建文件#classjieba_cut_word():#test=''#open_test=open('test.txt','r')#write_result=open('result.txt','ab'
小白学习之路
·
2020-07-14 20:06
jieba分词
自定义词表简介
一、
jieba分词
增加自定义词表在使用
jieba分词
时经常会发现一些未登录词,因此增加领域词表就变得很重要,下面提供增加几种途径:1、领域权威词汇字典2、搜狗输入法领域词库、百度输入法领域词库3、
jieba
feng98ren
·
2020-07-14 10:21
Python
python文本分析之
jieba分词
工具
因为自然语言处理这一块我只是为了完成项目而做了一些了解,所以肯定有不太对的地方,谅解一下啦~、---------------------一个假的目录----------------------自己对于文本分析的理解文本分析的流程
jieba
皮卡猪猪
·
2020-07-14 02:09
数据分析
项目实践心得
[ES] es 安装、配置
jieba分词
(1)下载es5.3.0:nohupwgethttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.3.0.zip>wget.log2>&1&解压后:./bin/elasticsearch(2)elasticsearch-jieba-plugin:https://github.com/sing1ee/elastics
MachineLP
·
2020-07-13 15:43
MachineLP成长记
elasticsearch
elasticsearch安装
es配置jieba
jieba分词
及词性标注
jieba分词
及词性标注想着先分词,再给分过的词标注词性很简单但是弄了蛮久代码也不简便要学习啊鸡汤:脚踏实地,眼看前方importjiebaimportjieba.possegaspsegjieba.load_userdict
第9527号小白
·
2020-07-12 13:56
jieba分词
找个射雕英雄传的其中一个片段来做个实验importjiebaimportjieba.analyseimportreimportpkusegdoc='''钱塘江浩浩江水,日日夜夜无穷无休的从两浙西路临安府牛家村边绕过,东流入海。江畔一排数十株乌柏树,叶子似火烧般红,正是八月天时。村前村后的野草刚起始变黄,一抹斜阳映照之下,更增了几分萧索。两株大松树下围着一堆村民,男男女女和十几个小孩,正自聚精会神的
data_bigbing
·
2020-07-11 20:52
北大pkuseg分词 和 jieba 分词对比测试,结果出乎意料...
本文授权转载自Python编程与实战禁止二次转载大家好,我是老表阅读文本大概需要7分钟上篇文章说了
jieba分词
入门使用指南,大家都说北大有个分词很厉害,于是,有了这篇文章分享,用完北大分词,嗯,还是jieba
简说Python
·
2020-07-11 19:49
【数据分析学习笔记day28】自然语言处理NLTK+
jieba分词
+
jieba分词
的基本思路+案例+流程介绍
文章目录
jieba分词
jieba分词
jieba分词
的基本思路案例:流程介绍
jieba分词
jieba分词
jieba分词
是python写成的一个算是工业界的分词开源库,其github地址为:https://
汪雯琦
·
2020-07-11 17:23
【数据分析与挖掘】
jieba分词
器(应用及字典的补充)及文档高频词提取实战
jieba分词
器是Python中最好的中文分词组件,本文讲解一下
jieba分词
器及其应用。
数据山谷
·
2020-07-11 17:51
机器学习
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他