E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
jieba分词
jieba分词
(R vs. python)
而NLP应用首先是对文本进行分词,当前中文分词器有Ansj、paoding、盘古分词等多种,而最基础的分词器应该属于
jieba分词
器(比较见下图)。
chaaffff
·
2020-04-11 21:41
给文章起个亲人而受欢迎的题目(二)
通过Python爬取校园网特定栏目文章的标题、阅读量和回复量,然后用
jieba分词
分好所有的文章标题,最后对文章的阅读量和回复量进行聚类分析,得到结果。
文质彬彬彬
·
2020-04-11 21:45
Python--利用结巴进行分词
本文首发于我的博客:gongyanli.com前言:本文是一些关于
jieba分词
的简单操作,把文档进行分词后,然后利用wordcloud输出。
小镇夜里海棠花未眠
·
2020-04-11 11:11
赶紧写完睡觉
好累,记一下今天的成果,然后赶紧睡觉文本挖掘课程今天上了文本挖掘课程,讲了一些统计语言模型的历史和简单的中文分词技术,然后使用
jieba分词
做了小练习:用lxml爬一些文章下来,然后分词,最后使用wordcould
好名字托雷
·
2020-04-11 02:04
jieba分词
包和wordcloud包的安装
1.
jieba分词
开始菜单——>cmd——>在命令框内输入pipinstalljieba下载完成后的目录在python软件目录下的lib\site-packages文件夹下ps:如果同时安装了pycharm
奋斗的泡芙小姐
·
2020-04-10 08:03
Django—whoosh搜索引擎使用
jieba分词
Django版本:3.0.4python包准备:pipinstalldjango-haystackpipinstalljieba使用
jieba分词
1.cd到site-packages内的haystack
SyntaxError
·
2020-04-08 11:53
django
haystack
jieba分词
搜索引擎
Django实现whoosh搜索引擎使用
jieba分词
本文介绍了Django实现whoosh搜索引擎使用
jieba分词
,分享给大家,具体如下:Django版本:3.0.4python包准备:pipinstalldjango-haystackpipinstalljieba
SyntaxError
·
2020-04-08 09:10
好玩的分词(2)——分析了《三体》全集,我看到了这样的三体
jieba分词
模块的基本用法参加我的另一篇博文:好玩的分词(1)——python
jieba分词
模块的基本用法《三体》是一部很好看的硬科幻作品,当初是一口气把三部全都看完的,包括《三体1》、《三体2:黑暗森林
m2fox
·
2020-04-07 05:24
Python词云
本篇主要利用python
jieba分词
和wordcloud进行词的可视化,其中去了停用词,单独计算了词频。也可以利用结巴自带的关键词提取方法。
夏林的每个蓝天
·
2020-04-04 08:30
jieba分词
和word2vec词向量
计算机只能识别和计算数字,我们在处理语言文本时(不仅语言文本,要传入模型计算的数据都是数字或者向量),首要的工作是数据的预处理。最开始是One-HotEncoder编码,很显然这没有考虑词的含义和词与词的关系。所以根据需求可以有不同的处理方式,最常见的,效果也比较好的就是词向量word2vec。具体展开请看这里。很显然,词向量分为词和向量。英文有天然的词分隔符空格,中文却不是,不同的断句截然不同的
Zimix
·
2020-04-02 00:53
【原创】python词云分析陈粒和赵雷
用到的知识有“爬虫”、“
jieba分词
”、“wordcloud词云”、“Tableau可视化”准备环境spyder直接使用anaconda中的spyderIDE,毕竟anaconda管理各种组件、包非常方便
_SoLo_
·
2020-03-28 08:26
nodejs使用
Jieba分词
应该是由于更新后的原因,网上别人的教程出现了问题,自己摸索了一下,现在把所得拿出来分享安装
jieba分词
npminstallnode-jieba文档说说我安装时遇到的问题,刚开始一直报错,后来还是不行,
可是那然后呢
·
2020-03-22 22:31
python处理文字
想起以前了解过一点的python的一个包
jieba分词
,苦于不知道怎么把文件作为输入来进行分词,于是又发现了一个好物python-docx,下载尝试果然可用。
Wanghao_1d5d
·
2020-03-22 17:08
jieba 源码解析
阅读动机
jieba分词
是Python里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细节对jieba进行了详细的阅读。
正午
·
2020-03-20 10:30
结巴中文分词介绍
Python中分分词工具很多,包括盘古分词、Yaha分词、
Jieba分词
、清华THULAC等。它们的基本用法都大同小异,这里先了解一下结巴分词。
海天一树X
·
2020-03-15 11:01
用pkuseg分词并制作词云
参考:http://www.cnblogs.com/sdu20112013/p/10193392.html之前参考以上博客,利用
jieba分词
并制作了《格林德沃之罪》的词云。
锦绣拾年
·
2020-03-13 22:37
用
jieba分词
提取关键词做漂亮的词云
早上看到简友@向右奔跑的文章超简单:快速制作一款高逼格词云图,试了一下介绍的工具真心好用,近期刚好想爬些数据做词云,就尝试了一下
jieba分词
提取txt关键词生成词云。
_CallMe靠谱叔
·
2020-03-12 01:48
Pyspark Word2Vec + jieba 训练词向量流程
摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+
jieba分词
训练词向量的流程.工具:python,pyspark,jieba,pandas,numpy数据格式
Eatingwatermelo
·
2020-03-06 12:40
文本预处理的一般流程&jieba分詞&jieba關鍵詞提取
1.
jieba分词
注意:使用jieba以前,數據預處理很重要,清除空值重複值以後,同時也要判斷數據是否為字符串,如果不是字符應該刪除該條數據。
wong小尧
·
2020-02-26 20:35
分词练习
一、
jieba分词
1.在cmd中安装结巴分词pythonsetup.pyinstall并在python环境下输入importjieba没有出现报错,故判断为成功安装2.安装pycharm3.进行分词测试个人通过
hai_king
·
2020-02-26 07:22
分词练习2——分词体验
接分词练习1——分词工具包分词效果尝试接下来我将体验NLPIR和
jieba分词
的效果,其中,NLPIR使用在线演示,jieba由于其体验网站出错故使用代码。
骆落啊
·
2020-02-26 02:29
NLP(二)
本节内容:分词拼写纠错停用词过滤词的标准化NLP项目一般流程:一、分词常用分词工具:
Jieba分词
https://github.com/fxsjy/jiebaSnowNLPhttps://github.com
AI数据
·
2020-02-20 22:00
Python抓取歌词自制FreeStyle
主题的思路,就是先抓取很多首歌曲的歌词,利用
jieba分词
后,将分好的词按照押韵表进行分类,最后匹配查询就可以了准备一:押韵表这个地方可以去网上搜押韵表准备二:分词对应押韵表编码分好的词与押韵表对应起来
我爱学python
·
2020-02-20 06:38
使用sklearn+
jieba分词
写的文本分类
结巴分词是对中文语言进行处理的一个Python模块importjiebaluca=jieba.cut('遇见你真的是太好了')print(list(luca))#直接使用jieba.cut()返回的不是列表,需要用list()或set(),''.join()等方式输出,或使用jieba.lcut()importjieba.analyseforx,winjieba.analyse.extract_t
碎冰op
·
2020-02-16 16:38
TF-IDF原理以及sklearn实现和测试
输入输入1:本文章采用“python实现中文文档
jieba分词
和分词结果写入excel文件”文章中输出的两个关于正面中文评价、负面中文评价的excel表格作为输入。
ming_tian0826
·
2020-02-15 22:00
python实现中文文档
jieba分词
和分词结果写入excel文件
输入本篇文章中采用的是对京东某商品的2000个正面评价txt文档和2000个负面评价txt文档,总共是4000个txt文档。一个正面评价txt文档中的内容类似如下:1钢琴漆,很滑很亮。2LED宽屏,看起来很爽3按键很舒服4活动赠品多一个负面评价txt文档中的内容类似如下:送货上门后发现电脑显示器的两边有缝隙;成型塑料表面凹凸不平。做工很差,,,,,输出首先,是对4000个txt文档进行jieba分
ming_tian0826
·
2020-02-15 22:00
MapReduce实现与自定义词典文件基于hanLP的中文分词详解
在单机模式下,可以选择python
jieba分词
,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。
左手中的倒影
·
2020-02-13 07:12
08 信息化领域热词分类分析及解释 第二步 将爬取的数据使用
jieba分词
处理并清洗
直接上代码:importjiebaimportpandasaspdimportrefromcollectionsimportCounterif__name__=='__main__':filehandle=open("news.txt","r",encoding='utf-8');mystr=filehandle.read()seg_list=jieba.cut(mystr)#默认是精确模式pri
小神龙1258
·
2020-02-10 01:00
利用jieba库对中文小说进行词频统计并进行简单的正则匹配
中文小说词频统计及正则匹配首先导入中文分词库jieba,Counter库和re库importjiebaimportrefromcollectionsimportCounter导入打开要处理的文本傲慢与偏见中文版小说并利用
jieba
JackHCC
·
2020-02-10 00:44
NLP之中文分词cppjieba
jieba分词
属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。
yeahle
·
2020-02-02 18:00
Python数据分析之jieba库的运用
步骤
jieba分词
首先,通过pip3in
罗罗攀
·
2020-02-02 12:47
NLP分词-
Jieba分词
与腾讯云,百度云NLP分词对比
在自然语言处理技术里,分词是重要的一环。而搜索引擎,Ai,等技术也都需要分词这一环。开源的分词软件有Jieba,许多项目使用它进行分词,可以自定义词库。对中文,英文等语言都可以进行分词。还有个专门针对日文的分词软件MeCab。这里对Jieba和腾讯云,百度云NLP都测试了下。理论上腾讯云和百度云分词会比Jieba默认词库分词的更好!因为他们数据多,训练的词库会更加精确。可是百度云的分词爆出历史遗留
HiWoo
·
2020-02-01 19:41
解决
jieba分词
load_userdict 加载自定义词库太慢的问题
@(Python)[TOC]1.技术背景importjiebajieba.load_userdict("100MB.txt")问题来源相信大家对上面2句话很熟悉,
jieba分词
加载自定义词库,但是每次加载自定义词库都会花费大量的时间
9b9f7192095b
·
2020-02-01 06:23
如何加快
jieba分词
的自定义词库导入时间——无需修改系统配置
背景最近做
jieba分词
,需要导入自定义词库用来切词。但是导入一次自定义词库需要耗时0.6s左右,延迟太长。尤其是需要大批量调用切词时,时间上耗时太久。
yimengtianya1
·
2020-02-01 00:09
在Python中利用wordcloud生成词云
一、生成汉字词云图的代码如下:fromwordcloudimportWordCloudimportmatplotlib.pyplotasplt#绘制图像的模块importjieba#
jieba分词
path_txt
一滴小小雨
·
2020-01-27 17:00
python同义词替换的实现(
jieba分词
)
TihuanWords.txt文档格式注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词。年休假年假年休究竟到底回家场景我回来了代码importjiebadefreplaceSynonymWords(string1):#1读取同义词表,并生成一个字典。combine_dict={}#synonymWords.txt是同义词表,每行是一系列同义词,用空格分割forlineinopen("T
Lty美丽人生
·
2020-01-21 10:22
(转)LDA处理文档主题分布及分词、词频、tfidf计算
其中LDA入门知识介绍参考这篇文章,包括安装及用法:[python]LDA处理文档主题分布代码入门笔记1.输入输出输入是test.txt文件,它是使用
Jieba分词
之后的文本内容,通常每行代表一篇文档。
岁月淡如水
·
2020-01-08 15:36
Python循环、随机数、列表、元组、字符串、集合、
jieba分词
Python中的循环while循环:while循环条件:(4个空格)循环体计算1-100之间的累加和sum_num=0i=1whileigenerate_num:print('您好像猜大了')else:#猜对的情况ifcount==1:print('你也太厉害了,一次就猜对了,高手')elifcount>1andcountprint(list1)#[1,2,'张三','list']#遍历列表,把元
C_Z_Q_
·
2020-01-06 21:55
python3实现互信息和左右熵的新词发现
实现的中文分词新词发现关于中文新词发现有多种方法,经过比较之后发现利用互信息和左右熵来做新词发现效果最好,先上实验效果初始语句:蔡英文在昨天应民进党当局的邀请,准备和陈时中一道前往世界卫生大会,和谈有关九二共识问题单纯使用
jieba
詹泽诚
·
2020-01-05 19:56
用Python和WordCloud绘制词云
思路:先提取项目的名称,再用
Jieba分词
后提取词汇;过滤掉“研发”、“系列”等无意义的词;最后用WordCloud绘制词云。扩展:词云默认是矩形的,本代码采用图片作为蒙版,产生异形词云图。
嗨学编程
·
2020-01-03 01:51
Python
jieba分词
的学习
importjiebatext="姚家沟是东北某个偏僻山沟里只有二十几户人家的小村子,偏僻到有时候人们忽略了它的存在。"fullMode=jieba.cut(text,cut_all=True)defaultMode=jieba.cut(text,cut_all=False)searchMode=jieba.cut_for_search(text)print("fullMode:\n","".jo
hello_zff
·
2020-01-02 21:39
jieba分词
参考:Python中文分词组件jiabaPython中文分词jieba十五分钟入门与进阶jieba完整文档$好玩的分词——python
jieba分词
模块的基本用法支持三种分词模式:精确模式,试图将句子最精确地切开
领悟悟悟悟
·
2019-12-30 00:25
django-haystack实现简单接口的全文搜索.md
这是一个由纯Python实现的全文搜索引擎,没有二进制文件等,比较小巧,配置比较简单,当然性能自然略低.应用框架:django-haystack,用来实现django和搜索引擎之间的链接,由于只支持英文分词,用
jieba
brother阿张
·
2019-12-28 13:18
如何衡量词语包含信息的多少(词频统计分析)
统计权重的思路是这样的剔除Delimiters定界符使用
Jieba分词
做分词创建词关联的图使用pagerank算法计算出权重剔除Delimiters
乐高_
·
2019-12-27 15:48
文本挖掘——实践总结(一)
文章内容:
jieba分词
(包括分词、关键词提取、词性标记)、word2vec、LDA、Kmeans四大模块算法的理论归纳及简单实现代码与果。完成
H2016
·
2019-12-25 07:59
2018-10-19三国演义词频统计
使用
jieba分词
库相关知识,完成下列两题:(1)查找出“threekingdoms.txt”文件中出现频率前十位的词汇importjiebatxt=open("threekingdoms.txt","
叛逆闲人
·
2019-12-23 18:26
“结巴”中文分词:做最好的 Python中文分词组件
虽然
jieba分词
的性能并不是最优秀
黄平东
·
2019-12-21 17:36
jieba分词
昨天,做的那个数据分析报告用到了
jieba分词
。但是只是借用了别人的部分代码。具体函数代表什么还不太明白。
Wang华子
·
2019-12-21 08:11
python练习17:用
jieba分词
做关键词提取,用matplotlib做可视化
jieba分词
是一款开源的中文分词包,同时它还带有分析模块,可以用TF-IDF等算法进行关键词分析jieba下面的小程序的基本思路是:通过jieba从保存好的txt文本中提取关键词,根据关键词的权重等决定关键词的文字大小
benechen
·
2019-12-19 22:47
《我不是药神》短评关键词提取及词云制作
环境:Windows10、javaversion"1.8.0_144"、Python3.6.3、jieba0.39方法一:
jieba分词
+词云工具(WordArt.com)一、获取短评数据对获取到的短评进行数据的清洗与整理
nicokani
·
2019-12-18 06:17
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他