E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
词库
elasticsearch安装中文分词(ik)与添加自定义
词库
es的分词对中文不友好,要中文分词器插件,安装ik服务(记得改好版本号)./bin/elasticsearch-plugininstallhttps://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.6.10/elasticsearch-analysis-ik-5.6.10.zip如果服务器网络不行,则可直接下载后安
名明鸣冥
·
2020-06-24 14:32
elasticsearch
NLP之jieba分词原理简析
一、jieba介绍jieba库是一个简单实用的中文自然语言处理分
词库
。jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。
miner_zhu
·
2020-06-24 14:33
NLP
nltk 获取 gutenberg 语料,gensim 生成
词库
和 onehot 编码
nltk获取gutenberg语料gensim生成
词库
和onehot编码正在尝试基于TensorflowLSTM模型开发另外一个项目,需要自然语言处理的工具和语料。
磐创AI_聊天机器人
·
2020-06-24 14:34
【干货】--手把手教你完成文本情感分类
一般而言,在做分词和清洗时需要完成如下三个步骤:创建一个自定义
词库
,并根据这
Sim1480
·
2020-06-24 09:38
作为卖家,这些亚马逊运营知识你要知道!
这个工具无限制地取探查关键词的长尾词)http://KeywordInspector(全球唯一一款可以反查任意ASIN使用关键词的工具)https://www.merchantwords.com/(据说它拥有最全的亚马逊关键词
词库
亚马逊米思缇
·
2020-06-23 23:12
三十四、基于python的高效中文文本切词
对中文文本做自然语言处理一定设计到切词的操作,流行的切词工具有很多,本文介绍基于python的结巴中文分词,它是基于文本分析的,不是基于
词库
的,因此更精确请尊重原创,转载请注明来源网站www.shareditor.com
jiangjingxuan
·
2020-06-23 21:21
做一个全栈工程师
(精)大家多关注开源软件
www.open-open.com/以开源中国为列,大家看看多丰富呀:程序开发Web框架(409)GUI开发框架(216)常用工具包(268)报表/图表制作(120)模板引擎(113)搜索引擎(83)中文分
词库
超级谷歌
·
2020-06-23 18:25
开源应用系统
从txt文件读取数据,数据的编码及字符串的编码问题
文本实例为中文停用
词库
stopwords.txt,文本为UTF-8编码。这里记述两种打开并读取中文文本的操作。
hhu_luqi
·
2020-06-23 14:51
python
文本情感分析
重要统计数据网站收集(不定更)
网站名称网址备注宏观经济http://www.gov.cn/shuju/index.htmGDP、总人口、社会消费品零售总额、粮食产量…统计局http://www.stats.gov.cn/区划、行业…搜狗
词库
基基伟
·
2020-06-23 14:19
数据分析
如何使用C语言实现一个简单的字典
题目要求:实现简单的英汉词典,
词库
就10个单词好了实现功能:输入单词时,可以输出相应的中文输入中文时,可以输出相应的英文如果输入的单词或者中文查找不存在时,则输出"你所查找的内容不存在,请重新输入"。
ghscarecrow
·
2020-06-23 10:17
C
正则表达式太慢?这里有一个提速100倍的方案(附代码)
词库
索引、关键词替换……正则表达式的强大功能使其成为了文本处理的必备工具。然而,在处理大文本的情境下,正则表达式的低效率却常常让人抓耳挠腮。今天,文摘菌将为你介绍一款比正则表
大数据文摘
·
2020-06-23 05:39
Java实现敏感词过滤
我把它程序拿过来一看,整个过程如下:读取敏感
词库
、如果HashSet集合中,获取页面上传文字,然后进行匹配。我就想这个过程肯定是非常慢的。
chenssy
·
2020-06-22 22:01
获取训练数据的方式
下载搜狗
词库
https://pinyin.sogou.com/dict/在官网搜索相关的
词库
下载,比如地名等,然后使用脚本将此条转换成txt保存,来源#-*-coding:utf-8-*-importosimportsysimportstruct
callinglove
·
2020-06-22 20:26
Machine
Learning
c#中文分词学习材料
ICTCLASSharpICTCLAS分词系统简介(9)
词库
扩充SharpICTCLAS分词系统简介(8)其它SharpICTCLAS分词系统简介(7)OptimumSegmentSharpICTCLAS
一步一个脚印的屌丝
·
2020-06-22 19:47
IKAnalyzer配置扩展
词库
经验总结
IKAnalyzer对于中文分词效果较好,但是在实际应用过程中经常会遇到分词效果不理想的情况,比如中文中夹杂的英文缩写,英文与数字混合(如软件版本号)等,这时就需要配置扩展
词库
。
一舍
·
2020-06-22 18:34
NLP
编写简单的中文分词程序
几个月之前,在网上找到了一个中文
词库
素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.一、
词库
词库
大概有5万多词语(google能搜到
aobannie0463
·
2020-06-22 14:59
Hanlp自然语言处理工具的使用演练
本篇将用户输入的语句根据
词库
进行分词、关键词提取、摘要提取、
词库
维护。工具类名称:DKNLPBase1、标准分词方法签名:ListStandardTokeni
adnb34g
·
2020-06-22 12:48
自然语言处理
PHP 实现敏感词过滤(附敏感
词库
)
敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。在实现敏感词过滤的算法中,我们必须要减少运算,而DFA在DFA算法中几乎没有什么计算,有的只是状态的转换。所以想更高效的进行敏感词的过滤,需要使用DFA算法。但这里展示的是使用PHP实现简单的敏感词过滤,调用StringFiter类时,传入$sorStr,就可以将$sorStr中敏感的词汇转换为**。代码如下
哈哈,名字可以改
·
2020-06-22 11:58
聊一聊几个读书类APP
读英文书时,有内置的
词库
可以随时查词,很方便(最早用的掌阅iRead
莫妮卡的书房
·
2020-06-22 11:49
C小项目——电子词典
【项目需求描述】一、单词查询给定文本文件“dict.txt”,该文件用于存储
词库
。
a1314521531
·
2020-06-22 10:58
C语言
C小项目
C语言精华
Java实现简体中文转繁体中文的工具(包括编码转换和语义转换)
简体中文转繁体中文的工具,包括:1、编码转换(GBK->big5)2、语义转换(根据
词库
,需要
词库
的请EMail联系我)packagei18n.converter;importjava.io.BufferedReader
PigHeadSam猪头三
·
2020-06-22 03:50
Java
Utils
Encoding
自媒体学习心得分享之四
其实我清楚地知道互联网背后的程序审稿,它设置有关键
词库
,设有若干的规则,但具体是怎样却不得而知。
城市真人
·
2020-06-22 03:02
Fcitx使用搜狗
词库
与皮肤
在\(\texttt{Linux}\)环境下,\(\texttt{Fcitx}\)确实是最好用的开源输入法之一。然而\(\texttt{Windows}\)下的巨头输入法——搜狗,对\(\texttt{Linux}\)的支持却并不算到位,迄今为止,大多数\(\texttt{Linux}\)的最新内核都无法使用搜狗,譬如\(\texttt{Ubuntu19.04}\)。所以,\(\texttt{Li
洛水·锦依卫
·
2020-06-22 00:14
Python_词云
Github源码内容略有改动Python_词频统计与词云本课概要词云的应用场景词云四行代码生成一个词云美化词云从外部文件读入文本3号词云:乡村振兴战略中央文件(句子云)中文分词中文分词-小试牛刀中文分
词库
JCMLSY
·
2020-06-21 22:24
Python学习笔记
将有道单词本导出到墨墨自建
词库
记忆,只背那些私人订制的单词
其中有一个痛点是,你用托福,GRE等
词库
记忆会遇到很多你已经会的单词或者由于你平时很难遇到因此背了就忘的单词。这篇文章专门针对这个问题分享一个我用了很久的
词库
私人订制方案,同时还可以治疗懒癌。
星星有情绪
·
2020-06-21 20:34
新广告法违规词、敏感词在线检测工具
小龙经过多方努力,终于开发出了新广告法违规词、敏感词在线检测工具,这可能是市面上最全的检测工具了,截止目前已收录441个相关词汇,关键
词库
每日在云端动态更新,所有验证均采用云端验证,最大程序上避免漏词。
天府云创
·
2020-06-21 20:29
没想到你是这样的妇科医生
关于我的复习方法论,请戳:我是这样战胜遗忘周期的关于单
词库
的制作:请戳:我是这样制作单
词库
的好吧,我承认我标题党了。
苏才子
·
2020-06-21 18:13
【中文分词系列】 8. 更好的新词发现算法
如果依次阅读该系列文章的读者,就会发现这个系列共提供了两种从0到1的无监督分词方案,第一种就是《【中文分词系列】2.基于切分的新词发现》,利用相邻字凝固度(互信息)来做构建
词库
(有了
词库
,就可以用词典法分词
算法学习者
·
2020-06-21 16:44
NLP
word2vec词向量训练及gensim的使用
一、什么是词向量词向量最初是用one-hotrepresention表征的,也就是向量中每一个元素都关联着
词库
中的一个单词,指定词的向量表示为:其在向量中对应的元素设置为1,其他的元素设置为0。
木槿花开lalala
·
2020-06-21 15:00
机器学习
用Python绘制词云图
一、分词1.1制作停止
词库
分词之前先准备一下停止词,因为中文中有很多的语气词啊,副词啊等,对于我们展现词频热度是无意义的干扰词。于是,我们就想个法
喜碧夫人听众
·
2020-06-21 15:26
python
词语提取小工具开放啦
华为云的云搜索服务,可以自定义自己的
词库
来做分词、停词。修改
词库
还可以热更新,不用重启即可生效。大家都知道
词库
中的词从哪里来,哪些才是有用的词,这是让人头疼的事情。
To-Big_Fish
·
2020-06-21 15:28
算法
Elasticsearch如何安装中文分词插件ik
elasticsearch-analysis-ik是一款中文的分词插件,支持自定义
词库
。
weixin_30949361
·
2020-06-21 10:33
适合初学英语入门的英语APP
大部分背单词app只能选择背六级、四级或是考研单词这样,而墨墨的单
词库
基本包
一网小鱼
·
2020-06-21 08:00
新词发现
这似乎陷入了一个怪圈:分词的准确性本身就依赖于
词库
的完整性,如果
词库
中根本没有新词,我们又怎么能信任分词结果呢?
Tao-Tao-Tao
·
2020-06-21 07:11
nlp
机器学习
C语言探索之旅 | 第二部分第十课: 实战"悬挂小人"游戏答案
《C语言探索之旅》全系列内容简介前言解方(1.游戏的代码)解方(2.
词库
的代码)第二部分第十一课预告1.前言经过上一课C语言探索之旅|第二部分第九课:实战"悬挂小人"游戏之后,相信大家都或多或少都写了自己的
程序员联盟
·
2020-06-21 03:22
c
后端
编程
编程语言
程序员
如何避免成为一个油腻的中年猥琐男
曾几何时,连“曾几何时”这个词都变得如此矫情,如果不是在特殊的抒情场合,再也不好意思从
词库
里调出来使用,连排比这种修辞都变得如此
般若Neo
·
2020-06-21 01:49
#
杂记
Python-jieba库的使用
是优秀的中文分词第三方库中文文本需要通过分词获得单个的词语jieba是优秀的中文分词第三方库,需要额外安装jieba库提供三种分词模式,最简单只需要掌握一个函数jiaba库安装:(cmd命令行)pipinstalljiebajiaba分词原理:依靠中文
词库
利用一个中文
词库
cheng6023
·
2020-06-21 00:24
Python
jieba
中文分词
lcuts
1008-1014.周成长总结
【收获】1、换了个五笔输入法,去掉之前那个糟糕繁冗的
词库
,同时问题也来了——有些较生僻的词需要自己建立。与“盈亏同源”是一样的故事,需要更敏感则信号多反复多,需要更稳定则要忍受滞后和延迟。
海上大王
·
2020-06-20 21:26
Echarts(1):Python爬取微博热搜并用Echarts词云展示
爬取下来后保存为csv格式的数据,在使用Pythonpandas库和结巴分
词库
进行处理,得到分词结果,再对分词结果进行词频计算,得到echarts词云的原数据。2.Python爬取网
偉ing
·
2020-06-18 15:04
echarts
js
python
json
网易有道词典笔 2 专业版体验分享
今天就跟大家分享一款可以让你专心学习的词典笔——网易有道词典笔2专业版,拥有240W
词库
,中英日韩四种语言,轻轻一扫,就可以完成翻译任务,非常便捷。不仅能提高学习效率,离线使用还可以避免在学习过程中被
ZEALER
·
2020-06-17 00:00
基于词典的实体识别
在不需发现未知词的情况下基于词典的实体识别已足够基于字典的ner也有两种做法:字符串多模匹配和切词(词典加入自定义
词库
)字符串多模匹配多模匹配有两种基本算法:trie树和记录长度集合的最长匹配trie树匹配效率更高
今夜无风
·
2020-06-11 14:00
Elasticsearch系列---使用中文分词器
概要本篇主要介绍中文分词器ik-analyzer的安装使用、自定义
词库
以及热更新方
踏狱稀137
·
2020-06-11 13:37
大数据
Elasticsearch系列---使用中文分词器
概要本篇主要介绍中文分词器ik-analyzer的安装使用、自定义
词库
以及热更新方
whatisJ2EE
·
2020-06-11 08:32
elasticsearch
中文分词器
Elasticsearch系列
英语资源及其APP推荐
使用说明:从单
词库
中选一本单词本。里面几乎涵盖所有单词
zranguai
·
2020-06-11 00:00
iOS代码混淆实现
方案1、准备四六级单
词库
(如果使用随机字符会被机审查出来);2、使用clang过滤出类名和方法名;3、从四六级单
词库
随机组成,映射对应的类名和方法名;4、通过映射进行混淆操作。
jackyshan
·
2020-06-10 10:53
【ES从入门到实战】二十三、全文检索-ElasticSearch-分词-自定义扩展
词库
接第22节3)、自定义
词库
ik分词器默认的分词并不能满足我们的需求,对于一些新的网络用语,ik分词器就会无法准确的进行分词识别,比如:POST_analyze{"analyzer":"ik_max_word
runewbie
·
2020-05-31 22:20
jieba库的使用
jieba是一个中文分
词库
,可以根据所给的中文句子,提取出可能的词组jieba库分词依靠
词库
。利用中文
词库
,确定汉字之间的关联概率。概率大的组成词组,形成分词效果。
xjfyt
·
2020-05-31 17:00
新媒体人不可不知的专业词汇(基础篇)
所以我们整理了一份专业名
词库
,来考考大家,看看你认识多少,今天先列出33个基础名词,之后还会有进阶词汇和高级词汇。
美丽俏佳米
·
2020-05-28 15:46
ElasticSearch7.4.2安装、使用以及与SpringBoot的整合
索引批量操作进阶检索SearchAPIQueryDSLmatchboolfilterterm字段.keyword以及match区分AggregationsMapping创建映射关系查看映射信息修改映射信息分词自定义
词库
安装
jklixin
·
2020-05-27 16:00
总会有个人成为你的远方
我相信所谓的共鸣,其实就是在别人的词句里看到了自己的故事,看到了自己那贫缺的
词库
里急需的辞藻。我认识一个人,是在十二月的云南。
耳畔听潮
·
2020-05-19 11:36
上一页
22
23
24
25
26
27
28
29
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他