E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
词库
NLP各种
词库
https://github.com/xianhu/funNLP最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。很多包非常有趣,值得收藏,满足大家的收集癖!如果觉得有用,请分享并star,谢谢!涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情
ljtyxl
·
2020-06-27 08:10
NLP
Python - 基于共现提取绘制《流浪地球》人物关系(Gephi)
文章目录Python-基于共现提取绘制《流浪地球》人物关系(Gephi)1.项目相关概念1.1共现网络1.2jieba分
词库
1.3Gephi2.项目分析3.项目编写3.1初始化以及引入项目所需库3.2提取人物集以及统计人物出现次数
丶从此过客
·
2020-06-27 08:38
Python有趣的那些事
THUOCL:清华大学开放中文
词库
目录
词库
简介
词库
格式及词频统计语料库
词库
清单IT财经成语地名历史名人诗词医学饮食法律汽车动物开源协议作者
词库
简介THUOCL(THUOpenChineseLexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文
词库
南宫伊枫
·
2020-06-27 01:36
词库
ElasticSearch ik分词器扩充
词库
遇到的坑
ik分词器支持扩充
词库
,具体方法这里不提,大家自行google。这里记录在扩充
词库
后大家容易遇到的坑,因为我就遇到了。
爱写代码的汤二狗
·
2020-06-26 22:19
后端开发
ElasticSearch
tensorflow数据篇(三)——使用tf.data建立数据通道
目标学习如何使用tf.data并练习建立高效的加载图像和处理图像的通道建立高效的文本处理通道,包括如何建立
词库
内容目录一、tf.data概述使用TextExample介绍tf.dat
tianzhiya121
·
2020-06-26 19:37
人工智能
Lucene中文分词Paoding
Paoding中文分
词库
是一个使用Java开发的基于Lucene4.x的分词器,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。
slimina
·
2020-06-26 19:36
搜索引擎
利用jieba和wordcloud写政府工作报告的词云统计和显示
图片需要白色背景importjiebafromwordcloudimportWordCloudfromscipy.miscimportimread###排除
词库
excludes=["我们"]#打开读取关闭文件
inthebox2018
·
2020-06-26 18:12
我被google面试后——回答“谷歌如何打败百度?”
谷歌盗用搜狗的
词库
,让我对谷歌的印象分大打折扣,所以这篇酝酿已久的文章就此出炉了:若干个月之前,Google的中国分公司谷歌人力资源部一位MM给我来电,说看了我的简历,希望安排一次电话面试,面试官是美国总部的一位华人
taizhoula_3
·
2020-06-26 17:49
挣扎
挣扎来源:旅游学院作者:金莉红挣扎,常规来说,这只是在泛滥成海的中华
词库
中一个普通得不能再普通、渺小得不能再渺小的词。
旅游学院17旅管1班
·
2020-06-26 16:53
爬取
词库
,使用jieba分
词库
,自定义dict.txt文件+将搜狗
词库
.scel文件为.txt文件
一:爬取
词库
,使用jieba分
词库
,自定义dict.txt文件importjiebafromurllib.requestimporturlopenfrombs4importBeautifulSoup#来源于地图搜索数据
stay_foolish12
·
2020-06-26 14:15
ppython
机器学习
自然语言处理
jieba--做最好用的中文分词组件详解【2】(载入词典与调整词典)
载入词典:首先,这是原来的分词方式及其结果:开发者可以指定自己自定义的词典,以便包含jieba
词库
里没有的词。
请叫我算术嘉
·
2020-06-26 14:19
python
jieba
网站长尾关键词如何进行优化
1.挖掘长尾关键词,可通过百度下拉框,百度相关搜索,问答平台(百度知道,搜搜问问,知乎,新浪爱问等),大型关键词挖掘工具(站长工具,
词库
,金花站长,爱站),统计到一起。
摩昂seo
·
2020-06-26 13:03
Python3 jieba分词
参考文章:Github上的项目———jieba中文分词对于NLP(自然语言处理)来说,分词是一步重要的工作,市面上也有各种分
词库
,11款开放中文分词系统比较。
sinat_34022298
·
2020-06-26 11:20
Python
数据分析
HanLP用户自定义词典源码分析
.官方文档及参考链接关于词典问题Issue,首先参考:FAQ自定义词典其实是基于规则的分词,它的用法参考这个issue如果有些数量词、字母词需要分词,可参考:P2P和C2C这种词没有分出来,希望加到主
词库
关于词性标注
lanlantian123
·
2020-06-26 10:51
网站敏感词过滤的实现(附敏感
词库
)
一、敏感词过滤工具类把敏感词
词库
内容加载到ArrayList集合中,通过双层循环,查找与敏感词列表相匹配的字符串,如果找到以*号替换,最终得到替换
sendtion
·
2020-06-26 10:42
java
前端开发
利用BeautifulSoup库爬取虎扑湖区评论并且制作词云(二)
1利用中文分
词库
jieba来分词要想从评论中获取话题热度最高的词汇,我们需要将这些评论分成一个个的词汇,中文分词不像英文那般简单,还好jieba为我们提供了这样的功能。
shine10076
·
2020-06-26 09:09
网络爬虫与网络数据采集
基于python实现的mmseg中文分词算法实现及其优化
例如北京大学生前来应聘,由于北京大学在
词库
中出现,所以前向最大匹配会分成北京大学/生/前来/应聘,显然这不是正确的分词结果。那么
say_c_box
·
2020-06-26 07:08
python相关
————自然语言处理————
如何屏蔽搜狗输入法的广告和自动更新(持续更新)
如何屏蔽搜狗输入法的广告和自动更新(持续更新)前言开始下载搜狗输入法安装设置删除文件小结前言作为搜狗输入法的忠实用户,被广告劝退,后来呢,换了微软输入法,又对小键盘支持不友好并且
词库
也不是很友好,所以今天又换回了搜狗
whojoe
·
2020-06-26 02:59
其他
python实现词云图效果
目录分
词库
—jieba生成词云库—WordCloud什么是云词图,比如这种,就是由海量的词汇然后经过处理把出现出现词汇展示出来的一张图分
词库
—jiebajieba库是优秀的中文分
词库
安装jieba:pipinstalljieba
不愿秃头的阳某
·
2020-06-26 02:11
Python
Python「Word2vec」:训练词向量时,准确度太低的问题反思
1.获取停用词(停用
词库
下载)#获取停用词defget_stopwo
Ambitioner_c
·
2020-06-25 20:26
Python
solr学习篇(一、Windows下solr安装配置)
solr学习篇(一、Windows下solr安装配置)solr的安装下载创建索引库配置中文分
词库
下载配置mysql数据导入solr导包修改配置文件solrconfig.xml新建data-config.xml
「已注销」
·
2020-06-25 18:33
java
Windows
搜索接口优化方案——elasticsearch分布式搜索引擎的基本使用
更好一点的是对搜索关键字进行分词,并且专门建一个搜索
词库
表。不过前期需要对搜索词进行拆解然后幂集组合并于商品ID关联,搜索字与
词库
表的字以完全匹配的方式查询并找到商品ID。
北桥苏
·
2020-06-25 09:39
php
教程
python selenium webdriver 爬虫 使用经验
前阵子做了一个百度关键
词库
的爬虫脚本有几点经验记录下来。方便以后直接用。
DemaxiyaNuoke
·
2020-06-25 09:29
Python|200行代码实现疫情地图
注:文末获取完整代码及
词库
在我们每天关注着疫情变化的同时,可以看到各式各样的疫情地图,本文就让我们一起来实现一下疫情地图的制作。
数据山谷
·
2020-06-25 09:33
Python
走进数据分析
python
数据可视化
数据分析
ASO入门要怎么开始呢?
先要建立
词库
。相关关键词可以通过搜索下拉框,ASO工具,竞争对手中获取。整理出一批你需要优化的关键词。确定应用名称,以及应用名称是否需要包含某个强大的关键词。
茶安_c08b
·
2020-06-25 08:40
DFA敏感词过滤算法
首先我先对敏感
词库
初始化,若我的敏感
词库
为冰毒白粉大麻大坏蛋初始化之后得到的是下面这样。
Java枫
·
2020-06-25 06:40
敏感词过滤
js 敏感词判断
首先要有敏感词
词库
varkeywords=["阿扁推翻","阿宾","阿賓"];//敏感词
词库
$("input[type=text]").live("blur",function(){_filter_method
放逐的帝王
·
2020-06-25 05:33
IBus Pinyin 导入Sougou
词库
到搜狗拼音官方网站下载
词库
文件,
词库
文件通常以.scel为后缀名,再下面的代码复制后保存为python脚本,保存到
词库
文件所在的文件夹中,运行脚本,得到sougou.txt;将得到的txt导入ibus用户辞典即可
Tirea
·
2020-06-25 04:51
Ubuntu
NLP基础-准确分词(使用工具分词)
关于NLP相关包安装配置,可以参考:NLP工具包安装配置关于分词的原理可以参考:自然语言处理NLP-隐马尔科夫)1.加载字典来保证词可以分准对一些专业的名词来说,使用原有的
词库
可能无法很好的将词分开,比如在对医疗文本进行分类时
精神抖擞王大鹏
·
2020-06-25 04:45
NLP(代码实践类)
Xposed框架开发入门(三)--Android某输入法用户个人
词库
提取
前面已经介绍了Xposed框架开发的基本原理与简单的使用方法(具体可以参考:Xposed框架开发入门(一)和Xposed框架入门开发(二)–使用Xposed框架实现Activity跳转拦截),同时在第一篇文章中还说到了我们这第三篇文章介绍的是Xposed框架在实际Android逆向分析时的用法,所以本篇文章我们就以Android平台的某狗输入法(到底是啥大家自己猜,下文全部以某输入法代替)为例子,
__未然
·
2020-06-25 01:41
android逆向
ElasticSearch集成个性化中文分词插件
ES常用的分词器有StandardAnalyzer、ChineseAnalyzer、CJKAnalyze、IKAnalyzer等,其中IK
词库
分词是第三方插件,对中文支持尚可,也是本文介绍的、实践过程中用到的分词器
pharos
·
2020-06-24 19:38
笔记
基于词典的实体识别
在不需发现未知词的情况下基于词典的实体识别已足够基于字典的ner也有两种做法:字符串多模匹配和切词(词典加入自定义
词库
)字符串多模匹配多模匹配有两种基本算法:trie树和记录长度集合的最长匹配trie树匹配效率更高
长空飞鹰
·
2020-06-24 18:46
人工智能
人工智能程序设计(Visual Prolog) 学习笔记
具有模式匹配、递归、回溯、对象机制、事实数据库和谓
词库
等强大功能。非常适合于专家系统、规划和其他AI相关问题的求解。
nomad2
·
2020-06-24 17:05
AI
几乎最全的中文NLP资源库
NLP民工的乐园TheMostPowerfulNLP-WeaponArsenalNLP民工的乐园:几乎最全的中文NLP资源库
词库
工具包学习资料在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下
Takoony
·
2020-06-24 17:46
deep
learning
图片验证码实现总结
仅是我自己实现的过程记录,供大家参考和指正)思路:关键点一是生成图片与图片上的字,关键点二是验证对与错1、图片可以按设计的宽和高去截取(我是按跟前端商量的尺寸自己截的图,很粗糙)2、验证的字需要做一个
词库
无痕无踪
·
2020-06-24 16:48
直播弹幕过滤敏感词之DFA算法
最近遇到了一个需求,将弹幕里面的敏感词过滤一、DFA算法二、java实现1.初始化敏感
词库
,将敏感词加入到HashMap中,考虑到搜索效率,这里我们将敏感
词库
存储在RedispublicclassSensitiveWordInit
我是李同学
·
2020-06-24 16:40
好玩的分词(1)——python jieba分词模块的基本用法
参考资料:结巴分词GitHub文档jieba(结巴)是一个强大的分
词库
,完美支持中文分词,本文对其基本用法做一个简要总结。
m2fox
·
2020-06-24 16:45
看英文PDF利器 智器+ColorDict 辞典
pos=search/2/7&q=%E8%AF%8D%E5%85%B8ColorDict辞典常用
词库
资源(引用http://www.coolapk.com/apk/2239/c
流媒体程序员
·
2020-06-24 16:38
好用的Android软件
elasticsearch安装中文分词(ik)与添加自定义
词库
es的分词对中文不友好,要中文分词器插件,安装ik服务(记得改好版本号)./bin/elasticsearch-plugininstallhttps://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.6.10/elasticsearch-analysis-ik-5.6.10.zip如果服务器网络不行,则可直接下载后安
名明鸣冥
·
2020-06-24 14:32
elasticsearch
NLP之jieba分词原理简析
一、jieba介绍jieba库是一个简单实用的中文自然语言处理分
词库
。jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。
miner_zhu
·
2020-06-24 14:33
NLP
nltk 获取 gutenberg 语料,gensim 生成
词库
和 onehot 编码
nltk获取gutenberg语料gensim生成
词库
和onehot编码正在尝试基于TensorflowLSTM模型开发另外一个项目,需要自然语言处理的工具和语料。
磐创AI_聊天机器人
·
2020-06-24 14:34
【干货】--手把手教你完成文本情感分类
一般而言,在做分词和清洗时需要完成如下三个步骤:创建一个自定义
词库
,并根据这
Sim1480
·
2020-06-24 09:38
作为卖家,这些亚马逊运营知识你要知道!
这个工具无限制地取探查关键词的长尾词)http://KeywordInspector(全球唯一一款可以反查任意ASIN使用关键词的工具)https://www.merchantwords.com/(据说它拥有最全的亚马逊关键词
词库
亚马逊米思缇
·
2020-06-23 23:12
三十四、基于python的高效中文文本切词
对中文文本做自然语言处理一定设计到切词的操作,流行的切词工具有很多,本文介绍基于python的结巴中文分词,它是基于文本分析的,不是基于
词库
的,因此更精确请尊重原创,转载请注明来源网站www.shareditor.com
jiangjingxuan
·
2020-06-23 21:21
做一个全栈工程师
(精)大家多关注开源软件
www.open-open.com/以开源中国为列,大家看看多丰富呀:程序开发Web框架(409)GUI开发框架(216)常用工具包(268)报表/图表制作(120)模板引擎(113)搜索引擎(83)中文分
词库
超级谷歌
·
2020-06-23 18:25
开源应用系统
从txt文件读取数据,数据的编码及字符串的编码问题
文本实例为中文停用
词库
stopwords.txt,文本为UTF-8编码。这里记述两种打开并读取中文文本的操作。
hhu_luqi
·
2020-06-23 14:51
python
文本情感分析
重要统计数据网站收集(不定更)
网站名称网址备注宏观经济http://www.gov.cn/shuju/index.htmGDP、总人口、社会消费品零售总额、粮食产量…统计局http://www.stats.gov.cn/区划、行业…搜狗
词库
基基伟
·
2020-06-23 14:19
数据分析
如何使用C语言实现一个简单的字典
题目要求:实现简单的英汉词典,
词库
就10个单词好了实现功能:输入单词时,可以输出相应的中文输入中文时,可以输出相应的英文如果输入的单词或者中文查找不存在时,则输出"你所查找的内容不存在,请重新输入"。
ghscarecrow
·
2020-06-23 10:17
C
正则表达式太慢?这里有一个提速100倍的方案(附代码)
词库
索引、关键词替换……正则表达式的强大功能使其成为了文本处理的必备工具。然而,在处理大文本的情境下,正则表达式的低效率却常常让人抓耳挠腮。今天,文摘菌将为你介绍一款比正则表
大数据文摘
·
2020-06-23 05:39
Java实现敏感词过滤
我把它程序拿过来一看,整个过程如下:读取敏感
词库
、如果HashSet集合中,获取页面上传文字,然后进行匹配。我就想这个过程肯定是非常慢的。
chenssy
·
2020-06-22 22:01
上一页
21
22
23
24
25
26
27
28
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他