词库第25页

NLP各种词库

https://github.com/xianhu/funNLP最近需要从文本中抽取结构化信息，用到了很多github上的包，遂整理了一下，后续会不断更新。很多包非常有趣，值得收藏，满足大家的收集癖！如果觉得有用，请分享并star，谢谢！涉及内容包括：中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情

ljtyxl·2020-06-27 08:10

Python - 基于共现提取绘制《流浪地球》人物关系(Gephi)

文章目录Python-基于共现提取绘制《流浪地球》人物关系(Gephi)1.项目相关概念1.1共现网络1.2jieba分词库1.3Gephi2.项目分析3.项目编写3.1初始化以及引入项目所需库3.2提取人物集以及统计人物出现次数

丶从此过客·2020-06-27 08:38

THUOCL：清华大学开放中文词库

目录词库简介词库格式及词频统计语料库词库清单IT财经成语地名历史名人诗词医学饮食法律汽车动物开源协议作者词库简介THUOCL（THUOpenChineseLexicon）是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库

南宫伊枫·2020-06-27 01:36

ElasticSearch ik分词器扩充词库遇到的坑

ik分词器支持扩充词库，具体方法这里不提，大家自行google。这里记录在扩充词库后大家容易遇到的坑，因为我就遇到了。

爱写代码的汤二狗·2020-06-26 22:19

tensorflow数据篇（三）——使用tf.data建立数据通道

目标学习如何使用tf.data并练习建立高效的加载图像和处理图像的通道建立高效的文本处理通道，包括如何建立词库内容目录一、tf.data概述使用TextExample介绍tf.dat

tianzhiya121·2020-06-26 19:37

Lucene中文分词Paoding

Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。

slimina·2020-06-26 19:36

利用jieba和wordcloud写政府工作报告的词云统计和显示

图片需要白色背景importjiebafromwordcloudimportWordCloudfromscipy.miscimportimread###排除词库excludes=["我们"]#打开读取关闭文件

inthebox2018·2020-06-26 18:12

我被google面试后——回答“谷歌如何打败百度？”

谷歌盗用搜狗的词库，让我对谷歌的印象分大打折扣，所以这篇酝酿已久的文章就此出炉了：若干个月之前，Google的中国分公司谷歌人力资源部一位MM给我来电，说看了我的简历，希望安排一次电话面试，面试官是美国总部的一位华人

taizhoula_3·2020-06-26 17:49

挣扎

挣扎来源:旅游学院作者:金莉红挣扎，常规来说，这只是在泛滥成海的中华词库中一个普通得不能再普通、渺小得不能再渺小的词。

旅游学院17旅管1班·2020-06-26 16:53

爬取词库，使用jieba分词库，自定义dict.txt文件+将搜狗词库.scel文件为.txt文件

一：爬取词库，使用jieba分词库，自定义dict.txt文件importjiebafromurllib.requestimporturlopenfrombs4importBeautifulSoup#来源于地图搜索数据

stay_foolish12·2020-06-26 14:15

jieba--做最好用的中文分词组件详解【2】（载入词典与调整词典）

载入词典：首先，这是原来的分词方式及其结果：开发者可以指定自己自定义的词典，以便包含jieba词库里没有的词。

请叫我算术嘉·2020-06-26 14:19

网站长尾关键词如何进行优化

1.挖掘长尾关键词，可通过百度下拉框，百度相关搜索，问答平台（百度知道，搜搜问问，知乎，新浪爱问等），大型关键词挖掘工具（站长工具，词库，金花站长，爱站），统计到一起。

摩昂seo·2020-06-26 13:03

Python3 jieba分词

参考文章：Github上的项目———jieba中文分词对于NLP（自然语言处理）来说，分词是一步重要的工作，市面上也有各种分词库，11款开放中文分词系统比较。

sinat_34022298·2020-06-26 11:20

HanLP用户自定义词典源码分析

.官方文档及参考链接关于词典问题Issue，首先参考：FAQ自定义词典其实是基于规则的分词，它的用法参考这个issue如果有些数量词、字母词需要分词，可参考:P2P和C2C这种词没有分出来，希望加到主词库关于词性标注

lanlantian123·2020-06-26 10:51

网站敏感词过滤的实现（附敏感词库）

一、敏感词过滤工具类把敏感词词库内容加载到ArrayList集合中，通过双层循环，查找与敏感词列表相匹配的字符串，如果找到以*号替换，最终得到替换

sendtion·2020-06-26 10:42

利用BeautifulSoup库爬取虎扑湖区评论并且制作词云(二)

1利用中文分词库jieba来分词要想从评论中获取话题热度最高的词汇，我们需要将这些评论分成一个个的词汇，中文分词不像英文那般简单，还好jieba为我们提供了这样的功能。

shine10076·2020-06-26 09:09

基于python实现的mmseg中文分词算法实现及其优化

例如北京大学生前来应聘，由于北京大学在词库中出现，所以前向最大匹配会分成北京大学/生/前来/应聘，显然这不是正确的分词结果。那么

say_c_box·2020-06-26 07:08

如何屏蔽搜狗输入法的广告和自动更新（持续更新）

如何屏蔽搜狗输入法的广告和自动更新（持续更新）前言开始下载搜狗输入法安装设置删除文件小结前言作为搜狗输入法的忠实用户，被广告劝退，后来呢，换了微软输入法，又对小键盘支持不友好并且词库也不是很友好，所以今天又换回了搜狗

whojoe·2020-06-26 02:59

python实现词云图效果

目录分词库—jieba生成词云库—WordCloud什么是云词图，比如这种，就是由海量的词汇然后经过处理把出现出现词汇展示出来的一张图分词库—jiebajieba库是优秀的中文分词库安装jieba：pipinstalljieba

不愿秃头的阳某·2020-06-26 02:11

Python「Word2vec」：训练词向量时，准确度太低的问题反思

1.获取停用词（停用词库下载）#获取停用词defget_stopwo

Ambitioner_c·2020-06-25 20:26

solr学习篇（一、Windows下solr安装配置）

solr学习篇（一、Windows下solr安装配置）solr的安装下载创建索引库配置中文分词库下载配置mysql数据导入solr导包修改配置文件solrconfig.xml新建data-config.xml

「已注销」·2020-06-25 18:33

搜索接口优化方案——elasticsearch分布式搜索引擎的基本使用

更好一点的是对搜索关键字进行分词，并且专门建一个搜索词库表。不过前期需要对搜索词进行拆解然后幂集组合并于商品ID关联，搜索字与词库表的字以完全匹配的方式查询并找到商品ID。

北桥苏·2020-06-25 09:39

python selenium webdriver 爬虫使用经验

前阵子做了一个百度关键词库的爬虫脚本有几点经验记录下来。方便以后直接用。

DemaxiyaNuoke·2020-06-25 09:29

Python｜200行代码实现疫情地图

注：文末获取完整代码及词库在我们每天关注着疫情变化的同时，可以看到各式各样的疫情地图，本文就让我们一起来实现一下疫情地图的制作。

数据山谷·2020-06-25 09:33

ASO入门要怎么开始呢?

茶安_c08b·2020-06-25 08:40

DFA敏感词过滤算法

首先我先对敏感词库初始化，若我的敏感词库为冰毒白粉大麻大坏蛋初始化之后得到的是下面这样。

Java枫·2020-06-25 06:40

js 敏感词判断

首先要有敏感词词库varkeywords=["阿扁推翻","阿宾","阿賓"];//敏感词词库$("input[type=text]").live("blur",function(){_filter_method

放逐的帝王·2020-06-25 05:33

IBus Pinyin 导入Sougou词库

到搜狗拼音官方网站下载词库文件，词库文件通常以.scel为后缀名，再下面的代码复制后保存为python脚本，保存到词库文件所在的文件夹中，运行脚本，得到sougou.txt；将得到的txt导入ibus用户辞典即可

Tirea·2020-06-25 04:51

NLP基础-准确分词(使用工具分词)

精神抖擞王大鹏·2020-06-25 04:45

Xposed框架开发入门（三）--Android某输入法用户个人词库提取

前面已经介绍了Xposed框架开发的基本原理与简单的使用方法（具体可以参考：Xposed框架开发入门（一）和Xposed框架入门开发（二）–使用Xposed框架实现Activity跳转拦截），同时在第一篇文章中还说到了我们这第三篇文章介绍的是Xposed框架在实际Android逆向分析时的用法，所以本篇文章我们就以Android平台的某狗输入法（到底是啥大家自己猜，下文全部以某输入法代替）为例子，

__未然·2020-06-25 01:41

ElasticSearch集成个性化中文分词插件

ES常用的分词器有StandardAnalyzer、ChineseAnalyzer、CJKAnalyze、IKAnalyzer等，其中IK词库分词是第三方插件，对中文支持尚可，也是本文介绍的、实践过程中用到的分词器

pharos·2020-06-24 19:38

基于词典的实体识别

在不需发现未知词的情况下基于词典的实体识别已足够基于字典的ner也有两种做法：字符串多模匹配和切词(词典加入自定义词库)字符串多模匹配多模匹配有两种基本算法：trie树和记录长度集合的最长匹配trie树匹配效率更高

长空飞鹰·2020-06-24 18:46

人工智能程序设计(Visual Prolog) 学习笔记

具有模式匹配、递归、回溯、对象机制、事实数据库和谓词库等强大功能。非常适合于专家系统、规划和其他AI相关问题的求解。

nomad2·2020-06-24 17:05

几乎最全的中文NLP资源库

NLP民工的乐园TheMostPowerfulNLP-WeaponArsenalNLP民工的乐园:几乎最全的中文NLP资源库词库工具包学习资料在入门到熟悉NLP的过程中，用到了很多github上的包，遂整理了一下

Takoony·2020-06-24 17:46

图片验证码实现总结

仅是我自己实现的过程记录，供大家参考和指正）思路：关键点一是生成图片与图片上的字，关键点二是验证对与错1、图片可以按设计的宽和高去截取（我是按跟前端商量的尺寸自己截的图，很粗糙）2、验证的字需要做一个词库

无痕无踪·2020-06-24 16:48

直播弹幕过滤敏感词之DFA算法

最近遇到了一个需求，将弹幕里面的敏感词过滤一、DFA算法二、java实现1.初始化敏感词库，将敏感词加入到HashMap中，考虑到搜索效率，这里我们将敏感词库存储在RedispublicclassSensitiveWordInit

我是李同学·2020-06-24 16:40

好玩的分词（1）——python jieba分词模块的基本用法

参考资料：结巴分词GitHub文档jieba（结巴）是一个强大的分词库，完美支持中文分词，本文对其基本用法做一个简要总结。

m2fox·2020-06-24 16:45

看英文PDF利器智器+ColorDict 辞典

pos=search/2/7&q=%E8%AF%8D%E5%85%B8ColorDict辞典常用词库资源(引用http://www.coolapk.com/apk/2239/c

流媒体程序员·2020-06-24 16:38

elasticsearch安装中文分词(ik)与添加自定义词库

es的分词对中文不友好，要中文分词器插件，安装ik服务(记得改好版本号)./bin/elasticsearch-plugininstallhttps://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.6.10/elasticsearch-analysis-ik-5.6.10.zip如果服务器网络不行，则可直接下载后安

名明鸣冥·2020-06-24 14:32

NLP之jieba分词原理简析

一、jieba介绍jieba库是一个简单实用的中文自然语言处理分词库。jieba分词属于概率语言模型分词。概率语言模型分词的任务是：在全切分所得的所有结果中求某个切分方案S，使得P(S)最大。

miner_zhu·2020-06-24 14:33

nltk 获取 gutenberg 语料，gensim 生成词库和 onehot 编码

nltk获取gutenberg语料gensim生成词库和onehot编码正在尝试基于TensorflowLSTM模型开发另外一个项目，需要自然语言处理的工具和语料。

磐创AI_聊天机器人·2020-06-24 14:34

【干货】--手把手教你完成文本情感分类

一般而言，在做分词和清洗时需要完成如下三个步骤：创建一个自定义词库，并根据这

Sim1480·2020-06-24 09:38

作为卖家，这些亚马逊运营知识你要知道！

这个工具无限制地取探查关键词的长尾词）http://KeywordInspector（全球唯一一款可以反查任意ASIN使用关键词的工具）https://www.merchantwords.com/（据说它拥有最全的亚马逊关键词词库

亚马逊米思缇·2020-06-23 23:12

三十四、基于python的高效中文文本切词

对中文文本做自然语言处理一定设计到切词的操作，流行的切词工具有很多，本文介绍基于python的结巴中文分词，它是基于文本分析的，不是基于词库的，因此更精确请尊重原创，转载请注明来源网站www.shareditor.com

jiangjingxuan·2020-06-23 21:21

(精)大家多关注开源软件

www.open-open.com/以开源中国为列，大家看看多丰富呀：程序开发Web框架(409)GUI开发框架(216)常用工具包(268)报表/图表制作(120)模板引擎(113)搜索引擎(83)中文分词库

超级谷歌·2020-06-23 18:25

从txt文件读取数据，数据的编码及字符串的编码问题

文本实例为中文停用词库stopwords.txt，文本为UTF-8编码。这里记述两种打开并读取中文文本的操作。

hhu_luqi·2020-06-23 14:51

重要统计数据网站收集（不定更）

网站名称网址备注宏观经济http://www.gov.cn/shuju/index.htmGDP、总人口、社会消费品零售总额、粮食产量…统计局http://www.stats.gov.cn/区划、行业…搜狗词库

基基伟·2020-06-23 14:19

如何使用C语言实现一个简单的字典

题目要求：实现简单的英汉词典，词库就10个单词好了实现功能：输入单词时，可以输出相应的中文输入中文时，可以输出相应的英文如果输入的单词或者中文查找不存在时，则输出"你所查找的内容不存在,请重新输入"。

ghscarecrow·2020-06-23 10:17

正则表达式太慢？这里有一个提速100倍的方案（附代码）

词库索引、关键词替换……正则表达式的强大功能使其成为了文本处理的必备工具。然而，在处理大文本的情境下，正则表达式的低效率却常常让人抓耳挠腮。今天，文摘菌将为你介绍一款比正则表

大数据文摘·2020-06-23 05:39

Java实现敏感词过滤

我把它程序拿过来一看，整个过程如下：读取敏感词库、如果HashSet集合中，获取页面上传文字，然后进行匹配。我就想这个过程肯定是非常慢的。

chenssy·2020-06-22 22:01

推荐频道

词库