E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HanLP
利用
HanLP
计算中文词语语义相似度
HanLP
官方GitHub地址
HanLP
在java项目中配置
HanLP
推荐使用Maven方法在poem.xml中加入以下代码com.hankcs
hanlp
portable-1.3.3但是在AndroidStudio
citySouth
·
2020-03-21 20:23
NLPIR、pyltp、jieba、
hanlp
、snownlp分词工具安装使用记录
最近适用了这五款分词工具,光是下载安装就踩了很多坑,特别是pyltp和
hanlp
,装到我怀疑人生。以下是整理的安装过程和注意事项。希望能给大家提供些帮助。目录一、Nlpir第一步:下载工具。
SSSibyl
·
2020-03-09 23:59
知识提取
自然语言处理
NLP(6)——命名实体识别
为什么需要实体识别普通的工具如
hanlp
,htp,不能识别特定领域的专有名词,所以需要实体识别的算法。下面就以医疗专业为例子来谈一下医疗专业的命名实体识别。
飘涯
·
2020-02-29 12:23
HanLP
的自定义词典使用方式与注意事项介绍
【环境】python2.7方法一:使用py
hanlp
,具体方法如下:pipinstallpy
hanlp
#安装py
hanlp
进入python安装包路径,如/usr/lib/python2.7/site-packages
左手中的倒影
·
2020-02-21 21:45
NLP(二)
jiebaSnowNLPhttps://github.com/isnowfy/snownlpLTPhttp://www.ltp-cloud.com/HanNLPhttps://github.com/hankcs/
HanLP
AI数据
·
2020-02-20 22:00
13.深度学习(词嵌入)与自然语言处理--
HanLP
实现
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP13.深度学习与自然语言处理13.1传统方法的局限前面已经讲过了隐马尔可夫模型、感知机、条件随机场、朴素贝叶斯模型、支持向量机等传统机器学习模型,同时,为了将这些机器学习模型应用于NLP,我们掌握了特征模板、TF-IDF、词袋向量等特征提取方法。而这些方法的局限性表现为如下:数据稀疏
mantch
·
2020-02-19 22:00
10.
HanLP
实现k均值--文本聚类
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP10.文本聚类正所谓物以类聚,人以群分。人们在获取数据时需要整理,将相似的数据归档到一起,自动发现大量样本之间的相似性,这种根据相似性归档的任务称为聚类。10.1概述聚类聚类(clusteranalysis)指的是将给定对象的集合划分为不同子集的过程,目标是使得每个子集内部的元素尽量
mantch
·
2020-02-14 13:00
HanLP
《自然语言处理入门》笔记--9.关键词、关键句和短语提取
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP9.信息抽取信息抽取是一个宽泛的概念,指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简单实用的无监督学习方法。由于不需要标注语料库,所以可以利用海量的非结构化文本。本章按照颗粒度从小到大的顺序,
mantch
·
2020-02-13 18:00
HanLP
《自然语言处理入门》笔记--9.关键词、关键句和短语提取
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP9.信息抽取信息抽取是一个宽泛的概念,指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简单实用的无监督学习方法。由于不需要标注语料库,所以可以利用海量的非结构化文本。本章按照颗粒度从小到大的顺序,
mantch
·
2020-02-13 18:00
MapReduce实现与自定义词典文件基于
hanLP
的中文分词详解
但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则
hanLP
更加胜任。一、使用介绍
hanLP
是一个用java语言开发的分词工具,官网是http://
hanlp
.com/。
左手中的倒影
·
2020-02-13 07:12
8.
HanLP
实现--命名实体识别
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP8.命名实体识别8.1概述命名实体文本中有一些描述实体的词汇。比如人名、地名、组织机构名、股票基金、医学术语等,称为命名实体。具有以下共性:数量无穷。比如宇宙中的恒星命名、新生儿的命名不断出现新组合。构词灵活。比如中国工商银行,既可以称为工商银行,也可以简称工行。类别模糊。有一些地名
mantch
·
2020-02-12 18:00
8.
HanLP
实现--命名实体识别
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP8.命名实体识别8.1概述命名实体文本中有一些描述实体的词汇。比如人名、地名、组织机构名、股票基金、医学术语等,称为命名实体。具有以下共性:数量无穷。比如宇宙中的恒星命名、新生儿的命名不断出现新组合。构词灵活。比如中国工商银行,既可以称为工商银行,也可以简称工行。类别模糊。有一些地名
mantch
·
2020-02-12 18:00
HanLP
《自然语言处理入门》笔记--9.关键词、关键句和短语提取
文章目录9.信息抽取9.1新词提取9.2关键词提取9.3短语提取9.4关键句提取9.5总结9.6GitHub笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP9.信息抽取信息抽取是一个宽泛的概念,指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简
mantchs
·
2020-02-12 18:46
NLP
自然语言处理
机器学习
算法
nlp
HanLP
《自然语言处理入门》笔记--6.条件随机场与序列标注
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP6.条件随机场与序列标注本章介绍一种新的序列标注模型条件随机场。这种模型与感知机同属结构化学习大家族,但性能比感知机还要强大。为了厘清该模型的来龙去脉,我们先对机器学习模型做番柿理。然后结合代码介绍条件随机场理论,探究它与结构化感知机的异同。6.1机器学习的模型谱系机器学习的模型谱系
mantch
·
2020-02-10 18:00
HanLP
《自然语言处理入门》笔记--6.条件随机场与序列标注
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP6.条件随机场与序列标注本章介绍一种新的序列标注模型条件随机场。这种模型与感知机同属结构化学习大家族,但性能比感知机还要强大。为了厘清该模型的来龙去脉,我们先对机器学习模型做番柿理。然后结合代码介绍条件随机场理论,探究它与结构化感知机的异同。6.1机器学习的模型谱系机器学习的模型谱系
mantch
·
2020-02-10 18:00
利用
HanLP
与Flink/Spark做实时中文分词
HanLP
(主页见这里,项目repo见这里)是目前Java环境下非常流行的中文NLP工具集。要与Spark或Fli
LittleMagic
·
2020-02-10 17:32
HanLP
《自然语言处理入门》笔记--5.感知机模型与序列标注
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP5.感知机分类与序列标注第4章我们利用隐马尔可夫模型实现了第一个基于序列标注的中文分词器,然而效果并不理想。事实上,隐马尔可夫模型假设人们说的话仅仅取决于一个隐藏的{B.M,E,S序列,这个假设太单纯了,不符合语言规律。语言不是由这么简单的标签序列生成,语言含有更多特征,而隐马弥可夫
mantch
·
2020-02-09 12:00
HanLP
《自然语言处理入门》笔记--5.感知机模型与序列标注
文章目录5.感知机分类与序列标注5.1分类问题5.2线性分类模型5.3感知机算法5.4基于感知机的人名性别分类5.5结构化预测问题5.6线性模型的结构化感知机算法5.7基于结构化感知机的中文分词5.8GitHub笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP5.感知机分类与序列标注第4章我们利用隐马尔可夫模型实现了第一个基于序列
mantchs
·
2020-02-09 12:03
NLP
自然语言处理
机器学习
nlp
hanlp
添加自定义字典的步骤介绍
本篇分享一个
hanlp
添加自定义字典的方法,供大家参考!总共分为两步:第一步:将自定义的字典放到custom目录下,然后删除CustomDicionary.txt.bin,因为分词的时候会读这个文件。
左手中的倒影
·
2020-02-09 03:52
hanlp
加载远程词库示例
目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现按
hanlp
左手中的倒影
·
2020-02-08 10:23
HanLP
《自然语言处理入门》笔记--3.二元语法与中文分词
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP3.二元语法与中文分词上一章中我们实现了块儿不准的词典分词,词典分词无法消歧。给定两种分词结果“商品和服务”以及“商品和服务”,词典分词不知道哪种更加合理。我们人类确知道第二种更加合理,只因为我们从小到大接触的都是第二种分词,出现的次数多,所以我们判定第二种是正确地选择。这就是利用了
mantch
·
2020-02-05 20:00
HanLP
《自然语言处理入门》笔记--3.二元语法与中文分词
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP3.二元语法与中文分词上一章中我们实现了块儿不准的词典分词,词典分词无法消歧。给定两种分词结果“商品和服务”以及“商品和服务”,词典分词不知道哪种更加合理。我们人类确知道第二种更加合理,只因为我们从小到大接触的都是第二种分词,出现的次数多,所以我们判定第二种是正确地选择。这就是利用了
mantch
·
2020-02-05 20:00
HanLP
《自然语言处理入门》笔记--2.词典分词
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP2.词典分词中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则与基于机器学习这两大派。2.1什么是词在基于词典的中文分词中,词的定义要现实得多:词典中的字符串就是词。词的性质--齐夫定律:一个单词的词频与它的词频排名成反比
mantch
·
2020-02-05 13:00
HanLP
《自然语言处理入门》笔记--2.词典分词
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP2.词典分词中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则与基于机器学习这两大派。2.1什么是词在基于词典的中文分词中,词的定义要现实得多:词典中的字符串就是词。词的性质--齐夫定律:一个单词的词频与它的词频排名成反比
mantch
·
2020-02-05 13:00
HanLP
《自然语言处理入门》笔记--2.词典分词
文章目录2.词典分词2.1什么是词2.2词典2.3切分算法2.4字典树2.5基于字典树的其它算法2.6
HanLP
的词典分词实现2.7GitHub项目笔记转载于GitHub项目:https://github.com
mantchs
·
2020-02-05 13:49
NLP
自然语言处理
算法
机器学习
HanLP
《自然语言处理入门》笔记--1.新手上路
1.新手上路自然语言处理(NaturalLanguageProcessing,NLP)是一门融合了计算机科学、人工智能及语言学的交叉学科,它们的关系如下图所示。这门学科研究的是如何通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标--理解人类语言或人工智能。美国计算机科学家BillManaris在《计算机进展》(AdvancesinComputers)第47卷的《从人机交互的角度看自然
mantch
·
2020-02-04 21:00
NLP入门(1)-词典分词方法及实战
1、词典准备既然是词典分词,那么我们首先需要找到一部字典,这里使用
Hanlp
提供的mini版本的中文词典:https://github.com/hankcs/Ha
文哥的学习日记
·
2019-12-26 10:12
使用Python的http.server实现一个简易的Web Api对外提供
HanLP
拼音转换服务
使用了一个折中的办法,省市区3级(3千+)用高准确度接口(几乎没有拼错的地名),镇级(4万+)用本地
HanLP
提供的接口(大部分多音字还算是能拼正确)。
高坚果兄弟
·
2019-12-25 14:52
自然语言处理工具包
HanLP
在 Spring Boot中的应用
概述
HanLP
是基于Java开发的NLP工具包,由一系列模型与算法组成,目标是普及自然语言处理在生产环境中的应用。
CodeSheep
·
2019-12-25 13:31
hanlp
和jieba等六大中文分工具的测试对比
本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、
HanLP
这六大中文分词工具是由水...琥珀完成的。
左手中的倒影
·
2019-12-18 00:47
Spark应用
HanLP
对中文语料进行文本挖掘--聚类
软件:IDEA2014、Maven、
HanLP
、JDK;用到的知识:
HanLP
、SparkTF-IDF、Sparkkmeans、SparkmapPartition;用到的数据集:http://www.threedweb.cn
lanlantian123
·
2019-12-13 03:12
(三)分词技术及开源分词器
分词是绝大部分自然语言处理的第一步,我们主要从序列标注的角度介绍下HMM如何实现分词的,然后介绍
Hanlp
和海量分词两个工具包在python环境下进行分词。
天生smile
·
2019-12-07 18:36
解决安装py
hanlp
出现的报错:FileNotFoundError: [Errno 2] No such file or directory: '/usr/lib/jvm'
在安装py
hanlp
之后,执行
hanlp
命令进行测试时出现报错报错类型:FileNotFoundError:[Errno2]Nosuchfileordirectory:'/usr/lib/jvm'解决办法
博士伦2014
·
2019-12-07 01:00
NLP第2课:中文分词利器 jieba 和
HanLP
中文分词有很多种,常见的比如有中科院计算所NLPIR、哈工大LTP、清华大学THULAC、斯坦福分词器、
Hanlp
分词器、jieba分词、IKAnalyzer等。
Element静婷
·
2019-12-01 12:41
NLP第2课:中文分词利器 jieba 和
HanLP
中文分词有很多种,常见的比如有中科院计算所NLPIR、哈工大LTP、清华大学THULAC、斯坦福分词器、
Hanlp
分词器、jieba分词、IKAnalyzer等。
米饭超人
·
2019-11-29 02:11
中文分词利器 jieba 和
HanLP
中文分词有很多种,常见的比如有中科院计算所NLPIR、哈工大LTP、清华大学THULAC、斯坦福分词器、
Hanlp
分词器、jieba分词、IKAnalyzer等。
lanlantian123
·
2019-11-07 15:45
使用Spark+
Hanlp
进行简单的文本处理(中)-Kmeans文本聚类
文本聚类1.TFIDFTFIDF全程叫做termfrequency–inversedocumentfrequency,即文本频率与逆文档频率指数,TFIDF就是为了表征一个token的重要程度,如果这个token出现的频数很高,出现的频数这个因素就叫做TF,IDF即逆文档频率,就是所有文档的条数与有某词的文档条数的比值的对数,减少“的,了”等频率过高又无意义的词语干扰。TFIDF是个词袋模型。Sp
Luis_yao
·
2019-11-07 14:13
nlp
spark
nlp
HanLP
用户自定义词典源码分析详解
P2P和C2C这种词没有分出来,希望加到主词库l关于词性标注:可参考词性标注2.源码解析分析com.hankcs.demo包下的DemoCustomDictionary.java基于自定义词典使用标准分词
HanLP
.segment
左手中的倒影
·
2019-11-07 05:51
基于结构化感知机的词性标注与命名实体识别框架
上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具
Hanlp
基于感知机的中文分词框架》,本篇接上一篇内容,继续分享词性标注与命名实体识别框架的内容。
左手中的倒影
·
2019-11-05 19:25
标题:DKhadoop大数据处理平台监控数据介绍
Hanlp
自然语言处理技术也荣膺了“2018中国数据星技术”奖。对这份榜单感兴趣的可以找一下看看。
本宫没空8
·
2019-11-03 04:23
HanLP
中的人名识别分析详解
supportLists]u[endif]u关于层叠HMM中文实体识别的过程
HanLP
参考博客:词性标注层叠HMM-Viterbi角色标注
左手中的倒影
·
2019-11-02 08:37
py
hanlp
文本分类与情感分析
语料库本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip,下载前请先阅读搜狗实验室数据使用许可协议。用Map描述这种关系可以用Java的Map来描述,其key代表类目,value代表该类目下的所有文档。用户可以利用自己的文本读取模块构造一个Map形式的中间语料库,然
左手中的倒影
·
2019-11-01 05:00
自然语言处理从小白到大白系列(6)说说中文分词那些事
条件随机场模型(ConditionalRandomFields,CRF)1.3基于深度学习的方法二.分词常用工具2.1[jieba](https://github.com/fxsjy/jieba)2.2[
hanLP
Jamie_Wu
·
2019-10-23 21:49
自然语言
分词
BiLSTM
jieba
分词工具
自然语言处理
第六章(1.6)机器学习实战——打造属于自己的贝叶斯分类器
github项目地址:https://github.com/liangzhicheng120/bayes一、简介项目使用SpringBoot做了一层web封装项目使用的分词工具
hanlp
项目使用JDK8
_两只橙_
·
2019-10-01 23:59
HanLP
环境配置及使用
HanLP
环境配置及使用1安装Anaconda版本:python3.72安装pythonIDE我安装的是wingide破解版,按照安装步骤下载即可。
cpt_ljy
·
2019-09-25 14:01
NLP
NLP常用到的工具
一、常用到的第三发工具NLP常用基本工具•jieba:•https://github.com/fxsjy/jieba•
HanLP
:•http://
hanlp
.com/•https://github.com
鲨鱼儿
·
2019-09-13 12:07
AI_NLP
整理的一些算法学习资源
1学习资源Python包python(anaconda)+jupyternumpy,pandas,matlibplotjieba,
hanlp
,snownlp,stanfordcorenlp,spaCy,
还有下文
·
2019-09-03 20:28
整理
HanLP
词性标注集
原文链接:http://www.hankcs.com/nlp/part-of-speech-tagging.html
HanLP
使用的HMM词性标注模型训练自2014年人民日报切分语料,随后增加了少量98
神奇的老黄
·
2019-08-22 10:37
hanlp
分词
地名地址
hanlp词性标注
Python实战项目
HanLP
封装为web services服务的过程介绍
阅读更多前几天的召开的2019年大数据生态产业大会不知道大家关注到没有,看到消息是
hanlp
2.0版本发布了。不知道
hanlp
2.0版本又将带来哪些新的变化?
adnb34g
·
2019-08-09 10:00
web
HanLP
封装为web services服务的过程介绍
阅读更多前几天的召开的2019年大数据生态产业大会不知道大家关注到没有,看到消息是
hanlp
2.0版本发布了。不知道
hanlp
2.0版本又将带来哪些新的变化?
adnb34g
·
2019-08-09 10:00
web
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他