HanLP 第9页

利用HanLP计算中文词语语义相似度

HanLP官方GitHub地址HanLP在java项目中配置HanLP推荐使用Maven方法在poem.xml中加入以下代码com.hankcshanlpportable-1.3.3但是在AndroidStudio

citySouth·2020-03-21 20:23

NLPIR、pyltp、jieba、hanlp、snownlp分词工具安装使用记录

最近适用了这五款分词工具，光是下载安装就踩了很多坑，特别是pyltp和hanlp，装到我怀疑人生。以下是整理的安装过程和注意事项。希望能给大家提供些帮助。目录一、Nlpir第一步：下载工具。

SSSibyl·2020-03-09 23:59

NLP(6)——命名实体识别

为什么需要实体识别普通的工具如hanlp，htp，不能识别特定领域的专有名词，所以需要实体识别的算法。下面就以医疗专业为例子来谈一下医疗专业的命名实体识别。

飘涯·2020-02-29 12:23

HanLP的自定义词典使用方式与注意事项介绍

【环境】python2.7方法一：使用pyhanlp，具体方法如下：pipinstallpyhanlp#安装pyhanlp进入python安装包路径，如/usr/lib/python2.7/site-packages

左手中的倒影·2020-02-21 21:45

NLP(二)

jiebaSnowNLPhttps://github.com/isnowfy/snownlpLTPhttp://www.ltp-cloud.com/HanNLPhttps://github.com/hankcs/HanLP

AI数据·2020-02-20 22:00

13.深度学习(词嵌入)与自然语言处理--HanLP实现

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP13.深度学习与自然语言处理13.1传统方法的局限前面已经讲过了隐马尔可夫模型、感知机、条件随机场、朴素贝叶斯模型、支持向量机等传统机器学习模型，同时，为了将这些机器学习模型应用于NLP，我们掌握了特征模板、TF-IDF、词袋向量等特征提取方法。而这些方法的局限性表现为如下:数据稀疏

mantch·2020-02-19 22:00

10.HanLP实现k均值--文本聚类

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP10.文本聚类正所谓物以类聚，人以群分。人们在获取数据时需要整理，将相似的数据归档到一起，自动发现大量样本之间的相似性，这种根据相似性归档的任务称为聚类。10.1概述聚类聚类(clusteranalysis)指的是将给定对象的集合划分为不同子集的过程，目标是使得每个子集内部的元素尽量

mantch·2020-02-14 13:00

HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP9.信息抽取信息抽取是一个宽泛的概念，指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简单实用的无监督学习方法。由于不需要标注语料库，所以可以利用海量的非结构化文本。本章按照颗粒度从小到大的顺序，

mantch·2020-02-13 18:00

HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP9.信息抽取信息抽取是一个宽泛的概念，指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简单实用的无监督学习方法。由于不需要标注语料库，所以可以利用海量的非结构化文本。本章按照颗粒度从小到大的顺序，

mantch·2020-02-13 18:00

MapReduce实现与自定义词典文件基于hanLP的中文分词详解

但是如果希望在Hadoop集群上通过mapreduce程序来进行分词，则hanLP更加胜任。一、使用介绍hanLP是一个用java语言开发的分词工具，官网是http://hanlp.com/。

左手中的倒影·2020-02-13 07:12

8.HanLP实现--命名实体识别

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP8.命名实体识别8.1概述命名实体文本中有一些描述实体的词汇。比如人名、地名、组织机构名、股票基金、医学术语等，称为命名实体。具有以下共性:数量无穷。比如宇宙中的恒星命名、新生儿的命名不断出现新组合。构词灵活。比如中国工商银行，既可以称为工商银行，也可以简称工行。类别模糊。有一些地名

mantch·2020-02-12 18:00

8.HanLP实现--命名实体识别

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP8.命名实体识别8.1概述命名实体文本中有一些描述实体的词汇。比如人名、地名、组织机构名、股票基金、医学术语等，称为命名实体。具有以下共性:数量无穷。比如宇宙中的恒星命名、新生儿的命名不断出现新组合。构词灵活。比如中国工商银行，既可以称为工商银行，也可以简称工行。类别模糊。有一些地名

mantch·2020-02-12 18:00

HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取

文章目录9.信息抽取9.1新词提取9.2关键词提取9.3短语提取9.4关键句提取9.5总结9.6GitHub笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP9.信息抽取信息抽取是一个宽泛的概念，指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简

mantchs·2020-02-12 18:46

HanLP《自然语言处理入门》笔记--6.条件随机场与序列标注

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP6.条件随机场与序列标注本章介绍一种新的序列标注模型条件随机场。这种模型与感知机同属结构化学习大家族，但性能比感知机还要强大。为了厘清该模型的来龙去脉，我们先对机器学习模型做番柿理。然后结合代码介绍条件随机场理论，探究它与结构化感知机的异同。6.1机器学习的模型谱系机器学习的模型谱系

mantch·2020-02-10 18:00

HanLP《自然语言处理入门》笔记--6.条件随机场与序列标注

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP6.条件随机场与序列标注本章介绍一种新的序列标注模型条件随机场。这种模型与感知机同属结构化学习大家族，但性能比感知机还要强大。为了厘清该模型的来龙去脉，我们先对机器学习模型做番柿理。然后结合代码介绍条件随机场理论，探究它与结构化感知机的异同。6.1机器学习的模型谱系机器学习的模型谱系

mantch·2020-02-10 18:00

利用HanLP与Flink/Spark做实时中文分词

HanLP（主页见这里，项目repo见这里）是目前Java环境下非常流行的中文NLP工具集。要与Spark或Fli

LittleMagic·2020-02-10 17:32

HanLP《自然语言处理入门》笔记--5.感知机模型与序列标注

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP5.感知机分类与序列标注第4章我们利用隐马尔可夫模型实现了第一个基于序列标注的中文分词器，然而效果并不理想。事实上，隐马尔可夫模型假设人们说的话仅仅取决于一个隐藏的{B.M,E,S序列，这个假设太单纯了，不符合语言规律。语言不是由这么简单的标签序列生成，语言含有更多特征，而隐马弥可夫

mantch·2020-02-09 12:00

HanLP《自然语言处理入门》笔记--5.感知机模型与序列标注

文章目录5.感知机分类与序列标注5.1分类问题5.2线性分类模型5.3感知机算法5.4基于感知机的人名性别分类5.5结构化预测问题5.6线性模型的结构化感知机算法5.7基于结构化感知机的中文分词5.8GitHub笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP5.感知机分类与序列标注第4章我们利用隐马尔可夫模型实现了第一个基于序列

mantchs·2020-02-09 12:03

hanlp添加自定义字典的步骤介绍

本篇分享一个hanlp添加自定义字典的方法，供大家参考！总共分为两步：第一步：将自定义的字典放到custom目录下，然后删除CustomDicionary.txt.bin，因为分词的时候会读这个文件。

左手中的倒影·2020-02-09 03:52

hanlp 加载远程词库示例

目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库，对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现按hanlp

左手中的倒影·2020-02-08 10:23

HanLP《自然语言处理入门》笔记--3.二元语法与中文分词

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP3.二元语法与中文分词上一章中我们实现了块儿不准的词典分词，词典分词无法消歧。给定两种分词结果“商品和服务”以及“商品和服务”，词典分词不知道哪种更加合理。我们人类确知道第二种更加合理，只因为我们从小到大接触的都是第二种分词，出现的次数多，所以我们判定第二种是正确地选择。这就是利用了

mantch·2020-02-05 20:00

HanLP《自然语言处理入门》笔记--3.二元语法与中文分词

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP3.二元语法与中文分词上一章中我们实现了块儿不准的词典分词，词典分词无法消歧。给定两种分词结果“商品和服务”以及“商品和服务”，词典分词不知道哪种更加合理。我们人类确知道第二种更加合理，只因为我们从小到大接触的都是第二种分词，出现的次数多，所以我们判定第二种是正确地选择。这就是利用了

mantch·2020-02-05 20:00

HanLP《自然语言处理入门》笔记--2.词典分词

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP2.词典分词中文分词：指的是将一段文本拆分为一系列单词的过程，这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则与基于机器学习这两大派。2.1什么是词在基于词典的中文分词中，词的定义要现实得多：词典中的字符串就是词。词的性质--齐夫定律：一个单词的词频与它的词频排名成反比

mantch·2020-02-05 13:00

HanLP《自然语言处理入门》笔记--2.词典分词

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP2.词典分词中文分词：指的是将一段文本拆分为一系列单词的过程，这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则与基于机器学习这两大派。2.1什么是词在基于词典的中文分词中，词的定义要现实得多：词典中的字符串就是词。词的性质--齐夫定律：一个单词的词频与它的词频排名成反比

mantch·2020-02-05 13:00

HanLP《自然语言处理入门》笔记--2.词典分词

文章目录2.词典分词2.1什么是词2.2词典2.3切分算法2.4字典树2.5基于字典树的其它算法2.6HanLP的词典分词实现2.7GitHub项目笔记转载于GitHub项目：https://github.com

mantchs·2020-02-05 13:49

HanLP《自然语言处理入门》笔记--1.新手上路

1.新手上路自然语言处理(NaturalLanguageProcessing，NLP)是一门融合了计算机科学、人工智能及语言学的交叉学科，它们的关系如下图所示。这门学科研究的是如何通过机器学习等技术，让计算机学会处理人类语言，乃至实现终极目标--理解人类语言或人工智能。美国计算机科学家BillManaris在《计算机进展》(AdvancesinComputers)第47卷的《从人机交互的角度看自然

mantch·2020-02-04 21:00

NLP入门(1)-词典分词方法及实战

1、词典准备既然是词典分词，那么我们首先需要找到一部字典，这里使用Hanlp提供的mini版本的中文词典：https://github.com/hankcs/Ha

文哥的学习日记·2019-12-26 10:12

使用Python的http.server实现一个简易的Web Api对外提供HanLP拼音转换服务

使用了一个折中的办法，省市区3级（3千+）用高准确度接口（几乎没有拼错的地名），镇级（4万+）用本地HanLP提供的接口（大部分多音字还算是能拼正确）。

高坚果兄弟·2019-12-25 14:52

自然语言处理工具包 HanLP在 Spring Boot中的应用

概述HanLP是基于Java开发的NLP工具包，由一系列模型与算法组成，目标是普及自然语言处理在生产环境中的应用。

CodeSheep·2019-12-25 13:31

hanlp和jieba等六大中文分工具的测试对比

本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由水...琥珀完成的。

左手中的倒影·2019-12-18 00:47

Spark应用HanLP对中文语料进行文本挖掘--聚类

软件：IDEA2014、Maven、HanLP、JDK；用到的知识：HanLP、SparkTF-IDF、Sparkkmeans、SparkmapPartition;用到的数据集：http://www.threedweb.cn

lanlantian123·2019-12-13 03:12

（三）分词技术及开源分词器

分词是绝大部分自然语言处理的第一步，我们主要从序列标注的角度介绍下HMM如何实现分词的，然后介绍Hanlp和海量分词两个工具包在python环境下进行分词。

天生smile·2019-12-07 18:36

解决安装pyhanlp出现的报错：FileNotFoundError: [Errno 2] No such file or directory: '/usr/lib/jvm'

在安装pyhanlp之后，执行hanlp命令进行测试时出现报错报错类型：FileNotFoundError:[Errno2]Nosuchfileordirectory:'/usr/lib/jvm'解决办法

博士伦2014·2019-12-07 01:00

NLP第2课：中文分词利器 jieba 和 HanLP

中文分词有很多种，常见的比如有中科院计算所NLPIR、哈工大LTP、清华大学THULAC、斯坦福分词器、Hanlp分词器、jieba分词、IKAnalyzer等。

Element静婷·2019-12-01 12:41

NLP第2课：中文分词利器 jieba 和 HanLP

中文分词有很多种，常见的比如有中科院计算所NLPIR、哈工大LTP、清华大学THULAC、斯坦福分词器、Hanlp分词器、jieba分词、IKAnalyzer等。

米饭超人·2019-11-29 02:11

中文分词利器 jieba 和 HanLP

中文分词有很多种，常见的比如有中科院计算所NLPIR、哈工大LTP、清华大学THULAC、斯坦福分词器、Hanlp分词器、jieba分词、IKAnalyzer等。

lanlantian123·2019-11-07 15:45

使用Spark+Hanlp进行简单的文本处理（中）-Kmeans文本聚类

文本聚类1.TFIDFTFIDF全程叫做termfrequency–inversedocumentfrequency，即文本频率与逆文档频率指数,TFIDF就是为了表征一个token的重要程度，如果这个token出现的频数很高，出现的频数这个因素就叫做TF，IDF即逆文档频率,就是所有文档的条数与有某词的文档条数的比值的对数，减少“的，了”等频率过高又无意义的词语干扰。TFIDF是个词袋模型。Sp

Luis_yao·2019-11-07 14:13

HanLP用户自定义词典源码分析详解

P2P和C2C这种词没有分出来，希望加到主词库l关于词性标注：可参考词性标注2.源码解析分析com.hankcs.demo包下的DemoCustomDictionary.java基于自定义词典使用标准分词HanLP.segment

左手中的倒影·2019-11-07 05:51

基于结构化感知机的词性标注与命名实体识别框架

上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》，本篇接上一篇内容，继续分享词性标注与命名实体识别框架的内容。

左手中的倒影·2019-11-05 19:25

标题：DKhadoop大数据处理平台监控数据介绍

Hanlp自然语言处理技术也荣膺了“2018中国数据星技术”奖。对这份榜单感兴趣的可以找一下看看。

本宫没空8·2019-11-03 04:23

HanLP中的人名识别分析详解

supportLists]u[endif]u关于层叠HMM中文实体识别的过程HanLP参考博客：词性标注层叠HMM-Viterbi角色标注

左手中的倒影·2019-11-02 08:37

pyhanlp文本分类与情感分析

语料库本文语料库特指文本分类语料库，对应IDataSet接口。而文本分类语料库包含两个概念：文档和类目。一个文档只属于一个类目，一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip，下载前请先阅读搜狗实验室数据使用许可协议。用Map描述这种关系可以用Java的Map来描述，其key代表类目，value代表该类目下的所有文档。用户可以利用自己的文本读取模块构造一个Map形式的中间语料库，然

左手中的倒影·2019-11-01 05:00

自然语言处理从小白到大白系列（6）说说中文分词那些事

条件随机场模型（ConditionalRandomFields，CRF）1.3基于深度学习的方法二.分词常用工具2.1[jieba](https://github.com/fxsjy/jieba)2.2[hanLP

Jamie_Wu·2019-10-23 21:49

第六章（1.6）机器学习实战——打造属于自己的贝叶斯分类器

github项目地址：https://github.com/liangzhicheng120/bayes一、简介项目使用SpringBoot做了一层web封装项目使用的分词工具hanlp项目使用JDK8

_两只橙_·2019-10-01 23:59

HanLP环境配置及使用

HanLP环境配置及使用1安装Anaconda版本：python3.72安装pythonIDE我安装的是wingide破解版，按照安装步骤下载即可。

cpt_ljy·2019-09-25 14:01

NLP常用到的工具

一、常用到的第三发工具NLP常用基本工具•jieba:•https://github.com/fxsjy/jieba•HanLP:•http://hanlp.com/•https://github.com

鲨鱼儿·2019-09-13 12:07

整理的一些算法学习资源

1学习资源Python包python（anaconda）+jupyternumpy,pandas,matlibplotjieba,hanlp,snownlp,stanfordcorenlp,spaCy,

还有下文·2019-09-03 20:28

HanLP词性标注集

原文链接：http://www.hankcs.com/nlp/part-of-speech-tagging.htmlHanLP使用的HMM词性标注模型训练自2014年人民日报切分语料，随后增加了少量98

神奇的老黄·2019-08-22 10:37

HanLP封装为web services服务的过程介绍

adnb34g·2019-08-09 10:00

HanLP封装为web services服务的过程介绍

adnb34g·2019-08-09 10:00

推荐频道

HanLP

利用HanLP计算中文词语语义相似度

NLPIR、pyltp、jieba、hanlp、snownlp分词工具安装使用记录

NLP(6)——命名实体识别

HanLP的自定义词典使用方式与注意事项介绍

NLP(二)

13.深度学习(词嵌入)与自然语言处理--HanLP实现

10.HanLP实现k均值--文本聚类

HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取

HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取

MapReduce实现与自定义词典文件基于hanLP的中文分词详解

8.HanLP实现--命名实体识别

8.HanLP实现--命名实体识别

HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取

HanLP《自然语言处理入门》笔记--6.条件随机场与序列标注

HanLP《自然语言处理入门》笔记--6.条件随机场与序列标注

利用HanLP与Flink/Spark做实时中文分词

HanLP《自然语言处理入门》笔记--5.感知机模型与序列标注

HanLP《自然语言处理入门》笔记--5.感知机模型与序列标注

hanlp添加自定义字典的步骤介绍

hanlp 加载远程词库示例

HanLP《自然语言处理入门》笔记--3.二元语法与中文分词

HanLP《自然语言处理入门》笔记--3.二元语法与中文分词

HanLP《自然语言处理入门》笔记--2.词典分词

HanLP《自然语言处理入门》笔记--2.词典分词

HanLP《自然语言处理入门》笔记--2.词典分词

HanLP《自然语言处理入门》笔记--1.新手上路

NLP入门(1)-词典分词方法及实战

使用Python的http.server实现一个简易的Web Api对外提供HanLP拼音转换服务

自然语言处理工具包 HanLP在 Spring Boot中的应用

hanlp和jieba等六大中文分工具的测试对比

Spark应用HanLP对中文语料进行文本挖掘--聚类

（三）分词技术及开源分词器

解决安装pyhanlp出现的报错：FileNotFoundError: [Errno 2] No such file or directory: '/usr/lib/jvm'

NLP第2课：中文分词利器 jieba 和 HanLP

NLP第2课：中文分词利器 jieba 和 HanLP

中文分词利器 jieba 和 HanLP

使用Spark+Hanlp进行简单的文本处理（中）-Kmeans文本聚类

HanLP用户自定义词典源码分析详解

基于结构化感知机的词性标注与命名实体识别框架

标题：DKhadoop大数据处理平台监控数据介绍

HanLP中的人名识别分析详解

pyhanlp文本分类与情感分析

自然语言处理从小白到大白系列（6）说说中文分词那些事

第六章（1.6）机器学习实战——打造属于自己的贝叶斯分类器

HanLP环境配置及使用

NLP常用到的工具

整理的一些算法学习资源

HanLP词性标注集

HanLP封装为web services服务的过程介绍

HanLP封装为web services服务的过程介绍