E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HanLP
(第一个java爬虫)java爬取网页文本并抽取中英文关键词
然后导入jsoup包,用来爬取网页,再到这个网址http://
hanlp
.linrunsoft.com/services.html下载并按步骤导入
HanLP
的包,用来抽取关键词项目文件架构源代码及说明1
ccnuacmhdu
·
2018-05-24 18:51
网络爬虫
基于电影知识图谱的智能问答系统(八) -- 终极完结篇
基于电影知识图谱的智能问答系统(一)--Mysql数据准备基于电影知识图谱的智能问答系统(二)--Neo4j导入CSV文件基于电影知识图谱的智能问答系统(三)--Spark环境搭建 基于电影知识图谱的智能问答系统(四)--
HanLP
appleyk
·
2018-05-23 16:11
Spring-Boot
Neo4j
基于电影知识图谱的智能问答系统
word2vec查询词向量时报错:'utf-8' codec cann't decode bytes in position 96-07:unexpected end of data
加载word2vec模型时报错:model_path="model/
Hanlp
_cut_news.bin"w2v_dict=word2vec.load(model_path)print(w2v_dict
yinglish_
·
2018-05-20 16:34
python
python
word2vec
编码报错
基于电影知识图谱的智能问答系统(五) --Spark朴素贝叶斯分类器
上一篇:基于电影知识图谱的智能问答系统(四)--
HanLP
分词器一、Whois贝叶斯 二、什么是贝叶斯分类器贝叶斯分类器主要有四种,分别是:NaiveBayes、TAN、BAN和GBN由于涉及算法,比较抽象
appleyk
·
2018-05-17 11:00
基于电影知识图谱的智能问答系统
Spark
py
hanlp
用户自定义词典添加
py
hanlp
是python版封装的的
HanLP
,项目地址:https://github.com/hankcs/py
hanlp
经过测试,
HanLP
比nltk在中文分词和实体识别方面都更好用。
明月三千里68
·
2018-05-16 16:14
NLP
基于电影知识图谱的智能问答系统(四) --
HanLP
分词器
上一篇:基于电影知识图谱的智能问答系统(三)--Spark环境搭建一、什么是分词器? 分词器,是将用户输入的一段文本,分析成符合逻辑的一种工具。到目前为止呢,分词器没有办法做到完全的符合人们的要求。和我们有关的分词器有英文的和中文的分词器:输入文本-关键词切分-去停用词-形态还原-转为小写中文的分词器分为:单子分词 例:中国人分成中,国,人二分法人词例:中国人分成中国,国人词典分词 例:
appleyk
·
2018-05-16 13:51
Spring-Boot
Neo4j
基于电影知识图谱的智能问答系统
利用Gensim 的Word2Vec训练词向量
最近一直在折腾词向量的训练,之前是用
HanLP
来训练,不过这个框架的文件训练输入只能是单个文件,而我的需要求要输入一个文件路径,会进行递归的查询文件去加载,遗憾的是看了
HanLp
的源码之后发现并不行,他就没有考虑路径的问题
Little Programmer
·
2018-05-11 14:24
NLP
获取指定文件夹下的所有文件的绝对路径名
*;importcom.hankcs.
hanlp
.
HanLP
;/***Thetoolclass:theencapsulationofcommonfunctions.
爱做梦真是太好了
·
2018-04-30 12:49
Java编程语言
hanlp
中文自然语言处理的几种分词方法
自然语言处理在大数据以及近年来大火的人工智能方面都有着非同寻常的意义。那么,什么是自然语言处理呢?在没有接触到大数据这方面的时候,也只是以前在学习计算机方面知识时听说过自然语言处理。书本上对于自然语言处理的定义或者是描述太多专业化。换一个通俗的说法,自然语言处理就是把我们人类的语言通过一些方式或者技术翻译成机器可以读懂的语言。人类的语言太多,计算机技术起源于外国,所以一直以来自然语言处理基本都是围
adnb34g
·
2018-04-27 10:24
hanlp中文自然语言处理
自然语言处理
hanlp
中文自然语言处理分词方法介绍
自然语言处理在大数据以及近年来大火的人工智能方面都有着非同寻常的意义。那么,什么是自然语言处理呢?在没有接触到大数据这方面的时候,也只是以前在学习计算机方面知识时听说过自然语言处理。书本上对于自然语言处理的定义或者是描述太多专业化。换一个通俗的说法,自然语言处理就是把我们人类的语言通过一些方式或者技术翻译成机器可以读懂的语言。人类的语言太多,计算机技术起源于外国,所以一直以来自然语言处理基本都是围
adnb34g
·
2018-04-27 10:54
自然语言处理
中文文本相似度计算工具集
一、基本工具集1.分词工具a.jieba结巴中文分词https://github.com/fxsjy/jiebab.
HanLP
自然语言处理中文分词词性标注命名实体识别依存句法分析关键词提取新词发现短语提取自动摘要文本分类拼音简繁
磐创 AI
·
2018-04-19 14:09
机器学习
人工智能
Elasticsearch 嵌套类型(nested) updata操作
number_of_replicas":0,"number_of_shards":1},"mappings":{"article":{"properties":{"title":{"type":"text","analyzer":"
hanlp
_吱吱呀呀
·
2018-04-14 20:42
自然语言处理技术之
HanLP
介绍
网络上关于自然语言处理技术的分享文章很多,今天就给大家分享一下
HanLP
方面的内容。
adnb34g
·
2018-04-12 15:15
自然语言
处理技术
dkhadoop
自然语言处理
招聘网站技术类词频分析_第二版
暂定智联招聘)爬取招聘信息,通过词频统计,分析企业对IT人才需求使用框架:平台:阿里云爬虫:scrapyhttps://docs.scrapy.org/en/latest/index.html中文分词:
HanLP
狂暴棕熊
·
2018-01-15 17:28
个人项目
Spark和
HanLP
结合实现分词
实现地理位置名词的分词valspark=SparkSession.builder().appName("Word2Vec").master("local[*]").getOrCreate()valdf=spark.createDataFrame(Seq(("1","湖北武汉市汉口北大道12345号"),("2","成都青羊区清江中路"),("3","地址是乱输入的"))).toDF("id","a
bigdataCoding
·
2017-12-29 17:06
Spark
条件随机场(4)——CRF++分词训练和预测
CRF、最大熵、隐马尔科夫模型貌似都可以做分词、词性标注、命名实体识别,以前只是在
hanLP
里面用这些工具,实际上是不明所以的。现在要开始弄明白其中原理,并自己训练模型了。好吧,又啰嗦了。
老笨妞
·
2017-12-25 14:10
统计学习方法
“我是如何收集校友的”之利用基于HMM-Viterbi的
HanLP
进行人名提取
最近在做一个小APP,一直没有来的及更新这个系列的文章,是为抱歉。按照上文讲到,我们已经将数据重复的内容用pandas库去掉了,接下来将干一件难度很大的事情,那就是对人名进行提取。我们当前进度:3爬虫程序——抓取全百度百科与“伯明翰大学”相关的数据数据去重——用pandas去掉抓取相同的URL或相同的名称提取人名——利用HMM-Viterbi进行人名筛选与提取下载器——下载所有数据库中数据清洗过的
yfgeek
·
2017-11-16 13:07
Windows上pyltp的安装及使用
前言最近在做电影评论中人名识别的相关工作,对这一块思考了很久,因为评论中的人名称呼不一,“一人多名”是很普遍的,前期使用了
hanlp
的HMM模型、CRF模型匹配出的“nr”都是比较正常的人名,后期使用了
DilicelSten
·
2017-11-01 20:01
Python
pyltp
使用server版的哈工大LTP进行NLP任务(Java实现)
哈工大的LTP可以说是开源中评测得分相对高的(比
HanLP
,jieba,ansj等都要好很多)本篇文章记录了使用Java语言发送POST请求,请求搭建在服务器端的LTP-server进行NLP处理。
Macanv
·
2017-10-20 15:39
java
nlp
HanLP
的配置及使用
HanLP
的介绍主页:http://
hanlp
.linrunsoft.com/
HanLP
的GitHub主页:https://github.com/hankcs/
HanLP
HanLP
的具体说明讲解主页:http
Jessie_Sun_
·
2017-09-14 16:14
大数据分析
GitHub - hankcs/
HanLP
: 自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 自动摘要 短语提取 拼音 简繁转换
HanLP
:HanLanguageProcessing汉语言处理包
HanLP
是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。
·
2017-08-18 14:00
github
hankcs
hanlp
Spark下四种中文分词工具使用
Spark下四种中文分词工具使用
hanLP
ansjjiebafudannlp获取四种分词工具在maven项目工程下的pom.xml文件中添加点击import即可完成对前三种的获取org.ansjansj_seg5.1.3com.hankcs
hanlp
portable
睡了皮皮虾
·
2017-07-28 17:22
spark
hanlp
汉语言包
在汉语言分词处理中,我们可以使用
hanlp
,它是开源的汉语言处理包,可用于分词、语言处理等操作。二、组成
hanlp
由三部分组成,分别是词库、驱动器(jar包)、
hanlp
配置。
panda-star
·
2017-07-25 00:42
搜索
中文NLP工具
中文NLP工具1
HanLP
HanLP
(汉语言处理包)是一款开源的使用Java进行开发的中文自然语言处理工具,提供的功能包括中文分词、词性标注、命名实体识别、依存句法分析等。
诗书不富人
·
2017-07-20 19:45
.net 自动摘要等算法
HanLP
.net
参考资料:http://www.hankcs.com/nlp/call-
hanlp
-in-csharp.html目前自动摘要算法似乎没有.net版本,而以java,python居多自动摘要算法一般使用textrank
车江毅
·
2017-07-20 19:00
南邮大作业----文本处理与加密软件
这里我们采用
hanlp
的汉语言处理包http://
hanlp
.linrunsoft
fengsigaoju
·
2017-06-28 10:00
Java
树库介绍
最近做完了分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐,感觉
HanLP
初具雏形。
continueOo
·
2017-05-31 20:58
Java中文分词
hanlp
使用
HanLP
介绍:http://
hanlp
.linrunsoft.com/github地址:https://github.com/hankcs/
HanLP
说明:使用
hanlp
实现分词、智能推荐、关键字提取
lsh呵呵
·
2017-05-31 14:12
编程基础
基于知识图谱的电影自动问答系统(二)自动问答实现
问题的抽象首先,我们主要采以
Hanlp
提供的通用型命名实体工具包,并添加部分人工标注的命名实体,其添加的细则如下表所示:问题的抽象主要是为问
Quincy1994
·
2017-02-05 22:44
自然语言处理
Hanlp
配置与使用
Hanlp
配置与使用由于要写NLP大作业在知乎上看见了
Hanlp
这个汉语言处理包。https://github.com/hankcs/
HanLP
配置说明对我来说写的略微简单,在这里记录一下配置的过程。
CZWin32768
·
2017-01-23 17:02
NLP
Hanlp
配置与使用
Hanlp
配置与使用由于要写NLP大作业在知乎上看见了
Hanlp
这个汉语言处理包。https://github.com/hankcs/
HanLP
配置说明对我来说写的略微简单,在这里记录一下配置的过程。
CZWin32768
·
2017-01-23 17:02
NLP
【
HanLP
】资料链接汇总
Java中调用
HanLP
配置
HanLP
自然语言处理包开源官方文档了解
HanLP
的全部自然语言处理
HanLP
开源自由的汉语言处理包主页GitHub源码基于
hanLP
的中文分词详解-MapReduce实现&
伏草惟存
·
2016-11-24 22:00
文章观点提取的几种测试
然后对分割好的句子进行以下操作1.使用依存句法分析采取
HanLP
对句子进行依存句法分析,得到句子的语法树。使用一些观点句子进行测试,比如“XXX专家表示,XXXXXXX
fzu_rookie
·
2016-08-25 09:20
lucene
Java动态修改Enum实例
但有时候仍然存在需要动态增加Enum实例的场景,这也并非一定是设计失败,也可能是增加灵活性的实际需求,比如一些web框架,再比如
HanLP
中的动态用户自定义词性。
huzhigenlaohu
·
2016-05-28 10:00
CRF分词的java实现
本文(
HanLP
)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。
shenxiaoming77
·
2016-05-26 23:00
自然语言处理之分词器ansj和
hanlp
介绍
1.ansjansj是ictclas(中科院分词)的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)文件读取分词每秒钟大约30万字准确率能达到96%以上目前实现了:1.中文分词2.中文姓名识别3.用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求高的各种
zhao_rock
·
2016-05-14 09:22
jpype和
HanLP
java.lang.System.out.println("helloworld") shutdownJVM()如果正常输出,则安装正确3.用ipype实质是在python中嵌入java代码,主要是为了在下边使用
hanlp
u014451076
·
2016-04-29 09:00
感悟:number 2
看了
HanLP
的ahocorasickDAT,我想要写个BMACDAT,可是BMAC的实现只有grep里的kmset.h和kmset.c(ps:百度搜不到,在维基百科英文版上一下搜到了。。。)。
riverflowrand
·
2016-04-15 13:00
HanLP
自然语言处理包开源
HanLP
:HanLanguageProcessing汉语言处理包
HanLP
是由一
ctwen
·
2016-03-26 07:15
HanLP
自然语言处理包开源
HanLP
:HanLanguageProcessing汉语言处理包
HanLP
是由一
ctwen
·
2016-03-26 00:10
Industry
Applications
菜鸟如何使用
Hanlp
于是转而使用
hanlp
分词但是
hanlp
分词的缺点是只有在java上可以用,但是ja
tianbwin2995
·
2016-03-20 21:00
Java动态修改Enum实例
但有时候仍然存在需要动态增加Enum实例的场景,这也并非一定是设计失败,也可能是增加灵活性的实际需求,比如一些web框架,再比如
HanLP
中的动态用户自定义词性。
hankcs
·
2016-03-18 02:00
hive UDF 提取文本中的地名
有时候,需要从文本字符串提取出地区名,为了在HIVE中使用方便,开发了一个HIVEUDF,核心在于使用了
hanLP
这样一个中文文本处理的神器。
a_step_further
·
2016-02-24 10:00
hive
udf
文本分析
关于Unable to find vcvarsall.bat
Unabletofindvcvarsall.bat问题解决方案:系统:win10(64位);python版本:3.5.2(32位)vs版本:visualstudio2013背景:学了python一周,做机器学习,因为要用python调用java包(
HanLP
悦言我心
·
2016-02-07 00:00
基于
hanLP
的中文分词详解-MapReduce实现&自定义词典文件
但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则
hanLP
更加胜任。
a_step_further
·
2015-12-16 22:06
数据挖掘
基于
hanLP
的中文分词-MapReduce实现
用mapreduce实现中文分词importcom.hankcs.
hanlp
.
HanLP
; importcom.hankcs.
hanlp
.dictionary.stopword.CoreStopWordDictionary
a_step_further
·
2015-12-16 22:00
mapreduce
文本分类
常用中文分词器
分词器2、ansj分词器3、mmseg4j分词器4、ik-analyzer分词器5、jcseg分词器6、fudannlp分词器7、smartcn分词器8、jieba分词器9、stanford分词器10、
hanlp
itace
·
2015-12-11 17:00
Python调用自然语言处理包
HanLP
上次介绍了CSharp调用
HanLP
后,@阳志平同学又问我Python的调用方法,于是写了此文档。
hankcs
·
2015-11-26 16:00
Python调用自然语言处理包
HanLP
上次介绍了CSharp调用
HanLP
后,@阳志平同学又问我Python的调用方法,于是写了此文档。
hankcs
·
2015-11-26 16:00
全文检索Solr集成
HanLP
中文分词
以前发布过
HanLP
的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github
dm_ml
·
2015-11-24 11:00
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他