E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HanLP
solr7 集群搭建并集成
Hanlp
分词组件
准备工作我们需要事先在网站下载好我们需要版本的的solr和zookeeper,我这里选择的是solr7.72,zookeeper版本为3.4.14将我们下载好的tar文件上传服务器解压因为solr依赖jdk,所以我们在服务器上安装了对应jdk,我这里选择的是jdk1.8安装zookeeper集群首先我们在三台服务器上搭建zookeeper集群。#配置data目录dataDir=/usr/local
波若
·
2020-08-21 01:33
java
后端
solrcloud
solr
标题去标点、空格、停用词等采用AI提供的开源包:
标题去标点、空格、停用词等采用AI提供的开源包:com.hankcs
hanlp
portable-1.7.8调用方法:
HanLP
.segment(text).stream().map(t->
HanLP
.convertToSimplifiedChinese
君子志邦
·
2020-08-20 18:53
2020年工作
elasticsearch(4)安装
hanlp
中文分词插件
为了做基于分词和基于模板的智能客服系统,引入了
hanlp
分词器,直接整:
hanlp
分词是针对中文分词开发的分词库。
qq_20064245
·
2020-08-20 17:05
elasticsearch
solr7 集群搭建并集成
Hanlp
分词组件
准备工作我们需要事先在网站下载好我们需要版本的的solr和zookeeper,我这里选择的是solr7.72,zookeeper版本为3.4.14将我们下载好的tar文件上传服务器解压因为solr依赖jdk,所以我们在服务器上安装了对应jdk,我这里选择的是jdk1.8安装zookeeper集群首先我们在三台服务器上搭建zookeeper集群。#配置data目录dataDir=/usr/local
波若
·
2020-08-20 17:35
java
后端
solrcloud
solr
solr7 集群搭建并集成
Hanlp
分词组件
准备工作我们需要事先在网站下载好我们需要版本的的solr和zookeeper,我这里选择的是solr7.72,zookeeper版本为3.4.14将我们下载好的tar文件上传服务器解压因为solr依赖jdk,所以我们在服务器上安装了对应jdk,我这里选择的是jdk1.8安装zookeeper集群首先我们在三台服务器上搭建zookeeper集群。#配置data目录dataDir=/usr/local
波若
·
2020-08-20 17:35
java
后端
solrcloud
solr
第3课:简单好用的中文分词利器 jieba 和
HanLP
中文分词有很多种,常见的比如有中科院计算所NLPIR、哈工大LTP、清华大学THULAC、斯坦福分词器、
Hanlp
分词器、jieba分词、IKAnalyzer等。
一纸繁鸢w
·
2020-08-20 04:52
Python中文分词工具大合集:安装、使用和测试
首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AINLP公众号后台在线测试,严格的说,它们不完全是纯粹的中文分词工具,例如SnowNLP,Thulac,
HanLP
,LTP,CoreNLP都是很全面的
AI蜗牛车
·
2020-08-19 19:11
28_多易教育之《yiee数据运营系统》附录:扩展知识点汇总系列一
目录一、日志工具log4j二、高德地图服务1、导论2、高德地图服务申请3、高德地图服务API三、
HanLP
中文分词四、hive多重插入语法五、hive动态分区一、日志工具log4jlog4j是一个java
江湖人称涛哥
·
2020-08-19 09:32
大数据综合实战项目
Python中文语料批量预处理手记
手记实用系列文章:1结巴分词和自然语言处理
HanLP
处理手记2Python中文语料批量预处理手记3自然语言处理手记4Python中调用自然语言处理工具
HanLP
手记5Python中结巴分词使用手记语料预处理封装类
weixin_34364071
·
2020-08-19 05:20
目前常用的自然语言处理开源项目/开发包有哪些?
中文主要有:NLTK,FoolNLTK,
HanLP
(java版本),py
hanlp
(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP
weixin_34352449
·
2020-08-19 05:17
Python中文语料批量预处理手记jieba
阅读目录手记实用系列文章:语料预处理封装类:执行结果:手记实用系列文章:1结巴分词和自然语言处理
HanLP
处理手记2Python中文语料批量预处理手记3自然语言处理手记4Python中调用自然语言处理工具
weixin_33872660
·
2020-08-19 04:54
py
hanlp
两种依存句法分类器
依存句法分析器在
HanLP
中一共有两种句法分析器依存句法分析基于神经网络的高性能依存句法分析器MaxEnt依存句法分析基于神经网络的高性能依存句法分析器
HanLP
中的基于神经网络的高性能依存句法分析器参考的是
田丰收
·
2020-08-19 00:58
#
NLP基础
#
PyHanLP
剑指汉语自然语言处理
py
hanlp
文本分类与情感分析
语料库本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip,下载前请先阅读搜狗实验室数据使用许可协议。用Map描述这种关系可以用Java的Map来描述,其key代表类目,value代表该类目下的所有文档。用户可以利用自己的文本读取模块构造一个Map形式的中间语料库,然
adnb34g
·
2020-08-19 00:36
大数据
hanlp
自然语言处理
HanLP
Analysis for Elasticsearch
基于
HanLP
的Elasticsearch中文分词插件,核心功能:兼容ES5.x-7.x;内置词典,无需额外配置即可使用;支持用户自定义词典;支持远程词典热更新(待开发);内置多种分词模式,适合不同场景
weixin_33860553
·
2020-08-18 19:03
词典构建方法
一.注意此文章只是解释了
hanlp
的代码,纯属应用绝不应用于商业用途二.代码粘贴#-*-coding:utf-8-*-#user:wbb#Date:2020-06-11#功能:词典fromtypingimportList
晨恒父
·
2020-08-18 12:07
机器学习
win10安装elasticsearch、kibana,添加
HanLP
分词器
目录一、准备二、安装1.解压elasticsearch2.解压kibana3.解压elasticsearch-analysis-
hanlp
三、启动&测试1.elasticsearch启动2.测试elasticsearch3
Xiao--Y
·
2020-08-18 11:56
elasticsearch
【Python】通过py
hanlp
提取关键词
py
hanlp
地址:https://github.com/hankcs/py
hanlp
pip安装完后,importpy
hanlp
y会自动下载一个.
hanlp
文件到C:\ProgramData地址下如果因为国内原因下载不下来的话
Vincent__Lai
·
2020-08-17 16:07
Python
NLP
机器学习的学习路线
这是因为NLP涉及到太多的ML模型,仅仅拿过来用的话,我实现的
HanLP
已经快到个人极限了。而模型背后的原理、如何优化、如何并行化等问题,都需要寻根求源才能解决。
Computer_Elearning
·
2020-08-17 13:17
机器学习
问答式对话内容正则表达式切割(切割问 - 答之间的内容)
需求:问答式对话内容通过正则表达式切割出来txt文件内容:代码如下:packagecom.test;importcom.hankcs.
hanlp
.
HanLP
;importjava.io.
yechengchao
·
2020-08-17 09:39
问题解决
py
hanlp
繁简转换,拼音转换与字符正则化
繁简转换
HanLP
几乎实现了所有我们需要的繁简转换方式,并且已经封装到了
HanLP
中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。
weixin_30613433
·
2020-08-16 02:48
HanLP
词性标注的词性意思(如 /n, /v ... 都是什么意思)
HanLP
词性标注,收录如下参考如下,https://www.hankcs.com/nlp/part-of-speech-tagging.html#h2-8a形容词ad副形词ag形容词性语素al形容词性惯用语
Tomonkey
·
2020-08-15 05:50
HanLP
hanlp
词性标注
Java动态修改Enum实例
但有时候仍然存在需要动态增加Enum实例的场景,这也并非一定是设计失败,也可能是增加灵活性的实际需求,比如一些web框架,再比如
HanLP
中的动态用户自定义词性。
huzhigenlaohu
·
2020-08-15 02:02
Java
Java源代码分析
python调用
Hanlp
进行命名实体识别
1python与jdk版本位数一致2pipinstalljpype1(python3.5)3类库
hanlp
.jar包、模型data包、配置文件
hanlp
.properties放在一个新建目录4修改
hanlp
.properties
6丁一的猫
·
2020-08-11 05:39
自然语言处理
深度学习
聊天机器人
使用
Hanlp
加载大字典
问题因为需要加载一个近1G的字典到
Hanlp
中,一开始使用了CustomDictionay.add()方法来一条条的加载,果然到了中间,维护DoubleArraTre的成本太高,添加一个节点,都会很长时间
ShomyLiu
·
2020-08-10 22:36
java
自然语言处理工具
HanLP
-基于层叠HMM地名识别
本篇接上一篇内容《
HanLP
-基于HMM-Viterbi的人名识别原理介绍》介绍一下层叠隐马的原理。
adnb34g
·
2020-08-09 07:56
自然语言处理
慢SQL查询工具后台实现
+Java8+springboot2+perl+MySQLpercona-toolkit.ar.gz分析运维把慢SQL日志文件放在了ES集群里,需要每天定时抓取慢SQL进行聚类操作,调研发现2种方案:
HanLP
sand_clock
·
2020-08-08 21:11
java
shell
algorithm
语音识别学习篇
文章目录语音识别探索inganaconda工具anaconda的虚拟环境创建管理
Hanlp
是什么?
木兮梓淅伏所伊
·
2020-08-08 20:49
自然语言处理之AI深度学习顶级实战
Python环境搭建及开发工具安装.mp4│4.NLP常用PYTHON开发包的介绍.mp4│5.Jieba安装、介绍及使用.mp4│6.StanfordNLP在Python环境中安装、介绍及使用.mp4│7.
Hanlp
xuan2717
·
2020-08-04 22:26
【
HanLP
】正向、逆向及双向最长匹配法分词
中文分词大概可分为:基于词典规则基于机器学习本篇主要介绍第一种1、环境准备windows10安装py
hanlp
:pip
Daycym
·
2020-08-02 12:01
HanLP
分词练习
1、现有的分词工具中科院计算所NLPIRansj分词器哈工大的LTP清华大学THULAC斯坦福分词器
Hanlp
分词器结巴分词KCWS分词器(字嵌入+Bi-LSTM+CRF)ZParIKAnalyzer2
梁下小人
·
2020-07-30 19:50
HanLP
《自然语言处理入门》笔记--3.二元语法与中文分词
文章目录3.二元语法与中文分词3.1语言模型3.2中文分词语料库3.3训练与预测3.4
HanLP
分词与用户词典的集成3.5二元语法与词典分词比较3.6GitHub项目笔记转载于GitHub项目:https
mantchs
·
2020-07-30 12:23
NLP
自然语言处理
机器学习
nlp
HanLP
关键词提取算法分析详解
l参考论文:《TextRank:BringingOrderintoTexts》lTextRank算法提取关键词的Java实现lTextRank算法自动摘要的Java实现这篇文章中作者大概解释了一下TextRank公式1.论文Inthispaper,weintroducetheTextRankgraphbasedrankingmodelforgraphsextractedfromnaturallan
惠洋热熔胶网膜
·
2020-07-29 21:39
Python数据预处理--文本特征提取(以Jieba工具包为例)
主流工具包:目前业界主流的分词工具包有“jieba”和“
HanLP
”等好几种。
chenxy02
·
2020-07-29 17:29
NLP
人工智能
Python
HanLP
自然语言处理
NLP「自然语言处理技术」NLP是什么在计算机领域,NLP(NaturalLanguageProcessing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言。这包括,既要能让计算机理解自然语言文本的意义,也能以自然语言文本来表达给定的深层的意图、思想等。所以,这项技术往往体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了理解自然语言的能力时,机器才算实现了真正的智
蜗牛杨哥
·
2020-07-28 14:58
HanLP自然语言处理
书荒了,不如用代码分析小说吧(一)
关键词中文文本分析(
hanlp
涅槃灬之火
·
2020-07-15 20:25
小说分析
可视化
java
spark
大数据
Jieba中文分词说明
结巴分词介绍现在开源的中文分词工具,有IK、MMseg4j、THULAC、Ansj、Jieba、
HanLP
等,其中最近还在更新并维护的,也是目前分词效果比较优秀的要属于Ansj、Jieba、
HanLP
了
狮子座明仔
·
2020-07-14 22:52
NLP
NLP
and
Machine
Learning(Deep
Learning)
HanLP
--- 依存句法分析
1.
HanLP
GitHub路径:https://github.com/hankcs/
HanLP
2.剖析
HanLP
依存句法分析的功能(基于神经网络依存句法分析器)
HanLP
中有很多句法分析器,结构如下:句法分析器接口
等待中的小码农
·
2020-07-13 23:15
知识图谱
py
hanlp
用户自定义词典添加
py
hanlp
是python版封装的的
HanLP
,项目地址:https://github.com/hankcs/py
hanlp
经过测试,
HanLP
比nltk在中文分词和实体识别方面都更好用。
lanlantian123
·
2020-07-13 14:57
11月份Github上最热门的Java开源项目
来源:开源最前线(ID:OpenSourceTop)猿妹整编11月份GitHub上最热门的Java开源项目排行已经出炉啦,一起来看看上榜详情:1
HanLP
https://github.com/hankcs
Java团长在csdn
·
2020-07-12 14:02
Python 使用Jpype调用
HanLP
进行文本分析
①
Hanlp
的正确安装。
-啦-啦-啦-
·
2020-07-12 12:10
HanLP
用户自定义词典源码分析
HanLP
用户自定义词典源码分析1.官方文档及参考链接关于词典问题Issue,首先参考:FAQ自定义词典其实是基于规则的分词,它的用法参考这个issue如果有些数量词、字母词需要分词,可参考:P2P和C2C
weixin_34306676
·
2020-07-12 09:10
hanlp
加载远程词库示例
目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现按
hanlp
weixin_34221276
·
2020-07-12 09:33
在Python中调用Java扩展包
HanLP
测试记录
最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的
HanLP
,
HanLP
是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典
weixin_34151004
·
2020-07-12 09:20
CRF分词的纯Java实现
本文(
HanLP
)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。
weixin_33895604
·
2020-07-12 08:22
Hanlp
自然语言处理中的词典格式说明
使用过
hanlp
的都知道
hanlp
中有许多词典,它们的格式都是非常相似的,形式都是文本文档,随时可以修改。本篇文章详细介绍了
hanlp
中的词典格式,以满足用户自定义的需要。
weixin_33804990
·
2020-07-12 07:56
python安装
hanlp
+使用 坑坑坑。。。填填填。。。
刚开始用都不知道要怎么安装,包括什么文件。百度了下发现正常安装就可以用,不用下多余的东西,但是但是但是但是但是但是但是但是用pycharm安装不行,pip安装不行,也是见鬼了。解决方法:1、手动安装JPype1pipinstallD:\soft\JPype1-0.6.2-cp36-cp36m-win_amd64.whl这个安装包可以在这里下https://www.lfd.uci.edu/~gohl
weixin_30561177
·
2020-07-12 06:25
py
hanlp
停用词与用户自定义词典
hanlp
的词典模式之前我们看了
hanlp
的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于
HanLP
的词性标注方式具体请看
HanLP
词性标注集。
weixin_30532837
·
2020-07-12 06:36
准确分词:加载自定义字典分词(py
hanlp
分词示例)
目录一、py
hanlp
1.1基本介绍1.2py
hanlp
加入字典二、分词对比tokenizer.py:
hanlp
函数cut_data.py主文件全部代码、数据集:https://github.com/455125158
陈宸-研究僧
·
2020-07-11 17:06
NLP自然语言处理
HanLP
无法动态加载停用词,无法重载停用词的自定义处理
在使用
HanLP
框架的过程中,发现其内置的CoreStopWordDictionary类只有删除、添加方法,没有动态的重载。
Little Programmer
·
2020-07-11 15:51
NLP
Lucene7 使用Analyzer 过滤中文停用字符
如何去掉这些词源呢,我是使用
HanLP
作为中文分词库的,但当我使用
HanLP
的CustomDictionary.remove(“的”)和StopWordDictionary.add(“的”)的时
JerryLux
·
2020-07-11 11:35
Lucene
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他