E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HanLP
Gather Platform-工程与源代码分析-数据抓取解析部分
目录1GatherPlatform项目简介...22GatherPlatform代码结构...33前端界面功能部分...34数据抓取解析部分...34.1Webmagic框架简要分析...34.2
HanLP
devilteam2006
·
2021-06-24 05:48
汉语言处理包
HanLP
v1.6.0 发布,感知机词法分析器
HanLP
是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。
HanLP
具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
lanlantian123
·
2021-06-22 23:26
HanLP
自然语言处理包开源
本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口:从上面的定义我们知道,在Java中,同样的方法名称和参数,但是返回
lanlantian123
·
2021-06-20 13:19
Python预测分词的实现
在
HanLP
库中,二元语法的解码由ViterbiSegment分词器提供。本篇将详细介绍ViterbiSegment的使用方式加载模型在前篇博文中,我们已经得到了训练的一元,二元语法模型。
·
2021-06-18 21:52
HanLP
极致简繁转换
为此,
HanLP
新增了“简体”“繁体”“臺灣正體”“香港繁體”间的相互转换功能,力图将简繁转换做到极致。关于这些汉语语言上的详情,请参考郭家寶的OpenCC项目。
HanLP
整合了该项目的词库
lanlantian123
·
2021-06-13 10:43
Python实现简繁体转换
而
HanLP
也提供了简繁转换的类:CharTable,用它来执行字符正规化。比如简体转换繁体,全角转换半角,大写转换小写,都可以使用该类来实现。
·
2021-06-07 17:58
py
hanlp
繁简转换,拼音转换与字符正则化
繁简转换
HanLP
几乎实现了所有我们需要的繁简转换方式,并且已经封装到了
HanLP
中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。
lanlantian123
·
2021-05-03 16:13
中文分词
用过的中文分词有jieba,
hanlp
,word,grid,standford.nlp。从分词原理的直接到间接说起。1.基于字典的分词。字典给出了词和词频。在word中有正向/逆向/双向最大匹配算法。
吹洞箫饮酒杏花下
·
2021-05-03 15:25
python基础之停用词过滤详解
而
HanLP
库提供了一个小巧的停用词字典,它位于Lib\site-packages\py
hanlp
\static\data\dictionary目录中,名字为:stopwords.txt。
·
2021-04-20 18:05
一个非常hao用的elasticsearch中文分词器插件 HaoAnalyzer
首先上地址elasticsearch(es)hao分词器中文分词器elasticsearch-analysis-haoESHAO分词器简介如何开发一个ES分词插件请参考这里主要参考了IK和
HanLP
其中有的源码是直接搬运的
tenlee
·
2021-04-19 21:33
SpringBoot 引入本地 jar 包,并打包进项目
hanlp
-1.5.2.jar放在工程目录下新建的lib文件夹(具体文件结构如下图)中,pom.xml文件配置如下com.hankcs
hanlp
portable-1.5.2system${basedir
赛亚人之神
·
2021-03-11 15:48
自然语言处理
hanlp
------10
HanLP
的词典分词实现
文章目录前言一、java版实战二、Python版实战总结前言其实,单纯从我们的实用来看,前面的所有章节都无需理解,本节才是关键,就像绝大部分人不会去追究1+1为什么等于2,我们只需要知道它等于2即可
hanlp
上岸川大の辉
·
2021-02-08 19:10
hanlp
hanlp
自然语言处理
自然语言处理
hanlp
------9基于双数组字典树的AC自动机
文章目录前言一、原理二、实现测试总结前言双数组字典树能在O(lll)的时间内高速完成单串匹配,并且消耗的内存可控,软肋在于多模式匹配。如果要匹配多个模式串,必须先前缀查询,然后频繁截取文本的后缀才行。但是上一节测评的AC多模式匹配又还不如双数组字典树快,所以,本节就采用二者结合。称为AhoCorasickDoubleArrayTire(简称ACDAT)一、原理ACDAT的基本原理:替换AC自动机的
上岸川大の辉
·
2021-02-06 14:15
hanlp
自然语言处理
hanlp
【自然语言处理入门笔记】—— 新手上路
py
hanlp
接口的调用:frompy
hanlp
import
HanLP
print(
HanLP
.segment('你好,欢迎在Python中调用
HanLP
的API'))fortermin
HanLP
.segment
Giyn
·
2021-02-03 13:58
【NLP】
人工智能
机器学习
深度学习
自然语言处理
python
自然语言处理
hanlp
------8AC自动机
文章目录前言一、从字典树到AC自动机1.goto表2.output表3.fail表二、代码实现(看看即可)三、速度测评总结前言DAT每次转移的时间复杂度都是常数,全切分长度为n的文本时,时间复杂度是0(n2^22)例子:假设词典收录了所以的阿拉伯数字,那么对文本“123”进行扫描,发生了6次的状态转移1、12、123;2、23;3推广一下:“123···n”扫描就发生了n+(n-1)+(n-2)+
上岸川大の辉
·
2021-02-01 19:09
hanlp
hanlp
自然语言处理
自然语言处理工具之
HanLP
鸟瞰
简介
HanLP
(HanLanguageProcessing)是一系列模型与算法组成的自然语言处理(NaturalLanguageProcessing,NLP)工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用
SLP_L
·
2021-01-05 09:26
自然语言处理
人工智能
NLP 学习 - 3分类问题命名实体识别
jiebaSnowNLPhttps://github.com/isnowfy/snownlpLTP https://www.ltp-cloud.com/HanNLP https://github.com/hankcs/
HanLP
遇见Miu
·
2020-12-11 16:37
elasticsearch-analysis-hao可能是东半球最好用的中文分词器
首先上地址elasticsearch-analysis-haoHAOES分词器简介如何开发一个ES分词插件请参考这里主要参考了IK和
HanLP
其中有的源码是直接搬运的。
NULL
·
2020-11-13 18:06
elasticsearch
java
ik-analyzer
插件
python安装jpype1、py
hanlp
时出现的“Microsoft Visual C++ 14.0 is required.”问题解决
tag:python,visualc++,py
hanlp
,jpype本文写于2020年9月10日,阅读时请注意时效性。
ranerr_
·
2020-10-07 19:54
java文本文件按行读取,然后每一行写入一个文件
String[]args)throwsIOException{BufferedInputStreambin=newBufferedInputStream(newFileInputStream("D:\\
hanlp
高木同学天下第一
·
2020-09-17 15:22
java
java
【Spark学习笔记】Spark下的四种中文分词工具
1.Spark下四种中文分词工具使用
hanLP
ansjjiebafudannlp2.获取四种分词工具在maven项目工程下的pom.xml文件中添加点击import即可完成对前三种的获取org.ansjansj_seg5.1.3com.hankcs
hanlp
portable
不可能打工
·
2020-09-17 11:21
Hanlp
中的word2Vec生成笔记
1、构建词表:将分词之后的词加入词汇表vocabulary(VocabWord[]:intcn,codelen;int[]point;Stringword;char[]code;),并统计词频。同时加入vocabIndexMap(Map),key为词,value为在vocabulary中的索引。将索引写入cache缓存。2、词表排序:vocabulary词表根据词频由大到小排序(相关代码:Arra
生生不息123
·
2020-09-16 23:34
java
无监督学习文本使用到的技术(一)
5.LDA主题文本聚类组合使用:doc2vec+tfidf+kmeans先从doc2vec谈起来:1.文本分词jieba/
hanlp
2.建立分词和下标id##words_list=['aaa','bbb
Code_Monkey_Trancy
·
2020-09-16 22:06
算法
人工智能识别
HanLP
《自然语言处理入门》笔记--5.感知机模型与序列标注
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP5.感知机分类与序列标注第4章我们利用隐马尔可夫模型实现了第一个基于序列标注的中文分词器,然而效果并不理想。事实上,隐马尔可夫模型假设人们说的话仅仅取决于一个隐藏的{B.M,E,S序列,这个假设太单纯了,不符合语言规律。语言不是由这么简单的标签序列生成,语言含有更多特征,而隐马弥可夫
顽石2019
·
2020-09-15 12:34
安装py
hanlp
,并且安装jdk后OSError: [WinError 126] JVM DLL not found
安装py
hanlp
,出现OSError:[WinError126]JVMDLLnotfound:C:\ProgramFiles\Java\jre\bin\server\jvm.dllpy
hanlp
安装过程网上资源比较多
wangatom
·
2020-09-15 08:43
平时遇到的问题与解决方案
自然语言处理
hanLP
的分词的使用
HanLP
:HanLanguageProcessing汉语言处理包
HanLP
是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。
All too well℡
·
2020-09-14 16:17
hanlp
Hanlp
等七种优秀的开源中文分词库推荐
1、
HanLP
—— 汉语言处理包
HanLP
是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源
weixin_33905756
·
2020-09-14 16:23
中文分词工具安装教程及分词和词性标注应用(jieba、py
hanlp
、pkuseg、foolnltk、thulac、snownlp、nlpir)
2.1jieba2.1.1jieba简介Jieba中文含义结巴,jieba库是目前做的最好的python分词组件。首先它的安装十分便捷,只需要使用pip安装;其次,它不需要另外下载其它的数据包,在这一点上它比其余五款分词工具都要便捷。另外,jieba库支持的文本编码方式为utf-8。Jieba库包含许多功能,如分词、词性标注、自定义词典、关键词提取。基于jieba的关键词提取有两种常用算法,一是T
明的大世界
·
2020-09-14 14:22
安装教程
nlp
自然语言处理
python
jpype运行错误
_jclass.ExceptionInInitializerError:java.lang.ExceptionInInitializerError解决:打开jar包同在的
hanlp
.properties
唐浅浅
·
2020-09-14 00:25
Python
python
java
HanLP
自然语言处理包的使用
HanLP
是由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用。
HanLP
具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
yue2008
·
2020-09-13 23:47
Java
画语义树
工具:
Hanlp
包DependenceViewer小程序(参考于自然语言处理依存树的可视化)效果:一,在Java中导入
Hanlp
包网上资料
Hanlp
官网介绍(有导入教程与使用方法)直接跳转到官网分开下载
Package Pig
·
2020-09-13 09:31
java判断中文字符
//代码来自
HanLP
自然语言处理库,git地址:https://github.com/hankcs/
HanLP
/blob/master/src/main/java/com/hankcs/
hanlp
/utility
墨_诚
·
2020-09-13 02:11
java
python环境jieba分词
对于中文分词,有jieba和
hanlp
两种包,但是
hanlp
需要java环境,而对于我的关键词提取需求,jieba已然足够,所以我采用了jieba.首先安装:pipinstalljieba几种分词方法#
猫不吃老鼠
·
2020-09-12 16:33
文本处理
机器学习|深度学习|数据挖掘|自然语言处理 值得收藏的好文资源合集
Ubuntu】将root权限的文件改为用户权限ubuntu开放指定端口Anaconda命令conda在断网情况下创建虚拟环境Pycharm转移C盘中Pycharm缓存文件自然语言处理开源工具jieba
hanlp
保护我方鲁班八号
·
2020-09-11 12:42
开源整理
深度学习
机器学习
常用分词工具使用教程
jieba(结巴分词)免费使用
HanLP
(汉语言处理包)免费使用SnowNLP(中文的类库)免费使用FoolNLTK(中文处理工具包)免费使用Jiagu(甲骨NLP)免费使用pyltp(哈工大语言云)商用需要付费
Yener丶
·
2020-08-26 23:22
自然语言处理——中英文分词工具(还可做词性标注与命名实体识别)
更多内容请至南木博客主页查看哦中文分词工具JiebaSnowNLPTHULACNLPIRNLPIRStanfordCoreNLP
HanLP
英文分词工具nltknltknltkSpacySpacyStanfordCoreNLP
南木Sir
·
2020-08-26 14:11
基于结构化感知机的词性标注与命名实体识别框架
上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具
Hanlp
基于感知机的中文分词框架》,本篇接上一篇内容,继续分享词性标注与命名实体识别框架的内容。
adnb34g
·
2020-08-25 17:06
自然语言处理
词性标注
命名实体识别
hanlp分词
AC自动机1——适用于utf-8编码的Trie树
最近需要用到文本的拼音相似度计算,看了hankcs大神的
hanlp
里面通过ac自动机实现拼音的存储,想把它转成python版本的。开始啃AC自动机吧。AC自动机建立在Trie树和KMP字符串匹配算法。
老笨妞
·
2020-08-24 22:46
数据结构
基于LR的新闻多分类(基于spark2.1.0, 附完整代码)
环境:Scala2.11.8+Java1.8.0_112Spark2.1.0+
HanLP
1.3.2完整项目代码见我的GitHub:https://github.com/yhao2014/ckoocML(
yhao浩
·
2020-08-24 18:51
spark
机器学习
python调用
HanLP
下面启动虚拟机跑
hanlp
2.下载各种安装包使用自定义的
HanLP
——
HanLP
由3部分组成:类库
hanlp
.jar包、模型data包、配置文
lanlantian123
·
2020-08-22 12:26
中文分词工具使用方法及比较
中文分词工具分词背景介绍安装及介绍(jieba、
hanlp
、pkuseg、thulac、snownlp、nlpir)windowst系统分词工具安装Linux系统分词工具安装使用方法介绍数据集介绍评价指标实验结果及比较结论
ykf173
·
2020-08-22 09:15
NLP
python
spark分词工具
分词工具调研一、背景调研了两种分词工具:Ansj:https://github.com/NLPchina/ansj_seg
HanLP
(https://github.com/hankcs/
HanLP
#7-
我叫龙翔天翼
·
2020-08-22 04:32
AI
ML
利用
HanLP
与Flink/Spark做实时中文分词
HanLP
(主页见这里,项目repo见这里)是目前Java环境下非常流行的中文NLP工具集。要与Spark或Fli
LittleMagics
·
2020-08-22 02:38
Flink
Spark
Spark中使用
HanLP
分词
1.将
HanLP
的data(包含词典和模型)放到hdfs上,然后在项目配置文件
hanlp
.properties中配置root的路径,比如:root=hdfs://localhost:9000/tmp/2
云聪
·
2020-08-22 01:09
Spark
自然语言处理
spark集群使用
hanlp
进行分布式分词操作说明
本篇分享一个使用
hanlp
分词的操作小案例,即在spark集群中使用
hanlp
完成分布式分词的操作,文章整理自【qq_33872191】的博客,感谢分享!
adnb34g
·
2020-08-22 01:13
大数据
hanlp
HanLP
的自定义词典使用方式与注意事项介绍
【环境】python2.7方法一:使用py
hanlp
,具体方法如下:pipinstallpy
hanlp
#安装py
hanlp
进入python安装包路径,如/usr/lib/python2.7/site-packages
adnb34g
·
2020-08-21 23:02
人工智能
机器学习
大数据
hanlp
Hanlp
配置自定义词典遇到的问题与解决方法
本文是整理了部分网友在配置
hanlp
自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路。这里分享给大家学习参考。
adnb34g
·
2020-08-21 23:02
自然语言处理
Spark:
HanLP
+Word2Vec+LSH实现文本推荐(kotlin)
Spark:
HanLP
+Word2Vec+LSH实现文本推荐(kotlin)文本推荐的基本流程就是首先对目标本文进行关键词提取,接着把关键词转成词向量,再计算词向量的相似性进行推荐。
酸奶大战纯牛奶
·
2020-08-21 23:05
文本推荐
NLP常用资源
Hanlp
词向量-北京师范大学&人民大学中文词向量语料库对于国内自然语言处理的研究者而言,中文词向量语料库是需求很大的资源。
lotus_tang
·
2020-08-21 21:35
Hanlp
分词实例:Java实现TFIDF算法
算法介绍最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.com/blog/2013/03/tf-idf.html。计算公式比较简单,如下:预处理由于需要处理的候选词大约后3w+,并且语料文档数有1w+,直接挨个文本遍历的话很耗时,每个词处理时间都要一分钟以上。为了缩短时间,首先进行分词
惠洋热熔胶网膜
·
2020-08-21 14:44
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他