E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Sphinx中文分词
自然语言处理--概率最大
中文分词
自然语言处理附加作业--概率最大
中文分词
一、理论描述
中文分词
是指将中文句子或文本按照语义和语法规则进行切分成词语的过程。
Java之弟
·
2024-01-24 12:03
自然语言处理
自然语言处理
中文分词
人工智能
(二)NLP-
中文分词
-HMM-维特比算法
中文分词
一、词词是一个完整语义的最小单位。分词技术是词性标注、命名实体识别、关键词提取等技术的基础。1
中文分词
和欧语系的分词有什么不同或者说是难点的呢?
淡定的炮仗
·
2024-01-24 12:03
NLP
nlp
ElasticSearch(ES) 搜索入门笔记
文章目录ElasticSearch(ES)搜索入门笔记环境准备-本地安装ES和Kibanamapping字段类型mapping参数Analyzer自定义分析器分析器的测试
中文分词
ik_maxNormalizer
chencjiajy
·
2024-01-22 07:24
工具
elasticsearch
笔记
ES
【华为机试真题Java】
中文分词
模拟器
目录题目描述输入描述输出描述参考示例参考代码机试介绍写在最后题目描述给定一个连续不包含空格的字符串,该字符串仅包含英文小写字母及英文标点符号(逗号、分号、句号),同时给定词库,对该字符串进行精确分词。说明:精确分词:字符串分词后,不会出现重叠。即"ilovechina",不同词库可分割为"i,love,china","ilove,china",不能分割出现重叠的"i,ilove,china",i出
forest_long
·
2024-01-21 11:32
华为机试真题-Java
华为od
算法
华为
java
华为机试
中文分词
NLP学习(1)
中文分词
任务关注句子中的词汇之间的边界,词性标注关注这些被分出边界的词在词法上的类型。而命名实体识别关注的是命名实体的边界。它的粒度通常比
中文分词
要粗——是多个单词构成的复
Tang_Genie
·
2024-01-21 06:22
MySQL 实现一个简单版搜索引擎,真是绝了!
char、varchar、text类型字段能创建全文索引(fulltextindextype)全文索引的基于关键词的,如何区分不同的关键词了,就要用到分词(stopword)英文单词用空格,逗号进行分词;
中文分词
不方便
java猫猫碎碎
·
2024-01-21 02:22
php jieba,laravel下TNTSearch+jieba-php实现中文全文搜索
上篇文章我们简单介绍了全文搜索的方案;全文搜索和
中文分词
;TNTSearch+jieba-php这套组合可以在不依赖第三方的情况下实现中文全文搜索;特别的适合博客这种小项目;我新建一个项目用于演示;laravelnewtntsearch
weixin_39988331
·
2024-01-21 01:09
php
jieba
php分词搜索thinkphp,TP5+TNTSearch实现
中文分词
搜索
安装composerrequireteamtnt/tntsearchcomposerrequirefukuball/jieba-php环境要求PHP>=7.1PDOPHPExtensionSQLitePHPExtensionmbstringPHPExtension案例1.创建搜索服务类。namespaceapp\index\service;useTeamTNT\TNTSearch\TNTSearc
洪荒行者
·
2024-01-21 01:09
php分词搜索thinkphp
PHP 实现
中文分词
搜索功能
中文分词
介绍众所周知,英语是基于单词的,单词和单词之间用空格隔开,而中文是基于单词的。句子中的所有单词都可以连接起来以描述含义。例如,英文句子“我是学生”将用中文表示“我是学生”。
啊猿呢
·
2024-01-21 01:39
TNTSearch 轻量级全文索引 +
中文分词
TNTSearch轻量级全文索引+
中文分词
选用TNTSearch的原因:轻,方便移植,不需要额外安装服务,能减少后期维护的工作量。
weixin_34419326
·
2024-01-21 01:39
php
大数据
数据库
laravel(7.0)下tntsearch(2.0)和jieba-php使用
中文就需要jieba-php,但苦于tntsearch的驱动已经跟进laravel7,但jieba并没有跟进,致使我参考TNTSearch轻量级全文索引+
中文分词
一直报错,
Ben Hooper
·
2024-01-21 01:38
PHP
php
lavarel
sqlite
手写GPT实现小说生成(一)
引言本文开始从零实现GPT1做一个小说续写器,即只需要给出一些文本,让模型帮你续写,主要内容包含:模型编写训练适配小说的
中文分词
器将小说按固定大小拆分生成数据集拆分训练/测试集训练体验小说续写效果同时结合
愤怒的可乐
·
2024-01-20 10:55
NLP项目实战
#
自然语言处理
gpt
小说续写
ROS2手册的离线编译安装
把文档下载到本地离线使用方便快捷,极大提高开发效率下载ROS2文档gitclonehttps://github.com/ros2/ros2_documentation.gitcdros2_documentation安装
sphinx
pipinstall
Sphinx
ArslanRobot
·
2024-01-20 08:16
ROS2开发实例
ROS
机器人
elasticsearth 集成
中文分词
插件IK 《SpringBoot集成Elasticsearch-三》
1.下载ik插件先进入elasticsearch的plugins文件夹,创建ik文件夹,并进入wgethttps://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.9.1/elasticsearch-analysis-ik-7.9.1.zip2.解压unzipelasticsearch-analysis-ik-7.9
倾国倾城林二狗
·
2024-01-20 04:38
中文分词
中文分词
一、简介
中文分词
主要有三种技术,分别为:1.1规则分词规则分词主要是通过人工设立词库,按照一定方式进行匹配切分。其实现简单高效,但对新词很难进行处理。
Evermemo
·
2024-01-20 00:29
Python系列:NLP系列三:pyltp的介绍与使用
它提供的功能包括
中文分词
、词性标注、命名实体识别、依存句法分
坦笑&&life
·
2024-01-19 02:57
大数据
python
自然语言处理
开发语言
Python文本向量化入门(四):中文词袋问题
因为之前的学习中发现Scikit-learn的CountVectorizer不支持
中文分词
,所以在本篇文章中,我们将介绍如何使用jieba分词和Scikit-learn的CountVectorizer进行中文文本的特征提取
Dxy1239310216
·
2024-01-17 17:04
Python
python
开发语言
API文档生成(
sphinx
)
1.安装pipinstall
Sphinx
2.使用2.1文档手册
Sphinx
1.3.1中文手册(推荐查看)教程https://fengxc.me/基于python注释使用
sphinx
自动化生成API文档.
Along20210921
·
2024-01-16 19:04
sphinx
全文检索
搜索引擎
智能语音技术栈
识别原理——硬件数据采集——软件数据处理目前主流的开源平台包括CMU
Sphinx
、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow等,CMU
Sphinx
是离线的语音识别工具
chenkaifang
·
2024-01-15 19:53
不归类
ai智能语音机器人如何基于本地语音识别,搭建一款智能聊天机器人?
通常情况下,语音识别技术可以使用开源框架,如CMU
Sphinx
、Kaldi、DeepSpeech等。它们都提供了丰富的文档和示例代码,用于
VO_794632978
·
2024-01-15 15:05
WX-794632978
语音机器人
人工智能
机器人
语音识别
腾讯云
阿里云
sphinx
在c#.net平台下使用(一)
Sphinx
是由俄罗斯人AndrewAksyonoff开发的一个可以结合MySQL,PostgreSQL全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。
weixin_30432179
·
2024-01-15 03:21
c#
数据库
php
【迅搜16】SCWS分词(一)概念、词性、复合分词等级
中文分词
搜索引擎最大的特点
码农老张Zy
·
2024-01-15 03:11
【华为OD机考 统一考试机试C卷】
中文分词
模拟器(C++ Java JavaScript Python C语言)
华为OD机考:统一考试C卷+D卷+AB卷+刷题OJ目前在考C卷,经过两个月的收集整理,C卷真题已基本整理完毕抽到原题的概率为2/3到3/3,也就是最少抽到两道原题。请注意:大家刷完C卷真题,最好要把B卷的真题刷一下,因为C卷的部分真题来自B卷。另外订阅专栏还可以联系笔者开通在线OJ进行刷题,提高刷题效率。真题目录:华为OD机考机试真题目录(C卷+D卷+B卷+A卷)+考点说明专栏:2023华为OD机
算法大师
·
2024-01-14 16:59
python
华为od
c语言
c++
java
自然语言处理笔记
文章目录情感词典
中文分词
情感词典英文的情感词典有:LIWC,SentiWordNet等中文的情感词典有:NTUSD,正文褒贬词典TSING,知网HowNet等
中文分词
中文分词
的工具有:jieba(核心算法是张华平的
zoujiahui_2018
·
2024-01-14 09:37
#
自然语言处理
自然语言处理
笔记
人工智能
Python分词介绍
jieba分词是一个基于Python的
中文分词
库,它可以将中文文本拆分为单独的词,以便进行后续的分析和处理。二、jieba分词安装要使用jieba分词,首先需要安装jieba库。
Dxy1239310216
·
2024-01-13 16:27
Python
python
开发语言
中文分词
器-ik分词(安装+简介)附示例
简介支持自定义词典IK分词器允许用户自定义词典,可以添加新词、调整词频等,以便更好地适应特定的领域或需求。自定义词典可以提高分词的准确性和召回率拼音分词IK分词器还提供了拼音分词功能,可以将中文文本转换为拼音,方便进行拼音搜索和拼音排序分词器安装ik下载地址:Releases·medcl/elasticsearch-analysis-ik·GitHub(与es版本一致)解压到es目录的plugin
hcj_ER
·
2024-01-13 00:01
Elasticsearch
elasticsearch
使用
sphinx
生成API文档
使用
sphinx
生成API文档1、安装
sphinx
pipinstall
Sphinx
2、初始化文档:在项目根目录下运行(或者进入doc目录下执行
sphinx
-quickstart)
sphinx
-quickstartdoc
火之木叶啊
·
2024-01-13 00:50
Pytorch学习记录-torchtext数据预处理
等会还会用
中文分词
试一下,希望之后文本处理可以使用torchtext做预处理。和torchvision类似torchtext是为了处理特定的数据和数据集而存在的。
我的昵称违规了
·
2024-01-12 09:22
使用 gitee+
sphinx
+readthedocs 搭建个人博客
前言这是我本地运行的一个使用
sphinx
构建的博客服务,这些文章,都是用markdown写的。
明月与玄武
·
2024-01-12 04:33
开源项目
gitee
sphinx
个人博客搭建
词云可视化(摘录)
Python代码上手词云制作1号词云:《葛底斯堡演说》黑色背景词云(4行代码上手)美化词云2号词云:面朝大海,春暖花开(配置词云参数)常用参数从外部文件读入文本3号词云:乡村振兴战略中央文件(句子云)
中文分词
中文分词
第三方模块
Sparky*
·
2024-01-11 08:34
廖雪峰爬虫笔记
中文分词
、去停用词、发现新词
中文分词
目前使用过snownlp、jieba,简单对比下,jieba的默认模识更好用,snownlp分的过细了。
废柴社
·
2024-01-11 06:06
【华为OD机试真题2023C&D卷 JAVA&JS】
中文分词
模拟器
华为OD2023(C&D卷)机试题库全覆盖,刷题指南点这里
中文分词
模拟器知识点图字符串时间限制:5s空间限制:256MB限定语言:不限题目描述:给定一个连续不包含空格字符串,该字符串仅包含英文小写字母及英文文标点符号
若博豆
·
2024-01-10 07:51
算法
java
华为od
javascript
实现Django的全文检索功能(一):选择Whoosh全文检索引擎
有搜到两篇,一篇是使用在django应用上使用
sphinx
全文搜索还有一篇是使用Whoosh的,看这里其中whoosh是原生唯一的python写的全文搜索引擎,虽然有说whoosh性能比不上
sphinx
stonefisher
·
2024-01-09 19:40
Django
Python
【机器学习】循环神经网络(四)-应用
五、应用-语音识别5.1语音识别问题详述语音识别的经典方法GMM+HMM框架5.2深度模型详述DNN-HMM结构循环神经网络与CTC技术结构用于语音识别问题六、自然语言处理RNN-LM建模方法6.1
中文分词
十年一梦实验室
·
2024-01-09 11:36
机器学习
rnn
人工智能
深度学习
神经网络
修改ES默认分词设置
ES的默认分词设置是standard,这个在
中文分词
时就比较尴尬了,会单字拆分,比如我搜索关键词“清华大学”,这时候会按“清”,“华”,“大”,“学”去分词,然后搜出来的都是些“清清的河水”,“中华儿女
攻城狮阿楠
·
2024-01-08 08:33
数据检索
ES默认分词
3.ElasticSearch分词器,包括默认分词器、英文分词器、
中文分词
器
注:测试环境:CentOSLinuxrelease7.6.1810(Core)jdk:1.8elasticsearch:6.8.2单节点es安装:1.ElasticSearch安装教程与注意事项以及集群环境搭建_名猿陈大浏的博客-CSDN博客es添加索引:2.ElasticSearch添加、查询、修改、删除索引入门教程_名猿陈大浏的博客-CSDN博客导图(用于总结和复习)注:使用GET_analy
名猿陈大浏
·
2024-01-08 08:59
分布式框架
ElasticSearch
es
elasticsearch
java
搜索引擎
solr
中文分词
创建一个存储位置mkdir-p/usr/local/Ikcd/usr/local/Ikhttps://pan.baidu.com/share/init?surl=P49uuVqT9PubcAHP8onOBw提取码:kcs2把ikanalyzer-solr5文件夹内的jar放入/usr/local/solr/solr-7.7.3/server/solr-webapp/webapp/WEB-INF/l
墨夕晨
·
2024-01-08 07:34
使用jieba库进行
中文分词
和去除停用词
jieba.lcutjieba.lcut()和jieba.lcut_for_search()是jieba库中的两个分词函数,它们的功能和参数略有不同。jieba.lcut()方法接受三个参数:需要分词的字符串,是否使用全模式(默认为False)以及是否使用HMM模型(默认为True)。它返回一个列表,其中包含分词后的词语。该方法适合用于普通的文本分词任务。而jieba.lcut_for_searc
一壶浊酒..
·
2024-01-07 17:53
自然语言处理
中文分词
自然语言处理
中文分词
算法 | 基于词表的三种分词算法
本文主要介绍
中文分词
算法中的基于词表的分词算法
源于花海
·
2024-01-06 07:56
自然语言处理
中文分词
自然语言处理
人工智能
实现中文jieba分词
目录问题描述:代码实现:问题描述:使用
中文分词
库jieba从给定的文本中提取指定范围内的前后词语。特殊的,如果前面是‘的’即再向前取一位,这个可根据自己的实际需求做出更改。
薰珞婷紫小亭子
·
2024-01-04 18:27
程序
自然语言处理
python
NLP基础——
中文分词
简介分词是自然语言处理(NLP)中的一个基本任务,它涉及将连续的文本序列切分成多个有意义的单元,这些单元通常被称为“词”或“tokens”。在英语等使用空格作为自然分隔符的语言中,分词相对简单,因为大部分情况下只需要根据空格和标点符号来切分文本。然而,在汉语等语言中,并没有明显的单词界限标记(如空格),因此汉语分词比较复杂。汉字序列必须被正确地切割成有意义的词组合。例如,“我爱北京天安门”,应该被
小风_
·
2024-01-04 07:23
自然语言处理
中文分词
人工智能
65自然语言处理底层技术实现及应用--基于字典的
中文分词
方法
基于字典的
中文分词
方法
中文分词
介绍
中文分词
就是将一个汉语句子中的词切分出来。为机器翻译、文本挖掘、情感分析等任务打好基础。你可能会好奇,为什么一定要先进行分词呢?
Jachin111
·
2024-01-03 23:02
188.【2023年华为OD机试真题(C卷)】
中文分词
模拟器(字典树动态规划算法—Java&Python&C++&JS实现)
文章目录188.【2023年华为OD机试真题(C卷)】
中文分词
模拟器(字典树动态规划算法—Java&Python&C++&JS实现)
一见已难忘
·
2024-01-03 19:35
算法之翼—华为OD机试专栏
华为od
算法
c语言
中文分词
python
java
JavaScript
中文分词
算法及python代码实现(持续更新中)
文章目录1.机械分词算法1.1.正向最大匹配算法1.2.逆向最大匹配算法参考链接:https://blog.csdn.net/lcwdzl/article/details/78493637https://blog.csdn.net/liu_zhlai/article/details/52125174?spm=1001.2014.3001.5501代码源码地址:https://github.com/
lankuohsing
·
2024-01-03 18:34
自然语言处理
学习笔记
python
算法
中文分词
自然语言处理
ElasticSearch常用的分词器
StamdardAnalyzerSimpleAnalyzerWhitespaceAnalyzerStopAnalyzerKeywordAnalyzerPatternAnalyzerLanguageAnalyzer
中文分词
本文小结概述这篇文章主要来介绍下什么是
wh柒八九
·
2024-01-03 16:51
核心知识点
Elastic
Search
elasticsearch
es
java 开源中文的繁简体转换工具 opencc4j-01-overview
拓展阅读pinyin汉字转拼音pinyin2hanzi拼音转汉字segment高性能
中文分词
opencc4j中文繁简体转换nlp-hanzi-similar汉字相似度word-checker拼写检测sensitive-word
老马啸西风
·
2024-01-02 23:55
java
开发语言
开源
github
snownlp库各功能及用法
目录1
中文分词
2词性标注3情感分数4转换拼音5前n个关键词6前n个关键(中心)句7TF值8IDF值9繁简体转换首先导入库fromsnownlpimportSnowNLPs=SnowNLP('字太小,而且纸张也不好
爱吃修狗的菜包
·
2024-01-02 15:06
python
python
nlp
中文分词
Elasticsearch安装配置启动,kibana、head插件安装,
中文分词
ik、拼音分词安装
Elasticsearch安装1、下载ESwgethttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.5.2.tar.gz或者在windows下载好,放到服务器上tar-xvfelasticsearch-5.5.2.tar.gz注意版本:5.5.2注意:需要jdk1.8+2、修改配置修改conifig/elast
Z_城南花已开
·
2024-01-01 22:59
elasticsearch
jieba库
jieba库是的
中文分词
第三方库。中文文本需要通过分词获得单个的词语。安装:(cmd命令行)pipinstalljiebajieba分词依靠中文词库。
cd4254818c94
·
2024-01-01 09:08
【Python篇】python库讲解(wordcloud | jieba)
文章目录jieba库wordcloud库解释jieba库jieba库是一个流行的
中文分词
工具,它基于统计算法和词频字典,能够将连续的汉字序列切割成有意义的词语。
在下小吉.
·
2023-12-31 11:29
Python基础
python
开发语言
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他