E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
【全文检索】分词
simhash去重算法实践
自己实践simhash算法的几点经验:1数据已处理,正则表达式去除各种转义符号2将文本中的数字和字母等去除3
分词
后去除停顿词步骤,1文本预处理代码步骤1jieba
分词
获取features2hash函数计算
想努力的人
·
2024-02-07 08:37
算法
simhash
算法
预处理
Task04 编写BERT模型
1BertTokenizer(Tokenization
分词
)组成结构:BasicTokenizer和WordPieceTokenizerBasicTokenizer主要作用:按标点、空格分割句子,对于中文字符
def1037aab9e
·
2024-02-07 06:46
华为OD机试真题C卷-篇2
文章目录启动多任务排序有效子字符串最长子字符串的长度最长子字符串的长度(二)两个字符串间的最短路径问题生成Huffman树可以处理的最大任务中文
分词
模拟器手机App防沉迷系统根据IP查找城市文件缓存系统寻找最优的路测线路
laufing
·
2024-02-07 06:50
算法与数据结构(python)
华为od
算法刷题
python
elasticsearch使用ik中文
分词
器
一、背景es自带了一堆的
分词
器,比如standard、whitespace、language(比如english)等
分词
器,但是都对中文
分词
的效果不太好,此处安装第三方
分词
器ik,来实现
分词
。
huan1993
·
2024-02-07 05:31
D7 Elasticsearch-Mongodb(搜索记录)
知识库链接:D7elasticsearch-Mongodb(搜索记录)·语雀引入elasticsearch,是为了更高效率的搜索(模糊搜索,关键字搜索等)可以实现语句
分词
操作。
南城余coding
·
2024-02-07 02:16
reggie
java
后端
elk之倒排索引
1:正排索引和倒排索引正排索引就是通过文档id找文档内容,而倒排索引就是通过文档内容找文档id,如下图:2:倒排索引原理假定我们有如下的数据:为了建立倒排索引,我们需要先对文档进行
分词
,如下:
分词
后每一个词有一个专门的名词来表示
一户董
·
2024-02-06 20:32
elk
elk
jenkins
倒排索引
term
index
term
dictionary
【语音合成】中文-多情感领域-16k-多发音人
前端包含文本正则、
分词
、多音字预测、文本转音素和韵律预测等模块,它的功能是把输入文本进行解析,获得音素、音调、停顿和位置等语言学特征。后端包含时长模型、声学模型和声码器,它
太空眼睛
·
2024-02-06 16:36
人工智能
tts
语音合成
数字人
modelscope
python
[自然语言处理|NLP] 文本分类与情感分析,数据预处理流程,包括了同义词替换和拼写纠正,以及使用NLTK库和TextBlob库进行标记化和情感分析(附代码)
以下是常用的NLP技术和原理,以及它们的使用场景的介绍:
分词
(Tokenization):
分词
是
代码讲故事
·
2024-02-06 12:30
机器人智慧之心
自然语言处理
分类
人工智能
NLP
文本分类
情感分析
数据预处理
NLP_Bag-Of-Words(词袋模型)
文章目录词袋模型用词袋模型计算文本相似度1.构建实验语料库2.给句子
分词
3.创建词汇表4.生成词袋表示5.计算余弦相似度6.可视化余弦相似度词袋模型小结词袋模型词袋模型是一种简单的文本表示方法,也是自然语言处理的一个经典模型
you_are_my_sunshine*
·
2024-02-06 10:48
NLP
自然语言处理
人工智能
ubuntu安装JDK11
需求背景:因为ES7的启动和安装
分词
组件时都需要使用java11,启动的时候我改成了jdk1.7后,能正常启动,但是使用
分词
插件的时候,却不行了,干脆安装java11好了。
veminhe
·
2024-02-06 07:56
系统Ubuntu
ubuntu
linux
运维
pkuseg按照用户自定义词典
分词
错误修正
importpkusegc=pkuseg.pkuseg(user_dict="./data/dict.txt")sentence='数字传播实验班'print(c.cut(sentence))字典中包含“”数字传媒与人文学院",添加自定义词典后,文本被错误分成““数字传播实验班”,debug发现solve方法有bugGPT4分析:修改后的方法:defsolve(self,txt):outlst=[
回到工作狂状态
·
2024-02-06 07:52
开发语言
分词
pkuseg
OCR文本纠错思路
文字错误类别:多字少字形近字当前方案文本纠错思路简单:一、构建自定义词典,提高
分词
正确率。不在词典中,也不是停用词,分成单字的数据极有可能是错字(少部分可能是新词)。
回到工作狂状态
·
2024-02-06 07:48
ocr
ES核心干货学习(原理及数据结构)
2.需要进行
分词
检索,语义检索3.需要大数据分析符合上面特征都可以考虑,如日志收集、订单数据链查询,文章检索等。1.3为啥选
li644872790
·
2024-02-06 07:23
elasticsearch
lucene
java
全文检索
搜索引擎
Opencc4j 开源中文繁简体使用介绍
支持自定义
分词
支持判断单个字(词)是否为简体/繁体支持返回字符串中简体/繁体的列表信息支持中国台湾地
老马啸西风
·
2024-02-06 06:02
java
SPSSAU上线文本分析啦|“尔滨”旅游攻略文本分析
二、文本分析常见研究步骤文本分析的常见步骤有五步,包括数据搜集、
分词
、数据清洗、特征提取以及建模和
spssau
·
2024-02-06 06:55
人工智能
大数据
机器学习
基于BiLSTM-CRF模型的
分词
、词性标注、信息抽取任务的详解,侧重模型推导细化以及LAC
分词
实践
基于BiLSTM-CRF模型的
分词
、词性标注、信息抽取任务的详解,侧重模型推导细化以及LAC
分词
实践1.GRU简介GRU(GateRecurrentUnit)门控循环单元,是[循环神经网络](RNN)的变种种
汀、人工智能
·
2024-02-06 06:51
人工智能
知识图谱
LSTM
分词算法
信息抽取
词性标注
NLP
ElasticSearch 8.x 使用 High Level Client 以 HTTPS 方式链接,SSL 证书、主机名验证器 各是什么,如何忽略
ElasticSearch学习随笔之javaapi操作4、ElasticSearch学习随笔之SpringBootStarter操作5、ElasticSearch学习随笔之嵌套操作6、ElasticSearch学习随笔之
分词
算法
YPhen
·
2024-02-06 06:06
ElasticSearch
elasticsearch
搜索引擎
java
python显示词云
'zaa.txt'f=io.open(filepath,'r',encoding='utf-8')t=f.read()#读取文件内容f.close()#关闭io流ls=jieba.lcut(t)#获取
分词
后的列表
计西
·
2024-02-06 02:24
TF-IDF入门与实例
我们对文档分析的时候,通常需要提取关键词,中文
分词
可以使用jieba
分词
,英文通过空格和特殊字符分割即可。那么分割之后是不是出现频率越高这些词就能越好代表这篇文章描述的内容呢?
lawenliu
·
2024-02-05 17:50
什么是网络数据抓取?有什么好用的数据抓取工具?
目前网络数据抓取采用的技术主要是对垂直搜索引擎(指针对某一个行业的专业搜索引擎)的网络爬虫(或数据采集机器人)、
分词
系统、任务与索引系统等技术的综合运用。
vx_15083607332
·
2024-02-05 16:20
大数据
API接口
爬虫
数据分析
python
赘婿词云图制作
数据准备赘婿小说txt停用词表一张赘婿相关背景图制作流程读取小说文本利用jieba库对文本进行
分词
设置停用词表利用wordcloud库制作词云图代码根据上面的流程,编写代码。
罗罗攀
·
2024-02-05 16:35
什么是网络数据抓取?有什么好用的数据抓取工具?
目前网络数据抓取采用的技术主要是对垂直搜索引擎(指针对某一个行业的专业搜索引擎)的网络爬虫(或数据采集机器人)、
分词
系统、任务与索引系统等技术的综合运用。
Miya(QQ3088716563)
·
2024-02-05 14:57
java
开发语言
大数据
API接口
爬虫
python词频统计并生成词云
.1.看效果image.png2.看代码github地址:StatWordOfPoem步骤:1.协程爬取诗词网站获取诗词内容2.
分词
3.生成词云4.用法eg:pythonmain.py苏轼main.py
10xjzheng
·
2024-02-05 09:29
【2023华为OD-C卷-第三题-中文
分词
模拟器】100%通过率(JavaScript&Java&Python&C++)
OJ权限获取可以在购买专栏后访问网站:首页-CodeFun2000题目描述给定一个连续不包含空格的字符串,该字符串仅包含英文小写字母及英文标点符号(逗号、分号、句号),同时给定词库,对该字符串进行精确
分词
塔子哥学算法
·
2024-02-05 09:00
华为od
c语言
中文分词
自然语言处理从零到入门
分词
自然语言处理从零到入门
分词
–Tokenization一、什么是
分词
?二、为什么要
分词
?
BlackStar_L
·
2024-02-05 09:24
自然语言处理与文本检索
自然语言处理
人工智能
【NLP入门教程】二、
分词
分词
(Tokenization)是自然语言处理的基本步骤之一,它将文本拆分成更小的组成部分,如单词、短语或符号等。这些拆分后的组成部分称为“词元”(Token)。
晨星同行
·
2024-02-05 09:21
NLP入门教程
自然语言处理
深度学习
人工智能
NLP入门系列—
分词
Tokenization
NLP入门系列—
分词
Tokenization
分词
是NLP的基础任务,将句子,段落分解为字词单位,方便后续的处理的分析。
不二人生
·
2024-02-05 09:18
自然语言处理
自然语言处理
人工智能
07、
全文检索
-- Solr -- Solr
全文检索
之 为索引库添加中文
分词
器
目录Solr
全文检索
之为索引库添加中文
分词
器添加中文
分词
器1、添加中文
分词
器的jar包2、修改managed-schema配置文件什么是fieldType3、添加停用词文档4、重启solr5、添加【*_
_L_J_H_
·
2024-02-05 09:28
#
全文检索(Solr
和
Elasticsearch)
全文检索
solr
中文分词
全文检索
服务器:Solr
官网https://solr.apache.org/官方文档https://solr.apache.org/guide/solr/latest/deployment-guide/solrj.html1.介绍Solr是一个高性能,采用Java开发,基于Lucene的开源全文搜索服务器不仅限于搜索,Solr也可以用于存储目的。像其他NoSQL数据库一样,它是一种非关系数据存储和处理技术。solr需要运
xiayehuimou
·
2024-02-05 09:57
solr
solr
全文检索
服务器
php solr
全文检索
引擎,【搜索引擎】Solr Suggester 实现
全文检索
功能-
分词
和和自动提示...
功能需求
全文检索
搜索引擎都会有这样一个功能:输入一个字符便自动提示出可选的短语:要实现这种功能,可以利用solr的SuggestComponent,SuggestComponent这种方法利用Lucene
一十马
·
2024-02-05 09:57
php
solr
全文检索引擎
06、
全文检索
-- Solr -- Solr
全文检索
之在图形界面管理 Core 的 Schema(演示对 普通字段、动态字段、拷贝字段 的添加和删除)
目录Solr
全文检索
之管理Schema使用Web控制台管理Core的Schema3种字段解释:Field:普通字段DynamicField:动态字段CopyField:拷贝字段演示:添加普通字段(Field
_L_J_H_
·
2024-02-05 08:54
#
全文检索(Solr
和
Elasticsearch)
全文检索
solr
lucene
Elasticsearch(ES) 简述请求操作索引下文档 增删查改操作
上文Elasticsearch(ES)创建带有
分词
器规则的索引带着大家创建了一个带有
分词
功能的索引老规矩我们启动一下ES服务本文我们就来说说关于文档的操作我们先来添加一个文档就像数据库加一条数据一样这里并不需要指定什么表结构和数据结构它的文档结构是无模式的添加文档的请求路径是
瑞晟技术服务中心-耿瑞
·
2024-02-05 08:12
elasticsearch
大数据
搜索引擎
调用Gensim库训练Word2Vec模型
一、前期工作:1.安装Gensim库pipinstallgensim2.安装chardet库pipinstallchardet3.对原始语料
分词
选择《人民的名义》的小说原文作为语料,先采用jieba进行
分词
风筝超冷
·
2024-02-05 02:56
word2vec
python
深度学习
BI - 如何在 Python 中进行
分词
并展示词云
本文为「茶桁的AI秘籍-BI篇第11篇」文章目录Python词云展示MarketBasket购物篮词云分析Hi,你好。我是茶桁。之前两节课,咱们学习了基础的数据可视化工具以及决策树的可视化。今天这节课,咱们要看到的是另外一个场景,叫做词云展示。词云应该所有人都不会陌生,一般什么时候用呢?2007年的时候北京的Google总部,一进入谷歌大楼就有一个非常震撼的场景,在谷歌的大屏幕里面就放了一个词云的
茶桁
·
2024-02-04 22:24
茶桁的AI秘籍#BI
python
词云展示
数据可视化
理论与实战:一篇看懂Python词云
实现原理导入一篇txt文档,使用jieba库对文档中的文字进行
分词
,计算各个词汇出现的频率,使用wordcloud库按照词汇频率的大小生成词云。
工业甲酰苯胺
·
2024-02-04 21:29
python
c#
开发语言
【ES从入门到实战】二、
全文检索
-ElasticSearch-Docker安装ES
二、Docker安装1、下载镜像文件下载elasticsearchdockerpullelasticsearch:7.4.2#存储和检索数据在这里插入图片描述下载kibanadockerpullkibana:7.4.2#可视化检索数据在这里插入图片描述注意:elasticsearch要和kibana的版本保持一致!2、创建实例1.ElasticSearchmkdir-p/mydata/elasti
runewbie
·
2024-02-04 19:43
NLP自然语言处理的基本语言任务介绍
NLP的基本任务包括以下几个方面:1.
分词
(Tokenization):将文本分割成单词、短语或其他有意义的元素(称为tokens)。
分词
是许多NLP任务的第一步。
人生万事须自为,跬步江山即寥廓。
·
2024-02-04 14:43
机器学习人工智能
自然语言处理
人工智能
机器学习
python222网站实战(SpringBoot+SpringSecurity+MybatisPlus+thymeleaf+layui)-Mysql
分词
检索实现
锋哥原创的Springboot+Layuipython222网站实战:python222网站实战课程视频教程(SpringBoot+Python爬虫实战)(火爆连载更新中...)_哔哩哔哩_bilibilipython222网站实战课程视频教程(SpringBoot+Python爬虫实战)(火爆连载更新中...)共计23条视频,包括:python222网站实战课程视频教程(SpringBoot+P
java1234_小锋
·
2024-02-04 13:10
java
spring
boot
layui
后端
elasticsearch学习六:学习 全文搜索引擎 elasticsearch的语法,使用kibana进行模拟测试(持续更新学习)
文章目录前言一、基本概念1.Node节点与Cluster集群2.Index索引3.Document文档4.Type类型5.逻辑对比6.物理设计二、ES的命令风格三、新建和删除index索引四、
分词
器使用和学习
java冯坚持
·
2024-02-04 10:39
ElasticSearch
搜索引擎
elasticsearch
java
es
数据库
MySQL性能优化
全文索引:用于对文本的
全文检索
,主要用于MyISAM引擎。优化索引时需要注意:选择合适的数据类型:确保使用最适合存储数据的数据类型,减小索引大小,提高查询速
tot_lbr
·
2024-02-04 06:58
mysql
性能优化
数据库
Python 中 jieba 库
、简介1、是什么2、安装二、基本使用1、三种模式2、使用语法2.1对词组的基本操作2.2关键字提取2.3词性标注2.4返回词语在原文的起止位置jieba库一、简介1、是什么(1)jieba是优秀的中文
分词
第三方库中文文本需要通过
分词
获得单个的词语
SteveKenny
·
2024-02-04 03:52
python
python
开发语言
后端
Elasticsearch(ES) 创建带有
分词
器规则的索引
上文Elasticsearch(ES)下载添加IK
分词
器带大家下载并使用了IK
分词
器我们先启动ES服务然后我们来说IK
分词
器怎么用设置
分词
器我们还是要发put请求创建索引时通过参数设置这里我们put请求类型要换成
瑞晟技术服务中心-耿瑞
·
2024-02-04 03:03
elasticsearch
大数据
搜索引擎
被动句和无人称句在西班牙语语法中是如何使用的?
被动句中的动词由ser+主动词的过去
分词
构成。过去
分词
要与主语的性、数保持一致。ej:Loslibrossoncompradosporelprofesor.(这些书被老师买了。)
你的童年我的童年
·
2024-02-03 23:38
python使用正则匹配判断字符串中含有某些特定子串及正则表达式详解
判断字符串中是否含有字串二、正则表达式(一)基本内容1.正则表达式修饰符——可选标志2.正则表达式模式(二)常见表达式函数一、判断字符串中是否含有字串in,notin判断字符串中是否含有某些关键词,方法比较多例如
分词
后对词向量和关键词进行
浮生若梦777
·
2024-02-03 21:08
python
python
开发语言
【自然语言处理】P3 spaCy 与 NLTK(
分词
、词形还原与词干提取)以及 Porter 和 Snowball
目录准备工作spaCyNLTK文本
分词
spaCyNLTK词形还原spaCyNLTK词干提取PorterSnowballstemmers在自然语言处理(NLP)中,文本
分词
是将文本拆分为单词或词组的过程,
脚踏实地的大梦想家
·
2024-02-03 20:17
#
自然语言处理
自然语言处理
人工智能
spaCy
NLTK
Docker安装ElasticSearch和IK
分词
器
建议使用阿里云镜像加速参考:https://blog.csdn.net/qq_37495786/article/details/83246421必须提前创建好yml文件mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/dataecho"http.host:0.0.0.0">>/mydata/elasticsearch/c
elwyn_you
·
2024-02-03 19:25
hanlp中的N最短路径
分词
N-最短路径是中科院
分词
工具NLPIR进行
分词
用到的一个重要算法,张华平、刘群老师在论文《基于N-最短路径方法的中文词语粗分模型》中做了比较详细的介绍。
lanlantian123
·
2024-02-03 17:02
05、
全文检索
-- Solr -- Solr
全文检索
之图形界面的文档管理(文档的添加、删除,如何通过关键字等参数查询文档)
目录Solr
全文检索
之文档管理添加文档使用JSON添加文档:使用XML添加文档:删除文档使用JSON删除文档:使用XML删除文档:查询文档查询文档的详细参数fq(FilterQuery):过滤sort:
_L_J_H_
·
2024-02-03 17:54
#
全文检索(Solr
和
Elasticsearch)
全文检索
solr
django
04、
全文检索
-- Solr -- 管理 Solr 的 core(使用命令和图形界面创建、删除 core,以及对core 目录下的各文件进行详细介绍)
目录管理Solr的core创建Core方式1:solr命令创建演示:使用solr命令创建Core:演示:命令删除Core(彻底删除)方式2:图形界面创建Web控制台创建CoreWeb控制台删除Core(未彻底删除)重新加回刚刚删除的coreCore目录下的文件介绍:创建的core对应的目录下的文件:Core目录的conf子目录下的文件:managed-schemasolrconfig.xmlpro
_L_J_H_
·
2024-02-03 17:48
#
全文检索(Solr
和
Elasticsearch)
全文检索
solr
lucene
大模型LORA微调总结
大模型LORA微调总结大模型微调总结模型加载使用deepspeed不使用deepspeed使用lora加载
分词
器数据加载构建source和target构建input_ids和labels标签补齐构建训练器
江小皮不皮
·
2024-02-03 15:48
深度学习
人工智能
LoRA
大模型
微调
internlm7B
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他