E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
CRF分词
MySQL技术内幕:MySQL全文检索底层原理——详解
问题的引入二.全文检索的一般实现——倒排索引三.InnoDB全文检索3.1概述3.2实现3.2.1辅助表结构3.2.2全文检索索引缓存3.2.3FTSDocumentID3.2.4stopword列表3.3
分词
的插入和删除操作四
我是方小磊
·
2025-04-15 00:19
Mysql技术内幕
mysql
全文检索
innodb
SQL 全文检索原理
工作原理1.文本分析与
分词
(Tokenization)将文本分解为词元(tokens)或
Full Stack Developme
·
2025-04-15 00:46
SQL
sql
全文检索
python
elasticsearch的数据结构
文档的字段值会被
分词
(对于支持全文搜索的字段)或直接存储(对于数值、日期等类型的字段)。
分词
后的字段生成倒排索引(TermDictionary和PostingList
不确定性确定你我
·
2025-04-13 02:50
elasticsearch
数据结构
大数据
Lucene.Net
分词
器选择指南:盘古
分词
vs 结巴
分词
的深度对比与未来趋势
引言在大数据与自然语言处理的浪潮中,
分词
技术作为信息检索、文本分析、搜索引擎优化等领域的核心技术,扮演着至关重要的角色。
大富大贵7
·
2025-04-12 18:28
mybatis
seq2seq编码器encoder和解码器decoder详解
是由原始文本中的词或子词通过
分词
器(Tokenizer)处理后得到的最小单位,这些token会被映射为词汇表中的唯一索引
TunnyLand
·
2025-04-11 22:52
算法
nlp
算法
训练数据清洗(文本/音频/视频)
多数据格式的清洗方法以下是针对多数据格式清洗方法的系统性总结,结合Python代码示例:一、数据清洗方法总览(表格对比)数据类型核心挑战关键步骤常用Python工具文本非结构化噪声去噪→
分词
→标准化→向量化
Psycho_MrZhang
·
2025-04-11 21:11
工具
音视频
Elasticsearch 系列专题 - 第三篇:搜索与查询
1.基础查询1.1MatchQuery与TermQuery的区别MatchQuery:用于全文搜索,会对查询词进行
分词
。
不出名的架构师
·
2025-04-11 17:44
elasticsearch
jenkins
大数据
ElasticSearch集群搭建
参考文档:docker搭建ElasticSearch集群ES脑裂问题及解决Elasticsearch学习SpringBoot整合ElasticsearchLinux系统下安装es中ik
分词
器docker
可乐加可乐冰
·
2025-04-10 18:15
服务器
elasticsearch
es
docker
linux
搜索引擎
Docker 安装 Elasticsearch 教程
目录一、安装Elasticsearch二、安装Kibana三、安装IK
分词
器四、Elasticsearch常用配置五、Elasticsearch常用命令一、安装Elasticsearch(一)创建Docker
愿你天黑有灯下雨有伞
·
2025-04-09 18:01
Docker相关知识点
运维
docker
elasticsearch
MATLAB基础应用精讲-【数模应用】贝叶斯优化
目录前言算法原理朴素贝叶斯算法核心思想示例贝叶斯定理贝叶斯网络贝叶斯网络的结构形式因子图数学模型最优贝叶斯推理贝叶斯优化什么高斯过程acquisition函数朴素贝叶斯贝叶斯公式与条件独立假设1)先验概率与后验概率2)贝叶斯公式3)条件独立假设与朴素贝叶斯平滑处理1)为什么需要平滑处理2)拉普拉斯平滑及依据应用案例中文
分词
统计机器翻译贝叶斯图像识别
林聪木
·
2025-04-09 10:14
机器学习
算法
人工智能
2001-2023年上市公司供应链中断风险数据
获取MD&A文本信息对MD&A文本利用Python开源“jieba”中文
分词
模块对MD&A文本进行
分词
,为了提高文本信息挖掘的精度,整合哈工大百度等常用的停用词表(stopwordslist),对
分词
后的
经管数据集
·
2025-04-09 08:02
数据分析
MySQL + ngram 最佳实践:轻量级中文 & 混合内容全文搜索方案
MySQL的FULLTEXT配合ngram
分词
器,是一种轻量但强大的解决方案,适合处理中文、带符号文本(如N3-2016-7语法7)的全文搜索。
silence250
·
2025-04-09 02:22
其他
mysql
搜索
浅谈「
分词
」:原理 + 方案对比 + 最佳实践
在文本搜索、自然语言处理、智能推荐等场景中,「
分词
」是一个基础但至关重要的技术点。无论是用数据库做模糊查询,还是构建搜索引擎,
分词
都是提高效率和准确度的核心手段。一、什么是
分词
?
silence250
·
2025-04-09 02:49
其他
数据
搜索
Lucene.Net全文搜索引擎:架构解析与全流程实战指南
Q2:中文
分词
不准确?六、总结
Microi风闲
·
2025-04-08 23:32
【全文检索】分词
搜索引擎
lucene
.net
BPE(Byte Pair Encoding,字节对编码)
BPE(BytePairEncoding,字节对编码是一种常用的子词
分词
算法,在自然语言处理(NLP)中用于将文本分割成更小的单位,例如子词或字符序列。
CyreneSimon
·
2025-04-08 16:16
nlp
人工智能
ik
分词
和jieba
分词
哪个好_Lucene.net(4.8.0) 学习问题记录五: JIEba
分词
和Lucene的结合,以及对
分词
器的思考...
前言:目前自己在做使用Lucene.net和PanGu
分词
实现全文检索的工作,不过自己是把别人做好的项目进行迁移。
weixin_39634997
·
2025-04-07 19:32
ik分词和jieba分词哪个好
Lucene.net(4.8.0) 学习问题记录五: JIEba
分词
和Lucene的结合,以及对
分词
器的思考
前言:目前自己在做使用Lucene.net和PanGu
分词
实现全文检索的工作,不过自己是把别人做好的项目进行迁移。
Dacc123
·
2025-04-07 19:27
Lucene
Lucene
分词
Lucene.Net
分词
器选择指南:盘古
分词
vs 结巴
分词
文章目录前言一、核心特性对比二、典型场景推荐1.选择盘古
分词
的场景2.选择结巴
分词
的场景三、关键指标实测对比1.
分词
质量测试(F1值)2.性能测试(单线程)四、如何选择?
Microi风闲
·
2025-04-07 18:26
【全文检索】分词
lucene
.net
mybatis
从代码学习深度学习 - NLP之文本预处理 PyTorch版
文章目录前言1.文本预处理理论知识1.1文本清洗与标准化1.2
分词
(Tokenization)1.3词频统计与词汇表构建1.4序列表示与批次生成1.5预处理的意义2.文本预处理的核心代码解析2.1读取数据集
飞雪白鹿€
·
2025-04-07 03:50
深度学习-pytorch版
深度学习
pytorch
NLP任务之文本分类(情感分析)
目录1加载预训练模型对应的
分词
器2加载数据集3数据预处理4构建数据加载器DataLoader5定义下游任务模型6测试代码7训练代码#做(中文与英文的)分类任务,Bert模型比较合适,用cls向下游任务传输数据
Hiweir ·
·
2025-04-06 19:57
项目
NLP自然语言处理理论与算法
Huggingface
自然语言处理
人工智能
huggingface
分类
NLP任务之翻译
目录1加载预训练模型的
分词
器2加载本地数据集3数据预处理4创建数据加载器5定义下游任务的模型6测试代码7训练代码8.保存与加载训练好的模型#加载预训练的翻译
分词
器之前需要先安装一个第三方库#-后面接的是清华源
Hiweir ·
·
2025-04-06 19:57
NLP自然语言处理理论与算法
Huggingface
项目
自然语言处理
人工智能
深度学习
huggingface
datasets
python
Elasticsearch 默认
分词
器和中分
分词
器之间的比较及使用方法
首发地址:http://www.54tianzhisheng.cn/2017/09/07/Elasticsearch-analyzers/介绍:ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设
zhisheng_blog
·
2025-04-05 09:13
elasticsearch
lucene
elasticsearch
基于 .NET 8 + Lucene.Net + 结巴
分词
实现全文检索与匹配度打分实战指南
构建索引3.2动态更新策略四、搜索与匹配度排序4.1执行搜索4.2自定义评分算法(扩展)五、高级优化技巧5.1近实时搜索(NRT)5.2批量处理优化5.3自定义停用词与词典六、常见问题与解决方案6.1
分词
不生效
Microi风闲
·
2025-04-05 08:41
【全文检索】分词
全文检索
.net
lucene
Lucene.net站内搜索—3、最简单搜索引擎代码
目录Lucene.net站内搜索—1、SEO优化Lucene.net站内搜索—2、Lucene.Net简介和
分词
Lucene.net站内搜索—3、最简单搜索引擎代码Lucene.net站内搜索—4、搜索引擎第一版技术储备
邹琼俊
·
2025-04-04 14:38
搜索引擎
lucene
.net
全文检索
【OCR】总结Python中图片与pdf识别文本的方法
性能强大,适合复杂场景的文字识别安装PaddleOCR库:pipinstallpaddleocr示例代码frompaddleocrimportPaddleOCR,draw_o
crf
romPILimportImage
幸福清风
·
2025-04-03 17:49
图像处理
python
图文识别
pdf识别
【深度学习基础】模型文件介绍
这些文件包括模型配置文件、模型权重文件、特殊标记映射文件、
分词
器配置文件和词汇表文件。文件
毕业茄
·
2025-04-03 00:27
深度学习
深度学习
人工智能
bert系列模型区别(bert-base-cased/bert-base-uncased/bert-base-chinese)
文章目录BERT模型介绍bert-base-casedbert-base-uncasedbert-base-chineseBERT-BILSTM-
CRF
模型介绍模型下载地址BERT模型介绍BERT(BidirectionalEncoderRepresentationsfromTransformers
Cachel wood
·
2025-04-02 12:37
自然语言处理nlp
python深度学习入门
bert
人工智能
深度学习
自然语言处理
分类
java
现在受大众喜爱的DeepSeek是如何做到对中文语境理解更深入的?
DeepSeek做到对中文语境理解更深入,主要通过以下几种方式:先进的智能
分词
技术:准确的词汇分割:能够准确地将中文句子分割成独立的词汇。
Helena__a
·
2025-04-02 00:11
opencv
人工智能
智能测试用例生成:分块实现大模型完整回答的最佳策略
这种情况下,合理的
分词
策略不仅可以有效解决问题,还能提升生成过程的效率和准确性。1.为什么需要分块?大模型(如GPT系列)通常对输入长度有严格限制。如果直接将超长的文
Python测试之道
·
2025-03-30 21:44
测试提效
测试用例
服务器
运维
【大模型开发】将vocab解码
【大模型开发】将vocab解码在这篇博客中【大模型】tokenizer中编码过程,说明了tokenizer
分词
编码过程。
SUNX-T
·
2025-03-30 21:14
大模型
python
语言模型
Elasticsearch
分词
器
一、简介在Elasticsearch中,
分词
器(Analyzer)是文本处理的核心组件,用于将文本拆分为词项(Terms),并对词项进行标准化处理。
FearlessVoyager
·
2025-03-30 07:32
elasticsearch
elasticsearch
jenkins
大数据
知识图谱问答系列文档(一)——思知机器人简介
自然语言处理工具包的功能有:中文
分词
、词性标注、命名实体识别、关键词提取、文本摘要、新词发现、情感分析等。开放的项目有:-知识图谱-对话机器人
AI小波哥
·
2025-03-29 12:58
智能问答
自然语言处理
知识图谱
从零构建大语言模型全栈开发指南:第二部分:模型架构设计与实现-2.2.1从零编写类GPT-2模型架构(规划模块与代码组织)
点击关注不迷路点击关注不迷路点击关注不迷路文章大纲2.2.1从零编写类GPT-2模型架构(规划模块与代码组织)1.模型架构设计规划1.1架构核心组件2.模块化设计实现2.1输入处理模块2.1.1
分词
与嵌入
言析数智
·
2025-03-28 08:06
从零开始构建大模型
人工智能
大语言模型
嵌入层
解码层
FFN
前馈网络
docker 安装镜像及使用命令
目录1.Mysql2.Redis3.Nginx4.Elasticsearch单机ik
分词
器官网集群指导个人集群5.RocketMQdockerpull容器名:版本号拉取容器,不指定版本号默认最新的dockerexec-it
时间头秃大师
·
2025-03-28 04:39
docker
容器
运维
ES分布式搜索引擎
ES分布式搜索引擎当我们要查找一个数据时,多个文本中的某个字段,可以遍历所有的文本然后查询,但是效率很低故可以使用倒排索引,先对每个文本进行
分词
,得到每个词项,然后记录每个词项在哪些文本中出现过,就得到了一个倒排索引
Lyqfor
·
2025-03-27 19:30
Java实习工作
学习日记
搜索引擎
elasticsearch
分布式
java
JUC
MySQL数据库:FULLTEXT 索引详解与使用指南
与普通的B-tree索引不同,FULLTEXT索引不是对单个值进行索引,而是对文本内容进行
分词
,并对这些词进行索引,以便在查询时能够快速找到包含指定词的记录。
sg_knight
·
2025-03-27 17:20
数据库
数据库
mysql
索引
FLULTEXT
搜索
Elasticsearch 入门到精通-Ansj
分词
器的安装和使用
一、版本和对应关系pluginelasticsearch7.6.27.6.27.7.07.7.07.7.17.7.17.8.07.8.07.8.17.8.17.9.07.9.07.9.17.9.17.9.27.9.27.9.37.9.3二、安装步骤1、下载安装ES对应PluginRelease版本a.GitHub-NLPchina/elasticsearch-analysis-ansjb.解压el
王stone
·
2025-03-25 11:01
elasticsearch
elasticsearch
大数据
big
data
AI Tokenization
AITokenization人工智能
分词
初步了解类似现在这个,一格子+一格子,拼接出来的,一行或者一句,像不像,我们人类思考的时候组装出来的话,并用嘴说出来了呢。
spencer_tseng
·
2025-03-25 11:30
AI
AI
Tokenization
Elasticsearch快速上手与深度进阶:一站式实战教程
基础操作3.1创建索引3.2插入文档3.3查询文档3.4更新文档3.5删除文档4.高级查询4.1布尔查询4.2范围查询4.3通配符查询5.聚合分析5.1统计年龄分布5.2计算平均值6.自定义分析器6.1创建
分词
器
LCG元
·
2025-03-24 22:56
前端
elasticsearch
大数据
搜索引擎
机器学习之条件概率
本文将调研几种重要的概率模型,包括EM算法、MCMC、朴素贝叶斯、贝叶斯网络、概率图模型(
CRF
、HMM)以及最大熵模型,介绍其基本原理、算法流程、应用场景及优势。
贾斯汀玛尔斯
·
2025-03-24 21:49
2024最新深度学习算法
机器学习
人工智能
0 Token 间间隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎极限优化 TPS
大模型推理引擎的基本工作模式可以概括为,接收包括输入prompt和采样参数的并发请求,
分词
并且组装成batch输入给引擎,调度GPU执行前向推理,处理计算结果并转为词元返回给用户。
·
2025-03-24 15:38
百度云大模型gpu
客服机器人怎么才能精准的回答用户问题?
以下是关键策略和步骤:1.精准理解用户意图自然语言处理(NLP)技术
分词
与实体识别:提取关键词(如“订单号”“退货”)和实体(如时间、地点)。
玩人工智能的辣条哥
·
2025-03-23 09:13
AI面试
机器人
客服机器人
自然语言处理(5)—— 中文
分词
中文
分词
的基本原理及实现1.什么是词2.基本原理3.发展趋势:多数场景无需显式
分词
信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。
隐私无忧
·
2025-03-23 06:11
人工智能
#
自然语言处理
自然语言处理
中文分词
人工智能
JAVA代码实现ElasticSearch搜索(入门-进阶)(一):搜索方法、多字段查询、高亮展示
一、搜索方法对比首先存入一条数据count="ilikeeatingandkuing"默认
分词
器应该将内容分为“i”“like”“eating”“and”“kuing”1.QueryBuilders.matchQuery
majunssz
·
2025-03-23 03:46
elasticsearch
elasticsearch
MiniMind
数据集分类:tokenizer训练集:这个数据集用于训练
分词
器(tokenizer),是文本处理中的一个重要步骤。它可以帮助模型更好地理解文本数据的结构。
亚伯拉罕·黄肯
·
2025-03-22 14:46
大模型
人工智能
机器学习中的贝叶斯网络:如何构建高效的风险预测模型
禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络:如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场(MarkovRandomField)2.2条件随机场(ConditionalRandomField,
CRF
AI天才研究院
·
2025-03-22 12:18
DeepSeek
R1
&
大数据AI人工智能大模型
自然语言处理
人工智能
语言模型
编程实践
开发语言
架构设计
jieba库词频统计_jieba
分词
器(应用及字典的补充)及文档高频词提取实战
jieba
分词
器是Python中最好的中文
分词
组件,本文讲解一下jieba
分词
器及其应用。
袁圆园建建
·
2025-03-21 09:16
jieba库词频统计
Mac上传本地项目文件夹到远程Github个人仓库的方法及常见报错处理
最近写NER模型的同时学习参悟了一个开源的项目,做了一些Comments改了点
分词
规则,打算上传到个人Github仓库,上一次本地上传还是用Windows系统,换了Mac发现有一些规则不能用了,好久不用
Uzw
·
2025-03-21 07:29
Git
Mac
git
github
mac
LLM(7):文本
分词
token 化
下面讨论如何将输入文本分割成独立的token,这是为LLM创建嵌入所需的预处理步骤。这些tokens要么是单独的词语,要么是特殊字符,包括标点符号,如图2.4所示。图2.4显示了在LLM背景下文本处理步骤的视图。这里,我们将输入文本分割成独立的token,这些tokens要么是词语,要么是特殊字符,如标点符号。此处用于训练LLM的文本是伊迪斯·沃顿的短篇小说《TheVerdict》,该作品已进入公
CS创新实验室
·
2025-03-21 05:17
大模型
人工智能
深度学习
LLM
TikTokenizer 开源项目教程
tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目,旨在提供一个高效、灵活的文本
分词
工具
邱纳巧Gillian
·
2025-03-20 03:45
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他