E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
【全文检索】分词
SQLAlchemy关键词搜索技术深度解析:从基础过滤到
全文检索
在数据驱动的应用开发中,基于关键词的模糊查询是常见的业务需求。SQLAlchemy作为Python生态中最流行的ORM框架,提供了多种实现关键词搜索的技术方案。本文将从性能、适用场景和技术复杂度三个维度,系统对比分析SQLAlchemy中关键词搜索的最佳实践。一、基础查询过滤:LIKE操作符的局限性技术实现pythonfromsqlalchemyimportcreate_engine,Column
梦想画家
·
2025-03-26 13:49
#
python
全文检索
sqlalchemy
MongoDB 与 Elasticsearch 使用场景区别及示例
Elasticsearch定位:分布式搜索引擎,专注于
全文检索
、近实时分析和海量数据快速查询。典型场景:文本搜索(如电商商品搜索、日志关键词检索)。复杂数据分析(
碧海饮冰
·
2025-03-26 10:23
技术代码类
mongodb
elasticsearch
数据库
Elasticsearch 入门到精通-Ansj
分词
器的安装和使用
一、版本和对应关系pluginelasticsearch7.6.27.6.27.7.07.7.07.7.17.7.17.8.07.8.07.8.17.8.17.9.07.9.07.9.17.9.17.9.27.9.27.9.37.9.3二、安装步骤1、下载安装ES对应PluginRelease版本a.GitHub-NLPchina/elasticsearch-analysis-ansjb.解压el
王stone
·
2025-03-25 11:01
elasticsearch
elasticsearch
大数据
big
data
AI Tokenization
AITokenization人工智能
分词
初步了解类似现在这个,一格子+一格子,拼接出来的,一行或者一句,像不像,我们人类思考的时候组装出来的话,并用嘴说出来了呢。
spencer_tseng
·
2025-03-25 11:30
AI
AI
Tokenization
Elasticsearch快速上手与深度进阶:一站式实战教程
基础操作3.1创建索引3.2插入文档3.3查询文档3.4更新文档3.5删除文档4.高级查询4.1布尔查询4.2范围查询4.3通配符查询5.聚合分析5.1统计年龄分布5.2计算平均值6.自定义分析器6.1创建
分词
器
LCG元
·
2025-03-24 22:56
前端
elasticsearch
大数据
搜索引擎
0 Token 间间隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎极限优化 TPS
大模型推理引擎的基本工作模式可以概括为,接收包括输入prompt和采样参数的并发请求,
分词
并且组装成batch输入给引擎,调度GPU执行前向推理,处理计算结果并转为词元返回给用户。
·
2025-03-24 15:38
百度云大模型gpu
客服机器人怎么才能精准的回答用户问题?
以下是关键策略和步骤:1.精准理解用户意图自然语言处理(NLP)技术
分词
与实体识别:提取关键词(如“订单号”“退货”)和实体(如时间、地点)。
玩人工智能的辣条哥
·
2025-03-23 09:13
AI面试
机器人
客服机器人
自然语言处理(5)—— 中文
分词
中文
分词
的基本原理及实现1.什么是词2.基本原理3.发展趋势:多数场景无需显式
分词
信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。
隐私无忧
·
2025-03-23 06:11
人工智能
#
自然语言处理
自然语言处理
中文分词
人工智能
JAVA代码实现ElasticSearch搜索(入门-进阶)(一):搜索方法、多字段查询、高亮展示
一、搜索方法对比首先存入一条数据count="ilikeeatingandkuing"默认
分词
器应该将内容分为“i”“like”“eating”“and”“kuing”1.QueryBuilders.matchQuery
majunssz
·
2025-03-23 03:46
elasticsearch
elasticsearch
将MySQL数据同步到Elasticsearch作为
全文检索
数据的实战指南
在现代应用中,
全文检索
是一个非常重要的功能,尤其是在处理大量数据时。Elasticsearch是一个强大的分布式搜索引擎,能够快速地进行
全文检索
、分析和可视化。
格子先生Lab
·
2025-03-22 19:47
全文检索
mysql
elasticsearch
MiniMind
数据集分类:tokenizer训练集:这个数据集用于训练
分词
器(tokenizer),是文本处理中的一个重要步骤。它可以帮助模型更好地理解文本数据的结构。
亚伯拉罕·黄肯
·
2025-03-22 14:46
大模型
人工智能
Elasticsearch + Docker:实现容器化部署指南
Elasticsearch是一款强大的分布式搜索和分析引擎,广泛应用于日志分析、
全文检索
、实时数据分析等场景。而Docker作为一种轻量级的容器化技术,能够帮助开发者快速部署和管理应用。
IT成长日记
·
2025-03-22 14:09
elasticsearch
docker
容器化部署
jieba库词频统计_jieba
分词
器(应用及字典的补充)及文档高频词提取实战
jieba
分词
器是Python中最好的中文
分词
组件,本文讲解一下jieba
分词
器及其应用。
袁圆园建建
·
2025-03-21 09:16
jieba库词频统计
Mac上传本地项目文件夹到远程Github个人仓库的方法及常见报错处理
最近写NER模型的同时学习参悟了一个开源的项目,做了一些Comments改了点
分词
规则,打算上传到个人Github仓库,上一次本地上传还是用Windows系统,换了Mac发现有一些规则不能用了,好久不用
Uzw
·
2025-03-21 07:29
Git
Mac
git
github
mac
LLM(7):文本
分词
token 化
下面讨论如何将输入文本分割成独立的token,这是为LLM创建嵌入所需的预处理步骤。这些tokens要么是单独的词语,要么是特殊字符,包括标点符号,如图2.4所示。图2.4显示了在LLM背景下文本处理步骤的视图。这里,我们将输入文本分割成独立的token,这些tokens要么是词语,要么是特殊字符,如标点符号。此处用于训练LLM的文本是伊迪斯·沃顿的短篇小说《TheVerdict》,该作品已进入公
CS创新实验室
·
2025-03-21 05:17
大模型
人工智能
深度学习
LLM
TikTokenizer 开源项目教程
tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目,旨在提供一个高效、灵活的文本
分词
工具
邱纳巧Gillian
·
2025-03-20 03:45
从关键词到权重:TF-IDF算法解析
拆解关键词的“价值”三、TF-IDF的应用:从搜索引擎到文本挖掘四、代码实现:从《红楼梦》中提取核心关键词1、分卷处理1.1代码功能1.2代码实现1.2.1、读取文件1.2.2逐行处理1.2.3.关闭文件2、
分词
与停用词过滤
多巴胺与内啡肽.
·
2025-03-19 23:34
机器学习
tf-idf
算法
机器学习
Dify知识库构建流程及示例
分词
/标记化:拆分文本为单词或子词单元(如使用Tokenizer)。元数据关联:附加来源、时间戳等信息,支持多维度检索。2.文本分块固定长度分块:按字符或Token数切分,简单高效。
cqbelt
·
2025-03-19 14:54
ai
笔记
AI应用
基于关键词的文本知识的挖掘系统的设计与实现
方法上,该系统先对输入的文本进行预处理,包括
分词
、去除停用词等操作,然后基于关键词匹配算法从文本中提取相关信息,最后将提取的知识进行整理和存储。通过实际测试,该系统能够在平均3秒内对一篇5000
赵谨言
·
2025-03-18 03:03
论文
毕业设计
经验分享
Java面试系列-ElasticSearch面试题20道,文档,索引,搜索,聚合,
分词
器,集群管理,索引模版,数据备份和恢复,安全机制,集群扩展,实时搜索,索引生命周期,节点发现,批量操作,基本架构
7.Elasticsearch中的
分词
器是如何工作的?8.El
图苑
·
2025-03-17 19:59
java
面试
elasticsearch
ES的预置
分词
器
Elasticsearch(简称ES)提供了多种预置的
分词
器(Analyzer),用于对文本进行
分词
处理。
阿湯哥
·
2025-03-17 11:05
elasticsearch
服务器
linux
MySQL 全文搜索 (FULLTEXT) vs 合并字段模糊查询 (LIKE) 对比
分词
搜索:FULLTEXT支持
分词
搜索(基于空格或特定字符),可以快速定位关键词。性能更好:对于大文本字段或多字段联合搜索,FULLTEXT
曹天骄
·
2025-03-15 23:37
mysql
数据库
LLM之Colossal-LLaMA-2:源码解读(init_tokenizer.py文件)实现基于源词表的扩展、(init_model.py文件)实现过计算均值扩展模型、(prepare_pretr
LLM之Colossal-LLaMA-2:源码解读(init_tokenizer.py文件)实现基于jsonl文件中读取新词列表(新中文词汇)→for循环去重实现词表的扩展(中文标记的新词汇)→保存新的
分词
模型
一个处女座的程序猿
·
2025-03-15 18:38
CaseCode
NLP/LLMs
精选(人工智能)-中级
Colossal
LLaMA-2
自然语言处理
LLMs之Colossal-LLaMA-2:源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插
Colossal-LLaMA-2:源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件)→数据预处理(初始化
分词
器
一个处女座的程序猿
·
2025-03-15 18:38
NLP/LLMs
精选(人工智能)-中级
Colossal-AI
LLaMA-2
大语言模型
自然语言处理
python 基于混合式推荐算法的学术论文投稿系统
-对文本数据进行预处理(
分词
、去停用词、向量化等)。2.推荐算法设计
mosquito_lover1
·
2025-03-15 17:25
python
知识图谱
数学建模之数学模型-3:动态规划
文章目录动态规划基本概念阶段状态决策策略状态转移方程指标函数最优指标函数动态规划的求解前向算法后向算法二者比较应用案例一种中文
分词
的动态规划模型摘要引言动态规划的
分词
模型问题的数学描述消除状态的后效性选择优化条件算法描述和计算实例算法的效率分析和评价结束语参考文献动态规划基本概念一个多阶段决策过程最优化问题的动态规划模型包括以下
^ω^宇博
·
2025-03-15 08:13
数学模型
数学建模
动态规划
算法
DeepSeek面试——
分词
算法
DeepSeek-V3
分词
算法一、核心算法:字节级BPE(Byte-levelBPE,BBPE)DeepSeek-V3采用字节级BPE(BBPE)作为核心
分词
算法,这是对传统BPE(BytePairEncoding
mzgong
·
2025-03-15 00:27
人工智能
算法
C# JIEBA.NET
分词
器开发指南
JIEBA.NET是Jieba
分词
器的.NET实现版本。Jieba是一个流行的中文
分词
工具,最初是用Python编写的,而JIEBA.NET将其移植到了.NET平台。
老胖闲聊
·
2025-03-14 15:12
C#
c#
.net
开发语言
纯前端
全文检索
的两种实现方案:ElasticLunr.js 和 libsearch
纯前端
全文检索
的两种实现方案:ElasticLunr.js和libsearch在前端开发中,实现
全文检索
功能可以显著提升用户体验,尤其是在处理大量文本数据时。
传而习乎
·
2025-03-13 18:12
前端
全文检索
javascript
LLM填坑:训练自己的
分词
器-Tokenizer
说明:文本搬运以下文章,略微调整,有需求可参考原文。paper:https://zhuanlan.zhihu.com/p/625715830code:Chatterbox/example/TrainTokenizersExample/train_tokenizers.pyatmain·enze5088/Chatterbox·GitHubHuaggingface教程:
微风❤水墨
·
2025-03-13 08:53
LLM
&
AIGC
&
VLP
人工智能
LLM填坑:训练自己的
分词
器-Tokenizer 2
tokenizer_config.json
分词
器的配置信息,定义了
分词
器的版本、额外添加的标记(tokens)、结构/代码和模型参数等信息,比如
微风❤水墨
·
2025-03-13 08:53
LLM
&
AIGC
&
VLP
LLM
tokenizer
2024-05-21 问AI: 介绍一下大语言模型的推理过程。
以下是该过程的主要步骤:输入文本的解析:当用户输入一段文本时,大语言模型首先会通过一个称为
分词
器的工具(tokenizer)对输入文本进行解析。
BigSharkTech 必杀技
·
2025-03-12 22:14
用AI来理解AI
人工智能
语言模型
自然语言处理
论文摘要生成器:用TextRank算法实现文献关键信息提取
jieba:中文
分词
库,用于中文文本的处理。re:正则表达式模块,用于文本清理和句子分割。numpy:提供数值计算能力,如数组操作、矩阵运算等,主要用于TextRank算法的实现。
Atlas Shepherd
·
2025-03-12 21:10
python
算法
自然语言处理
python
信息可视化
Elasticsearch(ES)详解:从入门到实践
本文目标:介绍Elasticsearch的基本概念、架构设计、配置优化、常见应用以及实际案例,帮助开发者掌握ES1.Elasticsearch概述Elasticsearch的背景和发展历程核心功能:
全文检索
坚持蛊
·
2025-03-11 18:44
elasticsearch
jenkins
大数据
【LLM】预训练的具体流程
分词
器训练预训练模型:就像你已经学会了一些基础知识的“大脑”,我们可以在这个基础上继续学习新东西。比如,有些模型已经学会了英语,但中文学得不够好。
FOUR_A
·
2025-03-11 17:05
LLM
python
人工智能
深度学习
大模型
【LLM】从零开始实现 LLaMA3
分词
器在这里,我们不会实现一个BPE
分词
器(但AndrejKarpathy有一个非常简洁的实现)。
FOUR_A
·
2025-03-11 15:21
LLM
人工智能
机器学习
大模型
llama
算法
基于transformer实现机器翻译(日译中)
含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备
分词
器
小白_laughter
·
2025-03-11 15:46
课程学习
transformer
机器翻译
深度学习
java ik
分词
器
org.apache.lucenelucene-core7.4.0org.apache.lucenelucene-analyzers-common7.4.0com.github.mageseik-analyzer8.5.0publicstaticvoidmain(String[]args)throwsException{Stringtext="今天是个好日子";//创建一个StringReader
大波V5
·
2025-03-11 11:49
java
开发语言
doris:Elasticsearch
ElasticsearchCatalog除了支持自动映射ES元数据外,也可以利用Doris的分布式查询规划能力和ES(Elasticsearch)的
全文检索
能力相结合,提供更完善的OLAP分析场景解决方案
向阳1218
·
2025-03-11 07:20
大数据
doris
Elasticsearch在Linux环境下部署(单机版)
2.2修改内存参数2.3创建ES专属用户2.4修改ES核心配置信息3.配置Elasticsearch的用户名密码3.1编辑配置文件3.2重启es服务3.3设置用户名密码3.4验证是否生效4.安装ik中文
分词
器
Handsome Mr.Li
·
2025-03-11 06:11
elasticsearch
elasticsearch
linux
搜索引擎
关于自然语言处理(三)深度学习中的文字序列数据的
分词
操作
深度学习中的文字序列数据二维文字序列在文字数据中,样本与样本之间的联系是语义的联系,语义的联系即是词与词之间、字与字之间的联系,因此在文字序列中每个样本是一个单词或一个字(对英文来说大部分时候是一个单词,偶尔也可以是更小的语言单位,如字母或半词),故而在中文文字数据中,一张二维表往往是一个句子或一段话,而单个样本则表示单词或字。此时,不能够打乱顺序的维度是vocab_size,它代表了一个句子/一
MatrixSparse
·
2025-03-09 18:29
大模型
人工智能
自然语言处理
深度学习
人工智能
Java项目中ES作为时序库
高效的查询与分析倒排索引:对文本字段(如标签)的
分词
处理,支持快速多条件匹配(如tagslike‘%tag1%’ANDtagslike
大丈夫在世当日食一鲲
·
2025-03-08 15:36
java
elasticsearch
开发语言
Lucene初探之总体架构
从总体上来说,Lucene的可以被概括为三点:高效、可扩展的
全文检索
库;基于Java实现;支持对纯文本文件进行索引可搜索;Lucene的工作流程和架构如下所示:通过该图片,我们可以看出,Lucene的工作流程可以被分为两个部分
Derrick_gu
·
2025-03-07 19:38
java
Lucene
架构
文档
对象
搜索
Lucene
大模型中的Token究竟是什么?从原理到作用深度解析
Token化技术全景图核心处理流程原始文本→预处理→
分词
算法→词表映射→模型输入↓↓↓大小写转换子词拆分策略特殊Token添加标点规
·
2025-03-05 16:48
自然语言处理算法人工智能
基于规则的
分词
基于规则的
分词
基于规则或词典的
分词
方法是一种较为机械的
分词
方法,其基本思想如下。将待
分词
语句中的字符串和词典逐个匹配。找到匹配的字符串则切分,不匹配则减去边缘的某些字符。
李昊哲小课
·
2025-03-05 01:24
人工智能
大数据
数据分析
python
人工智能
中文分词
自然语言处理
爬虫和词云
目录爬虫词云1.1.引入库1.2.设置文件路径2.文本处理2.1读取文本2.2
分词
和过滤2.3统计词频:3.1默认颜色爬虫对于爬虫顾名思义就是爬的虫子,而对于网络上的爬虫的作用是爬取网页上的信息并且把它保存在用户的电脑中我的爬虫是由
一缕白烟
·
2025-03-05 00:47
爬虫
python
numpy
Elasticsearch常用命令
下载地址:https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.17.18-windows-x86_64.zip2、安装
分词
器
墨明&棋妙
·
2025-03-04 23:13
elasticsearch
spring
cloud
全文检索
搜索引擎
MLM: 掩码语言模型的预训练任务
以下是对这一概念的详细说明:基本定义:MLM是一种通过将输入文本中的部
分词
语随机掩盖(即用掩码标记替代),让模型在观察到其他未掩盖词语的情况下,预测这些被掩盖词的任务。
XianxinMao
·
2025-03-04 23:41
语言模型
人工智能
自然语言处理
java 庖丁解牛_“庖丁解牛”
分词
器实现
importjava.io.IOException;importjava.io.StringReader;importnet.paoding.analysis.analyzer.PaodingAnalyzer;importorg.apache.lucene.analysis.Analyzer;importorg.apache.lucene.analysis.Token;importorg.apac
weixin_39813009
·
2025-03-04 10:02
java
庖丁解牛
Elasticsearch(一):安装Elasticsearch + kibana + ik
分词
器
面对这样复杂的搜索业务和数据量,使用传统数据库搜索就显得力不从心,一般我们都会使用
全文检索
技术,比如之前大家学习过的Solr。不过今天,我们要讲的是另一个
Gooooa
·
2025-03-04 04:49
Elasticsearch
elasticsearch安装
es安装
ik分词器
kibana安装
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他