【全文检索】分词

SQLAlchemy关键词搜索技术深度解析：从基础过滤到全文检索

在数据驱动的应用开发中，基于关键词的模糊查询是常见的业务需求。SQLAlchemy作为Python生态中最流行的ORM框架，提供了多种实现关键词搜索的技术方案。本文将从性能、适用场景和技术复杂度三个维度，系统对比分析SQLAlchemy中关键词搜索的最佳实践。一、基础查询过滤：LIKE操作符的局限性技术实现pythonfromsqlalchemyimportcreate_engine,Column

梦想画家·2025-03-26 13:49

MongoDB 与 Elasticsearch 使用场景区别及示例

Elasticsearch‌‌定位‌：分布式搜索引擎，专注于全文检索、近实时分析和海量数据快速查询‌。‌典型场景‌：文本搜索（如电商商品搜索、日志关键词检索）‌。复杂数据分析（

碧海饮冰·2025-03-26 10:23

Elasticsearch 入门到精通-Ansj分词器的安装和使用

一、版本和对应关系pluginelasticsearch7.6.27.6.27.7.07.7.07.7.17.7.17.8.07.8.07.8.17.8.17.9.07.9.07.9.17.9.17.9.27.9.27.9.37.9.3二、安装步骤1、下载安装ES对应PluginRelease版本a.GitHub-NLPchina/elasticsearch-analysis-ansjb.解压el

王stone·2025-03-25 11:01

AI Tokenization

AITokenization人工智能分词初步了解类似现在这个，一格子+一格子，拼接出来的，一行或者一句，像不像，我们人类思考的时候组装出来的话，并用嘴说出来了呢。

spencer_tseng·2025-03-25 11:30

Elasticsearch快速上手与深度进阶：一站式实战教程

基础操作3.1创建索引3.2插入文档3.3查询文档3.4更新文档3.5删除文档4.高级查询4.1布尔查询4.2范围查询4.3通配符查询5.聚合分析5.1统计年龄分布5.2计算平均值6.自定义分析器6.1创建分词器

LCG元·2025-03-24 22:56

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

大模型推理引擎的基本工作模式可以概括为，接收包括输入prompt和采样参数的并发请求，分词并且组装成batch输入给引擎，调度GPU执行前向推理，处理计算结果并转为词元返回给用户。

·2025-03-24 15:38

客服机器人怎么才能精准的回答用户问题？

以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。

玩人工智能的辣条哥·2025-03-23 09:13

自然语言处理（5）—— 中文分词

中文分词的基本原理及实现1.什么是词2.基本原理3.发展趋势：多数场景无需显式分词信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。

隐私无忧·2025-03-23 06:11

JAVA代码实现ElasticSearch搜索（入门-进阶）(一):搜索方法、多字段查询、高亮展示

一、搜索方法对比首先存入一条数据count="ilikeeatingandkuing"默认分词器应该将内容分为“i”“like”“eating”“and”“kuing”1.QueryBuilders.matchQuery

majunssz·2025-03-23 03:46

将MySQL数据同步到Elasticsearch作为全文检索数据的实战指南

在现代应用中，全文检索是一个非常重要的功能，尤其是在处理大量数据时。Elasticsearch是一个强大的分布式搜索引擎，能够快速地进行全文检索、分析和可视化。

格子先生Lab·2025-03-22 19:47

MiniMind

数据集分类：tokenizer训练集：这个数据集用于训练分词器（tokenizer），是文本处理中的一个重要步骤。它可以帮助模型更好地理解文本数据的结构。

亚伯拉罕·黄肯·2025-03-22 14:46

Elasticsearch + Docker：实现容器化部署指南

Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。

IT成长日记·2025-03-22 14:09

jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战

jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。

袁圆园建建·2025-03-21 09:16

Mac上传本地项目文件夹到远程Github个人仓库的方法及常见报错处理

最近写NER模型的同时学习参悟了一个开源的项目，做了一些Comments改了点分词规则，打算上传到个人Github仓库，上一次本地上传还是用Windows系统，换了Mac发现有一些规则不能用了，好久不用

Uzw·2025-03-21 07:29

LLM(7)：文本分词 token 化

下面讨论如何将输入文本分割成独立的token，这是为LLM创建嵌入所需的预处理步骤。这些tokens要么是单独的词语，要么是特殊字符，包括标点符号，如图2.4所示。图2.4显示了在LLM背景下文本处理步骤的视图。这里，我们将输入文本分割成独立的token，这些tokens要么是词语，要么是特殊字符，如标点符号。此处用于训练LLM的文本是伊迪斯·沃顿的短篇小说《TheVerdict》，该作品已进入公

CS创新实验室·2025-03-21 05:17

TikTokenizer 开源项目教程

tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目，旨在提供一个高效、灵活的文本分词工具

邱纳巧Gillian·2025-03-20 03:45

从关键词到权重：TF-IDF算法解析

拆解关键词的“价值”三、TF-IDF的应用：从搜索引擎到文本挖掘四、代码实现：从《红楼梦》中提取核心关键词1、分卷处理1.1代码功能1.2代码实现1.2.1、读取文件1.2.2逐行处理1.2.3.关闭文件2、分词与停用词过滤

多巴胺与内啡肽.·2025-03-19 23:34

Dify知识库构建流程及示例

分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。

cqbelt·2025-03-19 14:54

基于关键词的文本知识的挖掘系统的设计与实现

方法上，该系统先对输入的文本进行预处理，包括分词、去除停用词等操作，然后基于关键词匹配算法从文本中提取相关信息，最后将提取的知识进行整理和存储。通过实际测试，该系统能够在平均3秒内对一篇5000

赵谨言·2025-03-18 03:03

Java面试系列-ElasticSearch面试题20道，文档，索引，搜索，聚合，分词器，集群管理，索引模版，数据备份和恢复，安全机制，集群扩展，实时搜索，索引生命周期，节点发现，批量操作，基本架构

7.Elasticsearch中的分词器是如何工作的？8.El

图苑·2025-03-17 19:59

ES的预置分词器

Elasticsearch（简称ES）提供了多种预置的分词器（Analyzer），用于对文本进行分词处理。

阿湯哥·2025-03-17 11:05

MySQL 全文搜索 (FULLTEXT) vs 合并字段模糊查询 (LIKE) 对比

分词搜索：FULLTEXT支持分词搜索（基于空格或特定字符），可以快速定位关键词。性能更好：对于大文本字段或多字段联合搜索，FULLTEXT

曹天骄·2025-03-15 23:37

LLM之Colossal-LLaMA-2：源码解读(init_tokenizer.py文件)实现基于源词表的扩展、(init_model.py文件)实现过计算均值扩展模型、(prepare_pretr

LLM之Colossal-LLaMA-2：源码解读(init_tokenizer.py文件)实现基于jsonl文件中读取新词列表(新中文词汇)→for循环去重实现词表的扩展(中文标记的新词汇)→保存新的分词模型

一个处女座的程序猿·2025-03-15 18:38

LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插

Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件)→数据预处理(初始化分词器

一个处女座的程序猿·2025-03-15 18:38

python 基于混合式推荐算法的学术论文投稿系统

-对文本数据进行预处理（分词、去停用词、向量化等）。2.推荐算法设计

mosquito_lover1·2025-03-15 17:25

数学建模之数学模型-3：动态规划

文章目录动态规划基本概念阶段状态决策策略状态转移方程指标函数最优指标函数动态规划的求解前向算法后向算法二者比较应用案例一种中文分词的动态规划模型摘要引言动态规划的分词模型问题的数学描述消除状态的后效性选择优化条件算法描述和计算实例算法的效率分析和评价结束语参考文献动态规划基本概念一个多阶段决策过程最优化问题的动态规划模型包括以下

^ω^宇博·2025-03-15 08:13

DeepSeek面试——分词算法

DeepSeek-V3分词算法一、核心算法：字节级BPE（Byte-levelBPE，BBPE）DeepSeek-V3采用字节级BPE（BBPE）作为核心分词算法，这是对传统BPE（BytePairEncoding

mzgong·2025-03-15 00:27

C# JIEBA.NET分词器开发指南

JIEBA.NET是Jieba分词器的.NET实现版本。Jieba是一个流行的中文分词工具，最初是用Python编写的，而JIEBA.NET将其移植到了.NET平台。

老胖闲聊·2025-03-14 15:12

纯前端全文检索的两种实现方案：ElasticLunr.js 和 libsearch

纯前端全文检索的两种实现方案：ElasticLunr.js和libsearch在前端开发中，实现全文检索功能可以显著提升用户体验，尤其是在处理大量文本数据时。

传而习乎·2025-03-13 18:12

LLM填坑：训练自己的分词器-Tokenizer

说明：文本搬运以下文章，略微调整，有需求可参考原文。paper:https://zhuanlan.zhihu.com/p/625715830code:Chatterbox/example/TrainTokenizersExample/train_tokenizers.pyatmain·enze5088/Chatterbox·GitHubHuaggingface教程：

微风❤水墨·2025-03-13 08:53

LLM填坑：训练自己的分词器-Tokenizer 2

tokenizer_config.json分词器的配置信息，定义了分词器的版本、额外添加的标记（tokens）、结构/代码和模型参数等信息，比如

微风❤水墨·2025-03-13 08:53

2024-05-21 问AI: 介绍一下大语言模型的推理过程。

以下是该过程的主要步骤：输入文本的解析：当用户输入一段文本时，大语言模型首先会通过一个称为分词器的工具（tokenizer）对输入文本进行解析。

BigSharkTech 必杀技·2025-03-12 22:14

论文摘要生成器：用TextRank算法实现文献关键信息提取

jieba：中文分词库，用于中文文本的处理。re：正则表达式模块，用于文本清理和句子分割。numpy：提供数值计算能力，如数组操作、矩阵运算等，主要用于TextRank算法的实现。

Atlas Shepherd·2025-03-12 21:10

Elasticsearch（ES）详解：从入门到实践

本文目标：介绍Elasticsearch的基本概念、架构设计、配置优化、常见应用以及实际案例，帮助开发者掌握ES1.Elasticsearch概述Elasticsearch的背景和发展历程核心功能：全文检索

坚持蛊·2025-03-11 18:44

【LLM】预训练的具体流程

分词器训练预训练模型：就像你已经学会了一些基础知识的“大脑”，我们可以在这个基础上继续学习新东西。比如，有些模型已经学会了英语，但中文学得不够好。

FOUR_A·2025-03-11 17:05

【LLM】从零开始实现 LLaMA3

分词器在这里，我们不会实现一个BPE分词器（但AndrejKarpathy有一个非常简洁的实现）。

FOUR_A·2025-03-11 15:21

基于transformer实现机器翻译(日译中)

含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器

小白_laughter·2025-03-11 15:46

java ik分词器

org.apache.lucenelucene-core7.4.0org.apache.lucenelucene-analyzers-common7.4.0com.github.mageseik-analyzer8.5.0publicstaticvoidmain(String[]args)throwsException{Stringtext="今天是个好日子";//创建一个StringReader

大波V5·2025-03-11 11:49

doris：Elasticsearch

ElasticsearchCatalog除了支持自动映射ES元数据外，也可以利用Doris的分布式查询规划能力和ES(Elasticsearch)的全文检索能力相结合，提供更完善的OLAP分析场景解决方案

向阳1218·2025-03-11 07:20

Elasticsearch在Linux环境下部署(单机版)

2.2修改内存参数2.3创建ES专属用户2.4修改ES核心配置信息3.配置Elasticsearch的用户名密码3.1编辑配置文件3.2重启es服务3.3设置用户名密码3.4验证是否生效4.安装ik中文分词器

Handsome Mr.Li·2025-03-11 06:11

关于自然语言处理（三）深度学习中的文字序列数据的分词操作

深度学习中的文字序列数据二维文字序列在文字数据中，样本与样本之间的联系是语义的联系，语义的联系即是词与词之间、字与字之间的联系，因此在文字序列中每个样本是一个单词或一个字（对英文来说大部分时候是一个单词，偶尔也可以是更小的语言单位，如字母或半词），故而在中文文字数据中，一张二维表往往是一个句子或一段话，而单个样本则表示单词或字。此时，不能够打乱顺序的维度是vocab_size，它代表了一个句子/一

MatrixSparse·2025-03-09 18:29

Java项目中ES作为时序库

高效的查询与分析倒排索引：对文本字段（如标签）的分词处理，支持快速多条件匹配（如tagslike‘%tag1%’ANDtagslike

大丈夫在世当日食一鲲·2025-03-08 15:36

Lucene初探之总体架构

从总体上来说，Lucene的可以被概括为三点：高效、可扩展的全文检索库；基于Java实现；支持对纯文本文件进行索引可搜索；Lucene的工作流程和架构如下所示：通过该图片，我们可以看出，Lucene的工作流程可以被分为两个部分

Derrick_gu·2025-03-07 19:38

大模型中的Token究竟是什么？从原理到作用深度解析

Token化技术全景图核心处理流程原始文本→预处理→分词算法→词表映射→模型输入↓↓↓大小写转换子词拆分策略特殊Token添加标点规

·2025-03-05 16:48

基于规则的分词

基于规则的分词基于规则或词典的分词方法是一种较为机械的分词方法，其基本思想如下。将待分词语句中的字符串和词典逐个匹配。找到匹配的字符串则切分，不匹配则减去边缘的某些字符。

李昊哲小课·2025-03-05 01:24

爬虫和词云

目录爬虫词云1.1.引入库1.2.设置文件路径2.文本处理2.1读取文本2.2分词和过滤2.3统计词频:3.1默认颜色爬虫对于爬虫顾名思义就是爬的虫子，而对于网络上的爬虫的作用是爬取网页上的信息并且把它保存在用户的电脑中我的爬虫是由

一缕白烟·2025-03-05 00:47

Elasticsearch常用命令

下载地址：https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.17.18-windows-x86_64.zip2、安装分词器

墨明&棋妙·2025-03-04 23:13

MLM: 掩码语言模型的预训练任务

以下是对这一概念的详细说明：基本定义：MLM是一种通过将输入文本中的部分词语随机掩盖（即用掩码标记替代），让模型在观察到其他未掩盖词语的情况下，预测这些被掩盖词的任务。

XianxinMao·2025-03-04 23:41

java 庖丁解牛_“庖丁解牛” 分词器实现

importjava.io.IOException;importjava.io.StringReader;importnet.paoding.analysis.analyzer.PaodingAnalyzer;importorg.apache.lucene.analysis.Analyzer;importorg.apache.lucene.analysis.Token;importorg.apac

weixin_39813009·2025-03-04 10:02

Elasticsearch（一）：安装Elasticsearch + kibana + ik分词器

面对这样复杂的搜索业务和数据量，使用传统数据库搜索就显得力不从心，一般我们都会使用全文检索技术，比如之前大家学习过的Solr。不过今天，我们要讲的是另一个

Gooooa·2025-03-04 04:49

推荐频道