E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
ICTCLAS分词
Python:第三方库
pipinstallmatplotlibPIL图像处理pipinstallpillowsklearn机器学习和数据挖掘pipinstallsklearnRequestsHTTP协议访问pipinstallrequestsJieba中文
分词
衍生星球
·
2025-02-16 20:00
python
第三方库
【科普】大模型应用中一个 Token 占多少汉字?答案超乎想象!
如腾讯1token≈1.8个汉字,通义千问、千帆大模型等1token=1个汉字,对于英文文本来说,1个token通常对应3至4个字母,不同的模型对相同的输入
分词
,
分词
结果是不一样的。
大模型.
·
2025-02-16 19:53
easyui
前端
人工智能
程序人生
语言模型
文心一言
自然语言处理
算法练习|Leetcode49字母异位词
分词
,Leetcode128最长连续序列,Leetcode3无重复字符的最长子串,sql总结
目录一、Leetcode49字母异位词
分词
题目描述解题思路方法:哈希总结二、Leetcode128最长连续序列题目描述解题思路方法:总结三、Leetcode3无重复字符的最长子串题目描述解题思路方法:双指针法总结
ambitious_Rgr
·
2025-02-16 16:05
算法
sql
哈希
哈希算法
数据结构
leetcode
python
微服务es搜索关键词,实现关键词高亮,来自黑马头条的总结
数据库中查询实现的效果,要求从标题和内容中搜索关键词,然后让关键词高亮步骤ElasticSearch环境搭建索引库创建文章搜索多条件复合查询索引数据同步ElasticSearch环境搭建这些都是死步骤,直接cvik
分词
器下载地址
菜鸡且互啄69
·
2025-02-16 15:26
elasticsearch
大数据
搜索引擎
java
golang使用redis实现全文搜索
简介使用redis实现全部文章精确到段落的搜索实现思路文章分段,使用一张表单独记录下段落信息段落
分词
,把段落划分成词
分词
后使用有序集合记录到redis中,每个词语后记录含有该
分词
的段落ID集使用一个哈希键记录下每个段落的
分词
千年死缓
·
2025-02-16 07:52
golang
redis
开发语言
【Elasticsearch】文本分析Text analysis概述
分析通过
分词
实现全文搜索:将文本分解成更小的单元,称为词
risc123456
·
2025-02-14 10:05
Elasticsearch
elasticsearch
【Elasticsearch】token filter
分词
过滤器
以下是Elasticsearch中常见的
分词
过滤器(TokenFilter)的详细说明,基于搜索结果中的信息整理:1.Apostrophe•功能:处理文本中的撇号(apostrophe),例如将“O'Reilly
risc123456
·
2025-02-14 06:40
Elasticsearch
elasticsearch
【Elasticsearch】字符过滤器Character Filters
在Elasticsearch中,字符过滤器(CharacterFilters)是文本分析器的重要组成部分,用于在
分词
之前对原始文本进行预处理。它们可以对字符流进行转换,例如添加、删除或更改字符。
risc123456
·
2025-02-14 06:40
Elasticsearch
elasticsearch
【Elasticsearch】
分词
器概述
Elasticsearch
分词
与神经网络
分词
的区别Elasticsearch的
分词
过程产生的是优化用于搜索和检索的语言学
分词
。这与机器学习和自然语言处理中的神经
分词
不同。
risc123456
·
2025-02-13 22:28
Elasticsearch
elasticsearch
Python NLP 自然语言处理
PythonNLP自然语言处理"""基于https://github.com/isnowfy/snownlp$pipinstallsnownlp"""fromsnownlpimportSnowNLP#
分词
简简单单OnlineZuozuo
·
2025-02-13 09:19
m1
Python
领域
python
自然语言处理
开发语言
LTP/pyltp安装和使用教程
文章目录LTP介绍分句
分词
加载外部词典个性化
分词
词性标注命名实体识别NER依存句法分析语义角色标注LTP介绍官网:https://ltp.ai/下载可以到官网的下载专区:https://ltp.ai/download.html
Cachel wood
·
2025-02-11 19:16
自然语言处理nlp
easyui
前端
javascript
pyltp
ltp
人工智能
nlp
docker pgsql实现pg_jieba全文检索
安装pg_jieba
分词
器安装依赖工具查看docker运行的所有容器dockerps进入pg数据库容器dockerexec-itpostgres4postgisbash安装必要的工具和依赖apt-getinstall-ygitbuild-essentialcmakelibpq-devpostgresql-server-dev-all
敏捷利齐
·
2025-02-11 13:05
SQL
docker
全文检索
容器
0 Token 间间隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎极限优化 TPS
大模型推理引擎的基本工作模式可以概括为,接收包括输入prompt和采样参数的并发请求,
分词
并且组装成batch输入给引擎,调度GPU执行前向推理,处理计算结果并转为词元返回给用户。
·
2025-02-11 11:44
百度云大模型gpu
jieba库的使用
中文文本需要
分词
获得单个的词语
分词
依靠中文词库,确定汉字之间的关联概率除了
分词
,用户还可以添加自定义的词组;精确模式:把文本精确分开,不存在冗余模式全模式:把文本中所有可能的词语都扫描出来,有冗余搜索引擎模式
è¤è²çåºå
·
2025-02-11 04:52
Python相关知识
python --jieba
分词
jieba库是什么jieba库中文
分词
第三方库,中文文本需要通过
分词
获得单个的词语。
好好学习的顾顾
·
2025-02-10 14:38
python
二级备考
python
LLM 中的 vocabulary 和 embedding vector
这个过程通常分为两个步骤:
分词
(Tokenization)将输入的自然语言文本按照某种规则分割成一系列的token,可以是单词、子词或者字符等。
Overman..
·
2025-02-10 04:33
LLM
embedding
人工智能
LLM
大模型
NLP_[2]-认识文本预处理
1文本预处理及其作用2.文本预处理中包含的主要环节2.1文本处理的基本方法2.2文本张量表示方法2.3文本语料的数据分析2.4文本特征处理2.5数据增强方法2.6重要说明2文本处理的基本方法1.什么是
分词
闵少搞AI
·
2025-02-10 03:57
NLP
自然语言处理
人工智能
想做 Python 聊天机器人,有什么好用的中文
分词
、数据挖掘、AI方面的 Python 库或者开源项目推荐
想做Python聊天机器人,有什么好用的中文
分词
、数据挖掘、AI方面的Python库或者开源项目推荐?在当今数字化时代,聊天机器人已经成为了连接人与机器的重要桥梁。
xiamu_CDA
·
2025-02-09 20:01
人工智能
python
机器人
Lucene搜索引擎原理与代码实例讲解
Lucene搜索引擎原理与代码实例讲解关键词:搜索引擎,全文检索,倒排索引,查询优化,索引构建,
分词
,评分器1.背景介绍1.1问题由来在信息爆炸的互联网时代,如何高效地管理和搜索信息成为了一个严峻的挑战
杭州大厂Java程序媛
·
2025-02-08 04:41
计算机软件编程原理与应用实践
java
python
javascript
kotlin
golang
架构
人工智能
ElasticSearch IK热词自动热更新原理与Golang实现
热更新概述ik
分词
器本身可以从配置文件加载扩张词库,也可以从远程HTTP服务器加载。从本地加载,则需要重启ES生效,影响比较大。所以,一般我们都会把词库放在远程服务器上。
Go和分布式IM
·
2025-02-07 20:22
Golang学习和进阶
后端开发
elasticsearch
ik热词更新
ik分词器
docker安装es及
分词
器ik
系统是macos,docker是docker-desktop拉取镜像dockerpullbitnami/elasticsearch启动docker镜像dockercreate-e"discovery.type=single-node"\--nameelasticsearch1-p9200:9200-p9300:9300\bitnami/elasticsearch:8.17.1测试是否好使http:
陈墨1234
·
2025-02-07 20:21
docker
elasticsearch
容器
产品经理的人工智能课 02 - 自然语言处理
产品经理的人工智能课02-自然语言处理1自然语言处理是什么2一个NLP算法的例子——n-gram模型3预处理与重要概念3.1
分词
Token3.2词向量化表示与Word2Vec4与大语言模型的交互过程参考链接大语言模型
平头某
·
2025-02-07 05:12
人工智能
产品经理
自然语言处理
【Elasticsearch】学习笔记-p2(索引库操作&文档操作)
1.1mapping映射属性mapping是对索引库中文档的约束,常见的mapping属性包括:type:字段数据类型,常见的简单类型有:字符串:text(可
分词
的文本)、keyword(精确值,例如:
2401_84010836
·
2025-02-06 15:37
程序员
elasticsearch
学习
笔记
.Net / C# 繁体中文 与 简体中文 互相转换, 支持地方特色词汇
还支持日文的新旧转换.OpenCC在.Net中的实现https://github.com/CosineG/OpenCC.NET代码.Net8这里只举例繁体转简体,其他的类似usingOpenCCNET;//初始化字典和
分词
xxxxxue
·
2025-02-06 08:54
C#
.net
c#
繁体中文
繁体
简体
简体中文
日文
Elasticsearch 对于
分词
position 的巧妙设计(qbit)
{"match_phrase":{"name.text":{"query":"sanli"}}}以下测试均使用ES内置的simple
分词
器试验过程直接查看
分词
结果GET_analyze{"analyzer
·
2025-02-05 17:04
关于搜索需求,搜索架构的一切
一、搜索引擎的原理,架构与细节文章:《搜索引擎的原理,架构与细节》内容:全网搜索引擎的架构与流程站内搜索引起的架构与流程搜索引擎原理与核心数据结构:正排,倒排,
分词
,拉链
架构师之路_
·
2025-02-05 02:39
毕设 基于python的搜索引擎设计与实现
文章目录0简介1课题简介2系统设计实现2.1总体设计2.2搜索关键流程2.3推荐算法2.4数据流的实现3实现细节3.1系统架构3.2爬取大量网页数据3.3中文
分词
3.4相关度排序第1个排名算法:根据单词位置进行评分的函数第
A毕设分享家
·
2025-02-04 12:29
python
毕业设计
分词
实现小案例
MySQL并不是一个专门设计用于处理自然语言处理(NLP)或文本
分词
的数据库,但可以通过一些方法和技巧实现基本的
分词
功能,尤其是在处理中文文本或其他语言的应用场景中。
CodingBrother
·
2025-02-03 19:04
性能优化
架构
架构
中文分词
不同模型对 Emoji 和普通文本的处理表现,Emoji的向量嵌入(含测试代码)
分词
时不拆分emoji符号,让emoji成为一个完整的Token。确保
分词
结果与模型兼容,既能表达语义,也能保留emoji的特性。
2301_79306982
·
2025-02-02 13:41
机器学习
人工智能
bert
transformer
pytorch实现简单的情感分析算法
1.数据预处理首先,我们需要对中文文本进行
分词
,并将文本转换为数值形式(如词向量)。可以使用jieba进行
分词
,并使用torchtext或自定义的词汇表将词语转换为索引。
纠结哥_Shrek
·
2025-02-01 15:06
pytorch
人工智能
python
【Elasticsearch 】自定义
分词
器
博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c=1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编程,高并发设计,Springboot和微服务,熟悉Linux,ESXI虚拟化以及云原生Docker和K8s,热衷于探索科技的边界,并将理论知识转化为实际应用。保持对新技术的好奇心,乐于分
程风破~
·
2025-01-30 20:32
Elasticsearch
elasticsearch
大数据
搜索引擎
Synthesia技术浅析(四):自然语言处理
2.过程模型详解2.1文本预处理文本预处理是TTS的第一步,包括
分词
、标点符号处理、数字和日期格式转换等。
分词
(
爱研究的小牛
·
2025-01-30 12:28
AIGC—视频
AIGC—虚拟现实
AIGC—自然语言处理
自然语言处理
人工智能
AIGC
网易云音乐评论生成Wordcloud(词云)
1.2工具Wordcloud词云(pipinstallwordcloud安装即可)jieba
分词
(pipinstalljieba安装即可)第三方网易云API(需配合node.js食用):https://
SCUTJcfeng
·
2025-01-29 18:35
Python
网易云音乐
词云
华为OD机试 - 中文
分词
模拟器(Python/JS/C/C++ 2024 D卷 100分)
一、题目描述给定一个连续不包含空格字符的字符串,该字符串仅包含英文小写字母及英文标点符号(逗号、句号、分号),同时给定词库,对该字符串进行精确
分词
。说明:精确
分词
:字符串
分词
后,不会出现重叠。
哪 吒
·
2025-01-29 12:41
华为od
中文分词
python
Lucene常用的字段类型&lucene检索打分原理
以下是一些常用的Field类型及其底层存储结构:TextField:用途:用于存储文本数据,并对其进行
分词
和索引。
学会了没
·
2025-01-29 05:58
全文检索
lucene
打分
字段
基于centos6.5安装ElasticSearch
前面我们讲述了solr的安装搭建过程,今天讲讲ElasticSearch,ElasticSearch是另一款作为
分词
和搜索的服务器,相比solr,ElasticSearch在做大数据方面更有优势,因为其天然支持分布式
小码农叔叔
·
2025-01-28 21:51
ElasticSearch
linux与容器实战
ElasticSearch
ES安装
es6.7.1
分词
器ik插件安装-和head插件连接es特殊配置
es6.7.1
分词
器ik插件安装-和head插件连接es特殊配置如果对运维课程感兴趣,可以在b站上、A站或csdn上搜索我的账号:运维实战课程,可以关注我,学习更多免费的运维实战技术视频1.查看es6.7.1
运维实战课程
·
2025-01-28 20:47
jenkins
运维
THULAC-Python 使用教程
THULAC-Python使用教程THULAC-PythonTHULAC-Python:由清华大学开发的中文词法分析工具包,提供中文
分词
和词性标注功能。
时昕海Minerva
·
2025-01-28 13:21
【Python】探索自然语言处理的利器:THULAC 中文词法分析库详解
THULAC(THULexicalAnalyzerforChinese)是清华大学开发的一款中文词法分析工具,集成了
分词
和词性标注两大功能。
技术无疆
·
2025-01-28 12:18
Python
人工智能
自然语言处理
人工智能
python
数据挖掘
机器学习
深度学习
神经网络
ES学习二字段类型
1,text当一个字段的内容需要被全文检索时,可以使用text类型,它支持长内容的存储,如文章内容、商品信息等,该类型的字段在保存时会被
分词
器分析,并拆分成多个词项,然后根据拆分后的词项生成对应的索引。
·
2025-01-28 11:58
ElasticSearch技术解析与实战读书笔记
术语及概念索引词term:能够被索引的精确值,索引词可以通过term查询进行准确搜索文本text:一段普通的非结构化文字,通常文本会被分析成一个个的索引词分析analysis:将文本转换为索引词的过程,依赖于
分词
器集群
zhangyankun_csdn
·
2025-01-26 23:01
搜索引擎
elasticsearch
Elasticsearch8.4安装及Java Api Client的使用
目录简介一、ElasticSearch安装二、可视化界面(elasticserach-head)插件安装三、Kibana的安装四、ES核心概念五、IK
分词
器六、Rest风格说明:ES推荐使用的七、关于索引的操作
风於尘
·
2025-01-26 20:40
springboot
elasticsearch
java
开发语言
elasticsearch
spring
boot
大模型中的
分词
技术 BBPE
一、OOV问题和多语言场景在自然语言处理(NLP)中,OOV(Out-of-Vocabulary)问题是指模型在处理文本时遇到未在词表中出现过的词汇,导致无法有效处理这些词汇的情况。这一问题在多语言场景中尤为突出,因为不同语言在词汇、语法结构和表达方式上存在显著差异,单一语言的词表难以全面覆盖多语言的复杂性。在多语言场景下的NLP任务中(如机器翻译、跨语言文本分类等),模型需要处理多种语言的混合文
禅与计算机技术
·
2025-01-26 01:05
深度学习
大模型
NLP
深度学习
nlp
中文分词
机器学习
【自然语言处理(NLP)】jieba
分词
的使用(
分词
模式、关键词提取)
文章目录介绍jieba
分词
的使用1.安装2.jieba
分词
模式2.1精确模式2.2全模式2.3搜索引擎模式2.4词性标注2.5加载自己的
分词
文件3.查看词频4.关键词提取个人主页:道友老李欢迎加入社区:
道友老李
·
2025-01-25 23:49
自然语言处理(NLP)
自然语言处理
人工智能
SpringBoot整合Easy-Es
删除、查询索引3.4创建一个实体类3.5新建Mapper类,类似Mybatis的dao3.6启动类扫描dao四、代码展示五、原生Api调用5.1查看索引mapping关系5.2查看某个文档,具体字段的
分词
今天的接口写完了吗?
·
2025-01-25 05:06
elasticsearch
spring
boot
elasticsearch
后端
【自然语言处理(NLP)】NLTK的使用(分句、
分词
、词频提取)
文章目录介绍NLTK主要功能模块安装使用分句
分词
去除标点符号去除停用词stopword噪音单词,词频提取个人主页:道友老李欢迎加入社区:道友老李的学习社区介绍自然语言处理(NaturalLanguageProcessing
道友老李
·
2025-01-24 14:14
自然语言处理(NLP)
自然语言处理
人工智能
mysql5.7全文检索方案,深度解析MySQL 5.7之中文全文检索
缘由是他从来都使用空格来作为
分词
的分隔符,而对于中文来讲,显然用空格就不合适,需要针对中文语义进行
分词
。
渚熏
·
2025-01-24 13:06
mysql5.7全文检索方案
mysql 5.7全文索引_MySql5.7 使用全文索引
缘由是他从来都使用空格来作为
分词
的分隔符,而对于中文来讲,显然用空格就不合适,需要针对中文语义进行
分词
。
wonder-yyc
·
2025-01-24 13:36
mysql
5.7全文索引
mysql5.7中文全文检索,让MySQL支持中文全文检索
因为中文词间并没有明显的区隔,所以中文的
分词
是按照字典、词库的匹配和词的频度统计,或是基于句法、语法分析的
分词
,而MySQL并不具备此功能,所以MySQL对中文全文检索的支持几乎为零。
无我的舞者
·
2025-01-24 13:05
mysql5.7中文全文检索
自动检测和机器审核系统实现
文本预处理步骤细节:2.关键词检测步骤细节:3.情感分析与情境理解步骤细节:4.机器学习模型训练步骤细节:5.深度学习模型步骤细节:6.多模态审查步骤细节:7.用户行为分析与违规预测步骤细节:总结二、常用的
分词
工具
╰つ゛木槿
·
2025-01-24 05:55
java
easyui
javascript
python
java
自然语言处理
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他