E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分词算法
山东大学2020-2021春季web数据管理期末考试
一、填空题(30空,只记得这些了)DFS比BFS好处在于爬虫礼貌性BM25三个参数词项处理——文档解析、词条化、词项归一化、次干还原、词型归并三种
分词算法
统计语言模型的定义LBP定义tamura的特征颜色矩二
Joheey
·
2025-06-13 12:55
山东大学
web数据管理
基于本体的自动问答系统
自然语言处理的一个分支–自动问答系统本体(Ontology)的应用:(1)信息检索(2)自动问答分词停用此词处理相似度计算词语相似度计算句子相似度计算改进(1)
分词算法
(2)词语相似度计算的算法(3)句子相似度计算的算法提高
奇文王语
·
2025-06-03 22:46
自然语言处理
语言
自动
信息检索
搜索领域新宠儿:全文检索深度剖析
搜索领域新宠儿:全文检索深度剖析关键词:全文检索、倒排索引、
分词算法
、查询处理、相关性排序、搜索引擎、信息检索摘要:本文深入探讨全文检索技术的核心原理和实现细节。
搜索引擎技术
·
2025-05-16 10:40
全文检索
django
python
ai
深入解析 Transformers 框架(五):嵌入(Embedding)机制和 Word2Vec 词嵌入模型实战
mp.weixin.qq.com/s/qL9vpmNIM1eO9_lQq7QwlA通过前面几篇关于Transformers框架的技术文章,我们探讨了大模型的配置、分词器和BPE(Byte-PairEncoding)
分词算法
老牛同学
·
2025-05-09 09:14
AI
AI
transformers
embedding
word2vec
人工智能
BPE(Byte Pair Encoding,字节对编码)
BPE(BytePairEncoding,字节对编码是一种常用的子词
分词算法
,在自然语言处理(NLP)中用于将文本分割成更小的单位,例如子词或字符序列。
CyreneSimon
·
2025-04-08 16:16
nlp
人工智能
DeepSeek面试——
分词算法
DeepSeek-V3
分词算法
一、核心算法:字节级BPE(Byte-levelBPE,BBPE)DeepSeek-V3采用字节级BPE(BBPE)作为核心
分词算法
,这是对传统BPE(BytePairEncoding
mzgong
·
2025-03-15 00:27
人工智能
算法
大模型中的Token究竟是什么?从原理到作用深度解析
Token化技术全景图核心处理流程原始文本→预处理→
分词算法
→词表映射→模型输入↓↓↓大小写转换子词拆分策略特殊Token添加标点规
·
2025-03-05 16:48
自然语言处理算法人工智能
Jieba
分词算法
应用
1.Jieba
分词算法
简介Jieba是一个用于中文分词的Python库,其核心思想是基于词典和统计模型来进行分词。由于中文文本中没有明显的单词边界,因此分词是中文处理中的一个重要任务。
C嘎嘎嵌入式开发
·
2025-02-18 17:03
算法
服务器
数据库
c++
linux
NLP学习笔记(十) 分词(下)
大家好,我是半虹,这篇文章来讲
分词算法
1概述所谓分词就是将文本段落分解成基本语言单位,这里的基本单位也可以称为词元在上篇文章,我们主要从分词过程的角度出发,介绍了一些不同类型的
分词算法
而本篇文章,我们将要从分词结果的角度出发
半虹
·
2024-02-09 02:20
自然语言处理
nlp
分词
中文分词
分词算法
HMM隐马尔可夫模型
前言在网上看了很多关于马尔可夫模型的资料,有很多文章写得不错,在此记录自己学习过程中的笔记一HMM隐马尔可夫模型隐马尔可夫模型(HiddenMarkovModel,HMM)是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔可夫链随机生成的状态的序列,称为状态序列;每个状态生成一个观测,而由此产生的观测的随机序
曾飞廉
·
2024-02-07 15:24
ElasticSearch 8.x 使用 High Level Client 以 HTTPS 方式链接,SSL 证书、主机名验证器 各是什么,如何忽略
ElasticSearch学习随笔之javaapi操作4、ElasticSearch学习随笔之SpringBootStarter操作5、ElasticSearch学习随笔之嵌套操作6、ElasticSearch学习随笔之
分词算法
YPhen
·
2024-02-06 06:06
ElasticSearch
elasticsearch
搜索引擎
java
ElasticSearch 8.x 使用 snapshot(快照)进行数据迁移
ElasticSearch学习随笔之javaapi操作4、ElasticSearch学习随笔之SpringBootStarter操作5、ElasticSearch学习随笔之嵌套操作6、ElasticSearch学习随笔之
分词算法
YPhen
·
2024-01-30 08:47
ElasticSearch
elasticsearch
搜索引擎
全文检索
ElasticSearch 8.x 版本如何使用 SearchRequestBuilder 检索
ElasticSearch学习随笔之javaapi操作4、ElasticSearch学习随笔之SpringBootStarter操作5、ElasticSearch学习随笔之嵌套操作6、ElasticSearch学习随笔之
分词算法
YPhen
·
2024-01-30 08:47
ElasticSearch
elasticsearch
搜索引擎
全文检索
大模型理论基础初步学习笔记——第三四章 危害,与模型架构
大模型理论基础初步学习笔记——第三四章危害,与模型架构一、危害性部分:二、架构第3章模型架构3.2分词3.2.1基于空格的分词3.2.2BytePairEncoding(BPE)
分词算法
3.2.2.1Unicode
panda_dbdx
·
2024-01-24 16:46
学习
笔记
架构
自然语言处理--概率最大中文分词
二、算法描述本文实现概率最大中文
分词算法
,具体算法描述如
Java之弟
·
2024-01-24 12:03
自然语言处理
自然语言处理
中文分词
人工智能
datawhale 第三章-模型架构
1.2分词的三种粒度词粒度在英文等语言中有着天然的空格分隔,但是对于中文等语言可能需要额外的
分词算法
来进行处理(比如中文的jieba分词)词粒度的缺点:词粒度的词表由于长尾效应可能会非常大,并且稀有词往往很难学好
fan_fan_feng
·
2024-01-21 08:41
人工智能
ElasticSearch 8.x 弃用了 High Level REST Client,移除了 Java Transport Client,推荐使用 Elasticsearch Java API
ElasticSearch学习随笔之javaapi操作4、ElasticSearch学习随笔之SpringBootStarter操作5、ElasticSearch学习随笔之嵌套操作6、ElasticSearch学习随笔之
分词算法
YPhen
·
2024-01-13 09:07
ElasticSearch
搜索引擎
elasticsearch
搜索引擎
ElasticSearch 7.x 版本使用 BulkProcessor 实现批量添加数据
ElasticSearch学习随笔之javaapi操作4、ElasticSearch学习随笔之SpringBootStarter操作5、ElasticSearch学习随笔之嵌套操作6、ElasticSearch学习随笔之
分词算法
YPhen
·
2024-01-13 09:32
ElasticSearch
elasticsearch
搜索引擎
全文检索
中文
分词算法
| 基于词表的三种
分词算法
本文主要介绍中文
分词算法
中的基于词表的
分词算法
源于花海
·
2024-01-06 07:56
自然语言处理
中文分词
自然语言处理
人工智能
NLP-
分词算法
(一):Byte-Pair Encoding (BPE) / Byte-level BPE【BPE是char级别】
Byte-PairEncoding(BPE)/Byte-levelBPE1、BPEBPE,即字节对编码。其核心思想在于将最常出现的子词对合并,直到词汇表达到预定的大小时停止。首先,它依赖于一种预分词器pretokenizer来完成初步的切分。pretokenizer可以是简单基于空格的,也可以是基于规则的;分词之后,统计每个词出现的频次,供后续计算使用。例如,我们统计到了5个词的词频("hug",
u013250861
·
2024-01-04 16:14
#
NLP基础/分词
自然语言处理
算法
人工智能
NLP中的BPE(byte pair encoding)
分词算法
本篇博客的算法来源的论文是NeuralMachineTranslationofRareWordswithSubwordUnits,感兴趣的读者可以自行在Google学术上搜索。算法提出的问题背景2016年左右(改论文发表于2016)Neuralmachinetranslation(NMT)中有着一个众所周知的问题——稀有词与未知词的翻译问题。一般来说,神经网络中的词表被限制在30000-50000
算法菜鸟飞高高
·
2024-01-04 16:13
深度学习论文学习及复现
中文
分词算法
及python代码实现(持续更新中)
文章目录1.机械
分词算法
1.1.正向最大匹配算法1.2.逆向最大匹配算法参考链接:https://blog.csdn.net/lcwdzl/article/details/78493637https:/
lankuohsing
·
2024-01-03 18:34
自然语言处理
学习笔记
python
算法
中文分词
自然语言处理
C#
分词算法
C#
分词算法
分词算法
的正向和逆向非常简单,设计思路可以参考这里:中文分词入门之最大匹配法我爱自然语言处理http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation
HOLD ON!
·
2023-11-28 04:05
C#
tokenizers models模块
但是对于一些东亚文字包括中文来说,就需要某种
分词算法
才行。顺便说一下,T
不负韶华ღ
·
2023-11-21 23:59
#
transformers
transformer
LLM大模型之基于SentencePiece扩充LLaMa中文词表实践
中文词表实践目前大模型的词表和分词器都是基于SentencePiece工具实现的,比如LLaMa,BLOOM,ChatGLM,Baichuan等,简单来说SentencePiece就是工程化的实现了之前写的各种的
分词算法
Glan格蓝
·
2023-11-16 17:56
LLM大模型
llama
chatgpt
语言模型
nlp
ElasticSearch学习 ④ IK分词器(elasticsearch插件)+自定义字典
ik分词器提供了两个
分词算法
:ik_smart和ik_max_word,其中ik_smart为最少切分,ik_max_word为最细粒度划分1.下载(版本要与ElasticSearch版本对应)https
H&&Q
·
2023-11-15 15:19
ElesticSearch
elasticsearch
学习
8. 深度学习——NLP
机器学习面试题汇总与解析——NLP本章讲解知识点什么是NLP循环神经网络(RNN)RNN变体Attention机制RNN反向传播推导LSTM与GRUTransformerBertGPT
分词算法
分类CBOW
华为云计算搬砖工
·
2023-11-14 18:05
机器学习面试题汇总与解析
深度学习
人工智能
面试
基于jsp的网络spider技术的网络新闻分析系统设计与实现(项目报告+源代码+数据库+部署视频)
利用相关网络爬虫技术与算法,实现网络媒体新闻数据自动化采集与结构化存储,并利用中文
分词算法
和中文相似度分析算法进行一些归纳整理,得出相关的新闻发展趋势,
快乐无限出发
·
2023-11-08 19:41
Java毕业设计
java
网络
数据库
自然语言处理(NLP)的基础难点:
分词算法
自然语言处理(NLP,NaturalLanguageProcessing)是人工智能领域中的一个重要方向,主要研究人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析(还包括词性标注和命名实体识别)中最基本的任务,也是众多NLP算法中必不可少的第一步,其切分准确与否往往与整体结果息息相关。金融领域分词的难点分词
mrpastor
·
2023-10-28 09:25
【深度学习】【NLP】如何得到一个分词器,如何训练自定义分词器:从基础到实践
分词算法
使用Python训练分词器步骤1:选择
分词算法
步骤2:准备训练语料步骤3:配置分词器参数步骤4:训练分词器步骤5:测试和使用分词器代码示例:使用SentencePiece训练分词器
分词算法
的训练要素
XD742971636
·
2023-10-27 16:53
深度学习机器学习
深度学习
人工智能
【学习草稿】bert文本分类
google-research/berthttps://github.com/CyberZHG/keras-bert在BERT中,每个单词的嵌入向量由三部分组成:Token嵌入向量:该向量是WordPiece
分词算法
得到的子单词
用一个不重复的昵称
·
2023-10-21 05:46
学习
bert
人工智能
ElasticSearch 学习8 :ik分词器的扩展,及java调用ik分词器的analyzer
1.前言:上篇已经说过ik的集成,这篇说下ik的实际使用2.2、IK分词器测试IK提供了两个
分词算法
ik_smart和ik_max_wordik_smart:为最少切分ik_max_word:为最细粒度划分
你好龙卷风!!!
·
2023-10-08 20:44
elasticsearch
elasticsearch
学习
java
常见
分词算法
综述
常见
分词算法
综述文章目录常见
分词算法
综述一、基于词典的分词1.最大匹配
分词算法
2.最短路径
分词算法
:2.1基于dijkstra算法求最短路径:2.2N-dijkstra算法求最短路径:2.3.基于n-grammodel
无枒
·
2023-09-25 12:48
科研基础
机器学习
技术
算法
贪心算法
tokenizers总结
但是对于一些东亚文字包括中文来说,就需要某种
分词算法
才行。顺便说一下,To
noobiee
·
2023-09-19 22:15
#
NLP
深度学习
nlp
自然语言处理
动手学中文分词视频教程
动手学中文分词课程资料│dic.rar│中文分词资料.rar│动手学中文分词.pdf│└─视频课时1课程简介及项目演示.mp4课时3人工智能概述.mp4课时4NLP概述.mp4课时5中文分词简介.mp4课时6中文
分词算法
简介
globals_11de
·
2023-09-19 00:22
HanLP《自然语言处理入门》笔记--2.词典分词
中文
分词算法
大致分为基于词典规则与基于机器学习这两大派。2.1什么是词在基于词典的中文分词中,词的定义要现实得多:词典中的字符串就是词。词的性质--齐夫定律:一个单词的词频与它的词频排名成反比
mantch
·
2023-08-29 18:24
BPE分词
BPE(BytePairEncoding)是一种基于统计的无监督
分词算法
,常用于自然语言处理任务中,如机器翻译、文本生成等。BPE算法通过将原始文本逐步拆分为子词或字符,从而实现分词的目的。
陈庆之的论衡
·
2023-08-18 09:14
python
python
机器翻译
自然语言处理
ES中倒排索引机制
此处涉及到分词器,分词器的作用是将一段文字分解为若干个词组,不同的分词器使用的
分词算法
不同,得到的分词结果
大叶子不小
·
2023-08-15 18:59
elasticsearch
BPF
分词算法
BPF
分词算法
,全称为BestPerformanceFirst,是一种中文
分词算法
。它采用最优性能优先的策略,在分词的过程中,优先选择能够获得最佳分词性能的分词结果。
diannao720
·
2023-08-09 06:59
算法
算法
自然语言处理学习笔记(1)——词典分词
词典分词:一个确定的查词与输出的规则系统,仅需要一部词典和一套查词典的规则,是最简单、最常见的
分词算法
(语言是时刻在发展变化的,任何词典都只是某个时间节点拍摄的一张快照)。
OldBabyy
·
2023-08-08 11:25
自然语言处理
自然语言处理
nlp
IK分词器
会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词器是将每个字看成一个词,比如"我爱技术"会被分为"我","爱","技","术",这显然不符合要求,所以我们需要安装中文分词器IK来解决这个问题;IK提供了两个
分词算法
老王笔记
·
2023-08-08 07:16
ELK
分词器
自然语言处理学习笔记(四)————词典分词
中文
分词算法
大致分为基于词典规则与基于机器学习这两大派。词典分词是最简单、最常见的
分词算法
,仅需一部词典和一套查词典的规则即可。给定一部词典,词典分词就是一个确定的查词和输出的规则系统。2.词
阿波拉
·
2023-08-04 11:33
自然语言处理
自然语言处理
学习
笔记
hanlp
nlp
何晗
pyhanlp
关于SEO学习——TDK的优化技巧
T=Title=标题D=Description=描述K=Keywords=关键词百度
分词算法
百度是基于什么来进行分词的?
手可摘棉花1
·
2023-08-02 21:58
浅谈中文分词与自然语言处理
首先,中文分词_百度百科里面简单介绍了其中主要的
分词算法
以及相应的优缺点,包括字符匹配法、统计法以及理解法,其中字符匹配法和统计法比较流行且可以取到相对不错的效果,而理解法则相对比较复杂高级,但是我认为这才是真正解决中文分词任务的根本算法
iamlightsmile
·
2023-07-28 05:33
分词工具使用系列——sentencepiece使用
分词的工具主要就是两个任务:使用
分词算法
(前向后向匹配,
不被定义的号
·
2023-07-27 09:29
#
自然语言处理
算法
人工智能
中文分词
NLP
分词
Java分词工具:word
word分词器主页:https://github.com/ysc/wordword分词是一个Java实现的中文分词组件,提供了多种基于词典的
分词算法
,并利用ngram模型来消除歧义。
进击的小鹿
·
2023-07-24 10:48
LLMs:大模型数据预处理技巧之对比Transformer中的三种tokenizer
分词算法
(Unigram→Word Piece→BPE)之详细攻略
LLMs:大模型数据预处理技巧之对比Transformer中的三种tokenizer
分词算法
(Unigram→WordPiece→BPE)之详细攻略目录
分词算法
的简介1、对比Transformer中的三种
一个处女座的程序猿
·
2023-06-22 11:54
NLP/LLMs
AI/AGI
精选(人工智能+区块链)
word
自然语言处理
GPT
java 文本处理系统Myeclipse开发mysql数据库web结构jsp编程计算机网页项目文本
分词算法
一、源码特点java文本处理系统是一套完善的javaweb信息管理系统,利用java对文本语句进行分词,对理解JSPjava编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql5.0,使用java语言开发。java文本处理系统Myeclipse开发mysql数据库二、功能介绍(1)文本管理:对文
qq_251836457
·
2023-06-19 20:36
jsp类
java
数据库
myeclipse
ElasticSearch学习随笔之
分词算法
ElasticSearch学习随笔之javaapi操作4、ElasticSearch学习随笔之SpringBootStarter操作5、ElasticSearch学习随笔之嵌套操作6、ElasticSearch学习随笔之
分词算法
YPhen
·
2023-06-08 15:44
搜索引擎
ElasticSearch
elasticsearch
算法
ELK技术栈介绍
ElasticSearch学习随笔之javaapi操作4、ElasticSearch学习随笔之SpringBootStarter操作5、ElasticSearch学习随笔之嵌套操作6、ElasticSearch学习随笔之
分词算法
YPhen
·
2023-06-08 15:44
ElasticSearch
搜索引擎
elasticsearch
学习
elk
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他