E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分词聚类
Elasticsearch检索原理
分词
处理:对查询中的文本进行
分词
处理,将其转换为词项,以便于与倒排索引对应
知知之之
·
2024-09-04 23:31
Elasticsearch
elasticsearch
大数据
搜索引擎
自然语言处理系列八》中文
分词
》规则
分词
》正向最大匹配法
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列八规则
分词
正向最大匹配法总结自然语言处理系列八规则
分词
规则
分词
是基于字典
陈敬雷-充电了么-CEO兼CTO
·
2024-09-04 19:08
算法
人工智能
大数据
算法
人工智能
编程语言
java
自然语言处理
CLIQUE算法原理及Python实践
CLIQUE(ClusteringInQUEst)算法是一种基于网格的
聚类
方法,其主要目的是在数据集中发现子空间中基于密度的簇。
doublexiao79
·
2024-09-03 03:24
数据分析与挖掘
算法
python
机器学习
LSTM与文本生成
当使用Python和Keras构建LSTM模型时,可以按照以下步骤进行简单的文本生成:准备数据集:首先,将文本数据集进行预处理,例如
分词
、去除标点符号、将文本转换为小写等。
Jiang_Immortals
·
2024-09-03 00:27
人工智能
lstm
人工智能
rnn
06 | 学数据分析要掌握哪些基本概念?
数据挖掘:分类、
聚类
、预测和关联分析K
张九日zx
·
2024-09-02 15:48
2-83 基于matlab的自适应正则化核的模糊均值
聚类
框架(ARKFCM)
基于matlab的自适应正则化核的模糊均值
聚类
框架(ARKFCM),用于脑磁共振图像的分割。该框架采用三种算法,分别平均滤波器、中值滤波器和设计的加权图像的灰度来代替局部平均灰度。
'Matlab学习与应用
·
2024-09-02 11:16
matlab工程应用
算法
matlab
均值算法
自适应正则化核
模糊均值聚类框架
脑磁共振图像的分割
es映射配置(_mapping)
查看映射关系1、创建映射字段PUT/索引库名/_mapping{"properties":{"字段名":{"type":"类型","index":true,"store":true,"analyzer":"
分词
器
小丁学Java
·
2024-09-02 03:22
ElasticSearch
elasticsearch
jenkins
大数据
_mapping
映射配置
文本数据分析-(TF-IDF)(2)
TF-IDF概述2.jieba库概述二、TF-IDF与jieba库的结合1.结合2.提取步骤三,代码实现1.导入必要的库读取文件:3.将文件路径和内容存储到DataFrame4.加载自定义词典和停用词5.
分词
并去除停用词
红米煮粥
·
2024-09-01 11:14
数据分析
tf-idf
python
全文检索服务 ElasticSearch---------IK
分词
器的使用
全文检索服务ElasticSearch其他相关:介绍入门及安装Field整合SpringBoot集群管理1.IK
分词
器1.1测试
分词
器 在添加文档时会进行
分词
,索引中存放的就是一个一个的词(term)
Connection Reset
·
2024-09-01 11:42
全文检索服务
ElasticSearch
elasticsearch
全文检索
搜索引擎
Java 结合elasticsearch-ik
分词
器,实现评论的违规词汇脱敏等操作
IK
分词
(IKAnalyzer)是一款基于Java开发的中文
分词
工具,它结合了词典
分词
和基于统计的
分词
方法,旨在为用户提供高效、准确、灵活的中文
分词
服务。
八百码
·
2024-09-01 10:39
elasticsearch
大数据
搜索引擎
叶伯伯答疑之六
“关于”对事由中的中心词语起关涉、介绍、提示、隔离的作用,它和事由部分的词语组成介词结构后,就改变了事由部
分词
语原有的语法性质。绝大多数情况下,公文标题中的关于不能省略,否则就会
叶伯伯闲聊
·
2024-09-01 10:13
Linux 非root用户部署elasticsearch 7.17.23和ik
分词
器
Elasticsearch(三台)解压配置elasticsearch.yml192.168.0.1192.168.10.2192.168.10.3注解配置Supervisor管理Elasticsearch注解部署IK
分词
器
XMYX-0
·
2024-08-31 18:29
linux
elasticsearch
ik分词器
ngram
分词
机制实现index-time搜索推荐
1、ngram和index-time搜索推荐原理什么是ngramquick,5种长度下的ngramngramlength=1,quickngramlength=2,quuiicckngramlength=3,quiuicickngramlength=4,quicuickngramlength=5,quick什么是edgengramquick,anchor首字母后进行ngramqququiquicq
Shaw_Young
·
2024-08-31 15:31
机器学习 第9章-
聚类
机器学习第9章-
聚类
9.1
聚类
任务在“无监督学习”(unsupervisedlearning)中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础
Rin__________
·
2024-08-31 05:02
机器学习笔记
机器学习
聚类
支持向量机
机器学习:DBSCAN算法(内有精彩动图)
完整代码2.代码详解1.导入数据2.通过循环确定参数最佳值总结前言DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一种基于密度的
聚类
算法
吃什么芹菜卷
·
2024-08-31 01:58
机器学习
机器学习
算法
人工智能
模糊C-means算法原理及Python实践
模糊C-means算法原理及Python实践一、目标函数二、隶属度矩阵和
聚类
中心三、算法步骤四、终止条件五、算法特点六、Python实现模糊C-means(FuzzyC-Means,简称FCM)算法是一种经典的模糊
聚类
算法
doublexiao79
·
2024-08-30 11:32
数据分析与挖掘
算法
python
【闲谈】
聚类
算法的金融数据挖掘应用及实践
目录一数据挖掘技术在金融领域应用概述二
聚类
算法介绍三
聚类
算法在金融数据挖掘中的应用1.
聚类
算法在客户细分领域的应用2.
聚类
算法在客户信用评估领域的应用四算法实践与个人体会1.
聚类
算法的实践——以k-means
爱写代码的July
·
2024-08-30 05:51
其他
金融
大数据
数据分析
数据可视化
python
文本分析之关键词提取(TF-IDF算法)
准备工作首先,我们需要准备一些工具和库,包括Pandas、jieba(结巴
分词
)、sklearn等。Pandas:用于数据处理。jieba:用于中文
分词
。skl
SEVEN-YEARS
·
2024-08-30 03:11
tf-idf
MySQL 实现模糊匹配
针对更为复杂的搜索需求,尤其是在处理大型数据集时,结合使用IK
分词
器(虽然IK
分词
器本身主要用于中文
分词
,在Elasticsearch等搜索引擎中广泛应用,但可以通过一些创造性的方法间接应用于MySQL
flying jiang
·
2024-08-29 20:50
架构设计
数据库
mysql
数据库
程序猿成长之路之数据挖掘篇——Kmeans
聚类
算法
什么是
聚类
用官方的话说
聚类
就是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。用自己的话说
聚类
是根据不同样本数据间的相似度进行种类划分的算法。
zygswo
·
2024-08-29 18:39
数据挖掘
数据挖掘
算法
kmeans
Spark MLlib 数据预处理-特征变换
2019独角兽企业重金招聘Python工程师标准>>>Tokenizer(
分词
器)算法介绍:Tokenization将文本划分为独立个体(通常为单词)。
weixin_33841722
·
2024-08-29 14:40
大数据
人工智能
scala
学习笔记1 三大
聚类
方法:K-means
聚类
、层次
聚类
、DBSCAN
聚类
学习笔记1:三大
聚类
方法:K-means
聚类
、层次
聚类
、DBSCAN
聚类
文章目录前言一、K-means
聚类
操作过程二、层次
聚类
操作过程三、DBSCAN
聚类
操作过程总结前言在样本数量较多的情况下,可以通过
聚类
将样本划分为多个类
泠泠风来
·
2024-08-29 06:21
聚类
matlab
K-means
聚类
算法:从原理到实践的全面解读
在机器学习中,
聚类
算法是一类被广泛应用的技术之一。
聚类
旨在将数据集中的样本划分为不同的组,使得组内的样本相似度高,组间的相似度低。
一休哥助手
·
2024-08-29 06:50
人工智能
算法
kmeans
聚类
向量数据库Faiss(Facebook AI Similarity Search)
向量数据库Faiss(FacebookAISimilaritySearch)是FacebookAIResearch开发的一款高效且可扩展的相似性搜索和
聚类
库,专门用于处理大规模向量数据的搜索和检索任务。
shiming8879
·
2024-08-29 01:46
数据库
faiss
人工智能
向量数据库Faiss的详细介绍和搭建使用教程
一、Faiss简介向量数据库Faiss(FacebookAISimilaritySearch)是由FacebookAI研究院(FAIR)开发的一种高效的相似性搜索和
聚类
库。
大白菜程序猿
·
2024-08-29 01:14
运维
faiss
K-means++算法
传统的K-means算法需要在初始阶段在数据集中随机选择个点作为
聚类
中心,而K-means算法的
聚类
效果和运行时间很大程度上受初始
聚类
中心的选择的影响。
坐看云起时zym
·
2024-08-28 23:19
聚类
算法-Kmeans
聚类
一、K-means
聚类
介绍1.含义K-means
聚类
是一种非常流行的无监督学习算法,用于将数据点划分为预定义的K个簇(或组),其中每个簇由其质心(即簇中所有点的均值)定义。
红米煮粥
·
2024-08-28 22:24
机器学习
kmeans
聚类
每天一个数据分析题(五百零二)- 分割式
聚类
算法
以下哪个选项是分割式
聚类
算法?A.K-Means。
跟着紫枫学姐学CDA
·
2024-08-28 13:19
数据分析题库
算法
数据分析
聚类
【机器学习】初学者经典案例(随记)
无监督学习:使用不带标签的数据进行训练,包括
聚类
(如客户细分)和降维(如主成分分析)。强化学习:通过与环境的交互学习策略,以最大化累积奖励(如AlphaGo)。
听忆.
·
2024-08-28 11:09
机器学习
人工智能
数据挖掘
深度学习
语言模型
【Python机器学习】NLP
分词
——利用
分词
器构建词汇表(三)——度量词袋之间的重合度
如果能够度量两个向量词袋之间的重合度,就可以很好地估计他们所用词的相似程度,而这也是它们语义上重合度的一个很好的估计。因此,下面用点积来估计一些新句子和原始的Jefferson句子之间的词袋向量重合度:importpandasaspdsentence="""ThomasJeffersonBeganbulidingMonticelliastheageof26.\n"""sentence=senten
zhangbin_237
·
2024-08-28 05:33
Python机器学习
机器学习
自然语言处理
人工智能
python
开发语言
【Python机器学习】NLP
分词
——词干还原的挑战
要想使用自然语言处理的相关应用,第一件事就是需要一个强大的词汇表。我们要把文档或任何字符串拆分为离散的有意义的词条,这里说的词条仅限于词、标点符号和数值,但是这里使用的技术可以很容易推广到字符序列包含的任何其他有意义的单元,比如ASCII表情符号、Unicode表情符号和数学符号。从文档中检索词条需要一些字符串处理方法,这些方法不仅仅是str.split(),处理时需要把标点符号与词分开,还需要将
zhangbin_237
·
2024-08-28 05:03
Python机器学习
自然语言处理
人工智能
机器学习
python
开发语言
详细说明:向量数据库Faiss的搭建与使用
当然,Faiss(FacebookAISimilaritySearch)是一个用来高效地进行相似性搜索和密集向量
聚类
的库。它能够处理大型数据集,并且在GPU上的性能表现尤为出色。
AI逍遥子
·
2024-08-28 01:09
faiss
Python数据可视化词云展示周董的歌
Python3.6IDE:根据个人喜好,自行选择模块:Matplotlib是一个Python的2D数学绘图库pipinstallmatplotlibimportmatplotlib.pyplotaspltjieba中文
分词
库
PathonDiss
·
2024-08-27 13:23
店铺SEO优化
(分值近接影响流量)2、TKD百度差不多,唯一为不同的词淘宝自动
分词
,标题不可超过30个字。3、TKDD指的产品参数(属性)。价格匹配度也是影响排名的。4、权重包含4大权重:店铺、产品、词、加权项。
回_940
·
2024-08-27 11:19
android sqlite
分词
,sqlite3自定义
分词
器
sqlite3通过使用fts3虚表支持全文搜索,默认支持simple和porter两种
分词
器,并提供了接口来自定义
分词
器。这里我们利用mmseg来构造自定义的中文
分词
器。
雷幺幺
·
2024-08-27 09:50
android
sqlite
分词
大模型19:微调大模型方法
预处理包括移除噪音数据、
分词
、生成模型输入输出格式等。模型训练模型初始化:
bluewelkin
·
2024-08-27 01:38
大模型
论机器学习中的 K-均值
聚类
算法及其优缺点
K-均值
聚类
算法是一种常见的机器学习算法,用于将数据集分为预先指定数量的簇。下面是对K-均值
聚类
算法以及其优缺点的讲解:算法步骤:a.随机选择K个中心点作为初始
聚类
中心。
风跟我说过她
·
2024-08-26 05:43
机器学习
机器学习
算法
均值算法
聚类
机器学习 | 距离计算
文章目录距离计算1.闵可夫斯基距离(有序属性)1.1曼哈顿距离1.2欧氏距离2.VDM距离(无序属性)3.MinkovDM距离(混合属性)4.加权距离(重要性不同)参考资料相关文章:机器学习|目录机器学习|
聚类
评估指标无监督学习
X1AO___X1A
·
2024-08-25 06:55
机器学习基础
无监督学习
#
聚类算法
机器学习
无监督学习
聚类
距离计算
每天一个数据分析题(四百八十七)- 非监督学习
关于非监督学习,在K-means
聚类
分析使用的距离是()A.欧式距离B.绝对距离C.Minkowski距离D.笛卡尔距离数据分析认证考试介绍:点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖
跟着紫枫学姐学CDA
·
2024-08-24 23:13
数据分析题库
数据分析
学习
数据挖掘
每天一个数据分析题(四百八十八)- 非监督学习
关于非监督学习,在K-means
聚类
分析使用的距离是()A.欧式距离B.绝对距离C.Minkowski距离D.笛卡尔距离数据分析认证考试介绍:点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖
跟着紫枫学姐学CDA
·
2024-08-24 23:13
数据分析题库
数据分析
学习
数据挖掘
让关键词
聚类
成为你SEO策略的下一个突破点
关键词
聚类
简介在搜索引擎优化和内容营销领域,内容规划和内容创建的关键策略是关键字
聚类
。这种创新技术可以显著提升SEO活动的效率,并帮助更你高效、更有效地规划和编写内容。什么是关键字
聚类
?
阿福赚美刀
·
2024-08-24 11:00
搜索引擎
自然语言处理NLP之中文
分词
和词性标注
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录一、Python第三方库jieba(中文
分词
陈敬雷-充电了么-CEO兼CTO
·
2024-08-24 10:53
自然语言处理
自然语言处理系列四十》条件随机场CRF》CRF开源工具实战
CRF++工具包最早是针对序列数据分析提出的,是一个可用于
分词
/连续数
陈敬雷-充电了么-CEO兼CTO
·
2024-08-24 09:17
自然语言处理
人工智能
ai
python
深度学习
机器人
机器学习
ArcGIS热点分析 (Getis-Ord Gi*)——基于地级市尺度的七普人口普查数据的热点与冷点分析
热点分析(Getis-OrdGi*)和高/低
聚类
分析
杨超越luckly
·
2024-08-24 07:00
ArcGIS日常分享
机器学习
人工智能
数据分析
大数据
数据挖掘
Scikit-learn:用于数据挖掘和数据分析的简单而有效的工具,建立在 NumPy, SciPy 和 Matplotlib 上。
它建立在强大的科学计算库之上,包括NumPy、SciPy和Matplotlib,提供了丰富的机器学习算法和工具,如分类、回归、
聚类
、降维、模型选择和数据预处理等。
Jr_l
·
2024-08-24 02:28
#
数据科学
数据挖掘
scikit-learn
数据分析
ElasticSearch
运维监控数据分析:1.业务分析2.时序数据分析NoSQLJSON文档数据库:作为JSON文档数据库使用搜索推荐实现个性化搜索和推荐功能地理信息系统存储和查询带有地理信息的数据大规模监控系统二、为什么要安装
分词
器
HW--
·
2024-08-23 20:55
elasticsearch
机器学习中的 K-均值
聚类
算法及其优缺点
K-均值
聚类
算法是一种无监督学习算法,用于将数据集中的样本分为K个不同的类别。该算法的基本思想是通过不断迭代地更新类别的中心点,将每个样本分配给离其最近的中心点所代表的类别。
weixin_63207763
·
2024-08-23 01:25
机器学习
算法
均值算法
各种
聚类
方法的
聚类
思想介绍及其优缺点
聚类
是一种无监督学习方法,旨在将数据集中的样本划分为若干个组,使得同一组内的样本相似度最大,而不同组之间的样本相似度最小。
QianMo-WXJ
·
2024-08-23 00:22
知识补充
聚类
机器学习
一起来聊聊大模型的token
文章目录前言一、token是什么二、常用
分词
方法三、GPT-3的
分词
方式1.代码示例2.
做个天秤座的程序猿
·
2024-08-23 00:46
token
大模型token
gpt
数据库面试题-ElasticSearch
2、谈谈ElasticSearch
分词
与倒排索引的原理?3、说说ElasticSearch分段存储的思想?4、说说你对ElasticSearch段合并的策略思想的认识?
@Corgi
·
2024-08-21 21:02
Java面试题
数据库
elasticsearch
大数据
java
面试题
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他