机器学习深度学习数据挖掘聚类第11页

机器学习、深度学习、自然语言处理基础知识总结

目前主要参考李航老师的《统计学习方法》一书，也有一些内容例如XGBoost、聚类、深度学习相关内容、NLP相关内容等是书中未提及的。

北航程序员小C·2024-01-26 10:43

我们是如何测试人工智能的（二）数据挖掘篇

前言数据决定模型的上限，而算法调参只是尽量的帮你逼近那个上限，建模工程师80%的时间都是在跟数据打交道，国内在AI上的发展与国外最大的差距不是在算力上，而是高质量的数据。相信大家在网络上都见过类似的说法，事实上这些说法都是正确的。并且对于测试人员来说也是一样的。通过上一篇介绍效果测试的文章大家可以知道，目前已经有现成库帮我们去计算模型的评估指标，老实讲去计算这些指标没有一点难度，甚至可以说没什么技

孙高飞·2024-01-26 10:32

大数据看2020年国家社科基金状况

我们以“图情类”社科为例进行数据挖掘，其他学科一模一样！！！

文献计量·2024-01-26 09:17

聚类(Clustering)

图上的数据看起来可以分成两个分开的点集（称为簇），一个能够找到我圈出的这些点集的算法，就被称为聚类算法。问题：聚类算法一般用来做什么呢？比如市

清☆茶·2024-01-26 06:10

第二章多变量线性回归

在机器学习中，多维特征通常用于训练模型进行分类、回归或聚类等任务。在处理多维特征时，需要注意一些问题。首先，有些特征之间可能存在相关性，这会导致模型过拟合。

清☆茶·2024-01-26 06:09

第四篇【传奇开心果短博文系列】Python的OpenCV库技术点案例示例：机器学习

传奇开心短博文系列系列短博文目录Python的OpenCV库技术点案例示例系列短博文短博文目录一、项目目标二、OpenCV机器学习介绍三、OpenCV支持向量机示例代码四、OpenCV支持向量机示例代码扩展五、OpenCVK均值聚类示例代码六

传奇开心果编程·2024-01-26 06:02

Spark OLAP高阶分析函数总结

我们经常困惑在数据挖掘和报表分析场景中sql不会写，或者因为sql太长以至于可读性降低;今天我为大家总结了一些SparkSQL中的高阶函数，它们将会对你的业务形成助力，百倍提升你的工作效率GROUPING

易企秀工程师·2024-01-26 06:47

数据挖掘之数据预处理

第三章为什么要进行数据预处理？数据库易受噪声、缺失值和不一致数据的侵扰数据库太大，且多半来自多个异种数据源衡量的标准是数据质量数据质量数据质量的因素都比较好理解，就不一一说明了。数据预处理的主要步骤数据预处理的主要步骤数据清理处理缺失值的方法忽略元组人工填写缺失值使用一个全局常量填充缺失值使用属性的中心度量使用与给定元组属同一类的所有样本的属性均值或中位数使用最有可能的值填充缺失值什么是噪声？噪声

雇个城管打天下·2024-01-26 00:30

无监督学习 - 聚类的潜在语义分析（Latent Semantic Analysis，LSA）

什么是机器学习潜在语义分析（LatentSemanticAnalysis，LSA）是一种无监督学习方法，用于在文本数据中发现潜在的语义结构。LSA的主要应用之一是进行文本文档的主题建模和信息检索。以下是一个使用Python中的scikit-learn库来实现潜在语义分析（LSA）的简单教程。步骤1:导入库importnumpyasnpfromsklearn.feature_extraction.t

草明·2024-01-25 21:23

NTP时间同步协议

在广域网上提供几十毫秒精度冗余服务器和多种网络路径保证了可靠性工程算法用于减少抖动，缓解多个源和避免不正确操作的服务器HowNTPworks多个服务器/对等体提供冗余和多样性时钟滤波器从八个时钟偏移样本的窗口中选择最佳交叉和聚类算法选择同伴的最佳子集并丢弃异常值组合算法计算偏移

乐十九·2024-01-25 19:44

python数据挖掘实战项目开源git_强烈推荐：8个顶级git/github项目数据分析工具

任何重要的决定都应基于数据，对于信息项目和软件开发亦是如此。如果你不仔细查看描述项目演进的数据就无法了解项目的健康状况，并给出合理的改进措施。为了分析和挖掘这些信息，我们可以从Git存储库和项目所在的代码托管平台(例如GitHub，Gitlab)获取一些有意义的数据。然而从Git/GitHub轻松获取数据实际也不是一件简单的事情。本文虫虫就给大家介绍一些Git/GitHub开源分析工具供大家学习参

weixin_39619635·2024-01-25 18:58

Jellyfish: A Large Language Model for Data Preprocessing

Jellyfish：一种用于数据预处理的大型语言模型摘要1引言2前言3Jellyfish的框架4基线模型的选择以及预调整5DP调整6Jellyfish用于数据处理7对不可见任务的扩展8实验9相关工作10结论摘要作为数据挖掘管道中的关键步骤

UnknownBody·2024-01-25 17:23

2022-12-30

明代小说家吴承恩优美词汇:艳艳千条、丑头怪脑、展背舒身、铺胸纳地跌跌滚滚、锦绒褊衫、膘肥体壮、腰驼背屈虚度一生、坐井观天、四壁绫罗、必生其计彩气盈庭、眼目昏花、喜喜欢欢、遂而各散号陶痛哭、长久之计、满心欢喜、掩人耳目物以聚类

云汐若·2024-01-25 16:36

nlp文本主题提取算法总结

BERTopic:简介：基于预训练的语言模型BERT（BidirectionalEncoderRepresentationsfromTransformers）的主题模型，通过将文档嵌入到BERT空间中并进行聚类

mqdlff_python·2024-01-25 12:50

[Python] scikit-learn - accuracy_score(准确率分数)函数介绍和使用场景（案例）

Scikit-learn是一个用于机器学习和数据挖掘的Python库，提供了大量的机器学习算法和工具，使得机器学习任务更加便捷和高效。

老狼IT工作室·2024-01-25 11:31

宏基因组CAG、MGS、MLG、MAG傻傻分不清？

在之前的Binning文章中（文章链接：《如何打破瓶颈，提升宏基因组研究level》、《宏基因组高分文章里的小技巧》），主要针对Contig进行聚类，旨在得到潜在的单菌基因组信息。

斗战胜佛oh·2024-01-25 11:54

城市排水管网监测系统主要功能与特点

系统功能:█实时监控:实时监测各个管网监测点（河流、地下通道、低洼处等地点）水质、水位等信息，对管网排查和管网监测结果进行数据挖掘，对管道内流量、水

厦门辰迈智慧科技有限公司·2024-01-25 10:22

计算机毕业设计基于SpringBoot的民宿租赁系统的设计与实现 Java实战项目附源码+文档+视频讲解

博主介绍：✌从事软件开发10年之余，专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。

IT学长编程·2024-01-25 10:29

计算机毕业设计基于SpringBoot的校园闲置物品交易系统的设计与实现 Java实战项目附源码+文档+视频讲解

博主介绍：✌从事软件开发10年之余，专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。

IT学长编程·2024-01-25 09:52

Task2 数据分析 (1)

赛题：零基础入门数据挖掘-零基础入门金融风控之贷款违约目的：1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系

__y__·2024-01-25 08:57

【深度学习】逻辑回归模型

逻辑回归模型机器学习的分类机器学习的两个种类：有监督学习：数据集带标签（题目有正确答案）无监督学习：数据集不带有标签，比如聚类算法有监督学习两大任务：回归任务：预测结果是无限个值，是连续值（体重值、分数值

wmh1024·2024-01-25 07:34

【深度学习】初识深度学习

初识深度学习什么是深度学习关系：人工智能机器学习深度学习卷积神经网络深度学习和机器学习的关系：机器学习：随着数据量增加会改进性能的算法深度学习：使用多层神经网络学习。深度学习是机器学习的子集。

wmh1024·2024-01-25 07:19

机器学习 | 掌握Matplotlib的可视化图表操作

当然博主也不能面面俱到的讲解到所有内容，详情请参考：官网可视化是在整个数据挖掘的关键辅助工具，可以清晰的理解数据，从而调整我们的分析方法。将数据进行可视化，更直观的呈现。使数据更加客观、更具说服力。

亦世凡华、·2024-01-25 07:48

数字图像处理（实践篇）二十八使用OpenCV Python中的K-means对图像进行颜色量化处理

选择使用cv2.kmeans()函数对颜色量化应用k-means聚类。1颜色量化使用K-means聚类在图像中实现颜色量化的步骤如下：①导入依赖库

Jackilina_Stone·2024-01-25 06:49

GEO数据挖掘学习笔记二

学习教程来源于《手把手教你GEO数据库差异基因分析》本次学习笔记内容为通过GEO2R在线工具进行差异基因分析通过了解，个人觉得这个方法相比R语言的优势是更普适性，以及更加“傻瓜”，方便学不明白R语言的同学。第一步：同R语言，找到相关的数据集第二步：点进页面详情，进行GEO2R在线分析第三步：选择分组信息，点击分析第四步：下载数据，得到差异基因数据集，如果仅得到差异基因即可，可不进行后续操作。第五步

slim_zhang·2024-01-25 06:30

数据挖掘笔记(期末复习用)

http://47.101.52.166/blog/back/python/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98.html#%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B

肯定是疯了·2024-01-25 04:06

基于python豆瓣电影评论的情感分析和聚类分析，聚类分析有手肘法进行检验，情感分析用snownlp

基于Python的豆瓣电影评论的情感分析和聚类分析是一种用于探索电影评论数据的方法。情感分析情感分析旨在从文本中提取情感信息，并对其进行分类，如正面、负面或中性。

叫我：松哥·2024-01-24 21:17

Python机器学习入门必学必会：机器学习与Python基础

“非监督式学习”即算法在训练模型时期不对结果进行标记，而是直接在数据点之间找有意义的关系，或者说输入数据中仅有X变量而没有y变量，特色在于针对X变量进行降维或者聚类，以挖掘特征变

数据科学作家·2024-01-24 19:05

【论文阅读】Time-Series Anomaly Detection Service at Microsoft

它在许多工业应用中非常流行，是数据挖掘中的一个重要研究领域。为了解决时间序列异常检测的问题，作者提出了一种基于谱残差(SR)以及卷积神经网络(

EmoryHuang·2024-01-24 18:04

关联规则挖掘算法的介绍

学号：17020110019姓名：高少魁【嵌牛导读】关联规则挖掘算法是数据挖掘中的一种常用算法，用于发现隐藏在大型数据集中令人感兴趣的频繁出现的模式、关联和相关性。

Clearlovekui9·2024-01-24 18:19

K-means聚类分析（Python）

推广到K就是：K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，

Sanchez·J·2024-01-24 18:43

从零开始学python第二版_从零开始学Python数据分析与挖掘-从零开始学Python数据分析与挖掘第二版pdf下载电子版-精品下载...

数据分析与挖掘第二版以Python3.7版本作为数据分析与挖掘实战的应用工具，从Python的基础语法开始，陆续介绍有关数值计算的numpy、数据处理的pandas、数据可视化的matplotlib和数据挖掘的

weixin_39874366·2024-01-24 17:58

车联网平台如何提高主动发现能力浅谈

异常检测算法：采用先进的机器学习和深度学习算法，构建异常检测模型，对车辆数据进行分类和聚类，及时发现异常行为和潜在的安全隐患。同时，根据实际需求不断优化算法和模型，提高检测准确率和实时性。预警与通

MarkHD·2024-01-24 15:21

【R>>Mfuzz】时间序列分析

时间序列分析：对不同时间点（状态）转录组或蛋白表达谱数据，进行模糊c均值聚类（fuzzyc-meansclustering,FCM），找出具有相似表达模式的基因或蛋白并聚类。

高大石头·2024-01-24 14:30

ID3, C4.5和CART的异同点

ID3,C4.5和CART都是决策树算法，它们在数据挖掘和机器学习中被广泛应用。下面是它们的一些异同点：相同点：都是用于构建决策树的算法，可以用于分类和回归问题。

今天也要加油丫·2024-01-24 11:35

人工智能是做什么的

此外，他们还需要了解自然语言处理、数据挖掘和图像处理等领域的知识，以便应用到实际任务

人工智能技术与咨询·2024-01-24 10:49

模糊聚类算法——模糊C均值聚类及matlab实现

模糊C均值聚类算法（FuzzyC-Means,FCM）。1.算法概述模糊C均值聚类算法是一种经典的模糊聚类算法，用于无监督学习中的数据聚类问题。

root-cause·2024-01-24 09:24

日更73｜你的工作，会被人工智能取代吗？

数据挖掘就是从已

飛妃1224·2024-01-24 08:21

【时间序列篇】基于LSTM的序列分类-Pytorch实现 part1 案例复现

对于序列分类任务，常用的思路有两种：1、原理统计相关，分解序列的相关性质研究规律（人工设计特征，再分类）2、数据挖掘

钟的子期·2024-01-24 07:44

利用Python实现中文文本关键词抽取的三种方法

目前，用于文本关键词提取的主要方法有四种：基于TF-IDF的关键词抽取、基于TextRank的关键词抽取、基于Word2Vec词聚类的关键词抽取，以及多种算法相融合的关键词抽取。

南七澄江·2024-01-24 06:08

数据挖掘笔记1

课程：清华大学-数据挖掘：理论与算法（国家级精品课）_哔哩哔哩_bilibili一、LearningResources二、Data数据是最底层的一种表现形式。数据具有连续性。

幽径微澜·2024-01-24 05:05

肿瘤分析数据挖掘及信息解读

生物信息与育种·2024-01-24 04:27

CGAL 网格连通聚类

文章目录一、简介二、实现代码三、实现效果参考资料一、简介这里的思路其实与点云的欧式聚类非常类似，区别在于点云的欧式聚类是通过搜索半径对点云进行聚类，至于基于连通性网格面片聚类则是通过面片的邻近关系对面片进行聚类

大鱼BIGFISH·2024-01-24 02:25

机器学习期末复习总结笔记（李航统计学习方法）

文章目录模型复杂度高---过拟合分类与回归有监督、无监督、半监督正则化生成模型和判别模型感知机KNN朴素贝叶斯决策树SVMAdaboost聚类风险PCA深度学习范数计算梯度下降与随机梯度下降SGD线性回归逻辑回归最大熵模型适用性讨论模型复杂度高

在半岛铁盒里·2024-01-24 01:01

MATLAB实现K-means聚类数学建模算法

K-means聚类是一种常用的无监督学习算法，用于将数据集中的观测点划分为不同的组或簇。这个算法的目标是将数据点分配到k个簇中，使得每个数据点到其所属簇的中心的距离最小化。算法的步骤如下：1.

AI Dog·2024-01-24 01:15

用Py做文本分析5：关键词提取

1.关键词提取关键词指的是原始文档的和核心信息，关键词提取在文本聚类、分类、自动摘要等领域中有着重要的作用。

凡有言说·2024-01-24 00:04

K-均值聚类算法

K-均值聚类算法是一种常见的无监督学习算法，用于将数据集分成K个不同的组或类别。该算法的思想是通过计算样本之间的距离来寻找簇中的中心点，并将样本分配到最近的中心点所代表的簇中。

先------------------·2024-01-23 19:36

机器学习：什么是监督学习和无监督学习

目录一、监督学习（一）回归（二）分类二、无监督学习聚类一、监督学习介绍：监督学习是指学习输入到输出（x->y）映射的机器学习算法，监督即理解为：已知正确答案对其学习结果进行监督原理：提供算法示例以供学习

带带琪宝·2024-01-23 09:59

代码+视频--NHANES数据(复杂调查数据)亚组交互函数1.6尝鲜版（P for interaction）发布---用于一键生成交互效应表

在SCI文章中，交互效应表格（通常是表五）能为文章锦上添花，增加文章的信服力，增加结果的可信程度，还能进行数据挖掘。

天桥下的卖艺者·2024-01-23 07:58

R语言简介

1.R语言R语言是一种数学编程语言，主要用于统计分析、绘图和数据挖掘。2.R语言特点免费、开源，兼容性好（Windows、MacOS或Linux)。

学计算机的·2024-01-23 07:57

推荐频道

机器学习深度学习数据挖掘聚类