为梦而生~

【机器学习基础】K-Means聚类算法

个人主页：为梦而生~ 关注我一起学习吧！
专栏：机器学习欢迎订阅！相对完整的机器学习基础教学！
⭐特别提醒：针对机器学习，特别开始专栏：机器学习python实战欢迎订阅！本专栏针对机器学习基础专栏的理论知识，利用python代码进行实际展示，真正做到从基础到实战！
往期推荐：
【机器学习基础】机器学习入门（1）
【机器学习基础】机器学习入门（2）
【机器学习基础】机器学习的基本术语
【机器学习基础】机器学习的模型评估（评估方法及性能度量原理及主要公式）
【机器学习基础】一元线性回归（适合初学者的保姆级文章）
【机器学习基础】多元线性回归（适合初学者的保姆级文章）
【机器学习基础】对数几率回归（logistic回归）
【机器学习基础】正则化
【机器学习基础】决策树（Decision Tree）
本期内容：前面介绍的各种模型都是有监督的模型，对于无监督，最经典的就是聚类算法，本文就来介绍一下主要的聚类方法。

文章目录

1 聚类算法分析概述
2 K-Means聚类算法
3 K-Means参数概念及公式推导
- 3.1 平方误差（Sum of Squared Errors）
- 3.2 欧氏距离（euclidean metric）
- 3.3 轮廓系数（Silhouette Coefficient）
- 3.4 DB指数（Davies-Bouldin Index）
4 K-Means聚类算法的实现
- 4.1 算法流程
- 4.2 算法的伪代码描述
- 4.3 算法优缺点

1 聚类算法分析概述

近几年，随着网络的发展，越来越多的人开始习惯于在网上找信息，而网络也逐渐地走进了人们的日常生活。从人们每天都会接触到大量的数据，比如文字、音乐、图像、视频等等。随着信息的增多，人工智能应运而生。而在人工智能这个概念中，机器学习尤为重要，是实现人工智能的基础。机器学习，就是让计算机具有人一样的学习能力的技术，对当前和历史的海量数据进行挖掘、分析，并从中发现有价值的信息和规律。

随着大数据时代的来临，数据挖掘技术逐渐成为一种通用的业务方式，并推动了机器学习技术的快速发展。2021年，我国电商交易额为42.30万亿元，较上年同期增加了19.6%。在电商和其他行业中，要想获得更好的用户体验，就必须要对新用户进行类型的识别，这时，就可以将新用户进行聚类，将其分成多个簇，之后再以获得的结果为依据，来训练分类模型，进而判别新用户的类型。但是传统的数据挖掘技术已经不能适应海量的数据，K-Means聚类算法依赖其较简单的推导过程和实用、简单和高效的特性等广受青睐，在很多领域有巨大的贡献，例如：文档聚类、市场细分、图像分割、特征学习等。在非监督学习领域，K均值聚类是最广泛的，也是研究最多，应用最广泛的。而在聚类算法中，最常见的就是原型聚类（也称原型判别），以K均值算法为代表。

2 K-Means聚类算法

给定或随机产生m个样本的样本集。为了描述每个示例（即样本），我们给出了这样一个假设：每个示例具有d个属性来描述，这些属性反映了它与其他示例的关系，即每个示例是d维样本空间中的一个向量。

K-Means算法的基本思想是：将数据集按照距离进行划分，对于每一个样本，将它的邻域内的所有样本都分配到最近的那个类中。

首先，算法需要预先指定并且划分为k个簇，这也是与其他算法的不同点。在这里定义簇的均值向量为：

基于此，定义簇内样本围绕簇均值向量的紧密程度[13]，即平方误差为：

E的值越小则簇内样本相似度越高，K-Means算法就是通过通过最小化SSE来寻找使得模型预测误差最小的模型参数。

3 K-Means参数概念及公式推导

3.1 平方误差（Sum of Squared Errors）

在聚类分析中，平方误差（Sum of Squared
Errors，SSE）是一种衡量聚类效果的指标。聚类算法将数据点分配到不同的簇中，每个数据点与它所属的簇的质心之间的距离被计算出来，然后平方，最后这些平方距离的和被称为平方误差。

具体来说，对于每个数据点xi和它所属的簇ci的质心，平方误差会计算为(xi - ci)^2。然后，所有簇的平方误差会相加，得到总的平方误差。这个值越小，说明每个数据点与它所属的簇的质心之间的距离越小，也就是聚类效果越好。

这个概念可以用于评估和优化聚类算法。比如在K-means算法中，初始质心的选择可能会影响聚类结果。K-means++ 算法通过让选择的质心尽可能分散来改善这个问题。另外，二分K-means算法则通过反复将一个簇划分为两个簇，直到达到用户给定的簇数目为止。在这个过程中，被划分出去的总是误差平方和最大的簇，因为这通常意味着这个簇的聚类效果最不好。

3.2 欧氏距离（euclidean metric）

也被称为欧几里得度量，是一个经常使用的在m维空间中两点之间的距离定义，或者向量的自然长度，即该点到原点的距离。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

在聚类分析中，欧氏距离是常用的距离度量方式之一。它表示的是在n维空间中，两个点之间的直线距离。

具体计算公式为：

其中，x和y是两个n维向量，x1,x2,…,xn和y1,y2,…,yn是它们的对应维度上的值。

在应用方面，欧氏距离经常被用于衡量数据点之间的相似度，数据点之间的距离越小，说明它们越相似。例如，在客户分群中，可以使用该算法将相似行为模式的客户归类到同一簇中，以便进行个性化推荐和精准营销。在图像分析中，可以使用该算法将相似的图像归类到同一簇中，以便进行图像检索和内容识别。

缺点

例如，它对数据的尺度敏感，需要对数据进行归一化处理，以避免尺度差异对聚类结果的影响。此外，它只考虑了数据点之间的距离，没有考虑到数据点之间的方向关系，因此在处理某些特殊数据集时可能会出现聚类效果不佳的情况。

3.3 轮廓系数（Silhouette Coefficient）

轮廓系数（Silhouette Coefficient）是一种用于评估聚类效果的指标，它考虑了聚类中的内聚度和分离度。

轮廓系数的计算涉及到每个数据点和其所属簇内其他数据点的距离，以及该数据点与其他簇的距离。具体而言，对于每个数据点，其轮廓系数被定义为：s = (b - a) / max(a, b)，其中a是数据点与其同簇其他数据点的平均距离，b是数据点与其他簇的平均距离。

轮廓系数计算公式如下：

根据轮廓系数的定义，si接近1时，说明样本i聚类合理；si接近-1时，说明样本i更应该分类到另外的簇；若si近似为0，则说明样本i在两个簇的边界上。所有样本的si的均值称为聚类结果的轮廓系数，是该聚类是否合理、有效的度量。

优点

它可以用于处理不等簇大小的情况，因为它考虑了每个样本点与其他簇的平均距离。

轮廓系数的值域为[-1,1]，方便理解和使用。

局限性

它对异常值比较敏感，可能会受到离群点的影响。

3.4 DB指数（Davies-Bouldin Index）

DB指数（Davies-Bouldin Index）是一种用于评估聚类效果的内部指标。它考虑了每个簇内的样本点的紧密程度以及不同簇之间的分离度。

DB指数的计算方法如下：

对于每个簇Ck，计算其内部样本点之间的平均距离avg(Ck)。
对于每个簇Ck，计算其与其它簇之间的最小样本距离dmin(Ck, Cj)。
对于每个簇Ck，计算其中心点与其它簇中心点之间的距离dcen(Ck, Cj)。
计算DB指数，公式为：DBI=k1i=1∑kmaxj̸=i(dcen(ui,uj)avg(Ci)+avg(Cj))。

DB指数的值越小，说明聚类效果越好。这是因为DB指数衡量的是不同簇之间的分离度和簇内的紧密程度之间的平衡，当DB指数越小，说明聚类效果越好。

缺点

DB指数对于异常值比较敏感，因为异常值可能会影响簇内样本点的平均距离的计算。

此外，DB指数也可能会受到样本规模的影响，因为样本规模的增加可能会增加计算量，从而影响聚类效果的评价。

DB指数在计算过程中需要知道真实标签信息，因此常常被用作无监督聚类算法的评价指标，在比较不同算法或不同参数设置时提供了重要的帮助。

4 K-Means聚类算法的实现

K-Means聚类算法的基本原理是，针对聚类簇划分，最小化平方误差。平方误差在一定程度上描述了簇内样本点围绕簇均值向量的紧密程度，它的值越小说明聚类效果越好。

4.1 算法流程

从数据中选择K个对象作为初始聚类中心。
计算每个聚类对象到聚类中心的距离，将每个对象归到距离最近的聚类中心所对应的类别。
对于每个聚类，计算其所有数据点的均值，作为新的聚类中心。
如果聚类中心发生变化，返回第2步；否则算法结束。
整个算法会反复迭代第2步至第4步，直到聚类中心不再发生变化或达到最大迭代次数为止。最终，算法将会得到聚类结果，将每个数据点划分到不同的聚类中心所对应的类别中。

4.2 算法的伪代码描述

K-Means聚类算法的执行效果如下图所示：

4.3 算法优缺点

优点
首先，此算法容易理解、方便实现，其次，K均值算法可以看作高斯混合聚类在混合成分方差相等、且每个样本仅派给一个混合成分时的特例，所以该算法在数据集近似高斯分布时，聚类效果不错。同时，该算法可以处理大规模数据集，效率高。
缺点
但是，缺点也很显然。K值和初始聚类点的选取对于聚类的效果可能产生较大的影响，其次，样本点的离散程度可能对于聚类影响有较大的差别，特别是离群点的处理问题。由于K-Means聚类算法只能使用欧氏距离进行计算，所以只能较好的适用于椭球形类簇，对于非凸形状的簇不适合。K-Means算法只能处理数值型数据，对于非数值型数据需要进行转换才能使用。最后，由于此算法的时间复杂度为 $O (nk t)$ ，所以在大规模数据上收敛较慢甚至引起崩溃。

你可能感兴趣的:(机器学习,机器学习,算法,kmeans,人工智能,聚类,无监督学习)

信号处理应用：电力系统中的信号处理_（9）.基于电力系统信号的数据挖掘技术 kkchenkx 信号处理技术仿真模拟信号处理数据挖掘人工智能
基于电力系统信号的数据挖掘技术1.引言电力系统中的信号处理是一个重要的研究领域，涉及电力系统的监测、故障诊断、状态评估等多个方面。随着大数据和人工智能技术的发展，数据挖掘技术在电力系统中的应用越来越广泛。本节将介绍如何利用数据挖掘技术对电力系统中的信号进行处理和分析，以提高系统的可靠性和效率。2.电力系统中的信号类型在电力系统中，信号可以分为多种类型，包括：电压信号：反映电力系统的电压水平，用于检
Vue 框架深度解析：源码分析与实现原理详解北辰alk vue 前端 vue.js 前端 javascript
文章目录一、Vue核心架构设计1.1整体架构流程图1.2模块职责划分二、响应式系统源码解析2.1核心类关系图2.2核心源码分析2.2.1数据劫持实现2.2.2依赖收集过程三、虚拟DOM与Diff算法实现3.1Diff算法流程图3.2核心Diff源码四、模板编译全流程剖析4.1编译流程图4.2编译阶段源码五、组件系统与生命周期5.1组件初始化流程5.2生命周期源码触发点六、异步更新队列与性能优化6.
智能教育：DeepSeek在课堂管理中的应用与代码实现 Evaporator Core #DeepSeek快速入门系统架构设计师 Python开发经验 deepseek
课堂管理是教育领域的重要组成部分，它直接影响教学效果和学生的学习体验。随着人工智能技术的发展，DeepSeek正在通过其强大的算法和数据处理能力，推动课堂管理的智能化和高效化。本文将结合代码实现，深入探讨DeepSeek在课堂管理中的应用。一、智能课堂管理系统：从数据到实时监控智能课堂管理的核心在于通过实时监控学生的学习行为，提供及时的反馈和调整。DeepSeek通过深度学习算法，能够从课堂数据中
CCF-GESP Python一级考试全解析：网络协议+编程技能双突破奕澄羽邦 python 网络协议开发语言
第一章CCF-GESP考试全景透视1.1认证体系权威性中国计算机学会（CCF）主办的GESP编程能力等级认证，是国内首个面向青少年的编程能力标准化评估体系。Python一级考试作为入门级认证，主要考察考生对计算机基础逻辑、编程工具使用及网络基础概念的掌握程度，证书受教育部认可，为后续人工智能、大数据等领域学习奠定基石。1.2考试内容三维度编程语言：Python语法基础（变量、循环、条件判断）、函数
sklearn 支持向量机实践总结可爱的红薯 python sklearn 支持向量机 python sklearn 支持向量机
转自http://www.cnblogs.com/pinard/p/6117515.html之前通过一个系列对支持向量机(以下简称SVM)算法的原理做了一个总结，本文从实践的角度对scikit-learnSVM算法库的使用做一个小结。scikit-learnSVM算法库封装了libsvm和liblinear的实现，仅仅重写了算法了接口部分。1.scikit-learnSVM算法库使用概述sciki
深入探讨如何在LangChain中将参数从一个步骤传递到下一个步骤：高级技巧与实际应用 m0_57781768 langchain
深入探讨如何在LangChain中将参数从一个步骤传递到下一个步骤：高级技巧与实际应用在现代软件开发中，特别是在复杂的自然语言处理（NLP）和人工智能应用中，数据的传递和处理是至关重要的。LangChainExpressionLanguage(LCEL)为开发者提供了一种强大的工具，能够有效地管理数据流，并确保任务链中的每一步都能顺利进行。在这些任务链中，开发者常常需要将数据从一个步骤无缝地传递到
如何成为LangChain项目的贡献者 eahba langchain easyui 前端 python
技术背景介绍LangChain是一个开源项目，致力于处理自然语言处理和生成任务。随着AI和机器学习领域的快速发展，LangChain项目的更新速度也很快。此项目欢迎社区的参与，无论是新功能、基础设施改进、文档提升还是Bug修复，都在积极寻求贡献。核心原则解析参与开源项目不仅能提升个人技能，还能为社区带来价值。对LangChain的贡献包括但不限于以下几个方面：文档改进：帮助改善项目文档，以便新人和
ManusAl引发全球关注：通用AI代理新篇章耶耶Norsea 网络杂烩人工智能
摘要近日，ManusAl合伙人张涛针对邀请码价格问题作出紧急回应。ManusAl作为首个通用AI代理，在全球范围内引起轰动，其性能超越了OpenAI的产品。ManusAl不仅是一个聊天机器人或工作流工具，它作为一个真正自主的主体，能够弥合概念与执行之间的差距。当其他AI还在生成想法时，ManusAl已经开始交付实际成果，代表了人机协作的新一代范式，让用户提前体验接近通用人工智能（AGI）的能力。关
【openAI库】Python语言openAI库详解：从入门到精通（从0到1手把手教程） ChatGPT-千鑫 Python基础人工智能 python 开发语言人工智能 gpt AIGC 机器学习
欢迎来到我的博客！很高兴能在这里与您相遇！首页：GPT-千鑫–热爱AI、热爱Python的天选打工人，活到老学到老！！！导航-人工智能系列：包含OpenAIAPIKey教程,50个Prompt指令,Midjourney生成攻略等更多教程…-常用开发工具：包含AI代码补全工具,Vscode-AI工具,IDERorPycharm-AI工具,获取OpenAIAPIKey的多种方式等更多教程…-VScod
etl 增量对比解决方案 etl-engine 如何实现增量对比
什么是增量对比增量是相对于全量来说的，它们都是处于“同步数据”这个场景中。全量同步实现的逻辑是不管原表与目标表数据是否发生过变量，都要定期将原表数据全部覆盖到目标表，以保证目标表数据的完整性。增量对比实现的逻辑是将原表与目标表的数据通过算法进行对比，然后只将差异数据（增加、删除、修改）同步到目标表，在最小化操作目标表的同时还保证了目标表数据的完整性。增量对比的必要性模拟一个使用场景，业务系统A表中
技术领域，有许多优秀的博客和网站小赖同学啊 Testmanger 技术博客
在技术领域，有许多优秀的博客和网站为开发者、工程师和技术爱好者提供了丰富的学习资源和行业动态。以下是一些常用的技术博客和网站，涵盖了编程、软件开发、数据科学、人工智能、网络安全等多个领域：1.综合技术博客1.1Medium网址:https://medium.com特点:Medium是一个开放的内容平台，许多技术专家和开发者在这里分享技术文章、教程和行业见解。你可以通过搜索特定技术主题找到相关内容。
物联网通过数字孪生技术实现设备状态的实时仿真和优化小赖同学啊智能硬件物联网
数字孪生（DigitalTwin）是一种通过虚拟模型实时映射和仿真物理设备状态的技术。它结合了物联网（IoT）、大数据、人工智能（AI）和仿真技术，能够实现对设备状态的实时监控、预测和优化。以下是数字孪生技术在设备状态实时仿真和优化中的应用及实现路径：一、数字孪生的核心概念1.物理实体实际的设备或系统（如工厂设备、风力发电机、汽车）。2.虚拟模型物理实体的数字化表示，通常包括几何模型、行为模型和数
图文详解维感科技3D深度相机在AGV/AMR的应用（一） Vzense ToF 3D 3D ToF深度相机计算机视觉视觉检测
叉式移动机器人(AGV/AMR)介绍叉式移动机器人（AGV/AMR）是在叉车上加载各种导引技术，构建地图算法，辅以避障安全技术，实现叉车的无人化作业。随着行业对自动化搬运的要求越来越高，近两年，融合了堆垛功能与自动化导向搬运的叉式移动机器人受到应用企业青睐。据中国移动机器人（AGV/AMR）产业联盟数据、新战略移动机器人产业研究所统计，2021年中国叉式移动机器人（含视觉导航）销量达8000台，同
什么是MCP协议？AI Agent时代如何选择MCP协议？猫头虎人工智能 MCP AI编程 ide agi AIGC AI-native
什么是MCP协议？AIAgent时代如何选择MCP协议？摘要在人工智能（AI）迅猛发展的今天，如何让大型语言模型（LLM）充分利用外部数据和工具已成为关键问题。MCP协议（ModelContextProtocol，模型上下文协议）作为一种开放标准，正以其统一、灵活且安全的设计，为解决数据孤岛和碎片化集成问题提供了一条全新的路径。本文将详细解析MCP协议的原理、架构、优势及在AIAgent时代下的应
【算法】010、合并两个有序链表呆呆的猫算法算法链表数据结构
【算法】010、合并两个有序链表文章目录一、合并两个有序链表1.1思路1.2多语言解法一、合并两个有序链表1.1思路//gopackagemainimport("fmt""strconv")typeListNodestruct{ValintNext*ListNode}func(n*ListNode)String()(ansstring){for;n!=nil;n=n.Next{ans+="=>"a
给求职者的建议：软件工程师追寻向上 python java c语言软件工程
一、编程基础：构建核心能力语言选择与学习首推Python：语法简洁，适合入门。推荐书籍《Python编程：从入门到实践》，重点掌握列表推导、装饰器、文件操作。Java/C++进阶：理解内存管理（如JVM垃圾回收）、多线程编程（synchronized关键字）。推荐《Java核心技术卷Ⅰ》。辅助语言：JavaScript（必学）、Go或Rust（扩展视野）。数据结构与算法基础必刷：数组、链表、哈希表
【人工智能基础】生成模型：让数据“无中生有”的神奇魔法 roman_日积跬步-终至千里 #人工智能基础知识人工智能
文章目录一、生成模型的发展脉络二、生成模型的基本原理三、主要生成模型及其逻辑1、生成对抗网络（GAN）2、变分自编码器（VAE）3、扩散模型（DPM）4、基于能量的模型（EBM）5、正规化流（NF）四、生成模型对比分析五、生成模型的应用拓展一、生成模型的发展脉络在深度学习尚未兴起的时期，计算机视觉领域的传统图像生成算法主要依赖纹理合成和纹理映射等技术。这些算法基于手工设计的特征进行图像构建，然而，
二维码识别OCR接口：开启高效信息提取的新篇章安静的小员 ocr java javascript python 前端后端
前言在数字化时代，二维码作为一种高效的信息传递工具，已经广泛应用于各个领域。而二维码识别OCR接口的出现，更是为企业和开发者提供了一种快速、准确地提取信息的解决方案。技术原理：图像识别与数据解析的完美结合二维码识别OCR接口的核心在于其独特的技术架构。系统首先通过图像采集模块获取二维码图像，经过预处理后，利用定位算法精确识别二维码的位置和角度。随后，解码模块对二维码数据进行解析，最终输出可读的信息
智能客服到个人助理，国内AI大模型如何改变我们的生活？ python_知世人工智能大语言模型 AGI 自然语言处理 ai大模型智能客服计算机技术
引言随着人工智能（AI）技术的高速发展，AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展，不少独创的技术点和实际应用令人瞩目。那么，国内的AI大模型有哪些独创的技术点？它们在实际应用中又有哪些出色表现呢？此外，普通人又该如何利用这些大模型提升工作和生活的质量和效率呢？本文将为你一一解析。一、国内AI大模型的独创技术点多模态学习多模态学习是国内AI大模型
你为什么要写博客？何中应后端程序员创富 Java
契机：最近CSDN系统给我发了一条私信，说我成为博主已经四年了，写一篇博客纪念可以得一枚纪念勋章，遂有此文。机缘最开始的这篇博客，是为了公司内部的一次分享会准备的，完全是YY出来的，现在看来非常Cute【一笔画完】通关路径算法的Java代码实现V1.0收获后来，想再系统的整理我的专业知识，就再捋了一遍Java，学习的视频主要是B站阿伟老师的那两期视频，非常详细，我自己也写了很多博客，加强印象。Ja
Python开发农村青年婚恋appq (实操) Geeker-2025 python
开发一款农村青年婚恋APP是一个复杂且具有挑战性的项目。该应用需要整合用户管理、匹配算法、实时通信、数据分析等多个功能模块，并确保系统的安全性、稳定性和用户体验。使用Python开发可以充分利用其在数据处理、机器学习和Web开发方面的优势，构建一个高性能、可扩展且功能丰富的应用。以下是一个高层次的设计概述，涵盖主要的技术栈和功能模块，并提供使用Python开发的示例。##技术栈概述###前端-**
从0到1搭建个人AI助手：让技术改变生活不太会写人工智能生活 ai 智能体
从0到1搭建个人AI助手：让技术改变生活在这个人工智能飞速发展的时代，拥有一个专属的AI助手不再是科幻电影中的场景。今天，我就来和大家分享如何一步步搭建属于自己的个人AI助手，无论你是编程小白还是技术大神，都能在这个过程中找到乐趣和收获，让技术实实在在地改变我们的日常生活。一、为什么要搭建个人AI助手想象一下，每天清晨，你的AI助手轻声唤醒你，为你播报今日的天气、日程安排以及最新的新闻资讯。当你在
AIGC技术研究与应用 ---- 下一代人工智能：新范式！新生产力！（2.1-大模型发展历程之背景与开端） shiter AI重制版】人工智能系统解决方案与技术架构人工智能 AIGC 深度学习
文章大纲按照目标不同，AI大模型可分为四类，多模态为未来方向NLP大模型CV大模型科学计算大模型多模态大模型2022年是大模型技术的拐点,前期技术铺垫奠定了基础生成式模型的开端VAE与GANVAEGAN参考文献与学习路径GPT系列模型解析前序文章模型进化券商研报陆奇演讲按照目标不同，AI大模型可分为四类，多模态为未来方向NLP大模型自然语言处理（NaturalLanguageProcessing，
《DeepSeek-V3：动态温度调节算法，开启推理新境界！》人工智能深度学习
在人工智能领域不断探索的征程中，DeepSeek-V3以其卓越的创新技术，尤其是动态温度调节算法，成为了备受瞩目的焦点。这项算法犹如一把神奇的钥匙，巧妙地开启了推理速度与精度动态平衡的大门，为大语言模型的发展开辟了新的道路。温度，在大语言模型的世界里，是一个极为关键的参数，它掌控着模型输出的随机性。这一概念，脱胎于热力学，却在人工智能的领域中被赋予了全新的使命。当温度较低时，模型倾向于选择高概率词
数字识别项目不要天天开心机器学习人工智能深度学习算法
集成算法·Bagging·随机森林构造树模型：由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样。集成算法·Stacking·堆叠：很暴力，拿来一堆直接上（各种分类器都来了）·可以堆叠各种各样的分类器（KNN,SVM,RF等等）·分阶段：第一阶段得出各自结果，第二阶段再用前一阶段结果训练实现神经网络实例利用PyTorch内置函数mnist下载数据。·利用torchvision对数据进
核函数及其常见类型 Shockang 机器学习数学通关指南机器学习人工智能数学线性代数概率统计
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文核心概念核函数（KernelFunction）是机器学习中处理非线性可分数据的关键工具。它的核心思想是隐式映射：通过将数据从原始低维空间映射到高维空间，使得在高维空间中线性可分，从而无需显式计算高维映射，仅需在低维空间高效计算
Python构建基于协同过滤的推荐系统：从理论到实践清水白石008 python Python题库 python 开发语言
构建基于协同过滤的推荐系统：从理论到实践推荐系统在现代应用中无处不在，从电商平台的商品推荐到流媒体服务的内容推荐，推荐系统极大地提升了用户体验。本文将详细介绍如何使用Python构建一个基于协同过滤算法的推荐系统，内容涵盖理论基础、数据处理、算法实现以及实际应用。一、推荐系统概述推荐系统主要分为三类：基于内容的推荐、基于协同过滤的推荐和混合推荐系统。本文重点介绍基于协同过滤的推荐系统。协同过滤（C
P4168 [Violet] 蒲公英题解笑谈c语言紫题分块
《P4168[Violet]蒲公英题解》题目入口一、题目概述核心任务：给定一个长度为(n)的蒲公英种类序列({a_1,a_2,\cdots,a_n})，需要对(m)次询问做出回应。每次询问一个区间([l,r])，要找出该区间内出现次数最多的蒲公英种类编号；若多种蒲公英出现次数相同，则输出编号最小的那个。并且要求算法在线处理询问，即每次询问都要基于之前询问的结果来处理当前输入。输入处理：输入包含(n
C语言基础系列【20】内存管理程序喵大人 C语言基础系列 c语言开发语言 c++后端面试
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列C++大佬养成攻略在C++编程中，内存管理是一个至关重要的概念。要深入理解内存管理，我们肯定要
PyTorch 学习路线 gorgor在码农 #python入门基础 python pytorch
学习PyTorch需要结合理论理解和实践编码，逐步掌握其核心功能和实际应用。以下是分阶段的学习路径和资源推荐，适合从入门到进阶：1.基础知识准备前提条件Python基础：熟悉Python语法（变量、函数、类、模块等）。数学基础：了解线性代数、微积分、概率论（深度学习的基础）。机器学习基础：理解神经网络、损失函数、优化器（如梯度下降）等概念。学习资源Python入门：Python官方教程机器学习基础
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他