lotusng

【机器学习笔记】通俗易懂解释高斯混合聚类原理

0前言

最近在看周志华《机器学习》中聚类这一章。其它聚类方法都比较容易看懂，唯有高斯混合聚类这种方法看上去比较复杂，有点难理解。但是，当将它的原理和过程看懂之后，其实这节书所讲的内容并不复杂，只是将高斯分布、贝叶斯公式、极大似然法和聚类的思路混合在这一种方法中，所以理解起来有点绕。

下文致力于用最最最通俗易懂的方法来说清楚高斯混合聚类做了什么、能做什么和为什么可以这么做。

文章目录

0前言
1高斯分布
2贝叶斯公式

2.1数理统计概率三个公式

2.1.1概率乘法公式
2.1.2全概率公式
2.1.3贝叶斯公式

2.2假如概率是连续的
2.3高斯混合分布

3极大似然法
4聚类

1高斯分布

首先是高斯分布的概念。高斯分布即正态分布。一般我们最常见最熟知的一元正态分布的标准形式和曲线是这样的：
$f(x)=\frac{1}{\sqrt{2 \pi}\sigma } exp(-\frac{(x-\mu)^2}{2\sigma ^2})$

【机器学习笔记】通俗易懂解释高斯混合聚类原理_第1张图片

正态分布可以记为 $N(μ，σ^2)$ 。从上面的公式很明显可以看出一元正态分布只有两个参数 $μ$ 和 $σ$ ，且这两个参数决定了正态曲线的“宽窄”、“高矮”。曲线下面积为1。

举一个附合正态分布的例子：人群中的身高。从一个很大的人群中随机抽取一个人的身高，这个概率是服从正态分布的。因样本可近似看成无穷大，可看成是有放回的随机抽取。人群中绝大多数人的身高都在平均值附近，越靠近平均值的人越多，极高和极矮的人只占人群极少数。

那么，二元及以上（多元）多元高斯的标准形式：
$p(x)=\prod_{i=1}^{n}\frac{1}{2\pi }exp(-\frac{1}{2}x_i^2)=\frac{1}{{2\pi}^\frac{n}{2}}exp(-\frac{1}{2}x^TIx)$

一般的多元高斯具有形式：
$p(x)=\frac{1}{{2\pi}^\frac{n}{2} \left |\Sigma \right |^\frac{n}{2} }exp(-\frac{1}{2}x^T\Sigma ^{-1} x)$

从公式可看到多元正态分布只有两个参数 $μ$ 和 $\Sigma$ 。上面的一元正态公式其实就是当 $n = 1$ 的时候的特殊化。

二元高斯曲线如下图。曲线下面积为1。它多了一个变量。例如x轴是身高，y轴是体重，有了身高体重的数据就可以在z轴找到该身高体重在人群中所占的比例。同样地，中等身高且中等体重的人在人群中是最常见的，正如路上普普通通的路人。

2贝叶斯公式

2.1数理统计概率三个公式

首先复习一下数理统计中概率公式的概念。

假设，有三个箱子X、Y、Z，箱子里有红黄蓝色的球若干。
$事件 A ：把手伸向一个箱子准备抽取球。$
$事件 B ：从某个箱子里抽出一个球。$

事件A、B中各个情况发生的概率是不等的。例如：

$P(A_1)=P(A=X箱)=0.2$ ， $P(A_2)=P(A=Y箱)=0.5$ ， $P(A_3)=P(A=Z箱)=0.3$ 。

在第Y箱里 $P(B_1)=P(B=Y箱红球)=0.2$ ， $P(B_2)=P(B=Y箱黄球)=0.7$ ， $P(B_3)=P(B=Y箱蓝球)=0.1$ 。

2.1.1概率乘法公式

概率乘法公式： $P (A B) = P (A) P (B ∣ A)$

Question1：随机抽一个球，从 $Y$ 箱抽到黄球的概率是多少？
Answer：很明显，乘法公式告诉我们，先随机决定手伸向 $Y$ 箱(即事件 $A_2$ )的概率是0.5，在已经决定在 $Y$ 箱抽的前提下然后抽到黄球(即事件 $P (B ∣ A)$ 的概率是0.7。它们相乘就是所求。

2.1.2全概率公式

全概率公式： $P(B)=P(A_1)P(B|A_1)+ P(A_2)P(B|A_2)+…+ P(A_n)P(B|A_n)$

Question2：随机抽一个球，抽到黄球的概率是多少？
Answer：在Question1的解答思路上，将 $X$ 箱抽到黄球概率+ $Y$ 箱抽到黄球概率+ $Z$ 箱抽到黄球概率即是所求。

2.1.3贝叶斯公式

贝叶斯公式： $P(A_i|B)=\frac{P(A_i)P(B|A_i)}{\sum_{j=1}^{n}P(A_j)P(B| A_j)}$

Question3：现在随机抽一个球，已知结果是抽到黄球，求这个黄球是从 $Y$ 箱的概率是多少？
Answer：即求 $P(A_2|B)$ 。贝叶斯公式实际上分子就是乘法公式，求的是从 $Y$ 箱抽到黄球概率。分母实际上就是全概率公式，求的是从三个箱抽到黄球概率之和。分子分母相除，正是所求。

再回到乘法公式来看， $P (A B) = P (A) P (B ∣ A) = P (B) P (A ∣ B)$ 。后面的表达式用箱子抽球实例来理解：随机抽一个球，先随机决定抽黄球，再决定从哪个箱子抽。

其实贝叶斯公式只是乘法公式转换一下而已。贝斯叶公式也可以写成 $P (A ∣ B) = P (A B) / P (B)$ 。

2.2假如概率是连续的

在Y箱中球的颜色概率分布图如下。颜色只有三个，概率是三个常数，这是一个散点图。

那假如，箱里的球的标签是数字，并且是连续的呢？比如从箱子里抽，可以任意抽到1~20的数字，包括这个区间内的任何整数或小数例如2、4.52、8.1等。那么，这个概率分布图可能是一条连续的直线。再假如，它是一条曲线，甚至它不是在平面上的，是三维立体的曲线呢？比如文章开头所说的多元高斯曲线。

现在问题就稍微变得复杂了一点点了。我们的事件A依然是3个箱子，概率是离散的。事件B变成了连续的曲线（三维的曲线、甚至更多维）。

2.3高斯混合分布

周志华《机器学习》9.4.3节给出一个把30个西瓜聚类的例子，我们只有西瓜的两个特征向量：密度和含糖率。目标是用高斯混合聚类把这堆西瓜分为3簇（即设定k=3）。

现在用西瓜例子来理解一下贝叶斯公式。在自然界无数的西瓜里，假设可分为三类瓜：坏瓜、一般瓜和好瓜。可能一般瓜是占大多数的，坏瓜和好瓜分别只占一小部分。并且各类瓜均符合高斯分布，即坏瓜、一般瓜、好瓜分别有自己的一个二元高斯分布曲线，那么它们可能是这样的三条曲线：

$事件 A ：随机从坏瓜、一般瓜和好瓜三类中选一类$ 。( $P(A_i)$ 是三个常数， $i$ =3)
$事件 B ：随机在一类瓜中选一个含量糖为某值、密度为某值的瓜。$ ( $P(B_j)$ 是二维高斯曲线， $j$ =3)

再花一点点时间回忆并理解一下刚刚三个概率公式。

乘法公式告诉我们，在自然界中随机选择一个瓜（事件 $A B$ ）， $P (A B) = P (A) P (B ∣ A) = P (B) P (A ∣ B)$ ，操作是选一个类再在这个类里选一个瓜。或者先随机决定要选的瓜的含糖量和密度数值，再随机决定要去哪类瓜里找。
全概率公式，我事先写下我想要的dream瓜的含糖量和密度数值（ $事件 B$ ），随机选一个瓜，选中瓜的刚好是我的dream瓜的概率： $P(B) = P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + … + P(A_n)P(B|A_n)$ 。将这个数值已确定的瓜是来自坏瓜、一般瓜、好瓜的概率分别相加。
贝叶斯公式： $P(A_i|B)=\frac{P(A_i)P(B|A_i)}{\sum_{j=1}^{n}P(B_j)P(A|B_j)}$ 。随机抽个瓜，假如我抽到了一个含量糖为某值、密度为某值的瓜，这个瓜是来自第 $i$ 类瓜的概率？在第 $i$ 类中抽到这个数值的瓜的概率除以从各类中抽到这个数值的瓜的概率之和。

在周志华《机器学习》中是这样定义高斯混合分布的：

显然混合系数即上文中的 $P (A)$ ，上图中的公式 $(9.29)$ 其实就是全概率公式。我们已知样本集30个瓜的含量糖、密度的值。先重点研究其中一个编号为 $x$ 的样本瓜 $x$ ， $P m (x)$ 是指我们在自然界中随机选一个瓜，选中恰好的是这个样本瓜 $x$ 的概率。

公式 $(9.29)$ 的说明：

首先，当 $i$ =1，比如这里是指坏瓜类，那么这时坏瓜的高斯曲线已知已确定了（即 $\mu_1、\Sigma_1$ 已确定）。根据这个确定高斯曲线可以得到样本瓜 $x$ 在坏瓜类中存在的概率 $p(x|\mu_1)$ 。
然后， $p(x|\mu_i)$ 与 $\alpha_i$ 相乘的结果就是从坏瓜类中抽中样本瓜 $x$ 的概率。
最后，分别计算 $i$ =1（从坏瓜类中抽）、 $i$ =2（从一般瓜类中抽）和 $i$ =3（从好瓜类中抽）的情况下抽到样本瓜 $x$ 的概率，将这三种情况下的概率相加，得到的 $P m (x)$ 即是在自然界中抽一个瓜正好抽中样本瓜 $x$ 的概率。

由于每类瓜分别拥有3个参数 $\alpha$ 、 $\mu$ 、 $\Sigma$ ，因为类 $i$ =3，即这个例子里一共有9有参数。

3极大似然法

极大似然法比较有趣，它是在讲一件事会发生，我们已经看到了发生了这事件这个结果，那么我们就假设这件事可能是冥冥之中会发生的概率本来就很大。

比如，根据我们已知的条件，已知 $a、\mu、\Sigma$ 。一般瓜占三类瓜最大比例，每类中含糖量和密度整体又服从高斯分布。如果在自然界中随机抽一个瓜，那我们可以猜这个瓜是来自一般瓜类并且含糖量和密度在平均值附近的可能性最大（乘法公式）。

反过来想，假如已知 $\mu、\Sigma$ ，现在我们已经拿到了一个瓜，已知这个瓜的含糖量和密度数值，但不知道这个瓜来自哪个类，怎么办？我们可以将这个瓜的含糖量和密度数值分别代入3类瓜的高斯分布曲线，在哪类瓜中的概率高，即说明这个瓜来自哪类瓜的可能性最大。（下图公式是贝叶斯）

现在再换一个角度想，假如已知的是30个瓜的含糖量和密度数值，现在要求 $\alpha$ 、 $\mu$ 、 $\Sigma$ ，即猜出自然界已有但我们不知道的西瓜规律，怎么办？

因为我们相信这30个瓜是冥冥之中的天选之瓜，并且随机选的第1个瓜和第2个瓜是独立事件。先假设自然界中 $\alpha$ 、 $\mu$ 、 $\Sigma$ 是存在的，那么，算出这30个瓜的 $P m (x)$ ，然后将30个 $P m (x)$ 相乘，得到的结果值 $\prod Pm(x)$ 理论上应该是最大的。

所以，假如我们在 $\alpha$ 、 $\mu$ 、 $\Sigma$ 为某值时算出了最大的结果值 $\prod Pm(x)$ ，此时我们猜的西瓜规律很有可能是对的，这些天选之瓜才会随机地恰好地被我们选中，出现在我们面前。这就是我们这样设置求解限制条件和算法流程中迭代的停止条件的原因。

上述就是极大似然法做的事情。我们在已有的结果面前推测我们未知但存在的规律。至于具体的解法，因为是求30个 $P m (x)$ 的乘积的最大值，先将这个式子取对数，就可以将多个数的乘法转化成加法了。接下来的变换、化简、求解就可以交给高数和计算机来解决啦。

求出 $\alpha$ 、 $\mu$ 、 $\Sigma$ 之后，相当于我们已经掌握了自然界分类瓜的神秘规律，那么这时按照这个规律来给瓜分类并贴上分类标签，就是很简单的事情了。把某个瓜代进3条我们求出来的高斯曲线，选出所在最大概率的曲线，就说明这个瓜来自这个类的可能性最大。这就是高斯混合聚类算法的最后一步：根据已知参数来分类。

4聚类

高斯混合聚类的步骤：首先假设样本集具有一些规律，包括可以以 $\alpha$ 参数作为比例分为 $k$ 类且每类内符合高斯分布。然后根据贝叶斯原理利用极大似然法同时求出决定分类比例的 $\alpha$ 和决定类内高斯分布的 $\mu$ 、 $\Sigma$ 。最后将样本根据 $\alpha$ 、 $\mu$ 、 $\Sigma$ 再次通过贝叶斯原理求出样本该分在哪个簇。

整个步骤下来，这种做法其实就是一种原型聚类：通过找到可以刻画样本的原型（ $\alpha$ 、 $\mu$ 、 $\Sigma$ 参数），迭代得到 $\alpha$ 、 $\mu$ 、 $\Sigma$ 参数的最优解。

将逻辑思路理清楚之后，高斯混合聚类并不复杂，只是因为它同时运用了高斯分布、贝叶斯公式、极大似然法和聚类的原理和思想，加上高数化简求解的步骤，而导致初读时比较容易感到有些混乱。

p.s. 第一次写博文，反反复复修改，还是感觉自己把简单的事情讲复杂了却还没有讲清楚……欢迎大家留言交流呀~

你可能感兴趣的:(机器学习,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他