王踹踹

机器学习基础整理(第2章) - 模式分类

文章目录

什么是模式识别/分类器？
基础模型 - 模式分类器
监督和非监督分类器
贝叶斯决策规则
- 最小误差 (Minimum Error)
- 最小风险 (Minimum Risk)
- 最小损失和最小风险的关系
Neyman-Pearson决策规则
判别函数 (Discriminant Function)
- 线性判别函数 (Linear Discriminant Functions)
- - 线性机
  - 分段线性判别函数 (Piecewise Linear Discriminant Functions)

什么是模式识别/分类器？

我们理所当然地认为我们能够在我们的世界中走动并认识到：
汽车，人类，动物，一般对象，尽管它们的形式和存在多种多样。

在这些任务中，什么特征帮助我们识别？

在模式识别中，

我们研究如何设计能够辨认或分类"事物"的机器。
我们研究能描述"事物"的特征的统计。
我们研究如何衡量模式识别系统的性能以及选择表现好的系统。

基础模型 - 模式分类器

模式 (pattern) 是一组能代表一个 $p$ 维向量的数字或值，
$x=[x_1, x_2, ..., x_p]^t$
其中 $t$ (有时候也可以是 $T$ ) 代表了向量转置。

模式的例子:

图片中的像素
股票在股票市场上的收盘价
语音信号的录音
天气变量的测量
一组关于房产的测量值
一组关于人的行为和生活方式的测量
等等

假设存在 $C$ 种类别，其被表示为:
$\omega_1, ..., \omega_C$

存在一个变量 $z$ , 其代表一个模式 $x$ 属于哪个类别 $\omega_i$ ，也就是:
若 $z = i$ ，则模式 $x$ 属于类别 $\omega_i$ , $\in \{1, ..., C\}$

现在我们的问题就是如何设计模式分类器。
设计一个模式分类器意味着，我们需要指定分类器模型参数，以及确保其指定模式的响应 (response) 是最优的。

设计流程: 我们拥有一组已知类别的模式 ${(x_i, z_i)\}$ ，其被称为训练或设计集，被用来设计分类器。评估以及设置最佳操作参数 (optimal operating parameters) 。
一旦我们拥有已设计好的分类器，我们就可以估计未知模式的类别所属。

通常，我们假设用于训练的样本来自与测试样本和操作样本 (operational samples) 相同的概率分布。

对于一个分类器，我们得知:

表示模式 (representation pattern) 是我们从传感器中获得的原始数据 (raw data)，如，图片或视频像素，股票价格等。
特征模式 (feature pattern) 是一小组从一些转换获取的变量，如根据特征选择或提取。
训练好的分类器使用特征模式对其输入处所呈现的模式做出决定。

此外，还有一些需要注意的:

我们要解决的问题: 给定一组已知类别模式的训练集，我们寻求设计一个对预期操作条件最佳的分类器。
给定的训练模式集 (training patterns) 是有限的。
分类器模型不能过于复杂，它不能拥有太多参数，否则可能会导致过拟合。
在训练集上达到最优性能并不重要。
达到最优的泛化性能非常重要。( 这代表的是真实操作条件的数据的预期性能 - 指的是能提取出训练集的无限集 infinite set)

监督和非监督分类器

主要有两种类别的分类器:

监督型: 分类器设计流程拥有一组带标签 (类别) 的数据样本，这就是示例或训练集。
非监督型: 给定的数据是没被标注的，我们要从能区分各组的数据和特征中去寻找组别。
半监督型: 标注的和未标注的数据都被用于训练。

使用尽可能简单的模型来描述系统的原则在 “Occan’s razor” 中得到了体现，即对那些不必要复杂的事物进行更简单的解释。该原理是非常流行的稀疏表示方法 (sparse representation) 的基础。

贝叶斯决策规则

最小误差 (Minimum Error)

这种分类方法 (也被称为判别 discrimination) 假设了我们完全了解每个类别的概率密度函数。
使 $C$ 个类别拥有已知的先验概率 (priori probabilities)， $P(\omega_1), ..., P(\omega_C)$ 。我们使用测量向量 (measurement vector) $x$ 将 $x$ 分配给 $C$ 个类别之一。

制定一个能通过使让给定观测 $x$ 分配类别 $\omega_j$ 时在 $\omega_1, ..., \omega_C$ 中拥有最高概率 (如， $P(\omega_j|x)$ ，后验概率 posterior probability)，接着将 $x$ 分配给类别 $\omega_j$ 的决策规则。

我们可以使用贝叶斯定理根据先验概率和类条件密度函数 (class-conditional density functions) $p(x|\omega_i)$ 来表达后验概率 $P(\omega_j|x)$

其中

注: 根据统计或者经验得到的概率值，被称为先验概率。而事情已经发生，要得到这件事情发生的原因是由某个因素引起的可能性大小则被称为后验经验，也可以说，通过贝叶斯定理和先验概率计算出来的结果就是后验概率。

根据类条件密度，我们可以将决策规则写为，若要将 $x$ 分配给 $\omega_j$ ，则:
$p(x|\omega_j)P(\omega_j) \gt p(x|\omega_k)P(\omega_k), k = 1, ..., C, k \ne j$

这就是贝叶斯最小误差规则 (Bayes’ rule for minimum error)。

注: 贝叶斯误差是在给定特征记得情况下，假定数据无限且准确，依靠统计所能得到的最小误差。(假设真实世界中90%长头发的人为女性，10%为男性 (这是已知的真实分布)；此时已知一个人头发长，预测该同学性别。由于只能预测男/女。此时即使你知道真实分布，预测为女，也会有10%的误差。这就是贝叶斯误差。) 实际上，贝叶斯误差难以求得，该指标更多在学术领域中更有意义。

在二分类的情况下，我们能将贝叶斯最小误差规则写成似然比 (likelihood ratio, $L_r(x)$ ) 的形式 (对于, $\in class \omega_1$ ):
$L_r(x) = \frac{p(x|\omega_1)}{p(x|\omega_2)} \gt \frac{P(\omega_2)}{P(\omega_1)},$

$p(x|\omega_i)p(\omega_i), i=1,2$ 并且 $P(\omega_1) = P(\omega_2) = 0.5$ 的图像如下:

下图是似然比 $L_r(x)$ 以及阈值 $P(\omega_2)/P(\omega_1)$

根据图像，若 $L_r(x) \gt \frac{P(\omega_2)}{P(\omega_1)}$ ，则观测到的样本会被分类为 $\omega_1$ 。

最小风险 (Minimum Risk)

这个决策规则最小化预期的损失或风险。
定义一个损失矩阵， $\land$ ，其中的元素为:

$\lambda_{ji} =$ 当 $\in \omega_j$ 的时候，将模式 $x$ 分配给 $\omega_i$ 的成本。

分配一个模式 $x$ 到类别 $\omega_i$ 的条件风险 (conditional risk) 被定义为:

决策区域 (decision region) $\Omega_i$ 的平均风险为:

通过将与所有类别相关的风险相加能得到总体预期成本或风险:

若区域 $\Omega_i$ 被选择时，风险最小且使得:

则我们可以称 $\in \Omega_i$

贝叶斯风险， $r^*$ ，即是:

对于一个二分类问题，我们可以将条件风险写为:

最小风险决策规则能在 $l_1(x) \lt l_2(x)$ 的情况下，简单地确定 $\omega_1$ 就是期望的类别。

这也可以用后验概率来表示:
当 $(\lambda_{11}-\lambda_{12})P(\omega_1|x) \lt (\lambda_{22}-\lambda_{21})P(\omega_2|x)$ 的情况下，我们能确定 $\omega_1$

也可以用先验概率和条件密度来表示:
当 $(\lambda_{11}-\lambda_{12})p(x|\omega_1)P(\omega_1) \lt (\lambda_{22}-\lambda_{21})p(x|\omega_2)P(\omega_2)$ 的情况下，我们能确定 $\omega_1$

最小损失和最小风险的关系

若我们考虑一种特殊情况同等成本 (对称或 0-1) 损失矩阵， $\land$ ，即:

将此条件替换为最小风险贝叶斯决策规则，则得出对于 $k = 1, . . ., C$ :

这个式子能被简化为，当 $\in class \omega_i$ 时:
$p(x|\omega_i)p(\omega_i) \ge p(x|\omega_k)p(\omega_k), k = 1, ..., C$

这就和最小误差贝叶斯规则一样了。

这种情况下1-0损失矩阵 (zero-one loss matrix) 的相关风险是:

Neyman-Pearson决策规则

对于二分类问题，这是贝叶斯决策规则的替代方法。
在二分类问题中，被定义了两种类型的误差:

类型一 (Type I): 将一个类别 $\omega_1$ 的模式分类为属于类别 $\omega_2$ 并具有相关的错误概率
类型二 (Type II): 将一个类别 $\omega_2$ 的模式分类为属于类别 $\omega_1$ 并具有相关的错误概率

Neyman-Pearson 决策规则目的就是在 $\epsilon_2$ 等于常数 $\epsilon_0$ 的情况下，最小化 $\epsilon_1$ 。

该决策规则适用于信号处理，例如雷达信号检测等双向检测问题 (two-way detection problem)。

若我们将类别 $\omega_1$ 视作阳性类 (positive class)，而将 $\omega_2$ 视为阴性类 (negative class)，我们有:

Type I 误差概率: 被称为假阴性率 (false negative rate)，也就是阳性样本被错误分配到阴性类别的比例。
Type II 误差概率: 被称为假阳性率 (false positive rate)，也就是阴性样本被错误分配到阳性类别的比例。

Type II 误差也被称为误报 (false alarm)。

这一决策规则最小化目标函数:

其中， $\mu$ 是拉格朗日乘数。

若我们选择 $\Omega_1$ 使得被积函数(integrand) 为负，则目标函数被最小化了。

即是，若 $\mu p(x|\omega_2) - p(x|\omega_1) \lt 0$ ，则 $x\in\Omega_1$

这可以被写为，若 $\frac{p(x|\omega_1)}{p(x|\omega_2)} \gt \mu$ ，则 $x\in\Omega_1$

通过使得下面式子成立来选择 $\mu$

其中， $\epsilon_0$ 通常应用数值解被找到。

决策规则的性能被以能画出正阳率 (true positive - $\epsilon_1)$ ) 和假阳率 (false positive - $\epsilon_2$ ) 的接收器操作特征 (receiver operating characteristic - ROC) 曲线

两个单变量正态分布 (univariate normal distribution) 和不同 $d$ 值的接收器操作特征 (ROC)， $d = |µ_1 − µ_2|$ , $µ_1$ 和 $µ_2$ 是分布的平均值。

判别函数 (Discriminant Function)

贝叶斯决策规则要求要有通常在实践中并不可用的先验类概率知识 (knowledge of prior class probabilities) 以及类条件密度 (class conditional densities)，这些必须从数据中估计。

所引入的技术类别不对 $p(x|ω_i)$ 做任何假设，而是假设一种判别函数的形式。

判别函数是引出分类规则 (classfication rule) 的特征向量 $x$ 函数。

在一个二分类问题中，一个判别函数 $h (x)$ 对于一个常数 $k$ 满足:

判别函数并不唯一，若 $f (.)$ 是一个单调函数 ( 在定义域中单调递增或递减 )，则:

其中 $k^‘=f(k)$ ，其和 $h (x)$ 给出一样的决策。

对于 $C$ 个类别的分类问题，我们定义 $C$ 个判别函数，若 $g_i(x)$ 成立则:
$g_i(x) \gt g_j(x) \Rightarrow x \in \omega_i, j = 1, ..., C; j \ne i$
这意味着一个特征向量被分配到了有最大判别 (largest discriminant) 的类。

判别技术依靠被指定的函数形式，而非潜在的分布。
函数的参数在训练过程中被改变调整。

线性判别函数 (Linear Discriminant Functions)

线性判别函数是测量(或特征)向量 $x = [x_1, x_2, ..., x_p]^t$ 中元素的线性组合，使得:
$\omega^tx+\omega_0=\sum_{i=1}^p\omega_ix_i+\omega_0$
其中我们需要指定权重向量 (weight vector) $\omega$ 以及阈值权重 (threshold weight) $\omega_0$ 。

该式子描述一个超平面 (hyperplane)，其单位法向 (unit normal) 在 $\omega$ 方向上，从原点的垂直距离 (perpendicular distance) 为 $|\omega_0|/|\omega|$

下图表明了线性判别函数的几何

模式 $x$ 的判别函数的值是与超平面的垂直距离。

线性机

使用线性判别函数的分类器一般被称为线性机 (linear machines)。

最小距离分类器 (minimum-distance classifier) 是一个例子。其使用最近邻点 (nearest-neighbour) 决策规则。

使分类器的原型点 (prototype points) 表示为 $p_1, ..., p_C$ ，每一个点代表一个分类 $\omega_i$ ，最小距离分类器将 $x$ 根据最近点 $p_i$ 分配给类别 $\omega_i$ 。
$x - p_i||^2 = x^tx - 2x^tp_i + p_i^tp_i$
分配到 $x$ 的类为:
$\omega_i = max_i(x^tp-\frac{1}{2}p_i^tp_i)$

我们可以将这个分配联系到线性判别函数中:
$\omega^t_ix+\omega_{i0}$
其中:
$\omega_i = p_i$
$\omega_{i0} = -\frac{1}{2}||p_i||^2$

这表明了其确实是一个线性机。

可以选择原型点作为每个类的均值，来得到一个类均值分类器 (class mean classifier)。

每个边界 (boundary) 是连接相邻区域的原型点的线的垂直平分线 (perpendicular bisector)。也要注意到，线性机的决策区域 (decision regions) 总是凸函数 (convex)。
下图是最小距离分类器的决策区域。

分段线性判别函数 (Piecewise Linear Discriminant Functions)

线性机拥有简单形式，但其也有限制，也就是其无法分离决策区域必须是非凸 (non-convex) 的情况。

下面的例子展示了线性判别式无法分离的二分类问题，其需要分段线性判别函数。

我们能通过使用分段线性判别函数来推广最小距离分类器以解决前面的二分类问题。对于每个类别，我们允许多于一个原型点的存在。
假设在类别 $\omega_i$ 有 $n_i$ 个原型点， $p_i^1, ..., p_i^{n_i}, i=1, ..., C$

将模式 $x$ 分配给类别 $\omega_i$ 的判别函数被定义为:

其中 $g_i^j$ 是一个线性辅助判别函数 (linear subsidiary discriminant function)，被定义为:
$g_i^j(x) = x^tp_i^j -\frac{1}{2}p_i^{j^t}, j = 1, ..., n_i; i =1, ..., C$

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S