AI小小白

机器学习——《统计学习方法》学习笔记——统计学习及监督学习概论

- - 1.统计学习
  - - 1.1 统计学习定义
    - 1.2 统计学习流程
  - 2.统计学习分类
  - - 2.1 基本分类
    - - 2.1.1 监督学习
      - 2.1.2 无监督学习
      - 2.1.3 强化学习
    - 2.2 按模型分类
    - - 2.2.1 概论模型与非概率模型
      - 2.2.2 线性模型与非线性模型
      - 2.2.3 参数化模型与非参数化模型
    - 2.3 按算法分类
    - 2.4 按技巧分类
  - 3.统计学习三要素
  - - 3.1 模型
    - 3.2 策略
    - - 3.2.1 损失函数
      - 3.2.2 风险函数
      - 3.3.3 经验风险
      - 3.3.4 结构误差最小化
    - 3.3 算法
  - 4.模型评估与模型选择
  - - 4.1 训练误差与测试误差
    - 4.2 过拟合与模型选择
  - 5.正则化与交叉验证
  - - 5.1 正则化
    - 5.2 交叉验证
  - 6.泛化能力
  - - 6.1 泛化误差
    - 6.2 泛化误差上界
  - 7. 生成模型与判别模型
  - - 7.1 生成模型
    - 7.2 判别模型
    - 7.3 补充
  - 8.监督学习应用
  - - 8.1 分类
    - 8.2 标注
    - 8.3 回归
  - 9.总结

1.统计学习

1.1 统计学习定义

统计学习是关于计算机基于数据构建概论模型并运用模型进行对数据的分析与预测的一门学科。

解释：
1.“计算机”表示统计学习以计算机为平台。

2.“基于数据”表示统计学习是数据驱动的学科，即以研究数据为目的，对于数据的选择往往重要于对于模型的选择。

3.“概率模型”的前提是假设同类数据具有一定的统计规律性，例如数据的特征可用随机变量描述，数据的统计规律可用概率分布描述。

4.模型训练完成后，往往会将其投入使用，即对于数据的“预测”。

1.2 统计学习流程

1.得到一个有限的数据集合（训练集）。
PS：此处假设得到的数据是独立同分布产生的。

2.确定包含所有可能模型的假设空间。
PS：假设空间是指所有形式上满足模型映射关系的函数族，往往定义在特征空间中。

例如，现在要训练一个线性模型，且已知数据只有两维数特征，则模型的一般形式如下：
$\left\{ f|f=\omega_{1}x_{1}+\omega_{2}x_{2}+b \right\}$
此时 $f$ 为一类拥有共同形式的函数的集合，也即为该线性模型的假设空间。

3.确定模型选择的准则，即学习的策略。
PS：这里一般指损失函数，即选取什么样的损失函数去度量模型的好坏。

4.实现求解最优模型的算法。
PS：即如何去解得最优模型的参数，这里的“解”一般指数值解，由于模型的高度复杂，很难求出解析解。常用的算法有：梯度下降，小批量梯度下降，随机梯度下降，RMSprop，Adadealta等等，具体可参考我这篇博客：优化算法集锦

5.通过学习方法选择最优模型。
PS：有时由于数值上的关系，选择足够好的次优模型也是允许的。

6.通过学习的最优模型（或足够好的次优模型）对数据进行预测或分析。
PS：即模型的使用。

2.统计学习分类

2.1 基本分类

按照最常规的分类方法，统计学习可以被分为：监督学习，无监督学习，强化学习，半监督学习和主动学习。

2.1.1 监督学习

定义：指从标注的数据中学习预测模型的机器学习方法。
本质：学习从输入到输出的映射关系。

相关术语与补充说明：
1.输入空间：将输入所有可能的取值集合称为输入空间。例如现在希望训练一个模型，对于男女进行分类，且给定的特征有：升高，步长。那么输入空间即为 $\left\{身高,步长 \right\}$ 。

2.输出空间：将输出所有可能取值集合称为输出空间。在上例中，输出空间为 $\left\{男,女\right\}$

3.特征空间：输入通常由一个特征向量表示，特征向量存在的空间即为特征空间。每一个样本 $x_{i}$ 可以表示为：
$x_{i}=(x_{i}^ {1},x_{i}^ {2},......,x_{i}^{n})^{T}$
具体化来说，对于上例可表示为：
$x_{i}=(第i个样本的身高，第i个样本的步长)^{T}$
PS：输入空间与特征空间并不完全等价，当我们不对输入特征做处理时，两者往往等价，但实际中由于数据的大量冗余，往往我们会采用降维算法或是因为低维空间的线性不可分性而采用高维映射方法将数据从输入空间映射到特征空间。

4.联合概论分布：统计学习的基本前提是假设样本点 $(x, y)$ 是来自随机变量 $X, Y$ 所服从的联合概论分布 $P (X, Y)$ 的，且这些数据点认为是从该分布中独立同分布产生的。

5.假设空间：前文已经提到，这里再做一些补充。监督学习模型可以是概论模型 $P (Y ∣ X)$ 或非概率模型 $Y = f (X)$ ，与之对应也有不同的假设空间。

6.监督学习整体流程

如上图，对于监督学习，其大致有三个组成部分：学习系统，模型与预测系统。

首先，学习系统利用输入的标注数据学习，得到相应的决策函数 $Y = f (X)$ 或条件概率分布 $P (Y ∣ X)$ 。然后利用学习到的映射关系或条件概率分布去预测新的样本。

一个良好的模型应该使得预测值 $f(x_{i})$ 与实际标签 $y_{i}$ 尽可能接近。

2.1.2 无监督学习

定义：指从无标注的数据中学习预测模型的机器学习问题，往往是对输入的分类（聚类），转换（降维）或概论表示（概论估计）。
本质：学习数据中的潜在结构。

降维时，所学到的模型往往是 $z = g (x)$ ,聚类时，学到的模型往往是 $z = a r g m a x P (z ∣ x)$ ,概率估计时，学到的模型往往是 $P (x ∣ z)$ 。

具体解释如下：
降维（或升维）时，本质是在寻找输入空间到特征空间的映射关系，故往往是一种函数形式 $z = g (x)$ 。

聚类时，指定簇数后，对于每个样本点，我们寻找其属于各类的概率，并以最大概率所属的类作为该样本的类，故有 $z = a r g m a x P (z ∣ x)$ 形式。

概率估计时，我们往往首先得到数个样本，从而希望对模型参数进行估计。按照极大似然估计的准则，我们会选取一组能够让模型以最大概率产生该组样本的模型参数作为估计值。

无监督学习整体流程

2.1.3 强化学习

定义：强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。

流程如下：

智能体从环境中观测到一个状态 $s t$ 并得到一个奖励 $r t$ ,采取一个动作 $a t$ 。环境根据智能体所采取的动作，反馈给智能体一个状态 $s_{t+1}$ 与一个奖励 $r_{t+1}$ 。

系统的的目的是长期积累奖励最大化。

2.2 按模型分类

2.2.1 概论模型与非概率模型

概率模型：形如 $P (y ∣ x) 或 P (x ∣ y)$ 的模型，主要有：决策树，朴素贝叶斯，隐马尔科夫模型，条件随机场，概率潜在语义分析，潜在狄利克雷分配，高斯混合模型。

非概率模型：形如 $y = g (x)$ 的模型，主要有：感知机，支持向量机，k近邻，AdaBoost,k均值，潜在语义分析，神经网络。

特殊地：逻辑回归既可以看做概率模型，也可以看做非概率模型，原因如下：
1.条件概率最大化后得到函数。

条件概率 $P (y ∣ x)$ 的输出往往是样本属于每一类的概率。如：

$y_{1}=30\%$ , $y_{2}=40\%$ , $y_{3}=30\%$ 。

而我们往往将概率最大的类归结为样本类，即：
$y = a r g m a x P (y ∣ x) = f (x)$

2 函数归一化后得到条件概率分布。

对于逻辑回归，其形式为：
$y = s i g m o i d (z)$
$z = W X + b$

其中sigmoid函数是对z的归一化，最终输出值为样本属于每个类的概率。

综上，可认为逻辑回归两者皆是。

2.2.2 线性模型与非线性模型

非概率模型中：

线性模型: $y = f (x) 或 z = g (x)$ 为线性函数时，模型为线性模型。有感知机，支持向量机，k近邻，k均值，潜在语义分析等等。

非线性模型: $y = f (x) 或 z = g (x)$ 为非线性函数时，模型为非线性模型，有核函数支持向量机，AdaBoost，神经网络等等。

2.2.3 参数化模型与非参数化模型

参数化模型：**模型参数维数固定，模型可由有限维参数完全刻画。**主要有：感知机，朴素贝叶斯，逻辑回归，k均值，高斯混合模型等等。

非参数化模型：模型参数的维数不固定，随着训练数据量的增大不断加大。主要有：决策树，支持向量机，AdaBoost，k近邻，潜在语义分析，概率潜在语义分析，潜在狄利克雷分配等等。

2.3 按算法分类

在线学习：每次接受一个样本进行学习，例如使用随机梯度下降法。

批量学习：一次接受所有数据进行学习。

常常数据量巨大，或模式随时间变化（不满足独立同分布假设）时采用在线学习。

2.4 按技巧分类

贝叶斯学习：利用贝叶斯定理，计算在给定数据条件下模型的条件概率（后验概率）。

模型估计时，取使得后验概率最大的参数分布作为模型参数。

相对于极大似然估计，贝叶斯估计增加了对模型参数先验概率 $P(\theta)$ 的估计，如果假设模型参数服从均匀分布且取后验概率最大，则两者等价。

核方法：使用核函数学习非线性模型的一种方法。相对于直接地定义映射函数，核函数直接定义映射后的内积，简化了计算。

3.统计学习三要素

$统计学习方法 = 模型 + 策略 + 算法$

3.1 模型

模型：选择需要学习什么样的模型，线性或非线性，概率模型或非概率模型等等。一旦模型确定下来，与之相对应的假设空间也随之确定。

模型参数所处的空间往往称为参数空间，模型的差异来源是由于在参数空间中选取了不同的参数向量。

3.2 策略

策略：选择以什么样的准则评价模型。

3.2.1 损失函数

损失函数是度量模型一次预测好坏的标准，常用的损失函数如下：

损失函数越小，代表模型越好。

3.2.2 风险函数

损失函数的期望称为风险函数：

风险函数反应平均意义下模型预测的好坏，预测的目的其实是为了最小化风险函数，但由于联合概率分布我们往往难以知晓，故我们选择了经验风险。

3.3.3 经验风险

经验风险是模型关于训练集的平均损失，在N趋于无穷时，往往趋近于期望风险，此时有非常好的替代效果。但当样本量不大时，往往难以准确反映风险损失，为此我们引入结构风险最小化对其进行矫正。

3.3.4 结构误差最小化

当样本容量较小时，经验风险和风险损失往往有较大差异，容易产生过拟合现象，为此，引入正则化项，将经验风险转换为结构风险，公式如下：

其中 $\lambda$ 为正则化系数， $J (f)$ 为正则化向，与模型复杂程度正相关。

3.3 算法

算法：指模型学习的具体方法，例如采用梯度下降法，Adam法等等。此时模型转换为最优化问题。

4.模型评估与模型选择

4.1 训练误差与测试误差

往往我们更注重测试误差，因为其代表了样本的泛化能力。

4.2 过拟合与模型选择

模型选择标准：假设假设空间中存在真模型，那么我们选择的模型要与真模型的参数个数相同且参数向量接近。

过拟合：在训练集上表现良好但却在新样本上表现很差的现象。往往是由于模型复杂度过高导致的。

解决方法：
1.降维
2.正则化
3.增加样本数

5.正则化与交叉验证

5.1 正则化

L1范数： $||\omega_{1}||+||\omega_{2}||+.......+||\omega_{n}||$

L2范数： $\sqrt{||\omega_{1}||^ {2} +||\omega_{2}||^{2}+.......+||\omega_{n}|| ^{2}}$

正则化具有如下形式：

其中 $J (f)$ 可以是L1范数，也可以是L2范数。

L1范数时：

L2范数时：

补充一个奥卡姆剃刀原理：在所有可能的模型中，最简单的模型应该是我们选择的模型，这与正则化思想相符。

关于正则化详细的解释请看我这篇博客：（先留个坑）

5.2 交叉验证

数据不充足时，往往采用交叉验证法，基本思想是重复使用数据。

1.简单交叉验证
70%做训练集，30%做测试集，在各种条件下在训练集上训练模型并在测试集上测试，选取测试误差最小的模型。

2.S折交叉验证
随机将数据切分为S的相同大小的块，每次选其中S-1个块训练，在剩余一个块上测试模型，重复S次，求取平均误差。选取平均误差最小的模型。

3.留一交叉验证
S=N时的S折交叉验证，应用于数据极度缺乏的情况。

6.泛化能力

6.1 泛化误差

定义：泛化误差是指学习到的模型对未知数据的预测能力。

泛化误差实际上正是模型的期望风险。

6.2 泛化误差上界

因为期望风险无法直接求出，所以在分析模型的泛化能力时往往对其泛化误差上界做考察。

一般来说：泛化误差上界与样本容量负相关，当样本容量增加时，泛化误差上界减小。同时与假设空间大小正相关，假设空间越大（模型越复杂），则泛化误差上界越大。

具体推导如下：

结论：

模型的泛化误差并不是无解的，总会以一定概率以某个值为上界。
模型的泛化误差上界与样本容量负相关。
模型的泛化误差上界与假设空间大小正相关。

7. 生成模型与判别模型

7.1 生成模型

定义：生成方法由数据学习联合概率分布 $P (X, Y)$ ，然后根据贝叶斯公式求出条件概率分布作为预测的模型。

PS：生成模型关系数据本身的特点，希望找出数据本身的内在联系。

7.2 判别模型

定义：判别方法由数据直接学习决策函数或条件概率分布，作为预测的模型。

PS：判别方法更加注重给定X应该产生什么样的Y，而忽略数据本身的分布。

7.3 补充

举一个例子或许会很快明白：

现在希望判断一只牛是奶牛还是牦牛。

生成模型方法： 首先分别学习奶牛的特征 $P(x,y_{1})$ 和牦牛的特征 $P(x,y_{2})$ ，对于新给定的样本，从中提取特征 $x$ ，然后分别计算属于两类的概率，即：
$P(y_{1}|x)=\frac{P(x,y_{1})}{P(x)}$
$P(y_{2}|x)=\frac{P(x,y_{2})}{P(x)}$
比较两者，选取概率较大者为所属类。

判别模型方法： 直接从奶牛和牦牛数据中学习到一个判别函数 $f (x)$ ，然后将样本特征输入，根据结果判断类别。

总结：生成模型关注数据本身特点，分类过程中对于每个模型都需遍历一遍。而判别式模型则关注判别界面，分类过程中只学习判别界面，是对于异类数据区分的注重。

生成模型特点：

1.可以还原数据本身分布。
2.学习速度收敛快。
3.存在隐变量（即未被考虑到的因素）时仍然可以使用。

判别模型特点：

1.准确率更高
2.更加高度抽象，有利于问题简化。
3.适用于数据复杂分布。

最后放一张图：

8.监督学习应用

8.1 分类

问题概述略

分类预测结果与实际结果的对比可有以下几种情况：

TP——将正类预测为正类
FN——将正类预测为负类
FP——将负类预测为正类
TN——将负类预测为负类

故有混淆矩阵如下：

根据上述情况，分类问题有以下几种评价指标：

准确率： $A=\frac{TP+TN}{TP+TN+FP+FN}$

定义为模型所有预测正确的样本占总样本的百分比。

精确率（查全率）： $P=\frac{TP}{TP+FP}$

定义为模型预测为正类的所有结果中有多少是预测正确的。

召回率： $R=\frac{TP}{TP+FN}$

定义为真正正类的样本模型有多少预测为正类。

$F_{1}$ 值： $F_{1}=\frac{2TP}{2TP+FP+FN}$

定义为精确率和召回率的调和平均值。

至于为什么要定义这些不同的指标，请参考我这篇文章：（先留个坑）

8.2 标注

定义：输入是一个观测序列，输出是一个标记序列的复杂分类问题。

常用在NLP中，例如对一句话中的名词做标注，即为标注问题。

8.3 回归

定义：表示输入到输出映射函数的问题。

例如对于房价的预测等等。

9.总结

1.机器学习可以分为监督学习，无监督学习，强化学习等等。
2.统计学习方法三要素为：模型，策略，算法。
3.提高泛化能力减缓过拟合的方法目前有正则化和交叉验证。

Python | 基于支持向量机（SVM）的图像分类案例 python收藏家 python 机器学习 python 机器学习
支持向量机（SVM）是一种监督机器学习算法，可用于分类和回归任务。在本文中，我们将重点关注使用SVM进行图像分类。当计算机处理图像时，它将其视为二维像素阵列。数组的大小对应于图像的分辨率，例如，如果图像是200像素宽和200像素高，则数组的尺寸为200x200x3。前两个维度分别表示图像的宽度和高度，而第三个维度表示RGB颜色通道。数组中的值范围为0到255，表示每个点处像素的强度。为了使用SVM
【机器学习】必会降维算法之：多维缩放（MDS） Carl_奕然机器学习算法人工智能
多维缩放（MDS）1、引言2、多维缩放（MDS）2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小鱼：最近小屌丝在休假，难得的清闲，我这也闲言少叙，书归正传，咱就聊一聊降为算法之：多维缩放(MDS)在机器学习和数据科学领域，多维缩放（MultidimensionalScaling，简称MDS）是一种常用的降维技术。它能够在尽可能保留原始数据点间距离的
如何在 Ubuntu 20.04 或 22.04 上安装 Python 3 百川Cs 计算机基础 ubuntu python linux pip conda
以下是关于如何在Ubuntu20.04或22.04上安装Python3的详细步骤。Python是一种广泛使用的编程语言，适用于自动化、数据分析、机器学习等领域。Ubuntu系统通常预装了Python3，但如果需要安装或升级到最新版本，可以按照以下方法操作。检查系统是否已安装Python3打开终端（快捷键：Ctrl+Alt+T）。输入以下命令检查是否已安装Python3：python3--versi
探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
龙珠训练营机器学习task04 a_little_pig_ python
学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容，学习链接为：https://tianchi.aliyun.com/competition/entrance/231702/introduction?spm=5176.20222472.J_3678908510.8.8f5e67c2RKrT98总体思路：分别使用LightGBM，xgboost，gbdt，catboost建立多个个体学习器（加入b
机器学习与分布式机器学习_经理人的机器学习–您需要知道的 cumian8165 算法神经网络大数据编程语言 python
机器学习与分布式机器学习Ifyouaremanagingatechteamasaproductorprojectmanager,hereiswhatyouneedtoknowaboutmachinelearning.如果您要以产品或项目经理的身份管理技术团队，这是您需要了解的有关机器学习的知识。Machinelearninganddeeplearninghavebeenpopularbuzzwor
影刀 RPA：企业数字化转型的强大引擎 RPA李老师 rpa
一、影刀RPA是什么影刀RPA是一种基于机器学习和人工智能技术的自动化工具，它在当今数字化时代发挥着重要作用。影刀RPA是一款软件机器人，能模拟人的各种操作，在任何应用程式上进行鼠标点击、键盘输入、读取信息等自动化操作，释放人非主观决策、逻辑性高、规则性强的工作。在了解影刀RPA之前，我们先来认识一下RPA。RPA是RoboticProcessAutomation（机器人流程自动化）的简称，201
【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用半截诗 Python python 机器学习 scikit-learn 人工智能深度学习数据分析随机森林
文章目录从零到精通：全面揭秘Scikit-Learn在机器学习中的绝妙应用前言第一部分：深入了解Scikit-Learn的基础知识1.什么是Scikit-Learn？2.安装Scikit-Learn3.Scikit-Learn中的基本构件4.数据集的加载与探索5.数据预处理标准化数据6.构建和训练机器学习模型构建逻辑回归模型7.模型评估与验证混淆矩阵第二部分：深入理解Scikit-Learn的高级
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
Python数据分析案例教程 kkchenjj 数据挖掘 python 数据分析信息可视化
Python数据分析案例教程Python在数据分析中的应用Python因其简洁的语法、强大的库支持以及广泛的社区资源，已成为数据分析领域的首选语言。它能够处理从数据清洗、数据可视化到机器学习模型构建的整个数据科学流程。本节将深入探讨Python在数据分析中的具体应用，包括但不限于数据清洗、数据探索、统计分析和预测建模。数据清洗数据清洗是数据分析的首要步骤，涉及处理缺失值、异常值、重复数据以及数据类
2025数学建模美赛B题完整建模思路——管理可持续旅游业鹿鹿数模数学建模
2025MCM问题B：管理可持续旅游业以下是我们对该题目的赛题分析，由于完整内容过长，因此在此处放出部分内容，欢迎从文末小卡片处加群获取。赛题分析以下内容包括三个主要部分：(1)题目的中文翻译(2)对题目的整体分析与思路综述(3)对题目要求的逐项详细分析与求解思路。本文的撰写将综合运用多元的数学模型、算法以及机器学习/深度学习的方法，并在必要时给出题外假设与可行的创新性思路，以期为参赛者提供较为系
智能运维分析决策系统：赋能数字化转型的智慧引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的智慧引擎在数字化转型的大潮中，企业运维管理正经历着从传统手动运维向智能化、自动化运维的深刻转变。智能运维分析决策系统（AIOps，ArtificialIntelligenceforITOperations）作为这一转变的核心驱动力，通过融合大数据、机器学习、人工智能等先进技术，实现了对运维数据的深度洞察与智能决策，极大地提升了运维效率与质量，为企业数字业务的连
Kmeans与KMedoids聚类对比以及python实现呵呵爱吃菜 kmeans 聚类 python
在机器学习领域，聚类算法是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本尽可能相似，而不同簇之间的样本尽可能不同。K-Means和K-Medoids是两种经典的聚类算法，它们都基于划分的思想，但在具体实现和应用场景上存在一些差异。一、算法原理1.K-Means:中心点选择:K-Means算法通过计算簇内所有样本的均值来确定中心点（centroid）。距离度量:通常
网络安全态势感知：企业数字化转型的 “安全密钥” 知白守黑V 安全运营网络安全态势感知网络
在数字经济飞速发展的当下，网络安全已经成为企业平稳运营的关键所在。从大型企业的数据泄露事故，到中小企业遭遇的各类网络攻击，网络安全威胁无处不在。而网络安全态势感知产品，作为应对复杂网络威胁的关键技术，正逐渐成为企业守护数字资产的“智慧大脑”。一、态势感知：全景掌控，精准防御你可以把网络安全态势感知想象成企业网络的“超级侦察兵”。它借助大数据分析、机器学习这些先进技术，就像是拥有了超级强大的“洞察力
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
情感分析常见算法与模型及实现步骤计算机软件程序设计知识科普算法情感分析机器学习
【1】常见算法与模型情感分析（SentimentAnalysis）是一种自然语言处理（NLP）技术，用于识别和提取文本中的主观信息，如情绪、态度和意见。常见的算法和模型包括以下几种：传统机器学习方法朴素贝叶斯（NaiveBayes）基于贝叶斯定理，假设特征之间相互独立。计算简单，适用于大规模数据集。常用于文本分类任务。支持向量机（SVM）通过寻找最优超平面来划分不同的类别。在高维空间中表现良好，适
2025-1-21-sklearn学习(43) 使用 scikit-learn 介绍机器学习楼上阑干横斗柄，寒露人远鸡相应。汤姆和佩琦 sklearn 机器学习 sklearn 学习 python 人工智能 scikit-learn
文章目录sklearn学习(43)使用scikit-learn介绍机器学习43.1机器学习：问题设置43.2加载示例数据集43.3学习和预测43.4模型持久化43.4规定43.4.1类型转换43.4.2再次训练和更新参数43.4.3多分类与多标签拟合sklearn学习(43)使用scikit-learn介绍机器学习文章参考网站：https://sklearn.apachecn.org/和https
通过Python编程语言实现“机器学习”小项目教程案例胡萝卜不甜机器学习 python 机器学习开发语言
1.Python与机器学习概述1.1Python语言特点Python是一种广泛使用的高级编程语言，具有简洁、易读、易学的特点，这使得它成为初学者和专业人士的首选语言之一。简洁性：Python的语法简洁明了，减少了代码量，提高了开发效率。例如，与其他语言相比，Python可以用更少的代码实现相同的功能，这使得代码更容易编写和维护。易读性：Python的代码风格类似于英语，易于理解和阅读。这种易读性使
浅谈人群扩展（lookalike）模型 eso1983 算法
Lookalike主要用于广告或者推荐系统中，找到与种子用户相似的人群。常用的算法应该包括协同过滤、基于标签的相似度计算，还有一些机器学习模型，比如逻辑回归、随机森林，以及深度学习的模型，比如DNN或者Embedding方法。这里简单介绍一下Lookalike人群扩展（相似人群扩展）中常用算法模型的解析，涵盖原理、数学公式、实现步骤、优缺点及适用场景。1.基于标签的相似度匹配原理通过用户标签（兴趣
Python 深度学习实战：生成对抗网络 AI天才研究院深度学习实战 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍生成对抗网络（GenerativeAdversarialNetwork，GAN）是近年来较火热的深度学习模型之一，其在图像合成、视频生成、文本数据生成等领域均取得了不俗的效果。与传统的机器学习模型不同，GAN可以生成真实有效的数据，无需人工标注数据。它由两部分组成：生成器（Generator）和判别器（Discriminator）。生成器通过学习，根据噪声或随机变量（latentvar
【Lora微调】提高模型效率的创新方法 @fishv 人工智能大模型微调 Lora
前言在自然语言处理（NLP）和机器学习的研究和应用中，随着模型规模的不断扩大，模型训练的计算成本和存储需求也不断攀升。大型预训练模型，如GPT、BERT等，虽然在许多任务上表现出色，但它们的训练和微调通常需要巨大的计算资源，这使得许多研究者和开发者无法充分利用这些模型进行个性化或领域特定的调整。为了在保持模型性能的同时减少计算开销，**Lora（Low-RankAdaptation）**应运而生。
[Python从零到壹] 七十七.图像识别及经典案例篇之目标检测入门普及和ImageAI对象检测详解 Eastmount Python从零到壹 python 目标检测 ImageAI 图像是被基础系列
欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智
kaggle上面有哪些适合机器学习新手的比赛和项目 xiamu_CDA 机器学习人工智能
Kaggle上面有哪些适合机器学习新手的比赛和项目？在当今数据驱动的时代，机器学习已经成为一门炙手可热的技能。Kaggle作为全球最大的数据科学竞赛平台，不仅汇聚了众多顶尖的数据科学家和机器学习工程师，也为初学者提供了丰富的学习资源和实战机会。对于机器学习新手来说，选择合适的比赛和项目是至关重要的第一步。本文将为你推荐一些适合新手的Kaggle比赛和项目，并提供一些实用的建议，帮助你在机器学习的道
python鸢尾花数据集knn_【python+机器学习1】python 实现 KNN weixin_39629269 python鸢尾花数据集knn
欢迎关注哈希大数据微信公众号【哈希大数据】1KNN算法基本介绍K-NearestNeighbor(k最邻近分类算法)，简称KNN，是最简单的一种有监督的机器学习算法。也是一种懒惰学习算法，即开始训练仅仅是保存所有样本集的信息，直到测试样本到达才开始进行分类决策。KNN算法的核心思想：要想确定测试样本属于哪一类，就先寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后判断这K个样本中大部分所
【机器学习】使用scikit-learn中的KNN包实现对鸢尾花数据集或者自定义数据集的的预测加德霍克机器学习人工智能 python 学习作业
一、KNN算法概念K最近邻(K-NearestNeighbor,KNN)分类算法是数据挖掘分类技术中最简单的方法之一，是著名的模式识别统计学方法，在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一，也是基于实例的学习方法中最基本的，又是最好的文本分类算法之一。二、对鸢尾花数据集进行预测1、代码示例：fromsklearn.datasetsimportl
Julia语言的计算机基础 Code侠客行包罗万象 golang 开发语言后端
Julia语言的计算机基础引言随着数据科学、机器学习和高性能计算的快速发展，对编程语言的需求也日益增加。在众多编程语言中，Julia语言因其独特的设计理念和高性能而迅速崛起。本文将详细探讨Julia语言的基础知识，包括其历史背景、安装与环境配置、基本语法、数据结构、函数与模块、以及性能优化等方面，旨在为对Julia感兴趣的读者提供一份全面的入门指南。一、Julia语言简介1.1历史背景Julia是
想转行到人工智能领域，我该学什么，怎么学？张登杰踩人工智能 python
转行到人工智能（AI）领域需要系统的学习和实践，以下是详细的路径建议，涵盖基础知识、技能学习、项目实践和求职准备：一、明确目标和领域方向人工智能领域广泛，建议先了解细分方向（如机器学习、深度学习、计算机视觉、自然语言处理、强化学习等），结合兴趣和职业规划选择切入点。二、构建基础知识1.数学基础线性代数：矩阵运算、特征值、向量空间。微积分：导数、梯度、优化理论。概率与统计：贝叶斯定理、分布、假设检验
机器学习问题：AttributeError: ‘NoneType‘ object has no attribute ‘split‘ 解决办法零零鲎机器学习人工智能
参考博客：本次博客参考http://t.csdnimg.cn/8E7eH。写下来主要是为了整理自己在学习过程中遇到的问题并把解决办法列出来。学习内容：如果运行出现：AttributeError:‘NoneType’objecthasnoattribute'split’这样的问题。网上有很多解决办法是降级numpy到1.21.4。然后上面博客给出的解决方案是升级threadpoolctl。可以使用命
AI Agent：一场智能革命的开始机器人openai区块链
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
【杂谈】-为什么Python是AI的首选语言视觉与物联智能杂谈 python 人工智能开发语言深度学习机器学习
为什么Python是AI的首选语言文章目录为什么Python是AI的首选语言1、为何Python引领人工智能发展1.1可用性和生态系统1.2用户群和用例1.3效率辅助2、AI项目对Python开发人员的要求3、如何开启你的AI学习之旅人工智能的广泛应用正在软件工程领域引发范式转变。Python凭借其易用性、成熟的生态系统以及满足人工智能和机器学习(ML)工作流数据驱动需求的能力，迅速成为人工智能开
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S