资料加载中

《统计学习方法》学习笔记之第一章

统计学习方法的学习笔记：第一章

第一节统计学习的定义与分类

统计学习的概念

统计学习的分类

第二节统计学习方法的基本分类

监督学习

无监督学习

强化学习

第三节统计学习方法三要素

模型

策略

第四节模型评估与模型选择

训练误差与测试误差

过拟合与模型选择

第五节正则化和交叉验证

正则化：实现结构风险最小化策略

交叉验证

第六节泛化能力

泛化误差

泛化误差上界

二分类问题

第七节生成模型与判别模型

生成模型和判别模型

生成模型VS判别模型

第八节监督学习的应用

分类问题

标注问题

回归问题

第一节统计学习的定义与分类

统计学习的概念

以计算机和网络为平台
以数据为研究对象
以预测和分析数据为目的
以方法为中心
是多领域交叉的学科

定义：

统计学习(Statistical Machine Learning)是关于计算机基于数据后见概率统计模型并运用模型对数据进行预测与分析的一门学科。

统计学习方法的具体步骤：

得到一个有限的训练数据集合
确定学习模型的集合(模型)
确定模型选择的准则(策略)
实现求解最优模型的算法(算法)
通过学习方法选择最优模型
利用学习的最有名模型对新数据进行预测和分析

统计学习的分类

第二节统计学习方法的基本分类

监督学习

定义：监督学习(Supervised Learning)是指从标注数据中学习预测模型的机器学习问题，其本质是学习输入到输出的映射的统计规律。

输入空间(Input Space):输入的所有可能取值的集合
实例(Instance):每一个具体的输入，通常由特征向量(Feature Vector)表示
特征空间(Feature Space):所有特征向量存在的空间
输出空间(Output Space):输出的所有可能取值的集合

例：核技巧

输入空间：; 实例： $x=(x^{(1)},x^{2)})^T$

$\phi (x):R^2\rightarrow {H};$ $\phi{(x)}=((x^{(1)})^2,\sqrt{2}x^{(1)}x^{(2)},(x^{(2)})^2)^T$

根据变量类型不同：

-输入变量与输出变量均为连续变量的预测问题(回归问题)

-输出变量为有限个离散变量的预测问题(分类问题)

-输入变量与输出变量均为变量序列的预测问题(标注问题)

符号表示

输入变量：X;输入变量的取值：x
输出变量：Y;输出变量的取值：y
输入实例x的特征向量表示：

$x=(x^{(1)},x^{(2)},...,x^{(j)},...,x^{(n)})^T$

以表示多个输入变量中的第i个变量：

$x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(j)},...,x_i^{(n)})^T$

样本容量为N的训练集：

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$

监督学习的基本假设：X和Y具有联合概率分布P(X,Y)
监督学习的目的：学习一个输入到输出的映射，这一映射以模型表示
模型的形式：条件概率分布P(Y|X)或决策函数Y=f(X)
假设空间(Hypothesis Space):所有这些可能模型的集合

对具体的输入进行相应的输出与测试，表达为：

P(y|x)或y=f(x)

无监督学习

定义：无监督学习(Unsupervised Learning)是指从无标注数据中学习预测模型的机器学习问题，其本质是学习数据中的统计规律或潜在结构。

监督学习VS无监督学习

输入空间： $\chi$
隐式结构空间：
模型：函数,条件概率分明或条件概率分布
假设空间(Hypothesis Space)：所有这些可能模型的集合
目的：选出在给定评价标准下的最优模型
样本容量为N的训练集：

$U={x_1,x_2,...,x_N}$

强化学习

第三节统计学习方法三要素

统计学习方法=模型+策略+算法

模型

定义：假设空间(Hypothesis Space):所有可能的条件概率分布或决策函数，用F表示

若定义为决策函数的集合： $F=\{f|Y=f(X)\}$
F是有一个参数向量决定的函数族构成： $F=\{f|Y=f_\theta(X),\theta\epsilon R^n\}$
参数空间： $\theta = \{\theta|\theta\epsilon R^n\}$

例：线性回归

实例： $x=(x^{(1)},x^{(2)},...,x^{(n)})^T$

决策函数： $f(x)=w^{(1)}x^{(1)}+w^{(2)}x^{(2)}+...+w^{(n)}x^{(n)}+b$

向量形式： $f(x)=w\cdot x+b$ ,其中， $w=(W^{(1)},w^{(2)},...,w^{(n)})$

若定义为条件概率的集合：

F由一个参数向量决定的条件概率分布族构成：

$F=\{P|P_\theta(Y|X),\theta\epsilon R^n\}$

例：Logistic回归

实例： $x=(x^{(1)},x^{(2)},...,x^{(n)})^T$

条件概率分布：

策略

损失函数：度量模型一次预测的好坏，记作

风险函数：度量平均意义下模型预测的好坏

$R_{exp}(f) = E_p{[L(Y, f(x))]} \\$

经验风险：模型关于训练集的平均损失

$\frac{1}{N}\sum\limits_{i=1}^NL(y_i, f(x_i))$

其中，训练集 $T = \{(x_1, y_1), (x_2, y_2),...,(x_N, y_N)\}$

四种常见的损失函数

0-1损失函数（分类问题）
平方损失函数（回归问题）
绝对损失函数（回归问题）
对数损失函数（概率模型）

经验风险最小化：

$\min\limits_{ f\epsilon F}\frac{1}{N}L(y_i, f(x_i))$

结构风险：

$R_{srm} = \frac{1}{N}L(y_i, f(x_i)) + \lambda J(f)$

结构风险最小化：

$\min\limits_{f\epsilon F}\frac{1}{N}L(y_i, f(x_i)) + \lambda J(f))$

根据大数定律，当样本容量N->正无穷时，经验风险趋近于风险函数

结构风险在经验风险的基础上加了正则项（针对模型的复杂度），平衡了经验风险和模型的复杂度

选取目标函数：经验风险函数或者结构风险函数

最优模型：不存在显示解析解的情况下，可以使用梯度下降的数值运算方法

第四节模型评估与模型选择

训练误差与测试误差

1. 训练误差

学习到的模型: $Y=\hat f(X)$
训练集（Training Set）:

$T = \{(x_1, y_1),(x_2, y_2),(x_N, y_N)\}$

训练误差（Training Error）：

$R_{emp}(\hat f) = \frac{1}{N}\sum\limits_{i=1}^NL(y_i, \hat f(x_i))$

2. 测试误差

学习到的模型: $Y=\hat f(X)$
训练集（Test Set）:

${T}' =\{({x_1}', {y_1}'),({x_2}', {y_2}'),...,({x_N}', {y_N}')\}$

训练误差（Test Error）：

$e_test = \frac{1}{{N}'} \sum\limits_{i'=1}^{N'}L(y_i',\hat f(x_{i'}))$

误差率(Error Rate):

$e_test = \frac{1}{N'}\sum\limits_{i'=1}^{N'}I(y_i \neq \hat f(x_{i'}))$

准确率(Accuracy):

$r_test = \frac{1}{N'}\sum\limits_{i'=1}^{N'}I(y_i=\hat f(x_{i'}))$

注：

$r_{test} + e_{test} = 1$

M次多项式：

$f_M(x, w)=w_0+w_1x+w_2x^2+...+w_Mx^M = \sum\limits_{j=0}^M w_jx^j$

经验风险：

$L(w) = \frac{1}{2}\sum\limits_{i=1}^N(f_M(x_i, w)-y_i)^2$

带入多项式：

$L(w) = \frac{1}{2}\sum\limits_{i=1}^N(\sum\limits_{j=0}^Mw_jx_i^j-y_i)^2$

通过最小二乘法求解参数。

过拟合与模型选择

过拟合（Over-Fitting）：学习所的模型包含参数过多，出现对已知数据预测很好，但对位置数据预测预测很差的现象。

第五节正则化和交叉验证

正则化：实现结构风险最小化策略

一般形式：

$\min\limits_{f\epsilon F}\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i)) + \lambda J(f)$

经验风险：

$\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i))$

正则化项：

$\lambda J(f)$

其中， $\lambda$ 权衡经验风险和模型复杂度

最常见的两种正则化项

范数：

$L(w)=\frac{1}{N}\sum\limits_{i=1}^N(f(x_i;w)-y_i)^2+\lambda ||w||_1$

其中， $||w||_1=\sum\limits_j|w_j|$

使某些参数为零，可以起到特征筛选的作用，稀疏模型，非零参数个数很少

范数：

$L(w)=\frac{1}{N}(f(x_i;w)-y_i)^2 + \frac{\lambda}{2}||w||_2^2$

其中， $||w||_2=\sqrt{\sum\limits_jw_j^2}, ||w||_2^2 = \sum\limits_jw_j^2$

参数可以无限接近于零，使得模型越来越简单，防止过拟合。

奥卡姆剃刀原理

在模型选择时，选择所有可能模型中，能很好解释已知数据并且十分简单的模型。

交叉验证

数据充足的情况下：

训练集(Training Set):用以训练模型
验证集(Validation Set):用以选择模型
测试集(Test Set):用以最终对学习方法的评估

数据不充足的情况下：

简单交叉验证：随机将数据分为两部分，即训练集和测试集
S折交叉验证：随机将数据分为S个互不相交、大小相同的子集，其中以S-1个子集作为训练集，余下的子集作为测试集
留一交叉验证：S折交叉验证的特殊情形，S=N，在数据非常缺乏的情况下使用

第六节泛化能力

泛化误差

若所学习到的模型是 $\hat f$ ,那么这个模型对未知数据预测的误差即为泛化误差(Generalization Error):

$R_{exp}(\hat f)=E_p{[Y, \hat f(X)]}=\int _{x\times y}L(y, \hat f(x))P(x, y)dxdy$

损失函数的期望值，所求的积分是在全样本上进行的

泛化误差上界

泛化误差上界(Generalization Error Bound)：指泛化误差的概率上界。两种学习方法的优劣，通常通过他们的泛化误差上界进行比较。

性质：

样本容量的函数：当样本容量增加时，泛化上界趋于0
假设空间容量的函数：假设空间容量越大，模型就越难学，泛化误差上界就越大

假设空间：所有可能的模型

例子：

二分类问题

训练数据集：

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$

其中，T是从联合概率分布P(X,Y)独立同分布产生的， $X\epsilon R^n,Y \epsilon \{-1, +1\}$

假设空间：

$F = \{f_1, f_2,...,f_d\}$

其中，d是函数个数

假设 $f\epsilon F$ ,损失函数为0-1损失，

期望风险：

经验风险：

$\hat R(f) = \frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i))$

经验风险最小化：

$f_N =\arg \min\limits_{f\epsilon F}\hat R(f)$

的泛化能力：

$R(f_N)=E{[L(Y,f_N(X))]}$

定理(泛化误差上界)：

对于二分类问题，当假设空间是有限个函数的集合 $F = \{f_1, f_2,...,f_d\}$ 时，对于 $\forall f\epsilon F$ ,至少以概率 $1-\delta$ , $0 < \delta < 1$ ,以下不等式成立：

$R(f)\leq \hat R(f)+\varepsilon (d,N,\delta)$

训练误差 $\hat R(f)$ ，泛化误差上界 $\varepsilon (d,N,\delta)$

其中，

$\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})}$

d为假设空间中函数的个数，N表示i训练集中的样本个数；N趋于无穷大，趋于0；当d趋于无穷大时，即假设空间越来越复杂时，泛化误差上界增大。

泛化误差上界定理证明：

Hoeffding不等式(第一版)

设是独立随机变量，且 $X_i\epsilon[a_i,b_i],i=1,2,...,N;S_n=\sum\limits_{i=1}^NX_i$ ,则对任意,以下不等式成立：

$P[S_N-E(S_N)\geq t] \leq \exp[-\frac{2t^2}{\sum\limits_{i=1}^N(b_i-a_i)^2}]$

$P[E(S_N)-S_N\geq t] \leq \exp[-\frac{2t^2}{\sum\limits_{i=1}^N(b_i-a_i)^2}]$

Hoeffding不等式(第二版)

设是独立随机变量，且 $X_i\epsilon[a_i,b_i],i=1,2,...,N;$ $\overline{X}$ 是的经验平均值， $\overline{X}=\frac{1}{N}\sum\limits_{i=1}^NX_i$ ,则对任意,以下不等式成立：

$P[\overline{X}-E(\overline{X})\geq t] \leq \exp[-\frac{2N^2t^2}{\sum\limits_{i=1}^N(b_i-a_i)^2}]$

$P[E(\overline{X})-\overline{X}\geq t] \leq \exp[-\frac{2N^2t^2}{\sum\limits_{i=1}^N(b_i-a_i)^2}]$

第一版：

$P[S_N-E(S_N)\geq t] \leq \exp[-\frac{2t^2}{\sum\limits_{i=1}^N(b_i-a_i)^2}]$

$\Rightarrow P[\frac{S_N}{N}-E(\frac{S_N}{N})\geq \frac{t}{N}] \leq \exp[-\frac{2t^2}{\sum\limits_{i=1}^N(b_i-a_i)^2}]$

令 $\overline{X} = \frac{1}{N}\sum\limits_{i=1}^NX_i$ , $t' = \frac{t}{N}$ ,则 $\overline{X}=\frac{S_N}{N}$ ,,从而有，

$P[\overline{X}-E(\overline{X})\geq t'] \leq \exp[-\frac{2(t'N)^2}{\sum\limits_{i=1}^N(b_i-a_i)^2}]$

第二版：

$P[\overline{X}-E(\overline{X})\geq t] \leq \exp[-\frac{2N^2t^2}{\sum\limits_{i=1}^N(b_i-a_i)^2}]$

证明：

,则

$\overline{X}$ :

$\overline{X}=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i))$

$=\hat R(f)$

对所有的i,

$E(\overline{X})$ :

$E(\overline{X})=E(\frac{1}{N}\sum\limits_{i=1}^NL(y_i, f(x_i)))$

$=\frac{1}{N}\sum\limits_{i=1}^NE(L(y_i,f(x_i)))$

$=\frac{1}{N}\sum\limits_{i=1}^NE(L(Y,f(X)))$

根据Hoeffding不等式，对 $\varepsilon > 0$ ,有：

$P(R(f)-\hat R(f) \geq{\varepsilon}) \leq{\exp(-2N\varepsilon^2)}$

假设空间有限，则，

$P(\exists f\epsilon F:R(f)-\hat R(f) \geq \varepsilon)$

$=P(\bigcup\limits_{f\epsilon F}\{R(f)-\hat R(f)\geq{\varepsilon}\})$

$\leq{\sum\limits_{f\epsilon F}P(R(f)-\hat R(f))\geq\varepsilon}$

$\leq \exp(-2N\varepsilon^2)$

或者等价于， $\forall f \epsilon F,$

$P(R(f)-\hat R(f)<\varepsilon)\geq{1-d\exp(-2N\varepsilon^2)}$

令 $\delta=d \exp(-2N\varepsilon^2)$ ,

$P(R(f)) < \hat R(f)+\varepsilon) \geq 1-\delta$

又，

$\delta=d \exp(-2N\varepsilon^2)\Rightarrow \varepsilon^2=-\frac{1}{2N}\log(\frac{\delta}{d})=\frac{1}{2N}(\log d + \log \frac{1}{\delta})$

因此，对 $\forall f \epsilon F$ ,至少以概率 $1-\delta$ ，以下不等式成立：

$R(f)<\hat R(f)+\varepsilon (d, N, \delta)$

第七节生成模型与判别模型

生成模型和判别模型

生成模型

由数据学习联合概率分布P(X,Y)，然后求出P(Y|X)作为预测模型，即生成模型(Generative Model):

$P(Y|X) = \frac{P(X,Y)}{P(X)}$

典型的生成模型：朴素贝叶斯法、隐马尔可夫模型

注：输入和输出变量要求为随机变量

判别模型

由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型，即判别模型(Discriminative Model)

典型的判别模型：k近邻法、感知机、决策树等

注：不需要输入和输出变量均为随机变量

生成模型VS判别模型

生成模型：

所需数据量较大
可还原联合概率分布P(X,Y)
收敛速度更快
能反映同类数据本身得相似度
隐变量存在时，仍可以使用生成模型

判别模型：

所需样本的数量少于生成模型
可直接面对预测，准确率更高
可见化学习问题
不可以反映数据本身的特性

第八节监督学习的应用

分类问题

分类准确率

对于给定的测试数据集，分类器正确分类的样本数与总样本数之比成为分类准确率：

$r_test = \frac{1}{N'}\sum\limits_{i'=1}^{N'}I(y_{i'}=\hat f(x_{i'}))$

I表示当预测出来的分类与真实的类别一致时为1，否则为0

二分类问题:

真实

预测

正类

负类

正类

负类

精确率：

$P=\frac{TP}{TP+FP}$

召回率：

$R=\frac{TP}{TP+FN}$

F1-Score:

$\frac{2}{F_1} = \frac{1}{P}+\frac{1}{R}$

分类方法：感知机、k近邻、朴素贝叶斯、决策树、Logistic回归

应用：银行业务、网络安全、图像处理、手写识别、互联网搜索

标注问题

训练集：

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N, y_N)\}$

-输入观测序列：

$x_i=(x_i^{(1)},x_i^{(2)},x_i^{(3)},...,x_i^{(n)})^T,i=1,2,...,N$

-输出观测序列：

$y_i=(y_i^{(1)},y_i^{(2)},y_i^{(3)},...,y_i^{(n)})^T,i=1,2,...,N$

学习的模型：

$P(Y^{(1)},Y^{(2)},...,Y^{(n)}|X^{(1)},X^{(2)},...,X^{(n)})$

预测

-新的输入观测序列：

$x_{N+1} = (x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)})^T$

-预测的输出标记序列：

$y_{N+1} = (y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)})^T$

方法：

隐马尔可夫模型

条件随机场

应用：

信息抽取

自然语言处理

例：

输入：At Microsoft Research,we have an insatiable curiosity and the desire to create new technology that will help define the computing experience.

输出：At/O Microsoft/B Research/E,we/O have/O an/O insatiable/B curiosity/E and/O the/O desire/BE to/O create/O new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.

回归问题

反映输入和输出的映射问题。

类型：

-按输入变量个数：一元回归、多元回归

-按输入和输出变量之间关系：线性回归、非线性回归

损失函数：平方损失

应用领域：商务领域

参考资料：

《统计学习方法》第二版

参考视频：

【合集】十分钟机器学习系列视频《统计学习方法》_哔哩哔哩_bilibili

你可能感兴趣的:(机器学习,机器学习,算法,线性回归)

机器学习基本概念时不晴机器学习人工智能
以下是入门机器学习所需了解的相关专业术语。这些术语涵盖了机器学习的基本概念、算法、模型评估方法以及数据处理技术等多个方面。为了便于理解，将这些术语按类别进行整理和解释。一、基本概念机器学习（MachineLearning）定义：一种让计算机通过数据学习、自动改进性能的人工智能分支。人工智能（ArtificialIntelligence,AI）定义：模拟人类智能的技术和方法，包括学习、推理、感知等。
人工智能机器学习基本概念详解猿享天开人工智能基础知识学习机器学习人工智能
人工智能机器学习基本概念详解机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在让计算机系统自动从数据中学习并进行预测或决策，而无需明确的编程指令。本文将详细探讨机器学习的基本概念，包括监督学习、无监督学习、强化学习及其应用示例。一、机器学习的基本概念1.1数据数据是机器学习的基础。机器学习模型通过分析数据来识别模式和
【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】2.20 傅里叶变换：从时域到频域的算法实现精通代码大仙 numpy python numpy python 算法
2.20傅里叶变换：从时域到频域的算法实现目录《傅里叶变换：从时域到频域的算法实现》2.20.1FFT算法原理2.20.2复数数组存储优化2.20.3频域滤波案例2.20.4音频处理案例2.20.5与CUFFT性能对比2.20.6总结2.20.7参考文献2.20.1FFT算法原理傅里叶变换（FourierTransform，FT）是一种将时域信号转换为频域信号的数学工具，而快速傅里叶变换（Fast
毕设基于python的搜索引擎设计与实现 A毕设分享家 python 毕业设计
文章目录0简介1课题简介2系统设计实现2.1总体设计2.2搜索关键流程2.3推荐算法2.4数据流的实现3实现细节3.1系统架构3.2爬取大量网页数据3.3中文分词3.4相关度排序第1个排名算法：根据单词位置进行评分的函数第2个排名算法：根据单词频度进行评价的函数第3个排名算法：根据单词距离进行评价的函数最后0简介今天学长向大家分享一个毕业设计项目毕业设计基于python的搜索引擎设计与实现项目运行
毕设开源深度学习图像搜索算法-图像搜索引擎(源码分享) knooor 毕业设计毕设大数据
文章目录0简介1前言2图像检索介绍(1)无监督图像检索(2)有监督图像检索3图像检索步骤4应用实例最后0简介今天学长向大家分享一个毕业设计项目毕业设计深度学习图像搜索算法-图像搜索引擎(源码分享)项目运行效果：毕业设计深度学习图像搜索算法-图像搜索引擎项目分享:见文末!1前言图像检索：是从一堆图片中找到与待匹配的图像相似的图片，就是以图找图。网络时代，随着各种社交网络的兴起，网络中图片，视频数据每
几行Python代码，轻松获取美股阿里巴巴的交易数据! Python资深程序员 Python Python
学Python可以干很多事情，比如爬虫，数据分析，机器学习，但是有一个非常小众的分支，不仅结合了两大高薪行业，而且还薪水非常诱人，就是量化金融岗位。目前Python已经是金融行业最低的一个门槛，几乎所有从事金融证券行业的人都要学会Python。今天给大家分享如何用Python获取美股的交易数据！Python资源共享群：626017123数据获取是数据分析的第一步，找不到可靠、真实的数据，数据分析无
04树 + 堆 + 优先队列 + 图（D1_树（D10_决策树）） Java丨成神之路 06数据结构与算法数据结构算法
目录一、引言二、算法原理三、算法实现四、知识小结一、引言决策树算法是一种常用的机器学习算法，可用于分类和回归问题。它基于特征之间的条件判断来构建一棵树，树的每个节点代表一个特征，每个叶节点代表一个类别或回归值。决策树算法具有简单、易于理解和解释的特点，且在处理大规模数据时具有较高的效率。本文将介绍决策树算法的基本原理，并提供了Java代码示例来说明其实现过程。二、算法原理决策树算法基于“分而治之”
漫话最小二乘法-1.矩阵表示 sHermit 最小二乘向量表示
无论是科研开始工程中，最小二乘法可谓无处不在。这里我想抛砖引玉，谈谈我对最小二乘的了解，也顺便理一理自己的思路，所谓：温故而知新嘛。这里将从矩阵和向量空间着手，先用矩阵和向量的方式表示最小二乘问题，以便后面说明其原理。最小二乘最早是由勒让德和高斯各自提出的。高斯成功的用最小二乘法解决了谷神星轨道计算的问题。先从最基本的线性回归说起最小二乘的用法。如图所示，蓝色圆圈描绘了一组点，可以大致看出这样一组
前缀和算法+实现力扣刷穿算法 leetcode c++
目录1.前缀和算法2.前缀和实现Leetcode303：区域和检索-数组不可变Leetcode304：二维区间和检索-数组不可变Leetcode560：和为K的子数组3.总结1.前缀和算法前缀和的定义：数组从开始至某特定位置处的总和。通过前缀和问题，我们可以计算数组的在某个区间的数值总和。其步骤如下：（1）建立vector，用于存储前缀，并通过一定计算方式（如何计算见后续例题）计算每个位置处的前缀
《算法零基础100讲》(第61讲) 前缀和(五) 二维前缀和英雄哪里出来《算法零基础100讲》算法线性代数矩阵前缀和二维前缀和
文章目录一、概念定义1、预处理2、预处理代码实现3、查询4、查询代码实现二、题目描述三、算法详解四、源码剖析五、推荐专栏六、习题练习一、概念定义有关一维前缀和的概念，在《算法零基础100讲》(第57讲)前缀和(一)线性前缀和入门中已经较为清晰的阐述，今天我们来学习二维的情况。1、预处理问题的起源就是对一个矩阵，如何在最快的时间内，求出它的某个子矩阵的和。我们首先把问题简化，对于一个n×mn
【漫话机器学习系列】079.超参数调优（Hyperparameter Tuning） IT古董漫话机器学习系列专辑机器学习深度学习人工智能
超参数调优（HyperparameterTuning）是机器学习中优化模型性能的重要步骤之一。超参数是模型在训练之前设定的参数，而不是通过训练数据学习到的参数。正确地选择超参数可以显著提高模型的预测能力，反之，错误的超参数选择可能会导致过拟合、欠拟合或训练过程缓慢。1.超参数的定义超参数是控制学习过程的外部参数，不同于模型参数（例如权重和偏置），超参数不通过训练过程自动优化。常见的超参数包括：学习
【漫话机器学习系列】054.极值（Extrema） IT古董漫话机器学习系列专辑机器学习人工智能
极值（Extrema）定义极值是数学分析和优化问题中的一个核心概念，指函数在某个定义域内取得的最大值或最小值。根据极值的性质，可以将其分为两类：局部极值（LocalExtrema）：函数在某点附近的最大值或最小值。全局极值（GlobalExtrema）：函数在整个定义域内的最大值或最小值。分类局部极大值（LocalMaximum）：若在点x=a附近存在某邻域，使得对任意x在该邻域内，满足f(x)≤
双指针算法深度解析某个默默无闻奋斗的人双指针算法 java leetcode
双指针算法简介双指针是一种常用的算法技巧，它通过使用两个指针在数据结构上进行操作，通常用来优化时间复杂度，解决数组或链表中的一些特定问题。双指针技巧一般用于“有序”数据结构（如排序后的数组或链表），但也可以扩展到一些特殊的无序问题。双指针的基本思想双指针算法通过两个指针同时遍历数组或链表，指针之间根据特定规则相互移动，从而达到解决问题的目的。双指针的经典应用场景包括：寻找两数之和（例如给定一个有序
深度优先搜索（DFS) 某个默默无闻奋斗的人深度优先算法
深度优先搜索（DFS）：Java实现与原理解析深度优先搜索（Depth-FirstSearch，简称DFS）是一种用于遍历或搜索树或图的算法。它从起始节点出发，沿着图的一个分支一路向下探索，直到到达最深的节点（即没有未访问的邻居节点为止），然后回溯到上一个节点，继续探索其他未被访问的分支，直到所有节点都被访问过为止。在本文中，我们将详细解析如何在Java中实现DFS，并讨论相关的原理。1.深度优先
redis 过期策略都有哪些？LRU 算法知道吗？写一下 java 代码实现？晚夜微雨问海棠呀 redis java 数据库
Redis的过期策略Redis提供了多种数据过期策略，以确保内存的有效利用和数据的及时清理。以下是主要的过期策略：定时删除：在设置键的过期时间时，创建一个定时器（timer），在键过期时立即删除。优点：键过期后立即释放内存。缺点：每个键都需要一个定时器，会消耗大量的系统资源。惰性删除：只有在访问一个键时，才会检查该键是否已过期，如果已过期则删除。优点：不会浪费系统资源，只有在需要时才进行检查。缺点
使用numpy自定义数据集，使用scikit-learn中SVM的包实现SVM分类辞落山 numpy scikit-learn 支持向量机
概述：支持向量机（SVM）是一种强大的分类算法，适用于线性和非线性分类问题。本博客将展示如何使用numpy自定义一个数据集，并利用scikit-learn中的SVM实现分类。1.导入必要的库importnumpyasnpfromsklearn.svmimportSVCfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metri
【机器学习】自定义数据集，使用scikit-learn 中K均值包进行聚类加德霍克机器学习 scikit-learn 均值算法 python 作业
一、K均值算法简介K均值算法的目标是将数据集划分为K个簇，使得每个数据点属于离它最近的簇中心（centroid）所代表的簇。K均值聚类算法步骤①初始化：随机选择原始数据的K个数据点作为初始质心（聚类中心）。②分配：将每个数据点划分到距离最近的质心所对应的簇中，即计算每个数据点到每个质心的距离，选择距离最近的质心作为该数据点所属的簇。③更新：重新计算每个簇的质心，即将该簇中所有数据点的坐标取平均值，
《扫雷》游戏获胜算法分析三雷科技 QT小王子扫雷 qt c++算法游戏程序
目录错误算法正确算法扫雷游戏中是否能够获胜，其实获胜的算法很容易计算。计算思路如下。获胜的条件其实就是将所有的雷排除干净，并且将非雷的区域全部点击完毕。判断方格属性，如果方格的属性全部是雷，那么就可以认为获胜的话，这样会有漏洞，用户可以通过尝试的方法，在雷区不断的标注小旗，这样就可以获胜了。错误算法如下，统计用户确定（isOk）的方格为雷的数量。这样判断会有一个问题那就是用户盲标记，其实并没有进行
零信任赋予安全牙齿，AI促使它更锋利零信任Enlink_Young 零信任网络安全 AI ai 网络安全
距离上次写关于安全的文字已经过去了很久很久，久到上次看到的AI还停留在TTS、ASR等最初的语音交互+搜索类似的各种智能音箱以及通过关键字匹配的基于知识库的聊天的机器人。之后的几年各种视觉识别遍地开花，AI四小龙在人脸识别上成熟应用，再然后到大热的机器学习、深度学习，对于AI一直都有关注，但商业价值均没有得到有效发挥，大部分都停在科研和实验室阶段。19年ChatGPT横空处世，直到ChatGPT通
集合通讯概览 LIZHUOLONG1 集合通讯
（1）通信的算法是根据通讯的链路组成的（2）因为通信链路跟硬件强相关，所以每个CCL的库都不一样芯片与芯片、不同U之间是怎么通信的！！！！！！很重要，明天要把这个看完
DeepSeek- R1 原理介绍 kcarly 大模型知识乱炖杂谈 DeepSeek R1 原理介绍
DeepSeek-R1是由DeepSeek公司推出的一款基于强化学习（RL）的开源推理模型，其核心原理和特点如下：1.核心技术与架构强化学习驱动：DeepSeek-R1是首个完全通过强化学习训练的大型语言模型，无需依赖监督微调（SFT）或人工标注数据。它采用组相对策略优化（GRPO）算法，通过奖励机制和规则引导模型生成结构化思维链（CoT），从而提升推理能力。多阶段训练流程：模型采用冷启动阶段、强
leetcode字节面试高频题思路总结（二叉树专栏） hust_yrh leetcode 算法面试二叉树
leetcode刷题，一个好的思路很重要，刷leetcode不如就只看好的解题思路，记下来关键思路然后面试的时候就会容易很多。自己的算法思路可能就会有很多冗余代码，跟好的算法思路比起来差距很大，并且看了很多题解就不会出现有没有一点思路的情况。举例：顺时针打印数组，寻找重复数lc287，k个一组翻转链表。(乱序)顺时针打印：先第一行，然后消去，再最后一列，然后消去，最下一行，然后消去…287：给定一
深度学习框架PyTorch原理与实践 AI天才研究院 AI实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.简介2.背景介绍3.基本概念和术语3.1PyTorch简介3.2PyTorch的特点1）自动求导机制2）GPU加速3）模型部署4）数据管道5）代码阅读友好4.核心算法原理4.1神经网络结构4.2神经网络层4.3激活函数5.实际案例——MNIST手写数字识别数据准备模型定义训练测试整体代码1.简介Deeplearning(DL)hasbeenanincreas
LeetCode--347. 前 K 个高频元素/Golang中的堆(container/heap) Rinai_R LeetCode leetcode golang 算法数据结构
例题链接-前k个高频元素前言以前都是用的C++写算法题，最近也想熟悉一下golang的数据结构，故来一篇题解+堆分析。正文这里重点不在分析题目，在于golang中的container/heap对于内部实现逻辑有兴趣的可以去看看源码。这里先给出题解的代码packagemainimport("container/heap""fmt")//IHeap是一个最小堆的实现typeIHeap[][2]intf
自动生成关于软件程序开发的100个文件并可提供下载入口唐城 postgresql 数据库人工智能电脑机器人
创建一个包含100个关于软件程序开发的文件并提供下载入口是一个庞大的任务，因为这需要编写大量的代码、文档和示例。不过，我可以提供一个大致的框架和指导，帮助你生成这些文件，并说明如何设置下载入口。文件生成思路编程语言文件：每种主流编程语言（如Python、Java、C++、JavaScript等）的HelloWorld程序。数据结构示例（链表、树、图等）。算法实现（排序、搜索等）。项目模板：Web项
Paddle进阶实战系列（三）：基于SVTR算法的手写英文单词识别 GoAI 深入浅出OCR 深入浅出AI 计算机视觉 OCR paddle 深度学习人工智能
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️链接加群。专栏推荐：➡️
Spark3.1.2单机安装部署花菜回锅肉大数据 spark 大数据 hadoop
spark3.1.2单机安装部署概述Spark是一个性能优异的集群计算框架，广泛应用于大数据领域。类似Hadoop，但对Hadoop做了优化，计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析，而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。大数据问题场景包含以下三种：复杂的批量数据处理基于历史数据的交
R语言环境下载和RStudio安装教程 CyberXZ r语言开发语言 R语言
R语言环境下载和RStudio安装教程R语言是一种广泛应用于统计计算和数据分析的编程语言。它提供了丰富的统计和图形功能，被广泛用于数据科学、机器学习和数据可视化等领域。本教程将向您介绍如何下载和安装R语言环境以及RStudio集成开发环境。步骤1：下载R语言环境首先，您需要下载R语言环境。请按照以下步骤进行操作：在您的Web浏览器中打开R官方网站（https://www.r-project.org
分布式id-雪花算法精通HelloWorld! 分布式 java 算法
通常我们在生成用户id或者订单id时都需要一个全局唯一的id来唯一标识，在单体情况下我们可以使用UUID、时间戳、数据库自增id而在分布式情况下，需要考虑大量服务器之间生成的id全局唯一，所以就使用了今天要介绍的雪花算法来生成分布式下的全局id单体服务UUID、时间戳、数据库自增id存在以下问题：UUID是无序的且数据非常大（128bit），且一般会使用36位长度的字符串存储，这样会导致id存入数
排序算法--基数排序和风化雨代码库排序算法算法数据结构 c语言 c++
核心思想是按位排序（低位到高位）。适用于定长的整数或字符串，如例如：手机号、身份证号排序。按数据的每一位从低位到高位（或相反）依次排序，每次排序使用稳定的算法（如计数排序）。#include//获取数组中最大值（用于确定位数）intgetMax(intarr[],intn){intmax=arr[0];for(inti=1;imax){max=arr[i];}}returnmax;}//使用计数排
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

《统计学习方法》学习笔记之第一章

第一节 统计学习的定义与分类

统计学习的概念

统计学习的分类

第二节 统计学习方法的基本分类

监督学习

无监督学习

强化学习

第三节 统计学习方法三要素

模型

策略

第四节 模型评估与模型选择

训练误差与测试误差

过拟合与模型选择

第五节 正则化和交叉验证

正则化：实现结构风险最小化策略

交叉验证

第六节 泛化能力

泛化误差

泛化误差上界

二分类问题

第七节 生成模型与判别模型

生成模型和判别模型

生成模型VS判别模型

第八节 监督学习的应用

分类问题

标注问题

回归问题

你可能感兴趣的:(机器学习,机器学习,算法,线性回归)

第一节统计学习的定义与分类

第二节统计学习方法的基本分类

第三节统计学习方法三要素

第四节模型评估与模型选择

第五节正则化和交叉验证

第六节泛化能力

第七节生成模型与判别模型

第八节监督学习的应用