东月之神

机器学习笔记--概率与数理统计

终于看到了概率和数理统计了，期间看了机器学习算法感觉比以前明朗了很多，很多公式概念也有了一些新的认识，继续看数学吧，看完数学就再继续整python。

1 概率

记作P(E)，比如掷骰子，每一面的概率就是P(E) = 1/6

1.1 古典概率

通常又叫事前概率，是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知，而无需经过任何统计试验即可计算各种可能发生结果的概率

1.2 条件概率

附加在一定条件下的概率。
考虑掷骰子的三个事件，A:掷出素数点，B:掷出奇数点，C:掷出偶数点。则
A=2,3,5，B=1,3,5,C=2,4,6
P(A)=1/3,P(B)=1/3,P(C)=1/3
若已知B发生，则A发生的概率P(A|B)=2/3
若已知C发生，则A发生的概率P(A|C)=1/3
从而可以得知：
设两事件A，B，且 P(B)≠0 ,则在给定B发生的条件下，A的条件概率：
$P (A | B) = P (A B) / P (B)$

1.3 独立事件

两事件独立，则P(AB)=P(A)P(B)

1.4 全概率公式

设 B1，B2，.... 为有限或无限个事件，它们两两互斥且在每次试验中至少发生一个，即：
- 不重， Bi∩Bj=∅ （不可能事件） i≠j ,
- 不漏， B1∪B2∪....=Ω （必然事件）

则全概率为：

P (A) = \sum i = 1 n P (B i) P (A | B i)

2 贝叶斯公式

2.1 公式

与全概率公式解决的问题相反，贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因.

P (B i A) = P ( B i ) P ( A | B i ) \sum n j = 1 P ( B j ) P ( A | B j )

Bi 常被视为导致试验结果A发生的“原因”，

P(Bi)(i=1,2,...) 表示各种原因发生的可能性大小，故称先验概率（权重）,

P(Bi|A)(i=1,2...) 则反映当试验产生了结果A之后，再对各种原因概率的新认识，故称后验概率。

2.2 实例

最经典的一个例子就是疾病检测，假设某种病菌在人口中的带菌率为0.03。当检查时，由于技术及操作之不完善以及种种特殊原因，使带菌者未必检出阳性反应而不带菌者也可能呈现阳性反应，假设：
P(阳性|带菌) = 0.99， P(阴性|带菌) = 0.01
P(阳性|不带菌) = 0.05， P(阴性|不带菌) = 0.95
先设某人检测出阳性，问“他带菌”的概率是多少？

因为 P(B1)=0.03,P(B2)=0.97,且P(A|B1)=0.99,P(A|B2)=0.05 ，故:

P (B 1 A) = P ( B 1 ) P ( A | B 1 ) P ( B 1 ) P ( A | B 1 ) + P ( B 2 ) P ( A | B 2 ) = 0.03 * 0.99 0.03 * 0.99 + 0.97 * 0.05 = 0.38

3 常见离散连续分布

常见离散和连续分布如下表：

3.1 概率函数

设X为离散型随机变量，其全部可能值为 {a1，a2,⋯}

p i = P (X = a i), i = 1, 2, 3, \dots

3.2 分布函数

设X为一随机变量，则函数：

P (X ⩽ x) = F (x), - \infty < x < + \infty

3.3 概率密度函数

设连续性随机变量X有概率分布函数F(X)，则F(X)的导数f(x) = F’(X)
F(a⩽X⩽b)=F(b)−F(a)=∫ba(x)dx

4 联合分布函数

4.1 定义

联合分布函数(joint distribution function)亦称多维分布函数
设 (X,Y) 是二维随机变量, 对于任意实数x, y二元函数：

F (x, y) = P {(X \leq x) \cap (Y \leq y)} = P {X ⩽ x, Y \leq y}

则称二维随机变量

(X,Y) 的分布函数，或称为随机变量X和Y的联合分布函数

4.2 几何意义

将二维随机变量 (X,Y) 看成是平面上随机点的坐标，分布函数 F(x,y) 在 (x,y)处的函数值就是随机点 (X,Y)落在如图以 (x,y) 为顶点而位于该点左下方的无穷矩形区域内的概率。

随机点 (X,Y) 落在矩形区域 {(x,y)|x1⩽x⩽x2,y1⩽y⩽y2} 的概率为 : P{x1⩽x⩽x2,y1⩽y⩽y2}=F(x2,y2)−F(x1,y2)−F(x2,y1)+F(x1,y1)

相当于一个大的无穷矩形减去两个小的无穷矩形，但是多减了一个重合的面积，将它加回来。

5 数学期望

5.1 定义

设随机变量X只取有限个可能值 a1,a2,⋯,am ，其概率分布为 P(X=ai)=pi，i=1,2,⋯,m ，则X的数学期望为：

E (X) = a 1 p i + a 2 p 2 + \dots + a m p m

当X为离散型变量，并且个数为无穷个的时候也写成：

E (X) = \sum i = 1 \infty a i p i

6 方差和标准差

6.1 方差

每个样本值与全体样本值的平均数之差的平方值的平均数
方差是衡量源数据和期望值相差的度量值

D (X) = E (X - E X) 2

6.2 标准差

标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同。
用 σ 表示

7 协方差

协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。
期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为：

C o v (X, Y) = E [(X - E [X]) (Y - E [Y])] = E [X Y] - 2 E [Y] E [X] + E [X] E [Y] = E [X Y] - E [X] E [Y]

如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值；如果两个变量的变化趋势相反，即其中一个变量大于自身的期望值时另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。

8 大数定理和中心极限定理

8.1 大数定律

大数定律是说，n只要越来越大，把这n个独立同分布的数加起来去除以n得到的这个样本均值（也是一个随机变量）会依概率收敛到真值u，但是样本均值的分布是怎样的我们不知道。
切比雪夫大数定理：设 x1,x2,⋯,xn 是一列相互独立的随机变量(或者两两不相关)，他们分别存在期望 E(xk) 和方差 D(xk) 。若存在常数C使得： D(xk)⩽C(k=1,2,3,⋯,n)
则对任意小的正数 ε，满足公： $lim n \to \infty P {∣ ∣ ∣ 1 n \sum k = 1 n x k - 1 n \sum k = 1 n E x k ∣ ∣ ∣ < ε} = 1$
随着样本容量n的增加，样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。
伯努利大数定律: 设μ是n次独立试验中事件A发生的次数，且事件A在每次试验中发生的概率为P，则对任意正数ε，有公式: $lim n \to \infty P (∣ ∣ μ n n - p ∣ ∣ < ε) = 1$
当n足够大时，事件A出现的频率将几乎接近于其发生的概率，即频率的稳定性

8.2 中心极限定律

设随机变量 X1，X2,⋯,Xn,⋯ 独立同分布，并且具有有限的数学期望和方差： E(Xi)=μ，D(Xi)=σ2(k=1,2,⋯) ，则对任意x，分布函数:

lim n \to \infty P (\sum n i = 1 X i - n μ n \sqrt σ ⩽ x) = 1 2 π - - \sqrt \int x - \infty e - t 2 2 d t = Φ (x)

只要n足够大，便可以把独立同分布的随机变量之和当作正态变量

9 极大似然估计(MLE)

似然函数：
- 离散： L(θ)=L(x1,x2,⋯,xn;θ)=∐ni=1p(xi；θ)
- 连续： L(θ)=L(x1,x2,⋯,xn;θ)=∐ni=1f(xi；θ)
设总体的分布类型已知，但含有未知参数 θ ，又设 (x1,x2,⋯,xn) 为总体X的一个样本，若似然函数 L(θ) 在 θ^=θ^（x1,x2,⋯,xn）处取得最大值，则称 θ^=θ^（x1,x2,⋯,xn）为 θ 的极大似然估计值。
若 L(θ) 关于 θ 可导，则 θ^ 可从方程： ddθL(θ)=0 解得。
为了求解方便，会求 lnL(θ) ，故求方程 ddθlnL(θ)=0 的解。
由上可知最大似然估计的一般求解过程：
　　（1）写出似然函数；
　　（2）对似然函数取对数，并整理；
　　（3）求导数；
　　（4）解似然方程

10 贝叶斯估计

贝叶斯估计，是在给定训练数据 D 时，确定假设空间 H 中的最佳假设。最佳假设：一种方法是把它定义为在给定数据 D 以及 H 中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法，基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。
先验概率和后验概率用 P(h) 表示在没有训练数据前假设h拥有的初始概率。 P(h )被称为 h 的先验概率。先验概率反映了关于 h 是一正确假设的机会的背景知识如果没有这一先验知识，可以简单地将每一候选假设赋予相同的先验概率。类似地， P(D) 表示训练数据 D 的先验概率， P(D|h) 表示假设 h 成立时 D 的概率。机器学习中，我们关心的是 P(h|D) ，即给定 D 时 h 的成立的概率，称为 h 的后验概率。
贝叶斯公式提供了从先验概率 P(h )、 P(D) 和 P(D|h) 计算后验概率 P(h|D) 的方法 p(h|D)=P(D|H)∗P(H)/P(D) ， P(h|D) 随着 P(h) 和 P(D|h) 的增长而增长，随着 P(D) 的增长而减少，即如果 D 独立于 h 时被观察到的可能性越大，那么 D 对 h 的支持度越小。

11 最大后验概率(MAP)

最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似，但是最大的不同时，最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。
假设x为独立同分布的采样，θ为模型参数,f为我们所使用的模型。那么最大似然估计可以表示为： θ^MLE(x)=argθmaxf(x|θ)
现在，假设 θ 的先验分布为 g 。通过贝叶斯理论，对于 θ 的后验分布如下式所示： θx↦f(θ|x)=f(x|θ)g(θ)∫θϵΘf(x|θ′)g(θ′)dθ′
最大后验分布的目标为： $θ^M A P (x) = a r g θ m a x f ( x | θ ) g ( θ ) \int θ ϵ Θ f ( x | θ ' ) g ( θ ' ) d θ ' = a r g θ m a x f (x | θ) g (θ)$
一个例子

概率统计基本上也学到这里了，还有很多没有整明白，感觉是时候开始搞python了，要不然会越来越无趣了。简单的基础学好了，可以结合下机器学习实战这本书，来一些例子学起来了。

你可能感兴趣的:(机器学习笔记)

机器学习笔记有涯小学生赵卫东机器学习笔记机器学习人工智能
1概述1.1简介机器学习（MachineLearning）是计算机科学的子领域，也是人工智能的一个分支和实现方式。“对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么就称这个计算机程序在从经验E学习。”（汤姆·米切尔（TomMitchell），1997，MachineLearning）1.2机器学习、人工智能、数据挖掘从本质上看，数据科学的目标是通过处理各
机器学习笔记 - 监督学习备忘清单坐望云起深度学习从入门到精通监督学习线性模型支持向量机生成学习集成方法
一、监督学习简介给定一组数据点关联到一组结果，我们想要构建一个分类器，学习如何从预测。1、预测类型下表总结了不同类型的预测模型：2、模型类型下表总结了不同的模型：
深度学习笔记——循环神经网络RNN 好评笔记补档深度学习 rnn 人工智能机器学习计算机视觉神经网络 AIGC
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍面试过程中可能遇到的循环神经网络RNN知识点。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集文章目录热门专栏机器学习深度学习文本特征提取的方法1.基础方法1.1词袋模型（BagofWords,BOW）工作原理举例优点缺点1.2TF-IDF（TermFrequency-InverseDocumentFr
机器学习笔记——特征工程好评笔记补档机器学习笔记人工智能 AIGC 深度学习计算机视觉面试八股
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集文章目录热门专栏机器学习深度学习特征工程（FzeatureEngineering）1.特征提取（FeatureExtraction）手工特征提取（ManualFeatureExtraction）：自
SD模型微调之LoRA 好评笔记补档深度学习计算机视觉人工智能面试 AIGC SD stable diffusion
大家好，这里是Goodnote（好评笔记），关注公主号Goodnote，专栏文章私信限时Free。本文是SD模型微调方法LoRA的详细介绍，包括数据集准备，模型微调过程，推理过程，优缺点等。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集文章目录热门专栏机器学习深度学习论文概念核心原理优点训练过程预训练模型加载选择微调的层LoRA优化的层Cross-Attention（跨注意力）层Self
深度学习笔记——pytorch构造数据集 Dataset and Dataloader 旺仔喔喔糖机器学习笔记 pytorch 人工智能深度学习
系列文章目录机器学习笔记——梯度下降、反向传播机器学习笔记——用pytorch实现线性回归机器学习笔记——pytorch实现逻辑斯蒂回归Logisticregression机器学习笔记——多层线性（回归）模型Multilevel(LinearRegression)Model深度学习笔记——pytorch构造数据集DatasetandDataloader深度学习笔记——pytorch解决多分类问题M
机器学习笔记20241017 tt555555555555 学习笔记深度学习机器学习笔记人工智能
文章目录torchvisiondataloadernn.module卷积非线性激活模型选择训练误差泛化误差正则化权重衰退的基本概念数学表示权重衰退的效果物理解释数值稳定性（GradientVanishing）梯度消失原因解决方法梯度爆炸（GradientExplosion）定义原因解决方法总结继续跟着小土堆学pytorchtorchvision#导入torchvision库，主要用于处理图像数据集
机器学习笔记——正则化好评笔记补档机器学习人工智能论文阅读 AIGC 计算机视觉深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的正则化方法。文章目录正则化L1正则化（Lasso）原理使用场景优缺点L2正则化（Ridge）原理使用场景优缺点ElasticNet正则化定义公式优点缺点应用场景Dropout原理使用场景优缺点早停法（EarlyStopping）原理使用场景优缺点BatchNormalization(BN)原理使用
机器学习笔记——特征工程、正则化、强化学习好评笔记机器学习笔记机器学习人工智能 AI AI编程算法工程师
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。文章目录特征工程（FzeatureEngineering）1.特征提取（FeatureExtraction）手工特征提取（ManualFeatureExtraction）：自动特征提取（AutomatedFeatureExtraction）：2.特征选择
机器学习笔记——特征工程好评笔记补档机器学习人工智能论文阅读 AIGC transformer 深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。文章目录特征工程（FzeatureEngineering）1.特征提取（FeatureExtraction）手工特征提取（ManualFeatureExtraction）：自动特征提取（AutomatedFeatureExtraction）：2.特征选择
机器学习笔记 - 将音频转换为图像进行分类的机器学习模型坐望云起深度学习从入门到精通机器学习深度学习语音识别光谱图 Whisper
一、简述语音识别技术是将音频信号转化为文本的过程。其基本原理如下：1.音频录制：首先需要对口语发音进行录制，并将其转化为数字形式的音频文件。2.预处理：对音频信号进行预处理，包括去除杂音干扰、增加音频的信噪比以及消除不必要的语音、噪声等。3.特征提取：特征提取是语音信号处理的一个重要部分，通过对音频数据进行分析，提取其中特有的频率、音调、幅度等数学特征，并转化成数字特征。4.模型训练：在特征提取完
机器学习&深度学习目录 UQI-LIUWJ 各专栏目录深度学习人工智能 1024程序员节
机器学习模型机器学习笔记：Transformer_刘文巾的博客-CSDN博客attention相关机器学习笔记：attention_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ELMOBERT_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ViT（论文AnImageIsWorth16X16Words:TransformersforImageRecognitionatScale）_UQ
机器学习笔记 - 机器学习/深度学习实战案例合集坐望云起深度学习从入门到精通机器学习深度学习人工智能案例应用神经网络
一、简述如何学习机器学习/深度学习，理论和实践都很重要，理论上的内容需要看课程、读教材。但是实践需要自己动手，实践之后自然会对理论有更深入的理解。怎么实践？借用欧阳修《卖油翁》的话”无他，但手熟尔“。就是多看多写多跑。下面创建这个github的目的是为了存放一些图像处理/计算机视觉/机器学习/深度学习的示例代码集合，不定期会添加新的示例，可供参考。GitHub-bashendixie/ml_too
AIGC视频生成模型：Meta的Emu Video模型好评笔记 #Meta AIGC-视频 AIGC 机器学习人工智能 transformer 论文阅读深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
机器学习笔记——Boosting中常用算法（GBDT、XGBoost、LightGBM）迭代路径好评笔记机器学习笔记机器学习 boosting 人工智能深度学习 AI 算法工程师
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文主要阐述Boosting中常用算法（GBDT、XGBoost、LightGBM）的迭代路径。文章目录XGBoost相对GBDT的改进引入正则化项，防止过拟合损失函数L(yi,y^i)L(y_i,\hat{y}_i)L(yi,y^i)正则化项Ω(fm)\Omega(f_m)Ω(fm)使用二阶导数信息，加速收敛一阶导数与二
李宏毅机器学习笔记——反向传播算法小陈phd 机器学习机器学习算法神经网络
反向传播算法反向传播（Backpropagation）是一种用于训练人工神经网络的算法，它通过计算损失函数相对于网络中每个参数的梯度来更新这些参数，从而最小化损失函数。反向传播是深度学习中最重要的算法之一，通常与梯度下降等优化算法结合使用。反向传播的基本原理反向传播的核心思想是利用链式法则（ChainRule）来高效地计算损失函数相对于每个参数的梯度。以下是反向传播的基本步骤：前向传播（Forwa
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
机器学习笔记 rl染离机器学习笔记人工智能
什么是机器学习：机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。机器学习有下面几种定义：（1）机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。（2）机器学习是对能通过经验自动改进的计算机算法的研究。（3）
机器学习笔记（KNN算法）空木幻城机器学习 python 机器学习算法
情景分析现在一个二维平面上有众多点(x1,y1),(x2,y2)...(xn,yn)(x_1,y_1),(x_2,y_2)...(x_n,y_n)(x1,y1),(x2,y2)...(xn,yn)，我也知道它们所属哪个类别，现在给出一个点(x,y)(x,y)(x,y)，问这个点是属于哪个类的。这是一个典型的分类问题重要概念相邻点的个数K相邻点的个数Kknn中最重要的概念就是这个了，也是唯一需要理解
【机器学习笔记】 9 集成学习 RIKI_1 机器学习机器学习笔记集成学习
集成学习方法概述Bagging从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果：假设一个班级每个人的成绩都不太好，每个人单独做的考卷分数都不高，但每个人都把自己会做的部分做了，把所有考卷综合起来得到成绩就会比一个人做的高Boosting训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化
吴恩达机器学习全课程笔记第二篇亿维数组 Machine Learning 机器学习笔记人工智能学习
目录前言P31-P33logistics（逻辑）回归决策边界P34-P36逻辑回归的代价函数梯度下降的实现P37-P41过拟合问题正则化代价函数正则化线性回归正则化logistics回归前言这是吴恩达机器学习笔记的第二篇，第一篇笔记请见：吴恩达机器学习全课程笔记第一篇完整的课程链接如下：吴恩达机器学习教程（bilibili）推荐网站：scikit-learn中文社区吴恩达机器学习学习资料（gith
【机器学习笔记】7 KNN算法 RIKI_1 机器学习机器学习笔记算法
距离度量欧氏距离(Euclideandistance)欧几里得度量（EuclideanMetric）（也称欧氏距离）是一个通常采用的距离定义，指在维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。曼哈顿距离(Manhattandistance)想象你在城市道路里，要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线
【机器学习笔记】14 关联规则 RIKI_1 机器学习机器学习笔记人工智能
关联规则概述关联规则（AssociationRules）反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物就能够通过其他事物预测到。关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买，那么在相同的交易ID下，商品B也被客户挑选的机会就被发现了。有没有发生过这样的事：你出去买东西，结果却买了比你计划的多得多的东西？这是一种被称为
【机器学习笔记】13 降维 RIKI_1 机器学习机器学习笔记人工智能
降维概述维数灾难维数灾难(CurseofDimensionality)：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。在很多机器学习问题中，训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话，不仅会让训练非常缓慢，还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库
【机器学习笔记】8 决策树 RIKI_1 机器学习机器学习笔记决策树
决策树原理决策树是从训练数据中学习得出一个树状结构的模型。决策树属于判别模型。决策树是一种树状结构，通过做出一系列决策（选择）来对数据进行划分，这类似于针对一系列问题进行选择。决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果。以下小美相亲的例子就是决策树决策树算法是一种归纳分类算法，它通过对训练集的学习，挖掘出
【机器学习笔记】 15 机器学习项目流程 RIKI_1 机器学习机器学习笔记人工智能
机器学习的一般步骤数据清洗数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。探索性数据分析(EDA探索性数据分析（EDA）是一个开放式流程，我们制作绘图并计算统计数据，以便探索我们的数据。目的是找到异常，模式，趋势或关系。这些可能是有趣的（例如，找到两个变量之间的相关性），或者它们可用
【机器学习笔记】5 机器学习实践 RIKI_1 机器学习机器学习笔记人工智能
数据集划分子集划分训练集（TrainingSet）：帮助我们训练模型，简单的说就是通过训练集的数据让我们确定拟合曲线的参数。验证集（ValidationSet）：也叫做开发集（DevSet），用来做模型选择（modelselection），即做模型的最终优化及确定的，用来辅助我们的模型的构建，即训练超参数，可选；测试集（TestSet）：为了测试已经训练好的模型的精确度。三者划分：训练集、验证集、
【机器学习笔记】11 支持向量机 RIKI_1 机器学习机器学习笔记支持向量机
支持向量机（SupportVectorMachine,SVM）支持向量机是一类按监督学习（supervisedlearning）方式对数据进行二元分类的广义线性分类器（generalizedlinearclassifier），其决策边界是对学习样本求解的最大边距超平面（maximum-marginhyperplane）。与逻辑回归和神经网络相比，支持向量机，在学习复杂的非线性方程时提供了一种更为清
【机器学习笔记】12 聚类 RIKI_1 机器学习机器学习笔记聚类
无监督学习概述监督学习在一个典型的监督学习中，训练集有标签，我们的目标是找到能够区分正样本和负样本的决策边界，需要据此拟合一个假设函数。无监督学习与此不同的是，在无监督学习中，我们的数据没有附带任何标签，无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。主要的无监督学习方法聚类（Clustering）如何将教室里的学生按爱好、身高划分为5类？降维（DimensionalityReductio
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他