_Volcano

机器学习笔记——5 生成学习算法(线性判别法LDA、二次判别法QDA及朴素贝叶斯NB算法的数学原理及其python实现)

生成学习算法(高斯判别和朴素贝叶斯算法的数学原理及其python实现)

本篇介绍另外一种分类算法，这类算法跟之前广义线性模型下的各种分类特例，比如logit分类、softmax分类等，在基本思想有根本的不同，这类算法称为生成学习算法。
本篇将首先介绍生成学习算法的基本思想，以此为基础，介绍在属性值为连续性和离散型下的两类常用的生成学习算法，分别是高斯判别分析(Guass Discrimination Analysis，GDA)和朴素贝叶斯(Bernoulli event model)。它们分别假设属性值的条件分布为多元正态分布和二项分布，它们可以应对大部分情形。最后我们进行适当的拓展，介绍属性值既有连续型又有离散型变量时的处理方法，多项分布下的朴素贝叶斯分类器，以及工程实现时采用的拉普拉斯平滑变换。

生成学习算法的基本思想

在之前的回归分类算法中，我们做的是建立一个直接预测标签值 $y$ 的模型，即 $h_\theta(x) = E(y|x)$ 。这样的分类算法亦称为判别学习算法(Discrimination Learning Algorithm)。但这里存在一个问题，即是我们用一个统一的模型对不同类别的属性值进行统一的处理，输出y的期望值。

基于问题的背景，判别学习算法的好坏是很难一言蔽之的，但是我们确实可以从另外一个角度来做分类，即我们在各个类别中根据类别的具体情况 $y = y_i$ 建立属于这个类别的关于属性值 $x$ 的条件分布 $p_i(x|Y) = p_i(x|Y = y_i)$ 。因此，现在就可以利用贝叶斯后验概率公式来计算
$\begin{aligned} P(Y = y_i|X = x_i) = & \frac{P(Y = y_i,X = x_i)}{P(X = x)} \\ = & \frac{P(Y = y_i)P(X = x_i|Y = y_i)}{p(X = x)} \end{aligned}$ 然后，根据似然原理，我们选择概率最大的 $y_i$ 作为预测的类别。
注意，广义来讲，不同的 $y_i$ 对应的分布 $p_i(x|y)$ 可以是不同形式的，但一般取相同的分布，而且只在一些参数上做区别。

高斯判别分析(Guass Discrimination Analysis)

GDA 的数学原理(为什么是线性判别？)

在属性值为连续型变量的情形下，我们可以假设其条件分布为多元正态分布，即 $y_i) = \frac{1}{\sqrt{2\pi}|\Sigma|^{\frac{1}{2}}}exp((-\frac{1}{2})(x-\mu_i)^{'}\Sigma^{-1}(x-\mu_i))$ 这里我们假设不同的类别下的条件分布中，协方差矩阵 $\Sigma_i = \Sigma,i \in \{0,1,...,k-1\}$ 从直观上讲，这实际上规定了不同类别之间属性值的分布形状是一致的，差别只在于所在中心位置 $\mu$ 的不同，当然这是一个较强的假设，但是它让我们所需要估计的参数大大减少。

现在我们讨论两个类别的多维正态分布的情况。如果我们已经有训练数据获得估计出其中的参数 $\phi_y = P(y = 1),\Sigma,\mu_0和\mu_1$ 。那么就可以利用似然比 $\alpha = \frac{p(y = 1|x)}{p(y = 0|x)} = \frac{\phi_yp(x|y = 1)}{(1-\phi_y)p(x|y = 0)}$ 来分类。即
$\left\{ \begin{aligned} \ \ \ \ 1, \ \ \ \ \ \ \ \ \ \ \ \ \ \ \alpha > 1\\ \ \ \ \ 决策边界, \ \ \ \ \ \ \ \ \ \ \ \ \ \ \alpha = 1\\ \ \ \ \ 0 , \ \ \ \ \ \ \ \ \ \ \ \ \ \ \alpha < 1 \end{aligned} \right.$ 对 $\alpha$ 的形式进行适当的变形，我们记

$\theta = 2(\mu_0 - \mu_1)^{'}\Sigma^{-1}$ ，

$\theta_0 = \mu_1^{'}\Sigma^{-1}\mu_1 - \mu_0^{'}\Sigma^{-1}\mu_0 - 2log(\frac{\phi(y)}{1-\phi_y})$ ，

记超平面 $\pi_{01}$ 的方程为：
$\theta^{T}x+\theta_0 = 0$ 通过简单的代数运算就可以发现上述依据似然比对y的分类等价于利用超平面 $\pi_{01}$ 进行分类，即：
$\left\{ \begin{aligned} \ \ \ \ 1, \ \ \ \ \ \ \ \ \ \ \ \ \ \ \theta^{T}x+\theta_0 > 0(落于超平面上方)\\ \ \ \ \ 决策边界, \ \ \ \ \ \ \ \ \ \ \ \ \ \ \theta^{T}x+\theta_0 = 0(落于超平面)\\ \ \ \ \ 0 , \ \ \ \ \ \ \ \ \ \ \ \ \ \ \theta^{T}x+\theta_0 < 0(落于超平面下方) \end{aligned} \right.$ 特别的，当只有只有两个类别且 $\phi_y = 0.5时$ ，此时属性空间为一条直线，决策边界为一个点 $\frac{\mu_0+\mu_1}{2}$

对于多个分类的情况，只需要进行两两比较即可。

GDA 的几何直观

在上面 $\Sigma$ 相同的假设之下，我们已经证明，GDA实际是对属性值所在的空间做线性划分，因此在协差阵相同假设下的GDA也称为线性判别分析(Liner Discrimination Analysis,LDA)。在k个类别，n维正态分布下，LDA利用k个n维超平面将n维空间分割为k个区域。超平面上的点称为决策边界。特别地，在3个类别的2维正态分布中，有3条射线将平面分割为3个区域，其如下图所示：

GDA 的参数估计

现在我们需要在已有的数据中，估计出 $\phi_y = P(y = 1),\Sigma,\mu_0和\mu_1$ 。我们采用的仍是极大似然(MLE)的估计方法。似然函数为
$L(\phi_y,\Sigma,\mu_0,\mu_1;(X,Y)) = \prod_{i = 1}^{m}\phi_y^{y^{(i)}}(1-\phi_y)^{1-y^{(i)}}P(x^{(i)}|y = y^{(i)})$ 其中 $P(x^{(i)}|y = y^{(i)}) = p_1(x^{(i)}|y)1\{y^{(i)} = 1\} p_0(x^{(i)}|y)1\{y^{(i)} = 0\}$ $1\{condition\}$ 表示的是当conditon为真时，取值为1，当conditon为假时，取值为0。

现在对数之，令 $L$ 关于 $\phi_y,\Sigma,\mu_0,\mu_1$ 的各个偏导为0，记
$m_0 = \sum_{i = 1}^{m}1\{y^{(i)} = 0\}$
$m_1 = \sum_{i = 1}^{m}1\{y^{(i)} = 1\}$
即可解得：
$\phi_y = \frac{m_1}{m}$ $\mu_0 = \frac{\sum_{i = 1}^{m}x^{(i)}1\{y^{(i)} = 0\}}{m_0}$ $\mu_1 = \frac{\sum_{i = 1}^{m}x^{(i)}1\{y^{(i)} = 1\}}{m_1}$ $\Sigma = \frac{1}{m}\sum_{i = 1}^{m}(x^{(i)}-\mu^{(i)})(x^{(i)}-\mu^{(i)})^{T}$

二次型判别分析(Quadratic Discrimination Analysis，QDA)

前面我们对GDA的讨论是基于二者具有相同的协差阵假设下的，我们看见该假设下的贝叶斯决策边界是线性的。现在我们讨论协差阵不同时的GDA。即：
$\Sigma_0 ~~不等于~~ \Sigma_1$ 在这种情况下，我们同样可以利用MLE估计出各个参数，其形式同上述是一致的，只需要在各个类别中对协差阵进行估计即可。
与LDA不同的是，此时的贝叶斯决策边界不是一个超平面，而是一个超二次曲面，特别的，在二维的情况下，它是一条抛物线(LDA下为一条直线)。通过简单的代数运算，我们可以得到该超二次曲面的数学解析式，我们记：

$\Sigma_1^{-1} - \Sigma_0^{-1}$

$2(\mu_0^{T}\Sigma_0^{-1}-\mu_1^{T}\Sigma_1^{-1})$

$\mu_1^{T}\Sigma_1^{-1}\mu_1-\mu_0^{T}\Sigma_0^{-1}\mu_0+log(\frac{|\Sigma_1|}{|\Sigma_0|})-2log(\frac{\pi_0}{\pi_1})$

二次曲面 $\pi_{01}$ 为：
$x^TAx + Bx + C = 0$ 此时我们的判别等价于
$\left\{ \begin{aligned} \ \ \ \ 1, \ \ \ \ \ \ \ \ \ \ \ \ \ \ x^TAx + Bx + C > 0(落于超二次曲面上方)\\ \ \ \ \ 决策边界, \ \ \ \ \ \ \ \ \ \ \ \ \ \ x^TAx + Bx + C = 0(落于超二次曲面)\\ \ \ \ \ 0 , \ \ \ \ \ \ \ \ \ \ \ \ \ \ x^TAx + Bx + C < 0(落于超二次曲面下方) \end{aligned} \right.$

朴素贝叶斯(Naive Bayes)

NB 的数学原理和朴素贝叶斯假设

通过生成学习算法的基本思想，我们已经知道，其重点和难点在于对确定每个类别的条件分布。
我们现在讨论有k个类别，n个离散型属性的情况。这里显然不适合利用多元正态分布作为属性值的条件分布。我们先假设每个离散型属性为二元取值，即取0或1，那么给定类别y后，整个属性值的可能取值就有 $2^n$ 个，因此我们直接想到的就是利用多项分布作为属性值的条件分布，即 $y_) =\prod_{i = 1}^{2^n}\phi_{i|y}^{1\{x = x_i\}}$ 因此，我们总共需要估计 $k(2^{n}-1)$ 。显然在属性值维度稍微大的时候，参数的数量就已经让我们无法承受了。

破解这个参数数量魔咒的就是朴素贝叶斯假设(Naive Bayes (NB) assumption)。朴素贝叶斯假设，假设属性值在每一个类别中的取值是独立的，即属性值是条件独立的，数学表达为：
$p(x_i|y,x_j) = p(x_i|y)，j \in \{1,..i-1,i+1,...,k\}$ 这使得条件分布的中参数数量从指数增长变成了线性增长，此时的参数数量为 $n - 1$ 。在朴素贝叶斯假设下的分类算法称为朴素贝叶斯分类器(Naive Nayes Classifier)。
当然朴素贝叶斯假设是比较强的，有时甚至不是很合理，比如在邮件垃圾分类中，对于一封已知是垃圾邮件的邮件而言，各个词的出现概率当然不会是完全独立的，比如我们知道某个词出现了，那么显然与这个词相关联的词出现的概率会提高。但在有限的样本量的情况，我们通过牺牲这样一些关联性可以减少极大地参数的个数，因此大部分情况朴素贝叶斯假设还是可以带来不错的分类效果。

朴素贝叶斯算法的参数估计

类似地，我们利用极大似然(MLE)对参数进行估计，我们首先讨论y有两个类别，每一个离散型属性为二元取值的情况，然后可以看到，稍加推广，参数估计的结果就可以用于多个类别，属性为多元取值的情况。

我们讨论的似然函数为：
$L(\phi_y,\phi_{j|y = 1},\phi_{j|y = 0}) = \prod_{i = 1}^{m}\phi_y^{y^{(i)}}(1-\phi_y)^{1-y^{(i)}}$ 其中 $P(x^{(i)}|y = y^{(i)}) = \prod_{j = 1}^{n}\phi_{j|y = 0}^{y^{(i)}x_{j}^{(i)}}(1-\phi_{j|y = 0}^{y^{(i)}})^{1-x_{j}^{(i)}}\phi_{j|y = 1}^{y^{(i)}x_{j}^{(i)}}(1-\phi_{j|y = 1}^{y^{(i)}})^{1-x_{j}^{(i)}}$

同样，我们令 $L关于\phi_y,\phi_{j|y = 1},\phi_{j|y = 0}$ 的偏导为0，记
$m_0 = \sum_{i = 1}^{m}1\{y^{(i)} = 0\}$
$m_1 = \sum_{i = 1}^{m}1\{y^{(i)} = 1\}$
即可解得：
$\phi_y = \frac{m_1}{m}$ $\phi_{j|y = 0} = \frac{\sum_{i = 1}^{m}1\{x_{j}^{(i)} = 1 \wedge y^{(i)} = 0\}}{m_0}$ $\phi_{j|y = 1} = \frac{\sum_{i = 1}^{m}1\{x_{j}^{(i)} = 1 \wedge y^{(i)} = 1\}}{m_1}$
推广之，即在t个类别，每一个离散属性变量有k个取值时，参数的估计为：
$\phi_{yt} = \frac{m_t}{m}$ $\phi_{j|y = t} = \frac{\sum_{i = 1}^{m}1\{x_{j}^{(i)} = 1 \wedge y^{(i)} = t\}}{m_t}$

注：上述各式均具有明显的直观含义，读者可以自行解读。

拓展部分

连续与离散并存时的处理方法

当属性值取值即有离散型又有连续型时，我们可以将连续型的变量进行离散化(decretize)，从而利用朴素贝叶斯算法进行分类。离散化操作需要更具变量的具体背景进行设置。

拉普拉斯变换(Laplace smoothing)

为了处理一些异常偏僻属性值，我们在参数估计的数学解析式上进行适当的平滑处理，即：
$\phi_{j|y = t} = \frac{\sum_{i = 1}^{m}1\{x_{j}^{(i)} = 1 \wedge y^{(i)} = t\}+1}{m_t+k}$

实战项目：利用LDA进行数据分类(python)

注：本例利用LDA进行分类，在属性值为连续的数据中，LDA的预测准确率高达95%，但在一些属性值明显不是连续取值的时候，LDA的预测效果是较差的，只有73%左右，这个时候我们或许可以利用朴素贝叶斯算法进行分类。
LDA的几个基本假设为：1. 属性数据是连续取值，2. 可视为多元正态分布，3. 各个类别的条件分布形状相同。当LDA效果不好时，可以从这些角度去思考，看看哪个假设差别甚远，从而考虑更合适的分类算法。

LDA.py

import numpy as np
from numpy import dot
from numpy.linalg import inv

def LDA_Estimate(X,Y,classNum):
    '''
    本函数利用MLE对LDA方法的参数进行估计
    输入参数：
    X: 样本属性数据
    Y: 样本标签数据
    classNum: 类别数
    返回估计的参数：
    meanMatrix: 均值矩阵p*k
    covMatrix: 协方差矩阵p*p
    priorVecter: 先验概率向量
    '''
    # 构造估计参数的矩阵结构
    meanMatrix = np.zeros((classNum,X.shape[1]))
    covMatrix = np.zeros((X.shape[1],X.shape[1]))
    priorVecter = np.zeros((classNum,1))
    # 计算均值矩阵p*k ，先验概率 prior
    for i in range(classNum):
        indexVexter = (Y == i)
        meanMatrix[i] = sum(X[indexVexter])/sum(indexVexter)
        priorVecter[i] = sum(indexVexter)/X.shape[0]  
    # 计算协差阵 Sigma
    for i in range(X.shape[0]):
        covMatrix = covMatrix + dot(X[i:(i+1)].T-meanMatrix[int(Y[i]):int(Y[i]+1)].T,X[i:(i+1)]-meanMatrix[int(Y[i]):int(Y[i]+1)])
    covMatrix = covMatrix/X.shape[0]
    # 返回结果
    return meanMatrix,covMatrix,priorVecter

def LDA_result(meanMatrix,covMatrix,priorVecter,classNum,X):
    '''
    本函数利用估计完的参数进行预测
    meanMatrix: 均值矩阵p*k
    covMatrix: 协方差矩阵p*p
    priorVecter: 先验概率向量
    classNum: 判别类别
    X: 属性样本数据
    '''
    # 初始化判别函数的参数 beta0
    beta0 = np.ones((classNum,1))
    # beta0 的计算公式： log(\pi_k) -1/2 * u_k^T * sigma^{-1} * u_k 
    for i in range(classNum):
        beta0[i] = dot(meanMatrix[i:i+1],dot(inv(covMatrix),meanMatrix[i:i+1].T))
    beta0 = -0.5*beta0 + np.log(priorVecter)
    # beta1 的计算公式
    beta1 = dot(meanMatrix,inv(covMatrix))
    # 输出结果向量，result[i] 表示第i个样本的判别类别
    result = np.ones(X.shape[0])
    for i in range(X.shape[0]):
        # deltaK 为判别函数在每一个类别的值
        deltaK = dot(beta1,X[i:i+1].T) + beta0、
        # 选择deltaK 中最大的值对应的索引为其判别类别
        result[i] = deltaK.argmax()
    return result

测试代码LDAtest.py

import numpy as np
import pandas as pd
import LDA

if __name__ == '__main__':
    # samData = pd.read_table('C:/Users/Administrator/Desktop/MLCourseOfWSQ/pythonProject/mlData/Logistic/TestSet.txt',
                           # header = None)
    samData = pd.read_table('C:/Users/Administrator/Desktop/MLCourseOfWSQ/pythonProject/mlData/Logistic/HorseColicTraining.txt',
                           header = None)
    # 样本数据的结构处理
    sample = np.array(samData)
    sampleY = sample[:,sample.shape[1]-1]
    sampleX = sample[:,0:sample.shape[1]-1]
    
    # 参数估计
    meanMatrix,covMatrix,priorVecter = LDA.LDA_Estimate(sampleX,sampleY,2)
    # 结果预测
    result = LDA.LDA_result(meanMatrix,covMatrix,priorVecter,2,sampleX)
    # 结果输出
    result = np.zeros(sample.shape[0])
    result[predictY>0.5] = 1
    compareResult = (sampleY == result)
    for i in range(sample.shape[0]):
        print('Y:',sampleY[i],'    Predict Y:',result[i],'    boolCompare:',compareResult[i])
    print('right discrimination number:',sum(compareResult))
    print('right discrimination ratio :',sum(compareResult)/sample.shape[0])

机器学习笔记 - 机器学习/深度学习实战案例合集坐望云起深度学习从入门到精通机器学习深度学习人工智能案例应用神经网络
一、简述如何学习机器学习/深度学习，理论和实践都很重要，理论上的内容需要看课程、读教材。但是实践需要自己动手，实践之后自然会对理论有更深入的理解。怎么实践？借用欧阳修《卖油翁》的话”无他，但手熟尔“。就是多看多写多跑。下面创建这个github的目的是为了存放一些图像处理/计算机视觉/机器学习/深度学习的示例代码集合，不定期会添加新的示例，可供参考。GitHub-bashendixie/ml_too
AIGC视频生成模型：Meta的Emu Video模型好评笔记 #Meta AIGC-视频 AIGC 机器学习人工智能 transformer 论文阅读深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
机器学习笔记——Boosting中常用算法（GBDT、XGBoost、LightGBM）迭代路径好评笔记机器学习笔记机器学习 boosting 人工智能深度学习 AI 算法工程师
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文主要阐述Boosting中常用算法（GBDT、XGBoost、LightGBM）的迭代路径。文章目录XGBoost相对GBDT的改进引入正则化项，防止过拟合损失函数L(yi,y^i)L(y_i,\hat{y}_i)L(yi,y^i)正则化项Ω(fm)\Omega(f_m)Ω(fm)使用二阶导数信息，加速收敛一阶导数与二
李宏毅机器学习笔记——反向传播算法小陈phd 机器学习机器学习算法神经网络
反向传播算法反向传播（Backpropagation）是一种用于训练人工神经网络的算法，它通过计算损失函数相对于网络中每个参数的梯度来更新这些参数，从而最小化损失函数。反向传播是深度学习中最重要的算法之一，通常与梯度下降等优化算法结合使用。反向传播的基本原理反向传播的核心思想是利用链式法则（ChainRule）来高效地计算损失函数相对于每个参数的梯度。以下是反向传播的基本步骤：前向传播（Forwa
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
机器学习笔记 rl染离机器学习笔记人工智能
什么是机器学习：机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。机器学习有下面几种定义：（1）机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。（2）机器学习是对能通过经验自动改进的计算机算法的研究。（3）
机器学习笔记（KNN算法）空木幻城机器学习 python 机器学习算法
情景分析现在一个二维平面上有众多点(x1,y1),(x2,y2)...(xn,yn)(x_1,y_1),(x_2,y_2)...(x_n,y_n)(x1,y1),(x2,y2)...(xn,yn)，我也知道它们所属哪个类别，现在给出一个点(x,y)(x,y)(x,y)，问这个点是属于哪个类的。这是一个典型的分类问题重要概念相邻点的个数K相邻点的个数Kknn中最重要的概念就是这个了，也是唯一需要理解
【机器学习笔记】 9 集成学习 RIKI_1 机器学习机器学习笔记集成学习
集成学习方法概述Bagging从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果：假设一个班级每个人的成绩都不太好，每个人单独做的考卷分数都不高，但每个人都把自己会做的部分做了，把所有考卷综合起来得到成绩就会比一个人做的高Boosting训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化
吴恩达机器学习全课程笔记第二篇亿维数组 Machine Learning 机器学习笔记人工智能学习
目录前言P31-P33logistics（逻辑）回归决策边界P34-P36逻辑回归的代价函数梯度下降的实现P37-P41过拟合问题正则化代价函数正则化线性回归正则化logistics回归前言这是吴恩达机器学习笔记的第二篇，第一篇笔记请见：吴恩达机器学习全课程笔记第一篇完整的课程链接如下：吴恩达机器学习教程（bilibili）推荐网站：scikit-learn中文社区吴恩达机器学习学习资料（gith
【机器学习笔记】7 KNN算法 RIKI_1 机器学习机器学习笔记算法
距离度量欧氏距离(Euclideandistance)欧几里得度量（EuclideanMetric）（也称欧氏距离）是一个通常采用的距离定义，指在维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。曼哈顿距离(Manhattandistance)想象你在城市道路里，要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线
【机器学习笔记】14 关联规则 RIKI_1 机器学习机器学习笔记人工智能
关联规则概述关联规则（AssociationRules）反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物就能够通过其他事物预测到。关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买，那么在相同的交易ID下，商品B也被客户挑选的机会就被发现了。有没有发生过这样的事：你出去买东西，结果却买了比你计划的多得多的东西？这是一种被称为
【机器学习笔记】13 降维 RIKI_1 机器学习机器学习笔记人工智能
降维概述维数灾难维数灾难(CurseofDimensionality)：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。在很多机器学习问题中，训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话，不仅会让训练非常缓慢，还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库
【机器学习笔记】8 决策树 RIKI_1 机器学习机器学习笔记决策树
决策树原理决策树是从训练数据中学习得出一个树状结构的模型。决策树属于判别模型。决策树是一种树状结构，通过做出一系列决策（选择）来对数据进行划分，这类似于针对一系列问题进行选择。决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果。以下小美相亲的例子就是决策树决策树算法是一种归纳分类算法，它通过对训练集的学习，挖掘出
【机器学习笔记】 15 机器学习项目流程 RIKI_1 机器学习机器学习笔记人工智能
机器学习的一般步骤数据清洗数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。探索性数据分析(EDA探索性数据分析（EDA）是一个开放式流程，我们制作绘图并计算统计数据，以便探索我们的数据。目的是找到异常，模式，趋势或关系。这些可能是有趣的（例如，找到两个变量之间的相关性），或者它们可用
【机器学习笔记】5 机器学习实践 RIKI_1 机器学习机器学习笔记人工智能
数据集划分子集划分训练集（TrainingSet）：帮助我们训练模型，简单的说就是通过训练集的数据让我们确定拟合曲线的参数。验证集（ValidationSet）：也叫做开发集（DevSet），用来做模型选择（modelselection），即做模型的最终优化及确定的，用来辅助我们的模型的构建，即训练超参数，可选；测试集（TestSet）：为了测试已经训练好的模型的精确度。三者划分：训练集、验证集、
【机器学习笔记】11 支持向量机 RIKI_1 机器学习机器学习笔记支持向量机
支持向量机（SupportVectorMachine,SVM）支持向量机是一类按监督学习（supervisedlearning）方式对数据进行二元分类的广义线性分类器（generalizedlinearclassifier），其决策边界是对学习样本求解的最大边距超平面（maximum-marginhyperplane）。与逻辑回归和神经网络相比，支持向量机，在学习复杂的非线性方程时提供了一种更为清
【机器学习笔记】12 聚类 RIKI_1 机器学习机器学习笔记聚类
无监督学习概述监督学习在一个典型的监督学习中，训练集有标签，我们的目标是找到能够区分正样本和负样本的决策边界，需要据此拟合一个假设函数。无监督学习与此不同的是，在无监督学习中，我们的数据没有附带任何标签，无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。主要的无监督学习方法聚类（Clustering）如何将教室里的学生按爱好、身高划分为5类？降维（DimensionalityReductio
【机器学习笔记】4 朴素贝叶斯 RIKI_1 机器学习机器学习笔记人工智能
贝叶斯方法贝叶斯分类贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯分类是这一类算法中最简单的较为常见的算法。先验概率根据以往经验和分析得到的概率。我们用()来代表在没有训练数据前假设拥有的初始概率。后验概率根据已经发生的事件来分析得到的概率。以(|)代表假设成立的情下观察到数据的概率，因为它反映了在看到训练数据后成立的置信度。联合概率是指在多元的概率分
【机器学习笔记】 6 机器学习库Scikit-learn RIKI_1 机器学习机器学习笔记 scikit-learn
Scikit-learn概述Scikit-learn是基于NumPy、SciPy和Matplotlib的开源Python机器学习包,它封装了一系列数据预处理、机器学习算法、模型选择等工具,是数据分析师首选的机器学习工具包。自2007年发布以来，scikit-learn已经成为Python重要的机器学习库了，scikit-learn简称sklearn，支持包括分类，回归，降维和聚类四大机器学习算法。
【机器学习笔记】10 人工神经网络 RIKI_1 机器学习机器学习笔记人工智能
人工神经网络发展史1943年，心理学家McCulloch和逻辑学家Pitts建立神经网络的数学模型，MP模型每个神经元都可以抽象为一个圆圈，每个圆圈都附带特定的函数称之为激活函数，每两个神经元之间的连接的大小的加权值即为权重。1960年代，人工网络得到了进一步地发展感知机和自适应线性元件等被提出。M.Minsky仔细分析了以感知机为代表的神经网络的局限性，指出了感知机不能解决非线性问题，这极大影响
【机器学习笔记】3 逻辑回归 RIKI_1 机器学习机器学习笔记逻辑回归
分类问题分类问题监督学习最主要的类型，主要特征是标签离散，逻辑回归是解决分类问题的常见算法，输入变量可以是离散的也可以是连续的二分类先从用蓝色圆形数据定义为类型1，其余数据为类型2；只需要分类1次，步骤：①->②多分类问题先定义其中一类为类型1（正类），其余数据为负类（rest）；接下来去掉类型1数据，剩余部分再次进行二分类，分成类型2和负类；如果有类，那就需要分类-1次,步骤：①->②->③->
【百面机器学习笔记】模型评估葡萄肉多
模型评估指标准确率（Accuracy）准确率是指分类正确的样本占总样本个数的比例。Accuracy=n(correct)/n(total)当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率。所以，当不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的最主要因素。精确率（Precision）&召回率（Recall）精确率是指分类正确的正样本个数占分类器判定为正样本
李宏毅机器学习笔记 2.回归 Simone Zeng 机器学习机器学习
最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。课程视频：https://www.bilibili.com/video/BV1Ht411g7Ef开源内容：https://github.com/datawhalechina/leeml-notes本篇文章对应视频中的P3。另外，最近我也在学习邱锡鹏教授的《神经网络与深度学习》，会补充书上的一点内容。通过上一次课1.机器
【机器学习笔记】基于实例的学习住在天上的云机器学习机器学习笔记学习 KNN 实例学习
基于实例的学习文章目录基于实例的学习1基本概念与最近邻方法2K-近邻（KNN）3距离加权KNN4基于实例/记忆的学习器5局部加权回归5多种回归方式对比6懒惰学习与贪婪学习动机：人们通过记忆和行动来推理学习。1基本概念与最近邻方法名词概念参数化设定一个特定的函数形式优点：简单，容易估计和解释可能存在很大的偏置：实际的数据分布可能不遵循假设的分布非参数化：分布或密度的估计是数据驱动的（data-dri
fast.ai 机器学习笔记（一）绝不原创的飞龙人工智能人工智能 python
机器学习1：第1课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-1-84a1dc2b5236译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。简要课程大纲根据时间和班级兴趣，我们将涵盖类似以下内容
fast.ai 机器学习笔记（四）绝不原创的飞龙人工智能人工智能 python
机器学习1：第11课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-11-7564c3c18bbb译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。使用SGD优化多层函数的回顾[0:00]这个想法是
机器学习笔记（3）：误差、复杂度曲线、学习曲线等链原力
本文来自之前在Udacity上自学机器学习的系列笔记。这是第3篇，介绍了模型的误差类型、误差的由来、找到模型适合的参数、以及避免欠拟合和过拟合的方法。1.诊断误差1.1.误差类型我们的预测或者分类的结果与实际结果相比较，会存在一定的误差，误差越小，表示结果越好。一般有两种误差来源，欠拟合和过拟合。将问题看得过于简单导致了欠拟合（Underfitting），将问题看得过于复杂导致了过拟合（Overf
fast.ai 机器学习笔记（三）绝不原创的飞龙人工智能人工智能 python
机器学习1：第8课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-8-fa1a87064a53译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。广义定义的神经网络视频/笔记本正如我们在上一课结束时讨
fast.ai 机器学习笔记（二）绝不原创的飞龙人工智能人工智能 python
机器学习1：第5课原文：medium.com/@hiromi_suenaga/machine-learning-1-lesson-5-df45f0c99618译者：飞龙协议：CCBY-NC-SA4.0来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。视频复习测试集，训练集，验证集和OOB我们有一个数据集
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交