不论如何未来很美好

机器学习实战——SVD（奇异值分解）

与PCA一样的学习过程，在学习SVD时同样补习了很多的基础知识，现在已经大致知道了PCA的应用原理，SVD个人感觉相对要难一点，但主要步骤还是能勉强理解，所以这里将书本上的知识和个人的理解做一个记录。主要关于（SVD原理、降维公式、重构原矩阵、SVD的两个实际应用），当然矩阵的分解和相对的公式我会给出写的更好的文章对于说明（个人基础有限）。

（最后给出两条SVD最重要的公式）

SVD（奇异值分解）：

优点：简化数据，去除噪声点，提高算法的结果；
缺点：数据的转换可能难以理解；
适用于数据类型：数值型。

通过SVD对数据的处理，我们可以使用小得多的数据集来表示原始数据集，这样做实际上是去除了噪声和冗余信息，以此达到了优化数据、提高结果的目的。

隐形语义索引：最早的SVD应用之一就是信息检索，我们称利用SVD的方法为隐性语义检索（LSI）或隐形语义分析（LSA）

推荐系统：SVD的另一个应用就是推荐系统，较为先进的推荐系统先利用SVD从数据中构建一个主题空间，然后再在该空间下计算相似度，以此提高推荐的效果。

SVD与PCA不同，PCA是对数据的协方差矩阵进行矩阵的分解，而SVD是直接在原始矩阵上进行的矩阵分解。并且能对非方阵矩阵分解，得到左奇异矩阵U、sigma矩阵Σ、右奇异矩阵VT。

奇异性分解可以将一个矩阵 $Data_{m\times n}$ 分解成3个矩阵 $U_{m\times m}$ 、 $\Sigma_{m\times n}$ 、 $V_{n\times n}^{T}$ ，其中U、VT都是单式矩阵（unitary matrix），Σ是一个对角矩阵，也就是说只有对角线有值。对角元素称为奇异值，它们对应了原始矩阵Data的奇异值，如下：

[[2 0 0]
[0 3 0]
[0 0 4]
[0 0 0]]

一般奇异值我们只选择某一部分，选择的规则很多种，主要的一种为：

选择奇异值中占总奇异值总值90%的那些奇异值。（下面有演示如何选择）

SVD分解公式如下（类似于因式分解）：

$Data_{m\times n}$ = $U_{m\times m}$ $\Sigma_{m\times n}$ $V_{n\times n}^{T}$

图形化表示奇异值分解：

在PCA中我们根据协方差矩阵得到特征值，它们告诉我们数据集中的重要特征，Σ中的奇异值亦是如此。奇异值和特征值是有关系的，这里的奇异值就是矩阵 $Data * Data^{T}$ 特征值的平方根。

SCV实现的相关线性代数，但我们无需担心SVD的实现，在Numpy中有一个称为线性代数linalg的线性代数工具箱能帮助我们。下面演示其用法对于一个简单的矩阵：

[[1 1]
[1 7]]

from numpy import *
from numpy import linalg as la

df = mat(array([[1,1],[1,7]]))
U,Sigma,VT = la.svd(df)
print(U)
# [[ 0.16018224  0.98708746]
#  [ 0.98708746 -0.16018224]]
print(Sigma)
# [7.16227766 0.83772234]
print(VT)
# [[ 0.16018224  0.98708746]
#  [ 0.98708746 -0.16018224]]

通过简单的使用该工具就能得到运算的结果，所以我们着重应该理解的应该是这些结果的含义以及后续对它们的使用，下面通过推荐系统这个示例来进行实际的操作（数据集降维、重构数据集）。

基于协同过滤的搜索引擎：

我之前在集体编程智慧中学习了该算法，大致有两种方法来实现：

基于用户的协作型过滤
基于物品的协作型过滤

两种方法大致相同，但是在不同的环境下，使用最佳的方法能最大化的提升算法的效果。如下图（后面的示例数据）所示，对两样商品直接的距离进行计算，这称为基于物品的相似度。而对行与行（用户之间）进行距离的计算，这称为基于用户的相似度。到底该选用那种方法呢？这取决与用户或物品的数量，基于物品相似度的计算时间会随着物品数量的增加而增加。基于用户相似度则取决于用户数量，例如：一个最大的商店拥有大概100000种商品，而它的用户可能有500000人，这时选择基于物品相似度可能效果好很多。

用上面的数据解释了如何选择基于协同过滤，下面使用基于物品相似度的方法来构建推荐系统（先直接使用原始矩阵来构建，然后再将处理函数换为SVD的处理函数，以便作比较）。

（说明：数据间的距离计算采用余玄相似、欧式距离、皮尔逊相关度其中任一种，这里不再解释，提供链接自行学习）

代码：

from numpy import *
from numpy import linalg as la

# （用户x商品）    # 为0表示该用户未评价此商品，即可以作为推荐商品
def loadExData():
    return [[0, 0, 0, 2, 2],
            [0, 0, 0, 3, 3],
            [0, 0, 0, 1, 1],
            [1, 1, 1, 0, 0],
            [2, 2, 2, 0, 0],
            [5, 0, 5, 0, 0],
            [1, 1, 1, 0, 0]]

# !!!假定导入数据都为列向量，若行向量则需要对代码简单修改

# 欧几里德距离 这里返回结果已处理 0，1   0最大相似，1最小相似   欧氏距离转换为2范数计算
def ecludSim(inA,inB):
    return 1.0 / (1.0 + la.norm(inA-inB))

# 皮尔逊相关系数 numpy的corrcoef函数计算
def pearsSim(inA,inB):
    if(len(inA) < 3):
        return 1.0
    return 0.5 + 0.5*corrcoef(inA,inB,rowvar=0)[0][1]   # 使用0.5+0.5*x 将-1，1 转为 0，1

# 余玄相似度 根据公式带入即可，其中分母为2范数计算，linalg的norm可计算范数
def cosSim(inA,inB):
    num = float(inA.T * inB)
    denom = la.norm(inA) * la.norm(inB)
    return 0.5 + 0.5*(num/denom)    # 同样操作转换 0，1


# 对物品评分  (数据集 用户行号 计算误差函数 推荐商品列号)
def standEst(dataMat, user, simMeas, item):
    n = shape(dataMat)[1]   # 获得特征列数
    simTotal = 0.0; ratSimTotal = 0.0   # 两个计算估计评分值变量初始化
    for j in range(n):
        userRating = dataMat[user,j]    #获得此人对该物品的评分
        if userRating == 0: # 若此人未评价过该商品则不做下面处理
            continue
        overLap = nonzero(logical_and(dataMat[:,item].A>0,dataMat[:,j].A>0))[0]   # 获得相比较的两列同时都不为0的数据行号
        if len(overLap) == 0:
            similarity = 0
        else:
            # 求两列的相似度
            similarity = simMeas(dataMat[overLap,item],dataMat[overLap,j])  # 利用上面求得的两列同时不为0的行的列向量 计算距离
        # print('%d 和 %d 的相似度是: %f' % (item, j, similarity))
        simTotal += similarity  # 计算总的相似度
        ratSimTotal += similarity * userRating  # 不仅仅使用相似度，而是将评分当权值*相似度 = 贡献度
    if simTotal == 0:   # 若该推荐物品与所有列都未比较则评分为0
        return 0
    else:
        return ratSimTotal/simTotal # 归一化评分 使其处于0-5（评级）之间

# 给出推荐商品评分
def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst):
    unratedItems = nonzero(dataMat[user,:].A==0)[1]  # 找到该行所有为0的位置（即此用户未评价的商品，才做推荐）
    if len(unratedItems) == 0:
        return '所有物品都已评价...'
    itemScores = []
    for item in unratedItems:   # 循环所有没有评价的商品列下标
        estimatedScore = estMethod(dataMat, user, simMeas, item)    # 计算当前产品的评分
        itemScores.append((item, estimatedScore))
    return sorted(itemScores, key=lambda jj: jj[1], reverse=True)[:N]   # 将推荐商品排序

# 结果测试如下：
myMat = mat(loadExData())
myMat[0,1] = myMat[0,0] = myMat[1,0] = myMat[2,0] = 4   # 将数据某些值替换，增加效果
myMat[3,3] = 2
result1 = recommend(myMat,2)        # 余玄相似度
print(result1)
result2 = recommend(myMat,2,simMeas=ecludSim)   # 欧氏距离
print(result2)
result3 = recommend(myMat,2,simMeas=pearsSim)   # 皮尔逊相关度
print(result3)

上面代码种用了三种计算距离的函数，经过测试后使用其中一种便可以了。然后对于物品评分函数中的nonzero(logical_and)不是很明白的请看这篇专门讲解的文章。以上为普通的处理方式，下面使用SVD来做基于物品协同过滤。

SVD方法，用下面函数（svdEst）来替换上面的物品评价函数（standEst）即可，并且这里使用更复杂的数据集：

# （用户x商品）    # 为0表示该用户未评价此商品，即可以作为推荐商品
def loadExData2():
    return [[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],
            [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],
            [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],
            [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],
            [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],
            [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],
            [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],
            [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],
            [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],
            [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],
            [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]

# 替代上面的standEst(功能) 该函数用SVD降维后的矩阵来计算评分
def svdEst(dataMat, user, simMeas, item):
    n = shape(dataMat)[1]
    simTotal = 0.0; ratSimTotal = 0.0
    U,Sigma,VT = la.svd(dataMat)
    Sig4 = mat(eye(4)*Sigma[:4])  #将奇异值向量转换为奇异值矩阵
    xformedItems = dataMat.T * U[:,:4] * Sig4.I  # 降维方法 通过U矩阵将物品转换到低维空间中 （商品数行x选用奇异值列）
    for j in range(n):
        userRating = dataMat[user,j]
        if userRating == 0 or j == item:
            continue
        # 这里需要说明：由于降维后的矩阵与原矩阵代表数据不同（行由用户变为了商品），所以在比较两件商品时应当取【该行所有列】 再转置为列向量传参
        similarity = simMeas(xformedItems[item,:].T,xformedItems[j,:].T)
        # print('%d 和 %d 的相似度是: %f' % (item, j, similarity))
        simTotal += similarity
        ratSimTotal += similarity * userRating
    if simTotal == 0:
        return 0
    else:
        return ratSimTotal/simTotal

# 结果测试如下：
myMat = mat(loadExData2())
result1 = recommend(myMat,1,estMethod=svdEst)   # 需要传参改变默认函数
print(result1)
result2 = recommend(myMat,1,estMethod=svdEst,simMeas=pearsSim)
print(result2)

上面的之所以使用4这个数字，是因为通过预先计算得到能满足90%的奇异值能量的前N个奇异值。判断计算如下：

# 选出奇异值能量大于90%的所有奇异值
myMat = mat(loadExData2())
U,sigma,VT = linalg.svd(myMat)
sigma = sigma**2    # 对奇异值求平方
cnt = sum(sigma)    # 所有奇异值的和
print(cnt)
value = cnt*0.9     # 90%奇异值能量
print(value)
cnt2 = sum(sigma[:3])   # 2小于90%，前3个则大于90%，所以这里选择前三个奇异值
print(cnt2)

# 541.9999999999995
# 487.7999999999996
# 500.5002891275793

在函数svdEst中使用SVD方法，将数据集映射到低纬度的空间中，再做运算。其中的xformedItems = dataMat.T*U[:,:4]*Sig4.I可能不是很好理解，它就是SVD的降维步骤，通过U矩阵和Sig4逆矩阵将商品转换到低维空间（得到商品行，选用奇异值列）。

以上是SVD的一个示例，但是对此有几个问题：

我们不必在每次评分是都做SVD分解，大规模数据上可能降低效率，可以在程序调用时运行一次，在大型系统中每天运行一次或频率不高，还要离线运行；
矩阵中有很多0，实际系统中0更多，可以通过只存储非0元素来节省空间和计算开销；
计算资源浪费来自于相似度的计算，每次一个推荐时都需要计算多个物品评分（即相似度），在需要时此记录可以被用户重复使用。实际中，一个普遍的做法是离线计算并保存相似度得分，这一点在之前学习集体编程智慧中有说明。

基于SVD的图像压缩：

这里不采用书中的例子来讲解，因为无趣所以这里换作我们的男神来做一个简单的SVD图片压缩作为一个示例：

首先放上男神图片：

基于SVD图片压缩原理其实很简单，图片其实就是数字矩阵，通过SVD将该矩阵降维，只使用其中的重要特征来表示该图片从而达到了压缩的目的。

直接上代码：

# 男神老吴SVD处理

from skimage import io
import matplotlib.pyplot as plt

path = 'male_god.jpg'
data = io.imread(path)
data = mat(data)        # 需要mat处理后才能在降维中使用矩阵的相乘
U,sigma,VT = linalg.svd(data)
# 在重构之前，依据前面的方法需要选择达到某个能量度的奇异值
cnt = sum(sigma)
print(cnt)
cnt90 = 0.9*cnt    # 达到90%时的奇异总值
print(cnt90)
count = 50        # 选择前50个奇异值
cntN = sum(sigma[:count])
print(cntN)

# 重构矩阵
dig = mat(eye(count)*sigma[:count]) # 获得对角矩阵
# dim = data.T * U[:,:count] * dig.I # 降维 格外变量这里没有用
redata = U[:,:count] * dig * VT[:count,:]   # 重构

plt.imshow(redata,cmap='gray')  # 取灰
plt.show()  # 可以使用save函数来保存图片

原图片为870x870，保存像素点值为870x870 = 756900，使用SVD，取前50个奇异值则变为：

存储量大大减小，仅50个奇异值就已经能很好的反应原数据了。

值得一提的是，奇异值从大到小衰减得特别快，在很多情况下，前 10% 甚至 1% 的奇异值的和就占了全部的奇异值之和的 99% 以上了。这对于数据压缩来说是个好事。下面这张图展示了本例中奇异值和奇异值累加的分布（参考博客下面附上链接）：

SVD两个个人觉得最重要的计算步骤这里说一下：

数据集降维：这里的sigma为对角矩阵（需要利用原来svd返回的sigma向量构建矩阵，构建需要使用count这个值）。U为svd返回的左奇异矩阵，count为我们指定的多少个奇异值，这也是sigma矩阵的维数。
重构数据集：这里的sigma同样为对角矩阵（需要利用原来svd返回的sigma向量构建矩阵，构建需要使用count这个值），VT为svd返回的右奇异矩阵，count为我们指定的多少个奇异值（可以按能量90%规则选取）。

以上为两个个人觉得最重要的公式，如果有不明白的可以参考上面的代码，有使用到这两个公式。（虽然不负责任，但还是说一下：如果你不能立刻理解SVD的原理，可以先记下这两个公式来使用，后面有时间了在来深入了解哈哈）

参考书籍：《机器学习实战》

参考文章：http://redstonewill.com/1529/ 写的很不错

机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
机器学习实战----波士顿房价预测模型永远偷渡不了的非洲人机器学习机器学习 sklearn python
波士顿房价模型预测是一个回归问题，可以采用r2_score方法来作为评价指标。importnumpyasnpimportpandasaspdfromsklearn.metricsimportr2_score#从sklearn的数据库中导入波士顿房产数据fromsklearn.datasetsimportload_bostonfromsklearn.model_selectionimporttrai
python logistic模型_Python实践之逻辑回归（Logistic Regression） weixin_39922394 python logistic模型
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归(LogisticRegression)，也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学习算法一般是这样一个
(二十一)Seaborn知识学习8-python数据分析与机器学习实战(学习笔记) 努力奋斗的durian
文章原创,最近更新：2018-05-17课程来源:python数据分析与机器学习实战-唐宇迪引言:介绍seaborn热度图绘制学习参考链接:1、Seaborn官方0.8.1版本首先介绍以下热度图的作用,拿出离散群数据,离散群数据可能会发生波动变化.看一下哪个点的值比较高,看一下哪个点的值比较低?通过值的变化,用颜色表现出来,这个是我们要做的一件事.热度图是由不同的颜色构成的,这个颜色由可能是由浅入
机器学习实战2--蒙特卡洛方法与Q-Q图(2022/10/12) 点灯的棉羊机器学习Jupyter笔记机器学习人工智能 numpy python
蒙特卡洛方法与Q-Q图文章目录蒙特卡洛方法与Q-Q图蒙特卡洛方法蒙特卡洛的定义和基本步骤一些常用的概率论相关函数使用蒙特卡洛验证大数定理Q-Q图Q-Q图的定义及用途importnumpyasnpfromnumpy.linalgimportinv,eigimportmatplotlib.pyplotaspltimportpandasaspdfromscipy.statsimportnorm蒙特卡洛方
机器学习实战1-基础运用（2022/10/11）点灯的棉羊机器学习Jupyter笔记机器学习 python numpy
机器学习实战1-基础运用文章目录机器学习实战1-基础运用numpy的简单运用生成矩阵和矩阵的简单操作用pandas库读取、保存csv数据文件read_csv()函数及读入的数据处理to_csv()保存数据matplotlib.pyplot库绘图的使用条形图的绘制箱型图的绘制分位数（Quantile）分位点/四分位数分位数与箱型图`boxplot()`函数绘制交叉报表热力图plt绘图基础import
机器学习实战Jupyter笔记专栏汇总点灯的棉羊机器学习Jupyter笔记机器学习 jupyter 人工智能
机器学习实战Jupter笔记开始博客学校开始的一门机器学习的课程，于是使用jupyter写这门课的作业，顺便将其完善为笔记发表为这个专栏的博客，并将专栏博客链接汇总到这里。由于是刚开始学习机器学习方面的内容，如有错误的地方，希望能有大佬能帮忙指正。笔记1机器学习实战1-基础运用种一棵树最好的时间–是十年前，其次是现在
Python环境下基于深度判别迁移学习网络的轴承故障诊断哥廷根数学学派故障诊断信号处理深度学习 python 迁移学习开发语言
目前很多机器学习和数据挖掘算法都是基于训练数据和测试数据位于同一特征空间、拥有相同数据分布的假设。然而在现实应用中，该假设却未必存在。一方面，如果将利用某一领域数据训练得到的模型直接应用于新的目标领域，领域之间切实存在的数据差异可能会导致模型效果的骤然下降。另一方面，如果直接在新的目标领域中进行模型的训练，其数据的稀缺和标注的不完整可能会导致监督学习出现严重的过拟合问题，难以达到令人满意的学习效果
朴素贝叶斯算法 YuanDaima2048 机器学习算法学习算法机器学习人工智能深度学习 python sklearn
朴素贝叶斯算法一、基本概念二、算法及代码应用朴素贝叶斯NB算法分类算法区别其他机器学习算法：机器学习实战工具安装和使用一、基本概念朴素贝叶斯（NB）是一种基于贝叶斯定理与特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤等领域。朴素贝叶斯算法简单易懂，其核心思想是假设在给定目标值时，各个属性之间相互独立。在实际应用中，朴素贝叶斯算法在垃圾邮件过滤中表现出色。它不仅准确率高，而且速度快
【机器学习实战】大数据与MapReduce 吵吵人
当运算需求超出了当前资源的运算能力，一、可以考虑购买更好的机器；二、可以将计算转换成并行作业，MapReduce就提供了这种方案的一个具体实施框架。MapReduce：分布式计算的框架MapReduce是一个软件框架，可以将单个计算工作分配给多台计算机执行。工作流程包括map和reduce阶段。第一阶段，输入数据被切片分发到节点上，各个节点对本地数据进行处理对应的运算代码叫做mapper。第二阶段
[培训-Python机器学习]04-Git的使用和规范乱码奇糟软件开发 git
参考书Python机器学习实战作者裔隽张怿檬张目清出版社科学技术文献出版社难度入门安排计划：本章30分钟；作业：上网查阅Linus开发Git的背景；分析所在的开发团队所用的协作开发流程是什么？总结出Git使用和Git流程中遇到过的3个问题，发给大家讨论。非常有意思：2005年，由Linux的创始人LinusTorvalds开发；临危赴命，用时2周。分布式、本地管理、分支管理、提交机制Github、
[培训-Python机器学习]02-使用conda管理环境和包乱码奇糟软件开发 python conda
参考书Python机器学习实战作者裔隽张怿檬张目清出版社科学技术文献出版社难度入门安排计划：本章30分钟；作业：培训后实践本章的各种操作；结果：以Python3.10创建开发虚拟环境；再创建一个Python3.7版本以下的虚拟环境用来调试兼容性以前培训过venv，本次培训来说一说conda。conda其实可理解为：venv+pip，它的主要功能包括：环境管理：创建多个隔离的Python运行环境，每
机器学习（machine learning）大合集 AI信仰者
1、线性分类器怎么理解呢？我们可以把此分类器理解为线性空间的划分，最简单的，在二维空间上，通过直线的划分。第二个理解可以理解为模板匹配，W的每一行可以看做是其中一个类别的模板。每类得分，实际上是像素点和模板匹配度。模板匹配的方式是内积计算。2、机器学习实战之AdaBoost算法boosting算法系列的基本思想，如下图：adaBoost分类器就是一种元算法分类器，adaBoost分类器利用同一种基
机器学习实战朴素贝叶斯分类器 shenny_
基于概率论的分类方法：朴素贝叶斯我的微信公众号：s406205391;欢迎大家一起学习，一起进步！！！k-近邻算法和决策树会给出“该数据属于哪一类”的明确回答。不过，分类器有时会产生错误结果，这是可以要求分类器给出一个最优的类别的猜测结果，同事给出这个猜测的概率估计值。朴素贝叶斯就是一个概率分类器。我们称之为“朴素”，是因为整个形式化的过程只做最原始、最简单的假设。朴素贝叶斯的优点：在数据较少的情
《机器学习实战》笔记（十三）：Ch13 - 利用PCA来简化数据 Lornatang
第13章利用PCA来简化数据(代码)降维技术降维的意思是能够用一组个数为d的向量zi来代表个数为D的向量xi所包含的有用信息，其中d
Hadoop 大数据技术原理与应用 kk8_ hadoop 大数据 hdfs
Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库（Hive
Python实现时间序列分析马尔可夫切换自回归模型(MarkovAutoregression算法)项目实战胖哥真不错机器学习 python python 机器学习时间序列分析马尔可夫切换自回归模型项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中的马尔可夫切换自回归模型（MarkovSwitchingAutoregressionModel，简称MSAR或MarkovAutoregression算法）是一种混合了自回归模型（AutoregressiveModel,AR）和马尔可夫链（MarkovC
Python实现时间序列分析马尔可夫切换动态回归模型(MarkovRegression算法)项目实战胖哥真不错机器学习 python python 机器学习时间序列分析马尔可夫切换动态回归模型项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中的马尔可夫切换动态回归模型（MarkovSwitchingDynamicRegressionModel，MSDRM或简称为MarkovRegression算法）是一种用于处理具有非平稳性和隐藏状态依赖性的时序数据的方法。在该模型中，数据生成过程被认为是在
Python实现时间序列分析季节性自回归综合移动平均外生回归模型(SARIMAX算法)项目实战胖哥真不错机器学习 python python 时间序列分析季节性自回归综合移动平均外生回归模型 SARIMAX 项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中的季节性自回归综合移动平均外生回归模型（SeasonalAutoregressiveIntegratedMovingAveragewitheXogenousregressors,SARIMAX）是一种统计建模技术，用于分析和预测具有季节性、趋势以及可能受
Python实现时间序列分析AR定阶自回归模型(ar_select_order算法)项目实战胖哥真不错机器学习 python python 机器学习时间序列分析AR定阶自回归模型 ar_select_order 项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中，AR定阶自回归模型（ARorderselection）是指确定自回归模型（AutoRegressiveModel,AR模型）的阶数p的过程。在AR(p)模型中，当前的时间序列值被表示为过去p个时期的线性组合加上一个误差项。ar_select_order
python机器学习实战|机器学习入门笔记3-Pandas基础知识小赵同学871 机器学习实战入门笔记 python 机器学习 pandas
文章目录1.Pandas介绍2.案例知识点2.1创建DataFrame2.2创建日期3.DataFrame介绍3.1DataFrame属性3.2DataFrame设置索引3.3基本数据操作3.4DataFrame运算1.Pandas介绍开源的数据挖掘库，用于数据探索，封装了matplotlib，numpy2.案例知识点2.1创建DataFramepd.DataFrame(ndarray,index
Python实现离散选择概率模型(Probit算法)项目实战胖哥真不错机器学习 python python 离散选择概率模型 Probit算法机器学习项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景Probit模型是经过Logit模型的形式经过变形后得到的，Probit模型假设与标准正态分布的概率分布函数相似。本项目通过Probit算法来构建概率模型。2.数据获取本次建模数据来源于网络(本项目撰写人整理而成)，数据项统计如下：编号变量名称描述1x12x23x34
机器学习实战 K-近邻算法今昔何夕丶
K-近邻算法优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂高、空间复杂度高适用数据范围：数值型和标称型一般流程收集数据：可以使用任何方法准备数据：距离计算所需要的数值，最好是结构化的数据结构分析数据：可以使用任何方法训练算法：此步骤不适用于K-近邻算法测试算法：计算错误率使用算法：首先需要输入样本数据和结构化的输出结果，然后运行K-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出
Python实现稳健线性回归模型(rlm算法)项目实战胖哥真不错机器学习 python python 机器学习稳健线性回归模型 rlm算法项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景稳健回归可以用在任何使用最小二乘回归的情况下。在拟合最小二乘回归时，我们可能会发现一些异常值或高杠杆数据点。已经确定这些数据点不是数据输入错误，也不是来自另一个群落。所以我们没有令人信服的理由将它们排除在分析之外。稳健回归可能是一种好的策略，它是在将这些点完全从分析中
机器学习实战学习记录（github） monkeyhlj 学习
机器学习实战学习记录（github）可见我的github：https://github.com/monkeyhlj/machine_learning_bymyself刚刚建好，后面的学习记录会一直在这个仓库里面更新。推荐参考资料：https://www.zhihu.com/column/c_1242508311053963264
【机器学习实战】决策树吵吵人
算法思路在构造决策树时，第一个需要解决的问题就是，如何确定出哪个特征在划分数据分类是起决定性作用，或者说使用哪个特征分类能实现最好的分类效果。这样，为了找到决定性的特征，划分得到最好的结果，我们就需要评估每个特征。当找到最优特征后，依此特征，数据集就被划分为几个数据子集，这些数据自己会分布在该决策点的所有分支中。此时，如果某个分支下的数据属于同一类型，则该分支下的数据分类已经完成，无需进行下一步的
一文梳理金融风控建模全流程(Python) 风控小兵突击智能风控 python 数据分析算法机器学习数据挖掘概率论
▍目录一、简介风控信用评分卡简介Scorecardpy库简介二、目标定义与数据准备目标定义数据准备三、安装scorecardpy包四、数据检查五、数据筛选六、数据划分七、变量分箱卡方分箱手动调整分箱八、建立模型相关性分析多重共线性检验VIFKS和AUC评分映射PSI稳定性指标九、关键指标说明WOE值IV值逻辑回归KS值PSI▍风控信用评分卡简介通过运用数据挖掘算法，信贷风控系统可以像个"预言家"一
Python实现基于多元线性回归模型进行统计学相互作用和方差分析(anova算法)项目实战胖哥真不错机器学习 python 线性回归人工智能机器学习 python 相互作用方差分析 anova算法
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景多元线性回归模型（MultipleLinearRegressionModel）是一种统计学方法，用于研究一个或多个自变量（predictors）与因变量（dependentvariable）之间的关系。在模型中，因变量的值通过一个线性函数来预测，该函数包含了自变量的系
Python实现基于广义线性回归模型进行Meta分析(meta_analysis算法)项目实战胖哥真不错机器学习 python 线性回归 python 机器学习广义线性回归模型 Meta分析 meta_analysis算法项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景对于广义线性回归模型在Meta分析中的应用概念，可能是将其用于处理非正态分布或非线性关系的数据，例如：1.当原始研究的结果数据不是连续型且服从正态分布，而是二项分布（如成功率）、泊松分布（如发病率）或其他分布时，可以通过GLM设定适当的链接函数和分布族来适应。2.在进
Python实现GEE嵌套协方差结构仿真模型(GEE算法)项目实战胖哥真不错机器学习 python python 机器学习 GEE嵌套协方差结构仿真模型 GEE算法项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景广义估计方程（GeneralizedEstimatingEquations,GEE）是一种用于分析具有重复测量或者集群数据的统计方法。在社会学、医学、生物学等多个领域，研究对象的数据往往存在嵌套或群聚结构，即个体的数据不是独立的，而是隶属于某个群体或层级结构中。GEE
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

机器学习实战——SVD（奇异值分解）

SVD（奇异值分解）：

基于协同过滤的搜索引擎：

基于SVD的图像压缩：

你可能感兴趣的:(数据挖掘算法,机器学习实战)