报告，今天也有好好学习

统计学习方法第二版李航

前言

《统计学习方法》和《机器学习》这两本书，大概是做科研的小伙伴都避不开的必读书吧。笔者在很久前就已经学过该书了，但是因为先前学完没有做一个详细的整理总结。然后最近实验室招新，需要带一带小朋友学习这本书，故重温该书且在此整理记录，望对大家有所帮助！

第一章统计学习及监督学习概论

这一章主要都是些概念，所以我可能更多的内容是会直接照搬原文的内容。

统计学习或机器学习一般包括监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。

监督学习与无监督学习可以简单理解为训练时有无label，训练数据x对应有一个label那就是监督学习，无则是无监督学习。

监督学习

监督学习分为学习和预测两个过程，由学习系统与预测系统完成。在学习过程中，学习系统利用给定的训练数据集，通过学习(或训练)得到一个模型，表示为条件概率分布 P(YIX) 或决策函数 = f(X) 。条件概率分布 P(YIX) 或决策函数 f(X)描述输入与输出随机变量之间的映射关系。在预测过程中，预测系统对于给定的测试样本集中的输入XN+l’ 由模型
给出相应的输出 YN+l。

学习系统(也就是学习算法)试图通过训练数据集中的样本 (Xi Yi) 带来的信息学习模型。具体地说，对输入叭，一个具体的模型 f(x) 可以产生个输出 f(Xi)'而训练数据集中对应的输出是仇。如果这个模型有很好的预测能力，训练样本输出 Yi和模型输出 f(Xi) 之间的差就应该足够小。学习系统通过不断地尝试，选取最好的模型，以便对训练数据集有足够好的预测，同时对未知的测试数据集的预测也有尽可能好的推广。

无监督学习

无监督学习可以用于对己有数据的分析，也可以用于对未来数据的预测。分析时使用学习得到的模型，即函数 = g(x) 条件概率分布户(z x) 或者条件概率分布 P(xlz) 。预测时，和监督学习有类似的流程由学习系统与预测系统完成，如图1. 3所示。在学习过程中，学习系统从训练数据集学习，得到→个最优模型，表示为函数 Z=g(x) 条件概率分布户(zlx) 或者条件概率分布户(xlz) 。在预测过程中，预测系统对于给定的输入 XN+l
给出相应的输出 ZN+l’进行聚类或降维，或者由模型户(xlz) 给出输入的概率P(xN+1 | ZN+1) 进行概率估计。

强化学习

智能系统与环境的互动如图1. 所示。在每智能系统从环境中观测到状态（state) St 个奖励 (reward) ru 采取 1个动作 (action) 句。环境根据智能系统选择的动作，决定下 t+l 的状态 t+1 与奖励 rt+l 要学习的策略表示为给定的状态下采取的动作。智能系统的目标不是短期奖励的最大化，而是长期累积奖励的最大化强化学习过程中，系统不断地试错 (trial and error) ，以达到学习最优策略的目的。

感觉自己强化学习这一块估计会很少接触，所以看得时候也只是看个大概。

按模型分类

上面是统计学习的基本分类，按模型分类的话，可以分成概率模型和非概率模型，线性模型和非线性模型，以及参数模型和非参数模型。

按算法分类

按算法分类的话，可以分为在线学习 (online learning) 与批量学习 (batch learning) 。

在线学习是指每次接受个样本，进行预测，之后学习模型，并不断重复该操作的机器学习。与之对应，批量学习次接受所有数据，学习模型，之后进行预测。

在线学习通常比批量学习更难，很难学到预测准确率更高的模型，因为每次模型更新中，可利用的数据有限。

按技巧分类

1.贝叶斯学习

贝叶斯学习 CBayesian learning) ，又称为贝叶斯推理 CBayesian inference) ，是统计学、机器学习中重要的方法。其主要想法是，在概率模型的学习和推理中，利用贝叶斯定理，计算在给定数据条件下模型的条件概率，即后验概率，并应用这个原理进行模型的估计，以及对数据的预测。将模型、未观测要素及其参数用变量表示，使用模型的先验分布是贝叶斯学习的特点。贝叶斯学习中也使用基本概率公式(图1.4)。朴素贝叶斯、潜在狄利克雷分配的学习属于贝叶斯学习。

贝叶斯估计与极大似然估计在思想上有很大的不同，代表着统计学中频率学派和贝叶斯学派对统计的不同认识。其实，可以简单地把两者联系起来，假设先验分布是均匀分布，取后验概率最大，就能从贝叶斯估计得到极大似然估计。

2. 核方法

核方法 (kernel method) 是使用核函数表示和学习非线性模型的一种机器学习方法，可以用于监督学习和无监督学习。有一些线性模型的学习方法基于相似度计算，更具体地，向量内积计算。核方法可以把它们扩展到非线性模型的学习，使其应用范围更广泛。

核函数支持向量机，以及核 PCA 、核均值属于核方法。

把线性模型扩展到非线性模型，直接的做法是显式地定义从输入空间(低维空间)到特征空间(高维空间)的映射，在特征空间中进行内积计算。

统计学习方法三要素

统计学习方法都是由模型、策略和算法构成的，即统计学习方法由要素构成，可以简单地表示为:

方法=模型+策略+算法

这里的话我就简单说明一下就好了。

模型：选啥模型，简单理解就是选择什么样的函数，比方说感知机用的就是 f(x) = sign(ω*x + b)，knn用的是求取欧式度量，进而建立树来回溯。

策略：简单来说，就是建立模型的时候，怎么表示我预测的和真实的之间的误差大小。比方说0-1损失函数，你预测对了为1，错了为0，我损失了多少这个时候看的就是我有多少个0。（当然了，一般也不用这个损失函数，下文会讲）

算法：存在的作用就是用来求出，什么时候（模型参数为多少时）给的策略给的损失最小。对应上面说的0-1损失函数，那就是求出啥时候0最少，1最多。

模型评估与模型选择

这一部分我想着重讲一下！

1. 训练误差与测试误差

统计学习的目的是使学到的模型不仅对己知数据而且对未知数据都能有很好的预测能力。不同的学习方法会给出不同的模型。当损失函数给定时，基于损失函数的模型的训练误差 Ctraining error) 和模型的测试误差 test error) 就自然成为学习方法评估的标准。注意，统计学习方法具体采用的损失函数未必是评估时使用的损失函数（不过一般都是）。

训练误差的大小，对判断给定的问题是不是个容易学习的问题是有意义的，但本质上不重要。测试误差反映了学习方法对未知的测试数据集的预测能力，是学习中的重要概念。显然，给定两种学习方法，测试误差小的方法具有更好的预测能力，是更有效的方法。通常将学习方法对未知数据的预测能力称为泛化能力 (generalization ability)。

2. 过拟合与模型选择

过拟合简单来说就是此时的模型对于你自己的训练数据的预测结果极好，但是往往对于未知的数据效果不太行。

当假设空间含有不同复杂度(例如，不同的参数个数)的模型时，就要面临模型选择(model selection) 的问题。我们希望选择或学习个合适的模型。如果在假设空间中存在"真"模型，那么所选择的模型应该逼近真模型。具体地，所选择的模型要与真模型的参数个数相同，所选择的模型的参数向量与真模型的参数向量相近。

如果一味追求提高对训练数据的预测能力，所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合 Cover-fitting) 。过拟合是指学习时选择的模型所包含的参数过多，以至出现这模型对己知数据预测得很好，但对未知数据预测得很差的现象。可以说模型选择旨在避免过拟合并提高模型的预测能力。

具体避免模型过拟合的方法可以参考：https://www.cnblogs.com/june0507/p/7600924.html

正则化与交叉验证

1. 正则化

模型选择的典型方法是正则化 (regularization) 。正则化是结构风险最小化策略的实现，是在经验风险上加个正则化项 (regularizer )或罚项 (penalty term) 。正则化项般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。比如，正则化项可以是模型参数向量的范数。

正则化的作用是选择经验风险与模型复杂度同时较小的模型。

2. 交叉验证

交叉验证，其实本质就是用来求取模型给的超参数，可用于降低模型的过拟合效果。

如果给定的样本数据充足，进行模型选择的一种简单方法是随机地将数据集切分成三部分，分别为训练集 (training set) 、验证集 (validation set) 和测试集 (testset) 。训练集用来训练模型，验证集用于模型的选择，而测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中，选择对验证集有最小预测误差的模型。由于验证集有足够多的数据，用它对模型进行选择也是有效的。

但是，在许多实际应用中数据是不充足的。为了选择好的模型，可以采用交叉验证方法。交叉验证的基本想法是重复地使用数据; 把给定的数据进行切分，将切分的数据集组合为训练集与测试集，在此基础上反复地进行训练、测试以及模型选择。

1.简单交叉验证
简单交叉验证方法是:首先随机地将己给数据分为两部分，部分作为训练集，另一部分作为测试集(例如， 70% 的数据为训练集， 30% 的数据为测试集) ;然后用训练集在各种条件下(例如，不同的参数个数)训练模型，从而得到不同的模型:在测试集上评价各个模型的测试误差，选出测试误差最小的模型。

2 . S折交叉验证
应用最多的是S折交叉验证，方法如下：首先随机地将已给数据切分为互不相交、大小相同的子集；然后利用 S-1个子集的数据训练模型，利用余下的子集测试模型；将这一过程对可能的选择重复进行；最后选出S次评测中平均测试误差最小的模型。

3.留一交叉验证
S折交叉验证的特殊情形是S = N, 称为留一交叉验证 (leave-one-out cross validation) ，往往在数据缺乏的情况下使用。这里 N是给定数据集的容量。

泛化能力

学习方法的泛化能力 (generalization ability) 是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。但这种评价是依赖于测试数据集的。因为测试数据集是有限的，很有可能由此得到的评价结果是不可靠的。统计学习理论试图从理论上对学习方法的泛化能力进行分析。

泛化误差

泛化误差反映了学习方法的泛化能力，如果种方法学习的模型比另种方法学习的模型具有更小的泛化误差，那么这种方法就更有效。事实上，泛化误差就是所学习到的模型的期望风险。

泛化误差上界

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的，简称为泛化误差上界（generalization error bound) 。具体来说，就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。泛化误差上界通常具有以下性质:它是样本容量的函数，当样本容量增加时，泛化上界趋于 0; 它是假设空间容量（capacity)函数，假设空间容量越大，模型就越难学，泛化误差上界就越大。

生成模型与判别模型

监督学习方法又可以分为生成方法 Cgenerative approach) 和判别方法 discriminative approach) 所学到的模型分别称为生成模型 (generative model)和判别模型(discriminative model)

在监督学习中，生成方法和判别方法各有优缺点，适合于不同条件下的学习问题。

生成方法的特点：生成方法可以还原出联合概率分布 P(X Y) 而判别方法则不能:生成方法的学习收敛速度更快，即当样本容量增加的时候，学到的模型可以更快地收敛于真实模型:当存在隐变量时，仍可以用生成方法学习，此时判别方法就不能用。

判别方法的特点：判别方法直接学习的是条件概率 P(YIX) 或决策函数 f(X)直接面对预测，往往学习的准确率更高:由于直接学习 P(YIX) f(X) 可以对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。

监督学习的应用

监督学习的应用主要是三个方面：分类问题、回归问题和标注问题。

具体可以参考：https://www.cnblogs.com/kklalala-kaly/p/12169652.html

模型评估的各项指标

模型好不好，就看它预测未知数据准不准咯。那就不多bb，直接介绍。

以一个二分类问题为例，样本有正负两个类别。

那么模型预测的结果和真实标签的组合就有4种：TP，FP，FN，TN。

TP实际为正样本，预测为正样本；
FN实际为正样本，预测为负样本；
FP实际为负样本，预测为正样本；
TN实际为负样本，预测为负样本。
（其实T就是true，F就是false，P就是positive，N就是negative）

Accuracy(准确率)

简单讲，就是预测对的样本数占样本总数的比例。正确的样本数是TP,TN；总体的样本数就是：TP+FN+FP+TN。
所以根据定义，可以得到Acc的计算公式：

Accuracy = TP+TN / (TP+TN+FP+FN)

Precision(精确率)
精确率又称查准率，简单讲就是预测为正的样本中有多少是真正的正样本。

公式：
Precision = TP / (TP+FP)

召回率(Recall)
召回率又叫查全率，简单讲就是样本中的正例有多少被预测正确了。

公式：
Recall = TP / (TP+FN)

F1-score
考虑了两种指标的值，用来权衡precision和recall的值。

公式：
F1score = 2∗Precision∗Recall / (Precision+Recall)

第二章感知机

导论

感知机 (perceptron) 是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别，取 +1 和-1值.感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。感知机学习算法具有简单而易于实现的优点，分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的输入实例进行分类。感知机1957 年由 Rosenblatt 提出，是神经网络与支持向量机的基础。

定义

感知机是根据输入实例的特征向对其进行类分类的线性分类模型： f(x) = sign(ω*x + b)

其中，ω和b为感知机模型参数， ωεR 叫作权值 (weight) 或权值向量( weight vector ), 叫作偏值( bias )， ω*x表示ω和x的内积，sign 是符号函数，当x>=0，sign(x) = 1，当x<0，sign(x) = -1。

感知机模型对应于输入空间(特征空间)中的分离超平面 w*x+b=0

感知机有如下几何解释：线性方程 ω*x + b = 0
对应于特征空间Rn 中的一个超平面，其中ω是超平面的法向量，b是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点(特征向量)分别被分为正、负两类。因此，超平面S被称为分离超平面 (separating hyperplane) ，如图 2.1 所示。

学习策略

感知机学习的策略是极小化损失函数：minL(w, b) = -\Sigma{y_{i}(ω*x_{i} + b)}

损失函数对应于误分类点到分离超平面的总距离。

学习算法

感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法，有原始形式和对偶形式。算法简单且易于实现。原始形式中，首先任意选取一个超平面，然后用梯度下降法不断极小化目标函数。在这个过程中一次随机选取一个误分类点使其梯度下降。

收敛性

当训练数据集线性可分时，感知机学习算法是收敛的。感知机算法在训练数据集上的误分类次数满足不等式:

当训练数据集线性可分时，感知机学习算法存在无穷多个解，其解由于不同的初值或不同的迭代顺序而可能有所不同。

实现代码

class Model:
    def __init__(self):
        self.w = np.ones(len(data[0])-1, dtype=np.float32)
        self.b = 0
        self.l_rate = 0.1
        # self.data = data

    def sign(self, x, w, b):
        y = np.dot(x, w) + b
        return y

    # 随机梯度下降法
    def fit(self, X_train, y_train):
        is_wrong = False
        while not is_wrong:
            wrong_count = 0
            for d in range(len(X_train)):
                X = X_train[d]
                y = y_train[d]
                if y * self.sign(X, self.w, self.b) <= 0:
                    self.w = self.w + self.l_rate*np.dot(y, X)
                    self.b = self.b + self.l_rate*y
                    wrong_count += 1
            if wrong_count == 0:
                is_wrong = True
        return 'Perceptron Model!'

    def score(self):
        pass

下载训练数据：

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['label'] = iris.target

df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
df.label.value_counts()

plt.scatter(df[:50]['sepal length'], df[:50]['sepal width'], label='0')
plt.scatter(df[50:100]['sepal length'], df[50:100]['sepal width'], label='1')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend()
plt.show()

data = np.array(df.iloc[:100, [0, 1, -1]])

X, y = data[:,:-1], data[:,-1]

y = np.array([1 if i == 1 else -1 for i in y])

perceptron = Model()
perceptron.fit(X, y)

测试：

x_points = np.linspace(4, 7,10)
y_ = -(perceptron.w[0]*x_points + perceptron.b)/perceptron.w[1]
plt.plot(x_points, y_)

plt.plot(data[:50, 0], data[:50, 1], 'bo', color='blue', label='0')
plt.plot(data[50:100, 0], data[50:100, 1], 'bo', color='orange', label='1')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend()
plt.show()

第三章 k近邻法

定义

近邻法 (k-nearest neighbor,k -NN) 种基本分类与回归方法。本书只讨论分类问题中的 k近邻法。近邻法的输入为实例的特征向量，对应于特征空间的点:输出为实例的类别，可以取多类。近邻法假设给定个训练数据集，其中的实例类别己定。分类时，对新的实例，根据其个最近邻的训练实例的类别，通过多数表决等方式进行预测因此近邻法不具有显式的学习过程。

多数表决简单理解即为哪种类别数量多对应的分类结果就是哪种。

而不显式学习简单理解即为，不像感知机等方法需要预先训练好一个模型，k近邻是每次分类就利用一遍训练集里的数据，

k近邻算法

大致理解的话，先是输入训练集：

输出即为实例x所属的类别。

算法流程大致如下：
（1）先是计算x与训练集中给定数据的距离度量最小的k个数据（这里的距离度量通常是求lp距离，一般为l2，即欧式距离）
（2）根据决策方法即多数表决方法来求出实例x所属类别：

k值的选择

大家肯定都能想到k值的选择必然会对结果产生极大影响，那么k值取大取小对应的会有什么影响呢？
选小了：学习的近似误差会减小，但是估计误差会增大。什么意思呢？就是我对于距离实例x的近似点会非常敏感，那如果刚好我的近似点就是误差点的话，那么我的结果就会出错。这样的话便容易出现过拟合。

选大了：对应的可以减小我的估计误差，但是相对的那些原本不那么近似的点也会被我纳入考量，使得发生错误。同时相对的模型也会变得简单。往极端了想，k值等于我训练集的大小，那岂不是巨简单，直接给出我训练集里面类别占比最大的最可以了，但这样肯定是有很大问题的。

在应用中一般取比较小的数值，且通常采用交叉验证法来选取最优的k值。

kd树

书本里面最开始讲得非常生硬，这里我打算结合具体题目来讲。

先附一下题目：

上图其实还没有画完整，我先给它补全。

下面介绍解题步骤：
（1）先建立一个kd树，注意这里的kd树是二叉树。
最开始选哪一个作为根节点呢？聪明的小朋友可以发现A是上述的根节点，选它作为根节点的原因是因为它的y坐标大小是所有y坐标大小的中位数。所以我们每次分割的时候都是选其中位数的点（如果中位数的点有两个的话就任一都可）。同样的道理，为啥第二条线不是经过的G或者E，而是经过C（即选C点为子结点），因为C的横坐标大小是在gce点中的中位数。以此类推。
提醒一下啊，我们可以先往x轴方向分割，也可以往y轴方向切割，然后x和y轴方向交替切割。
（2）选择一个叶节点作为“当前最近点”，叶节点上图一共有四个，分别是g、e、f和d点。那为啥选d呢？
是这样子的，实例s点是不是比根节点a的纵坐标要小（之所以比纵坐标是因为这里是从纵坐标开始切割的），既然小的话那我们就选A下面这块区域，这块区域显然是由点B总管的，那这个时候同理再与点B比较一下横坐标，是不是要比点B大，那大的话就选右边这块区域，这个时候显然就只剩下点D了，所以确定点D为当前最近点。
（3）确定完某一个叶节点为当前最近点后，开始递归向上回退，退到父节点B，看看父节点B会不会更近，好的不会，那再看看父节点B它的另一个子区域有没有点比当前最近点还近。具体怎么检查呢，我们以实例点S与当前最近点D的距离为半径画个圆，看看这个区域会不会跟这个圆相交，不会的话就直接放弃，会的话移动到该结点检查是否需要更新当前最近点。
好的，经过上述我们发现点B管的区域也没有用了，那我们再回退到点B的父节点，重复上述工作：即看点A会不会更近，不会，那就看点A的另一个子结点C有没有跟我相交，有，那移动到点C，看看与其相交的右区域有无点包含在圆里面，即距离更近，有，ok，完事。

附原文解释

实现代码

附下实现kd树实现代码：

import numpy as np
from math import sqrt
import pandas as pd
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['label'] = iris.target
df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']

data = np.array(df.iloc[:100, [0, 1, -1]])
train, test = train_test_split(data, test_size=0.1)
x0 = np.array([x0 for i, x0 in enumerate(train) if train[i][-1] == 0])
x1 = np.array([x1 for i, x1 in enumerate(train) if train[i][-1] == 1])


def show_train():
    plt.scatter(x0[:, 0], x0[:, 1], c='pink', label='[0]')
    plt.scatter(x1[:, 0], x1[:, 1], c='orange', label='[1]')
    plt.xlabel('sepal length')
    plt.ylabel('sepal width')


class Node:
    def __init__(self, data, depth=0, lchild=None, rchild=None):
        self.data = data
        self.depth = depth
        self.lchild = lchild
        self.rchild = rchild


class KdTree:
    def __init__(self):
        self.KdTree = None
        self.n = 0
        self.nearest = None

    def create(self, dataSet, depth=0):
        if len(dataSet) > 0:
            m, n = np.shape(dataSet)
            self.n = n - 1
            axis = depth % self.n
            mid = int(m / 2)
            dataSetcopy = sorted(dataSet, key=lambda x: x[axis])
            node = Node(dataSetcopy[mid], depth)
            if depth == 0:
                self.KdTree = node
            node.lchild = self.create(dataSetcopy[:mid], depth+1)
            node.rchild = self.create(dataSetcopy[mid+1:], depth+1)
            return node
        return None

    def preOrder(self, node):
        if node is not None:
            print(node.depth, node.data)
            self.preOrder(node.lchild)
            self.preOrder(node.rchild)

    def search(self, x, count=1):
        nearest = []
        for i in range(count):
            nearest.append([-1, None])
        self.nearest = np.array(nearest)

        def recurve(node):
            if node is not None:
                axis = node.depth % self.n
                daxis = x[axis] - node.data[axis]
                if daxis < 0:
                    recurve(node.lchild)
                else:
                    recurve(node.rchild)

                dist = sqrt(sum((p1 - p2) ** 2 for p1, p2 in zip(x, node.data)))
                for i, d in enumerate(self.nearest):
                    if d[0] < 0 or dist < d[0]:
                        self.nearest = np.insert(self.nearest, i, [dist, node], axis=0)
                        self.nearest = self.nearest[:-1]
                        break

                n = list(self.nearest[:, 0]).count(-1)
                if self.nearest[-n-1, 0] > abs(daxis):
                    if daxis < 0:
                        recurve(node.rchild)
                    else:
                        recurve(node.lchild)

        recurve(self.KdTree)

        knn = self.nearest[:, 1]
        belong = []
        for i in knn:
            belong.append(i.data[-1])
        b = max(set(belong), key=belong.count)

        return self.nearest, b


kdt = KdTree()
kdt.create(train)
kdt.preOrder(kdt.KdTree)

score = 0
for x in test:
    input('press Enter to show next:')
    show_train()
    plt.scatter(x[0], x[1], c='red', marker='x')  # 测试点
    near, belong = kdt.search(x[:-1], 5)  # 设置临近点的个数
    if belong == x[-1]:
        score += 1
    print("test:")
    print(x, "predict:", belong)
    print("nearest:")
    for n in near:
        print(n[1].data, "dist:", n[0])
        plt.scatter(n[1].data[0], n[1].data[1], c='green', marker='+')  # k个最近邻点
    plt.legend()
    plt.show()

score /= len(test)
print("score:", score)

结束语

正在不断更新中。。。

以后我会在博客记录自己学习《统计学习方法》第二版这本书的笔记，其实也就是我自己认为比较重要或者有用的内容，以及部分python代码的实现。

由于博主能力有限，博文中提及的信息，也难免会有疏漏之处。希望发现疏漏的朋友能热心指出其中的错误，以便下次修改时能以一个更完美更严谨的样子，呈现在大家面前。同时如果有更好的方法也请不吝赐教。

如果有什么相关的问题，也可以关注评论留下自己的问题，我会尽量及时发送！

你可能感兴趣的:(统计学习方法,机器学习,深度学习,统计学习方法,python,数据分析)

机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
Python 常用函数全解析，轻松提升编码效率 jiajia651304 python 开发语言 windows
Python常用函数全解析，轻松提升编码效率Python常用函数全解析，轻松提升编码效率1.基础内置函数1.1`print()`与`input()`1.2`len()`、`type()`与`isinstance()`2.数学与数值处理函数2.1`abs()`、`round()`与`pow()`2.2`divmod()`与`max()/min()`3.序列与迭代相关函数3.1`range()`与`e
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
新手如何使用 Milvus 巴依老爷coder 数据库 milvus 向量数据库数据库
一文带你入门Milvus：详细指南新手如何使用Milvus：详细指南一、Milvus简介主要特点应用领域二、安装Milvus安装DockerCompose基于DockerCompose安装Milvus服务端安装attu-可视化界面工具三、快速入门安装PythonSDK连接数据库方式1方式2（方式1的封装）数据库操作核心概念集合操作数据操作插入数据精准查询数据-get条件查询数据-query查询数据
nginx-部署Python网站项目 skyQAQLinux python linux nginx 服务器
一、部署Python网站项目实验要求配置Nginx使其可以将动态访问转交给uWSGI安装Python工具及依赖1)拷贝软件到proxy主机[root@server1~]#scp-r/linux-soft/s2/wk/python/192.168.99.5:/root2)安装python依赖软件[root@proxy~]#yum-yinstallgccmakepython3python3-devel
Python 3.6.8 64位独立安装程序霍娴果Myrtle
Python3.6.864位独立安装程序【下载地址】Python3.6.864位独立安装程序Python3.6.864位独立安装程序欢迎使用Python3.6.64位版安装包！本资源专门针对需要在64位操作系统上进行Python环境搭建的用户项目地址:https://gitcode.com/open-source-toolkit/98d19欢迎使用Python3.6.64位版安装包！本资源专门针对
Python 3.6.8 安装包下载何盼思Kit
Python3.6.8安装包下载【下载地址】Python3.6.8安装包下载Python3.6.8安装包下载本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构项目地址:https://gitcode.com/open-source-toolkit/d9647本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构。Pyt
Python匿名函数Lambda，不止是省略函数名这么简单橙色小博 python的学习之旅 python 开发语言
目录1.前言2.Lambda函数的基本用法3.关于Lambda函数的应用3.1与map函数结合3.2lambda与if-else语句3.3多参数lambda3.4嵌套lambda3.5字典与lambda（也是我本人最喜欢的用法）3.6lambda其他用法4.总结：Lambda的编程哲学1.前言在Python的广阔天地里，Lambda函数宛如一颗璀璨的明珠，以其简洁优雅的姿态，为代码增添了一份独特的
AtCoder备赛冲刺必刷题（C++） | 洛谷 AT_abc396_a Triple Four 热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：AT_abc396_a[ABC396A]
python 捕获异常 weixin_30730151 python 数据库
异常：由于代码的逻辑或者语法错误导致的程序中断。在学习Python的过程当中，大家一定要区分清楚异常和布尔值False布尔值的False只是一个值，通常代表的是一个条件的不成立，常用于逻辑判断比如：1num=22print(num>3)3ifnum>3:4print("num>3")异常指的是由于代码的逻辑或者语法错误导致的程序中断比如：1num=222+"2"了解了上面的逻辑之后，我们来看看大家
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
python sympy的安装与使用范哥来了 python 开发语言
为了安装和使用sympy，您可以按照以下步骤进行操作：安装SymPy首先，您需要确保已经安装了Python。接着，可以通过pip来安装sympy。打开命令行工具（如终端或命令提示符），然后输入以下命令来安装sympy：pipinstallsympy如果您使用的是特定的Python环境，请确保激活该环境后再执行上述安装命令。使用SymPy安装完成后，您就可以在Python项目中导入并使用sympy了
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
facefusion AI换脸软件的本地部署过程记录 kfrealme 人工智能
tags:AI驾驭facefusion我的环境Win10+N卡安装步骤安装Python3.10方案手动安装Python官网下载安装包安装PythonReleasesforWindows|Python.org我的蓝奏云分享https://www.lanzoub.com/i9La81s1o5gb密码:h17b命令行安装1以管理员身份打开「命令提示符」2删除Microsoft官方源wingetsourc
Python中手动实现进制转换棉猴 Python 进制转换十进制二进制十六进制八进制
在《Python中进制转换》中提到可以使用bin()、oct()、int()和hex()等函数编程实现数字间的进制转换。除了编程实现进制转换外，还可以通过手动实现。1手动实现二进制数转换为十进制可以通过“填空法”手动将二进制数转换为十进制数，例如将二进制数“0b1101”转换为十进制数的方法如图1所示。“填空法”可以归纳为四个步骤：首先“画空格”，接下来“写次方”，然后“填数字”，最后“列算式”。
Python中的进制转换棉猴 #Python数据类型 Python 进制转化二进制八进制十六进制 bin oct
常用的进制有二进制、八进制、十进制和十六进制。1四种进制简介最常用的十进制基本原理是“逢十进一”，因此十进制包括的数字是“0-9”;同理，二进制的基本原理是“逢二进一”，包含的数字是“0-1”;八进制是“逢八进一”，包含的数字是“0-7”；十六进制是“逢十六进一”，包含的数字是“0-15”，其中用“A、B、C、D、E、F”分别表示“10-15”这五个数。2四种进制数的表示对于一个数字“11”,可能
小菜鸟的Python笔记001：将Word文档中数据汇总到Excel表格蜉蝣2805 小菜鸟的Python笔记 python 数据分析
将Word文档中数据汇总到Excel表格前言一、应用场景二、程序思路及准备工作思路如下：准备工作：三、程序代码1、主程序2、获取Word文档列表3、提取文档内数据4、导入到Excel表格四、遇到的问题1、错误AttributeError:word.Application.Quit2、word文档中复选框的识别总结前言我并非一个专业的程序员，只是一个普通的编程爱好者、一只小菜鸟。得益于网络上各路大神
31天Python入门——第9天:再学函数安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录再学函数1.变量在函数中的作用域2.函数的参数传递.补充学习:不定长参数*args和**kwargs3.值传递和引用传递补充学习:把函数作为参数传递4.匿名函数5.python中内置的常用函数zip()map()filter()all()any()6.函数练习再学函数1.变量在函数中的作用域变量的作用域是指变量的作用范围.局部变量:在函数体或局部范围内声明的变量称为局部
Scrapy 入门教程 zru_9602 爬虫 scrapy
Scrapy入门教程Scrapy是一个用于爬取网站数据的Python框架，功能强大且易于扩展。本文将介绍Scrapy的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。1.什么是Scrapy？Scrapy是一个开源的、用于爬取网站数据的框架，主要特点包括：高效、异步的爬取机制强大的XPath和CSS选择器解析能力内置中间件，支持代理、去重等功能易于扩展，适用于各种爬虫需求2.安装Scra
python批量替换word内容_python win32com 库批量替换word文件内容 weixin_39657300
前言win32com模块主要为Python提供调用windows底层组件对word、Excel、PPT等进行操作的功能，只能在Windows环境下使用，并且需要安装office相关软件才行(WPS也行)。实例代码下方代码实现批量替换当前路径下word文档的指定文本内容。importwin32com.clientimportosimporttimedefupdate_replace(file):wo
python strip() 编号1993 python python
参考：http://www.jb51.net/article/37287.htm###############################s.strip(del)：在字符串s的开头结尾处，删除del中存在的字符s.lstrip(del)：在字符串s的开头处，删除del中存在的字符s.rstrip(del)：在字符串s的结尾处，删除del中存在的字符s='asdf'#前后均有空格s.strip(
Python调用WPS进行文档转换PDF及PDF转图片 IT孔乙己 python 开发语言后端
这里是利用WPS进行转换，要先安装WPS。安装依赖pipinstallpypiwin32代码#!/usr/bin/python#-*-coding:UTF-8-*-importosimportwin32com.clientdefConvertByWps(sourceFile,targetFile):ifnotos.path.exists(sourceFile):print(sourceFile+"
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Python strip() 方法详解：用途、应用场景及示例解析（中英双语）阿正的梦工坊 Python python 开发语言
Pythonstrip()方法详解：用途、应用场景及示例解析在Python处理字符串时，经常会遇到字符串前后存在多余的空格或特殊字符的问题。strip()方法就是Python提供的一个强大工具，专门用于去除字符串两端的指定字符。本文将详细介绍strip()的用法、适用场景，并通过多个示例解析其应用。1.strip()方法简介strip()方法用于去除字符串两端的指定字符（默认为空格和换行符）。它的
使用Python连接SqlServer 带带琪宝工作日记 python sqlserver 开发语言
目录cursor()execute('sqlstr')fetchall()、fetchone()cursor.description属性close()转化为dataframe进行分析使用的是pymssql库，这个库的详细用法参照博客（博客里也有官方文档，英语好的可以直接看）：pythonpymssql—pymssql模块使用指南_夏日白云的博客-CSDN博客我目前的需求只是使用Python连接数据
Python连接SQL SEVER数据库全流程 m0_74823131 数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
力扣 160 - Intersection of Two Linked Lists. (相交链表) Python双指针小杨快没头发了 Leetcode 刷题
力扣160-IntersectionofTwoLinkedLists.(相交链表)Python双指针原题地址：https://leetcode.com/problems/intersection-of-two-linked-lists/Giventheheadsoftwosinglylinked-listsheadAandheadB,returnthenodeatwhichthetwolistsi
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

统计学习方法第二版 李航

你可能感兴趣的:(统计学习方法,机器学习,深度学习,统计学习方法,python,数据分析)

统计学习方法第二版李航