Brielleqqqqqqjie

统计学习方法第五章习题答案

习题5.1

题目：根据表5.1所给的训练数据集，利用信息增益比（C4.5算法）生成决策树.

答：
先计算每个特征的信息增益比，信息增益比 $g_{R}(D,A)=\frac{g(D,A)}{H_{A}(D)}$ 。其中D关于特征A的熵 $H_{A}(D)=-\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}\log_{2}\frac{|D_{i}|}{|D|}$ （n为A特征的取值个数），信息增益 $g (D, A) = H (D) - H (D ∣ A)$
分别以 $A_{1},A_{2},A_{3},A_{4}$ 表示年龄、有工作、有自己的房子和信贷情况4个特征。
经验熵 $H_{A}(D)$ ：
$H_{A_{1}}(D)=-\frac{5}{15}\log_{2}\frac{5}{15}-\frac{5}{15}\log_{2}\frac{5}{15}-\frac{5}{15}\log_{2}\frac{5}{15}=1.584$
$H_{A_{2}}(D)=-\frac{5}{15}\log_{2}\frac{5}{15}-\frac{10}{15}\log_{2}\frac{10}{15}=0.918$
$H_{A_{3}}(D)=-\frac{9}{15}\log_{2}\frac{9}{15}-\frac{6}{15}\log_{2}\frac{6}{15}=0.971$
$H_{A_{4}}(D)=-\frac{4}{15}\log_{2}\frac{4}{15}-\frac{6}{15}\log_{2}\frac{6}{15}-\frac{5}{15}\log_{2}\frac{5}{15}=1.566$
例题5.2已经计算了各个特征的信息增益：
$g(D,A_{1})=0.083$
$g(D,A_{2})=0.324$
$g(D,A_{3})=0.420$
$g(D,A_{4})=0.363$
得信息增益比：
$g_{R}(D,A_{1})=0.052$
$g_{R}(D,A_{2})=0.353$
$g_{R}(D,A_{3})=0.433$
$g_{R}(D,A_{4})=0.232$
选择信息增益比最大的特征 $A_{3}$ 作为根节点特征，将训练集分为两个子集 $D_{1}(A_{3}='是')$ 和 $D_{2}(A_{3}='否')$ ，由于 $D_{1}$ 中只有同一类样本点，所以它是一个叶节点，标记为“是”
对 $D_{2}$ 从 $A_{1},A_{2},A_{4}$ 中选择新的特征， $D_{2}$ 中的元素有：

重新计算各个特征的信息增益比
经验熵：
$H(D_{2})=-\frac{3}{9}\log_{2}\frac{3}{9}-\frac{6}{9}\log_{2}\frac{6}{9}=0.918$
信息增益：
$\begin{aligned}g(D_{2},A_{1})&=H(D_{2})-[\frac{4}{9}H(D_{21})+\frac{2}{9}H(D_{22})+\frac{3}{9}H(D_{23})] \\&=0.918-[\frac{4}{9}(-\frac{1}{4}\log_{2}\frac{1}{4}-\frac{3}{4}\log_{2}\frac{3}{4})+\frac{2}{9}(-\frac{2}{2}\log_{2}\frac{2}{2})+\frac{3}{9}(-\frac{2}{3}\log_{2}\frac{2}{3}-\frac{1}{3}\log_{2}\frac{1}{3})]\\&=0.918-0.667\\&=0.251\end{aligned}$
其中 $D_{21},D_{22},D_{23}$ 分别表示 $D_{2}$ 中 $A_{1}$ 取值为青年，中年，老年的样本子集。
$\begin{aligned}g(D_{2},A_{2})&=H(D_{2})-[\frac{6}{9}H(D_{21})+\frac{3}{9}H(D_{22})]\\&=0.918-[\frac{6}{9}(-\frac{6}{6}\log_{2}\frac{6}{6})+\frac{3}{9}(-\frac{3}{3}\log_{2}\frac{3}{3})]\\&=0.918\end{aligned}$
其中 $D_{21},D_{22}$ 分别表示 $D_{2}$ 中 $A_{2}$ 取值为否，是的样本子集。
$\begin{aligned}g(D_{2},A_{4})&=H(D_{2})-[\frac{4}{9}H(D_{21})+\frac{4}{9}H(D_{22})+\frac{1}{9}H(D_{23})]\\&=0.918-[\frac{4}{9}(-\frac{4}{4}\log_{2}\frac{4}{4})+\frac{4}{9}(-\frac{2}{4}\log_{2}\frac{2}{4}-\frac{2}{4}\log_{2}\frac{2}{4})+\frac{1}{9}(-\frac{1}{1}\log_{2}\frac{1}{1})]\\&=0.918-0.444\\&=0.474\end{aligned}$
其中 $D_{21},D_{22},D_{23}$ 分别表示 $D_{2}$ 中 $A_{4}$ 取值为一般，好，非常好的样本子集。
信息增益比：
$\begin{aligned}g_{R}(D_{2},A_{1})&=\frac{g(D_{2},A_{1})}{H_{A_{1}}(D_{2})}\\&=\frac{0.251}{-\frac{4}{9}\log_{2}\frac{4}{9}-\frac{2}{9}\log_{2}\frac{2}{9}-\frac{3}{9}\log_{2}\frac{3}{9}}\\&=\frac{0.251}{1.530}\\&=0.164\end{aligned}$
$\begin{aligned}g_{R}(D_{2},A_{2})&=\frac{g(D_{2},A_{2})}{H_{A_{2}}(D_{2})}\\&=\frac{0.918}{-\frac{6}{9}\log_{2}\frac{6}{9}-\frac{3}{9}\log_{2}\frac{3}{9}}\\&=\frac{0.918}{0.918}\\&=1\end{aligned}$
$\begin{aligned}g_{R}(D_{2},A_{4})&=\frac{g(D_{2},A_{4})}{H_{A_{4}}(D_{2})}\\&=\frac{0.474}{-\frac{4}{9}\log_{2}\frac{4}{9}-\frac{4}{9}\log_{2}\frac{4}{9}-\frac{1}{9}\log_{2}\frac{1}{9}}\\&=\frac{0.474}{1.392}\\&=0.340\end{aligned}$
选择信息增益比最大的特征 $A_{2}$ 作为节点的特征，从这一结点引出两个子结点：一个对应“是”（有工作）的子结点，包含3个样本，它们属于同一类，所以这是一个叶结点，类标记为“是”；另一个是对应“否”（无工作）的子结点，包含6个样本，它们也属于同一类，所以这也是一个叶结点，类标记为“否”。
最终的决策树如图：

贴个代码验算下：
首先是书中例题5.3用ID3算法生成决策树

import numpy as np
from math import log

def loadData():
    datasets = [['青年', '否', '否', '一般', '否'],
               ['青年', '否', '否', '好', '否'],
               ['青年', '是', '否', '好', '是'],
               ['青年', '是', '是', '一般', '是'],
               ['青年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '好', '否'],
               ['中年', '是', '是', '好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '好', '是'],
               ['老年', '是', '否', '好', '是'],
               ['老年', '是', '否', '非常好', '是'],
               ['老年', '否', '否', '一般', '否'],
               ]
    labels = [u'年龄', u'有工作', u'有自己的房子', u'信贷情况', u'类别']
    # 返回数据集和每个维度的名称
    return datasets, labels

def calc_entropy(datasets):
    label_count = {}
    for dataset in datasets:
        label =  dataset[-1]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    entropy = -sum([(p/len(datasets))*log(p/len(datasets),2) for p in label_count.values()])
    return entropy

def calc_conditional_entropy(datasets, index = 0):
    feature_data = {}
    for dataset in datasets:
        feature = dataset[index]
        if feature not in feature_data:
            feature_data[feature] = []
        feature_data[feature].append(dataset)
    condEntropy = sum([(len(p)/len(datasets))*calc_entropy(p) for p in feature_data.values()])
    return condEntropy

def info_gain(entropy, condEntropy):
    return entropy - condEntropy

def info_gain_train_childTree(datasets, labels):
    entropy = calc_entropy(datasets)
    features = []
    for index in range(len(datasets[0])-1):
        condEntropy = calc_conditional_entropy(datasets, index)
        c_info_gain = info_gain(entropy, condEntropy)
        features.append((index, c_info_gain))
        print("特征({})的信息增益为{:.3f}".format(labels[index], c_info_gain))
    best_feature = max(features, key=lambda x: x[-1])
    print("特征({})的信息增益最大，选择为当前节点特征".format(labels[best_feature[0]]))
    return best_feature

def info_gain_train(datasets, labels):
    label_count = {}
    for dataset in datasets:
        label = dataset[-1]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    if len(label_count.keys()) == 1:
        key = list(label_count.keys())[0]
        print("此时类别均为{}".format(key))
        return
    best_feature = info_gain_train_childTree(datasets, labels)

    feature_data = {}
    for dataset in datasets:
        feature = dataset[best_feature[0]]
        if feature not in feature_data:
            feature_data[feature] = []
        feature_data[feature].append(dataset)

    for data in zip(feature_data.keys(), feature_data.values()):
        print("当{}为{}".format(labels[best_feature[0]], data[0]))
        info_gain_train(data[1], labels)


if __name__ == "__main__":
    datasets, labels = loadData()
    info_gain_train(datasets, labels)

运行结果

特征(年龄)的信息增益为0.083
特征(有工作)的信息增益为0.324
特征(有自己的房子)的信息增益为0.420
特征(信贷情况)的信息增益为0.363
特征(有自己的房子)的信息增益最大，选择为当前节点特征
当有自己的房子为否
特征(年龄)的信息增益为0.252
特征(有工作)的信息增益为0.918
特征(有自己的房子)的信息增益为0.000
特征(信贷情况)的信息增益为0.474
特征(有工作)的信息增益最大，选择为当前节点特征
当有工作为否
此时类别均为否
当有工作为是
此时类别均为是
当有自己的房子为是
此时类别均为是

C4.5算法

import numpy as np
from math import log

def loadData():
    datasets = [['青年', '否', '否', '一般', '否'],
               ['青年', '否', '否', '好', '否'],
               ['青年', '是', '否', '好', '是'],
               ['青年', '是', '是', '一般', '是'],
               ['青年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '好', '否'],
               ['中年', '是', '是', '好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '好', '是'],
               ['老年', '是', '否', '好', '是'],
               ['老年', '是', '否', '非常好', '是'],
               ['老年', '否', '否', '一般', '否'],
               ]
    labels = [u'年龄', u'有工作', u'有自己的房子', u'信贷情况', u'类别']
    # 返回数据集和每个维度的名称
    return datasets, labels

def calc_entropy(datasets, index=-1):
    label_count = {}
    for dataset in datasets:
        label =  dataset[index]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    entropy = -sum([(p/len(datasets))*log(p/len(datasets),2) for p in label_count.values()])
    return entropy

def calc_conditional_entropy(datasets, index = 0):
    feature_data = {}
    for dataset in datasets:
        feature = dataset[index]
        if feature not in feature_data:
            feature_data[feature] = []
        feature_data[feature].append(dataset)
    condEntropy = sum([(len(p)/len(datasets))*calc_entropy(p) for p in feature_data.values()])
    return condEntropy

def info_gain(entropy, condEntropy):
    return entropy - condEntropy

def info_gain_ratio(c_info_gain, c_entropy):
    return 0 if c_info_gain == 0 else c_info_gain/c_entropy

def info_gain_train_childTree(datasets, labels):
    entropy = calc_entropy(datasets)
    features = []
    for index in range(len(datasets[0])-1):
        condEntropy = calc_conditional_entropy(datasets, index)
        c_info_gain = info_gain(entropy, condEntropy)
        c_entropy = calc_entropy(datasets, index)
        c_info_gain_ratio = info_gain_ratio(c_info_gain, c_entropy)
        features.append((index, c_info_gain_ratio))
        print("特征({})的信息增益比为{:.3f}".format(labels[index], c_info_gain_ratio))
    best_feature = max(features, key=lambda x: x[-1])
    print("特征({})的信息增益比最大，选择为当前节点特征".format(labels[best_feature[0]]))
    return best_feature

def info_gain_train(datasets, labels):
    label_count = {}
    for dataset in datasets:
        label = dataset[-1]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    if len(label_count.keys()) == 1:
        key = list(label_count.keys())[0]
        print("此时类别均为{}".format(key))
        return
    best_feature = info_gain_train_childTree(datasets, labels)

    feature_data = {}
    for dataset in datasets:
        feature = dataset[best_feature[0]]
        if feature not in feature_data:
            feature_data[feature] = []
        feature_data[feature].append(dataset)

    for data in zip(feature_data.keys(), feature_data.values()):
        print("当{}为{}".format(labels[best_feature[0]], data[0]))
        info_gain_train(data[1], labels)


if __name__ == "__main__":
    datasets, labels = loadData()
    info_gain_train(datasets, labels)

运行结果

特征(年龄)的信息增益比为0.052
特征(有工作)的信息增益比为0.352
特征(有自己的房子)的信息增益比为0.433
特征(信贷情况)的信息增益比为0.232
特征(有自己的房子)的信息增益比最大，选择为当前节点特征
当有自己的房子为否
特征(年龄)的信息增益比为0.164
特征(有工作)的信息增益比为1.000
特征(有自己的房子)的信息增益比为0.000
特征(信贷情况)的信息增益比为0.340
特征(有工作)的信息增益比最大，选择为当前节点特征
当有工作为否
此时类别均为否
当有工作为是
此时类别均为是
当有自己的房子为是
此时类别均为是

习题5.2

题目：已知下表所示的训练数据，试用平方误差损失准则生成一个二叉回归树.

$x_{i}$	1	2	3	4	5	6	7	8	9	10
$y_{i}$	4.50	4.75	4.91	5.34	5.80	7.05	7.70	8.23	8.70	9.00

回归树的建立算法：

本题的计算量有点大，直接用Python实现，具体代码和结果如下。

#环境Python3.7
#-*- coding: utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt

#节点定义
class TreeNode(object):
    def __init__(self, tempR, tempc):
        self.R = tempR
        self.c = tempc
        self.left = None
        self.right = None


y = np.array([4.5, 4.75, 4.91, 5.34, 5.8, 7.05, 7.9, 8.23, 8.7, 9]) #y的值

#CART算法建立回归树
def CART(start, end):
    # 切点s的选择表示R1为x值小于等于s的点，R2为大于s的点
    if(end - start >= 1):
        result = []
        for s in range(start+1, end+1):#s在(start, end]之间取值
            y1 = y[start : s] #y1取索引为[start, s]之间的值
            y2 = y[s: end+1] #y2 取索引为[s+1, end]之间的值
            result.append((y1.std()**2)*y1.size + (y2.std()**2)*y2.size)
            #std即标准差函数，求标准差的时候默认除以元素的个数，因此平方后乘以元素个数才是要求的平方差
        index1 = result.index(min(result)) + start#取平方差误差最小的索引值
        root = TreeNode(y[start:end+1], min(result))
        #索引值为0-9，x值为1-10，即s的值比求的索引值多1
        print("节点元素值为",y[start:end+1], "  s =",index1+1, "  最小平方误差为",min(result))#输出s值和最小平方误差
        root.left = CART(start, index1) #对列表的左侧生成左子树
        root.right = CART(index1+1, end) #对列表的右侧生成右子树
    else:
        root = None
    return root


if __name__ == "__main__":
    root = CART(0, 9)

运行结果：

节点元素值为 [4.5  4.75 4.91 5.34 5.8  7.05 7.9  8.23 8.7  9.  ]   s = 5   最小平方误差为 3.3587199999999986
节点元素值为 [4.5  4.75 4.91 5.34 5.8 ]   s = 3   最小平方误差为 0.1912
节点元素值为 [4.5  4.75 4.91]   s = 1   最小平方误差为 0.012800000000000023
节点元素值为 [4.75 4.91]   s = 2   最小平方误差为 0.0
节点元素值为 [5.34 5.8 ]   s = 4   最小平方误差为 0.0
节点元素值为 [7.05 7.9  8.23 8.7  9.  ]   s = 7   最小平方误差为 0.6625166666666665
节点元素值为 [7.05 7.9 ]   s = 6   最小平方误差为 0.0
节点元素值为 [8.23 8.7  9.  ]   s = 8   最小平方误差为 0.04500000000000021
节点元素值为 [8.7 9. ]   s = 9   最小平方误差为 0.0

原本是打算再用matplotlib可视化决策树，有、麻烦，后期有时间再优化一下。向大家说声抱歉。
另外简单说明一下计算的过程，以根节点为例，变换切分点 $s$ ，选择使得平方误差最小的切分点
$s = 1$ :
即 $y_{1} = [4.5], y_{2} = [4.75 ,4.91, 5.34, 5.8 , 7.05 ,7.9, 8.23, 8.7, 9.]$
此时有 $c_{1} = 4.5, c{2} = avg(y{2}) = 6.85$ ， $\sum_{x_{i} \in R_{1}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-c_{2}\right)^{2}=22.45$
然后依次将 $s$ 从2取值到10，计算平方误差，选其中平方误差最小的s为根节点s，将元素分为左右子树后，再对左右子树进行相同的处理。

习题5.3

题目：证明 CART 剪枝算法中，当 $\alpha$ 确定时，存在唯一的最小子树 $T_{\alpha}$ 使损失函数 $C_{\alpha}(T)$ 最小
答：
（1）存在性
当 $\alpha$ 确定时，可以生成多种子树，每个子树对应一个损失函数，一定存在一个最小的损失函数。
（2）唯一性
假设损失函数为最小的损失函数有两个子树 $T_{\alpha}, T_{\beta}$ ，剪枝的本质是对每个节点依次向上递归，若减去该节点后的子树的损失函数更小，则进行剪枝，否则结束该节点的递归。
若子树的 $T_{\alpha}, T_{\beta}$ 某处不相同有两种情况
其一： $T_{\alpha}$ 某处节点剪枝后得到 $T_{\beta}$

这种情况即该处是否剪枝不影响最终的损失函数大小，此时虽然二者的损失函数一致，但是右侧的子树更小，即最小子树仍为1个。

其二：

此时不难得出，若 $T_{\alpha}$ 对2号节点进行剪枝，则 $T_{alpha}$ 的损失函数比原来小，所以最终结果也需要对2号节点进行剪枝，同理若 $T_{\beta}$ 对3号节点进行剪枝，则 $T_{beta}$ 的损失函数比原来小，所以最终结果也需要对3号节点进行剪枝，因此 $T_{\alpha}, T_{\beta}$ 均不是最小子树。

习题5.4

题目：证明 CART 剪枝算法中求出的子树序列 $\left\{T_{0}, T_{1}, \cdots, T_{n}\right\}$ 分别是区间 $\alpha \in\left[\alpha_{i}, \alpha_{i+1}\right)$ 的最优子树 $T_{\alpha}$ ，这里 $\cdots, n, \quad 0=\alpha_{0}<\alpha_{1}<\cdots<\alpha_{n}<+\infty$
在子树序列中，每棵子树 $\left\{T_{0}, T_{1}, \cdots, T_{n}\right\}$ 都对应于一个参数 $\alpha_0,\alpha_1,\alpha_2...\alpha_n$ 。所以，当最优子树 $T_k$ 确定时，对应的 $\alpha_k$ 也确定了，即得到最优决策树 $T_\alpha$ 。

参考

CART算法详解
决策树详解
决策树可视化
CART剪枝

从 “啃书焦虑” 到 “项目通关”：NLP 学习的破局之道木旭林晖自然语言处理学习人工智能
嘿，你好。在CSDN上潜水这么久，我总能看到很多像你我当年一样，怀揣着NLP大厂梦的同学。我猜，你的收藏夹里一定塞满了“NLP必读清单”，书架上可能还放着那本厚得像砖头一样的《统计学习方法》或者“龙书”。每天深夜，你可能都在跟一个又一个复杂的数学公式死磕。什么最大熵模型、什么CRF（条件随机场）的推导……你觉得自己离“精通”越来越近，但心里却越来越慌。为什么慌？因为你打开招聘软件，看到JD（职位描
Task 01 第一章习题
1.1说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。回忆知识点：统计学习方法三要素为：模型+策略+算法模型：在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。策略：统计学习要考虑按照什么样的准则选
吴恩达机器学习入门笔记（Week 1）冒冒喵吴恩达机器学习入门机器学习笔记人工智能
吴恩达机器学习Week1学习资源及工具机器学习分类专业术语（Terminology）线性回归模型(Linearregression)代价函数（costfunction）学习资源及工具1、课程资源：B站大学2、相关工具：Jupter&Github3、书籍资源：神经网络与深度学习（MichaelNielsen）、机器学习（周志华）、统计学习方法（李航）…机器学习分类1、监督学习（supervisedl
02 Deep learning神经网络的编程基础逻辑回归--吴恩达狂小虎 Deep Learning 深度学习神经网络逻辑回归
逻辑回归逻辑回归是一种用于解决二分类任务（如预测是否是猫咪等）的统计学习方法。尽管名称中包含“回归”，但其本质是通过线性回归的变体输出概率值，并使用Sigmoid函数将线性结果映射到[0,1]区间。以猫咪预测为例假设单个样本/单张图片为（x\mathbf{x}x，y\mathbf{y}y），特征向量X=x\mathbf{x}x，则y^\hat{y}y^即为X的预测值，y^\hat{y}y^=P（y
统计学习方法（李航）第五章决策树 WangZiYi2003 机器学习学习方法决策树算法
笔记目录：统计学习方法（李航）第一章绪论统计学习方法（李航）第二章感知机统计学习方法（李航）第三章k近邻统计学习方法（李航）第四章贝叶斯统计学习方法（李航）第五章决策树第一节决策树介绍1.决策树的概念决策树是一种树形结构的分类或回归模型，通过一系列if-then规则对数据进行决策if-then规则：每个节点表示一个条件（如“年龄>30？”），根据条件判断进入不同的子节点互斥性：每个条件的结果（如“
python：sklearn 主成分分析（PCA） belldeep python sklearn python sklearn 机器学习 PCA
参考书：《统计学习方法》第2版第16章主成分分析（PCA）示例编写test_pca_1.py如下#-*-coding:utf-8-*-"""主成分分析（PCA）"""importmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.decompositionimportPCA#加载鸢尾花数据集iris=load_i
我的机器学习学习之路花果山-马大帅机器学习机器学习人工智能 python 算法 scikit-learn
学习python的初衷•hi，今天给朋友们分享一下我是怎么从0基础开始学习机器学习的。•我是2023年9月开始下定决心要学python的，目的有两个，一是为了提升自己的技能和价值，二是将所学的知识应用到工作中去，提升工作效率。我的背景与书籍选择•我是上班族，2023年非全日制硕士研究生毕业。•我的导师是数学博士，在导师的推荐下买了周老师的《机器学习(西瓜书)》和李航老师的《统计学习方法》，这2本书
支持向量机 SVM 简要介绍 _夜空的繁星_ 机器学习 svm 支持向量机拉格朗日对偶机器学习
那些我从来没有理解过的概念（1）下面是我在学习过程中遇到的对我很难理解的概念和我抄下来的笔记主要资料来源：《统计学习方法》，维基百科拉格朗日对偶问题是什么假设f(x),ci(x),hj(x)是定义在Rn上的连续可微函数，考虑以下最优化问题：$$\min_{x\inR^n}{f(x)}\c_i(x)\leq0,i=1,2,\dots,k\h_j(x)=0,j=1,2,\dots,l$$是一个凸优化问
python 统计库_《统计学习方法》 Python 库 weixin_39756540 python 统计库
新建GitHub仓库仓库名为slmethod,统计学习方法(StatisticalLearningMethod)的简写Public公开仓库勾选InitializethisrepositorywithaREADME.gitignore选择Python添加MITLicensenew下载代码到本地，使用ssh协议。[email protected]:iOSDevLog/slmethod.git
《李航统计学习方法》学习笔记——第五章决策树 eveiiii 统计学习决策树算法剪枝 python 机器学习
决策树5.1决策树模型与学习5.2特征选择5.2.1信息增益5.2.2信息增益比python代码实现例题：信息增益与信息增益比5.3决策树的生成5.3.1ID3算法（python实现）5.3.2C4.5生成算法（python实现）5.4决策树的剪枝5.5CART算法5.5.1CART生成5.5.2CART剪枝习题5.1(python实现）习题5.2(python实现）习题5.3习题5.4参考5.1
《李航统计学习方法》学习笔记——第八章提升方法 eveiiii 统计学习 python 机器学习人工智能算法
提升方法8.1提升方法AdaBoost8.1.1提升方法的基本思路8.1.2AdaBoost算法8.1.3AdaBoost的例子（代码实现）8.2AdaBoost算法的训练误差分析定理8.1AdaBoost训练误差界定理8.2二分类问题AdaBoost训练误差界8.3AdaBoost算法的解释8.3.1前向分步算法8.3.2前向分步算法与AdaBoost8.4提升树8.4.1提升树模型8.4.2提
一切皆是映射：神经网络在图像识别中的应用案例 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：神经网络在图像识别中的应用案例关键词：神经网络、图像识别、深度学习、卷积神经网络、映射、模式识别1.背景介绍1.1问题的由来图像识别问题的研究源于人类对于智能机器的渴望。早在20世纪50年代，人工智能的先驱们就开始探索如何让计算机具备类似人类的视觉感知能力。从最初的简单模式匹配，到后来的统计学习方法，再到如今的深度学习，图像识别技术经历了几代演变。这一演变过程反映了人工智能技术的快速
【统计学习方法读书笔记】（四）朴素贝叶斯法 Y.G Bingo 统计学习方法人工智能统计学习概率概率论
终于到了贝叶斯估计这章了，贝叶斯估计在我心中一直是很重要的地位，不过发现书中只用了不到10页介绍这一章，深度内容后，发现贝叶斯估计的基础公式确实不多，但是由于正态分布在生活中的普遍性，贝叶斯估计才应用的非常多吧！默认输入变量用XXX表示，输出变量用YYY表示概率公式描述：P(X=x)P(X=x)P(X=x)：表示当X=xX=xX=x时的概率P(X=x∣Y=ck)P(X=x|Y=c_k)P(X=x∣
【统计学习方法】感知机 jyyym ml苦手机器学习
一、前言感知机是FrankRosenblatt在1957年就职于康奈尔航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单的前馈神经网络，是一种二元线性分类器。Seemoredetailsinwikipdia感知机.本篇blog将从统计学习方法三要素即模型、策略、算法三个方面介绍感知机，并给出相应代码实现。二、模型假设输入空间是x∈Rnx\in{R^n}x∈Rn，输出空间是y∈{−1,+1
赠书 | 李航老师的蓝皮书茗创科技
赠书活动统计学习方法“统计机器学习方法是实现智能化目标的最有效的手段，统计机器学习是各种智能性处理研究领域中的核心技术，并且在这些领域的发展及应用中起着决定性的作用。”作者简介李航，日本京都大学电气电子工程系毕业，日本东京大学计算机科学博士。北京大学、南京大学客座教授，IEEE会士，ACM杰出科学家，CCF高级会员。研究方向包括信息检索，自然语言处理，统计机器学习，及数据挖掘。曾出版过三部学术专著
统计学习方法（李航）--第二章感知机（比较基础）人間煙火Just
感知机是二分类的线性分类模型，属于判别模型，包括原始形式和对偶形式。（一）感知机模型公式为：f是输出，x是输入，w和b是参数，sign是符号函数（大于0为1，小于0为-1）几何解释：对于特征空间Rn中的一个超平面S，w是S的法向量，b是截距，将超平面空间划分为两个部分，完成2分类任务。（二）学习策略1.数据集的线性可分性：若存在wx+b的超平面可以将数据集完全分割，则称为线性可分。2.学习策略（以
统计学习方法笔记之决策树 Aengus_Sun
更多文章可以访问我的博客Aengus|Blog决策树的概念比较简单，可以将决策树看做一个if-then集合：如果“条件1”，那么...。决策树学习的损失函数通常是正则化后极大似然函数，学习的算法通常是一个递归的选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。可以看出，决策树算法一般包含特征选择，决策树的生成与决策树的剪枝过程。特征选择信息增益熵和条件熵在了解
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第6章逻辑斯谛回归与最大熵模型（2）6.2 最大熵模型北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录6.2最大熵模型6.2.1最大熵原理6.2.3最大熵模型的学习6.2.4极大似然估计《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从原理到实现（基于python）--第1章统计学习方法概论《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻
贝叶斯的缺点人机与认知实验室机器学习人工智能
贝叶斯方法是一种统计学习方法，通过利用贝叶斯定理来计算给定先验概率的情况下，后验概率的条件概率。虽然贝叶斯方法在许多领域中应用广泛且有效，但也存在一些缺点。以下是一些贝叶斯方法的缺点的例子：1、先验概率的选择贝叶斯方法依赖于先验概率的选择，先验概率的不准确性可能导致后验概率的不准确性。选择先验概率是非常困难的，特别是在没有明确领域知识或可靠数据支持的情况下。2、计算复杂度在贝叶斯方法中，计算后验概
机器学习知识体系总结 qq_36661243 机器学习算法
机器学习知识体系总结什么是机器学习？机器学习体系概括监督学习（SupervisedLearning）十种监督学习方法统计学习方法：模型+策略+学习方法模型策略学习算法无监督学习（UnsupervisedLearning）半监督学习参考所有的知识，无论过去，当下和未来，都可以利用某个单一，通用的学习算法中从数据中获取。–《终极算法》什么是机器学习？机器学习（MachineLearning,ML）是一
白铁时代 —— （监督学习）原理推导人生简洁之道 2020年 -面试笔记人工智能
来自李航《统计学习方法》文章目录-1指标相似度0概论1优化类1.1朴素贝叶斯1.2k近邻-kNN1.3线性判别分析二分类LDA多分类LDA流程LDA和PCA的区别和联系1.4逻辑回归模型&最大熵模型逻辑回归最大熵模型最优化1.5感知机&SVM感知机SVM线性可分SVM线性不可分SVM对偶优化问题&非线性SVM序列最小优化算法SMO1.7概率图模型EM算法EM算法的导出和流程应用举例：高斯混合模型(
最大熵阈值python_李航统计学习方法（六）----逻辑斯谛回归与最大熵模型 weixin_39669638 最大熵阈值python
本文希望通过《统计学习方法》第六章的学习，由表及里地系统学习最大熵模型。文中使用Python实现了逻辑斯谛回归模型的3种梯度下降最优化算法，并制作了可视化动画。针对最大熵，提供一份简明的GIS最优化算法实现，并注解了一个IIS最优化算法的Java实现。本文属于初学者的个人笔记，能力有限，无法对著作中的公式推导做进一步发挥，也无法保证自己的理解是完全正确的，特此说明，恳请指教逻辑斯谛回归模型逻辑斯谛
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第6章逻辑斯谛回归与最大熵模型（1）6.1 逻辑斯谛回归模型北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第6章逻辑斯谛回归与最大熵模型6.1逻辑斯谛回归模型6.1.1逻辑斯谛分布6.1.2二项逻辑斯谛回归模型6.1.3模型参数估计6.1.4多项逻辑斯谛回归《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从原理到实现（基于python）--第1章统计学习方法概论《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统
李航统计学习方法----决策树章节学习笔记以及python代码詹sir的BLOG 大数据 python 决策树算法剪枝
目录1决策树模型2特征选择2.1数据引入2.2信息熵和信息增益3决策树生成3.1ID3算法3.2C4.5算法4决策树的剪枝5CART算法（classificationandregressiontree）5.1回归树算法5.2分类树的生成5.3CART剪枝6PYTHON代码实例决策树算法可以应用于分类问题与回归问题，李航的书中主要讲解的是分类树，构建决策树分为三个过程，分别是特征选择、决策树生成、决
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第5章决策树（代码python实践）北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第5章决策树—python实践书上题目5.1利用ID3算法生成决策树，例5.3scikit-learn实例《统计学习方法：李航》笔记从原理到实现（基于python）--第5章决策树第5章决策树—python实践importnumpyasnpimportpandasaspdimportmatplotlib.pyplotasplt%matplotlibinlinefromsklearn.dat
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第4章朴素贝叶斯法北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第4章朴素贝叶斯法4.1朴素贝叶斯法的学习与分类4.1.1基本方法4.1.2后验概率最大化的含义4.2朴素贝叶斯法的参数估计4.2.1极大似然估计4.2.2学习与算法4.2.3贝叶斯估计代码实践GaussianNB高斯朴素贝叶斯scikit-learn实例scikit-learn：伯努利模型和多项式模型《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第1章统计学习方法概论北方骑马的萝卜机器学习笔记学习方法笔记 python 机器学习
文章目录第1章统计学习方法概论1.1统计学习1．统计学习的特点2．统计学习的对象3．统计学习的目的4．统计学习的方法1.2.1基本概念1.2.2问题的形式化1.3统计学习三要素1.3.1模型1.3.2策略1.3.3算法1.4模型评估与模型选择1.4.1训练误差与测试误差1.4.2过拟合与模型选择1.5正则化与交叉验证1.5.1正则化1.5.2交叉验证1.6泛化能力1.6.1泛化误差1.6.2泛化误
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第 2章感知机北方骑马的萝卜机器学习笔记学习方法笔记 python 机器学习
文章目录第2章感知机2.1感知机模型2.2感知机学习策略2.2.1数据集的线性可分性2.2.2感知机学习策略2.3感知机学习算法2.3.1感知机学习算法的原始形式2.3.2算法的收敛性2.3.3感知机学习算法的对偶形式实践：二分类模型（iris数据集）数据集可视化：Perceptronscikit-learn实例《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统计学习方
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第3章 k邻近邻法北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第3章k邻近邻法3.1k近邻算法3.2k近邻模型3.2.1模型3.2.2距离度量3.2.3k值的选择3.2.4分类决策规则3.3k近邻法的实现：kd树3.3.1构造kd树3.3.2搜索kd树算法实现课本例3.1iris数据集scikit-learn实例kd树:构造平衡kd树算法例3.2《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第5章决策树北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第5章决策树5.1决策树模型与学习5.1.1决策树模型5.1.2决策树与if-then规则5.1.3决策树与条件概率分布5.1.4决策树学习5.2特征选择5.2.1特征选择问题5.2.2信息增益5.2.3信息增益比5.3.1ID3算法5.3.2C4.5的生成算法5.4决策树的剪枝5.5CART算法5.5.1CART生成5.5.2CART剪枝《统计学习方法：李航》笔记从原理到实现（基于pyt
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

统计学习方法 第五章习题答案

习题5.1

习题5.2

习题5.3

习题5.4

参考

你可能感兴趣的:(统计学习方法)

统计学习方法第五章习题答案