周志华《机器学习》勘误表

周志华老师的《机器学习》的勘误

原帖地址: http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm

由于勘误是不断更新的,本博客并不会实时更新,因此建议看原贴,原贴是周老师实时更新的勘误,本博客只是部分勘误

勘误修订

[部分修订是为了更便于读者理解,并非原文有误]

(第一版第十次印刷, 2016年9月):

(第一版第九次印刷, 2016年8月):

(第一版第八次印刷, 2016年5月):

  • p.5, 第2段倒数第3行: “3、2、2” –> “3、3、3”
  • p.5, 第2段倒数第2行: “ 4×3×3+1=37 4 × 3 × 3 + 1 = 37 ” –> “4 \times 4 \times 4 + 1 = 65 4 \times 4 \times 4 + 1 = 65
  • p.26, 边注第2行: “2.6 节” –> “2.5 节”
  • p.41, 式(2.33)上面一行: “正态分布, 且均值 …… 因此变量” –> “正态分布. McNemar检验考虑变量”
  • p.41, 式(2.33)旁加边注: “ e01+e10 e 01 + e 10 通常很小, 需考虑连续性校正, 因此分子中有 1 − 1 项”
  • p.45, 第一个边注: “由式(2.37)” –> “考虑到噪声不依赖于 f f , 由式(2.37)”
  • p.63, 式(3.45)下面一行: “ N1 N − 1 个最大” –> “ d d ′ 个最大非零”
  • p.63, 式(3.45)下面第2行: “矩阵.” –> “矩阵, dN1 d ′ ≤ N − 1 .”; 加边注: “最多有 N1 N − 1 个非零特征值”
  • p.63, 式(3.45)下面第3行: “ N1 N − 1 维” –> “ d d ′ 维”
  • p.63, 式(3.45)下面第4行: “ N1 N − 1 通常远小于数据原有的属性数” –> “ d d ′ 通常远小于数据原有的属性数 d d
  • p.100, 图5.5, 左图最上面的 “阈值 0.5 0.5 ” –> “阈值 1.5 1.5
  • p.100, 图5.5, 左图最右边的 “阈值 0.5 0.5 ” –> “阈值 1.5 − 1.5
  • p.100, 图5.5, 左图中间的”1  -1  -1  1” –> “1  1  -1  -1”
  • p.125, 式(6.18): “ ys y s ” –> “ 1/ys 1 / y s
  • p.136, 式(6.54): 右边最后一项中的四处 ” i i ” –> “ j j
  • p.136, 式(6.54): 右边最后一项中最后的 ” \bmx \bm x ” –> “ \bmxi \bm x i
  • p.152, 第三个式子等号右端: “ 0.375 0.375 ” –> “ 0.625 0.625
  • p.153, 第3行: “ 0.038 0.038 ” –> “ 0.063 0.063
  • p.153, 第6行: “ 0.038 0.038 ” –> “ 0.063 0.063
  • p.160, 式(7.29)下面第2行: “需多少字节来描述 D D ” –> “对 D D 描述得有多好”;加边注: “可以从统计学习角度理解, 将两项分别视为结构风险和经验风险”
  • p.239, 式(10.39)第二行式子: 去掉上标 “ 2 2
  • p.244, 第13行: “Locally” –> “Nonlinear dimensionality reduction by locally”
  • p.244, 第14行: “2316” –> “2326”
  • p.249, 式(11.2): “ i=1 i = 1 ” –> “ k=1 k = 1
  • p.253, 倒数第5行: “[Boyd and Vandenberghe, 2004]” –> “[Combettes and Wajs, 2005]”
  • p.263, 倒数第4行, 插入: “Combettes, P. L. and V. R. Wajs. (2005). “Signal recovery by proximal forward-backward splitting.” \textit{Mutiscale Modeling & Simulation}, 4(4):1168–1200.”
  • p.277, 式(12.29): “ E(h)E^(h) E ( h ) − E ^ ( h ) ” –> “ E(h)E^(h) | E ( h ) − E ^ ( h ) |
  • p.299, 式(13.9)后第三段第2行: “关于 Du D u ” –> “涉及 Cu C u

(第一版第七次印刷, 2016年4月):

  • p.42, 表2.5下面一段的第三行: “服从正态分布,其均值” –> “的均值”
  • p.42, 倒数第二行加边注: “原始检验要求 k k 较大(例如>30 >30 ),若 k k 较小则倾向于认为无显著区别”

(第一版第六次印刷, 2016年4月):

  • p.56, 图3.1中,红色第一和第二个点的坐标互换
  • p.114, 图5.15中, 卷积层 16@10x10 和 采样层 16@5x5 各去掉 8 个方块
  • p.301, 式(13.12)的下一行: “ (\bmfTl\bmfTu)T ( \bm f l T \bm f u T ) T ” –> “ (\bmfTl;\bmfTu) ( \bm f l T ; \bm f u T )
  • p.372, 图16.2: 从”s=健康”到”s=溢水”的 “r=1” –> “r=-1”
  • p.376, 图16.5的边注: “第 4 行中式(16.4)的参数” –> “该参数在第4行使用”
  • p.385, 第二行: “在使用策略时并不需要 ϵ ϵ − 贪心” –> “而不是为了最终使用”
  • p.387, 倒数第二行: “ ϵ ϵ − 贪心策略, 而执行(第5行)的是原始策略” –> “原始策略, 而执行(第4行)的是 ϵ ϵ − 贪心策略”
  • p.393, 第四段第一行: 去掉 “[Kuleshov and Precup, 2000]和”
  • p.395, 去掉最后一行
  • p.396, 去掉第一行
  • p.402, 式(A.32)加边注: “机器学习中 W W 通常是对称矩阵”

(第一版第五次印刷, 2016年3月):

  • p.62, 第1行加边注: “ (\bmμ0\bmμ1)T\bmw ( \bm μ 0 − \bm μ 1 ) T \bm w  是标量”
  • p.78, 图4.4, 从右往左数: 第二个叶结点改为“好瓜”,第三个叶结点改为“坏瓜”
  • p.85, 图4.8, 从右往左数: 第二个叶结点改为“好瓜”,第三个叶结点改为“坏瓜”
  • p.85, 图4.8, 中间分支底层: “硬挺”–> “硬滑”
  • p.89, 图4.9, 中间分支底层: “硬挺”–> “硬滑”
  • p.103, 最后一行的式子: 求和的” q q ” –> “ l l
  • p.399, 式(A.9): “ A1σn A 1 σ n ” –> “ Anσn A n σ n
  • p.400, 第1行: “(1,4,3,2)” –> “(3,1,2)”
  • p.402, 式(A.32)最后一行的式子中: “ 2A 2 A ” –> “ 2AT 2 A T

(第一版第四次印刷, 2016年3月):

  • p.59, 式(3.27)加边注: “考虑 yi{0,1} y i ∈ { 0 , 1 }

(第一版第三次印刷, 2016年3月):

  • p.15, 第5行: “居功” –> “厥功”
  • p.55, 最后一行: 式子括号中的逗号改为分号
  • p.125, 第3行: “减小” –> “增大”
  • p.125, 第4行,第6行: “减幅” –> “增幅”
  • p.125, 第5行: “减小” –> “增长”

(第一版第二次印刷, 2016年2月):

  • p.38, 第6行: “ ϵm ϵ m ′ ” –> “ (mm)ϵm ( m m ′ ) ϵ m ′
  • p.119, 第14行: “318–362” –> “533–536”
  • p.404, 式(B.3)最后一行的式子 –> “ λg(\bmx)=0 λ g ( \bm x ) = 0

(第一版第一次印刷, 2016年1月):

  • p.6, 图1.2: 图中两处”清脆” –> “浊响”
  • p.28, 第3段倒数第2行: “大量” –> “不少”
  • p.28, 边注: “例如 ……上百亿个参数” –> “机器学习常涉及两类参数: 一类是算法的参数, 亦称”超参数”, 数目常在10以内; 另一类是模型的参数, 数目可能很多, 例如……上百亿个参数. 两者调参方式相似, 均是产生多个模型之后基于某种评估方法来进行选择; 不同之处在于前者通常是由人工设定多个参数候选值后产生模型, 后者则是通过学习来产生多个候选模型(例如神经网络在不同轮数停止训练).”
  • p.31, 倒数第3行: “Event” –> “Even”
  • p.256, 第4段: “固定住 αi α i ” –> “以 αi α i 为初值”
  • p.256, 最后一段第1行: “ Ei= E i = ” –> “ Ei=X E i = X −
  • p.385, 式(16.25)和(16.26): 两处” ri r i ” –> “ Ri R i
  • p.385, 式(16.25)下一行: “若改用……” –> “其中 Ri R i 表示第 i i 条轨迹上自状态 x x 至结束的累积奖赏. 若改用……”
  • p.386, 式(16.28)下一行: “始终为1” –> “对于 ai=π(xi) a i = π ( x i ) 始终为1”
  • p.386, 图16.11, 第4步: 两处 “ π(x) π ( x ) ” –> “ π(xi) π ( x i )
  • p.386, 图16.11, 第6步的式子 –> “ R=1Tt(Ti=t+1ri)T1i=t+1I(ai=π(xi))pi R = 1 T − t ( ∑ i = t + 1 T r i ) ∏ i = t + 1 T − 1 I ( a i = π ( x i ) ) p i
  • p.386, 图16.11, 边注”计算修正的累积奖赏.” –> “计算修正的累积奖赏. 连乘内下标大于上标的项取值为1.”; 去掉边注”重要性采样系数.”

你可能感兴趣的:(机器学习)