机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
使用类DecisionTreeRegressor
, 决策树可以应用于回归问题。fit方法取输入数组X, y, 这里的y取浮点值而不是分类的整值。
from sklearn import tree
X = [[0, 0], [2, 2]]
y = [0.5, 2.5]
clf = tree.DecisionTreeRegressor()
clf = clf.fit(X, y)
clf.predict([[1, 1]])
通常,构建一棵平衡的二值树的运行时间代价是 O ( n s a m p l e s n f e a t u r e s log n s a m p l e s ) O(n_{samples}n_{features}\log n_{samples}) O(nsamplesnfeatureslognsamples), 查询时间是 O ( log n s a m p l e s ) O(\log n_{samples}) O(lognsamples). 尽管建树算法试图产生平衡的树,但结果树并不总是平衡的。假设子树维持大致的平衡,在每一个节点的代价包括搜遍 O ( n f e a t u r e s ) O(n_{features}) O(nfeatures) 到找到提供最大熵减少量的特征。在每个节点的代价 O ( n f e a t u r e s n s a m p l e s log n s a m p l e s ) O(n_{features}n_{samples}\log n_{samples}) O(nfeaturesnsampleslognsamples), 这样,加和所有节点的代价得到整棵树的总的代价是 O ( n f e a t u r e s n s a m p l e s 2 log n s a m p l e s ) O(n_{features}n_{samples}^2\log n_{samples}) O(nfeaturesnsamples2lognsamples).
Scikit-learn提供了更加有效的决策树构建执行。一个naive执行是,重新计算类标签直方图(分类问题),或者沿着一个给定的特征,在每个新分割点的均值(回归问题)。在所有相关的样本上预先排序特征,保持一个运行标签计数,将减少每个节点的复杂度到 O ( n f e a t u r e s log n s a m p l e s ) O(n_{features}\log n_{samples}) O(nfeatureslognsamples), 这样,整个代价是 O ( n s a m p l e s n f e a t u r e s log n s a m p l e s ) O(n_{samples}n_{features}\log n_{samples}) O(nsamplesnfeatureslognsamples). 这是一个基于所有树算法的选项。
对于包括大量特征的数据,决策树容易过度拟合数据。得到样本与特征的比率是重要的,因为高维空间、小样本的树很容易是过度拟合的。
在建树前可以考虑作特征降维(PCA, ICA, 特征选择)。
使用export函数可视化树,使用参数max_depth=3作为一个初始的树深度,对树拟合数据的程度有一个初步的感觉,然后再增加树深。使用max_depth控制树的规模,避免过度拟合。
使用min_samples_split or min_samples_leaf控制每个叶子节点的样本数。样本量太少通常意味着过度拟合,而样本量太大会抑制树从数据学习。试设min_samples_leaf=5作为初始值,如果样本量变化很大,一个浮点数可以作为这两个参数的百分比。它们之间的区别是,min_samples_leaf保证了在叶子的最小样本量,而min_samples_split能产生任意小的叶子,min_samples_split在文献里是更普遍使用的。
在训练前平衡你的数据集,避免树偏向于占支配地位的类。类平衡可以通过从每个类中抽取等量的样本实现,更好的做法是,规范化每一个类的样本权和到相同的值。
如果样本加权了,那么,使用基于权的预修剪准则,例如,min_weight_fraction_leaf, 更容易优化树结构。
所有的树都使用了np.float32数组。如果训练数据并不是这种格式,将作一个数据集拷贝。
如果输入矩阵X是稀疏的,建议拟合前转换到稀疏的csc_matrix, 预测前转换到稀疏的csr_matrix. 当特征在大多数样本里是0时,在稀疏输入矩阵上的训练时间要更快一些。
ID3(Iterative Dichotomiser 3)算法产生一棵多叉树,在每一个节点寻找产生类目标的最大信息增益的类特征。树生长到最大的规模,然后通常应用一个修剪步,改善树的预测能力。
C4.5算法是ID3算法的继承,去掉了对特征必须是类别的限制。它根据数值变量,动态地定义一个离散属性,用来分割连续属性值为一个离散的区间集。C4.5转换训练树(即,ID3算法的输出)为if-then规则集。随后,评价每一个规则的准确性,以此确定规则应用的顺序。
C5.0算法是C4.5的升级版,它使用更少的内存,创建更少的规则,而保持更高的准确性。
CART(Classification and Regression Trees)算法类似于C4.5, 区别在于它支持数值目标变量(回归),并不计算规则集。CART使用特征和阈值创建二值树,阈值在每一个节点产生最大信息增益。scikit-learn实际使用的是一个CART算法的优化版本。
给定训练向量 x i ∈ R n x_i\in\mathbb{R}^n xi∈Rn, i = 1 , … , I i=1,\dots,I i=1,…,I. 标签向量 y ∈ R l y\in\mathbb{R}^l y∈Rl, 一棵决策树递归地分割空间,使得具有相同标签的样本被分到一起。
令 Q Q Q 表示节点 m m m 的数据。对于每一个候选分割 θ = ( j , t m ) \theta=(j, t_m) θ=(j,tm), j j j 表示特征, t m t_m tm 表示分割数据 Q Q Q 为 Q l e f t ( θ ) Q_{left}(\theta) Qleft(θ), Q r i g h t ( θ ) Q_{right}(\theta) Qright(θ) 子集的阈值。其中,
Q l e f t ( θ ) = ( x , y ) / x j ≤ t m Q_{left}(\theta)=(x, y)/x_j\le t_m Qleft(θ)=(x,y)/xj≤tm
Q r i g h t ( θ ) = Q ∖ Q l e f t ( θ ) Q_{right}(\theta)=Q \setminus Q_{left}(\theta) Qright(θ)=Q∖Qleft(θ)
使用非纯度函数 H ( ) H() H() 计算 m m m 点的不纯度(impurity), H H H 的选择依赖于要解决的问题的性质(分类还是回归)。
G ( Q , θ ) = n l e f t N m H ( Q l e f t ( θ ) ) + n r i g h t N m H ( Q r i g h t ( θ ) ) G(Q, \theta)=\frac{n_{left}}{N_m}H(Q_{left}(\theta))+\frac{n_{right}}{N_m}H(Q_{right}(\theta)) G(Q,θ)=NmnleftH(Qleft(θ))+NmnrightH(Qright(θ))
选择使不纯度最小的参数 θ \theta θ
θ ∗ = arg min θ G ( Q , θ ) \theta^*=\mathop{\arg\min}_{\theta}G(Q, \theta) θ∗=argminθG(Q,θ)
在子集 Q l e f t ( θ ∗ ) , Q r i g h t ( θ ∗ ) Q_{left}(\theta^*), Q_{right}(\theta^*) Qleft(θ∗),Qright(θ∗) 上递归,直到达到最大允许深度, N m < min { s a m p l e s } N_m<\min \{samples\} Nm<min{samples} 或者 N m = 1 N_m=1 Nm=1.
如果目标是在 0 , 1 , … , K − 1 0, 1, \dots, K-1 0,1,…,K−1 上取值的分类结果。对于节点 m m m, R m R_m Rm 表示具有 N m N_m Nm 个观测的区域,令
p m k = 1 N m ∑ x i ∈ R m I ( y i = k ) \mathcal{p}_{mk}=\frac{1}{N_m}\sum\limits_{x_i\in R_m}I(y_i=k) pmk=Nm1xi∈Rm∑I(yi=k)
是节点 m m m 处属于类 k k k 的观测比例。
表示不纯度,普遍采用的是
H ( X m ) = ∑ k p m k ( 1 − p m k ) H(X_m)=\sum\limits_{k}\mathcal{p}_{mk}(1-\mathcal{p}_{mk}) H(Xm)=k∑pmk(1−pmk)
H ( X m ) = − ∑ k p m k log p m k H(X_m)=-\sum\limits_{k}\mathcal{p}_{mk}\log\mathcal{p}_{mk} H(Xm)=−k∑pmklogpmk
H ( X m ) = 1 − max ( p m k ) H(X_m)=1-\mathop{\max}(\mathcal{p}_{mk}) H(Xm)=1−max(pmk)
这里, X m X_m Xm 是节点 m m m 的训练数据。
如果目标变量是连续的,那么对于节点 m m m, R m R_m Rm 表示具有 N m N_m Nm 个观测的区域,确定下一步分割的普遍原则是,最小化均方误差(Mean Squared Error), 即,使用终点的均值,最小化L2误差。或者最小化平均绝对误差(Mean Absolute Error), 即,使用终点的中位数值,最小化L1误差。
H ( X m ) = 1 N m ∑ i ∈ N m ( y i − c m ) 2 H(X_m)=\frac{1}{N_m}\sum\limits_{i\in N_m}(y_i-c_m)^2 H(Xm)=Nm1i∈Nm∑(yi−cm)2
c m = 1 N m ∑ i ∈ N m y i c_m=\frac{1}{N_m}\sum\limits_{i\in N_m}y_i cm=Nm1i∈Nm∑yi
H ( X m ) = 1 N m ∑ i ∈ N m ∣ y i − y ˉ m ∣ H(X_m)=\frac{1}{N_m}\sum\limits_{i\in N_m}|y_i-\bar{y}_m| H(Xm)=Nm1i∈Nm∑∣yi−yˉm∣
y ˉ m = 1 N m ∑ i ∈ N m y i \bar{y}_m=\frac{1}{N_m}\sum\limits_{i\in N_m}y_i yˉm=Nm1i∈Nm∑yi
这里, X m X_m Xm 是节点 m m m 处的训练数据。
阅读更多精彩内容,请关注微信公众号:统计学习与大数据