机器学习基础——k近邻法

k近邻的思想

对给定的训练数据和输入数据,首先确定输入数据的k个最近邻训练点,然后依据这k个训练点多数所属的类来预测输入数据的类。

k近邻法三要素

距离度量、k值选择、分类决策规则

距离度量
最一般的形式为 L p L_p Lp距离,即两个向量作差的 p p p范数, x 1 = ( a 1 , a 2 , . . . , a n ) , x 2 = ( b 1 , b 2 , . . . , b n ) x_1 = (a_1,a_2,...,a_n),x_2 = (b_1,b_2,...,b_n) x1=(a1,a2,...,an),x2=(b1,b2,...,bn)
L p = ( Σ i n ∣ x 1 ( i ) − x 2 ( i ) ∣ ) 1 p L_p = (\Sigma_i^n |x_1^{(i)}-x_2^{(i)}|)^{\dfrac{1}{p}} Lp=(Σinx1(i)x2(i))p1
p = 1 p=1 p=1称为曼哈顿距离
p = 2 p=2 p=2称为欧式距离
p = ∞ p=∞ p=是各个坐标差值的最大值
L ∞ = m a x ∣ x 1 ( i ) − x 2 ( i ) ∣ L_∞ = max| x_1^{(i)}-x_2^{(i)}| L=maxx1(i)x2(i)

k值选择
k值较小,模型较复杂,容易过拟合
k值较小,模型较简单
在应用中,k一般取值较小,通常采用交叉验证的方法取得最优的k值

你可能感兴趣的:(机器学习,机器学习,人工智能,分类)