众所周知,电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪
个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问
题。没有哪个电影人会说自己制作的电影和以前的某部电影类似,但我们确实知道每部电影在风格
上的确有可能会和同题材的电影相近。那么动作片具有哪些共有特征,使得动作片之间非常类似,
而与爱情片存在着明显的差别呢?动作片中也会存在接吻镜头,爱情片中也会存在打斗场景,我们
不能单纯依靠是否存在打斗或者亲吻来判断影片的类型。但是爱情片中的亲吻镜头更多,动作片中
的打斗场景也更频繁,基于此类场景在某部电影中出现的次数可以用来进行电影分类。
存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据
与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的
特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们
只选择样本数据集中前K个最相似的数据,这就是K-近邻算法中K的出处,通常K是不大于20的整数。
最后 ,选择K个最相似数据中出现次数最多的分类,作为新数据的分类。
回到前面电影分类的例子,使用K-近邻算法分类爱情片和动作片。有人曾经统计过很多电影的打斗镜头和接吻镜头,下图显示了6部电影的打斗和接吻次数。假如有一部未看过的电影,如何确定它是爱情片还是动作片呢?我们可以使用K-近邻算法来解决这个问题。
首先我们需要知道这个未知电影存在多少个打斗镜头和接吻镜头,上图中问号位置是该未知电影出现的镜头数图形化展示,具体数字参见下表。
即使不知道未知电影属于哪种类型,我们也可以通过某种方法计算出来。首先计算未知电影与样本集中其他电影的距离,如图所示。
现在我们得到了样本集中所有电影与未知电影的距离,按照距离递增排序,可以找到K个距 离最近的电影。假定k=3,则三个最靠近的电影依次是California Man、He’s Not Really into Dudes、Beautiful Woman。K-近邻算法按照距离最近的三部电影的类型,决定未知电影的类型,而这三部电影全是爱情片,因此我们判定未知电影是爱情片。
分类问题:from sklearn.neighbors import KNeighborsClassifier
鸢尾花分类的实现
import sklearn.datasets as datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
#1.捕获鸢尾花数据
iris = datasets.load_iris()
#2.提取样本数据
feature = iris['data']
target = iris['target']
#3.数据集进行拆分
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020)
#4.观察数据集:看是否需要进行特征工程的处理
x_train.shape
#5.实例化模型对象
knn = KNeighborsClassifier(n_neighbors=6)#n_neighbors == k
- 在knn中k的取值不同会直接导致分类结果的不同。n_neighbors参数就表示k值。
- 模型的超参数:如果模型参数有不同的取值且不同的取值会模型的分类或者预测会产生直系的影响。
x_train.shape
#6.使用训练集数据训练模型
#X:训练集的特征数据.特征数据的维度必须是二维。
#y:训练集的标签数据
knn = knn.fit(x_train,y_train)
#7.测试模型:使用测试数据
#predict表示使用训练好的模型实现分类或者预测
y_pred = knn.predict(x_test) #模型基于测试数据返回的分类结果
y_true = y_test #测试集真实的分类结果
print('模型的分类结果:',y_pred)
print('真实的分类结果:',y_true)
knn.score(x_test,y_test)
knn.predict([[6.1,3.1,4.7,2.1]]) #未知数据进行了分类
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
import numpy as np
#加载数据
df = pd.read_csv('./datasets/adults.txt')
df
#样本数据的提取
target = df['salary']
feature = df[['age','education_num','occupation','hours_per_week']]
feature.shape
target.shape
#数据集拆分
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.1,random_state=2020)
#观察特征数据看是否需要进行特征工程
occ_one_hot = pd.get_dummies(x_train['occupation'])
x_train = pd.concat((x_train,occ_one_hot),axis=1).drop(labels='occupation',axis=1)
knn = KNeighborsClassifier(n_neighbors=33).fit(x_train,y_train)
#对测试集的特征进行one-hot编码
occ_one_hot_test = pd.get_dummies(x_test['occupation'])
x_test = pd.concat((x_test,occ_one_hot_test),axis=1).drop(labels='occupation',axis=1)
knn.score(x_test,y_test)
x_test
scores = []
ks = []
for i in range(5,100):
knn = KNeighborsClassifier(n_neighbors=i)
knn.fit(x_train,y_train)
score = knn.score(x_test,y_test)
scores.append(score)
ks.append(i)
scores_arr = np.array(scores)
ks_arr = np.array(ks)
%matplotlib inline
import matplotlib.pyplot as plt
plt.plot(ks_arr,scores_arr)
plt.xlabel('k_value')
plt.ylabel('score')
scores_arr
#最大值的下标
scores_arr.argmax()
ks_arr[33] #最高分值对应的k值是38
- k-近邻算法之约会网站配对效果判定(datingTestSet.txt)
df = pd.read_csv('./datasets/datingTestSet.txt',header=None,sep='\s+')
df
feature = df[[0,1,2]]
target = df[3]
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020)
x_train #观察特征数据查看是否需要进行特征工程
#对训练集特征数据进行预处理
from sklearn.preprocessing import MinMaxScaler
mm = MinMaxScaler()
m_x_train = mm.fit_transform(x_train) #训练集的特征数据进行归一化操作
#对测试集的特征数据进行归一化处理
m_x_test = mm.transform(x_test)
#绘制学习曲线找寻最优的k值
scores = []
ks = []
for k in range(3,50):
knn = KNeighborsClassifier(n_neighbors=k)
knn.fit(m_x_train,y_train)
score = knn.score(m_x_test,y_test)
scores.append(score)
ks.append(k)
scores_arr = np.array(scores)
ks_arr = np.array(ks)
plt.plot(ks_arr,scores_arr)
scores_arr.argmax()
ks_arr[0]
#基于学习曲线找寻到的最优的k值来实例化模型对象
knn = KNeighborsClassifier(n_neighbors=3).fit(m_x_train,y_train)
knn.score(m_x_test,y_test)
#实现分类
knn.predict([[2345,23,1.1]])
目的:
思想:
实现思路:
API
交叉验证在KNN中的基本使用
from sklearn.model_selection import cross_val_score
iris = datasets.load_iris()
feature = iris['data']
target = iris['target']
#拆分出训练集和测试集
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020)
#对训练集进行交叉验证
cross_val_score(knn,x_train,y_train,cv=5).mean()
- 使用交叉验证&学习曲线找寻最优的超参数
- KNN中的k值为5,不一定是最佳的选择,所以我们可以来进行选择,找到一个最优的k
scores = []
ks = []
iris = datasets.load_iris()
feature = iris['data']
target = iris['target']
#拆分出训练集和测试集
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020)
for k in range(3,20):
knn = KNeighborsClassifier(n_neighbors=k)
score = cross_val_score(knn,x_train,y_train,cv=6).mean()
scores.append(score)
ks.append(k)
plt.plot(ks,scores)
from sklearn.linear_model import LogisticRegression
knn = KNeighborsClassifier(n_neighbors=5)
print (cross_val_score(knn, x_train, y_train, cv=10).mean())
lr = LogisticRegression()
print(cross_val_score(lr,x_train,y_train,cv=10).mean())
### K-Fold&cross_val_score
- Scikit中指供了K-Fold的API
- n-split就是折数
- shuffle指是否对数据洗牌
- random_state为随机种子,固定随机性
```PYTHON
from numpy import array
from sklearn.model_selection import KFold
# data sample
data = array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6])
kfold = KFold(n_splits=3, shuffle = True, random_state= 1)
for train, test in kfold.split(data):
print('train: %s, test: %s' % (data[train], data[test]))
- Scikit中提取带K-Fold接口的交叉验证接口sklearn.model_selection.cross_validate,但是该接口没有数据shuffle功能,所以一般结合Kfold一起使用。如果Train数据在分组前已经经过了shuffle处理,比如使用train_test_split分组,那就可以直接使用cross_val_score接口
from sklearn.model_selection import cross_val_score
iris = datasets.load_iris()
X, y = iris.data, iris.target
knn = KNeighborsClassifier(n_neighbors=5)
n_folds = 5
kf = KFold(n_folds, shuffle=True, random_state=42).get_n_splits(X)
scores = cross_val_score(knn, X, y, cv = kf)
scores.mean()