实例数据操作02


实例数据操作02_第1张图片

今天看数据预处理,其实预处理和不处理,对结果的得分有很大的影响,最好是先比较两者的差异,再决定要不要用,预处理一般包括


scaler.fit(X_train)

X_train_scaled = scaler.transform(X_train)

三个步骤:1导入相关的预处理模块,并初始化,

2  匹配要处理的数据(一般都是因变量 测试的和训练的)

3  转换匹配处理后的结果

scaler = Min Max Scaler()

scaler.fit(X_train)

X_train_scaled = scaler.transform(X_train)

X_test_scaled = scaler.transform(X_test)

这个可以将两部合为一体:      X_scaled_d = scaler.fit_transform(X)

但卧槽


实例数据操作02_第2张图片


还有一种常见的:

##preprocessing using zero mean and unit variance scaling

from sklearn.preprocessing import StandardScaler



实例数据操作02_第3张图片

Principal Component Analysis (PCA)


实例数据操作02_第4张图片


实例数据操作02_第5张图片


实例数据操作02_第6张图片

Original shape: (569, 30)

Reduced shape: (569, 2)


实例数据操作02_第7张图片


实例数据操作02_第8张图片


擦,,看不懂打


实例数据操作02_第9张图片

from sklearn.cluster import KMeans


from sklearn.datasets import make_blobs

from sklearn.cluster import KMeans

# generate synthetic two-dimensional data

X, y = make_blobs(random_state=1)

# build the clustering model

kmeans = KMeans(n_clusters=3)

kmeans.fit(X)


实例数据操作02_第10张图片


实例数据操作02_第11张图片

data_dummies = pd.get_dummies(data)  生成哑变量

数字进行编码

demo_df = pd.Data Frame({'Integer Feature': [0, 1, 2, 1],

'Categorical Feature': ['socks', 'fox', 'socks', 'box']})


实例数据操作02_第12张图片


实例数据操作02_第13张图片


实例数据操作02_第14张图片


实例数据操作02_第15张图片


实例数据操作02_第16张图片


实例数据操作02_第17张图片


实例数据操作02_第18张图片


实例数据操作02_第19张图片


实例数据操作02_第20张图片


实例数据操作02_第21张图片


模型检测和提高

k-fold cross-validation, 最常用的交叉验证


实例数据操作02_第22张图片

最常用的函数是cross_val_score(), 第一个参数是选择的模型,第二个是因变量,第三个是输出值,默认是三重交叉验证,可以改变重数

A common way to summarize the cross-validation accuracy is to compute the mean:,最常用的是输出其均值

print("Average cross-validation score: {:.2f}".format(scores.mean()))


实例数据操作02_第23张图片


实例数据操作02_第24张图片


from sklearn.model_selection import Grid Search CV

from sklearn.svm import SVC

grid_search = Grid Search CV(SVC(), param_grid, cv=5)

X_train, X_test, y_train, y_test = train_test_split(

iris.data, iris.target, random_state=0)

grid_search.fit(X_train, y_train)

print("Test set score: {:.2f}".format(grid_search.score(X_test, y_test)))

Test set score: 0.97

print("Best parameters: {}".format(grid_search.best_params_))

print("Best cross-validation score: {:.2f}".format(grid_search.best_score_))


实例数据操作02_第25张图片

实例数据操作02_第26张图片


实例数据操作02_第27张图片


实例数据操作02_第28张图片


实例数据操作02_第29张图片


实例数据操作02_第30张图片


实例数据操作02_第31张图片


实例数据操作02_第32张图片


实例数据操作02_第33张图片


实例数据操作02_第34张图片


实例数据操作02_第35张图片

Precision-recall curves and ROC curves:

from sklearn.metrics import precision_recall_curve

precision, recall, thresholds = precision_recall_curve(

y_test, svc.decision_function(X_test))

实例数据操作02_第36张图片

Receiver operating characteristics (ROC) and AUC

实例数据操作02_第37张图片


实例数据操作02_第38张图片


















你可能感兴趣的:(实例数据操作02)