Sklearn 是基于Python的机器学习工具模块。里面主要包含了6大模块:分类、回归、聚类、降维、模型选择、预处理。
根据Sklearn 官方文档资料,下面将各个模块中常用的模型函数总结出来。
1. 回归及分类(监督学习)
1.1 广义线性模型 (fromsklearn import linear_model)
最小二乘法:拟合一个线性模型, 使得数据集实际观测数据和预测数据(估计值)之间残差平方和最小。
clf=linear_model.LinearRegression(), clf.fit(X,y)
岭回归:改良的最小二乘,解决共线问题。
clf=linear_model.Ridge(alpha=0.5),clf.fit(X,y)
逻辑回归:
clf=linear_model.LogisticRegression()
1.2 朴素贝叶斯
高斯模型: from sklearn.naive_bayes import GassianNB
Gnb=GassianNB(),gnb.fit(data, target).predict(data)
多项式模型:MultinomialNB
伯努利模型:会把输入数据二元化BernoulliNB
1.3 决策树 from sklearn import tree
决策树分类器:clf=tree.DecisionTreeClassifier()
回归分类器(y 值为float非int):
clf=tree. DecisionTreeRegressor()
1.4 支持向量机
from sklearn import svm
clf=svm.SVC()
2. 聚类
K-means:
from sklearn.cluster import KMeans
kmeans= KMeans(n_clusters=2, random_state=0).fit(X)
3. 降维
PCA:
From sklearn.decomposition import PCA
pca = PCA(n_components=2)
method:
fit(X[y])
get_covariance()
get_params([deep])
get_precision()
score(X[y])
4. 特征选择
树特征:
From sklearn.ensemble import ExtraTreesClassifier
5 .数据预处理
From sklearn import preprocessing
标准化:preprocessing.scale(x)
规范化:preprocessing.normalize()
二值化: preprocessing.Binarizer()
处理缺失值:fromsklearn.preprocessing import Imputer
imp=Imputer(missing_values='NaN',strategy='mean',axis=0)