本文使用pandas的read_csv方法读取数据,常用的的方法还有,如pandas.read_sql_query(),pandas.read_excel()等。
import pandas as pd
#读取数据
data = pandas.read_csv('dest.csv')
在进行数据分析之前,首先要了解要分析的数据,以下操作为帮助自己更好的了解自己的数据及其结构。
#查看数据的数据维度
data.shape
#查看数据是否有空值。索引为字段,值为bool值,True有空值,False无空值。
data.isnull().any()
#查看数据的数据类型
data.info()
#查看数据的取值区间。
print(data)
机器能够直接识别数字信息,故可以直接进行处理。
去均值和方差归一化。使数据转换为均值为0,方差为1的列。
from sklearn.preprocessing import StandardScaler
std = StandardScaler()
#可以对多个字段同时进行标准化处理
cols = ['字段1','字段2']
data[cols] = std.fit_transform(data[cols])
最小最大值标准化,将属性缩放到一个指定的最大和最小值(通常是1-0)之间。通常指定feature_range。
from sklearn.preprocessing import MinMaxScaler
#将其标准化为最小值为2,最大值为5
mms = .MinMaxScaler(feature_range=(2,5))
#可以对多个字段同时进行标准化处理
cols = ['字段1','字段2']
data[cols] = mm.fit_transform(data[cols])
数据特征值选择。筛选出特征值大于某个值的字段。
from sklearn.feature_selection import VarianceThreshold
#threshold阈值,选取特征值大于阈值的字段。
var = VarianceThreshold(threshold=10.0)
#可以对多个字段同时进行标准化处理
cols = ['字段1','字段2']
data[cols] = var.fit_transform(data[cols])
如果为中文文本字段。要先使用jieba分词,对文本数据进行分词。然后将文本信息用空格隔开。进行预处理,这里就不过多介绍jieba分词。大家可以去详细看看jieba分词。
根据TF(词频)和IDF(逆向词频)进行分类。通过get_feature_names()可获得所有文本的关键词,通过toarray()可看到词频矩阵的结果。
from sklearn.feature_extraction.text import TfidfVectorizer
tf = TfidfVectorizer()
cols = ['字段1','字段2']
data_new = tf.fit_transform(data[cols])
#转化为矩阵形式
print(data_new.toarray())
#查看关键词
print(data_new.get_feature_names())
会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数,通过get_feature_names()可获得所有文本的关键词,通过toarray()可看到词频矩阵的结果。
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
cols = ['字段1','字段2']
data_new = cv.fit_transform(data[cols])
#转化为矩阵形式
print(data_new.toarray())
#查看关键词
print(data_new.get_feature_names())
对使用字典存储的数据进行特征抽取和向量化。它通过fit_transform函数计算各个词语出现的次数,通过get_feature_names()可获得所有文本的关键词,通过toarray()可看到词频矩阵的结果。
from sklearn.feature_extraction import DictVectorizer
#sparse=False表示不转化为稀疏矩阵。
dict = DictVectorizer(sparse=False)
cols = ['字段1','字段2']
data_new = dict.fit_transform(data[lols])
#转化为矩阵形式
print(data_new.toarray())
#查看关键词
print(data_new.get_feature_names())
如果待测样本中的正负样本值相差不大,则使用train_test_split()将数据分为训练集和测试集
from sklearn.model_selection import train_test_split
#X为所有的X值,y为X值所对应的结果值。test_size=0.25表示测试集占25%,random_state 表示随机取出数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
如果待测样本中正负样本值相差很大,则需要使用SMOTE过采样。需要安装imblearn库。
pip install imblearn
from sklearn.model_selection import train_test_split
#将数据分为测试集和训练集但正负样本值相差过大。
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.25)
#过采样
from imblearn.over_sampling import SMOTE
# 训练时,要保证样本均衡,将X_train和y_train样本过采样。测试时候,样本不均衡,没问题的
smote = SMOTE()
X_train_new,y_train_new = smote.fit_sample(X_train,y_train)
from sklearn.linear_model import LinearRegression
from sklearn.externals import joblib
from sklearn.metrics import r2_score
lr = LinearRegression()
#训练模型
lr.fit(X_train_new,y_train_new)
#保存训练模型
joblib.dump(lr,'./iris.pkl')
#进行预测
y_predict = lr.predict(X_test)
#如果预测数据进行过预处理,还要再转换回原始数据,例如进行过标准化。
y_predict_true = std_y.inverse_transform(y_predict)
#对模型进行评分。
score = r2_score(y_test,y_predict_true)
从已知
from sklearn.naive_bayes import MultinomialNB
mul = MultinomialNB()
#训练模型
mul.fit(X_train_new,y_train_new)
#进行预测
y_predict = mul.predict(X_test)
kmeans算法的过程:(假如有两类)
1.随机选择两个点作为聚类的中心
2.计算所有点距离两个中心的距离,选择距离较近的点作为类别(例如:距离蓝色点近,类别就是蓝色)
3.计算已经分好类的各组数据的平均值,使用各组数据的平均值作为新的中心。
4.以新的中心为依据,跳转到第二步。
5.直到收敛(两次迭代的数值没有明显变化:新中心点的距离减去上次中心点的距离小于某个阈值)。
from sklearn.neighbors import KNeighborsClassifier
#n_neighbors=3表示找出三个最近的 判断这三个中属于哪个类别的多。
knn = KNeighborsClassifier(n_neighbors=3)
#训练模型
knn.fit(X_train_new,y_train_new)
#进行预测
knn.predict(x_test)
决策树是一种无监督的学习方法,用于分类和回归。它对数据中蕴含的决策规则建模,以预测目标变量的值。主要是利用信息熵增益的不同。
from sklearn.tree import DecisionTreeClassifier
d_tree = DecisionTreeClassifier()
#训练模型
d_tree.fit(X_train_new,y_train_new)
#预测数据
d_tree.predict(x_test)
sklearn算法使用方法,都是使用fit函数训练模型,然后再使用predict函数进行预测。下面贴一张sklearn如何选择算法的图。