Python Spark MLlib之朴素贝叶斯分类

数据准备

和决策树分类一样,依然使用StumbleUpon Evergreen数据进行实验。

Local模式启动ipython notebook

cd ~/pythonwork/ipynotebook
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark

导入并转换数据

## 定义路径
global Path
if sc.master[:5]=="local":
    Path="file:/home/yyf/pythonwork/PythonProject/"
else:
    Path="hdfs://master:9000/user/yyf/"
## 读取train.tsv
print("开始导入数据...")
rawDataWithHeader = sc.textFile(Path+"data/train.tsv")
## 取第一项数据
header = rawDataWithHeader.first()
## 剔除字段名(特征名)行,取数据行
rawData = rawDataWithHeader.filter(lambda x:x!=header)
## 将双引号"替换为空字符(剔除双引号)
rData = rawData.map(lambda x:x.replace("\"",""))
## 以制表符分割每一行
lines = rData.map(lambda x: x.split("\t"))
print("共有:"+str(lines.count())+"项数据")

数据预处理

1、处理特征

该数据集tran.tsv和test.tsv的第3个字段是alchemy_category网页分类,是一个离散值特征,要采用OneHotEncode的方式进行编码转换为数值特征,主要过程如下:

  • (1) 创建categoriesMap字典,key为网页类别名,value为数字(网页类别名的索引值),每个类别名对应一个索引值
  • (2) 根据categoriesMap字典查询每个alchemy_category特征值对应的索引值,例如business的索引值categoryIdx为2
  • (3) 根据categoryIdx=2,以OneHotEncodeer的方式转换为一个列表categoryFeatures List,该列表长度为14(统计所有网页类别),categoryIdx=2对应的列表为[0,0,1,0,0,0,0,0,0,0,0,0,0,0]。

建立categoriesMap网页分类字典

categoriesMap = lines.map(lambda fields: fileds[3]).distinct().zipWithIndex().collectAsMap()

其中,lines.map()表示处理之前读取的数据的每一行,.map(lambda fields: fileds[3])表示读取第3个字段,.distinct()保留不重复数据,.zipWithIndex()将第3个字段中不重复的数据进行编号,.collectAsMap()转换为dict字典格式

将每个alchemy_category网页分类特征值转化为列表categoryFeatures List

## 给定一个alchemy_category网页分类特征转化为OneHot 列表
## 查询对应索引值
import numpy as np
categoryIdx = categoriesMap[lines.first()[3]]
OneHot = np.zeros(len(categoriesMap))
OneHot[categoryIdx] = 1
print(OneHot)

对于第4~25字段的数值特征,要转换为数值,用float函数将字符串转换为数值,同时简单处理缺失值”?”为0,(且小于0的数值都变为0不然训练的时候会报错)。

整个处理特征的过程可以封装成一个函数:

##  定义函数提取网页分类特征字段(将alchemy_category网页分类特征转为为OneHotEncode列表)
import numpy as np

def convert_float(v):
    """处理数值特征的转换函数,(朴素贝叶斯)将小于0的数值设置为0"""
    ret = (0 if v=="?" else float(v))
    return abs(ret)

def process_features(line, categoriesMap, featureEnd):
    """处理特征,line为字段行,categoriesMap为网页分类字典,featureEnd为特征结束位置,此例为25"""
    ## 处理alchemy_category网页分类特征
    categoryIdx = categoriesMap[line[3]]
    OneHot = np.zeros(len(categoriesMap))
    OneHot[categoryIdx] = 1
    ## 处理数值特征
    numericalFeatures = [convert_float(value) for value in line[4:featureEnd]]
    # 返回拼接的总特征列表
    return np.concatenate((OneHot, numericalFeatures))

## 处理特征生成featureRDD
featureRDD = lines.map(lambda r: process_features(r, categoriesMap, len(r)-1))
featureRDD.first()

2、数据标准化

对数值特征进行标准化,以之前逻辑回归不同的是这里withMean=False:

## 数据标准化
from pyspark.mllib.feature import StandardScaler   # 导入数据标准化模块

## 对featureRDD进行标准化
stdScaler = StandardScaler(withMean=False, withStd=True).fit(featureRDD)  # 创建一个标准化实例
ScalerFeatureRDD = stdScaler.transform(featureRDD)
ScalerFeatureRDD.first()

查看标准化之后的数值特征:
这里写图片描述

3、处理label构成labelpoint数据格式

处理标签数据(test.tsv最后一列),只需把字符串类型转化为float型:

## 处理标签
def process_label(line):
    return float(line[-1])  # 最后一个字段为类别标签

labelRDD = lines.map(lambda r: process_label(r))

构成labelpointRDD,Spark Mllib分类任务所支持的数据类型为LabeledPoint格式,LabeledPoint数据由标签label和特征feature组成。构建LabeledPoint数据:

## 构建LabeledPoint数据:
from pyspark.mllib.regression import LabeledPoint

## 拼接标签和特征
labelpoint = labelRDD.zip(ScalerFeatureRDD)
labelpointRDD = labelpoint.map(lambda r: LabeledPoint(r[0],r[1]))
labelpointRDD.first()

4、划分训练集、验证集及测试集

## 划分训练集、验证集和测试集
(trainData, validationData, testData) = labelpointRDD.randomSplit([7,1,2])
# 将数据暂存在内存中,加快后续运算效率
trainData.persist()
validationData.persist()
testData.persist()

训练模型

Spark Mllib封装了NaiveBayes朴素贝叶斯分类器,其.train()方法训练模型,调用形式如下:

NaiveBayes.train(data, lambda_=1.0)

主要参数说明如下:

  • data:输入的训练数据,数据格式为LabeledPoint格式
  • lambda: 拉普拉斯平滑因子,避免分母出现0的情况
## 使用NaiveBayes朴素贝叶斯分类模型进行训练
from pyspark.mllib.classification import NaiveBayes
## 使用默认参数训练模型
model = NaiveBayes.train(trainData, lambda_=1.0)

模型评估

为简单起见使用预测准确率作为模型评估的指标,自定义函数计算准确率(好吧,其实是pyspark MLlib的evaluation中的类用的时候老报错。。不知道什么原因)

## 定义模型评估函数
def ModelAccuracy(model, validationData):
    ## 计算模型的准确率
    predict = model.predict(validationData.map(lambda p:p.features))
    predict = predict.map(lambda p: float(p))
    ## 拼接预测值和实际值
    predict_real = predict.zip(validationData.map(lambda p: p.label))
    matched = predict_real.filter(lambda p:p[0]==p[1])
    accuracy =  float(matched.count()) / float(predict_real.count())
    return accuracy

acc = ModelAccuracy(model, validationData)
## 打印accuracy
print("accuracy="+str(acc))

返回结果:accuracy=0.647297297297


模型参数调优

NaiveBayes朴素贝叶斯分类器就一个参数:拉普拉斯平滑因子lamba

创建trainEvaluateModel函数包含训练与评估功能,并计算训练评估的时间。

## 定义模型评估函数
def ModelAccuracy(model, validationData):
    ## 计算模型的准确率
    predict = model.predict(validationData.map(lambda p:p.features))
    predict = predict.map(lambda p: float(p))
    ## 拼接预测值和实际值
    predict_real = predict.zip(validationData.map(lambda p: p.label))
    matched = predict_real.filter(lambda p:p[0]==p[1])
    accuracy =  float(matched.count()) / float(predict_real.count())
    return accuracy

acc = ModelAccuracy(model, validationData)
## 打印accuracy
print("accuracy="+str(acc))

评估参数lambda_

分别测试lambda_为## 评估lambdaList参数
lambdaList = [0.01, 0.1,0.5,1.0,3.0,5.0,15.0,25.0,50.0,100.0] 的模型运行时间及在验证集上准确率

## 创建trainEvaluateModel函数包含训练与评估功能,并计算训练评估的时间。
from time import time

def trainEvaluateModel(trainData, validationData, lambda_):
    startTime = time()
    ## 创建并训练模型
    Model = NaiveBayes.train(trainData, lambda_= lambda_)
    ## 计算accuracy
    accuracy = ModelAccuracy(Model, validationData)

    duration = time() - startTime   # 持续时间
    print("训练评估:参数"+"拉普拉斯平滑因子lambda_="+str(lambda_)+ "运行时间"+str(duration)+",  准确率accuracy="+str(accuracy))
    return accuracy, duration, lambda_, model

## 评估lambdaList参数
lambdaList = [0.01, 0.1,0.5,1.0,3.0,5.0,15.0,25.0,50.0,100.0] 

## 返回结果存放至metries中
metrics = [trainEvaluateModel(trainData, validationData, lambda_)
          for lambda_ in lambdaList]

运行结果:

训练评估:参数拉普拉斯平滑因子lambda_=0.01运行时间0.538655042648,  准确率accuracy=0.647297297297
训练评估:参数拉普拉斯平滑因子lambda_=0.1运行时间0.322839975357,  准确率accuracy=0.647297297297
训练评估:参数拉普拉斯平滑因子lambda_=0.5运行时间0.418861865997,  准确率accuracy=0.647297297297
训练评估:参数拉普拉斯平滑因子lambda_=1.0运行时间0.27948307991,  准确率accuracy=0.647297297297
训练评估:参数拉普拉斯平滑因子lambda_=3.0运行时间0.411715984344,  准确率accuracy=0.645945945946
训练评估:参数拉普拉斯平滑因子lambda_=5.0运行时间0.280385017395,  准确率accuracy=0.645945945946
训练评估:参数拉普拉斯平滑因子lambda_=15.0运行时间0.324792146683,  准确率accuracy=0.645945945946
训练评估:参数拉普拉斯平滑因子lambda_=25.0运行时间0.295160055161,  准确率accuracy=0.645945945946
训练评估:参数拉普拉斯平滑因子lambda_=50.0运行时间0.398854970932,  准确率accuracy=0.645945945946
训练评估:参数拉普拉斯平滑因子lambda_=100.0运行时间0.26707482338,  准确率accuracy=0.645945945946

观察发现,此例中,参数lambda_对预测准确率影响不大。


判断是否发生过拟合及模型预测

1、判断是否过拟合

使用默认参数lambda_训练模型,并分别对训练数据和测试数据进行预测并得出准确率:


best_model = NaiveBayes.train(trainData, lambda_=1.0)
trainACC = ModelAccuracy(best_model, trainData)
testACC =  ModelAccuracy(best_model, testData)
print("training: accurary="+str(trainACC))
print("testing: accurary="+str(testACC))

返回结果:

training: accurary=0.645715401132
testing: accurary=0.656005221932

二者接近,测试数据的准确率还要大于训练数据,说明模型没有过拟合的产生。

2、使用模型进行预测

使用最佳参数组合对test.tsv中的数据进行预测

## 使用模型进行预测
## 使用模型进行预测
def predictData(sc,model,categoriesMap):
    print("开始导入数据...")
    rawDataWithHeader = sc.textFile(Path+"data/test.tsv")
    ## 取第一项数据
    header = rawDataWithHeader.first()
    ## 剔除字段名(特征名)行,取数据行
    rawData = rawDataWithHeader.filter(lambda x:x!=header)
    ## 将双引号"替换为空字符(剔除双引号)
    rData = rawData.map(lambda x:x.replace("\"",""))
    ## 以制表符分割每一行
    lines = rData.map(lambda x: x.split("\t"))
    ## 预处理测试数据集(都是特征字段)
    testDataRDD=lines.map(lambda r: process_features(r, categoriesMap, len(r)))
    ## 数据标准化

    stdScaler = StandardScaler(withMean=True, withStd=True).fit(testDataRDD)  # 创建一个标准化实例
    ScalertestRDD = stdScaler.transform(testDataRDD)
    DescDict={0:"暂时型(ephemeral)网页",
              1:"长久型(evergreen)网页"}
    ## 预测前5项数据
    for i in range(5):
        predictResult=model.predict(ScalertestRDD.take(5)[i])
        print("网址:"+str(lines.collect()[i][0])+"\n"+" ===>预测结果为: "+str(predictResult) + "说明: "+DescDict[predictResult]+"\n")

predictData(sc,best_model,categoriesMap)

返回结果:

开始导入数据...
网址:http://www.lynnskitchenadventures.com/2009/04/homemade-enchilada-sauce.html
 ===>预测结果为: 1说明: 长久型(evergreen)网页

网址:http://lolpics.se/18552-stun-grenade-ar
 ===>预测结果为: 0说明: 暂时型(ephemeral)网页

网址:http://www.xcelerationfitness.com/treadmills.html
 ===>预测结果为: 0说明: 暂时型(ephemeral)网页

网址:http://www.bloomberg.com/news/2012-02-06/syria-s-assad-deploys-tactics-of-father-to-crush-revolt-threatening-reign.html
 ===>预测结果为: 0说明: 暂时型(ephemeral)网页

网址:http://www.wired.com/gadgetlab/2011/12/stem-turns-lemons-and-limes-into-juicy-atomizers/
 ===>预测结果为: 0说明: 暂时型(ephemeral)网页

你可能感兴趣的:(Spark,Python,机器学习与大数据实践)