【云计算与大数据技术】Spark实战项目之判别西瓜好坏(附源码和数据集)

需要源码和数据集请点赞关注收藏后评论区留言私信~~~

一、判别西瓜好坏

西瓜是一种人们很喜欢的水果,是盛夏季节的一种解暑物品,西瓜可以粗略的分为好瓜和坏瓜,我们都希望购买到的西瓜是好的,这里给出判断西瓜好坏的两个特征,一个特 征是西瓜的糖度,另外一个特征是西瓜的密度,这两个数值都是0~1的小数,基于西瓜的测试数据来判断西瓜的好坏

Spark中提供了MLib机器学习库,使用MLib机器学习库中提供的例子,采用GBT模型,训练参数,最后利用训练集测试GBT模型的好坏,判断西瓜的准确度。

运行结果如下

【云计算与大数据技术】Spark实战项目之判别西瓜好坏(附源码和数据集)_第1张图片

项目结构如下

 【云计算与大数据技术】Spark实战项目之判别西瓜好坏(附源码和数据集)_第2张图片

部分代码如下

import org.apache.spark.mllib.tree.GradientBoostedTrees
import org.apache.spark.mllib.tree.configuration.BoostingStrategy
import org.apache.spark.mllib.tree.model.GradientBoostedTreesModel
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.{SparkConf, SparkContext}

object SparkGBT {
  def main (args: Array[String]) {
    if (args.length < 0) {
      println("Usage:FilePath")
      sys.exit(1)
    }
    //Initialization
    val conf = new SparkConf().setAppName("Spark MLlib Exercise: GradientBoostedTree")
    val sc = new SparkContext(conf)

    // Load and parse the data file.
    val data = MLUtils.loadLibSVMFile(sc, "/home/liujun/workplace/scala_GBT/GBT_data.txt")
    // Split the data into training and test sets (30% held out for testing)
    val splits = data.randomSplit(Array(0.7, 0.3))
    val (trainingData, testData) = (splits(0), splits(1))

    // Train a GradientBoostedTrees model.
    // The defaultParams for Classification use LogLoss by default.
    val boostingStrategy = BoostingStrategy.defaultParams("Classification")
    boostingStrategy.numIterations = 10 // Note: Use more iterations in practice.
    boostingStrategy.treeStrategy.numClasses = 2
    boostingStrategy.treeStrategy.maxDepth = 3
    // Empty categoricalFeaturesInfo indicates all features are continuous.
    boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, Int]()
(r => r._1 != r._2).count.toDouble / testData.count()
    println("Test Error = " + testErr)
    println("Learned classification GBT model:\n" + model.toDebugString)
    labelAndPreds.collect().foreach(x =>
      println("Lable and Prediction: " + x._1.toString + " " + x._2.toString))
    trainingData.saveAsTextFile("/home/liujun/workplace/scala_GBT/trainingData")
    testData.saveAsTextFile("/home/liujun/workplace/scala_GBT/testData")
  }
}

 二、Spark发展趋势

Spark诞生于伯克利AMP实验室,起初是一个研究性质的项目,目标是为迭代式机器学习提供帮助,随着Spark的开源,因为其采用内存存储,计算速度比MapReduce更快,而且Spark简单 易用 受到了众多人的关注和喜爱

目前 ApacheSpark社区非常活 跃,并且以 SparkRDD 为核心,逐步形成了 Spark的生态圈,包括SparkSQL、Spark Streaming、Spark MLib等众多上层数据分析工具以及实时处理框架

不断有新的Spark生态圈中的框架出现,包括alluxio分布式内存文件系统 、SparkR统计框架

创作不易 觉得有帮助请点赞关注收藏~~~

你可能感兴趣的:(云计算与大数据技术,大数据,spark,分布式,云计算,nosql)