百度天算大数据平台初体验

曾经试用过主流大厂提供的大数据平台服务,仅从用户体验角度上来说,各有千秋。

  • 百度天算控制台 功能分类明确,使用简单,组件版本较新,客服响应及时
百度天算大数据平台初体验_第1张图片
百度天算控制台
  • 腾讯大数据处理套件TBDS 没有完全开放服务,使用前需要申请,申请周期较长。我通过联系客服,获得了一个临时体验账号,见第二张图
腾讯大数据处理套件TBDS

百度天算大数据平台初体验_第2张图片
通过客服提供的临时账号登陆TBDS
  • 华为企业云控制台 提供开发、测试管理流程(果然是以软件著称),Spark版本较低(1.5.1),退还押金让人蛋疼(走各类审批流程、客服多次骚扰、周期长)
百度天算大数据平台初体验_第3张图片
华为企业云控制台
  • 阿里云数加控制台 阿里的云平台种类较多,云梯(貌似已下线)、飞天(自研)、数加,有点眼花缭乱。因为是自研,使用较繁杂(可能是因为不熟悉),使用前要购买MaxCompute服务,性能较好(个人体验)
百度天算大数据平台初体验_第4张图片
阿里云数加控制台
  • Amazon EMR控制台 各组件基本是当前最新版本!申请账号时需要绑定信用卡,万一集群忘记销毁。。。
百度天算大数据平台初体验_第5张图片
Amazon EMR控制台

各产品的收费情况和其能提供的服务器性能、服务功能相关,收费方式多样化,可年、月、时。4台规模集群的Hadoop+Spark服务,大概3-5元/小时不等。

因为都是大厂的大数据平台产品,所以肯定都是功底深厚、面向广泛。上述描述,仅仅是个人体验,不具有通用性、不带有批判性、没有代表性。

本文仅简单介绍一下我比较喜欢的百度天算这个产品:
使用过程如下:执行WordCount应用程序,统计文本中单词词频。

  • 需要使用对象存储BOS和百度MapReduce BMR功能


    百度天算大数据平台初体验_第6张图片
    使用对象存储BOS和百度MapReduce BMR功能
  • 进入对象存储BOS后,用户通过新建bucket,建立存放在 BOS上的文件夹


    百度天算大数据平台初体验_第7张图片
    新建Bucket
  • 将需要执行的Spark应用程序及被测数据上传到刚才建立的文件夹中


    百度天算大数据平台初体验_第8张图片
    上传文件
  • 通过导航栏进入百度MapReduce功能,准备创建集群


    百度天算大数据平台初体验_第9张图片
    创建集群
  • 配置集群名称、登录用户名、密码(用来进入Web UI和SSH连接)、BOS路径、选择组件版本


    百度天算大数据平台初体验_第10张图片
    集群配置页面
  • 我选择使用Hadoop 2.7、Spark 1.6.0、Hue 3.10.0、HBase 1.1.2,创建4个节点

百度天算大数据平台初体验_第11张图片
集群配置页面
  • 付费


    百度天算大数据平台初体验_第12张图片
    付费
  • 支付成功后,集群就开通了


    百度天算大数据平台初体验_第13张图片
    集群成功开通
  • 4台规模的集群,初始化了10分钟,时间较长,应该是启动虚机后,根据用户的选择,下载相应的组件包,修改配置,启动服务。


    百度天算大数据平台初体验_第14张图片
    集群正在初始化
  • 集群服务启动成功


    百度天算大数据平台初体验_第15张图片
    集群服务启动成功
  • 通过集群的实例详情,可以链接Yarn Web UI和Hue Web UI


    百度天算大数据平台初体验_第16张图片
    集群详情页面
  • 通过导航栏选择作业,创建作业


    百度天算大数据平台初体验_第17张图片
    创建作业
  • 选择Spark作业,指定Spark-submit命令参数及应用程序参数(位置在BOS)


    百度天算大数据平台初体验_第18张图片
    配置作业参数
  • 作业创建成功后,等待执行


    百度天算大数据平台初体验_第19张图片
    作业等待执行
  • 作业执行过程中可以查看作业详情


    百度天算大数据平台初体验_第20张图片
    作业执行过程中可以查看作业详情
  • 一段时间后,作业完成


    百度天算大数据平台初体验_第21张图片
    作业成功的执行完毕
  • 通过查看作业日志,观察输出结果


    百度天算大数据平台初体验_第22张图片
    通过查看作业日志,观察输出结果
  • 通过集群界面中的Hadoop Yarn Web UI链接,查看应用程序的具体执行情况

百度天算大数据平台初体验_第23张图片
选择Hadoop Yarn Web UI链接

百度天算大数据平台初体验_第24张图片
Hadoop Yarn Web UI界面

百度天算大数据平台初体验_第25张图片
Hadoop Yarn Web UI界面
  • 可用在集群的监控页面,观察集群状态和各大数据组件信息


    百度天算大数据平台初体验_第26张图片
    集群的监控页面

    百度天算大数据平台初体验_第27张图片
    集群的监控页面
  • 可以在导航栏选择多用户访问控制,对多用户权限进行管理和控制


    百度天算大数据平台初体验_第28张图片
    多用户访问控制页面

    百度天算大数据平台初体验_第29张图片
    多用户访问控制页面
  • 百度云提供详尽的产品手册,对用户进行指导


    百度天算大数据平台初体验_第30张图片
    百度云产品手册

使用过程中一些小坑:

  • 集群环境默认使用JDK 1.7版本,所以用户编译应用程序时,请使用JDK 1.7,否则会出现类似:Unsupported major.minor.version 51.0的错误
  • 集群环境默认使用Scala 2.10版本,所以用户编译应用程序时,请使用Scala 2.10.x,否则会出现类似: java.lang.AbstractMethodError: bdsparkwc$1.call(Ljava/lang/Object;)Ljava/lang/Iterable;的错误
  • 当应用程序执行完毕后,无法使用Yarn Web UI来登陆应用程序的Driver Web UI 4040界面,估计是Spark History Server服务没有开启
  • 其提供IP用来SSH连接,经常出现超时

总结:
目前来看,主流大厂都是通过这种SaaS方式来提供大数据平台全托管的服务,面向一些没有数据中心、没有运维能力的中小型企业,按需部署和使用,非常的快捷。通过其详尽的产品使用指南,用户再具备一些大数据组件相关使用的知识,就可以快速的进行大数据的清洗、挖掘、分析和报告,无需为集群节点分配、部署、优化、维护投入时间。

相关链接:

  • WordCount应用程序源码

  • 百度MapReduce BMR指南

你可能感兴趣的:(百度天算大数据平台初体验)