大数据搭建平台

 

        “小喇叭:铛铛铛,ling_nlu部门内部群菁分享会终于开始啦,第一期talk分享者是我们的工程师——涛哥,互联网资深从业者,具有无与伦比的一线开发能力,活跃于服务器端开发,VR和大数据等领域,最近几年扎根于NLP,专注于AI+自适应教育。

那么,从业数年的干货来喽~

                                                         OUTLINE

                                               •大数据系统部署

                                              •基于SPARK数据处理

                                              •AZKABAN任务调度平台

                                              •其他扩展

 

一、大数据系统部署-HADOOP系统部署

1、安装

大数据搭建平台_第1张图片

 

2、机器配置

大数据搭建平台_第2张图片

 

大数据搭建平台_第3张图片

 

大数据搭建平台_第4张图片

 

3、初始化

大数据搭建平台_第5张图片

 

二、基于SPARK数据处理

1、单机SPARK搭建

大数据搭建平台_第6张图片

 

2、RDD基础

•rdd是不可改变数据的抽象;

•rdd是由许多partition(分片)构成,这些分片可以在不同的节点上计算;

•对RDD有两类操作:Transformation和Action

 

大数据搭建平台_第7张图片

 

大数据搭建平台_第8张图片

 

大数据搭建平台_第9张图片

 

3、DATAFRAME基础

•创建sparksession

大数据搭建平台_第10张图片

 

•加载数据

•基础操作

大数据搭建平台_第11张图片

•Dataframe和RDD的互操作

大数据搭建平台_第12张图片

 

4、SPARKSQL

•创建临时表试图

•查询示例一

•查询示例二    一周内没有产生阅读记录的天数

大数据搭建平台_第13张图片

•查询示例三    一段时间内周指标统计

大数据搭建平台_第14张图片

三、AZKABAN任务调度平台

•Azkaban是一个开源的任务调度系统,用于负责任务的调度运行(如数据仓库调度),用以替代linux中的crontab。整体包括:webserver、dbserver、executorserver。

•Azkaban是linkin的开源项目,开发语言为Java。Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。

•Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

•编译:./gradlewbuild

•安装:./gradlewinstallDist

•单节点启动

 

大数据搭建平台_第15张图片

四、其他扩展

1、HDFS架构

大数据搭建平台_第16张图片

2、YARN架构

大数据搭建平台_第17张图片

 

                                     

 

 

更多请关注我们的公众号LingNlu小圈子~

 

你可能感兴趣的:(涛哥)