基于阿里云数加构建企业级数据分析平台——个人笔记

基于阿里云数加构建企业级数据分析平台

注:本文有小部分来自于阿里云大学教学文档中,有兴趣的可以直接进行学习。

1.数加:误以为数加是云服务
              阿里云大数据品牌名,包含不同大数据服务阿里云一站式数据开发,分析,数据处理应用平台
2.数据分析:(数据量大,数据价值密度低,所以需要提炼)
                      基于商业目的,有目的的进行收集,整理,加工和分析数据,提炼出有价值信息的过程
3.数据分析步骤
    明确目的》数据收集(统一处理平台)》数据处理(处理缺失值:会员性别;不一致数据:身高单位;关联,汇总数据)》数据分析(基本数据分析SQL,数据探索,复杂数据分析)》数据展现(整理组合信息,整合信息,观点,图表展示信息)》分析报告(指导企业发展)
4.数据分析目的
    获得用户,留住用户,增加收益(电商网站推荐)
    市场营销,产品运营,客户服务(不同维度销量)
    业务优化,流程改进,发现机会(提升产品良品率)
5.数据分析平台的组成部分
    分析需求——》确认数据源——》ETL处理——》数据整合/汇总——》数据建模——》数据分析展示
    源数据:数据获取
        ETL:数据抽取转换加载过程(如缺失值处理,类型不一致等问题进行处理)
    数据仓库:数据存储,计算,建模
    数据应用:数据分析
6.用户使用服务时不需要自己搭建底层数据集群或处理框架,直接使用数加服务,将更多的精力关注在自己的业务层次,而不用过度关注底层数据集群或架构搭建
7.用户不用重复创造轮子,阿里云已经提供(端到端的大数据服务)
   数据采集实时采集,适配开源,日吞吐量PB级别,数据计算引擎在6小时处理100PB数据
8.基于飞天系统自主研发的海量数据处理分析平台(离线)MaxCompute
9.数据事业部
                  :数据保存
                  :不同业务,不同领域打通
                  :灵活使用
10.基础平台
     计算引擎:离线计算MaxCompute,在线计算分析型数据库,流式计算
     加工层:数据开发DataIDE,机器学习
10.MaxCompute是阿里云提供的PB,TB级别的数据仓库解决方案,数据分析
     自主研发,实时性不高的分布式处理能力
     由于MaxCompute是面向全网用户,所以为了保障用户与用户之间的数据隔离,阿里云通过多租户使用来处理
     计算频率低——按量付费
  DataIDE(统一开发环境)基于MaxCompute提供海量数据的离线加工分析,展现,数据挖掘能力的一站式平台,运维工具
    数据开发管理工具,本身不会对数据进行分析
    数据工作流最终是跑在MaxCompute上的
    将企业内部数据打通,申请使用数据,拥有者批准,逐层处理
  QuickBI提供图形化报表服务
    :支持数据源多,mysql,sql server,maxcompute,大数据开发平台内数据,多种可视化组件
    快:在展示的同时对数据进行进一步分析,处理速度快,智能一键加速
    :灵活报表集成方案,安全权限管理
    :门槛低易于上手,云计算费用低省成本
11.从业务系统到数据分析,非常适合于商业分析,挖掘等大数据处理场景
12.数据集成:将源数据导入数加平台(项目空间使用时会指定一个maxcompute,odps格式数据源)
     数据源类型:rds,
                线下:mysql,sqlserver云:postgresql,odps,ocs,drds,ads,oss,oracle,ftp,dm,hdfs,ots,redis,mongodb
    RDS管理控制台
    RDS数据导入云端:选择来源》选择目标》字段映射》通道控制(速率,并发数)》预览保存
    周期性调度——》调度配置(基本属性,调度属性(最小分钟),依赖属性(数据依赖任务),跨周期调度)
    依赖:不依赖上一调度周期
               自依赖,等待上一调度结束,才能继续
               等待下游任务的上一周期结束,才能继续
               等待自定义任务的上一周期结束,才能继续
    测试运行或前往运维都可以进行任务的启动
13.新建报表
    添加数据源——》创建数据集(数据指定)——》制作报表——》创建门户
    新建数据源
    关系型数据库:Mysql,SQLServer,PostgreSQL,Oracle,DM,DRDS,POLARDB,HybirdDB for SQL,HybirdDB for PostgreSQL
    大数据存储:MaxCompute(ODPS),Datahub,Analytic DB,Lightning
    半结构化存储:OSS,HDFS,FTP
    NoSQL:MongoDB,Mencache(OCS),Redis,Table Store(OTS)
    消息队列:LogHub
    云数据源:Maxcompute,Mysql(RDS),SQLServer(RDS),Analytic DB,HybirdDB(Mysql),HybirdDB(Greenplum)
    ECS:Mysql,SQLServer
    本地:csv,excel
    导入数据源:DataIDE
   在作品中可以看到制作的仪表板
14.${bdp.system.bizdate}
    格式为yyyymmdd,日常调度实例定时时间的前一天(年月日)。节点每天自动调度实例定时时间年月日减1天。
    正常调度时,比如:任务定时在14号凌晨执行,那么${bdp.system.bizdate}替换的结果是13号。
    测试,补数据时,比如:业务日期选择为12号,那么${bdp.system.bizdate}替换的结果是12号。
15.${bdp.system.cyctime}
    格式为yyyymmddhh24miss,日常调度实例定时时间(年月日时分秒)。yyyy表示4位数年份,mm表示2位数月份,dd表示2位数天,hh24表示24小时制的时,mi表示2位数分钟,ss表示2位数秒。
    正常调度时,比如:任务定时在14号凌晨1点整执行,那么${bdp.system.cyctime}替换的结果是 当天yyyymm140100。
    测试,补数据时,比如:业务日期选择为12号(任务调度时间配置为每天凌晨1点整执行),那么${bdp.system.cyctime}替换的结果是 所选业务日期的yyyymm130100。
16.补数据
    当前节点,当前节点及下游节点,海量节点模式
筛选功能:如上图中的模块①,有丰富的筛选条件,默认筛选业务日期是当前时间前一天的工作流任务,您可添加任务名称、运行时间、责任人等条件进行更精确的筛选。

终止运行:只可对运行中状态的实例进行终止运行操作,进行此操作后,该实例将为失败状态。

重跑:可以重跑某任务,任务执行成功后可以触发下游未运行状态任务的调度。常用于处理出错节点和漏跑节点。

注意:

只能重跑未运行、成功、失败状态的任务。

重跑下游:可以重跑某任务及其下游任务,需要用户自定义勾选,勾选的任务将被重跑,任务执行成功后可以触发下游未运行状态任务的调度。常用于处理数据修复。

注意:只能勾选未运行、完成、失败状态的任务,如果勾选了其他状态的任务,页面会提示已选节点中包含不符合运行条件的节点,并禁止提交运行。

置成功:将当前节点状态改为成功,并运行下游未运行状态的任务。常用于处理出错节点。

注意:

只能失败状态的任务能被置成功。

冻结:冻结状态的任务会生成实例,但是不会运行。若需要运行冻结的实例,您需解冻实例,单击重跑,实例才会开始运行。

解冻:可以将冻结状态的实例解冻。

若该实例还未运行,则上游任务运行完毕后,会自动运行。

若上游任务都运行完毕,则该任务会直接被置为失败,需要手动重跑后,实例才会正常运行。

批量操作:如上图中的模块③,批量操作包括终止运行、重跑、置成功、冻结、解冻5个功能。    


    
    
    
    
    

你可能感兴趣的:(阿里课程学习)