u013250861

大数据-案例-离线数仓-在线教育：MySQL(业务数据)-ETL(Sqoop)-＞Hive数仓【ODS层-数据清洗-＞DW层(DWD-统计分析-＞DWS)】-导出(Sqoop)-＞MySQL-＞可视化

一、商业BI系统概述

商业智能系统，通常简称为商业智能系统，是商业智能软件的简称，是为提高企业经营绩效而采用的一系列方法、技术和软件的总和。通常被理解为将企业中的现有数据转换为知识并帮助企业做出明智的业务决策的工具。

BI系统中的数据来自企业的其他业务系统。例如，一个面向业务的企业，其业务智能系统数据包括业务系统订单、库存、交易账户、客户和供应商信息，以及企业所属行业和竞争对手的数据，以及其他外部环境数据。这些数据可能来自于CRM、SCM和发票等业务系统。

商业BI系统的组成部分：

数据仓库：首先，需要收集所有的数据。这个过程称为“数据仓库”。数据仓库提供了一个数据存储环境，从多个数据源获取的数据根据特定的主题进行ETL(提取、转换、转储)数据、清理数据和存储。
OLAP：其次，需要数据分析来辅助企业建模的能力。OLAP是一种基于数据仓库环境的数据分析工具。OLAP解决了基于OLTP分析的多维度分析效率低的缺点。在实际应用中，数据挖掘也常用来挖掘过去和预测未来。它是一个使用知识发现工具来挖掘以前未知的和潜在有用的知识的过程。它是一种主动的自动发现方法。
BI看板：商业智能的一个重要特性是数据可视化。数据可视化是指通过适当的图表类型以一种视觉上吸引人的方式显示信息，使每个人都能更快更好地理解数据。另外，BI还有终端信息查询和报表生成功能。
到这里，所有的流程就被称为“BI系统”。

二、项目背景

1、直接用Mysql做数据分析缺陷

受互联网+概念的催化，教育市场发展火热，越来越多的教育机构和平台不断涌现，包括有线上学习和线下培训，K12教育和职业教育等，那些注重用户服务、教育质量的平台会最终胜出。目前的企业痛点：

数据量大，现有MySQL业务数据库直接读取模式不能满足业务统计性能、效率需要；
系统多、数据分散，缺少从营销、咨询、报名、教学等等完整业务环节的数据贯通；
统计分析难度高、工作量大。缺少元数据、数据集合的规范存储，业务部门有数据分析角度需求时，需要程序员、DBA突击查数据、做报表，尤其年底各个部门排队等DBA协助出数据；

如何提高用户服务水平，提高教育质量是每个机构都面临的问题。信息的共享和利用不充分，就导致尽管学校多年的信息化应用积累了大量的数据，但信息孤岛的壁垒一直没有打破，对这些数据无法进一步的挖掘、分析、加工、整理，不能给学校教育、教学、研发、总务等各方面管理决策提供科学、有效的数据支撑。

2、大数据技术的应用

大数据技术的应用可以从海量的用户行为数据中进行挖掘分析，根据分析结果优化平台的服务质量，最终满足用户的需求。

教育大数据分析平台项目就是将大数据技术应用于教育培训领域，为企业经营提供数据支撑：

建立集团数据仓库，统一集团数据中心，把分散的业务数据进行预先处理和存储；
根据业务分析需要，从海量的用户行为数据中进行挖掘分析，定制多维的数据集合，形成数据集市，供各个场景主题使用
前端业务数据展示选择和控制，选取合适的前端数据统计、分析结果展示工具；

三、数据仓库+OLAP：“访问客户量” 大数据分析

1、需求分析

目的: 分析每一个调研需求需要计算什么指标, 以及计算这个指标需要通过那些维度,而且还包括计算这个需求涉及到哪些表和哪些字段。

客户访问和咨询主题，顾名思义，分析的数据主要是客户的访问数据和咨询数据。但是经过需求调研，这里的访问数据，实际指的是访问的客户量，而不是客户访问量。原始数据来源于咨询系统的mysql业务数据库。

用户关注的核心指标有：

1、总访问客户量；
2、地区独立访客热力图；
3、访客咨询率趋势；
4、客户访问量和访客咨询率双轴趋势；
5、时间段访问客户量趋势；
6、来源渠道访问量占比；
7、搜索来源访问量占比；
8、活跃页面排行榜；

1.1 需求1: 统计指定时间段内，访问客户的总数量。能够下钻到小时数据

说明：统计指定时间段内，访问客户中各区域人数热力图。能够下钻到小时数据。
展现：地图热力图
指标：按照地区聚合访问的客户数量
维度：年、季度、月
粒度：天
条件：年、季度、月
数据来源：咨询系统的web_chat_ems_2019_12等月表

按年：显示指定年范围内每天的客户访问量
按季度：显示指定季度范围内每天的客户访问量
按月：显示指定月份范围内每天的客户访问量

指标: 访问量
维度: 
   时间维度:  年 季度 月 天  小时
涉及到哪些表: web_chat_ems_2019_12
    
涉及到哪些字段: 
   时间维度:  create_time
   		说明: 发现create_time字段中包含有年 月 天 小时这些数据, 此时可以认为一个字段中涵盖了多个字段的数据
   			处理方式: 后期需要对此字段进行转换处理工作
   			    将create_time  转换为:  yearinfo  monthinfo  dayinfo  hourinfo ....
   指标字段: sid
      说明: 指标计算的逻辑 先对sid进行去重操作, 然后统计个数过程

1.2 需求2: 统计指定时间段内，访问客户中各区域人数热力图。能够下钻到小时数据

按年：显示指定年范围内每天的客户访问量
按季度：显示指定季度范围内每天的客户访问量
按月：显示指定月份范围内每天的客户访问量

指标:  访问量
维度:
   时间维度:  年 季度 月 天  小时
   区域维度:
涉及到哪些表:  web_chat_ems_2019_12
    
涉及到哪些字段:
    时间维度: create_time
    区域维度: area
    指标字段: sid

1.3 需求3: 统计指定时间段内，不同地区（省、市）访问的客户中发起咨询的人数占比

说明：统计指定时间段内，不同地区（省、市）访问的客户中发起咨询的人数占比；
咨询率=发起咨询的人数/访问客户量；客户与网咨有说一句话的称为有效咨询。
展现：线状图
指标：访客咨询率
维度：年、月、城市
粒度：天
条件：年、季度、月、省、市
数据来源：咨询系统的web_chat_ems_2019_12等月表

按年：显示指定年范围内每天的客户访问量
按季度：显示指定季度范围内每天的客户访问量
按月：显示指定月份范围内每天的客户访问量

占比计算: 统计出每个地区的总访问量和每个地区发起咨询的人数之间比例

指标: 访问量  和 咨询量
维度:
   时间维度: 年 季度 月 天  小时
   区域维度
说明: 访问量的统计可以直接复用需求2的结果即可, 此处可以省略
涉及到哪些表: web_chat_ems_2019_12
   
涉及到哪些字段: 
    时间维度: create_time
    区域维度: area
    咨询量判断:  msg_count >= 1 即可
    指标字段: sid
       咨询量指标计算:
           先对数据进行过滤得出咨询数据, 然后通过先去重 在求个数过程

1.4 需求4: 统计指定时间段内，每日客户访问量/咨询率双轴趋势图。能够下钻到小时数据。

说明：统计指定时间段内，每日客户访问量/咨询率双轴趋势图。能够下钻到小时数据。
每日客户访问量可以复用指标2数据；
咨询率可以复用指标3的数据。

按年：显示指定年范围内每天的客户访问量
按季度：显示指定季度范围内每天的客户访问量
按月：显示指定月份范围内每天的客户访问量

指标: 访问量   和 咨询量
维度:
   时间维度: 年 季度 月 天  小时
说明: 访问量的统计可以直接复用需求1的结果即可

涉及到哪些字段: 
   时间维度:  create_time
   		说明: 发现create_time字段中包含有年 月 天 小时这些数据, 此时可以认为一个字段中涵盖了多个字段的数据
   			处理方式: 后期需要对此字段进行转换处理工作
   			    将create_time  转换为:  yearinfo  monthinfo  dayinfo  hourinfo ....
   指标字段: sid
      说明: 指标计算的逻辑 先对sid进行去重操作, 然后统计个数过程
   添加一个咨询数据过滤的条件:
       msg_count >= 1 即可

1.5 需求5: 统计指定时间段内，1-24h之间，每个时间段的访问客户量。

说明：统计指定时间段内，1-24h之间，每个时间段的访问客户量。
横轴：1-24h，间隔为一小时，纵轴：指定时间段内同一小时内的总访问客户量。
展现：线状图、柱状图、饼状图
指标：某小时的总访问客户量
维度：天
粒度：区间内小时段
条件：天
数据来源：咨询系统的web_chat_ems_2019_12等月表

指标: 访问量
维度:
    时间维度 : ....
此需求的结果 在需求1中 已经涵盖了, 不需要再次分析

1.6 需求6: 统计指定时间段内，不同来源渠道的访问客户量占比。能够下钻到小时数据。

说明：统计指定时间段内，不同来源渠道的访问客户量占比。能够下钻到小时数据。
展现：饼状图
指标：比值
维度：年、季度、月
粒度：天
条件：年、季度、月
数据来源：咨询系统的web_chat_ems_2019_12等月表

按年：显示指定年范围内每天的客户访问量
按季度：显示指定季度范围内每天的客户访问量
按月：显示指定月份范围内每天的客户访问量

理解1: 占比指的是各个来源渠道的访问量和总访问量的占比情况
理解2: 占比指的是各个来源渠道中, 访问量和咨询量之间占比情况 (按此理解走)

指标: 访问量  和 咨询量
维度:
   时间维度:  年 季度 月  天 小时
   来源渠道维度
涉及到哪些表: web_chat_ems_2019_12
涉及到哪些字段:
   时间维度: create_time
   来源渠道维度:  origin_channel
   指标字段:  sid

1.7 需求7: 统计指定时间段内，不同搜索来源的访问客户量占比。能够下钻到小时数据。

说明：统计指定时间段内，不同搜索来源的访问客户量占比。能够下钻到小时数据。
展现：饼状图
指标：比值
维度：年、季度、月
粒度：天
条件：年、季度、月
数据来源：咨询系统的web_chat_ems_2019_12等月表

按年：显示指定年范围内每天的客户访问量
按季度：显示指定季度范围内每天的客户访问量
按月：显示指定月份范围内每天的客户访问量

理解1: 占比指的是不同搜索来源的访问量和总访问量的占比情况 (按此理解走)
理解2: 占比指的是不同搜索来源中, 访问量和咨询量之间占比情况

指标:   访问量
维度:
   时间维度 :  年 季度 月  天 小时
   搜索来源渠道维度
涉及到哪些表: web_chat_ems_2019_12
涉及到那些字段: 
    时间维度: create_time
    搜索来源维度字段: seo_source
    指标字段: sid

1.8 需求8: 统计指定时间段内，产生访问客户量最多的页面排行榜TOPN。能够下钻到小时数据。

说明：统计指定时间段内，产生访问客户量最多的页面排行榜TOPN。能够下钻到小时数据。
展现：柱状图
指标：访问客户量
维度：页面、年、季度、月
粒度：天
条件：年、季度、月、Top数量
数据来源：咨询系统的 web_chat_text_ems_2019_11等月表

按年：显示指定年范围内每天的客户访问量
按季度：显示指定季度范围内每天的客户访问量
按月：显示指定月份范围内每天的客户访问量

指标:  访问量
维度: 
    时间维度: 年 季度 月  天 小时
    受访页面维度:
涉及到哪些表: web_chat_text_ems_2019_12 
涉及到哪些字段: 
   时间维度: 暂不知道
   受访页面维度: from_url
   指标计算: 直接计算总数量

总结:

指标: 访问量
维度: 
    固有维度:  
       时间维度: 年 季度 月  天 小时
    产品属性维度:
       总访问量
       地区维度
       来源渠道维度
       搜索来源维度
       受访页面维度
-------------------------------------
指标:  咨询量
维度:
    固有维度:  
        时间维度: 年 季度 月 天 小时
    产品属性维度:
        总咨询量
        地区维度
        来源渠道维度
        
发现点: 不管计算咨询量还是访问量 都使用的同一个表, 至少咨询量比访问量在计算的时候多个一个条件:
    msg_count >=1
 
涉及到表: web_chat_ems_2019_12 和  web_chat_text_ems_2019_12

涉及到字段: 
    web_chat_ems_2019_12:
         指标: sid (咨询量 和 访问量)
            说明: 先去重, 在统计个数过程
         时间维度: create_time
         地区维度: area
         来源渠道维度: origin_channel
         搜索来源维度: seo_source
  web_chat_text_ems_2019_12:
         受访页面维度: from_url
 
 需求转换的点:
     create_time字段 后期需要进行转换操作

2. 数据初始准备工作

访问客户量的数据来源于咨询系统的访问会话月表web_chat_ems，表名的格式为web_chat_ems_年_月，年份为4位数字，月份为二位数字，如果为单数时，前面会用0来补全，比如web_chat_ems_2019_07。

web_chat_text_ems表是访问附属月表，表名的格式和web_chat_ems相同。web_chat_ems和web_chat_text_ems是一一对应的，通过主键id进行关联。

1、新建数据库：在业务库中, 构建业务数据库: (MySQL) 请采用课件提供建库语句, 以免出现中文乱码问题

create database nev default character set utf8mb4 collate utf8mb4_unicode_ci;

2、执行相关的SQL的脚本, 将数据导入到nev数据库中



web_chat_ems表结构

create table web_chat_ems_2019_07
(
    id                           int auto_increment comment '主键'        primary key,
    create_date_time             timestamp                                null comment '数据创建时间',
    session_id                   varchar(48)                   default '' not null comment '会话系统sessionId',
    sid                          varchar(48) collate utf8_bin  default '' not null comment '访客id',
    create_time                  datetime                                 null comment '会话创建时间',
    seo_source                   varchar(255) collate utf8_bin default '' null comment '搜索来源',
    seo_keywords                 varchar(512) collate utf8_bin default '' null comment '关键字',
    ip                           varchar(48) collate utf8_bin  default '' null comment 'IP地址',
    area                         varchar(255) collate utf8_bin default '' null comment '地域',
    country                      varchar(16) collate utf8_bin  default '' null comment '所在国家',
    province                     varchar(16) collate utf8_bin  default '' null comment '省',
    city                         varchar(255) collate utf8_bin default '' null comment '城市',
    origin_channel               varchar(32) collate utf8_bin  default '' null comment '来源渠道(广告)',
    user                         varchar(255) collate utf8_bin default '' null comment '所属坐席',
    manual_time                  datetime                                 null comment '人工开始时间',
    begin_time                   datetime                                 null comment '坐席领取时间 ',
    end_time                     datetime                                 null comment '会话结束时间',
    last_customer_msg_time_stamp datetime                                 null comment '客户最后一条消息的时间',
    last_agent_msg_time_stamp    datetime                                 null comment '坐席最后一下回复的时间',
    reply_msg_count              int(12)                       default 0  null comment '客服回复消息数',
    msg_count                    int(12)                       default 0  null comment '客户发送消息数',
    browser_name                 varchar(255) collate utf8_bin default '' null comment '浏览器名称',
    os_info                      varchar(255) collate utf8_bin default '' null comment '系统名称'
);

web_chat_text_ems表结构：

create table web_chat_text_ems_2019_07
(
    id                   int                   not null comment '主键'       primary key,
    referrer             text collate utf8_bin null comment '上级来源页面',
    from_url             text collate utf8_bin null comment '会话来源页面',
    landing_page_url     text collate utf8_bin null comment '访客着陆页面',
    url_title            text collate utf8_bin null comment '咨询页面title',
    platform_description text collate utf8_bin null comment '客户平台信息',
    other_params         text collate utf8_bin null comment '扩展字段中数据',
    history              text collate utf8_bin null comment '历史访问记录'
);

3. 建模分析

3.1 提取指标维度

根据主题的需求，我们可以看出，包含的指标有一些是可以提取合并的：

地区独立访客热力图、总访问客户量、时间段访问客户量趋势、来源渠道访问量占比、搜索来源访问量占比、活跃页面排行榜的指标都可以合并为一个：访问客户量。
合并后的访问客户量指标，维度不同，而且数据来源也不同。
访客咨询率趋势、客户访问量和访客咨询率双轴趋势，都包含了访客咨询率指标。
访客咨询率=发起咨询的人数/访问客户量，分母访问客户量，可以复用前面的指标。因此只需要计算出分子：咨询客户量。

由此我们可以推断出，指标有两个：访问客户量和咨询客户量。

3.1.1 访问客户量

虽然访问客户量的时间维度只有年、季度、月，但是展示粒度要具体到天，所以统计时也要包含日维度。同时要求能够下钻到小时数据，所以维度中也要包含小时。

来源渠道访客量占比，虽然最终要的是占比的比值，但是这个比值是可以通过具体的访客量计算出来，所以我们只需要提供不同来源渠道的访客量数据，柱状图前端就能够自动的计算比值。因此这里的指标也归类于访问客户量，维度为来源渠道。

活跃页面排行榜，字面看是和页面相关的指标，实际统计的却是每个页面的访问客户量，然后再进行排序后得出的排行榜。所以这里的指标也归类于访问客户量，统计的维度是具体的页面。但是要注意这里的数据来源有变化。

维度包括：年、季度、月、天、小时（天区间内小时段）、地区、来源渠道、搜索来源、会话来源页面、总访问量。

3.1.2 咨询客户量

访客咨询率趋势统计中，访客咨询率=发起咨询的人数/访问客户量，分母访问客户量我们可以复制上面的指标数据，而分子咨询客户量则是我们要统计的新指标。

维度包括：年、季度、月、日、地区、来源渠道。

3.2 分层设计

3.2.1 访问客户量

抽取咨询原始数据到ODS层以后，如何分析出对应维度的数据呢？

我们可以采取结果导向的方式来进行倒推：

最终的数据维度：年、季度、月、日、小时、天区间内小时、地区、来源渠道、搜索来源、会话来源页面、总访问量；
首先要有DWD层对ODS原始数据进行清洗和转换，作为我们的明细数据；
维度我们可以分为两类：时间维度（年、季度、月、日、小时）和产品属性维度（地区、来源渠道、搜索来源、会话来源页面、总访问量）；
我们可以将产品属性维度和最小的时间粒度（小时）来统计，作为共享表，放置在DWM层；
在DWM层小时数据的基础上，进行上卷sum统计（年、季度、月、日、小时），即可得到DWS层的数据集市；
注意：最终的数据要求在统计之前，要先根据客户进行去重，这也对我们的中间层进行了限制，不能简单的先按天去重count，然后再按月和年sum，因为不同天的客户可能存在重复，直接sum会导致结果不正确；
所以DWM层不能进行count，那么如果将DWD客户去重后的数据，直接保存为中间表呢？也会存在问题，因为如果DWM层把全表的用户去重后，在DWS层数据会存在丢失减少的情况，比如小时数据和天数据。
DWS层直接根据DWD的数据进行统计，得出数据集市；
将宽表数据导出到mysql，由FineBI灵活选择APP数据字段进行展示。
ODS —> DWD —> DWS。

目的: 要计算此主题, 需要如何构建数仓分层, 每一层需要有那些表, 表中有那些字段

ODS层: 源数据层

作用:对接数据源, 将数据源中数据导入到ODS层, 和数据源保持相同粒度(数据源中有那些内容, 导入到ODS层也需要有那些内容)
建模操作: 此层一般用于放置事实表和少量的维度表

1) 在ODS层, 可以放置两张表(在业务端有二张跟此主题相关的事实表)
    web_chat_ems  和   web_chat_text_ems
2) ODS层的两个表中字段 和  业务库中对应表的字段保持一致(业务库中表有几个字段, 此ODS层表中也应该有几个字段)

注意:
   在后期执行操作的时候, 先进行全量分析过程, 然后后期都是增量分析,此时需要从ODS层拿到增量数据, 如何区分增量数据呢?
    核心点: 通过时间
    所以: 
        在ODS层建表的时候, 比业务库的表多一个字段,此字段主要作用用于标识抽取时间: start_time

DW层: 数据仓库层

DWD层: 明细层

作用: 数据的清洗转换处理和进行少量的维度退化手段
思考: 需要清洗什么内容 , 需要转换什么内容

清洗什么内容?  没有清洗的工作 , 因为数据来源于mysql, 数据结构是完整, 同时所有数据都是需要的, 所以也不需要处理

转换什么内容?
   1. create_time : (需求必须要转换)
       原始数据:  2019-07-02 00:00:00 
       发现: 一个字段里面糅杂了太多字段数据, 需要对其进行转换
       转换为:
          yearinfo  quarterInfo  monthinfo  dayinfo  hourinfo
          
   2. 将create_time转换为时间戳的操作(为了讲解时间函数)

建模操作字段:

  ,create_time,
hourinfo,yearinfo, quarterInfo,  monthinfo, dayinfo  

注意: 以上字段, 是需要进行清洗和转换后, 保留的字段

此时DWD层表:  将上述的字段 和 ODS层中事实表所有的字段汇总在一起, 构建成DWD层表

实际在生产中,具体操作:  
    1) 第一种, 如果事实表中字段比较多, 一般做法 可以只将需要的字段抽取出来即可
    2) 第二种, 如果表中字段比较少, 一般做法, 全部都获取出来

 
最终形成的表字段: 
   sid,session_id,ip ,create_time,area,origin_channel,seo_source,referrer,from_url,
  landing_page_url,url_title,platform_description,other_params,history,msg_count
hourinfo,yearinfo, quarterInfo,  monthinfo, dayinfo

DWM层: 中间层

作用: 提前聚合操作(周期快照事实表) 和维度退化操作

1) 维度退化操作:  此功能在此主题中不存在, 因为没有维度表
2) 做提前聚合操作: 
      比如说: 要分别按照 年 月  日 小时进行统计总访问量, 此时可以先按照小时统计总访问量 , 后的日 月 年可以在小时的基础上进行累加统计即可, 这样效率比较高
      思考, 访问咨询主题中, 是否可以进行提前聚合呢?  不能 
         在此看板中, 计算指标的 先 去重 在统计个数
     小案例: 
         2020-10-10 15  s01  
         2020-10-10 15  s02
         2020-10-10 16  s01
         2020-10-10 16  s03
         2020-10-11 10  s02
         2020-10-11 11  s04
         
       统计, 每个小时有几个用户数据呢?
          2020-10-10 15  2
          2020-10-10 16  2
          2020-10-11 10  1
          2020-10-11 11  1
       统计, 每天有几个用户呢? 
           正确结果:
              2020-10-10  3
              2020-10-11  2
           但是, 如果使用每个小时的统计结果, 来计算:
             2020-10-10  4
             2020-10-11  2
             此时, 会发现有问题了....

此时发现, 在此层, 既不能做维度退化, 也不能进行提前聚合, 所以不需要DWM层

DWS层: 业务层

作用: 针对指标, 进行细化维度统计操作

指标: 访问量
维度: 
    固有维度:  
       时间维度: 年 季度 月  天 小时
    产品属性维度:
       总访问量
       地区维度
       来源渠道维度
       搜索来源维度
       受访页面维度

开发需求: 共计有 25个开发需求
   1) 统计每年 的总访问量
   2) 统计 每年 每季度的总访问量
   3) 统计 每年 每季度 每月的总访问量
   .....
   
   1) 统计每年 各个地区的总访问量
   2) 统计每年每季度 各个地区总访问量
   ....
   
   1) 统计每年各个来源渠道的总访问量数据
   2) 统计每年每季度各个来源渠道的总访问量数据
   ....
   
   ....
 在DWS层, 需要将每一个需求的结果统计出来, 然后存储在DWS层  , 针对每一个指标, 构建一个结果表, 存储其所有的结果
 
DWS层表:
  组成部分:
      指标统计结果字段 + 维度字段  + 业务查询字段(time_type,group_type,time_str)
 
 最终组合下DWS层字段:
    sid_total,sessionid_total,ip_total,area,origin_channel,seo_source
    from_url, hourinfo,time_type,group_type,time_str
    yearinfo, quarterinfo,monthinfo,dayinfo,
       
       
-------------------------------------
指标:  咨询量
维度:
    固有维度:  
        时间维度: 年 季度 月 天 小时
    产品属性维度:
        总咨询量
        地区维度
        来源渠道维度
DWS层表:
  组成部分:
      指标统计结果字段 + 维度字段  + 业务查询字段(time_type,group_type,time_str)
      
  最终组合下DWS层字段:
    sid_total,sessionid_total,ip_total,area,origin_channel
    hourinfo,time_type,group_type,time_str
    yearinfo, quarterinfo,monthinfo,dayinfo,

APP层: 数据应用层

作用: 对DWS层结果进行再次分析, 将统计结果存储在APP层

思考: 是否还需要对DWS层数据进行统计?  ---> 是否在DWS层以及将需要的结果统计出来了?此时发现, 需要要求安装各个维度统计结果此时在DWS层以及统计完成了, 此时不需要在继续统计了, 所以不需要app层如果说, 需要计算比率 , 咨询率  此时可能需要app层

DIM层: 维表层
- 此层不需要(因为没有维度表)

3.2.2 咨询客户量

最终的数据维度：年、季度、月、日、地区、来源渠道；
统计的数据和访问客户量指标相似，唯一的不同点是，多了一个条件：和客服有聊天信息；
因为咨询客户量的数据来源和访问客户量相同，所以ODS层可以复用；
DWD层对ODS原始数据进行清洗和转换，可以复用；
DWM层先去重，再在DWS中sum的结果是不正确的；所以跳过DWM层；
DWS层直接在DWD层的基础上，加上聊天信息的条件后，按照维度进行统计。

4. 建模操作

4.1 数据存储格式

4.1.1 列式存储、行式存储

行存储的特点：查询满足条件的一整行（所有列）数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。
列存储的特点：因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。

4.1.2 TEXTFILE

默认格式，行式存储。可结合Gzip、Bzip2使用(系统自动检查，执行查询时自动解压)，但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。并且反序列化过程中，必须逐个字符判断是不是分隔符和行结束符，性能较差。

4.1.3 ORCFILE

使用ORC文件格式可以提高hive读、写和处理数据的能力。ORCFile是RCFile的升级版。

在ORC格式的hive表中，数据按行分块，每块按列存储。结合了行存储和列存储的优点。记录首先会被横向的切分为多个stripes，然后在每一个stripe内数据以列为单位进行存储，所有列的内容都保存在同一个文件中。

每个stripe的默认大小为256MB，相对于RCFile每个4MB的stripe而言，更大的stripe使ORC可以支持索引，数据读取更加高效。

4.2 “存储格式&压缩格式”结合方式的选择

4.2.1 zlib压缩

优点：压缩率比较高；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样。
缺点：压缩性能一般。

4.2.2 snappy压缩

优点：高速压缩速度和合理的压缩率。
缺点：压缩率比zlib要低；hadoop本身不支持，需要安装（CDH版本已自动支持，可忽略）。

因为ORCFILE的压缩快、存取快，而且拥有特有的查询优化机制，所以系统采用ORCFILE存储格式（RCFILE升级版），压缩算法采用orc支持的ZLIB和SNAPPY。

在ODS数据源层，因为数据量较大，可以采用orcfile+ZLIB的方式，以节省磁盘空间；

而在计算的过程中（DWD、DWM、DWS、APP），为了不影响执行的速度，可以浪费一点磁盘空间，采用orcfile+SNAPPY的方式，提升hive的执行速度。

存储空间足够的情况下，推荐采用SNAPPY压缩。

在项目中:

ODS层: ZLIB+ORC
其他层次: SNAPPY + ORC

说明: 如果存储空间比较宽裕的, 建议在hive中建表时都可以采用snappy压缩方案

4.3 全量和增量

开发步骤共包含两大过程：全量过程和增量过程。

4.3.1 全量过程

全量过程是在首次建库时，需要对OLTP应用（Mysql）中的全量数据进行采集、清洗和统计计算。历史数据量可能会非常大，远远超出了增量过程。在执行时需要进行针对性的优化配置并采用分批执行。

4.3.2 增量过程

增量过程是在全量过程之后进行的，大多采用的是T+1模式。

全量执行完毕后，对OLTP每天的新增数据和更新数据要进行同步，如果还是对全量数据进行分析，效率会非常低下。增量数据只有一天的量，采集、清洗和统计的效率相对于全量过程会有很大提升。

什么是T+1？

这种说法来源于股票交易：

T+0，是国际上普遍使用的一种证劵度（或期货）交易制度。凡在证劵（或期货）成交日当天办理好证劵（或期货）和价款清算交割手续的交易制度，就称为T+0交易。通俗说，就是当天买入的证道劵（或期货）在当天就可以卖出。

T+1是一种股票交易制度，即当日买进的股票，要到下一个交易日才能卖出。“T”指交易登记日，“T+1”指登记日的次日。

4.4 Hive的分区

我们知道传统的OLTP数据库（Mysql）一般都具有索引和表分区的功能，通过表分区能够在特定的区域检索数据，减少扫描成本，在一定程度上提高查询效率，我们还可以通过建立索引进一步提升查询效率。在Hive数仓中也有索引和分区的概念。

为了对表进行合理的管理以及提高查询效率，Hive可以将表组织成“分区”。

分区是表的部分列的集合，可以为频繁使用的数据建立分区，这样查找分区中的数据时就不需要扫描全表，这对于提高查找效率很有帮助。

分区是一种根据“分区列”（partition column）的值对表进行粗略划分的机制。Hive中每个分区对应着表很多的子目录，将所有的数据按照分区列放入到不同的子目录中去。

4.4.1 为什么要分区

庞大的数据集可能需要耗费大量的时间去处理。在许多场景下，可以通过分区的方法减少每一次扫描总数据量，这种做法可以显著地改善性能。

数据会依照单个或多个列进行分区，通常按照时间、地域或者是商业维度进行分区。

比如电影表，分区的依据可以是电影的种类和评级，另外，按照拍摄时间划分可能会得到均匀的结果。

为了达到性能表现的一致性，对不同列的划分应该让数据尽可能均匀分布。最好的情况下，分区的划分条件总是能够对应where语句的部分查询条件，这样才能充分利用分区带来的性能优势。

Hive的分区使用HDFS的子目录功能实现。每一个子目录包含了分区对应的列名和每一列的值。但是由于HDFS并不支持大量的子目录，这也给分区的使用带来了限制。我们有必要对表中的分区数量进行预估，从而避免因为分区数量过大带来一系列问题。

Hive查询通常使用分区的列作为查询条件。这样的做法可以指定MapReduce任务在HDFS中指定的子目录下完成扫描的工作。HDFS的文件目录结构可以像索引一样高效利用。

Hive(Inceptor)分区包括静态分区和动态分区。根据插入时是否需要手动指定分区可以分为：

静态分区：导入数据时需要手动指定分区；
动态分区：导入数据时，系统可以动态判断目标分区；

4.4.2 静态分区

创建静态分区

直接在 PARTITIONED BY 后面跟上分区键、类型即可。（分区键不能和任何列重名）

CREATE [EXTERNAL] TABLE <table_name>
    (<col_name> <data_type> [, <col_name> <data_type> ...])
    -- 指定分区键和数据类型
    PARTITIONED BY  (<partition_key> <data_type>, ...) 
    [ROW FORMAT <row_format>] 
    [STORED AS TEXTFILE|ORC|CSVFILE]
    [LOCATION '']    
[TBLPROPERTIES (''='', ...)];

栗子：

--分区字段主要是时间，按年分区
CREATE TABLE device_open (
deviceid varchar(50),
...
)
PARTITIONED BY (year varchar(50))
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

写入数据

语法：

-- 覆盖写入
INSERT OVERWRITE TABLE <table_name> 
    PARTITION (<partition_key>=<partition_value>[, <partition_key>=<partition_value>, ...]) 
    SELECT <select_statement>;
 
-- 追加写入
INSERT INTO TABLE <table_name> 
    PARTITION (<partition_key>=<partition_value>[, <partition_key>=<partition_value>, ...])
SELECT <select_statement>;

栗子：

insert overwrite table device_open partition(year=’2020’)
select
	...,
	original_device_open.month as month,
	original_device_open.day as day,
	original_device_open.hour as hour
FROM original_device_open

4.4.3 动态分区

创建动态分区

创建方式与静态分区表完全一样

--分区字段主要是时间，分为年，月，日，时
CREATE TABLE device_open (
deviceid varchar(50),
...
)
PARTITIONED BY (year varchar(50), month varchar(50), day varchar(50), hour varchar(50))
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

写入（动态分区只需要给出分区键名称）
```
-- 开启动态分区支持，并开启非严格模式
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

insert overwrite table device_open partition(year,month,day,hour)
select
	...,
	original_device_open.year as year,
	original_device_open.month as month,
	original_device_open.day as day,
	original_device_open.hour as hour
FROM original_device_open
```
- set hive.exec.dynamic.partition=true; 是开启动态分区
- set hive.exec.dynamic.partition.mode=nonstrict; 这个属性默认值是strict，就是要求分区字段必须有一个是静态的分区值。全部动态分区插入，需要设置为nonstrict非严格模式。
- partition(year,month,day,hour) 就是要动态插入的分区。对于大批量数据的插入分区，动态分区相当方便。

4.4.4 静态分区和动态分区混用

一张表可同时被静态和动态分区键分区，只是动态分区键需要放在静态分区键的后面（因为HDFS上的动态分区目录下不能包含静态分区的子目录）。

静态分区键要用 = 指定分区值；动态分区只需要给出分区键名称。

spk 即静态分区static partition key， dpk 即动态分区dynamic partition key。

比如：

insert overwrite table device_open partition(year='2017',month='05',day,hour)
select
	...,
	original_device_open.day as day,
	original_device_open.hour as hour
FROM original_device_open 
where original_device_open.year='2017' and original_device_open.month='05'

partition(year=‘2017’, month=‘05’, day, hour)，year和month是静态分区字段，day和hour是动态分区字段，这里指将2017年5月份的数据插入分区表，对应底层的物理操作就是将2017年5月份的数据load到hdfs上对应2017年5月份下的所有day和hour目录中去。

注意混用的情况下，静态分区的上层必须也是静态分区，如果partition(year, month, day=’05’, hour=’08’)，则会报错：FAILED: SemanticException [Error 10094]: Line 1:50 Dynamic partition cannot be the parent of a static partition ‘‘day’’。

4.4.5 有序动态分区

注意，如果个人电脑性能不好，出现因为动态分区而导致的内存溢出问题，可以设置hive.optimize.sort.dynamic.partition进行避免：

设置为true后，当启用动态分区时，reducer仅随时保持一个记录写入程序，从而降低对 reducer产生的内存压力。但同时也会使查询性能变慢。

动态分区其他相关属性设置：

分区表的作用: 提升查询的性能，为什么说分区表可以提升查询性能呢?

原因:
   分区表可以将数据按照分区字段将其划分到多个文件夹中, 在查询的时候, 根据分区字段查询, 此时hive回到指定分区目录下查询数据, 不需要在查询其他目录, 从而可以减少查询数据的扫描量, 从而提升效率
   
所以说 在hive中构建表的时候, 一般都是构建分区表

思考: 构建分区表, 如何向分区表添加数据

方案一: 静态分区(人为指定分区的值)
	格式:
	   1) load data [local] inpath '路径' into|overwrite table 表名 partition(分区字段1=值1, 分区字段2=值2,...)
       2) insert into|overwrite table 表名 partition(分区字段1=值1,分区字段2=值2....) +select ....

方案二: 动态分区(一次性向表中添加多个分区)
     格式:
        insert into|overwrite table 表名 partition(分区字段1,分区字段2....) +select ....
     注意:  如果使用动态分区, 必须满足以下条件
       1) 必须配置以下参数:
          set hive.exec.dynamic.partition=true; 开启动态分区支持
          set hive.exec.dynamic.partition.mode=nonstrict; 开启非严格模式
       2) select查询语句结果最后面必须是分区字段,而且要保证顺序

方案三: 动静混合
	格式: 
	  insert into|overwrite table 表名 partition(分区字段1=值1,分区字段2,分区字段3....) +select ....
	 注意:  如果使用动静混合分区, 必须满足以下条件
       1) 必须配置以下参数:
          set hive.exec.dynamic.partition=true; 开启动态分区支持
          set hive.exec.dynamic.partition.mode=nonstrict; 开启非严格模式
       2) select查询语句结果最后面必须是动态分区字段,而且要保证顺序

优化动态分区配置:

hive.optimize.sort.dynamic.partition

主要作用:
    当电脑内存资源不足时候, 可以开启此参数, 一旦开启, 整个hive翻译MR只会保持一个输出reduce, 从而降低资源的占用情况, 保证正常执行
    弊端: 执行效率会降低

4.3 建模操作

4.3.1 指标和维度

指标：访问客户量是单位时间内访问网站的去重后客户数量，以天为单位显示访问客户。

维度：

时间维度：年、季度、月、天、小时
业务属性维度：地区、来源渠道、搜索来源、会话来源页面、总访问量。

4.3.2 事实表和维度表

事实表的数据就是指标数据，访问客户量指标的事实表就是我们的客户访问表。而维度数据都包含在事实表中，没有需要额外关联的维度表。

4.3.3 分层

数据库命名统一加上前缀itcast，在实际场景中，将此前缀替换为系统的简称即可。比如：edu_ods、edu_dwd、edu_dws等。

ODS层是原始数据，一般不允许修改，所以使用外部表保证数据的安全性，避免误删除；
DW和APP层是统计数据，为了使覆盖插入等操作更方便，满足业务需求的同时，提高开发和测试效率，推荐使用内部表。

4.3.3.1 ODS层

从咨询系统OLTP数据库（Mysql）的web_chat_ems_20XX_XX等月表中抽取的原始数据；

离线数仓大多数的场景都是T+1，为了便于后续的DW层清洗数据时，快速获取昨天的数据，ODS模型要在原始mysql表的基础之上增加starts_time抽取日期字段，并且可以使用starts_time字段分区以提升查询的性能。

建库：

-- 构建ODS的库
CREATE DATABASE IF NOT EXISTS `itcast_ods`;

建表：web_chat_ems

建表时，要注意字段名不要采用关键字，比如原始mysql表中有一个user字段，我们需要将它修改为user_match。
注意，设置ORC压缩格式前一定要先设置hive.exec.orc.compression.strategy，否则压缩不生效：
```
--写入时压缩生效
set hive.exec.orc.compression.strategy=COMPRESSION;
```

CREATE EXTERNAL TABLE IF NOT EXISTS itcast_ods.web_chat_ems (
  id INT comment '主键',
  create_date_time STRING comment '数据创建时间',
  session_id STRING comment '七陌sessionId',
  sid STRING comment '访客id',
  create_time STRING comment '会话创建时间',
  seo_source STRING comment '搜索来源',
  seo_keywords STRING comment '关键字',
  ip STRING comment 'IP地址',
  area STRING comment '地域',
  country STRING comment '所在国家',
  province STRING comment '省',
  city STRING comment '城市',
  origin_channel STRING comment '投放渠道',
  user_match STRING comment '所属坐席',
  manual_time STRING comment '人工开始时间',
  begin_time STRING comment '坐席领取时间 ',
  end_time STRING comment '会话结束时间',
  last_customer_msg_time_stamp STRING comment '客户最后一条消息的时间',
  last_agent_msg_time_stamp STRING comment '坐席最后一下回复的时间',
  reply_msg_count INT comment '客服回复消息数',
  msg_count INT comment '客户发送消息数',
  browser_name STRING comment '浏览器名称',
  os_info STRING comment '系统名称')
comment '访问会话信息表'
PARTITIONED BY(starts_time STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
stored as orc
location '/user/hive/warehouse/itcast_ods.db/web_chat_ems_ods'
TBLPROPERTIES ('orc.compress'='ZLIB');

建表：web_chat_text_ems

CREATE EXTERNAL TABLE IF NOT EXISTS itcast_ods.web_chat_text_ems (
  id INT COMMENT '主键来自MySQL',
  referrer STRING comment '上级来源页面',
  from_url STRING comment '会话来源页面',
  landing_page_url STRING comment '访客着陆页面',
  url_title STRING comment '咨询页面title',
  platform_description STRING comment '客户平台信息',
  other_params STRING comment '扩展字段中数据',
  history STRING comment '历史访问记录'
) comment 'EMS-PV测试表'
PARTITIONED BY(start_time STRING)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'
stored as orc
location '/user/hive/warehouse/itcast_ods.db/web_chat_text_ems_ods'
TBLPROPERTIES ('orc.compress'='ZLIB');

4.3.3.2 DWD层

维度：

时间维度：年、季度、月、天、小时
业务属性维度：地区、来源渠道、搜索来源、会话来源页面、总访问量。

建库：

-- 构建DWD的库
CREATE DATABASE IF NOT EXISTS `itcast_dwd`;

将ODS层数据，进行清洗转换，并且将web_chat_ems主表和web_chat_text_ems附表的内容根据id合并在一起。

数据粒度保持不变。

数据清洗：空数据、不满足业务需求的数据处理。

数据转换：数据格式和数据形式的转换，比如时间类型可以转换为同样的展现形式“yyyy-MM-dd HH:mm:ss”或者时间戳类型，金钱类型的数据可以统一转换为以元为单位或以分为单位的数值。

建表：

create table if not exists itcast_dwd.visit_consult_dwd(
  session_id STRING comment '七陌sessionId',
  sid STRING comment '访客id',
  create_time bigint comment '会话创建时间',
  seo_source STRING comment '搜索来源',
  ip STRING comment 'IP地址',
  area STRING comment '地域',
  msg_count int comment '客户发送消息数',
  origin_channel STRING COMMENT '来源渠道',
  referrer STRING comment '上级来源页面',
  from_url STRING comment '会话来源页面',
  landing_page_url STRING comment '访客着陆页面',
  url_title STRING comment '咨询页面title',
  platform_description STRING comment '客户平台信息',
  other_params STRING comment '扩展字段中数据',
  history STRING comment '历史访问记录',
  hourinfo string comment '小时',
  quarterinfo string comment '季度'
)
comment '访问咨询DWD表'
partitioned by(yearinfo String, monthinfo String, dayinfo string)
row format delimited fields terminated by '\t'
stored as orc
location '/user/hive/warehouse/itcast_dwd.db/visit_consult_dwd'
tblproperties ('orc.compress'='SNAPPY');

4.3.3.3 DWS层表

在DWD层的基础上，按照业务的要求进行统计分析；时间和业务属性三个维度分类，可以在模型中增加对应的属性标识：

时间维度：1.年、2.季度、3.月、4.天、5.小时
业务属性维度：1.地区、2.来源渠道、3.搜索来源、4.会话来源页面、5.总访问量

建库：

-- 构建DWS的库
CREATE DATABASE IF NOT EXISTS `itcast_dws`;

建表：

CREATE TABLE IF NOT EXISTS itcast_dws.visit_dws (
  sid_total INT COMMENT '根据sid去重求count',
  sessionid_total INT COMMENT '根据sessionid去重求count',
  ip_total INT COMMENT '根据IP去重求count',
  area STRING COMMENT '区域信息',
  seo_source STRING COMMENT '搜索来源',
  origin_channel STRING COMMENT '来源渠道',
  hourinfo STRING COMMENT '创建时间，统计至小时',
  quarterinfo STRING COMMENT '季度',
  time_str STRING COMMENT '时间明细',
  from_url STRING comment '会话来源页面',
  groupType STRING COMMENT '产品属性类型：1.地区；2.搜索来源；3.来源渠道；4.会话来源页面；5.总访问量',
  time_type STRING COMMENT '时间聚合类型：1、按小时聚合；2、按天聚合；3、按月聚合；4、按季度聚合；5、按年聚合；')
comment 'EMS访客日志dws表'
PARTITIONED BY(yearinfo STRING,monthinfo STRING,dayinfo STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
stored as orc
location '/user/hive/warehouse/itcast_dws.db/visit_dws'
TBLPROPERTIES ('orc.compress'='SNAPPY');


CREATE TABLE IF NOT EXISTS itcast_dws.consult_dws
(
  sid_total INT COMMENT '根据sid去重求count',
  sessionid_total INT COMMENT '根据sessionid去重求count',
  ip_total INT COMMENT '根据IP去重求count',
  area STRING COMMENT '区域信息',
  origin_channel STRING COMMENT '来源渠道',
  hourinfo STRING COMMENT '创建时间，统计至小时',
  quarterinfo STRING COMMENT '季度',
  time_str STRING COMMENT '时间明细',
  groupType STRING COMMENT '产品属性类型：1.地区；2.来源渠道',
  time_type STRING COMMENT '时间聚合类型：1、按小时聚合；2、按天聚合；3、按月聚合；4、按季度聚合；5、按年聚合；'
)
COMMENT '咨询量DWS宽表'
PARTITIONED BY (yearinfo string, monthinfo STRING, dayinfo string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS ORC
LOCATION '/user/hive/warehouse/itcast_dws.db/consult_dws'
TBLPROPERTIES ('orc.compress'='SNAPPY');

4.3.3.4 APP层表

如果用户需要具体的报表展示，可以针对不同的报表页面设计APP层结构，然后导出至OLAP系统的mysql中。

如果系统使用FineBI，需要通过宽表来进行灵活的展现。则APP层不再进行细化。直接将DWS层导出至mysql即可。

5. 数据操作之前基础优化（Hive参数优化）

下面关于Hive的优化，皆是基于Hive2.x的版本，对于Hive1.x旧版本的优化机制不再复述（新版本已改善或变更）。

另外新版本中默认为开启状态的优化配置项，在工作中无需修改，也不再复述。

5.1 HDFS的副本数的调整

dfs.replication（HDFS）

文件副本数，通常设为3，不推荐修改。

如果测试环境只有二台虚拟机（2个datanode节点），此值要修改为2。

5.2 Yarn的相关配置

5.2.1 NodeManager配置

5.2.1.1 cpu配置

配置项：yarn.nodemanager.resource.cpu-vcores

表示该节点服务器上yarn可以使用的虚拟CPU个数，默认值是8，推荐将值配置与物理CPU线程数相同，如果节点CPU核心不足8个，要调小这个值，yarn不会智能的去检测物理核心数。

默认值: 8

表示: 每一个nodemanager对应服务器的cpu核心数为 8

推荐配置: 和nodemanager对应服务器的cpu核心保持一致即可
- 如何查询服务器的cpu的核心数呢?
```
grep 'processor' /proc/cpuinfo | sort -u | wc -l
```

如何配置

5.2.1.2 内存配置

配置项: yarn.nodemanager.resource.memory-mb | yarn.scheduler.maximum-allocation-mb | yarn.app.mapreduce.am.command-opts

说明:
    yarn.nodemanager.resource.memory-mb | yarn.scheduler.maximum-allocation-mb : 内存大小配置一致
    yarn.app.mapreduce.am.command-opts : 略小于 上面的配置 0.9 左右

默认值: 8GB
推荐配置: 当前服务器剩余内存 * 0.8
如何查看电脑剩余内存呢?
- shell命令查询: free -m
- 通过CM查看:
如何配置:

5.2.2 MR的基础配置

你可能感兴趣的:(#,大数据/离线数仓(Hive),大数据,数据仓库)

80| Python可视化篇 —— Matplotlib数据可视化小刘要努力。 Python教程系列专栏可视化数据分析 python
文章目录Matplotlib和数据可视化安装matplotlib绘制折线图绘制散点图绘制正弦曲线绘制直方图使用Pygal绘制矢量图3D图Matplotlib和数据可视化数据的处理、分析和可视化已经成为Python近年来最为重要的应用领域之一，其中数据的可视化指的是将数据呈现为漂亮的统计图表，然后进一步发现数据中包含的规律以及隐藏的信息。数据可视化又跟数据挖掘和大数据分析紧密相关，而这些领域以及当下
数据驱动决策：五款报表软件让企业智能化运营希艾席蒂恩数据可视化软件推荐信息可视化数据分析数据挖掘报表工具数据可视化
概述：随着数据量的增长和企业数字化转型的推进，报表软件的需求不断增加。现代报表软件不仅能提供基本的数据汇总功能，还能通过数据可视化、自动化报告、跨平台支持等方式，帮助企业提高决策效率和业务洞察能力。以下是5款新型报表软件的详细介绍，这些软件各具特色，能够满足不同企业在数据处理和报表生成中的多样需求。1.山海鲸报表概述：山海鲸报表是一款面向中小型企业的强大数据报表和分析工具。它的最大特点是易用性和高
kafka 在Linux上的安装部署 The博宇软件安装 linux kafka 运维
一、前言Kafka是一个分布式流处理平台，在大数据领域有着广泛的应用。在Linux系统上安装部署Kafka可以为我们搭建高效的数据处理环境。本教程将详细介绍在Linux中安装和部署Kafka的步骤。二、准备工作2.1系统要求确保你的Linux系统已经安装并配置好。本教程以CentOS7为例，但其他常见的Linux发行版（如Ubuntu等）步骤也大致相似。系统需要有足够的磁盘空间、内存等资源，一般建
CentOS7 离线安装 Nginx 1 2501_90339668 nginx 运维
4、Nginx安装tarzxvfnginx-1.6.2.tar.gz-C/usr/local/cd/usr/local/nginx-1.6.2/&&./configure--prefix=/usr/local/nginxmake&&makeinstallcd/usr/local/nginx&&ls5、启动Nginx/usr/local/nginx/sbin/nginxps-ef|grepnginx
深入解析MySQL备份技术：从逻辑到物理的全面指南 PLUTO t MYSQL mysql
一、MySQL支持的备份技术有哪些？逻辑备份原理：像“抄作业”一样，将数据库中的结构和数据逐行导出为SQL或CSV文件。工具：mysqldump：最常用的工具，兼容性好。mysqlpump：支持并行导出和压缩，适合大数据量。适用场景：小规模数据迁移（如从开发环境导出到测试环境）。跨版本恢复（如从MySQL5.7迁移到8.0）。导出部分表或库（比如只备份用户表）。物理备份原理：直接复制数据库的“物理
YashanDB升级前准备数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E5%AE%89%E8%A3%85%...请与YashanDB技术支持确认当前在用数据库版本是否可直接升级到该新版本。确认临时目录的权限及空间滚动升级时会创建安装新版本数据库的目录，请确保升级操作用户拥有创建该目录的权限，且具备充足的存储空间。离线升级时会创建一个临时
YashanDB离线升级数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E5%AE%89%E8%A3%85%...YashanDB支持通过yasboot工具离线升级已部署的数据库，将数据库二进制文件升级到新版本。Note:本文中所有路径、版本号、用户、密码与回显信息等仅为示例，请以实际为准。注意事项离线升级要求当前数据库无新业务数据产生，
云数据库是什么数据库？云服务器数据库
云数据库，简单来说，是一种部署在云计算环境中的数据库服务。它借助云计算的强大资源，将数据库管理系统以服务的形式提供给用户，用户无需在本地自行搭建复杂的硬件和软件环境，通过互联网就能便捷地使用数据库功能。这就像是把原本需要在自家搭建、维护的“数据仓库”搬到了云端的“大型仓储中心”，由专业团队负责管理和维护。与传统数据库相比，云数据库有着诸多明显差异。传统数据库往往需要用户自行购置服务器、存储设备等硬
Hive JDBC 大数据查询场景下的 Socket 读超时问题及实战解决方案窝窝和牛牛大数据 hive hadoop
文章目录HiveJDBC大数据查询场景下的Socket读超时问题及实战解决方案问题背景️解决方案方案一：通过JDBCURL直接配置超时（推荐）方案二：动态设置全局loginTimeout（兼容旧版本）总结与建议HiveJDBC大数据查询场景下的Socket读超时问题及实战解决方案问题背景在使用HiveJDBC执行查询时，偶发SocketTimeoutException异常，堆栈显示在ResultS
AI与大数据融合：技术路径与行业赋能互联网Ai好者人工智能大数据
在数字化浪潮中，数据已成为驱动社会与商业变革的核心生产要素。据IDC预测，2025年全球数据总量将增长至175ZB，其中物联网设备、社交媒体及企业数字化系统贡献了80%的增量数据。面对海量异构数据的处理需求，传统分析工具已显现出明显局限：Gartner研究指出，仅35%的企业能有效利用其数据资产。在此背景下，人工智能技术通过算法突破与算力跃迁，正重塑大数据价值挖掘范式，构建从数据感知到决策闭环的全
Flink的市场竞争力：大数据浪潮中的“潜力股”还是“青铜”？狮歌~资深攻城狮大数据
Flink的市场竞争力：大数据浪潮中的“潜力股”还是“青铜”？嘿，各位小伙伴！今天咱来聊聊Flink在市场中的竞争力这个超有意思的话题。你要是搞大数据的，那肯定对Flink不陌生；要是还不太懂的，也别担心，咱就像唠家常一样把这事给你讲清楚。一、Flink市场竞争力啥意思？咱先说说这市场竞争力是个啥。打个比方，它就好比一场商场大促，每个品牌都在拼命展示自己的优势，吸引顾客掏钱包。Flink在市场里也
Kimball维度模型之数据仓库灵魂总线架构 ByteCodeLabs 维度数据仓库设计数据仓库架构
目录一总线架构(BusArchitecture)1总线矩阵(BusMatrix)2Mapping文档二一致性维度(ConformedDimension)三一致性事实(ConformedFact)在数据仓库领域，深刻理解基本概念是确立强大数据管理体系的关键。数据仓库作为一个庞大而复杂的系统，其核心概念涉及多维体系结构、总线架构等关键要素。首要的是理解数据仓库的架构，例如Multidimensiona
Java 大视界 -- Java 大数据在智能安防入侵检测与行为分析中的应用（108）青云交大数据新视界 Java 大视界 java 大数据智能安防入侵检测实时流处理 LSTM 联邦学习
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- 基于 Java 的大数据分布式任务调度系统设计与实现（117）青云交大数据新视界 Java 大视界 java 大数据分布式分布式任务调度系统设计调度算法容错机制
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
ASIHTTPRequest类库简介和使用说明从小爱吃苹果干 iOS ASIHttpRequest ASIHTTPRequest
一、简介原文链接http://www.cnblogs.com/dotey/archive/2011/05/10/2041966.html1.下载源码官方网站：http://allseeing-i.com/ASIHTTPRequest/。可以从上面下载到最新源码，以及获取到相关的资料。2.概况使用iOSSDK中的HTTP网络请求API，相当的复杂，调用很繁琐，ASIHTTPRequest就是一个对C
弹性算力革命：企业级GPU云服务如何重构AI与图形处理的效能边界
企业级GPU云服务是一种面向企业用户，基于云计算技术，将强大的图形处理器（GPU）资源以服务的形式提供给企业的创新模式。通过这种模式，企业无需自行购置、安装和维护昂贵的GPU硬件设备，只需按需从云端获取GPU计算资源，就能满足自身多样化的业务需求。随着人工智能、大数据、深度学习、虚拟现实以及高性能计算等前沿技术在各行业的深入渗透，企业对于大规模并行计算能力的要求越来越高。GPU凭借其卓越的并行计算
弹性算力革命：企业级GPU云服务如何重构AI与图形处理的效能边界
企业级GPU云服务是一种面向企业用户，基于云计算技术，将强大的图形处理器（GPU）资源以服务的形式提供给企业的创新模式。通过这种模式，企业无需自行购置、安装和维护昂贵的GPU硬件设备，只需按需从云端获取GPU计算资源，就能满足自身多样化的业务需求。随着人工智能、大数据、深度学习、虚拟现实以及高性能计算等前沿技术在各行业的深入渗透，企业对于大规模并行计算能力的要求越来越高。GPU凭借其卓越的并行计算
安装docker chuhx docker 容器运维
有两种方式安装docker，分别是在线安装和离线安装，如果服务器可以连接外网，推荐使用在线安装方式。1、在线安装此处以centos系统为例：yuminstall-yyum-utilsyum-config-manager--add-repohttp://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repoyuminstall-ydocker
2024年Python最新蓝桥杯基础练习全解答案+解析共17题 python，三年经验Python开发面经总结 2401_84139963 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
C、C++ 与 C# 的区别及应用场景 xl.liu c语言 c++c#
C、C++与C#的区别及应用场景随着信息技术的快速发展，编程语言的选择对于项目成功至关重要。C、C++和C#是三种广泛使用的编程语言，它们各自具有独特的特点和适用领域。本文将基于当前IT行业的发展趋势，探讨这三种语言之间的主要差异，以及它们各自的优缺点和应用场景。IT行业的现状和发展趋势在当今的IT行业中，云计算、大数据、人工智能（AI）以及物联网（IoT）等技术正在引领新一轮的技术革新。这些技术
查看归档日志及rman备份文件大叶梧桐 LINUX 归档日志 man备份
[root@his1/]#ls----查看**/**根目录下的文件archivebootdevhomelib64mediamntoptrmansbinsrvtmpusrbincgroupetcliblost+foundmiscnetprocrootselinuxsysu01var[root@his1/]#cdarchive/------进入archive/[root@his1archive]#ls
分钟级降水预报API：精准掌控天气变化 api
前言在瞬息万变的天气面前，精准的预报信息显得尤为重要。传统的天气预报往往以小时为单位，难以满足人们对精细化天气信息的需求。而分钟级降水预报API的出现，则打破了这一局限，为各行各业带来了更精准、更及时的降水预报服务。什么是分钟级降水预报API？分钟级降水预报API是一种基于先进气象算法和大数据分析的应用程序接口，能够提供国内任一经纬度未来2小时内，每分钟降水量的精细化预报数据。用户只需通过简单的A
Ubuntu系统中下载安装使用Anaconda xxxn1102_ ubuntu ubuntu conda
文章目录一、下载二、安装1、上传安装文件2、阅读安装协议3、确认安装协议4、确认安装位置5、初始化Anaconda6、查看是否安装成功三、base环境四、Anaconda管理虚拟环境一、下载官网下载地址：https://www.anaconda.com/download中科大镜像源官网：https://mirrors.ustc.edu.cn/anaconda/archive/以上两个网址都可下载，
JAVA学习-练习试用Java实现“使用神经网络算法对大数据集进行模式识别和筛选” 守护者170 java学习 java 学习
问题：实现一个Java程序，使用神经网络算法对大数据集进行模式识别和筛选。解答思路：要实现一个使用神经网络算法对大数据集进行模式识别和筛选的Java程序，我们可以使用一个简单的多层感知器（MLP）模型。以下是一个使用Java实现的简单示例，其中使用了'java.util'包中的数据结构和算法。一、在这个例子中，我们将使用以下步骤：1.准备数据集（这里我们将随机生成一些数据）。2.定义一个简单的多层
湖仓一体化及冷、热、实时三级存储麦当当MDD 数据仓库 Spark 大数据数据库数据仓库数据库架构
一、湖仓一体化（Lakehouse）湖仓一体化（Lakehouse）是数据湖（DataLake）与数据仓库（DataWarehouse）的结合，旨在解决传统数据架构中数据孤岛、存储冗余、计算性能不足等问题。其核心思想是兼顾数据湖的存储灵活性和数据仓库的管理与计算能力，使得结构化、半结构化、非结构化数据能够在同一存储系统中高效管理和分析。二、为什么需要湖仓一体？数据湖的缺陷：缺乏强Schema，查询
蚂蚁集团可转正实习算法岗内推-自然语言飞300 业界资讯自然语言处理
具备极佳的工程实现能力，精通C/C++、Java、Pvthon、Perl等至少一门语言:对目前主流的深度学习平台:tensorflow、pytorch、mxnet等，至少对其中一个有上手经验;熟悉深度学习以及常见机器学习算法的原理与算法，能熟练运用聚类、分类、回归、排序等模型解决有挑战性的问题，有大数据处理的实战经验;有强烈求知欲，对人工智能领域相关技术有热情，内推链接：https://u.ali
基于TableStore的海量气象格点数据解决方案实战阿里云云栖号数据存储与数据库 exception Java核心技术
前言气象数据是一类典型的大数据，具有数据量大、时效性高、数据种类丰富等特点。气象数据中大量的数据是时空数据，记录了时间和空间范围内各个点的各个物理量的观测量或者模拟量，每天产生的数据量常在几十TB到上百TB的规模，且在爆发性增长。如何存储和高效的查询这些气象数据越来越成为一个难题。传统的方案常常采用关系型数据库加文件系统的方式实现这类气象数据的存储和实时查询，这种方案在可扩展性、可维护性和性能上都
大数据与物联网（IoT）的完美融合：驱动智能新时代 Echo_Wish 大数据高阶实战秘籍大数据物联网 python 人工智能
大数据与物联网（IoT）的完美融合：驱动智能新时代大家好，我是你们的大数据探索者Echo_Wish。今天，我们将深入探讨大数据与物联网（IoT）整合的重要性及其在现代科技中的应用。物联网通过连接大量智能设备，生成海量数据；而大数据技术则赋予我们从这些数据中提取有价值信息的能力。当两者结合在一起时，能够为各行各业带来革命性的变化，推动智能时代的到来。一、大数据与物联网的基本概念1.物联网（IoT）物
深入理解Kettle：ETL工具的学习与实践未知方程无解
本文还有配套的精品资源，点击获取简介：Kettle（Spoon）是Pentaho公司开发的开源ETL工具，用于数据整合和数据仓库建设。本学习笔记着重于Kettle的核心——转换引擎，详细探讨其数据处理的各个步骤，包括数据的输入、转换、输出以及工作原理，提供了一系列的学习资源和实践操作指南，旨在帮助学习者深入理解并掌握Kettle的转换引擎，从而提升数据处理能力。1.Kettle（Spoon）简介与
探索数据仓库自动化：ETL流程设计与实践 Echo_Wish 大数据高阶实战秘籍数据仓库自动化 etl
探索数据仓库自动化：ETL流程设计与实践在大数据时代，数据仓库已成为企业数据管理和决策支持的核心工具。如何高效地提取、转换和加载数据（ETL），是数据仓库建设中的重要环节。本文将围绕数据仓库自动化的ETL流程设计展开，结合实际代码示例，探讨如何构建高效、稳定和可扩展的ETL解决方案。什么是ETL？ETL（Extract,Transform,Load）是指数据抽取、转换和加载，是数据仓库建设的重要步
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: 361942420@qq.com
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

大数据-案例-离线数仓-在线教育：MySQL(业务数据)-ETL(Sqoop)-＞Hive数仓【ODS层-数据清洗-＞DW层(DWD-统计分析-＞DWS)】-导出(Sqoop)-＞MySQL-＞可视化

一、商业BI系统概述

二、项目背景

1、直接用Mysql做数据分析缺陷

2、大数据技术的应用

三 、数据仓库+OLAP：“访问客户量” 大数据分析

1、需求分析

1.1 需求1: 统计指定时间段内，访问客户的总数量。能够下钻到小时数据

1.2 需求2: 统计指定时间段内，访问客户中各区域人数热力图。能够下钻到小时数据

1.3 需求3: 统计指定时间段内，不同地区（省、市）访问的客户中发起咨询的人数占比

1.4 需求4: 统计指定时间段内，每日客户访问量/咨询率双轴趋势图。能够下钻到小时数据。

1.5 需求5: 统计指定时间段内，1-24h之间，每个时间段的访问客户量。

1.6 需求6: 统计指定时间段内，不同来源渠道的访问客户量占比。能够下钻到小时数据。

1.7 需求7: 统计指定时间段内，不同搜索来源的访问客户量占比。能够下钻到小时数据。

1.8 需求8: 统计指定时间段内，产生访问客户量最多的页面排行榜TOPN。能够下钻到小时数据。

2. 数据初始准备工作

3. 建模分析

3.1 提取指标维度

3.1.1 访问客户量

3.1.2 咨询客户量

3.2 分层设计

3.2.1 访问客户量

3.2.2 咨询客户量

4. 建模操作

4.1 数据存储格式

4.1.1 列式存储、行式存储

4.1.2 TEXTFILE

4.1.3 ORCFILE

4.2 “存储格式&压缩格式”结合方式的选择

4.2.1 zlib压缩

4.2.2 snappy压缩

4.3 全量和增量

4.3.1 全量过程

4.3.2 增量过程

4.4 Hive的分区

4.4.1 为什么要分区

4.4.2 静态分区

4.4.3 动态分区

4.4.4 静态分区和动态分区混用

4.4.5 有序动态分区

4.3 建模操作

4.3.1 指标和维度

4.3.2 事实表和维度表

4.3.3 分层

4.3.3.1 ODS层

4.3.3.2 DWD层

4.3.3.3 DWS层表

4.3.3.4 APP层表

5. 数据操作之前基础优化（Hive参数优化）

5.1 HDFS的副本数的调整

5.2 Yarn的相关配置

5.2.1 NodeManager配置

5.2.1.1 cpu配置

5.2.1.2 内存配置

5.2.2 MR的基础配置

你可能感兴趣的:(#,大数据/离线数仓(Hive),大数据,数据仓库)

三、数据仓库+OLAP：“访问客户量” 大数据分析