E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
【Hadoop生态圈】
(第8篇)实时可靠的开源分布式实时计算系统——Storm
流式计算解决方案-Storm在
Hadoop生态圈
中,针对大数据进行批量计算时,通常需要一个或者多个MapReduce作业来完成,但这种批量计算方式是满足不了对实时性要求高的场景。
I加加
·
2017-03-14 10:14
hadoop
hive
大数据
(第3篇)HDFS是什么?HDFS适合做什么?我们应该怎样操作HDFS系统?
HDFS文件系统Hadoop附带了一个名为HDFS(Hadoop分布式文件系统)的分布式文件系统,专门存储超大数据文件,为整个
Hadoop生态圈
提供了基础的存储服务。
I加加
·
2017-03-06 17:38
hadoop
HDFS
大数据
Hadoop生态圈
介绍
Scala的书:《快学Scala》、《Scala编程指南》什么是HadoopHadoop是一套开源的平台中间件Hadoop是服务器集群,在集群上执行我们的代码广义上来说,Hadoop是指一个更广泛的概念——
Hadoop
墨染百城
·
2017-02-15 14:33
大数据框架
Hadoop
hadoop生态圈
各个模板浅析梳理
hadoop是一个开源的分布式的分析存储平台,hdfs是分布式文件系统用于存储,mapreduce是并行处理框架用于分析,yarn是集群的资源管理器,zookeeper是分布式服务框架hdfs:其中hdfs主要由数据块,namenode和datanode构成,数据块存储三份,datanode存放了数据块,namenode存放了文件元数据mapreduce:其中mapreduce主要由jobtrac
DJ_2017
·
2017-02-10 15:02
hadoop基础----hadoop实战(七)-----hadoop管理工具---使用Cloudera Manager安装Hadoop---Cloudera Manager和CDH5.8离线安装
CDH5.8是目前比较新的版本,自带hadoop2.0以上的Hadoop,而且已经包含了很多组件,也是我们接下来需要学习的
hadoop生态圈
中的组件。环境ClouderaManager是为
YueBanWa
·
2017-01-19 13:08
转载
配置linux(CentOs)操作系统ssh免密登录
很多时候我们需要配置linux(CentOs)集群节点间免密登录,这样对于我们搭建
hadoop生态圈
,实现节点间文件拷贝提供了很大方便。
XTXB
·
2016-12-31 12:51
linux
Spark--数据读取与保存
一部分原因是Spark本身是基于
Hadoop生态圈
二构建的,sospark可以通过HadoopMapReduce所使用的InputFormat和OutPutFormat接口访问数据,而大部分常见的文件格式与存储系统
Alan_DM
·
2016-12-19 19:31
spark
==Hadoop概论浅学
Hadoop概论浅学-http://www.jianshu.com/p/1a7efa602c22Paste_Image.png
Hadoop生态圈
这里写图片描述可以把hadoop想象成一个很大的生态圈(本来就是
葡萄喃喃呓语
·
2016-12-12 10:58
Hadoop概论浅学
Hadoop生态圈
这里写图片描述可以把hadoop想象成一个很大的生态圈(本来就是),或者说想象成一个动物园吧,之后的东西就比较好理解了。
mrlevo520
·
2016-12-03 14:40
[tools]Hadoop 生态系统
Hadoop生态系统-哥不是小萝莉-博客园http://www.cnblogs.com/smartloli/p/5640587.html1.概述最近收到一些同学和朋友的邮件,说能不能整理一下
Hadoop
葡萄喃喃呓语
·
2016-11-29 10:59
列存储格式Parquet浅析
Parquet调研报告1.概述1.1简介ApacheParquet是
Hadoop生态圈
中一种新型列式存储格式,它可以兼容
Hadoop生态圈
中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持
Jeffbond
·
2016-11-24 13:07
SVN服务器搭建
SVN服务器搭建
Hadoop生态圈
的源码大部分都需要在linux环境下编译和执行。而个人使用的环境为windows,因此需要经常在两个系统(虚拟机)间切换。
_xingzhe_
·
2016-11-20 11:27
Flume的基本概念
一:Flume介绍1.1、在
hadoop生态圈
中,Flume的位置。1.2、Flume是什么?有Cloudera公司开源分布式、可靠、高可用的海量日志采集系统数据源可定制,可扩展。
Gedeon
·
2016-11-18 13:53
Flume
[dataguru]Hadoop数据分析平台2016-10-22
//Hadoop_v4_14.pdf
Hadoop生态圈
Paste_Image.pngUDF什么是UDF支持UDF的项目:例如Pig,Hive应用不Hbase的对接:通过ThriftThrift是一个跨语言的服务部署框架
葡萄喃喃呓语
·
2016-10-22 21:00
Greenplum性能调优
以目前的使用体验的话,Greenplum(以下简称GP)的实时性确实比较高,从存储层到计算层,数据吞吐效率比类
Hadoop生态圈
的sql工具要好得多。
weitao1026
·
2016-10-19 16:00
FAILED: NullPointerException null
问题描述在阅读“基于
Hadoop生态圈
的数据仓库实践”中,碰到了一点问题记录下来。
五香豆
·
2016-10-13 10:50
hive
基于
hadoop生态圈
的数据仓库实践 —— OLAP与数据可视化(六)
六、Hue数据可视化实例 本节先用Impala、DB查询示例说明Hue的数据查询和可视化功能,然后交互式地建立一个定期执行销售订单示例ETL任务的工作流,说明在Hue里是如何操作Oozie工作流引擎的。1.Impala查询 在ImpalaOLAP实例一节中执行了一些查询,现在在Hue里执行查询,直观看一下结果的图形化表示效果。(1)登录Hue,点击图标进入“我的文档”页面。(2)点击创
wzy0623
·
2016-08-31 16:00
基于
hadoop生态圈
的数据仓库实践 —— OLAP与数据可视化(五)
五、Hue、Zeppelin比较 上一节简单介绍了Hue这种
Hadoop生态圈
的数据可视化组件,本节讨论另一种类似的产品——Zeppelin。
wzy0623
·
2016-08-30 16:00
基于
hadoop生态圈
的数据仓库实践 —— OLAP与数据可视化(四)
四、数据可视化与Hue简介1.数据可视化简介 数据可视化在维基百科上是这样定义的:指一种表示数据或信息的技术,它将数据或信息编码为包含在图形里的可见对象(如点、线、条等),目的是将信息更加清晰有效地传达给用户,是数据分析或数据科学的关键技术之一。简单地说,数据可视化就是以图形化方式表示数据。决策者可以通过图形直观地看到数据分析结果,从而更容易理解业务变化趋势或发现新的业务模式。使用可视化工具
wzy0623
·
2016-08-29 14:00
基于
hadoop生态圈
的数据仓库实践 —— OLAP与数据可视化(三)
三、ImpalaOLAP实例 本节使用前面销售订单的例子说明如何使用Impala做OLAP类型的查询,以及实际遇到的问题及解决方案。为了处理SCD和行级更新,我们前面的ETL使用了HiveORCFile格式的表,可惜到目前为止,Impala还不支持ORCFile。用Impala查询ORCFile表时,错误信息如下图所示。 这是一个棘手的问题。如果我们再建一套和dw库中表结构一样的表,但
wzy0623
·
2016-08-25 14:00
基于
hadoop生态圈
的数据仓库实践 —— OLAP与数据可视化(二)
二、Hive、SparkSQL、Impala比较 Hive、SparkSQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案,但又各有特点。前面已经讨论了Hive和Impala,本节先介绍一下SparkSQL,然后从功能、架构、使用场景几个角度比较这三款产品的异同,最后附上分别由cloudera公司和SAS公司出示的关于这三款产品的性能对比报告。1.SparkSQ
wzy0623
·
2016-08-19 12:00
《关于大数据的一些基本常识整理》
1.Hadoop生态
Hadoop生态圈
介绍Hadoop百度百科MapReduce百度百科Yarn百度百科Hive百度百科HBase百度百科Hadoop可视化分析利器之HueFlume百度百科Sqoop百度百科
司小幽
·
2016-08-18 13:43
大数据学习笔记
大数据
hive
hadoop
运维
hbase
《关于大数据的一些基本常识整理》
1.Hadoop生态
Hadoop生态圈
介绍Hadoop百度百科MapReduce百度百科Yarn百度百科Hive百度百科HBase百度百科Hadoop可视化分析利器之HueFlume百度百科Sqoop百度百科
BlackEnn
·
2016-08-18 13:00
hadoop
hive
大数据
hbase
运维
基于
hadoop生态圈
的数据仓库实践 —— OLAP与数据可视化(一)
一、OLAP与Impala简介1.OLAP简介 OLAP是OnlineAnalyticalProcessing的缩写,意为联机分析处理。此概念最早是由关系数据库之父E.F.Codd于1993年提出,至今已有20多年。OLAP允许以一种称为多维数据集的结构,访问业务数据源经过聚合和组织整理的后数据。以此为标准,OLAP作为单独的一类产品同联机事务处理(OLTP)得以明显区分。 在计算领域
wzy0623
·
2016-08-17 16:00
Apache Ranger剖析:
Hadoop生态圈
的安全管家
前言2016年,Hadoop迎来了自己十周岁生日。过去的十年,Hadoop雄霸武林盟主之位,号令天下,引领大数据技术生态不断发展壮大,一时间百家争鸣,百花齐放。然而,兄弟多了不好管,为了抢占企业级市场,各家都迭代出自己的一套访问控制体系,不管是老牌系统(比如HDFS、HBase),还是生态新贵(比如Kafka、Alluxio),ACL(AccessControlList)支持都是Roadmap里被
天外有菌
·
2016-08-16 22:40
Hadoop
基于
hadoop生态圈
的数据仓库实践 —— 进阶技术(十七)
十七、分段维度 本节说明分段维度的实现技术。分段维度包含连续值的分段。例如,年度销售订单分段维度可能包含有叫做“低”、“中”、“高”的三档;各档定义分别为0.01到15000、15000.01到30000.00、30000.01到99999999.99。如果一个客户的年度销售订单金额为10000,则被归为“低”档。 分段维度可以存储多个分段集合。例如,可能有一个用于促销分析的分段集合,
wzy0623
·
2016-08-11 17:00
基于
hadoop生态圈
的数据仓库实践 —— 进阶技术(十六)
十六、累积的度量 本篇说明如何实现累积月底金额,并对数据仓库模式和初始装载、定期装载脚本做相应地修改。累积度量是半可加的,而且它的初始装载比前面做的要复杂的多。 可加、半可加、不可加事实 事实表中的数字度量可划分为三类。最灵活、最有用的度量是完全可加的,可加性度量可以按照与事实表关联的任意维度汇总。半可加度量可以对某些维度汇总,但不能对所有维度汇总。差额是常见的半可加度量,除了时
wzy0623
·
2016-08-10 18:00
基于
hadoop生态圈
的数据仓库实践 —— 进阶技术(十五)
十五、维度合并 随着数据仓库中维度的增加,我们会发现有些通用的数据存在于多个维度中。例如,客户维度的客户地址相关信息、送货地址相关信息和工厂维度里都有邮编、城市和州。本节说明如何把三个维度里的邮编相关信息合并到一个新的维度。1.修改数据仓库模式 为了合并维度,需要改变数据仓库模式。下图显示了修改后的模式。新增了一个zip_code_dim表,sales_order_fact和produ
wzy0623
·
2016-08-09 18:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(十四)
十四、迟到的事实 装载日期在生效日期后的事实就是迟到的事实。晚于订单日期进入源数据的销售订单可以看做是一个迟到事实的例子。销售订单被装载进其事实表时,装载的日期晚于销售订单的订单日期,因此是一个迟到的事实。(因为定期装载的是前一天的数据,所以这里的晚于指的是晚2天及其以上。) 迟到事实影响周期快照事实表的装载,如进阶技术(五)“快照”中讨论的month_end_sales_order_
wzy0623
·
2016-08-08 18:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(十三)
十三、无事实的事实表 本节讨论一种技术,用来处理源数据中没有度量的需求。例如,产品源数据不包含产品数量信息,如果系统需要得到产品的数量,很显然不能简单地从数据仓库中直接得到。这时就要用到无事实的事实表技术。使用此技术可以通过持续跟踪产品的发布来计算产品的数量。可以创建一个只有产品(计什么数)和日期(什么时候计数)维度代理键的事实表。之所以叫做无事实的事实表是因为表本身并没有度量。1.产品发布
wzy0623
·
2016-08-05 15:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(十二)
十二、间接数据源 本节讨论如何处理间接数据源。间接数据源与维度表具有不同的粒度,因此不能直接装载进数据仓库。在这里通过修改进阶技术(八)——“多路径和参差不齐的层次”里的促销源数据说明怎样处理间接数据源。CAMPAIGNSESSION,MONTH,YEAR 2016FirstCampaign,1,2016 2016FirstCampaign,2,2016 2016FirstCampaign,
wzy0623
·
2016-08-04 17:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(十一)
十一、多重星型模式 从“进阶技术”开始,已经通过增加列和表扩展了数据仓库,在进阶技术(五)“快照”里增加了第二个事实表,month_end_sales_order_fact表。这之后数据仓库模式就有了两个事实表(第一个是在开始建立数据仓库时创建的sales_order_fact表)。有了这两个事实表的数据仓库就是一个标准的双星型模式。本节将在现有的维度数据仓库上再增加一个新的星型结构。与现有
wzy0623
·
2016-08-04 14:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(十)
十、杂项维度 本节讨论杂项维度。简单地说,杂项维度就是一种包含的数据具有很少可能值的维度。例如销售订单,它可能有很多离散数据(yes-no这种类型的值),如verification_ind(如果订单已经被审核,值为yes)credit_check_flag(表示此订单的客户信用状态是否已经检查)new_customer_ind(如果这是新客户的首个订单,值为yes)web_order_fla
wzy0623
·
2016-08-01 16:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(九)
九、退化维度 本节讨论一种称为退化维度的技术。该技术减少维度的数量,简化维度数据仓库模式。简单的模式比复杂的更容易理解,也有更好的查询性能。当一个维度没有数据仓库需要的任何数据时就可以退化此维度,此时需要把退化维度的相关数据迁移到事实表中,然后删除退化的维度。1.退化订单维度 本小节说明如何退化订单维度,包括对数据仓库模式和定期装载脚本的修改。使用维度退化技术时你首先要识别数据,分析从
wzy0623
·
2016-08-01 13:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(八)
八、多路径和参差不齐的层次 本节讨论多路径层次,它是对单路径层次的扩展。上一节里数据仓库的月维度只有一条层次路径,即年-季度-月这条路径。在本节中加一个新的级别——促销期,并且加一个新的年-促销期-月的层次路径。这时月维度将有两条层次路径,因此具有多路径层次。本节讨论的另一个主题是不完全层次,这种层次在它的一个或多个级别上没有数据。1.增加一个层次 下面的脚本给month_dim表添加
wzy0623
·
2016-07-29 13:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(七)
七、递归 数据仓库中的关联实体经常表现为一种“父—子”关系。在这种类型的关系中,一个父亲可能有多个孩子,而一个孩子只能属于一个父亲。例如,一个人只能被分配到一个部门,而一个部门可能被分配许多人。“父—子”之间是一种递归型树结构,是一种最理想、最灵活的存储层次树的数据结构。本节说明一些递归处理的问题,包括数据装载、树的展开、递归查询、树的平面化等技术实现。为了保持销售订单示例的完整性,本节的实
wzy0623
·
2016-07-28 14:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(六)
六、维度层次 大多数维度都具有一个或多个层次。例如,日期维度就有一个四级层次:年、季度、月和日。这些级别用date_dim表里的列来表示。日期维度是一个单路径层次,因为除了年-季度-月-日这条路径外,它没有任何其它层次。本节讨论在维度的层次上进行分组和钻取查询。多路径层次在下一节“多路径和参差不齐的层次”中讨论。 为了识别数据仓库里一个维度的层次,首先要理解维度中列的含义,然后识别两个
wzy0623
·
2016-07-25 13:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(五)
五、快照 前面实验说明了处理维度的扩展。本节讨论两种事实表的扩展技术。 有些用户,尤其是管理者,经常要看某个特定时间点的数据。也就是说,他们需要数据的快照。周期快照和累积快照是两种常用的事实表扩展技术。 周期快照是在一个给定的时间对事实表进行一段时期的总计。例如,一个月销售订单周期快照汇总每个月底时总的销售订单金额。 累积快照用于跟踪事实表的变化。例如,数据仓库可能需要累积
wzy0623
·
2016-07-22 11:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(四)
四、角色扮演维度 当一个事实表多次引用一个维度表时会用到角色扮演维度。例如,一个销售订单有一个是订单日期,还有一个交货日期,这时就需要引用日期维度表两次。 本节将说明两类角色扮演维度的实现,分别是表别名和数据库视图。这两种都使用了Hive的功能。表别名是在SQL语句里引用维度表多次,每次引用都赋予维度表一个别名。而数据库视图,则是按照事实表需要引用维度表的次数,建立相同数量的视图。1.
wzy0623
·
2016-07-18 17:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(三)
三、维度子集 有些需求不需要最细节的数据。例如更想要某个月而不是某天的记录。再比如相对于全部的销售数据,可能对某些特定状态的数据更感兴趣等。这些特定维度包含在从细节维度选择的行中,所以叫维度子集。维度子集比细节维度的数据少,因此更易使用,查询也更快。 本节中将准备两个特定维度,它们均取自现有的维度:月份维度(日期维度的子集),Pennsylvania州客户维度(客户维度的子集)。1.建
wzy0623
·
2016-07-18 13:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(二)
二、按需装载 前面已经做了“初始装载”和“定期装载”。还有一种需要熟悉的装载类型,按需装载。所谓“按需装载”指的是,在正常调度之外,当源数据有效或者数据仓库需要时进行装载。例如,促销销售源数据只有在促销期内有效,而在其它时间是无效的,而对促销期数据就要进行按需装载。 在“建立数据仓库示例模型”中讨论的日期维度数据生成可以看做是一种按需装载。数据仓库预先装载了日期,当日期用完时,需要再次
wzy0623
·
2016-07-14 16:00
基于
Hadoop生态圈
的数据仓库实践 —— 进阶技术(一)
一、增加列 数据仓库最常碰到的扩展是给一个已经存在的维度表和事实表添加列。本节说明如何在客户维度表和销售订单事实表上添加列,并在新列上应用SCD2,以及对定时装载脚本所做的修改。假设需要在客户维度中增加送货地址属性,并在销售订单事实表中增加数量度量值。 先看一下增加列时模式发生的变化。 修改后源数据库模式如下图所示。 修改后DW数据库模式如下图所示。1.修改数据库模式
wzy0623
·
2016-07-13 18:00
Hadoop 生态系统
1.概述最近收到一些同学和朋友的邮件,说能不能整理一下
Hadoop生态圈
的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了Hadoop的生态系统,并将其进行了归纳总结,进而将其以表格的形式进行了罗列
哥不是小萝莉
·
2016-07-13 15:00
基于
Hadoop生态圈
的数据仓库实践 —— ETL(三)
三、使用Oozie定期自动执行ETL1.Oozie简介(1)Oozie是什么 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,其工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Javamap-reduce、Streamingmap-reduce、Pig、Hive、Sqoop和D
wzy0623
·
2016-07-11 15:00
Parquet与ORC:高性能列式存储格式
背景随着大数据时代的到来,越来越多的数据流向了
Hadoop生态圈
,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在
Hadoop生态圈
的快速发展过程中,涌现了一批开源的数据分析引擎
yu616568
·
2016-07-09 20:00
hadoop
大数据
列式存储
Parquet
ORC
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了
大数据本身是个很宽泛的概念,
Hadoop生态圈
(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。
小夏谈运维
·
2016-07-08 14:59
hadoop
spark
hive
基于
Hadoop生态圈
的数据仓库实践 —— ETL(二)
二、使用Hive转换、装载数据1.Hive简介(1)Hive是什么 Hive是一个数据仓库软件,使用SQL读、写、管理分布式存储上的大数据集。它建立在Hadoop之上,具有以下功能和特点:通过SQL方便地访问数据,适合执行ETL、报表、数据分析等数据仓库任务。提供一种机制,给各种各样的数据格式加上结构。直接访问HDFS的文件,或者访问如HBase的其它数据存储。可以通过MapReduce、S
wzy0623
·
2016-07-06 11:00
hadoop HA+Federation(高可用联邦)模式搭建指南
简述hadoop集群一共有4种部署模式,详见《
hadoop生态圈
介绍》。
mtide_net
·
2016-07-03 08:25
hadoop HA高可用集群模式搭建指南
简述hadoop集群一共有4种部署模式,详见《
hadoop生态圈
介绍》。HA模式的集群里面会部署两台NN(最多也只能两台),以形成主备NN节点,达到高可用的目的。
mtide_net
·
2016-07-03 08:50
hadoop 完全分布式搭建指南
简述hadoop集群一共有4种部署模式,详见《
hadoop生态圈
介绍》。
mtide_net
·
2016-07-03 08:38
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他