E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop生态圈
hadoop 伪分布式搭建指南
简述hadoop集群一共有4种部署模式,详见《
hadoop生态圈
介绍》。伪分布式模式将hadoop安装在一台机器上,通常用来用作实验、开发和调试用。
mtide_net
·
2016-07-03 08:06
基于
Hadoop生态圈
的数据仓库实践 —— ETL(一)
一、使用Sqoop抽取数据1.Sqoop简介 Sqoop是一个在Hadoop与结构化数据存储(如关系数据库)之间高效传输大批量数据的工具。它在2012年3月被成功孵化,现在已是Apache的顶级项目。Sqoop有Sqoop1和Sqoop2两代,Sqoop1最后的稳定版本是1.4.6,Sqoop2最后版本是1.99.6。需要注意的是,1.99.6与1.4.6并不兼容,而且截止目前为止,1.99
wzy0623
·
2016-07-01 22:00
hadoop
数据仓库
生态
基于
Hadoop生态圈
的数据仓库实践 —— ETL(一)
一、使用Sqoop抽取数据1.Sqoop简介 Sqoop是一个在Hadoop与结构化数据存储(如关系数据库)之间高效传输大批量数据的工具。它在2012年3月被成功孵化,现在已是Apache的顶级项目。Sqoop有Sqoop1和Sqoop2两代,Sqoop1最后的稳定版本是1.4.6,Sqoop2最后版本是1.99.6。需要注意的是,1.99.6与1.4.6并不兼容,而且截止目前为止,1.99
wzy0623
·
2016-07-01 22:00
HADOOP生态圈
知识概述
一.hadoop生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与spark都能
crazys_蘑菇
·
2016-07-01 13:27
google
硬件故障
应用程序
HADOOP生态圈
知识概述
一.hadoop生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与spark都能
南非蚂蚁
·
2016-07-01 11:05
google
硬件故障
应用程序
云计算平台hadoop
基于
Hadoop生态圈
的数据仓库实践 —— 环境搭建(三)
三、建立数据仓库示例模型Hadoop及其相关服务安装配置好后,下面用一个小而完整的示例说明多维模型及其相关ETL技术在Hadoop上的具体实现。1.设计ERD操作型系统是一个销售订单系统,初始时只有产品、客户、订单三个表,ERD如下图所示。多维数据仓库包含有一个销售订单事实表,产品、客户、订单、日期四个维度表,ERD如下图所示。作为示例,上面这些ERD里的属性都很简单,看属性名字便知其含义。维度表
wzy0623
·
2016-06-29 16:31
Linux
基于
Hadoop生态圈
的数据仓库实践 —— 环境搭建(三)
三、建立数据仓库示例模型 Hadoop及其相关服务安装配置好后,下面用一个小而完整的示例说明多维模型及其相关ETL技术在Hadoop上的具体实现。1.设计ERD 操作型系统是一个销售订单系统,初始时只有产品、客户、订单三个表,ERD如下图所示。 多维数据仓库包含有一个销售订单事实表,产品、客户、订单、日期四个维度表,ERD如下图所示。 作为示例,上面这些ERD里的属性都很简
wzy0623
·
2016-06-29 16:00
使用Ambari快速部署Hadoop大数据环境
前言做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署
Hadoop生态圈
相关的组件的环境
English0523
·
2016-06-29 14:00
基于
Hadoop生态圈
的数据仓库实践 —— 环境搭建(二)
二、安装Hadoop及其所需的服务1.CDH安装概述CDH的全称是Cloudera'sDistributionIncludingApacheHadoop,是Cloudera公司的Hadoop分发版本。有三种方式安装CDH:.PathA-通过ClouderaManager自动安装.PathB-使用ClouderaManagerParcels或Packages安装.PathC-使用ClouderaMa
wzy0623
·
2016-06-27 16:11
基于
Hadoop生态圈
的数据仓库实践 —— 环境搭建(二)
二、安装Hadoop及其所需的服务1.CDH安装概述CDH的全称是Cloudera'sDistributionIncludingApacheHadoop,是Cloudera公司的Hadoop分发版本。有三种方式安装CDH:.PathA-通过ClouderaManager自动安装.PathB-使用ClouderaManagerParcels或Packages安装.PathC-使用ClouderaMa
wzy0623
·
2016-06-27 16:00
基于
Hadoop生态圈
的数据仓库实践 —— 环境搭建(一)
一、Hadoop版本选型 主流的
Hadoop生态圈
有Apache、Cloudera、HortonWorks、MapR几个不同版本,其中Cloudera、HortonWorks、MapR这几个是开源产品的商业分发版
wzy0623
·
2016-06-25 08:00
基于
Hadoop生态圈
的数据仓库实践 —— 概述(二)
而
Hadoop生态圈
就是为了能够廉价处理大量数据的目的应运而生的。下面看看大数据是怎么定义的。1.大数据的定义
wzy0623
·
2016-06-25 08:00
基于
Hadoop生态圈
的数据仓库实践 —— 概述(一)
一、什么是数据仓库 一种被广泛接受的数据仓库定义是BillInmon在1991年出版的《BuildingtheDataWarehouse》一书中所提出的——数据仓库是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持决策。它主要的目标是分析和处理数据,和传统的操作型事务处理有很大区别。1.操作型系统和分析型系统 操作型系统完成组织的核心业务,例如下订单、更新库存、记录支付
wzy0623
·
2016-06-25 07:00
基于
Hadoop生态圈
的数据仓库实践 —— 目录
第一部分:概述一、什么是数据仓库1.操作型系统和分析型系统2.ETL3.数据需求4.多维数据模型基础二、在Hadoop上实现数据仓库1.大数据的定义2.为什么需要分布式计算3.Hadoop基本组件4.
Hadoop
wzy0623
·
2016-06-25 07:00
hive的三板斧:内部表和外部表、分区和分桶以及序列化/反序列化(SerDe)
Hive是
Hadoop生态圈
中实现数据仓库的一项技术。虽然Hadoop和HDFS的设计局限了Hive所能胜任的工作,但是Hive仍然是目前互联网中最适合数据仓库的应用技术。
djd已经存在
·
2016-06-03 19:45
hive学习
Hadoop与海量数据计算
企业对于数据价值高度重视和新的要求,加速了
Hadoop生态圈
进一步地衍生和发展。本文主要介绍
Hadoop生态圈
、海量数据计算应用以及目前面临的问
Jogging
·
2016-06-01 18:48
网易视频云:新一代列式存储格式Parquet
ApacheParquet是
Hadoop生态圈
中一种
vcould163
·
2016-05-17 09:00
网易
技术开发
视频云
网易视频云
[置顶] 魅族大数据上云之路
在开始之前我们默认今天参与直播的各位同学对Hadoop相关技术和docker都有一定的了解,另外以下提到Hadoop是泛指目前魅族大数据使用的
Hadoop生态圈
技术,资源除特别说明则泛指存储资源、计算资源和网络资源的总和
tech_meizu
·
2016-05-16 17:00
hadoop
大数据
docker
网易视频云:新一代列式存储格式Parquet
ApacheParquet是
Hadoop生态圈
中一种新
vcould163
·
2016-05-16 15:00
数据存储
技术开发
视频云
网易视频云
大数据学习线路图
入门,了解什么是Hadoop1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、
Hadoop
kuchensheng
·
2016-05-14 12:51
大数据
学习线路
大数据篇
hadoop之oozie配置
在
Hadoop生态圈
中,Oozie它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。
u014439581
·
2016-05-11 08:00
Hadoop简介
1.
Hadoop生态圈
1.1单机模式1.2伪分布式模式1.3完全分布式模式2.HDFS架构2.1HDFS设计目标2.2基本概念NameNode与DataNode之间通过TCP协议进行通信。
MyArrow
·
2016-03-30 15:00
安装hadoop2.6.0前的linux环境准备
所有要先卸载自带的openjdk、再安装高版本的jdk、除此之外、由于
hadoop生态圈
需要使用的端口很多,为了方便我是直接关闭防火墙,并修改selinux配置文件、配置ssh免密码登录等等、修改主机名
usure_liunian
·
2016-03-30 14:00
新一代列式存储格式Parquet
ApacheParquet是
Hadoop生态圈
中一种新型列式存储格式,它可以兼容
Hadoop生态圈
中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、Drill等
yu616568
·
2016-03-27 20:00
hadoop
impala
Parquet
列式存储
嵌套格式
SQOOP 基础及安装
SQOOP是
hadoop生态圈
中使用较为简单的一款产品;(1)SQOOP命令是转换为map任务执行的,再次可见hadoop(hdfs、MapReduce)居于
hadoop生态圈
的核心位置(2)关系型数据库向
lanchunhui
·
2016-03-12 10:00
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了
本文为转载,出处:http://www.36dsj.com/archives大数据本身是个很宽泛的概念,
Hadoop生态圈
(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。
u011421608
·
2016-03-10 18:00
hadoop
storm
hive
spark
大数据
盘点
Hadoop生态圈
:13个让大象飞起来的开源工具
摘要:借助Google的三大论文,Hadoop打开了低成本海量数据处理之门;同时,借助了开源运动,
Hadoop生态圈
得以迅速成熟,也催生了处理各种业务及数据的工具,这里带大家回顾2013年让大象飞起来的
强子哥哥
·
2016-02-21 12:00
大数据
数据仓库工具:Hive
在
hadoop生态圈
中属于数据仓库的角色。他能够管理hadoop中的数据,同一时候能够查询hadoop
gcczhongduan
·
2016-02-18 11:00
Hive Learn Part01
HiveLearn第一部分Chap1基础知识本章重点:初步了解
Hadoop生态圈
初步了解Hive架构图1-1HivePrefaceHadoop简介Hadoop生态系统是处理大数据集而产生的解决方案。
blair
·
2016-02-15 00:00
hive
hadoop
hadoop知识体系
,是数据库管理员的基础课程1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、
Hadoop
淘气小男孩
·
2016-02-12 13:00
大数据学习笔记——Hadoop1.x基本概念和安装
Hadoop生态圈
十分庞大,最近Spark又很火热并且速度也是Hadoop的百倍级别的,曾想就只看Spark吧,后来发现还是需要从基础打起,Spark是基于内存的,其没有存储系统,需要添加第三方分布式存储
风水月
·
2016-02-01 14:34
大数据
大数据学习笔记——Hadoop1.x基本概念和安装
Hadoop生态圈
十分庞大,最近Spark又很火热并且速度也是Hadoop的百倍级别的,曾想就只看Spark吧,后来发现还是需要从基础打起,Spark是基于内存的,其没有存储系统,需要添加第三方分布式存储
fengshuiyue
·
2016-02-01 14:00
hadoop
大数据
大数据框架
入门,了解什么是Hadoop1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、
Hadoop
xxssyyyyssxx
·
2016-01-13 10:00
Ubuntu Server 14.04开发环境配置
今年的计划中涉及到了大数据的学习,而
Hadoop生态圈
多数是运行在Linux环境下面,因此在了解了一些理论之后,搭建环境即为首步。下面将记录一些使用UbuntuServer过程中出现的问题及解决方法。
fengshuiyue
·
2016-01-12 15:00
ubuntu
大数据技术Hadoop入门理论系列之一----
hadoop生态圈
介绍
Technorati标记:hadoop,生态圈,ecosystem,yarn,spark,入门 1.hadoop生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成
天将
·
2016-01-05 16:00
大数据技术Hadoop入门理论系列之一----
hadoop生态圈
介绍
Technorati标记:hadoop,生态圈,ecosystem,yarn,spark,入门1.hadoop生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成s
gridmix
·
2016-01-05 16:30
hadoop
生态圈
ecosystem
大数据技术hadoop入门理论
大数据技术Hadoop入门理论系列之一----
hadoop生态圈
介绍
Technorati标记:hadoop,生态圈,ecosystem,yarn,spark,入门 1.hadoop生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,
gridmix
·
2016-01-05 16:30
hadoop
生态圈
ecosystem
大数据技术Hadoop入门理论系列之一----
hadoop生态圈
介绍
Technorati标记:hadoop,生态圈,ecosystem,yarn,spark,入门 1.hadoop生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,
gridmix
·
2016-01-05 16:30
hadoop
生态圈
ecosystem
大数据学习路线
入门,了解什么是Hadoop1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、
Hadoop
lurao
·
2015-12-30 23:00
数据
大数据
架构设计:远程调用服务架构设计及zookeeper技术详解(上篇)
架构设计:远程调用服务架构设计及zookeeper技术详解(上篇) 一、序言 Hadoop是一个技术生态圈,zookeeper是
hadoop生态圈
里一个非常重要的技术
·
2015-11-13 20:39
zookeeper
大数据和
Hadoop生态圈
大数据和
Hadoop生态圈
一、前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和
Hadoop
·
2015-11-13 20:07
hadoop
HBase可靠性管理方法浅析
HBase是一个可以进行实时读和写操作的分布式NoSQL系统,建立在HDFS之上,是
Hadoop生态圈
中重要的一部分。
·
2015-11-12 23:09
hbase
大数据学习路线
了解什么是Hadoop 1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、
Hadoop
·
2015-11-12 16:33
大数据
使用Ambari快速部署Hadoop大数据环境
:杨鑫奇 前言 做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署
Hadoop
·
2015-11-12 14:47
hadoop
十分钟搭建自己的hadoop2/CDH4集群
在http://archive.cloudera.com/cdh4/cdh/4/下还可以下载到CDH
hadoop生态圈
内相关的包。再准备一个jdk1.6+的java环境,
·
2015-11-11 10:04
hadoop2
一文看懂大数据的技术生态圈
大数据本身是个很宽泛的概念,
Hadoop生态圈
(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。
·
2015-11-08 15:46
大数据
ooize简介
[1]在
Hadoop生态圈
中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。
茄子_2008
·
2015-11-02 10:00
Hadoop学习笔记(一)之示例程序:计算每年的最高温度MaxTemperature
《hadoop: the definitive guide 3th》的基础上通过网上额外搜集资料和查看hadoop的API再加上自己的实践方面的理解编写而成的,主要针对hadoop的特性和功能学习以及
Hadoop
·
2015-10-31 11:03
hadoop
Hortworks
Hadoop生态圈
简介
Hortworks 作为Apache Hadoop2.0社区的开拓者,构建了一套自己的
Hadoop生态圈
,包括存储数据的HDFS,资源管理框架YARN,计算模型MAPREDUCE、TEZ等,服务于数据平台的
·
2015-10-31 08:43
hadoop
Hadoop学习笔记(一)之示例程序:计算每年的最高温度MaxTemperature
《hadoop: the definitive guide 3th》的基础上通过网上额外搜集资料和查看hadoop的API再加上自己的实践方面的理解编写而成的,主要针对hadoop的特性和功能学习以及
Hadoop
·
2015-10-31 08:02
hadoop
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他