***大数据框架*** 第11页

用Apache Spark进行大数据处理——第二部分：Spark SQL

SparkSQL，作为ApacheSpark大数据框架的一部分，主要用于结构化数据处理和对Spark数

sinat_29581293·2016-06-01 16:00

hadoop集群部署(yarn)

伴随着各大互联网公司开源自己的大数据框架，大数据处理领域的框架已经比较完善。

看山·2016-03-31 17:20

hadoop集群部署(yarn)

原文：hadoop集群部署(yarn)伴随着各大互联网公司开源自己的大数据框架，大数据处理领域的框架已经比较完善。

conansix·2016-03-31 17:00

大数据框架hadoop的文件系统（HDFS）命令大全

HDFS(HadoopDistributedFileSystem)是Hadoop应用用到的一个最主要的分布式存储系统。一个HDFS集群主要由一个NameNode和多个Datanode组成：Namenode管理文件系统的元数据，而Datanode存储了实际的数据。基本上，客户端是通过联系Namenode以获取文件的元数据或修饰属性，而真正的文件I/O操作是Namenode直接和Datanode进行交

·2016-03-18 11:00

错过安卓，错过IOS，你还想错过大数据吗

亲，还等什么呢，超人学院面授精英班第四期火爆招生中，针对Java0基础的学员，从Java讲起，io、多线程等，延伸到大数据技术，例如：Hadoop、hive、hbase、spark、Scala等大数据框架技术

超人学院·2016-03-03 17:00

hive入门学习：数据倾斜的解决方案

hive入门学习：数据倾斜的解决方案众所周知，shuffle是整个大数据框架的心脏，是整个奇迹发生的地方，当然，问题也就发生在shuffle这里，数据倾斜是经常发生在这里。

liyaohhh·2016-02-19 18:35

hive入门学习：数据倾斜的解决方案

hive入门学习：数据倾斜的解决方案众所周知，shuffle是整个大数据框架的心脏，是整个奇迹发生的地方，当然，问题也就发生在shuffle这里，数据倾斜是经常发生在这里

liyaohhh·2016-02-19 18:00

1秒钟让你了解Hadoop和Spark

解决问题的层面不一样首先，Hadoop和ApacheSpark两者都是大数据框架，但是各自存在的目的不尽相同。

yaoxiaochuang·2016-02-12 23:00

2分钟读懂大数据框架Hadoop和Spark的异同

解决问题的层面不一样首先，Hadoop和ApacheSpark两者都是大数据框架，但是各自存在的目的不尽相同。

dingqinghu·2016-02-09 21:56

Spark和Hadoop的区别

谈到大数据框架，现在最火的就是Hadoop和Spark，倒底现在业界都在使用哪种技术？二者间究竟有哪些异同？它们各自解决了哪些问题？让我们通过本文来了解。

raisingstar·2016-02-02 17:07

Spark和Hadoop的区别

谈到大数据框架，现在最火的就是Hadoop和Spark，倒底现在业界都在使用哪种技术？二者间究竟有哪些异同？它们各自解决了哪些问题？让我们通过本文来了解。

raisingstar·2016-02-02 17:07

0x0F 大数据职位，数据场技能(下)

如果数据量比较大，可以使用Hadoop等大数据框架处理。在深入挖掘上，可用Python或者R语言进行编程。

i败火·2016-01-28 22:59

大数据框架

一、Hadoop入门，了解什么是Hadoop1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、Hadoop生态圈以及各组成部分的简介7、Hadoop核心MapReduce例子说明二、分布式文件系统HDFS，是数据库管理员的基础课程1、分布式文件系统HDFS简介2、HDFS的系

xxssyyyyssxx·2016-01-13 10:00

几种大数据框架的对比

hadoop(批量，离线，非实时)主要用于搜索引擎，文件存储等等，Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（highthroughput）来访问应用程序的数据，适合那些有着超大数据集（largedataset）的应用程序。HDFS放宽

VessalasdXZ·2016-01-06 22:14

2分钟读懂大数据框架Hadoop和Spark的异同

解决问题的层面不一样首先，Hadoop和ApacheSpark两者都是大数据框架，但是各自存在的目的不尽相同。

zhubaitian·2015-12-17 09:00

2分钟读懂大数据框架Hadoop和Spark的异同

解决问题的层面不一样首先，Hadoop和ApacheSpark两者都是大数据框架，但是各自存在的目的不尽相同。

勿忘初心321·2015-12-15 14:00

Spark和Hadoop，孰优孰劣？

但是，在选择大数据框架时，企业不能因此就厚此薄彼。近日，著名大数据专家BernardMarr在一篇文章中分析了Spark和Hadoop的异同。

asta-zyx·2015-12-07 13:00

技术导航

前台模板：http://b-jui.com/AlibabaIcon：http://www.iconfont.cn/大数据框架： http://www.8088net.com/MVC工作流：http://

nele·2015-12-05 22:00

Spark和Hadoop，孰优孰劣？

但是，在选择大数据框架时，企业不能因此就厚此薄彼。近日，著名大数据专家BernardMarr在一篇文章中分析了Spark和Hadoop的异同。

罗文浩·2015-12-01 12:00

Spark和Hadoop，孰优孰劣？

但是，在选择大数据框架时，企业不能因此就厚此薄彼。近日，著名大数据专家BernardMarr在一篇文章中分析了Spark和Hadoop的异同。

谢丽·2015-12-01 00:00

Spark和Hadoop，孰优孰劣？

但是，在选择大数据框架时，企业不能因此就厚此薄彼。近日，著名大数据专家BernardMarr在一篇文章中分析了Spark和Hadoop的异同。

谢丽·2015-12-01 00:00

Spark和Hadoop，孰优孰劣？

但是，在选择大数据框架时，企业不能因此就厚此薄彼。近日，著名大数据专家BernardMarr在一篇文章中分析了Spark和Hadoop的异同。

昵称4·2015-11-30 18:00

用Apache Spark进行大数据处理

from:http://www.infoq.com/cn/articles/apache-spark-sqlSparkSQL，作为ApacheSpark大数据框架的一部分，主要用于结构化数据处理和对Spark

see_you_again·2015-11-23 09:00

Spark大数据处理技术

全球首部全面介绍Spark及Spark生态圈相关技术的技术书籍俯览未来大局，不失精细剖析，呈现一个现代大数据框架的架构原理和实现细节透彻讲解Spark原理和架构，以及部署模式、调度框架

·2015-11-12 10:36

Spark大数据框架驱动快速分析

Spark大数据分布式计算框架得到数据工程师的极大关注，但是到目前为止它的吸引力仅限于此。但是，用户认为它有一个主要特性可以帮助它扩大影响力：速度。企业越来越多地使用自助分析应用程序，它们变得很容易操作。简单易用通常是在组织范围内成功应用的一个最大因素，但是在上周旧金山举行的Spark Summit 2015大会上，这个计算框架的早期使用者指出，速度可能才是让一线人员使用数据的最大卖点。谷

蓝儿唯美·2015-07-27 17:00

用Apache Spark进行大数据处理——第二部分：Spark SQL

SparkSQL，作为ApacheSpark大数据框架的一部分，主要用于结构化数据处理和对Spark数据执行类SQL的查询。

Srini Penchikala·2015-06-12 00:00

用Apache Spark进行大数据处理——第二部分：Spark SQL

SparkSQL，作为ApacheSpark大数据框架的一部分，主要用于结构化数据处理和对Spark数据执行类SQL的查询。

Srini Penchikala·2015-06-12 00:00

开拓者第3次群会议活动

（活动时间待定，请大家提供自己的空闲时间）例如：1)Java2)Android3)大数据（业务、使用的大数据框架）4)思想类（如分享各自对大数据思维、互联网思维的认识）5)其他6)。。。

开拓者-2015·2015-04-26 23:00

通过SparkR在R上运行Spark

作为一个大规模处理内存中数据的大数据框架，ApacheSaprk最近积攒了大量人气，像Cloudera这样的大公司已经表示大力支持该项目了。Cloudera最近宣布在其针对Ha

u010022051·2015-04-02 16:00

超人学院大数据技术框架入门

大数据技术框架入门，讲解大数据框架，如：Hadoop、storm、hbase等框架技术。

超人学院·2015-02-10 15:00

微软开源大数据框架REEF

在本周一的国际知识挖掘与数据发现大会上，微软信息服务首席技术官RaghuRamakrishnan透露微软计划近期内开放其大数据框架REEF（RetainableEvaluatorExecutionFramework

iris_1992·2015-01-05 15:00

精通Spark的开发语言：Scala最佳实践

Scala是一门以JVM为目标运行环境并将面向对象和函数式编程语言的最佳特性结合在一起的编程语言,此课程是大数据框架Spark的前置课程：1， Spark框架是采用Scala语言编写的，精致而优雅。

wangruoze·2014-12-24 16:00

大数据框架hadoop之版本显示的实现逻辑

版本显示在各个项目或系统中都有使用到，实现方式也各式各样，接下来了解一下hadoop是如何实现版本显示的逻辑的。首先从使用场景开始。使用场景在bin目录下打印系统版本信息。执行命令结果hadoop version 结果显示，当前的hadoop版本为1.0.0。接下来就一步步地跟踪代码，详细了解一下版本显示的实现逻辑。Hadoop脚本首先打开hadoop脚本(目录${HADOOP_HO

seandeng888·2014-12-08 14:00

大数据框架hadoop之版本显示的实现逻辑

seandeng888·2014-12-08 14:00

大数据框架hadoop之JobTracker主要功能分析

JobTracker是整个MapReduce计算框架中的主服务，相当于集群的“管理者”，负责整个集群的作业控制和资源管理。本文对JobTracker的启动过程及心跳接收与应答两个主要功能进行分析。 1 JobTracker启动过程 1.1 各种线程功能函数offerService()会启动JobTracker内部几个比较重要的后

seandeng888·2014-12-04 13:00

大数据框架hadoop之JobTracker主要功能分析

seandeng888·2014-12-04 13:00

大数据框架hadoop的作业初始化过程(接上编)

seandeng888·2014-12-03 09:00

大数据框架hadoop的作业初始化过程(接上编)

本文接上一编文章《大数据框架hadoop的作业提交过程》。调度器调用JobTracker.initJob()函数对新作业进行初始化。

seandeng888·2014-12-03 09:00

大数据框架hadoop的作业提交过程

seandeng888·2014-12-02 09:00

大数据框架hadoop的作业提交过程

作业提交过程比较简单，它主要为后续作业执行准备环境，主要涉及创建目录、上传文件等操作；而一旦用户提交作业后，JobTracker端便会对作业进行初始化。作业初始化的主要工作是根据输入数据量和作业配置参数将作业分解成若干个Map Task以及Reduce Task，并添加到相关数据结构中，以等待后续被高度执行。总之，可将作业提交与初始化过程分

seandeng888·2014-12-02 09:00

大数据框架hadoop之FS基本操作

1 读数据1.1 使用Hadoop URL读数据想要使java识别出hdfs开头的URL标示需要一点额外的工作要做：通过URL的setURLStreamHandlerFactory()方法为 java设置一个FSUrlStreamHandlerFactory。这个方法在每个JVM中只能调用一次，所以它通常会被放在一个static block中执行（如下所示），但是如果你的某部分程序（例如一个你无法

seandeng888·2014-12-01 12:00

大数据框架hadoop之Observe设计模式应用

Observer观察者设计模式是行为模式的一种，它的作用是当一个对象的状态发生变化时，能够自动通知其他关联对象，自动刷新对象状态 Observer模式提供给关联对象一种同步通信的手段，使某个对象与依赖它的其他对象之间保持状态同步。如下用代码的形式来展现被观察者（新闻出版社）和观察者（与之关

seandeng888·2014-11-29 16:00

大数据框架hadoop的IPC应用场景之getNewJobId

作为典型的分布式系统，Hadoop中各个实体间存在着大量的交互，远程过程调用让用户可以像调用本地方法一样调用另外一个应用程序提供的服务，而不必设计和开发相关的信息发送、处理和接收等具体代码，是一种重要的分布式计算技术，它提高了程序的互操作性，在Hadoop的实现中得到广泛的应用。 Hadoop没有使用Java RMI，而是实现了一套自己独有的节点间通信机制，理由是有效的IPC（Inter-Pro

seandeng888·2014-11-29 16:00

大数据框架hadoop的IPC应用场景之getNewJobId

作为典型的分布式系统，Hadoop中各个实体间存在着大量的交互，远程过程调用让用户可以像调用本地方法一样调用另外一个应用程序提供的服务，而不必设计和开发相关的信息发送、处理和接收等具体代码，是一种重要的分布式计算技术，它提高了程序的互操作性，在Hadoop的实现中得到广泛的应用。Hadoop没有使用JavaRMI，而是实现了一套自己独有的节点间通信机制，理由是有效的IPC（Inter-Proces

seandeng8888·2014-11-29 07:51

大数据框架hadoop的IPC应用场景之getNewJobId

作为典型的分布式系统，Hadoop中各个实体间存在着大量的交互，远程过程调用让用户可以像调用本地方法一样调用另外一个应用程序提供的服务，而不必设计和开发相关的信息发送、处理和接收等具体代码，是一种重要的分布式计算技术，它提高了程序的互操作性，在Hadoop的实现中得到广泛的应用。Hadoop没有使用JavaRMI，而是实现了一套自己独有的节点间通信机制，理由是有效的IPC（Inter-Proces

seandeng8888·2014-11-29 07:20

大数据框架hadoop的文件系统（HDFS）命令大全

HDFS(Hadoop Distributed File System)是Hadoop应用用到的一个最主要的分布式存储系统。一个HDFS集群主要由一个NameNode和多个Datanode组成：Namenode管理文件系统的元数据，而Datanode存储了实际的数据。基本上，客户端是通过联系Namenode以获取文件的元数据或修饰属性，而真正的文件I/O操作是

seandeng888·2014-11-28 00:00

大数据框架hadoop的IPC机制实例

seandeng888·2014-11-26 13:00

大数据框架hadoop的IPC机制实例

seandeng888·2014-11-26 13:00

大数据框架hadoop的IPC机制实例

Hadoop IPC（Inter-Process Communication，进程间通信），这是一种简洁，低消耗的通信机制，可以精确控制进程间通信中如连接、超时、缓存等细节。Hadoop IPC机制的实现使用了Java动态代理，Java NIO等技术。如下是一个使用Hadoop IPC实现客户端调用服务

seandeng888·2014-11-26 13:00

大数据框架hadoop的解压缩机制

gzip和zip是通用的压缩工具，在时间/空间处理上相对平衡，gzip2压缩比gzip和zip更有效，但速度较慢，而且gzip2的解压缩速度快于它的压缩速度。当使用MapReduce处理压缩文件时，需要考虑压缩文件的可分割性。如果文件是一个bzip2格式的压缩文件，那么，MapReduce作业可以通过bzip2格式压缩文件中的块，将输入划分为若干输入分片，并从块开始处开始解压缩数据。Bzip

seandeng888·2014-11-25 19:00

推荐频道

***大数据框架***

用Apache Spark进行大数据处理——第二部分：Spark SQL

hadoop集群部署(yarn)

hadoop集群部署(yarn)

大数据框架hadoop的文件系统（HDFS）命令大全

错过安卓，错过IOS，你还想错过大数据吗

hive入门学习：数据倾斜的解决方案

hive入门学习：数据倾斜的解决方案

1秒钟让你了解Hadoop和Spark

2分钟读懂大数据框架Hadoop和Spark的异同

Spark和Hadoop的区别

Spark和Hadoop的区别

0x0F 大数据职位，数据场技能(下)

大数据框架

几种大数据框架的对比

2分钟读懂大数据框架Hadoop和Spark的异同

2分钟读懂大数据框架Hadoop和Spark的异同

Spark和Hadoop，孰优孰劣？

技术导航

Spark和Hadoop，孰优孰劣？

Spark和Hadoop，孰优孰劣？

Spark和Hadoop，孰优孰劣？

Spark和Hadoop，孰优孰劣？

用Apache Spark进行大数据处理

Spark大数据处理技术

Spark大数据框架驱动快速分析

用Apache Spark进行大数据处理——第二部分：Spark SQL

用Apache Spark进行大数据处理——第二部分：Spark SQL

开拓者 第3次群会议活动

通过SparkR在R上运行Spark

超人学院大数据技术框架入门

微软开源大数据框架REEF

精通Spark的开发语言：Scala最佳实践

大数据框架hadoop之版本显示的实现逻辑

大数据框架hadoop之版本显示的实现逻辑

大数据框架hadoop之JobTracker主要功能分析

大数据框架hadoop之JobTracker主要功能分析

大数据框架hadoop的作业初始化过程(接上编)

大数据框架hadoop的作业初始化过程(接上编)

大数据框架hadoop的作业提交过程

大数据框架hadoop的作业提交过程

大数据框架hadoop之FS基本操作

大数据框架hadoop之Observe设计模式应用

大数据框架hadoop的IPC应用场景之getNewJobId

大数据框架hadoop的IPC应用场景之getNewJobId

大数据框架hadoop的IPC应用场景之getNewJobId

大数据框架hadoop的文件系统（HDFS）命令大全

大数据框架hadoop的IPC机制实例

大数据框架hadoop的IPC机制实例

大数据框架hadoop的IPC机制实例

大数据框架hadoop的解压缩机制

大数据框架

开拓者第3次群会议活动