大数据编程hadoop系列第7页

hadoop系列之三安装JDK与环境准备

安装JDK准备好jdk.tar.gz 链接：http://pan.baidu.com/s/1c2jEiQW密码：slaurz-y 选择jdk.tar.gz文件创建公共目录:mkdir/usr/local/common/移动到src目录下:mvjdk-7u45-linux-x64.tar.gz/usr/local/src/解压到指定目录:cd /usr/local/src/tar-zxvfjdk-7

kgdxwy1·2017-06-15 11:00

hadoop系列之二配置Linux系统

网络配置SecureCRT工具下载1)配置IP地址vi/etc/sysconfig/network-scripts/ifcfg-eth0ONBOOT=yes 设置开机启用网上BOOTPROTO=static设置使用静态IP地址IPADDR=192.168.33.65NETMASK=255.255.255.0GATEWAY=192.168.33.12)配置DNSvi/etc/resolv.confn

kgdxwy1·2017-06-14 17:00

hadoop系列之一安装linux系统CentOS6.7

安装Linux系统前提:安装VMware12虚拟机软件地址: 点击下载创建虚拟机安装Linux系统开启虚拟机--按Enter回车开始安装,等待中输入root按Enter回车输入密码,刚刚设置的密码到这里linux安装就完成了!

kgdxwy1·2017-05-23 21:00

Hadoop系列之（二）JDK和Hadoop安装配置

配置jdk和hadoop的原则为，先将Master安装并且配置好，然后再统一将其发送给所有的Slave，Slave如果需要单独配置则单独改变。1.JDK安装配置之前在有篇博客是搭建apachetomcat+nutch+solr的已经讲过jdk的详细搭建，此次在这里采用第一种搭建方式，即在/etc/profile里进行环境变量的配置。1).JDK解压安装我所有的软件包，全部在mac上通过termin

triumphao·2016-11-21 20:47

开源电子书

目录语言无关类操作系统智能系统分布式系统编译原理函数式概念计算机图形学WEB服务器版本控制编辑器NoSQLPostgreSQLMySQL管理和监控项目相关设计模式Web大数据编程艺术其它语言相关类AndroidAPPAWKC

玄魂·2016-11-08 18:00

Hadoop系列-HDFS HA高可用集群

前言：在HDFS集群的时候我们知道，NameNode只有一个，如果现在NameNode挂掉了，或者NameNode需要硬件或者软件的升级，那么势必就有单点问题。那么HDFSHA就是来解决这个问题的。HA架构图：集群需要考虑的问题：1我们要考虑两个NM之间的元数据是共享或者同步的NM启动的时候，会去读取fsimage和edits文件，那么备份NM也需要读取这两个文件而且随着ActiveNM会记录元

zhanglh046·2016-10-23 19:00

Hadoop系列-分布式集群

一分布式集群机器规划本机物理机：内存32G，硬盘1T,CPUi7四核我规划三台虚拟机参与集群，每一台分配3G内存，30G硬盘，CPU单核。二克隆虚拟机clone-->修改机器名称-->FullDone-->clone然后vim/etc/udev/rules.d/70-persistent-net.rules把第一行删掉把第二条记录NAME="eth1"改成eth0然后复制MAC地址；sudo

zhanglh046·2016-10-23 11:00

hadoop系列：zookeeper（3）——zookeeper核心原理（事件）

jbaowei2000·2016-10-14 16:11

【Hadoop系列】linux下 root用户免密码登录远程主机 ssh

SSH原理：【Hadoop系列】linuxSSH原理解析操作环境：CentOS6.5操作对象：用户A主机和远程主机B正文部分：斜体加粗代表linux指令。

MichaelZhu·2016-08-15 11:42

网站下载地址

JDK7下载二、Hadoop系列1. 吴超沉博客2. HDFS客户端的权限错误3. Hadoop过往记忆4. 大数据教程5. 传智播客Hadoop从入门到上手6.

pfnie·2016-05-29 15:00

hadoop转自马哥linux

Hadoop系列之一：大数据存储及处理平台产生的背景：http://mageedu.blog.51cto.com/4265610/1102191Hadoop系列之二：大数据、大数据处理模型及MapReduce

祖比凸陛·2016-05-04 10:41

hadoop转自马哥linux

Hadoop系列之一：大数据存储及处理平台产生的背景：http://mageedu.blog.51cto.com/4265610/1102191Hadoop系列之二：大数据、大数据处理模型及MapReduce

祖比凸陛·2016-05-04 10:41

运营、报表、分析三位一体化，什么样的SQL引擎能经得住挑战？

本文是Hadoop系列约稿之一，本文讲述了SQL-on-H

杨旸·2016-04-27 00:00

大数据编程语言 R、Python、Scala 和 Java

1.RR被称为“统计人员为统计人员开发的一种语言”。2.PythonPython在学术界一直很流行，尤其是在自然语言处理(NLP)领域。3.ScalaScala是比较轻松的语言，因为大家都欣赏其类型系统。Scala在JVM上运行，基本上成功地结合了函数范式和面向对象范式。4.JAVAJAVA在JVM上运行。在大数据领域，没人爱，被遗弃。主要不足是：非常繁琐冗长，而且缺少交互式开发所需的REPL（R

Arrow·2016-04-26 08:52

大数据编程语言 R、Python、Scala 和 Java

1.R R被称为“统计人员为统计人员开发的一种语言”。2.Python Python在学术界一直很流行，尤其是在自然语言处理(NLP)领域。3.Scala Scala是比较轻松的语言，因为大家都欣赏其类型系统。Scala在JVM上运行，基本上成功地结合了函数范式和面向对象范式。4.JAVA JAVA在JVM上运行。在大数据领域，没人爱，被遗弃。主要不足是：非常繁琐冗长，而且缺少交互式开发

MyArrow·2016-04-26 08:00

大数据编程语言 R、Python、Scala 和 Java

1.R R被称为“统计人员为统计人员开发的一种语言”。2.Python Python在学术界一直很流行，尤其是在自然语言处理(NLP)领域。3.Scala Scala是比较轻松的语言，因为大家都欣赏其类型系统。Scala在JVM上运行，基本上成功地结合了函数范式和面向对象范式。4.JAVA JAVA在JVM上运行。在大数据领域，没人爱，被遗弃。主要不足是：非常繁琐冗长，而且缺少交互式开发

MyArrow·2016-04-26 08:00

R、Python、Scala 和 Java，到底该使用哪一种大数据编程语言？

熊likecocoa·2016-04-25 16:00

R、Python、Scala 和 Java，到底该使用哪一种大数据编程语言？

熊likecocoa·2016-04-25 16:00

R、Python、Scala 和 Java，到底该使用哪一种大数据编程语言？

有一个大数据项目，你知道问题领域(problemdomain)，也知道使用什么基础设施，甚至可能已决定使用哪种框架来处理所有这些数据，但是有一个决定迟迟未能做出：我该选择哪种语言?(或者可能更有针对性的问题是，我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久，迟早要定夺。当然，没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作。但通常来说，如今大数据方面有

熊likecocoa·2016-04-25 16:00

zookeeper核心原理（选举）

hadoop系列：zookeeper（2）——zookeeper核心原理（选举）2015-08-1513:13 本站整理浏览(421)1、前述上篇文章《hadoop系列：zookeeper（1）——zookeeper

Flood_Dragon·2016-03-23 18:00

Hadoop系列七：Hadoop之sqoop篇

Sqoop安装和运行sqoop是一个把关系型数据库数据抽向hadoop的工具。同时，也支持将hive、pig等查询的结果导入关系型数据库中存储。1）安装和配置Ubuntu操作系统，主机名hp。官网http://sqoop.apache.org/下载sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz并解压。复制mysql的jdbc驱动mysql-connector-

fjssharpsword·2016-03-14 17:00

Hadoop系列六：Hadoop之HBase篇

HBase安装和运行1）HBase理解HBase是一个开源的、分布式的、多版本的、面向列的存储模型。可以直接使用本地文件系统也可使用Hadoop的HDFS文件存储系统。HBase存储的数据介于映射（key/value）和关系型数据之间。Hadoop整体生态系统示意图：HBase位于结构化存储层，围绕HBase，各部件对HBase的支持情况：Hadoop部件作用HDFS高可靠的底层存储支持MapRe

fjssharpsword·2016-03-14 15:27

Hadoop系列六：Hadoop之HBase篇

HBase安装和运行1）HBase理解HBase是一个开源的、分布式的、多版本的、面向列的存储模型。可以直接使用本地文件系统也可使用Hadoop的HDFS文件存储系统。HBase存储的数据介于映射（key/value）和关系型数据之间。Hadoop整体生态系统示意图：HBase位于结构化存储层，围绕HBase，各部件对HBase的支持情况：Hadoop部件作用HDFS高可靠的底层存储支持MapRe

fjssharpsword·2016-03-14 15:00

Hadoop系列五：Hadoop之Zookeeper篇

ZooKeeper安装和运行Zookeeper是一个高性能、分布式的、开源分布式应用协调服务，具有命名服务、配置管理、同步和组服务等基本功能。Zookeeper服务自身组成一个集群(2n+1个服务允许n个失效)。Zookeeper服务有两个角色，一个是leader，负责写服务和数据同步，剩下的是follower，提供读服务，leader失效后会在follower中重新选举新的leader。ZooK

fjssharpsword·2016-03-14 10:00

Hadoop系列四：Hadoop之Hive篇

Hive安装和运行Pig与RDBMS、Hive比较PigLatin是一种数据流编程语言，而SQL是一种描述性编程语言。换句话说，Pig程序是相对于输入的一步步操作，其中每一步是对数据的一个简答的变换。相反，SQL语句是一个约束的集合，这些约束的集合在一起，定义了输出。Hive介于Pig和传统RDBMS(关系数据库管理系统RelationalDatabaseManagementSystem)之间，H

fjssharpsword·2016-03-11 16:38

Hadoop系列四：Hadoop之Hive篇

Hive安装和运行Pig与RDBMS、Hive比较PigLatin是一种数据流编程语言，而SQL是一种描述性编程语言。换句话说，Pig程序是相对于输入的一步步操作，其中每一步是对数据的一个简答的变换。相反，SQL语句是一个约束的集合，这些约束的集合在一起，定义了输出。Hive介于Pig和传统RDBMS(关系数据库管理系统RelationalDatabaseManagementSystem)之间，H

fjssharpsword·2016-03-11 16:00

Hadoop系列三：Hadoop之Pig篇

Pig安装和运行Pig包括两部分：—用于描述数据流的语言，称为PigLatin。—用于执行PigLatin程序的执行环境，当前有两个环境：单JVM中的本地执行环境和Hadoop集群上的分布式执行环境。 Pig内部，每个操作或变换是对输入进行数据处理，然后产生输出结果，这些变换操作被转换成一系列MapReduce作业，Pig让程序员不需要知道这些转换具体是如何进行的，这样工程师可以将精力集中在数据上

fjssharpsword·2016-03-11 09:00

Hadoop系列二：Hadoop单节点伪分布部署并执行mapreduce示例wordcount

HDFS在集群上实现分布式文件系统，MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持，MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作，并收集结果，二者相互作用，完成了Hadoop分布式集群的主要任务。1）部署单节点伪分布单节点Ubuntu，主机名hp第一步：先安装JDK和SSH，并配置SSH无密码登录

fjssharpsword·2016-03-10 17:00

Hadoop系列一：Hadoop集群分布式部署

1、环境准备VirtualBox虚拟机上分布部署三套Ubuntu15.10操作系统（Linux64位），命名为Ubuntu_Hadoop（用户名hp）、Ubuntu_C（用户名c）、Ubuntu_PHP（用户名php），并建立通信。Ubuntu虚拟机之间通信建立：1）三套Ubuntu虚拟机在VirtualBox的网络设置为内部（Internal）模式；2）Ubuntu_Hadoop虚拟机IPV4设

fjssharpsword·2016-03-09 15:00

Hadoop系列之（三）：使用Cloudera部署，管理Hadoop集群

1.Cloudera介绍Hadoop是一个开源项目，Cloudera对Hadoop进行了商业化，简化了安装过程，并对hadoop做了一些封装。根据使用的需要，Hadoop集群要安装很多的组件，一个一个安装配置起来比较麻烦，还要考虑HA，监控等。使用Cloudera可以很简单的部署集群，安装需要的组件，并且可以监控和管理集群。 CDH是Cloudera公司的发行版，包含Hadoop，Spark，H

ee900222·2016-01-29 13:00

时空大数据研究进展

第一部分：Hadoop系列1.Hadoop-GIS项目：AHighPerformanceSpatialDataWarehousingSystemOverMapReduce简介：https://sites.google.com

wangshgeo·2016-01-19 10:00

（四）hadoop系列之__hadoop搭建（单机配置）

1.Ubuntu下用命令(自动下载并安装) $sudoapt-getinstallssh $sudoapt-getinstallrsync 2.redhatlinux9 i:默认已经安装查看版本：#rpm-qopenssh-server ii:设置为开机自启动 ntsysv打开窗口（互动式操作界面）--启动或停止服务提供了简单的界面如果sshd服务没有启动，则在sshd前面的

袁梓皓·2016-01-15 10:00

Hadoop系列之六：分布式文件系统HDFS

1、MapReduce与分布式文件系统前面的讨论中，我们已经得知，Hadoop中实现的MapReduce是一个编程模型和运行框架，它能够通过JobTracker接收客户提交的作业而后将其分割为多个任务后并行运行在多个TaskTracker上。而问题是，这些TaskTracker如何高效获取所要处理的数据？在传统的高性能集群中，计算节点和存储节点是各自独立的，它们之间通过高速网络完成互联，然而，在

马哥linux运维·2016-01-11 21:00

Hadoop系列之五：MapReduce进阶(2)

1、MapReduce作业、集群及其逻辑架构前文已经描述，MapReduce是一个编程框架，它为程序员提供了一种快速开发海量数据处理程序的编程环境，并能够让基于这种机制开发出的处理程序以稳定、容错的方式并行运行于由大量商用硬件组成的集群上。同时，MapReduce又是一个运行框架，它需要为基于MapReduce机制开发出的程序提供一个运行环境，并透明管理运行中的各个细节。每一个需要由MapRed

马哥linux运维·2016-01-11 21:00

Hadoop系列之四：MapReduce进阶

1、mapper和reducerMapReduce对数据的处理分为两个阶段：map阶段和reduce阶段，这两个阶段分别由用户开发的map函数和reduce函数完成，在MapReduce运行环境中运行时，它们也分别被称为mapper和reducer。键值对(key-valuepair)是MapReduce的基础数据结构，mapper和reducer读入和输出的数据均为键值对。MapReduce中，

马哥linux运维·2016-01-11 21:00

Hadoop系列之（二）：Hadoop集群部署

1.Hadoop集群介绍Hadoop集群部署，就是以Clustermode方式进行部署。 Hadoop的节点构成如下：HDFSdaemon： NameNode,SecondaryNameNode,DataNodeYARNdamones：ResourceManager,NodeManager,WebAppProxyMapReduceJobHistoryServer2.集群部署本次测试的分布式环境为：

ee900222·2016-01-04 13:00

Hadoop系列之（一）：Hadoop单机部署

1.Hadoop介绍Hadoop是一个能够对海量数据进行分布式处理的系统架构。Hadoop框架的核心是：HDFS和MapReduce。 HDFS分布式文件系统为海量的数据提供了存储， MapReduce分布式处理框架为海量的数据提供了计算。 2.Hadoop安装2.1安装javaHadoop是使用JAVA写的，所以需要先安装JAVA环境。本次安装的是hadoop-2.7.0，需要JDK7以上版本。

ee900222·2015-12-30 16:00

spring hadoop系列(六)---HbaseSystemException

一、源码/***HBaseDataAccessexception.*@authorCostinLeau*/@SuppressWarnings("serial")publicclassHbaseSystemExceptionextendsUncategorizedDataAccessException{publicHbaseSystemException(Exceptioncause){super(

dalan_123·2015-11-30 09:00

spring hadoop系列(六)---HbaseSystemException

dalan_123·2015-11-30 09:00

spring hadoop系列（五）---spring hadoop hbase之HbaseSynchronizationManager

一、源码如下/***SynchronizationmanagerhandlingthetrackingofHbaseresources(specificallytables).Usedeithermanuallyorthrough{@linkHbaseInterceptor}tobindatabletothethread.*Eachsubsequentcallmadethrough{@linkHb

dalan_123·2015-11-27 18:00

spring hadoop系列（五）---spring hadoop hbase之HbaseSynchronizationManager

dalan_123·2015-11-27 18:00

spring hadoop系列(四) --- spring hadoop hbase

一、源码分析/****hbase采用aop的拦截器，将hbasetable绑定对应的线程在被调用之前；*一旦对应的调用方法获取结果之后将关闭并移除*如果有一个已经绑定的table（来自前面的call或者transaction），*那么interceptor只是简单的操作*同时interceptor经常与HbaseSynchronizationManager结合使用*@authorCostinLea

dalan_123·2015-11-27 17:00

spring-hadoop系列源码(一)

源码如下：/***HTableInterface工具类*用于createtable和releasetable*@since0.21.0*/@InterfaceAudience.Public@InterfaceStability.StablepublicinterfaceHTableInterfaceFactory{ /** *CreatesanewHTableInterface. *创建hba

dalan_123·2015-11-27 14:00

[hadoop系列]Pig的安装和简单演示样例

　　inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish ）。（来源：http://blog.csdn.net/inkfish）　　Pig是Yahoo!捐献给Apache的一个项目，眼下还在Apache孵化器（incubator）阶段，眼下版本号是v0.5.0。Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-like

·2015-11-13 11:07

[hadoop系列]Pig的安装和简单演示样例

　　inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish ）。（来源：http://blog.csdn.net/inkfish）　　Pig是Yahoo!捐献给Apache的一个项目，眼下还在Apache孵化器（incubator）阶段，眼下版本号是v0.5.0。Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-like

·2015-11-13 03:26

Hadoop系列（一）hadoop2.2.0源码编译

操作系统：Centos 所需条件：能上网编译所需工具： apache-ant-1.9.2-bin.tar.gz apache-maven-3.0.5-bin.tar.gz findbugs-2.0.2.tar.gz protobuf-2.5.0.tar.gz 编译工具还需配置环境变量到 /etc/profile,并加入的环境变量PATH中； &nbs

·2015-11-12 08:19

Hadoop系列(二)hadoop2.2.0伪分布式安装

一、环境配置安装虚拟机vmware，并在该虚拟机机中安装CentOS 6.4；修改hostname(修改配置文件/etc/sysconfig/network中的HOSTNAME=hadoop),修改IP到主机名的映射(vi /etc/hosts ,添加 127.0.0.1 hadoop); 按照JDK,下载jdk1.7.0_60

·2015-11-11 03:17

（六）hadoop系列之__hadoop分布式集群环境搭建

配置hadoop(master,slave1,slave2) 说明： NameNode: master DataNode: slave1,slave2 -------------------------------------------------------- A. 修改主机的master 和 slaves i. 配置slaves

·2015-11-07 10:20

（四）hadoop系列之__hadoop搭建（单机配置）

1.Ubuntu下用命令 (自动下载并安装) $ sudo apt-get install ssh $ sudo apt-get install rsync 2.redhat linux9 i:默认已经安装查看版本：# rpm -q openssh-server ii:设置为开机自启动 ntsysv 打开窗口（互动式操作界面

·2015-11-07 10:19

（五）hadoop系列之__集群搭建SSH无密访问多台机器

免密码ssh设置现在确认能否不输入口令就用ssh登录localhost: $ ssh localhost 如果不输入口令就无法用ssh登陆localhost，执行下面的命令： 1. 并修改hosts映射: 添加：(配置三台机器hosts,保证可以互相访问) $ vi /etc/hosts 127.0.0.1 localhost.localdom

·2015-11-07 10:19

推荐频道

大数据编程hadoop系列

hadoop系列之三安装JDK与环境准备

hadoop系列之二配置Linux系统

hadoop系列之一安装linux系统CentOS6.7

Hadoop系列之（二）JDK和Hadoop安装配置

开源电子书

Hadoop系列-HDFS HA高可用集群

Hadoop系列-分布式集群

hadoop系列：zookeeper（3）——zookeeper核心原理（事件）

【Hadoop系列】linux下 root用户免密码登录远程主机 ssh

网站下载地址

hadoop转自马哥linux

hadoop转自马哥linux

运营、报表、分析三位一体化，什么样的SQL引擎能经得住挑战？

大数据编程语言 R、Python、Scala 和 Java

大数据编程语言 R、Python、Scala 和 Java

大数据编程语言 R、Python、Scala 和 Java

R、Python、Scala 和 Java，到底该使用哪一种大数据编程语言？

R、Python、Scala 和 Java，到底该使用哪一种大数据编程语言？

R、Python、Scala 和 Java，到底该使用哪一种大数据编程语言？

zookeeper核心原理（选举）

Hadoop系列七：Hadoop之sqoop篇

Hadoop系列六：Hadoop之HBase篇

Hadoop系列六：Hadoop之HBase篇

Hadoop系列五：Hadoop之Zookeeper篇

Hadoop系列四：Hadoop之Hive篇

Hadoop系列四：Hadoop之Hive篇

Hadoop系列三：Hadoop之Pig篇

Hadoop系列二：Hadoop单节点伪分布部署并执行mapreduce示例wordcount

Hadoop系列一：Hadoop集群分布式部署

Hadoop系列之（三）：使用Cloudera部署，管理Hadoop集群

时空大数据研究进展

（四）hadoop系列之__hadoop搭建（单机配置）

Hadoop系列之六：分布式文件系统HDFS

Hadoop系列之五：MapReduce进阶(2)

Hadoop系列之四：MapReduce进阶

Hadoop系列之（二）：Hadoop集群部署

Hadoop系列之（一）：Hadoop单机部署

spring hadoop系列(六)---HbaseSystemException

spring hadoop系列(六)---HbaseSystemException

spring hadoop系列（五）---spring hadoop hbase之HbaseSynchronizationManager

spring hadoop系列（五）---spring hadoop hbase之HbaseSynchronizationManager

spring hadoop系列(四) --- spring hadoop hbase

spring-hadoop系列源码(一)

[hadoop系列]Pig的安装和简单演示样例

[hadoop系列]Pig的安装和简单演示样例

Hadoop系列（一）hadoop2.2.0源码编译

Hadoop系列(二)hadoop2.2.0伪分布式安装

（六）hadoop系列之__hadoop分布式集群环境搭建

（四）hadoop系列之__hadoop搭建（单机配置）

（五）hadoop系列之__集群搭建SSH无密访问多台机器