王家二少

Mac系统下, hadoop 2.6.2 完全分布式配置

背景

本人最近在学习hadoop的相关内容，感觉在一个伪分布式环境下研究、学习总是感觉不伦不类的，于是想配一个基于OSX平台的完全分布式环境。在网上看了很多配置教程，发现几乎都是同时开三个虚拟机实现的三节点分布式环境，而我想用我的macbook作为master节点，并在此笔记本上开两个ubuntu虚拟机作为node1,node2节点，一番摸索下终于成功，特此写下此文章，以便不想完全用虚拟机作为分布式节点的同学分享交流。
参考链接：http://www.w2bc.com/Article/19645

环境

了解一些HDFS知识的同学应该清楚，从HDFS的角度来看，集群中的机器主要分为两种角色: NameNode和DataNode。此次配置的环境中，由macbook本身充当NameNode, 而两个虚拟机中运行的ubuntu系统分别充当两个DataNode。

os x EI Capitan 10.11.5

虚拟机：Parallels Desktop

ubuntukylin 14.04 64bit * 2

hadoop 2.6.2

os x上的jdk版本：1.8.0_73，ubuntu上的jdk版本：1.8.0_91（不同机器上的jdk版本不要求一样）

安装虚拟机

打开Parallels Desktop，点击右上角的“+”号添加虚拟机；
选择由现有的镜像文件添加系统还是自动下载，如图所示：

安装JDK

先检查在系统中是否安装有JDK，在控制台输入: java -version，如果出现如下提示，则证明本系统上已安装有JDK，否则需要自己手动安装。
mac系统上的JDK默认安装路径在：/Library/Java/JavaVirtualMachines/jdk1.8.0_73.jdk/Contents/Home，最好在ubuntu系统上也按如此路径存放JDK，如果对应的文件夹不存在，则自己在ubuntu上创建即可，不使用相同的路径也可，不过需要在各个ubuntu系统上的相关配置文件所有关于$JAVAHOME的位置更改为相应的JDK路径。
如果需要手动安装JDK，请自行搜索安装JDK的方法，同时配置好相应的环境变量。环境变量输入的位置在：/etc/profile下。

修改各自的hostname

        为了方便起见，最好将三个系统上的hostname修改为：master(mac上)、node1(其中一个ubuntu系统上)、node2（另一个ubuntu系统）。
        可以通过在控制台输入hostname来显示当前系统的hostname。
        1. 在mac上设置hostname：在控制台输入

sudo scutil --set HostName master

        2. ubuntu上设置hostname:
        修改/etc/hostname文件，在其中把之前的名字删除，只留下node1（在另一个ubuntu上修改为node2）。
        修改完hostname后，注销或重启一下系统，以使得新的hostname生效。之后可以通过在控制台输入 hostname 来验证hostname是否更改过来。

修改各个系统的hosts文件

        此方法由于在Mac和ubuntu上步骤相同，所以统一说了，之后需要在每个机器上均执行此过程。
        1. 使用ifconfig命令，查看各个系统的ip地址，并保证通过ping命令互相可以ping通，并记录各自的ip地址。或者，也可以通过手动方式指定各自系统的ip地址。
      2. 修改/etc/hosts文件，在其中添加三条记录：master的IP地址  master，node1的IP地址  node1，node2的IP地址  node2。我自己的配置如下：
       注意：此步骤需要在三个系统上均执行一遍，且填入的内容也相同。

安装及测试SSH

        由于hadoop各个节点之间通过ssh方式进行通信，因此必须在各个系统上安装好ssh，并且为了避免每次登录均输入密码，还需要进行一定的配置实现ssh免密码登录。
        1. 在控制台输入：ssh，如果出现如下提示，则证明本系统上已安装好了ssh，无须再去安装。
        2. mac系统上已经默认安装了openSSH，如果ubuntu上没有安装，可参考如下方式安装：在控制台输入 sudo apt-get install openssh-server ，安装完成后在控制台输入：sudo service ssh start启动ssh服务。
        3. 在控制台输入：ssh localhost 第一次登录会提示让你输入密码，最终显示Last login: ……表示登录成功。

配置ssh免密码登录

此过程在各个系统上均需要执行一遍。
1. 产生秘钥：

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

此时会在~/.ssh文件夹下出现如下两个文件：id_dsa id_dsa.pub

2. 导入authorized_keys：

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
#保证authorized_keys的chmod为600

3. 测试是否安装成功：

#查看是否有sshd进程
ps -e | grep ssh
#尝试登录本地
ssh localhost

4. 远程无密码登陆：

#进入master的.ssh目录
scp authorized_keys wk51920@node1:~/.ssh/authorized_keys_master
#wk51920是我目前在node1虚拟机上登录系统的用户名，建议三个系统使用相同的用户名
#进入node1、node2的.ssh目录
cat authorized_keys_master  >>  authorized_keys

注意：第四步要在slave上重复，要使三者都能够无密码相互登录，重复完后可以利用如下命令试验，第一次需要输入密码绑定。

ssh node1

并用同样的方式登录node2来测试是否可以免密码登录。需要实现三个系统之间互相能通过ssh方式免密码登录即算成功。实质就是：在各自.ssh文件夹下的authorized_keys中添加对方的id_dsa.pub公钥。

配置hadoop环境

此过程在master上配置。

1. 下载hadoop：http://hadoop.apache.org/releases.html；

2. 解压缩包：

#解压hadoop包
tar -zxvf hadoop压缩包名
#将安装包移到/usr目录下
mv hadoop解压后的文件夹 /usr/hadoop

3. 新建文件夹：

#在/usr/hadoop目录下新建如下目录(root)
mkdir /dfs
mkdir /dfs/name
mkdir /dfs/data
mkdir /tmp

5. 配置文件：hadoop-env.sh(文件都在/usr/hadoop/etc/hadoop中)
修改JAVA_HOME值：

#注意此处是master中jdk的路径，也是mac系统的jdk安装路径，如果所有系统中jdk的路径均相同，则不用注意，否则需要在各自系统中，改为各自系统中jdk的路径。
export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_73.jdk/Contents/Home

6. 配置文件：yarn-env.sh
修改JAVA_HOME值：

#注意此处是master中jdk的路径，也是mac系统的jdk安装路径，如果所有系统中jdk的路径均相同，则不用注意，否则需要在各自系统中，改为各自系统中jdk的路径。
export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_73.jdk/Contents/Home

7. 配置文件：slaves
将内容修改为：

node1
node2

8. 配置文件：core-site.xml

<configuration>
       <property>
                <name>fs.defaultFSname>
                <value>hdfs://master:8020value>
       property>
       <property>
                <name>io.file.buffer.sizename>
                <value>131072value>
        property>
       <property>
               <name>hadoop.tmp.dirname>
               <value>file:/usr/hadoop/tmpvalue>
               <description>Abase for other temporary   directories.description>
       property>
        <property>
        
               <name>hadoop.proxyuser.wk51920.hostsname>
               <value>*value>
       property>
       <property>
               <name>hadoop.proxyuser.wk51920.groupsname>
               <value>*value>
       property>
configuration>

9. 配置文件：hdfs-site.xml

<configuration>
       <property>
                <name>dfs.namenode.secondary.http-addressname>
               <value>master:9001value>
       property>
     <property>
             <name>dfs.namenode.name.dirname>
             <value>file:/usr/hadoop/dfs/namevalue>
       property>
      <property>
              <name>dfs.datanode.data.dirname>
              <value>file:/usr/hadoop/dfs/datavalue>
       property>
       <property>
               <name>dfs.replicationname>
               <value>3value>
        property>
        <property>
                 <name>dfs.webhdfs.enabledname>
                  <value>truevalue>
         property>
configuration>

10. 配置文件：mapred-site.xml

<configuration>
          <property>                                                                  
　　　　　　　　<name>mapreduce.framework.namename>
                <value>yarnvalue>
           property>
          <property>
                  <name>mapreduce.jobhistory.addressname>
                  <value>master:10020value>
          property>
          <property>
                <name>mapreduce.jobhistory.webapp.addressname>
                <value>master:19888value>
       property>
configuration>

11. 配置文件：yarn-site.xml

<configuration>
        <property>
               <name>yarn.nodemanager.aux-servicesname>
               <value>mapreduce_shufflevalue>
        property>
        <property>                                                                
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.classname>
               <value>org.apache.hadoop.mapred.ShuffleHandlervalue>
        property>
        <property>
               <name>yarn.resourcemanager.addressname>
               <value>master:8032value>
       property>
       <property>
               <name>yarn.resourcemanager.scheduler.addressname>
               <value>master:8030value>
       property>
       <property>
            <name>yarn.resourcemanager.resource-tracker.addressname>
             <value>master:8031value>
      property>
      <property>
              <name>yarn.resourcemanager.admin.addressname>
               <value>master:8033value>
       property>
       <property>
               <name>yarn.resourcemanager.webapp.addressname>
               <value>master:8088value>
       property>
configuration>

12. 将hadoop传输到node1和node2根目录

#/usr/hadoop是master上hadoop的安装目录
#wk51920@node1:~/ 是：使用wk51920登录的hostname为node1的ubuntu系统上的~/目录
scp -r /usr/hadoop wk51920@node1:~/
scp -r /usr/hadoop wk51920@node2:~/
#如果在node1、node2中jdk的安装位置和master上不相同，则需要更改本系统上hadoop-env.sh和yarn-env.sh中的JAVA_HOME值。

13. 配置hadoop环境变量：
修改/etc/profile文件，在其中添加：

#root模式编辑/etc/profile
vim /etc/profile
#以上已经添加过java的环境变量,在后边添加就可以(注意此处是实际安装hadoop文件的路径，根据自己实际情况填写)
export PATH=$PATH:/usr/hadoop/bin:/usr/hadoop/sbin

14. 启动hadoop

#注意最后单词带‘-’
hadoop namenode -format
start-all.sh

15. 在master机器上输入

jps

如果显示如下几个进程表明成功：

在node1、node2中分别输入

jps

如果现实如下几个进程表示成功：

执行测试程序wordcount

1. 进入到master的hadoop根目录（就是有README.txt的那个）;

2. 在HDFS上创建input目录，用来存放README.txt文件：

hadoop fs -mkdir /input

3. 将README.txt文件存入HDFS中的input文件夹下：

hadoop fs -copyFromLocal README.txt /input
#可通过hadoop fs -ls /input 命令查看是否成功将README.txt文件放入相应的HDFS文件夹。

4. 进入/usr/hadoop/hadoop-2.6.2/share/hadoop/mapreduce文件夹下，执行：

#注意在执行此程序之前，在HDFS上一定不能存在output文件夹，如果存在，需要先删除
hadoop jar hadoop-mapreduce-examples-2.6.2.jar wordcount /input /output

5. 查看程序运行结果：

hadoop fs -ls /output

显示结果如下：

#通过此命令查看每个单词的统计结果
hadoop fs -cat /output/part-r-00000

注意：执行hadoop命令时可能会提示：

这是由于使用的hadoopSDK是在32位的机器上编译的，而本机系统是64位造成的，想解决此提示，可以在本机上重新编译hadoop的SDK，如果不想编译，有此提示也不妨碍正常功能的使用！

基于分布式计算的电商系统设计与实现【系统设计、模型预测、大屏设计、海量数据、Hadoop集群】王小王-123 hadoop 大数据分布式电商系统分析分布式计算
文章目录==有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主==项目展示项目介绍目录摘要Abstract1引言1.1研究背景1.2国内外研究现状1.3研究目的1.4研究意义2关键技术理论介绍2.1Hadoop相关组件介绍2.2分布式集群介绍2.3Pyecharts介绍2.4Flask框架3分布式集群搭建及数据准备3.1Hadoop全套组件搭建3.2数据集介绍3.3数据预处理4分布式计
[Hadoop]万字长文Hadoop相关优化和问题排查总结王一1995 hadoop jvm java
目录写文章的背景namenode频繁切换的原因namenodeHA如何实现，关键技术难题是什么？namenode优化namenode内存生产配置NameNode心跳并发配置开启回收站配置datanode的优化hdfs调优hadoop的优化YARN的优化HDFS调优的基本原则HDFS调优的常用参数排查哪个任务的cpu占用高hdfs查询慢的原因怎样判断是否是数据倾斜集群重启任务自动重启hadoop宕机
搭建hadoop单机环境 .Passion hadoop hadoop hdfs 大数据
hadoop笔记sbin:一些启动脚本【服务端的serverbin】logs:存放hadoop相关日志bin:客户端的脚本etc:hadoop相关的配置文件格式化文件系统配置免密码登录ssh-keygen-trsa-P''-f~/.ssh/id_rsacat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys#启动namenode#sbin/hadoop-daemon
MPP架构与Hadoop架构是一回事吗？ ThoughtWorks
计算机领域的很多概念都存在一些传播上的“谬误”。MPP这个概念就是其中之一。它的“谬误”之处在于，明明叫做“MassivelyParallelProcessing（大规模并行处理）”，却让非常多的人拿它与大规模并行处理领域最著名的开源框架Hadoop相关框架做对比，这实在是让人困惑——难道Hadoop不是“大规模并行处理”架构了？很多人在对比两者时，其实并不知道MPP的含义究竟是什么、两者的可比性
hadoop主要文件及目录简介我很ruo hadoop
1.hadoop目录概述hadoop的解压目录下的主要文件如下图所示：其中：/bin目录存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本；/etc目录存放Hadoop的配置文件/lib目录存放Hadoop的本地库（对数据进行压缩解压缩功能）/sbin目录存放启动或停止Hadoop相关服务的脚本/share目录存放Hadoop的依赖jar包、文档、和官方案例下文将对常用的几个目录进行进
Flume实时读取本地/目录文件到HDFS Francek Chen 大数据技术基础 flume hdfs 大数据
目录一、准备工作二、实时读取本地文件到HDFS（一）案例需求（二）需求分析（三）实现步骤三、实时读取目录文件到HDFS（一）案例需求（二）需求分析（三）实现步骤一、准备工作Flume要想将数据输出到HDFS，必须持有Hadoop相关jar包。将以下jar包拷贝到“/usr/local/flume/lib”目录下。/usr/local/servers/hadoop/share/hadoop/comm
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】 (转) 我爱大海V5 Hadoop hadoop
目录[-]（一）hadoop相关安装部署（二）hive（三）pig（四）hadoop原理与编码（五）数据仓库与挖掘（六）Oozie工作流（七）HBase（八）flume（九）sqoop（十）ZooKeeper（十一）NOSQL（十二）Hadoop监控与管理（十三）Storm（十四）YARN&Hadoop2.0附：（一）hadoop相关安装部署1、hadoop在windowscygwin下的部署：h
Flume基础知识（四）：Flume实战之实时监控单个追加文件依晴无旧大数据 flume 大数据
1）案例需求：实时监控Hive日志，并上传到HDFS中2）需求分析：3）实现步骤：（1）Flume要想将数据输出到HDFS，依赖Hadoop相关jar包检查/etc/profile.d/my_env.sh文件，确认Hadoop和Java环境变量配置正确JAVA_HOME=/opt/module/jdk1.8.0_212HADOOP_HOME=/opt/module/ha/hadoop-3.1.3P
Hadoop相关安装包上传到目录并完成安装余生跟他走数据仓库
1.指定一个安装的目录/usr/local/自己的名字(mkdircdhong、rm-rf*)[root@cdhong01~]#cd/usr/local/[root@cdhong01local]#rm-rf*[root@cdhong01local]#mkdircdhong[root@cdhong01local]#cdcdhong/[root@cdhong01cdhong]#pwd/usr/loca
hive-3.1.2环境安装实验芝士小熊饼干 hive hadoop 数据仓库
1.修改hadoop相关参数1-修改core-site.xml[bigdata@masterhive]$vim/opt/module/hadoop/etc/hadoop/core-site.xmlhadoop.proxyuser.bigdata.hosts*hadoop.proxyuser.bigdata.groups*hadoop.proxyuser.bigdata.users*2.hive解压
Flume监控Hive日志并上传到HDFS 无发可脱丶笔记学习 flume 大数据 flume
一、实时监控单个追加文件1.需求：实时监控Hive日志，并上传到HDFS2.实现步骤：（1）上传Hadoop相关jar包到flume/lib目录下flume相关jar包https://blog.csdn.net/Dj_hanhan/article/details/110097742（2）进入usr/flume/job目录，创建flume-file-hdfs.conf文件#Namethecompon
实时监控 Hive 日志，并上传到 HDFS 中夏殿灬青葛石 Flume hdfs hive hadoop
Flume要想将数据输出到HDFS，依赖Hadoop相关jar包检查/etc/profile.d/my_env.sh文件，确认Hadoop和Java环境变量配置正确创建flume-file-hdfs.conf文件注：要想读取Linux系统中的文件，就得按照Linux命令的规则执行命令。由于Hive日志在Linux系统中所以读取文件的类型选择：exec即execute执行的意思。表示执行Linux命
【log4j漏洞】log4j 1.x漏洞依赖包解决方案秦拿希 log4j java springboot
一问题描述log4j1.x被证实有漏洞，公司要求升级log4j版本到最新，在升级过程中发现问题。对于应用中我们自己写的程序全部替换为新版本。但是在打包发布镜像到harbor时还是被检测出log4j的引用。二问题分析那么自己的程序中确定是没有引用了，那log4j的引用必定是程序中的第三方依赖包了。于是继续检查本地程序，在pom中一个个的排查依赖包，发现是hadoop相关的包引用到了log4j1.x，
【Hadoop】安装部署-完全分布式搭建 db_lmr_2071 分布式 hadoop 大数据
文章目录前言一、部署需要的软件二、Hadoop配置环境1.配置网络环境关闭防火墙2.安装jdk和hadoop2.1配置jdk环境变量2.2配置Hadoop环境变量三、准备三台虚拟机1.修改主机名与IP映射2.修改主机上的hadoop相关配置文件2.1core-site.xml2.2hdfs-site.xml2.3yarn-site.xml2.4slaves3.将主机上的hadoop配置文件，同步到
数仓开发面试题之Hadoop相关话数Science 面试大数据 hadoop 大数据
提纲MapReduce原理，map数、reduce数的参数说一下mapjoin与reducejoinhivesql怎么优spark和hive的区别数据倾斜几种解决方式数据如何清洗说一下udf、udtf、udaf，集成的类、接口，怎么写hive文件存储格式，对比内外表区别hive执行的job数是怎么确定的cube、groupingsets、grouping__idorderby、sortby、dis
Hadoop相关小美美大白蛋 hadoop 大数据分布式
hdfsgetconf-confKeydfs.namenode.http-address查看Hadoop工作端口的信息hdfsgetconf-confKeydfs.datanode.http.address查看HDFS的NameNode组件的HTTP端口。
60款顶级大数据开源工具 weixin_34006965 大数据操作系统 java
一、Hadoop相关工具1.HadoopApache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来，已成为一个完整的生态系统，众多开源工具面向高度扩展的分布式计算。支持的操作系统：Windows、Linux和OSX。相关链接：http://hadoop.apache.org2.Ambari作为Hadoop生态系统的一部分，这个Apache项目提供了基于Web的直观界面，可用于配置、管理
Flink on yarn模式部署 fragrans CDH和大数据组件 Flink flink yarn java
目录1.基于docker部署cdh2.遇到的异常2.1flink下缺少hadoop相关依赖2.2jdk7造成的错误3.启动flinkonyarn模式<
HADOOP集群大数据词频统计及设计比较（完整教程）鸷鸟之不群 Hadoop相关 hadoop 网络 linux
###如若发现错误，或代码敲错，望能评论指正！！！通过百度网盘分享的文件：Hadoop相关需要的软件链接:https://pan.baidu.com/s/1XzDvyhP4_LQzAM1auQCSrg?pwd=tph5提取码:tph5VMware下安装CentOS一、先安装一个虚拟机安装好后要右键，找到用管理员的方式打开也可以设置成每次打开都是以管理员身份运行二、安装一个CentOS，这里使用的是
Hadoop环境搭建星星失眠️ hadoop 大数据分布式
1Hadoop集群环境搭建概述所谓集群，就是一组通过网络互联的计算机，集群中的每一台计算机称作一个节点，Hadoop集群搭建就是在这个物理集群之上安装部署Hadoop相关的软件，然后对外提供大数据存储和分析等相关服务。一个前提：Hadoop是为了在Linux平台上使用而开发的一个现实：我们的电脑不是Linux系统如何解决？？？搭建虚拟机，在虚拟机上安装Linux操作系统虚拟机是什么？虚拟的计算机，
Hadoop相关知识点浪漫的诗人 hadoop 大数据分布式
文章目录一、主要命令二、配置虚拟机2.1设置静态ip2.2修改主机名及映射2.3修改映射2.4单机模式2.5伪分布式2.6完全分布式三、初识Hadoop四、三种模式的区别4.1、单机模式与伪分布式模式的区别4.2、特点4.3、配置文件的差异4.3.1、单机模式4.3.2、伪分布式模式4.3.3、完全分布式模式五、问答题六、shell访问hdfs(通过HDFS*Shell命令)6.1、问答题6.2、
本地报 HADOOP_HOME and hadoop.home.dir are unset 错误处理 HoneyYHQ9988 Hadoop 配置hadoop环境
在本地idea上运行Hadoop相关服务，控制台打印出此错误“HADOOP_HOMEandhadoop.home.dirareunset”，这是由于在本地Windows系统配置hadoop环境就会报此错误。第一步：下载winutils-master.zip蓝奏云：https://www.lanzous.com/i55ccnc对照你自己版本选择合适的插件。第二步：配置window上环境变量1、新建H
HBase（hbase-0.96.2）安装数大招疯 hadoop HBase 0.96.2 安装配置
明天要讲HBase课程，由于以前使用的是0.92的版本，所以在此记录下新版本的安装步骤（基于hadoop-2.2.0安装，hadoop2.2安装有空补上）。一、检查hadoop是否已安装且能正常运行方法一：检查hadoop相关进程是否都存在方法二：能否通过浏览器访问hdfs与mapred对应的端口二、安装HBase1、下载安装包：http://mirror.esocc.com/apache/hba
Flink on yarn 不废话集群部署病妖 flink flink yarn big data
文章目录Flinkonyarn集群部署前言先安装好yarn集群，在我们这个环境中使用的是CDH6.3，也就是基于hadoop3.0的大数据生态环境flink部署1.包下载2.将所下载的包放置/opt/flink下进行解压安装3.切换到相关目录4.配置hadoop相关路径5.如果第四步采用后仍然报错找不到相关包，则切换到lib包中并将相关hadoop包放置lib目录下6.确保你的环境有足够的内存能够
从零开始的Hadoop学习（三）| 集群分发脚本xsync 庭前云落 Hadoop hadoop 学习大数据
1.Hadoop目录结构bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）sbin目录：存放启动或停止Hadoop相关服务的脚本share目录：存放Hadoop的依赖jar包、文档、和官方案例2.Hadoop运行模式本地模式、伪分布
2 hadoop的目录水无痕simon Hadoop hadoop 大数据分布式
1.目录结构：其中比较的重要的路径有：hdfs,mapred,yarn（1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）（4）sbin目录：存放启动或停止Hadoop相关服务的脚本（5）share目录：存放Hado
mac 下编译hadoop源码疯狂的哈丘
本篇博客主要介绍社区版的hadoop源码的编译，以及会遇到的一些问题。一、获取hadoop源码可以通过hadoop的官网获取hadoop相关源码包:https://hadoop.apache.org/releases.html。或者直接通过git去github拉取最新的源码:gitclonehttps://github.com/apache/hadoop#拉完代码后进入源码目录cdhadoop#通
MPP架构与Hadoop架构是一回事吗？ Thoughtworks思特沃克中国新兴技术 big data 数据库新兴技术
计算机领域的很多概念都存在一些传播上的“谬误”。MPP这个概念就是其中之一。它的“谬误”之处在于，明明叫做“MassivelyParallelProcessing（大规模并行处理）”，却让非常多的人拿它与大规模并行处理领域最著名的开源框架Hadoop相关框架做对比，这实在是让人困惑——难道Hadoop不是“大规模并行处理”架构了？很多人在对比两者时，其实并不知道MPP的含义究竟是什么、两者的可比性
Kerberos＋HDP客户端部署与配置那年夏天110 Hadoop
背景说明：在Ambari平台上启用Kerberos之后，一些服务的WebUI如：Namenode:50070、YarnWebUI、sparkhistoryUI等快速链接大部分都是需要Kerberos认证才可以继续使用的。像这种情况，就不能在Linux上进行操作.需要在Windows上安装Kerberos客户端，再进行浏览器配置才可以访问Hadoop相关服务的WebUI界面。安装配置主要分为以下几步
flink提交作业到yarn sf_www flink flink 大数据
请注意，客户端需要YARN_CONF_DIR或HADOOP_CONF_DIR环境变量来读取YARN和HDFS配置。没配置的话，就默认去HADOOP_CLASSPATH里去寻找，而cdh的`hadoopclasspath`里恰好有/etc/hadoop/conf。在flink1.13以前，lib下是有hadoop相关的jar包的，但是1.13以后被独立出去了，所以需要加上环境变量exportHADO
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

Mac系统下, hadoop 2.6.2 完全分布式 配置

背景

环境