LAllenKing

在虚拟机CentOs7中配置hadoop2.7.5伪分布式

因完全分布式的集群安装hive后hive出现了点问题导致无法用hive进行select查询,导致学习进度卡住,所以我决定去搭建一个伪分布式的hadoop集群,一下就是安装过程.

搭建伪分布式集群准备条件

第一部分安装前部署

1.查看虚拟机版本
2.查看IP地址
3.修改主机名为hadoop
4.修改 /etc/hosts
5.关闭防火墙
6.关闭SELINUX
7.安装yum源并安装基础包
8.关闭不必要的服务
9.安装Java环境

第二部分 Hadoop正式安装

1.安装Hadoop
2.修改hadoop的5个配置文件
3.解决互信问题

第三部分启动Hadoop集群

1.格式化NameNode
2.启动Hadoop集群
3.验证集群是否启动成功
4.关闭hadoop集群
5.登录HDFS管理界面：http://ip:50070
6.登录MR管理界面： http://ip:8088

第四部分一些问题？

1.启动Hadoop集群报错：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
2.启动Hadoop集群报错：Attempting to operate on hdfs namenode as root but there is no HDFS_NAMENODE_USER defined. Aborting operation.
3.启动hadoop后无法访问50070端口
4.Hadoop集群启动后，使用jps查看没有DataNode进程？

那么我们如何搭建一个伪分布式集群呢？

我们要准备好以下条件：

1.我们的机器上需要安装VM虚拟软件
我安装的是VMware Workstation 15，安装方式大家可自行百度。

2.在虚拟软件上安装Linux（RHEL CENTOS UBUNTU…）
我安装的是Centos 7，安装方式可参考这里

3.配置好我们的网络环境
详情请看我的博客正确的配置虚拟机静态网络

4.配置好我们的java环境
Hadoop毕竟是Java程序的集合，所以在安装Hadoop软件之前，我们必须配置好Java环境。我安装的的是jdk1.8版本。

5.安装HADOOP并做相应配置
我安装的是hadoop-3.1.2.tar.gz,建议安装2.7.5版本,因为其支持的hbase版本较多.
当然下面的步骤同样适应于hadoop-2.7.5版本的安装，其中有些微小的区别我也已经作了说明。

第一部分安装前部署

首先，用root用户登录我们的虚拟机。

1.可以通过如下三个命令查看我们安装的虚拟机版本

[root@localhost ~]# cat /etc/issue #不知为什么我的虚拟机显示\S，正常情况下应该显示版本信息。
\S
Allen \r on an \m

[root@localhost ~]# cat /etc/redhat-release 
CentOS Linux release 7.5.1804 (Core) 

[root@localhost ~]# cat /etc/system-release
CentOS Linux release 7.5.1804 (Core)

2.通过 ip addr 可以查看虚拟机的IP地址。注意：centos 7换了查看IP地址的命令【ifconfig==>ip】

这里推荐2篇参考博文：

（1）ifconfig: command not found（CentOS专版，其他的可以参考）
https://www.cnblogs.com/dunitian/p/4974761.html
（2）Centos 7 系统安装完毕修改网卡名为eth0
https://jingyan.baidu.com/album/7f41ecec1b022e593d095c1e.html?picindex=5

[root@hadoop ~]# ifconfig
-bash: ifconfig: command not found
[root@hadoop ~]# ip addr
1: lo:  mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
   valid_lft forever preferred_lft forever
inet6 ::1/128 scope host 
   valid_lft forever preferred_lft forever
2: eth0:  mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 00:0c:29:bd:97:52 brd ff:ff:ff:ff:ff:ff
inet 192.168.137.46/24 brd 192.168.42.255 scope global noprefixroute dynamic eth0
   valid_lft 1506sec preferred_lft 1506sec
inet6 fe80::b46e:fbba:4f30:8322/64 scope link noprefixroute 
   valid_lft forever preferred_lft forever

3.修改主机名为hadoop。方法：修改配置文件 /etc/hostname 保存退出

[root@localhost ~]# hostname
localhost.localdomain
[root@localhost ~]# cat /etc/hostname 
localhost.localdomain
[root@localhost ~]# vi /etc/hostname 
[root@localhost ~]# cat /etc/hostname 
hadoop
[root@localhost ~]# reboot
----------重启后----------
[root@hadoop ~]# hostname
hadoop

注意：网上还有一种普遍的方式修改Linux主机名（点这里），但是测试之后发现在centos 7根本不生效，我估计这种方式可能是仅适用于低版本的Linux。

[root@localhost ~]# hostname
localhost.localdomain
[root@localhost ~]# cat /etc/sysconfig/network
#Created by anaconda
[root@localhost ~]# vi /etc/sysconfig/network 
[root@localhost ~]# cat /etc/sysconfig/network
#Created by anaconda
NETWORKING=yes
HOSTNAME=hadoop
[root@localhost ~]# cat /etc/hosts
127.0.0.1   localhost localhost.localdomain 	localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 		localhost6.localdomain6
[root@localhost ~]# vi /etc/hosts
[root@localhost ~]# cat /etc/hosts
127.0.0.1   localhost localhost.localdomain 	localhost4 localhost4.localdomain4
::1         localhost hadoop localhost6 				localhost6.localdomain6
[root@localhost ~]# reboot
-------重启后----------
[root@localhost ~]# hostname
localhost.localdomain
这种方法在centos 7完全没用！！！！！！！！！

4.修改 /etc/hosts。

先vi /etc/hosts打开文件，再在最后一行加入：IP地址主机名
如果不知道自己虚拟机的IP地址，可以ip addr查看。注意：CentOS后来换指令了【ifconfig==>ip】
如果不知道自己的主机名，可以hostname查看。

[root@hadoop ~]# ip addr #查看IP地址
1: lo:  mtu 65536 	qdisc noqueue state UNKNOWN group default qlen 	1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
   valid_lft forever preferred_lft forever
inet6 ::1/128 scope host 
   valid_lft forever preferred_lft forever
2: eth0: 	 mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 00:0c:29:bd:97:52 brd ff:ff:ff:ff:ff:ff
inet 192.168.42.134/24 brd 192.168.42.255 scope global noprefixroute dynamic eth0
   valid_lft 1542sec preferred_lft 1542sec
inet6 fe80::b46e:fbba:4f30:8322/64 scope link noprefixroute 
   valid_lft forever preferred_lft forever

[root@hadoop ~]# hostname #查看主机名
hadoop

[root@hadoop ~]# cat /etc/hosts
127.0.0.1   localhost localhost.localdomain 	localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 	localhost6.localdomain6
[root@hadoop ~]# vi /etc/hosts
[root@hadoop ~]# cat /etc/hosts
127.0.0.1   localhost localhost.localdomain 	localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 	localhost6.localdomain6
192.168.42.134 hadoop

5.关闭防火墙

查看防火墙状态

firewall-cmd --state

停止firewall

systemctl stop firewalld.service

禁止firewall开机启动

systemctl disable firewalld.service

6.关闭SELINUX

使用vi /etc/selinux/config编辑文件，将SELINUX=enfocing修改为disabled

[root@hadoop ~]# vi /etc/selinux/config
[root@hadoop ~]# cat /etc/selinux/config
#This file controls the state of SELinux on the system.
#SELINUX= can take one of these three values:
#enforcing - SELinux security policy is enforced.
#permissive - SELinux prints warnings instead of enforcing.
#disabled - No SELinux policy is loaded.
SELINUX=disabled
#SELINUXTYPE= can take one of three two values:
#targeted - Targeted processes are protected,
#minimum - Modification of targeted policy. Only selected processes are protected. 
#mls - Multi Level Security protection.
SELINUXTYPE=targeted 

[root@hadoop ~]# getenforce #查看SELinux状态
Enforcing
[root@localhost ~]# reboot
----------重启后----------
[root@hadoop ~]# getenforce
Disabled

7.安装yum源并安装基础包。
以下软件我们未来做hadoop开发基本上都能用上，作为一个严谨的开发人员，一定要保证它们均被安装，使我们的系统可靠、安全。

yum -y install openssh*
yum -y install man*
yum -y install compat-libstdc++-33*
yum -y install libaio-0.*
yum -y install libaio-devel*
yum -y install sysstat-9.* #没装上
yum -y install glibc-2.* #没装上
yum -y install glibc-devl-2.* glibc-headers-2.* #第一个没装上 
yum -y install ksh-2*
yum -y install libgcc-4.*
yum -y install libstdc++-4.*
yum -y install libstdc++-4.*.i686*
yum -y install libstdc++-devel-4.*
yum -y install gcc-4.*x86_64*
yum -y install gcc-c++-4.*x86_64*
yum -y install elfutils-libelf-0*x86_64* elfutils-libelf-	devel-0*x86_64*
yum -y install elfutils-libelf-0*i686* elfutils-libelf-	devel-0*i686*
yum -y install libtool-ltdl*686*
yum -y install ncurses*i686*
yum -y install ncurses*
yum -y install readline*
yum -y install unixODBC*
yum -y install zlib
yum -y install zlib*
yum -y install openssl*
yum -y install patch
yum -y install git
yum -y install lzo-devel zlib-devel gcc autoconf automake libtool  #autoconf没装上
yum -y install lzop
yum -y install lrzsz
yum -y install nc
yum -y install glibc
yum -y install gzip
yum -y install zlib
yum -y install gcc
yum -y install gcc-c++
yum -y install make
yum -y install protobuf
yum -y install protoc  #没装上
yum -y install cmake
yum -y install openssl-devel
yum -y install ncurses-devel
yum -y install unzip
yum -y install telnet
yum -y install telnet-server
yum -y install wget
yum -y install svn
yum -y install ntpdate

8.关闭不必要的服务。

chkconfig autofs off
chkconfig acpid off
chkconfig sendmail off
chkconfig cups-config-daemon off
chkconfig cpus off
chkconfig xfs off
chkconfig lm_sensors off
chkconfig gpm off
chkconfig openibd off
chkconfig pcmcia off
chkconfig cpuspeed off
chkconfig nfslock off
chkconfig iptables off
chkconfig ip6tables off
chkconfig rpcidmapd off
chkconfig apmd off
chkconfig sendmail off
chkconfig arptables_jf off
chkconfig microcode_ctl off
chkconfig rpcgssd off

9.安装Java环境。

rpm -qa|grep java命令查看是否系统已安装jdk包，如果有的话需要使用 rmp -e 软件包名称命令先卸载（我的centos7 默认没有java）。
上传jdk包到/usr/目录。然后解压，重命名，配置环境变量

[root@hadoop ~]# cd /usr/
root@hadoop usr]# tar -xzvf jdk-8u11-linux-x64.tar.gz #解压
[root@hadoop usr]# mv jdk1.8.0_11/ java/ 重命名
[root@hadoop usr]# vi /etc/profile #配置环境变量，添加如下4行
export JAVA_HOME=/usr/java
export JRE_HOME=/usr/java/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin

[root@hadoop usr]# source /etc/profile #使配置的环境变量生效
[root@hadoop usr]# java -version #查看
java version "1.8.0_11"
Java(TM) SE Runtime Environment (build 1.8.0_11-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.11-b03, mixed mode)

10.如果CentOS自带openjdk,但是它没有jps命令
在Centos7中，自带了OpenJdk。为了省事，我们很多时候就不把OpenJdk卸载，去重新安装JDK。但在大数据开发中，很多时候需要用到JPS命令，已经配置JDK的环境变量。

安装JDK开发插件

查看OpenJDK版本
rpm -qa | grep openjdk
可以看到安装的是 java 1.8版本
yum install -y java-1.8.0-openjdk-devel

查看OpenJDK路径
1.whereis java
2. ll /usr/bin/java
3. ll /etc/alternatives/java
4. ll /usr/lib/jvm/jre-1.8.0-openjdk-1.8.0.141-1.b16.el7_3.x86_64/bin/
可以看到 java的可执行文件，即可确认这是openJDK的执行路径。

配置OpenJDK环境变量
1.编辑 /etc/profile
2.添加以下代码：
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.141-1.b16.el7_3.x86_64
export CLASSPATH=.: $JAVA_HOME/jre/lib/rt.jar:$ JAVA_HOME/lib/dt.jar: $JAVA_HOME/lib/tools.jar export PATH=$ PATH:$JAVA_HOME/bin
3.更新环境变量
source /etc/profile

11.设置ntp时间同步服务
1、安装ntp
yum install -y ntp
2、设置NTP服务开机启动
chkconfig ntpd on
service nptd start

第二部分 Hadoop正式安装

官方文档：http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_Operation

1.安装Hadoop。上传Hadoop安装包到/usr/local/目录下，然后解压缩，重命名，配置环境变量

[root@hadoop usr]# cd /usr/local/
[root@hadoop local]# ls
bin  etc  games  hadoop-3.1.2.tar.gz  include  lib  lib64  libexec  sbin  share  src
[root@hadoop local]# tar xzvf hadoop-3.1.2.tar.gz  #解压缩
[root@hadoop local]# mv hadoop-3.1.2 hadoop #重命名
[root@hadoop local]# vi /etc/profile #配置环境变量：将以下几行添加到配置文件末尾，保存退出

export HADOOP_HOME=/usr/local/hadoop
#export HADOOP_OPTS="-Djava.library.path=$HADOOP_PREFIX/lib:$HADOOP_PREFIX/lib/native"
export 	LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export HADOOP_COMMON_LIB_NATIVE_DIR=/usr/local/hadoop/lib/native
export HADOOP_OPTS="-Djava.library.path=/usr/local/hadoop/lib"
#export HADOOP_ROOT_LOGGER=DEBUG,console
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
#hadoop-3.1.2必须添加如下5个变量否则启动报错，hadoop-2.x貌似不需要
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

[root@hadoop local]# source /etc/profile #使配置文件生效
[root@hadoop ~]# hadoop version #测试是否配置成功
Hadoop 3.1.2
Source code repository https://github.com/apache/hadoop -r 16b70619a24cdcf5d3b0fcf4b58ca77238ccbe6d
Compiled by centos on 2018-03-30T00:00Z
Compiled with protoc 2.5.0
From source with checksum 14182d20c972b3e2105580a1ad6990
This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-3.1.2.jar

2.修改hadoop的5个配置文件。非常重要。。。

现在先看一下hadooped目录。我们可以看到，hadoop下一共有7个目录，bin和sbin是可执行文件的目录，etc是放配置文件的目录，include、lib和libexec均是放一些类库的，share是放一些共享类库和jar包的。

[root@hadoop local]# cd hadoop
[root@hadoop hadoop]# ll
total 176
drwxr-xr-x 2 1000 1000    183 Mar 29 20:22 bin
drwxr-xr-x 3 1000 1000     20 Mar 29 20:01 etc
drwxr-xr-x 2 1000 1000    106 Mar 29 20:22 include
drwxr-xr-x 3 1000 1000     20 Mar 29 20:22 lib
drwxr-xr-x 4 1000 1000    288 Mar 29 20:22 libexec
-rw-rw-r-- 1 1000 1000 147145 Mar 21 13:57 	LICENSE.txt
-rw-rw-r-- 1 1000 1000  21867 Mar 21 13:57 	NOTICE.txt
-rw-rw-r-- 1 1000 1000   1366 Mar 21 13:57 README.txt
drwxr-xr-x 3 1000 1000   4096 Mar 29 20:01 sbin
drwxr-xr-x 4 1000 1000     31 Mar 29 20:36 share

首先，进入cd /usr/local/hadoop/etc/hadoop目录，这5个配置文件均在此目录中。

第一个：hadoop-env.sh

[root@hadoop hadoop]# vi hadoop-env.sh #添加如下一行变量
#hadoop-3.1.2是第54行,hadoop-2.7.7是第25行
#可以使用 :set number来显示行数
export JAVA_HOME=/usr/java

第二个：core-site.xml（HADOOP-HDFS系统内核文件）

[root@hadoop hadoop]# vi core-site.xml #添加如下几行

　　
　　
　　　　fs.defaultFS
　　　　hdfs://hadoop:9000   
　　
　　
　　
　　　　hadoop.tmp.dir
　　　　/var/hadoop/tmp

注意：在hadoop安装目录的文档中有所有配置文件的默认参数表，用户可以查看后，根据实际情况进行修改。

比如：在D:/hadoop-3.1.2/share/doc/hadoop/hadoop-project-dist/hadoop-common/core-default.html文档中可以看到：

hadoop.tmp.dir的默认值是/tmp/hadoop-${user.name}。/tmp/是Linux系统的临时目录，如果我们不重新指定的话，默认Hadoop工作目录在Linux的临时目录，一旦Linux系统重启，所有文件将会清空，包括元数据等信息都丢失了，需要重新进行格式化，非常麻烦。

第三个：hdfs-site.xml

[root@hadoop hadoop]# vi hdfs-site.xml #添加如下几行

　　
　　
　　　　dfs.replication
　　　　1
　　
　　
　　 
　　　　dfs.http.address 
　　　　192.168.42.134:50070

在D:\hadoop-3.1.2\share\doc\hadoop\hadoop-project-dist\hadoop-hdfs\hdfs-default.xml文档中可以看到：

dfs.replication的默认值是3，由于HDFS的副本数不能大于DataNode数，而我们此时安装的hadoop中只有一个DataNode，所以将dfs.replication值改为1。

dfs.namenode.http-address在hadoop-3.1.2版本上的默认值是 0.0.0.0:9870 ，在hadoop-2.7.5版本上的默认值是0.0.0.0:50070，所以不同版本可以通过不同端口访问NameNode。

第四个：mapred-site.xml

[root@hadoop hadoop]# mv mapred-site.xml.templete mapred-site.xml #重命名，hadoop-3.1.2系统中就是mapred-site.xml不需要改名，hadoop-2.7.5需要改名
[root@hadoop hadoop]# vi mapred-site.xml #添加如下几行，指定hadoop运行在哪种计算框架上，这里指定yarn框架。


mapreduce.framework.name
yarn

第五个：yarn-site.xml

[root@hadoop hadoop]# vi yarn-site.xml #添加如下几行



    yarn.resourcemanager.hostname
    hadoop



    yarn.nodemanager.aux-services
    mapreduce_shuffle

其实还有第6个文件slaves，内容为localhost，不需要修改。slaves这个文件指定DataNode在哪台机器上。这个文件在hadoop-2.7.5中存在，但是在hadoop-3.1.2里没有这个文件，该文件改名为workers了。当搭建分布式hadoop集群时，需要修改这个文件，配置DataNode在哪台机器上。

旧版本中貌似有个masters文件用来配置SecondaryNameNode在哪台机器上（最好不要跟NameNode放在同一台机器上），但是我在新版本目录中没找到这个文件，不知道新版本如何配置SecondaryNameNode？

3.解决互信问题。

主要是目的是当hadoop集群有多台机器时，我们可以在任意一台机器上输入start-all.sh命令启动集群中的所有节点，方便快捷。如果不配置免密码登录的话，那么我们需要一台一台机器输入密码登录后分别启动各个节点，非常麻烦。

方式一：配置ssh，生成密钥，使ssh可以免密码连接localhost

[root@hadoop rpms_yum]# cd /root
[root@hadoop ~]# ssh-keygen -t rsa #生成ssh密钥对
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): #直接回车
Enter passphrase (empty for no passphrase): #直接回车
Enter same passphrase again: #直接回车
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:9NevFFklAS5HaUGJtVrfAlbYk82bStTwPvHIWY7as38 root@hadoop
The key's randomart image is:
+---[RSA 2048]----+
|           +*O*=.|
|          .o=+=o+|
|        . ..O  +=|
|       . . * *.%o|
|        S o o %o+|
|           . + +.|
|            . + .|
|             . +E|
|              o.o|
+----[SHA256]-----+
[root@hadoop ~]# cd .ssh/
[root@hadoop .ssh]# ls #id_rsa为私钥，id_rsa.pub为公钥
id_rsa  id_rsa.pub  known_hosts
[root@hadoop .ssh]# cp id_rsa.pub 	authorized_keys #使主机之间可以免密码登录
[root@hadoop .ssh]# ssh hadoop date #查看（不需要输入密码，直接输出结果，说明免密成功）
Mon Jul 16 05:02:27 EDT 2018

方式二：采用sshUserSetup.sh脚本去解决互信问题（sshUserSetup.sh是Oracle自带的一个快速配置互信的脚本程序，我们可以拿来借用一下）
将sshUserSetup.sh上传到/root目录，执行命令搭建本机互信（因为本机有2个节点，NameNode和DataNode）

[root@hadoop ~]# cd /root/
[root@hadoop ~]# ls
anaconda-ks.cfg  sshUserSetup.sh
[root@hadoop ~]# sh sshUserSetup.sh -user root -	hosts "hadoop" -advanced -noPromptPassphrase 
#这个文件我是从网上找的，执行命令后总是报错：syntax error near unexpected token `else'

第三部分启动Hadoop集群

1.首先格式化NameNode

注意：如果格式化NameNode之后运行过hadoop，然后又想再格式化一次NameNode，那么需要先删除第一次运行Hadoop后产生的VERSION文件，否则会出错，详情见第四部分问题4。

[root@hadoop ~]# hdfs namenode -format #中间没有报错并且最后显示如下信息表示格式化成功

/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at hadoop/192.168.137.46
************************************************************/

格式化完成后，系统会在dfs.data.dir目录下生成元数据信息。

2.输入 start-all.sh 启动

[root@hadoop hadoop]# start-all.sh
Starting namenodes on [hadoop]
Last login: Mon Jul 16 05:02:39 EDT 2018 from 	hadoop on pts/1
Last failed login: Mon Jul 16 05:51:35 EDT 2018 	from 192.168.42.131 on ssh:notty
There was 1 failed login attempt since the last successful login.
Starting datanodes
Last login: Mon Jul 16 05:57:58 EDT 2018 on 	pts/1
localhost: Warning: Permanently added 'localhost' (ECDSA) to the list of known hosts.
Starting secondary namenodes [hadoop]
Last login: Mon Jul 16 05:58:01 EDT 2018 on pts/1
2018-07-16 05:58:41,527 WARN 	util.NativeCodeLoader: Unable to load native-hadoop 	library for your platform... using builtin-java classes where applicable
Starting resourcemanager
Last login: Mon Jul 16 05:58:20 EDT 2018 on pts/1
Starting nodemanagers
Last login: Mon Jul 16 05:58:44 EDT 2018 on 	pts/1

3.执行 jps 验证集群是否启动成功

[root@hadoop hadoop]# jps #显示以下几个进程说明启动成功
Jps
DataNode #可有可无
SecondaryNameNode #重要
NameNode #重要
NodeManager #可有可无
ResourceManager #非常重要

4.关闭hadoop集群

[root@hadoop hadoop]# stop-all.sh
Stopping namenodes on [hadoop]
Last login: Mon Jul 16 05:58:46 EDT 2018 on pts/1
Stopping datanodes
Last login: Mon Jul 16 06:19:41 EDT 2018 on pts/1
Stopping secondary namenodes [hadoop]
Last login: Mon Jul 16 06:19:49 EDT 2018 on pts/1
2018-07-16 06:20:25,023 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Stopping nodemanagers
Last login: Mon Jul 16 06:20:13 EDT 2018 on pts/1
Stopping resourcemanager
Last login: Mon Jul 16 06:20:25 EDT 2018 on pts/1

5.登录HDFS管理界面（NameNode）：http://ip:50070

6.登录MR管理界面： http://ip:8088

附：hdfs常用命令

第四部分一些问题？

1.我们可以看到不管是启动还是关闭hadoop集群，系统都会报如下错误：

WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

解决方式：先看看我们安装的hadoop是否是64位的

[root@hadoop hadoop]# file 	/usr/local/hadoop/lib/native/libhadoop.so.1.0.0  #出现以下信息表示我们的hadoop是64位的
/usr/local/hadoop/lib/native/libhadoop.so.1.0.0: ELF 64-bit LSB shared object, x86-64, version 1 (SYSV), dynamically linked, BuildID[sha1]=8d84d1f56b8c218d2a33512179fabffbf237816a, not stripped

永久解决方式：

[root@hadoop hadoop]# vi /usr/local/hadoop/etc/hadoop/log4j.properties #在文件末尾添加如下一句，保存退出
log4j.logger.org.apache.hadoop.util.NativeCodeLoader=Error

2.hadoop-3.1.2启动hadoop集群时还有可能可能会报如下错误信息：

[root@hadoop ~]# start-all.sh
Starting namenodes on [hadoop]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no 	HDFS_NAMENODE_USER defined. Aborting 	operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting 	operation.
Starting secondary namenodes [hadoop]
ERROR: Attempting to operate on hdfs 	secondarynamenode as root
ERROR: but there is no 	HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.
2018-07-16 05:45:04,628 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Starting resourcemanager
ERROR: Attempting to operate on yarn 	resourcemanager as root
ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. 	Aborting operation.
Starting nodemanagers
ERROR: Attempting to operate on yarn nodemanager as root
ERROR: but there is no 	YARN_NODEMANAGER_USER defined. Aborting 	operation.

解决方式：

[root@hadoop hadoop]# vi /etc/profile #添加如下几行
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export 	HDFS_SECONDARYNAMENODE_USER=root
export 	YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
[root@hadoop hadoop]# source /etc/profile

3.启动hadoop后发现无法访问50070端口？
解决方式参考
https://blog.csdn.net/Neone__u/article/details/53741786

4.Hadoop集群启动后，使用jps查看没有DataNode进程？

原因：在第一次格式化dfs后，启动并使用了hadoop，后来又重新执行了格式化命令（hdfs namenode -format)，这时namenode的clusterID会重新生成，而datanode的clusterID 保持不变。因此就会造成datanode与namenode之间的id不一致。

解决方法：删除dfs.data.dir（在core-site.xml中配置了此目录位置）目录里面的所有文件，重新格式化，最后重启。

[root@hadoop ~]# stop-all.sh 

[root@hadoop ~]# rm -rf /var/hadoop/tmp/
[root@hadoop ~]# hdfs namenode -format

[root@hadoop ~]# start-all.sh

本篇文章参考:
https://www.cnblogs.com/zhengna/p/9316424.html

你可能感兴趣的:(大数据)

Java 大视界 -- Java 大数据在智慧农业精准灌溉与施肥决策中的应用（144）青云交大数据新视界 Java 大视界 java 大数据智慧农业精准灌溉施肥决策数据分析机器学习
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
股神系列：蒋菲的量化投资中，如何利用大数据优化模型？她的数据来源有哪些？云策量化量化交易量化软件量化炒股量化炒股 QMT 量化交易入门教程 PTrade 股票投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》标题：股神系列：蒋菲的量化投资中，如何利用大数据优化模型？她的数据来源有哪些？正文：在金融投资的世界里，量化投资以其科学、系统和客观的特点，成为了众多投资者追求的“圣杯”。而在量化投资领域，蒋菲以其独特的大数据量化投资模型而闻名。本文将深入探讨蒋菲如何利用大数据优化其量化投资模型，以及她的数据来源有哪些。一、量化投资模型的优化
2024年第五届MathorCup数学应用挑战赛--大数据竞赛思路、代码更新中..... 宇哥预测优化代码学习 1024程序员节
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️研赛及概况一、竞赛背景与目的二、组织机构与参赛对象三、竞赛时间与流程四、竞赛要求与规则五、奖项设置与奖励六、研究文档撰写建议七、参考资料与资源1找程序网站推荐2公式编辑器、流程图、论文排版324年研赛资源下载4思路、Python、Matlab代码分享......⛳
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

在虚拟机CentOs7中配置hadoop2.7.5伪分布式

搭建伪分布式集群准备条件

那么我们如何搭建一个伪分布式集群呢？

第一部分 安装前部署

第二部分 Hadoop正式安装

第三部分 启动Hadoop集群

第四部分 一些问题？

你可能感兴趣的:(大数据)

第一部分安装前部署

第三部分启动Hadoop集群

第四部分一些问题？