jsczxy2

[转]hadoop的安装和使用

hadoop是目前比较流程的分布式计算平台，虽然安装和使用方法官方网站介绍的比较详细，但是其中细节还是挺多的，稍不注意就要走很多弯路，希望通过本文的介绍，大家能够在很短的时间内能将hadoop跑起来。由于公司云梯用的是0.19.2版本的，所以下面就以这个版本为例，而没有采用目前最新的0.21版本。

hadoop官方网站地址：http://hadoop.apache.org

   可以用以下三种支持的模式中的一种启动Hadoop集群：
   •单机模式
   •伪分布式模式
   •完全分布式模式

单机和伪分布模式只需要一台机器就可以完成，下面我们先来学习这两种模式。
hadoop目前只有linux版本，所以你需要一台linux系统的服务器，可以跟我一样用虚拟机，而且需要先安装好jdk。我的服务器版本是centos 5.6，自己将jdk安装到了/usr/java/jdk1.6.0_25。下面我们来下载并配置hadoop运行环境。

1.单机模式

我这台机器的ip地址是：192.168.218.128，为了方便，我将这台机器的hostname改成了hd128，这样以后需要配置的地方都是用hd128了，修改方法是编辑文件/proc/sys/kernel/hostname。然后修改下hosts文件，将 192.168.218.128 hd128也加入进来吧。为了方便，将所用的windows机器hosts也添加下这个配置，因为以后要用浏览器访问hadoop的服务，查看hadoop的运行状况。
注意：下面配置中涉及到hd128的地方，你需要修改成你自己相应的配置。

    Shell代码    
    
  
cd /data  
wget http://archive.apache.org/dist/hadoop/core/hadoop-0.19.2/hadoop-0.19.2.tar.gz  
tar xf hadoop-0.19.2.tar.gz  
mv hadoop-0.19.2 hadoop  

然后修改配置文件/data/hadoop/conf/hadoop-env.sh，将JAVA_HOME的值为jdk安装目录，如下：

export JAVA_HOME=/usr/java/jdk1.6.0_25

下面的实例将已解压的conf 目录拷贝作为输入，查找并显示匹配给定正则表达式的条目。输出写入到指定的output目录。

    Shell代码    
    
  
mkdir input   
  
//向input目录放置一些待分析的xml文件  
cp conf/*.xml input   
  
//执行hadoop-0.19.2-examples.jar这个jar文件，将input目录所有的文件中匹配'dfs[a-z.]+'的条目，输出到output目录  
bin/hadoop jar hadoop-0.19.2-examples.jar grep input output 'dfs[a-z.]+'   

下面看看程序运行结果，可以看到所有匹配'dfs[a-z.]+'的字符串及其匹配的次数。

    Shell代码    
    
  
cat output/*   
[root@hd128 hadoop]# cat output/*  
3       dfs.  
3       dfs.name.dir  
1       dfs.https.address  
1       dfs.access.time.precision  
1       dfs.balance.bandwidth  
1       dfs.block.size  
1       dfs.blockreport.initial  
1       dfs.blockreport.interval  
1       dfs.client.block.write.retries  
1       dfs.data.dir  
1       dfs.datanode.address  
1       dfs.datanode.dns.interface  
1       dfs.datanode.dns.nameserver  
1       dfs.datanode.du.reserved  
1       dfs.datanode.handler.count  
1       dfs.datanode.http.address  
1       dfs.datanode.https.address  
1       dfs.datanode.ipc.address  
1       dfs.default.chunk.view.size  
1       dfs.df.interval  
1       dfs.heartbeat.interval  
1       dfs.hosts  
1       dfs.hosts.exclude  
1       dfs.http.address  
1       dfs.impl  
1       dfs.max.objects  
1       dfs.name.edits.dir  
1       dfs.namenode.decommission.interval  
1       dfs.namenode.decommission.interval.  
1       dfs.namenode.decommission.nodes.per.interval  
1       dfs.namenode.handler.count  
1       dfs.namenode.logging.level  
1       dfs.permissions  
1       dfs.permissions.supergroup  
1       dfs.replication  
1       dfs.replication.consider  
1       dfs.replication.interval  
1       dfs.replication.max  
1       dfs.replication.min  
1       dfs.replication.min.  
1       dfs.safemode.extension  
1       dfs.safemode.threshold.pct  
1       dfs.secondary.http.address  
1       dfs.support.append  
1       dfs.web.ugi  

2.伪分布式模式

Hadoop可以在单节点上以所谓的伪分布式模式运行，此时每一个Hadoop守护进程都作为一个独立的Java进程运行。
伪分布式模式需要免密码ssh设置,确认能否不输入口令就用ssh登录localhost:

    Shell代码    
    
ssh localhost

如果不输入口令就无法用ssh登陆localhost，执行下面的命令(注意:只有拥有root权限的用户才能执行下面命令)：

    Shell代码    
    
  
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa   
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys  

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

$ chmod 600 ~/.ssh/authorized_keys

$ chmod 700 ~/.ssh/

然后修改conf/hadoop-site.xml，注意，官方教程有点错误：<value>localhost:9000</value>，这个地址必须带上hdfs://，不然后面会报错的。另外，dfs.name.dir配置的路径/data/hadoopdata/NameData需要自己手动创建下，不然也会报错的。

    Shell代码    
    
  
 <configuration>  
<property>    
  <name>fs.default.name</name>    
  <value>hdfs://hd128:9090</value>    
</property>    
 <property>    
  <name>mapred.job.tracker</name>    
  <value>hdfs://hd128:9091</value>    
 </property>    
 <property>    
   <name>dfs.replication</name>    
   <value>1</value>    
 </property>   
 <property>    
   <name>dfs.name.dir</name>    
  <value>/data/hadoopdata/NameData</value>    
</property>     
 <property>    
   <name>hadoop.tmp.dir</name>    
   <value>/data/hadoopdata/temp</value>    
</property>   
</configuration>  

配置完成后就可以测试下伪分布式模式运行的hadoop集群了。
格式化一个新的分布式文件系统：

    Shell代码    
    
bin/hadoop namenode -format

启动Hadoop守护进程：

    Shell代码    
    
bin/start-all.sh

Hadoop守护进程的日志写入到 ${HADOOP_LOG_DIR} 目录 (默认是 ${HADOOP_HOME}/logs).如果启动有错误，可以在这些日志文件看到更详细的错误信息。

浏览NameNode和JobTracker的网络接口，它们的地址默认为：

•NameNode - http://hd128:50070/
•JobTracker - http://hd128:50030/

下面我们来使用伪分布模式做点事情。

首先将输入文件拷贝到分布式文件系统，下面命令将本地的conf目录文件拷贝到hdfs的input目录。

bin/hadoop fs -put conf input

下面运行程序对input目录的文件进行解析，找到所有符合'dfs[a-z.]+'的行。

    Shell代码    
    
  
[root@hd128 hadoop]# bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'  
11/06/16 15:23:23 INFO mapred.FileInputFormat: Total input paths to process : 10  
11/06/16 15:23:24 INFO mapred.JobClient: Running job: job_201106161520_0001  
11/06/16 15:23:25 INFO mapred.JobClient:  map 0% reduce 0%  
11/06/16 15:24:05 INFO mapred.JobClient:  map 9% reduce 0%  
11/06/16 15:25:30 INFO mapred.JobClient:  map 9% reduce 3%  
11/06/16 15:25:32 INFO mapred.JobClient:  map 27% reduce 3%  
11/06/16 15:26:37 INFO mapred.JobClient:  map 27% reduce 9%  

可以看到控制显示的map和reduce的进度，这时候通过浏览器查看NameNode和JobTracker的运行状态分别如下图所示：

等map-reduce程序运行完毕，我们在hdfs文件系统上看看程序的运行结果：

    Shell代码    
    
bin/hadoop fs -cat output/part-00000

可以看到跟单机运行的结果是一样的。

完成全部操作后，停止守护进程：

    Shell代码    
    
bin/stop-all.sh

3.完全分布式模式

为了在完全分布式模式下运行，我弄了三个centos虚拟机，ip分别是 192.168.218.128，192.168.218.129，192.168.218.130，hostname分别设置为 hd128,hd129,hd130， hosts文件将这些都配置进去了，这样以后就可以直接通过hostname访问到了。

我准备将hd128这台机器做为master（NameNode和JobTracker），hd129和hd130都做为slave机器（DataNode和TaskTracker）。

由于master和所有的slave之间是需要使用ssh协议进行通讯的，所以每两台之间，以及每台对自己都必须做到可以无密码ssh访问。上面已经介绍了怎样对自己无密码ssh访问，下面再说下怎样做到两台机器之间无密码访问，我们以hd128和hd129之间为例：

首先在hd128上生成一个公钥，并拷贝到hd129上：

    Shell代码    
    
  
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa   
scp ~/.ssh/id_dsa.pub root@hd129:/tmp  

然后在hd129上，将这个公钥加入到权限控制文件中：

    Shell代码    
    
cat /tmp/id_dsa.pub >> ~/.ssh/authorized_keys

经过上面的步骤，hd128对hd129的ssh访问就不需要输入密码了，依照上面的方法，将hd128，hd129，hd130两两之间都弄好无密码访问的权限，这个工作一定要细致，很容易弄错或弄漏了，做好后，最好都ssh试试。

经过我的实验，完全分布式模式至少需要在上面的基础下还要进行如下配置。

修改conf/hadoop-env.sh，添加下面配置：

    Shell代码    
    
  
export HADOOP_HOME=/data/hadoop  
export HADOOP_CONF_DIR=$HADOOP_HOME/conf  
export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves  
export HADOOP_MASTER=hd128:/data/hadoop  

修改conf/masters，一行一个master

    Shell代码    
    
hd128

修改conf/slaves，一行一个slave

    Shell代码    
    
  
hd129  
hd130  

就这样master就配置好了，下面将hadoop整个目录分发到所有slave机器上面。

    Shell代码    
    
  
cd /data  
tar -czvf hadoop-ok.tar.gz hadoop  
scp hadoop-ok.tar.gz root@hd129:/data  
scp hadoop-ok.tar.gz root@hd130:/data  

在slave机器上解压tar文件

    Shell代码    
    
  
cd /data  
tar xf hadoop-ok.tar.gz  

配置基本上就完成了，下面就可以以完全分布式模式启动hadoop集群了。对hadoop集群的操作都在master机器上进行就行了，slave进程的启动和停止都是master通过ssh来控制的。
(1)首先我们需要格式化hdfs文件系统

    Shell代码    
    
  
cd /data/hadoop  
bin/hadoop namenode -format  

(2)启动hdfs文件系统

    Shell代码    
    
bin/start-dfs.sh

测试下hdfs文件系统是否好用了，我们将conf目录下的所有文件放到hdfs的input目录：
bin/hadoop fs -put conf input

下面查看下input目录下下的文件：

    Shell代码    
    
  
[root@hd128 hadoop]# bin/hadoop fs -ls input  
Found 10 items  
-rw-r--r--   1 root supergroup       2065 2011-06-19 15:41 /user/root/input/capacity-scheduler.xml  
-rw-r--r--   1 root supergroup        535 2011-06-19 15:41 /user/root/input/configuration.xsl  
-rw-r--r--   1 root supergroup      50230 2011-06-19 15:41 /user/root/input/hadoop-default.xml  
-rw-r--r--   1 root supergroup       2397 2011-06-19 15:41 /user/root/input/hadoop-env.sh  
-rw-r--r--   1 root supergroup       1245 2011-06-19 15:41 /user/root/input/hadoop-metrics.properties  
-rw-r--r--   1 root supergroup        711 2011-06-19 15:41 /user/root/input/hadoop-site.xml  
-rw-r--r--   1 root supergroup       2815 2011-06-19 15:41 /user/root/input/log4j.properties  
-rw-r--r--   1 root supergroup          6 2011-06-19 15:41 /user/root/input/masters  
-rw-r--r--   1 root supergroup         12 2011-06-19 15:41 /user/root/input/slaves  
-rw-r--r--   1 root supergroup        401 2011-06-19 15:41 /user/root/input/sslinfo.xml.example  

如果顺利看到这些文件，hdfs就启动正常了。

(3)启动map-reduce服务

    Shell代码    
    
bin/start-mapred.sh

下面检测下服务是否启动正常。
看看master机器上namenode和jobTracker服务是否存在：

    Shell代码    
    
  
[root@hd128 hadoop]# ps axu|grep java  
root     28546  0.3 11.3 1180236 24564 ?       Sl   15:26   0:00 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-secondarynamenode-hd128.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode  
root     28628  6.3 16.8 1185080 36392 pts/0   Sl   15:28   0:01 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-jobtracker-hd128.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.mapred.JobTracker  
root     28738  0.0  0.3   4028   704 pts/0    R+   15:28   0:00 grep java  

看看slave机器DataNode和TaskTracker进程是否存在:

    Shell代码    
    
  
[root@hd129 logs]# ps axu|grep java  
root      2026  0.1 11.5 1180316 24860 ?       Sl   15:22   0:00 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-datanode-hd129.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.hdfs.server.datanode.DataNode  
root      2204  2.3 16.0 1185772 34604 ?       Sl   15:28   0:00 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-tasktracker-hd129.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.mapred.TaskTracker  
root      2266  0.0  0.3   4028   676 pts/0    R+   15:29   0:00 grep java  

我们可以看到master和slave上各自有两个java线程在服务，下面我们还是用之前的例子试试。
bin/hadoop jar hadoop-0.19.2-examples.jar grep input output 'dfs[a-z.]+'

我们用浏览器看看master和slave的运行情况：

http://hd128:50070

http://hd128:50030

到此为止，hadoop的安装和基本的用法就介绍完了。其实我也是新手，如果哪里说的不对，欢迎拍砖。

hive相关面试题以及答案酷爱码编程学习分布式 hive
什么是Hive？它的作用是什么？答：Hive是一个建立在Hadoop之上的数据仓库工具，它提供了类似于SQL的查询语言HiveQL来操作存储在Hadoop中的数据。Hive的主要作用是让用户能够使用SQL语法来查询和分析大规模数据集。Hive的架构是什么样的？答：Hive的架构主要包括三个关键组件：HiveQL、HiveMetastore和Hive执行引擎。HiveQL是用户使用的SQL查询语言，
Hadoop中HDFS工作原理 sdlyjzh Hadoop HDFS
Hadoop其实并不是一个产品，而是一些独立模块的组合。主要有分布式文件系统HDFS和大型分布式数据处理库MapReduce。由于目前主要用到HDFS，所以这里看一下它的工作原理，以及相应的介绍下配置。什么是HDFS？HadoopDistributedFileSystem，字面意思，Hadoop分布式文件系统，通俗的讲，就是可以将不同节点的设备用来存储。它分为两个部分：NameNode和DateN
Spark 薇晶晶大数据
Spark简介Spark的特点运行速度快：使用DAG执行引擎以支持循环数据流与内存计算容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过SparkShell进行交互式编程通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于AmazonEC2等云环境中，并且可以
hadoop集群常用命令搜集——筑梦之路筑梦之路大数据 hadoop 大数据分布式
服务启停命令#脚本启停hadoop全部服务(master节点执行，各节点需配置免密)./start-all.sh#包含yarn(ResourceManager,NodeManager)和hdfs(JournalNode,NameNode,DataNode,DFSZKFailoverController)./stop-all.sh#脚本启停ResourceManager,NodeManager./s
hadoop集群常用shell脚本 Hi Xiu Hui hadoop hadoop
1.群发脚本XSync(xsync)#!/bin/bash#1获取参数，如果不够直接退出pcount=$#if((pcount==0));thenechonoargs;exit;fi#2获取文件名称p1=$1fname=`basename$p1`echofname=$fname#3获取上级目录到绝对路径pdir=`cd-P$(dirname$p1);pwd`echopdir=$pdir#4获取当前
Hadoop集群常用命令小萌新~~~~ hadoop 大数据分布式
1.启动Hadoop集群#启动HDFSstart-dfs.sh#启动YARNstart-yarn.sh2.停止Hadoop集群#停止YARNstop-yarn.sh#停止HDFSstop-dfs.sh3.HDFS常用命令查看HDFS状态hdfsdfsadmin-report上传文件到HDFShdfsdfs-put/local/path/to/file/hdfs/path/从HDFS下载文件hdfs
hadoop集群常用命令悻运 hadoop
#Hadoop集群常用命令##HDFS文件系统操作命令1.**基本文件操作**-hadoopfs-ls:列出目录内容-hadoopfs-mkdir:创建目录-hadoopfs-put:从本地复制文件到HDFS-hadoopfs-get:从HDFS复制文件到本地-hadoopfs-cat:查看文件内容-hadoopfs-tail:查看文件尾部内容-hadoopfs-rm:删除文件-hadoopfs-
hadoop 集群的常用命令 Eternity...... 大数据 spark
Hadoop集群是一个分布式系统，常用于存储和处理大规模数据。以下是一些Hadoop集群的常用命令：HDFS（Hadoop分布式文件系统）命令1.启动和停止HDFS-启动HDFSstart-dfs.sh此命令会启动NameNode、SecondaryNameNode和DataNode等HDFS相关的守护进程。-停止HDFSstop-dfs.sh该命令用于停止正在运行的HDFS守护进程。2.创建目录
11 配置Hadoop集群-免密登录满分对我强制爱 hadoop github 大数据
第一课时一、复习导入前面的课程中我们在虚拟机上安装并测试使用了hadoop的示例程序wordcount，并且在准备好了集群的同步工具，那接下来，我们就可去配置hadoop集群了。二、授新（一）认识ssh命令SSH（SecureShell）命令是一种用于通过加密协议安全地连接到远程服务器的工具。它广泛应用于远程登录、文件传输和命令执行等场景。它最基本的用法是连接到远程服务器，格式如：ssh用户名@主
Hadoop分布式文件系统HDFS AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop分布式文件系统HDFS作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：大数据存储，分布式计算，海量数据处理，高可用性，容错机制1.背景介绍1.1问题的由来随着互联网技术和数字设备的普及，企业级数据量呈现出爆炸式的增长趋势。传统的单机或小型集群的数据存储与管理方式已无法满足大规模数据处理的需求。数据的快速增长对存储系统的容量、性能以
hdfs原理 raining_time hdfs原理 hdfs读写原理 hdfs优缺点 hdfs安全模式 hdfs常用命令
简介HDFS（HadoopDistributedFileSystem）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（GoogleFileSystem）Google文件系统。HDFS有很多特点：①保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。(用空间换安全)②运行在廉价的机器上。③适合大数据的处理。多大？多小？HDFS默认会将文件分割成block，
实时数据流处理利器：Apache Storm 在大数据中的应用 Echo_Wish 大数据高阶实战秘籍大数据 apache storm
实时数据流处理利器：ApacheStorm在大数据中的应用引言在如今的数据驱动时代，企业和开发者们面临的一个核心挑战是如何高效处理实时数据流。传统的批处理框架（如Hadoop）在面对海量数据时表现优秀，但其高延迟的缺点使其难以满足实时场景的需求。这时，ApacheStorm作为一个低延迟、高吞吐、分布式的流式处理框架，成为了实时数据分析、日志监控、欺诈检测等场景的理想选择。今天，我们就来深入探讨A
Hbase的学习笔记（3）白居不易. hbase 学习 java
Hbase的学习笔记（3）本次主要学习Hbase与Java的配合使用，即通过Java语言完成对Hbase表的增删改查。1.所需依赖jar包org.apache.hadoophadoop-clientorg.apache.hadoophadoop-common注意：有些时候程序报错，跟maven的jar包加载顺序有关，具体的可以去了解下相关知识。我在测试时，虽然有的类导包进来是importorg.a
Linux下安装Zookeeper教程 .猫的树 Linux java-zookeeper zookeeper linux
ZooKeeper简介ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。一、下载ZooKe
大数据必学免费、开源分布式数据库——Apache Hive 遇码大数据数据仓库开源 hive hadoop sql 数据库 Apache Hive
Hive是大数据开发、分析领域无法绕开的一个话题。我将分认识Hive、快速部署、快速入门等几个模块为同学们详细地介绍Hive，期望可以为刚刚接触大数据领域的同学们建立一个初步的认知。Hive是什么Hive，又称ApacheHive，由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于ApacheHadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查
Spark 从HDFS读取时，通常按文件块（block）数量决定初始partition数，这是怎么实现的？闯闯桑 spark hdfs 大数据
在Spark中，从HDFS读取数据时按文件块（block）数量决定初始partition数，这一机制是通过HadoopInputFormat的分片（split）策略实现的。具体流程如下：1.HDFS文件块（Block）与SparkPartition的对应关系HDFS默认块大小（如128MB/256MB）决定了文件的物理存储分布。Spark在读取HDFS文件时，会调用Hadoop的InputForm
hadoop相关面试题以及答案酷爱码编程学习 hadoop 大数据分布式
什么是Hadoop？它的主要组件是什么？Hadoop是一个开源的分布式计算框架，用于处理大规模数据的存储和计算。其主要组件包括HadoopDistributedFileSystem（HDFS）和MapReduce。解释HDFS的工作原理。HDFS采用主从架构，包括一个NameNode和多个DataNode。NameNode负责管理文件系统的命名空间和数据块的映射关系，DataNode负责存储实际数
大数据内容分享(五)：Hadoop各组件的主要功能及作用详解之乎者也· 大数据（Hadoop）内容分享大数据 hadoop 分布式
目录前言存储类型组件计算分析引擎组件任务调度和集群管理组件其它组件总结前言虽然hadoop的生态体系已经有好多年了，而且越来越多的做大数据的可能会觉得hadoop体系在数据处理方面有一些笨重，但是作为大数据的分布式系统领域的鼻祖，我们还是好好学习一下。Hadoop体系最初建立于2005年，是由DougCutting和MikeCafarella开发的。它的设计灵感来自于Google的MapReduc
hadoop 3.x 伪分布式搭建勤匠分布式 hadoop 大数据
hadoop伪分布式搭建环境CentOS7jdk1.8hadoop3.3.61.准备准备环境所需包上传所有压缩包到服务器2.安装jdk#解压jdk到/usr/local目录下tar-xvfjdk-8u431-linux-x64.tar.gz-C/usr/local先不着急配置java环境变量，后面和hadoop一起配置3.安装hadoop#解压hadoop到/usr/local目录下tar-xvf
java实现hbase表创建、数据插入、删除表 zhuiwenwen hadoop
近日查看了相关资料后，梳理了一下用java实现hbase的表创建、数据插入、删除表，代码如下：1、需要的jar包：commons-codec-1.4.jarcommons-logging-1.0.4.jarhadoop-0.20.2-core.jarhbase-0.20.6.jarlog4j-1.2.15.jarzookeeper-3.2.2.jar2、代码：packageorg.myhbase;
ssh: Could not resolve hostname you: Temporary failure in name resolution Agatha方艺璇 Hadoop 大数据 ssh hadoop hdfs
安装Hadoop时报错此问题：原因是配置ip时写错了1、配置主机名与IP地址的映射关系：vi/etc/hosts192.168.215.152niit012、主机名称配置：vi/etc/sysconfig/networkniit01
使用esri的gis-tools-for-hadoop工具包，在hive中实现空间计算从地图看世界 GIS大数据 hadoop hive r语言
以基站工参表实现空间关系判断（点在多边形内）为例，使用ESRI的gis-tools-for-hadoop工具包，在hive中实现数据空间计算的几个主要步骤：上传空间地理实体数据到hadoop集群；hive中创建地理实体表；与基站工参表做空间判断（点在多边形内）。一、HiveHive是基于Hadoop的数据仓库，采用MPP架构（大规模并行处理），存储结构化数据，提供sql查询功能，sql语句转换为M
《Operating System Concepts》阅读笔记：p483-p488 操作系统
《OperatingSystemConcepts》学习第40天，p483-p488总结，总计6页。一、技术总结1.objectstorage(1)objectstorage管理软件Hadoopfilesystem(HDFS)、Ceph。二、英语总结(生词：1)1.commodity(1)commodity:com-("together,with")+modus("measure,manner"，*
Hadoop/Spark 生态不辉放弃大数据
Hadoop/Spark生态是大数据处理的核心技术体系，专为解决海量数据的存储、计算和分析问题而设计。以下从底层原理到核心组件详细讲解，帮助你快速建立知识框架！一、为什么需要Hadoop/Spark？传统单机瓶颈：数据量超过单机存储极限（如PB级数据）计算任务无法在合理时间内完成（如TB级日志分析）核心解决思路：分布式存储：数据拆分到多台机器存储（如HDFS）分布式计算：任务拆分到多台机器并行处理
数据湖和Apache Iceberg，Apache Hudi，Delta Lake 西土城计划 apache big data 大数据
1什么是数据湖？数据湖这个词目前已经流行开来，逐步被数据相关的从业者接受，可能还有很多人不太清楚它和Hadoop，Hive，Spark这些大数据系统的区别，简单说数据湖是个业务概念，主要是为了区别传统数仓这个概念的（传统数仓的定义：datawarehouse，是用于报告和数据分析的系统，被认为是商业智能的核心组件）。为什么说是“传统数仓”，因为Hadoop于2006年诞生至今已有10多年了，在这期
2024年河南省职业院校技能大赛高职组 “大数据分析与应用” 赛项任务书（四）落寞的魚丶大数据应用开发赛项数据分析数据挖掘高职组 2024年河南职业技能大赛大数据分析与应用
2024年河南省职业院校技能大赛高职组“大数据分析与应用”赛项任务书（四））背景描述：任务一：Hadoop完全分布式安装配置（25分）任务二：离线数据处理（25分）子任务一：数据抽取任务三：数据采集与实时计算（20分）任务一：实时数据采集任务四：数据可视化（10分）子任务一：用柱状图展示各省份消费额的中位数任务五：综合分析（20分）子任务一：Kafka中的数据如何保证不丢失？子任务二：请描述HBa
大数据（2）Hadoop架构深度拆解：HDFS与MapReduce企业级实战与高阶调优一个天蝎座白勺程序猿大数据开发从入门到实战合集大数据 hadoop 架构
目录一、分布式系统的设计哲学演进1.1从Google三驾马车到现代数据湖二、企业级HDFS架构全景图2.1联邦架构的深度实践2.2生产环境容灾设计2.3性能压测方法论三、MapReduce引擎内核解密3.1Shuffle机制全链路优化3.2资源调度革命：从MRv1到YARN3.3企业级编码规范四、千亿级数据分析实战：运营商信令数据挖掘4.1场景描述4.2优化后的MR作业链4.3性能对比数据五、云原
hadoop-HDFS操作 wenying_44323744 hadoop hdfs eclipse
1.使用的是hadoop的用户登录到系统，那么cd~是跳转到/home/hadoop下。2.在操作hdfs时，需要在hadoop用户下的/usr/local/hadoop，此时是在根目录下。cd/usr/local/hadoop或者cd/cdusr/local/hadoop3.回到Linux的操作目录我们把安装包放在了linux系统下的Downloads文件下，可以sudotar-zxf~/Dow
Hadoop安装 Cindy_0124 hadoop 大数据分布式
Hadoop的安装方式有三种，分别是单机模式，伪分布式模式，分布式模式。单机模式：单机模式：Hadoop默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。非分布式即单Java进程，方便进行调试。伪分布式模式：Hadoop可以在单节点上以伪分布式的方式运行，Hadoop进程以分离的Java进程来运行，节点既作为NameNode也作为DataNode，同时，读取的是HDFS中的文件。分布式
数据权限访问控制（Apache Sentry） deepdata_cn 权限管理 apache sentry
ApacheSentry最初由Cloudera公司内部开发，针对Hadoop系统中的数据（主要是HDFS、Hive的数据）进行细粒度控制，对HDFS、Hive以及Impala有着良好的支持性。2013年Sentry成为Apache的孵化项目，为Hadoop集群元数据和数据存储提供集中、细粒度的访问控制。其架构包括DataEngine、Plugin、Policymetadata等部分，Plugin负
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

[转]hadoop的安装和使用

你可能感兴趣的:(hadoop)