hadoop2.2编程：DFS API 操作

1. Reading data from a hadoop URL

说明：想要让java从hadoop的dfs里读取数据，则java 必须能够识别hadoop hdfs URL schema, 因此我们应该将hdfs的FsUrlStreamHandlerFactory作为一个实例提供给java, java的setURLStreamHandlerFactory方法可以实现此功能；

注意：此方法有缺陷，由于在java里，setURLStreamHandlerFactorymethod在每一个JVM里只能调用一次，加入第三方component已经set a URLStreamHandlerFactory，则hadoop用户就不能使用setURLStreamHandlerFactory方法来reading data from hadoop。

简要提示：

 1.[java.net.URL]

    methods:

        InputStream openStream()

        static void setURLStreamHandlerFactory(URLStreamHandlerFactory fac)

                                                                                                                                              2.[org.apache2.hadoop.fs.FsUrlStreamHandlerFactory]

    method:

        public class FsUrlStreamHandlerFactory         

        extends Object         

        implements URLStreamHandlerFactory

3.[org.apache.hadoop.io.IOUtils]

    method:

    static void copyBytes(InputStream in, OutputStream out, long length, int bufferSize, boolean close)

代码：

 1 import java.io.InputStream;

 2 import java.net.URL;

 3                                                                                                                                                                                                                                                                                                                                                                                                                                       

 4 import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;

 5 import org.apache.hadoop.io.IOUtils;

 6                                                                                                                                                                                                                                                                                                                                                                                                                                       

 7 public class URLCat {

 8   static {

 9     URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());

10   }

11                                                                                                                                                                                                                                                                                                                                                                                                                                       

12   public static void main(String[] args) throws Exception {

13     InputStream in = null;

14     try {

15       in = new URL(args[0]).openStream();

16       IOUtils.copyBytes(in, System.out, 4096, false);

17     } finally {

18       IOUtils.closeStream(in);

19     }  

20   }

21 }

执行步骤：

$source $YARN_HOME/libexec/hadoop-config.sh

$mkdir myclass

$javac -cp $CLASSPATH URLCat.java -d myclass

$jar -cvf urlcat.jar -C myclass ./

# assume we have a file bar.txt in hdfs： /user/grid/bar.txt

# then we need run yarn with this command

$yarn jar -cp urlcat.jar URLCat hdfs:///user/grid/bar.txt

2. Reading data using HDFS API

说明：使用hadoop的FileSystem API可以避免上面所述的JVM只能调用一次setURLStreamHandlerFactory的缺陷；

简要提示：

 (1)org.apache.hadoop.conf.Configured

    |__ org.apache.hadoop.fs.FileSystem

            public abstract class FileSystem

            extends Configured

            implements Closeable

            [method]:

            static FileSystem get(URI uri, Configuration conf)

            FSDataInputStream open(Path f)

(2)java.io.InputStream

    |__ java.io.FilterInputStream

          |__ java.io.DataInputStream

               |__ org.apache.hadoop.fs.FSDataInputStream

                        public class FSDataInputStream

                        extends DataInputStream

                        implements Seekable, PositionedReadable, Closeable

                        [methods]:

                         void seek(long desired)

                         long getPos()

(3)org.apache.hadoop.fs

    public class Path

    extends Object

    implements Comparable

    [methods]:

    Path(String pathString)

                                                                                                                                                           

(4)java.net.URI

    public final class URI

    extends Object

    implements Comparable<URI>, Serializable

    [methods]:

    static URI create(String str)

代码：

 1 import java.net.URI;

 2 import java.io.InputStream;

 3                                                                                                                                                                                                                                                                                                                                                                                                              

 4 import org.apache.hadoop.io.IOUtils;

 5 import org.apache.hadoop.fs.FileSystem;

 6 import org.apache.hadoop.fs.Path;

 7 import org.apache.hadoop.conf.Configuration;

 8                                                                                                                                                                                                                                                                                                                                                                                                              

 9 public class URICat {

10   public static void main(String[] args) throws Exception {

11    String uri = args[0];

12    Configuration conf = new Configuration();

13    FileSystem fs = FileSystem.get(URI.create(uri), conf);

14    InputStream in = null;

15    try {

16      in = fs.open(new Path(uri));

17      IOUtils.copyBytes(in, System.out, 4096, false);

18    } finally {

19      IOUtils.closeStream(in);

20    }  

21   }

22 }

执行步骤：

$source $YARN_HOME/libexec/hadoop-config.sh

$mkdir myclass

$javac -cp $CLASSPATH URICat.java -d myclass

$jar -cvf uricat.jar -C myclass ./

$yarn jar -cp uricat.jar URICat /user/grid/bar.txt

备注1：因为我们调用了FileSystem的API，故输入的filepath也可以省略HDFS的URI全名hdfs://,如上面执行步骤里所写。

备注2：FileSystem是抽象类，故不能new FileSystem()来得到instance, 而需要调用其的静态方法get()来得到；

备注3：注意java里的向上转型，体现在简要提示里各种Stream的继承关系上；

备注4：Configuration conf = new Configuration();

Configurations需要xml文件里的键值对<name>x</name>来配置，规则为：

　　　　if x is named by a String, 则在classpath里检查同名文件；

　　　　if x is named by a Path, 则直接本地查找，不检查classpath；

若用户不指定，则默认调用两个resources： core-site.xml和core-default.xml
用户可以指定xml文件以添加自己定义的configurations：

conf.addResource("my_configuration.xml");

3. Writing data

3.1 从本地复制文件到hdfs

版本1 FileCopy with copyBytes() method

简要提示：

核心代码就一行，即从InputStrea 以二进制方式复制到OutputStream：

static void copyBytes(InputStream in, OutputStream out, int buffSize, boolean close)

我们新建一个FileInputStream(localsrc)实例, 将其暂存在BufferedInputStream()里，并向上转型生成InputStream:

FileInputStream(String name )

调用FileSystem来产生OutputStream:

FSDataOutputStream create(Path f, Progressable progress)

代码：

 1    import java.net.URI;

 2 import java.io.InputStream;

 3 import java.io.BufferedInputStream;

 4 import java.io.FileInputStream;

 5 import java.io.OutputStream;

 6                                                                                                                                                                                                                                                                                                                                             

 7 import org.apache.hadoop.fs.BufferedFSInputStream;

 8 import org.apache.hadoop.util.Progressable;

 9 import org.apache.hadoop.util.Progressable;

10 import org.apache.hadoop.io.IOUtils;

11 import org.apache.hadoop.fs.Path;

12 import org.apache.hadoop.fs.FileSystem;

13 import org.apache.hadoop.conf.Configuration;

14                                                                                                                                                                                                                                                                                                                                             

15 public class FileCopyWithProgress {

16   public static void main(String[] args) throws Exception {

17     String localsrc = args[0];

18     String dst = args[1];

19     InputStream in = new BufferedInputStream(new FileInputStream(localsrc));

20     Configuration conf = new Configuration();

21     FileSystem fs = FileSystem.get(URI.create(dst), conf);

22     OutputStream out = fs.create(new Path(dst), new Progressable() {

23         public void progress() { System.out.print(".");} }

24                                 );

25     IOUtils.copyBytes(in, out, 4096, true);

26   }

27 }

执行步骤：

$. $YARN_HOME/libexec/hadoop-config.sh 

$javac -cp $CLASSPATH -d my_class FileCopyWithProgress.java

$jar -cvf filecopywithprogress.jar -C my_class/ .

# assum we have a local file foo.out in directory: /home/grid/foo.out, then we should run yarn like below

$yarn jar filecopywithprogress.jar FileCopyWithProgress /home/grid/foo.out hdfs:///user/grid/copied_foo.out

# we can do a check for the copied file

$hadoop fs -ls -R /user/grid/

注：从下面开始使用另一种方式来编译、运行代码

版本2 使用FileSystem的copyFromLocalFile()方法

代码如下：

 1 import org.apache.hadoop.fs.Path;

 2 import org.apache.hadoop.fs.FileSystem;

 3 import org.apache.hadoop.conf.Configuration;

 4                                                                                                                                                                                                                  

 5 public class FileCopyFromLocal {

 6   public static void main(String[] args) throws Exception {

 7     String localSrc = args[0];

 8     String dst = args[1];

 9     Configuration conf = new Configuration();

10     FileSystem fs = FileSystem.get(conf);

11     fs.copyFromLocalFile(new Path(localSrc),new Path(dst));

12   }

13 }

执行步骤：

$source $YARN_HOME/libexec/hadoop-config.sh

$javac FileCopyFromLocal.java -d class/

$jar -cvf filecopyfromlocal.jar -C class ./

$export HADOOP_CLASSPATH=$CLASSPATH:filecopyfromlocal.jar

# suppose we have a file bar.txt in local disk, then we use the following command line to copy it to hdfs

$yarn FileCopyFromLocal bar.txt hdfs:///user/grid/kissyou

# we can check the copied file on hdfs

$hadoop fs -ls /user/grid/

w-r--r--   3 grid supergroup        899 2013-11-17 01:33 /user/grid/kissyou

3.2 新建文件夹/文件

新建文件夹 FileSystem.mkdirs()

代码如下：

 1 import org.apache.hadoop.fs.FileSystem;

 2 import org.apache.hadoop.conf.Configuration;

 3 import org.apache.hadoop.fs.Path;

 4                                                                                                                                                                                          

 5 public class CreateDir {

 6   public static void main(String[] args) throws Exception {

 7     Configuration conf = new Configuration();

 8     String dst = args[0];

 9     FileSystem fs = FileSystem.get(conf);

10     fs.mkdirs(new Path(dst));

11   }

12 }

执行步骤：

$source $YARN_HOME/libexec/hadoop-config.sh

$javac CreatDir.java -d class/

$jar -cvf createdir.jar -C class ./

$export HADOOP_CLASSPATH=$CLASSPATH:createdir.jar

$yarn CreateDir hdfs:///user/grid/kissyou

# we can check the created directory on hdfs

$hadoop fs -ls /user/grid/

w-r--r--   3 grid supergroup        899 2013-11-17 01:33 /user/grid/kissyou

新建文件 FileSystem.create()

代码如下：

 1 import org.apache.hadoop.fs.FileSystem;

 2 import org.apache.hadoop.conf.Configuration;

 3 import org.apache.hadoop.fs.Path;

 4                                                                                                                                                                                           

 5 public class CreateFile {

 6   public static void main(String[] args) throws Exception {

 7     Configuration conf = new Configuration();

 8     String dst = args[0];

 9     FileSystem fs = FileSystem.get(conf);

10     fs.create(new Path(dst));

11   }

12 }

执行步骤：

$source $YARN_HOME/libexec/hadoop-config.sh

$javac CreatFile.java -d class/

$jar -cvf createfile.jar -C class ./

$export HADOOP_CLASSPATH=$CLASSPATH:createfile.jar

$yarn CreatFile hdfs:///user/grid/kissyou.txt

# we can check the created file on hdfs

$hadoop fs -ls /user/grid/

w-r--r--   3 grid supergroup        899 2013-11-17 01:33 /user/grid/kissyou.txt

注意三点：

1. 同一路径下不可以新建同名的文件foo和目录foo/, 否则运行时会抛出异常：

    fs.FileAlreadyExistsException

2. 我们进行copy复制、写文件操作时mkdirs()方法会被自动调用，故一般不会调用mkdirs()来手动创建目录；

3. 官方API文档里对mkdirs()的描述是:"Make the given file and all non-existent parents into directories", 所以在hadoop里创建文件的方法是recursive(递归的)，相当于linux里的:

    $mkdir -p foo/bar/qzx

同样等价于hdfs-shell里的命令：

    %$YARN_HOME/bin/hadoop fs -mkdir -p hdfs:///foo/bar/qzx

4.Testing file and Getting fileStatus

提示： hadoop2.2中一些API已经deprecated, 现只列出本例中用到的已经deprecated的method，并给出最新的method.

    deprecated APIs:

(1)java.lang.Object

    |__ org.apache.hadoop.fs.FileStatu

       //deprecated method:

        boolean isDir() //Deprecated. Use isFile(), 

                        //isDirectory(), and isSymlink() instead.

(2)java.lang.Object

    |__org.apache.hadoop.conf.Configured

        |__org.apache.hadoop.fs.FileSystem

            //deprecated methods:

            boolean isDirectory(Path f)    //Deprecated. Use 

                                           //getFileStatus() instead 

            short getReplication(Path src) //Deprecated. Use 

                                           //getFileStatus() instead 

            long getLength(Path f)         //Deprecated. Use

                                           //getFileStatus()instead

代码：

 1 import java.net.URI;

 2                                                                                                       

 3 import org.apache.hadoop.fs.FileSystem;

 4 import org.apache.hadoop.fs.Path;

 5 import org.apache.hadoop.conf.Configuration;

 6 import org.apache.hadoop.fs.FileStatus;

 7                                                                                                       

 8 public class TestFileStatus {

 9   public static void main(String[] args) throws Exception {

10     Configuration conf = new Configuration();

11     FileSystem fs = FileSystem.get(conf);

12     FileStatus stat = fs.getFileStatus(new Path(args[0]));

13     if (stat.isDirectory()) {

14       System.out.println(stat.getPath().toUri().getPath() + " is a directory.");

15     } else if (stat.isFile()) {

16       System.out.println(stat.getPath().toUri().getPath() + " is a file.");

17       System.out.println(stat.getPath().toUri().getPath() + " getBlockSize: " + stat.getBlockSize());

18       System.out.println(stat.getPath().toUri().getPath() + " getLen(): " + stat.getLen());

19       System.out.println(stat.getPath().toUri().getPath() + " getOwner(): " + stat.getOwner());

20       System.out.println(stat.getPath().toUri().getPath() + " getGroup(): " + stat.getGroup());

21       System.out.println(stat.getPath().toUri().getPath() + " getAccessTime(): " + stat.getAccessTime());

22       System.out.println(stat.getPath().toUri().getPath() + " getModificationTime(): " + stat.getModificationTime());

23       System.out.println(stat.getPath().toUri().getPath() + " getPermission(): " + stat.getPermission());

24       System.out.println(stat.getPath().toUri().getPath() + " hashcode(): " + stat.hashCode());

25       System.out.println(stat.getPath().toUri().getPath() + " getPath(): " + stat.getPath());

26     }

27   }

28 }

先给一个福利^_^，利用下面我写的小脚本可以方便地编译并生成jar文件：

 1 #!/usr/bin/env sh

 2 CWD=$(pwd)

 3 export CLASSPATH=''

 4 . $YARN_HOME/libexec/hadoop-config.sh

 5       

 6 if [ -d class ]; then

 7   rm -rf class/*

 8 else

 9   mkdir $CWD/class

10 fi

11       

12 for f in $@

13   do

14     srcs="$srcs $CWD/$f"

15   done

16       

17 javac $srcs -d class

18       

19 if [ $? -ne 0 ] ;then

20   echo Error found when compiling the code!

21   exit 1

22 fi

23       

24 class=$( cat $1 |grep 'package'|sed -e "s/\(package\s\)\|\(;\)//g" ).$(echo $1 | sed -r 's/(.*).java/echo \1/ge')

25 jarfile=$(echo $1 | sed -r 's/(.*)\.java/echo \L\1\.jar/ge')

26       

27 jar -cvf $CWD/$jarfile -C $CWD/class . > /dev/null 2>&1

28 #echo jar -cvf $jarfile -C class . 

29 echo -----------------CMD Lines-----------------------

30 echo source $YARN_HOME/libexec/hadoop-config.sh >sourceIt.sh

31 echo export HADOOP_CLASSPATH=$jarfile:'$CLASSPATH'>>sourceIt.sh

32 echo source  $CWD/sourceIt.sh

33 echo yarn $class  [command args]...

执行步骤：

注意，为了简化起见，脚本定义:

$./compack.sh args1 args2 args3...中args1为main class

$chmod 500 compack.sh

$./compack.sh TestFileStatus.java

#then the script will reminder you with the following message：

-----------------CMD Lines------------------

source /home/grid/hadoop-2.2.0-src/hadoop-dist/target/hadoop-2.2.0/task/DFSAPIProgramming/sourceIt.sh

yarn TestFileStatus  [command args]...

$source sourceIt.sh

# suppose we have a file "part-m-00000" in hdfs，run yarn like below

$yarn TestFileStatus /user/hive/warehouse/footbl/part-m-00000

Output:

#output

/user/hive/warehouse/footbl/part-m-00000 is a file.

/user/hive/warehouse/footbl/part-m-00000 getBlockSize: 134217728

/user/hive/warehouse/footbl/part-m-00000 getLen(): 1275

/user/hive/warehouse/footbl/part-m-00000 getOwner(): grid

/user/hive/warehouse/footbl/part-m-00000 getGroup(): supergroup

/user/hive/warehouse/footbl/part-m-00000 getAccessTime(): 1384675957784

/user/hive/warehouse/footbl/part-m-00000 getModificationTime(): 1384675958368

/user/hive/warehouse/footbl/part-m-00000 getPermission(): rw-r--r--

/user/hive/warehouse/footbl/part-m-00000 hashcode(): 1096001837

/user/hive/warehouse/footbl/part-m-00000 getPath(): hdfs://cluster1:9000/user/hive/warehouse/footbl/part-m-00000

5. Listing files & glob files

Listing files

代码：

 1 import java.net.URI;

 2                                                           

 3 import org.apache.hadoop.fs.FileUtil;

 4 import org.apache.hadoop.fs.FileSystem;

 5 import org.apache.hadoop.fs.FileStatus;

 6 import org.apache.hadoop.fs.Path;

 7 import org.apache.hadoop.conf.Configuration;

 8                                                           

 9 public class ListFiles {

10   public static void main(String[] args) throws Exception {

11     Configuration conf = new Configuration();

12     FileSystem fs = FileSystem.get(conf);

13                                                           

14     Path[] paths = new Path[args.length];

15     for(int i = 0; i < args.length; i++) {

16       paths[i] = new Path(args[i]);

17     }

18                                                           

19     FileStatus[] status = fs.listStatus(paths);

20     Path[] pathList = FileUtil.stat2Paths(status);

21     for(Path p : pathList) {

22       System.out.println(p);

23     }

24   }

25 }

执行步骤：

$./compack.sh ListFiles.java 

$source sourceIt.s

$yarn ListFiles /user/hive/warehouse/footbl /user/grid/

output:

hdfs://cluster1:9000/user/hive/warehouse/footbl/_SUCCESS

hdfs://cluster1:9000/user/hive/warehouse/footbl/part-m-00000

hdfs://cluster1:9000/user/grid/kiss

hdfs://cluster1:9000/user/grid/kissyou

hdfs://cluster1:9000/user/grid/missyou

Filter files

提示：

  1. java.lang.Object

  |__ org.apache.hadoop.conf.Configured

       |__ org.apache.hadoop.fs.FileSystem

            public abstract class FileSystem

            extends Configured

            implements Closeable

            //method:

            FileStatus[] globStatus(Path pathPattern, PathFilter filter)  

   2. org.apache.hadoop.fs 

    public interface PathFilter

    //method:

    boolean accept(Path path)

代码：

 1 package org.apache.hadoop.MyCode;

 2                                       

 3 import org.apache.hadoop.fs.PathFilter;

 4 import org.apache.hadoop.fs.Path;

 5                                       

 6 public class MyFilter implements PathFilter {

 7   private final String regex;

 8   public MyFilter(String regex) {

 9     this.regex = regex;

10   }

11   public boolean accept(Path path) {

12     return path.toString().matches(regex);

13   }

14 }

 1 package org.apache.hadoop.MyCode;

 2                                      

 3 import org.apache.hadoop.MyCode.MyFilter;

 4                                      

 5 import java.net.URI;

 6                                      

 7 import org.apache.hadoop.fs.FileSystem;

 8 import org.apache.hadoop.fs.FileStatus;

 9 import org.apache.hadoop.fs.Path;

10 import org.apache.hadoop.fs.FileUtil;

11 import org.apache.hadoop.conf.Configuration;

12                                      

13 public class ListStatusWithPattern {

14   public static void main(String[] args) throws Exception {

15     Configuration conf = new Configuration();

16     FileSystem fs = FileSystem.get(conf);

17                                      

18     FileStatus[] status = fs.globStatus(new Path(args[0]), new MyFilter(args[1]));

19     Path[] pathList = FileUtil.stat2Paths(status);

20                                      

21     for( Path p : pathList ) { 

22       System.out.println(p);

23     }

24   }

25 }

执行步骤：

$source $YARN_HOME/libexec/hadoop-config.sh

$mkdir class

$javac ListStatusWithPattern.java  MyFilter.java -d class

$jar -cvf liststatuswithpattern.jar -C class ./

$export HADOOP_CLASSPATH=liststatuswithpattern.jar:$CLASSPATH

#suppose we have four files in hdfs like below

$hadoop fs -ls /user/grid/

Found 4 items

drwxr-xr-x   - grid supergroup          0 2013-11-17 01:06 /user/grid/kiss

-rw-r--r--   3 grid supergroup          0 2013-11-17 06:05 /user/grid/kissyou

drwxr-xr-x   - grid supergroup          0 2013-11-17 19:33 /user/grid/miss

-rw-r--r--   3 grid supergroup        899 2013-11-17 01:33 /user/grid/missyou

# then we can run the command to filter the matched file

$yarn jar liststatuswithpattern.jar org.apache.hadoop.MyCode.ListStatusWithPattern "hdfs:///user/grid/*ss*" "^.*grid/[k].*$

或者可以使用前面给出的脚本编译、打包并生成主要的执行yarn的代码：

$./compack.sh ListStatusWithPattern.java MyFilter.java #注意，脚本默认输入的第一个源文件为main class所在文件

$source source /home/grid/hadoop-2.2.0-src/hadoop-dist/target/hadoop-2.2.0/task/DFSAPIProgramming/sourceIt.sh

-----------------CMD Lines-----------------------

source /home/grid/hadoop-2.2.0-src/hadoop-dist/target/hadoop-2.2.0/task/DFSAPIProgramming/sourceIt.sh

yarn org.apache.hadoop.MyCode.MyFilter [command args]...

$yarn org.apache.hadoop.MyCode.ListStatusWithPattern "hdfs:///user/grid/*ss*" "^.*grid/[k].*$"

output:



hdfs://cluster1:9000/user/grid/kiss

hdfs://cluster1:9000/user/grid/kissyou

(完)

你可能感兴趣的:(hadoop2)

Yarn介绍 - 大数据框架 why do not 大数据 hadoop
YARN的概述YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序YARN是Hadoop2.x版本中的一个新特性。它的出现其实是为了解决第一代MapReduce编程框架的不足，提高集群环境下的资源利用率，这些资源包括内存，磁盘，网络，IO等。Hadoop2.X版本中重新设计的这个YARN集群
大数据知识总结（三）：Hadoop之Yarn重点架构原理 Lansonli 大数据大数据 hadoop 架构 Yarn
文章目录Hadoop之Yarn重点架构原理一、Yarn介绍二、Yarn架构三、Yarn任务运行流程四、Yarn三种资源调度器特点及使用场景Hadoop之Yarn重点架构原理一、Yarn介绍ApacheHadoopYarn(YetAnotherReasourceNegotiator，另一种资源协调者)是Hadoop2.x版本后使用的资源管理器，可以为上层应用提供统一的资源管理平台。二、Yarn架构Y
《Hadoop系列》Docker安装Hadoop DATA数据猿 Hadoop Docker docker hadoop
文章目录Docker安装Hadoop1安装docker1.1添加docker到yum源1.2安装docker2安装Hadoop2.1使用docker自带的hadoop安装2.2免密操作2.2.1master节点2.2.2slave1节点2.2.3slave2节点2.2.4将三个容器中的authorized_keys拷贝到本地合并2.2.5将本地authorized_keys文件分别拷贝到3个容器中
Spark整合hive（保姆级教程）万家林 spark hive spark hadoop
准备工作：1、需要安装配置好hive，如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好spark，如果不会安装可以跳转到Spark安装与配置（单机版）3、需要安装配置好Hadoop，如果不会安装可以跳转到Linux安装配置Hadoop2.6操作步骤：1、将hive的conf目录下的hive-site.xml拷贝到spark的conf目录下（也可以建立软连接）cp/opt
hadoop-yarn资源分配介绍-以及推荐常用优化参数 Winhole hadoop Linux
根据网上的学习，结合工作进行的一个整理。如果有什么不正确的欢迎大家一起交流学习~Yarn前言作为Hadoop2.x的一部分，YARN采用MapReduce中的资源管理功能并对其进行打包，以便新引擎可以使用它们。这也简化了MapReduce，使其能够做到最好，处理数据。使用YARN，您现在可以在Hadoop中运行多个应用程序，所有应用程序都共享一个公共资源管理。那资源是有限的，YARN如何识别资源并
Hadoop手把手逐级搭建第二阶段: Hadoop完全分布式(full) 郑大能
前置步骤:1).第一阶段：Hadoop单机伪分布(single)0.步骤概述1).克隆4台虚拟机2).为完全分布式配置ssh免密3).将hadoop配置修改为完全分布式4).启动完全分布式集群5).在完全分布式集群上测试wordcount程序1.克隆4台虚拟机1.1使用hadoop0克隆4台虚拟机hadoop1,hadoop2,hadoop3,hadoop41.1.0克隆虚拟机hadoop11.1
【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource 能白话的程序员♫ Spark spark
部分报错如下：Traceback(mostrecentcalllast): File"/home/cisco/spark-mongo-test.py",line7,in df=spark.read.format("com.mongodb.spark.sql.DefaultSource").load() File"/home/cisco/spark-2.4.1-bin-hadoop2.
Hadoop-Yarn-ResourceManagerHA 隔着天花板看星星 hadoop 大数据分布式
在这里先给屏幕面前的你送上祝福，祝你在未来一年：技术步步高升、薪资节节攀升，身体健健康康，家庭和和美美。一、介绍在Hadoop2.4之前，ResourceManager是YARN集群中的单点故障ResourceManagerHA是通过Active/Standby体系结构实现的，在任何时候其中一个RM都是活动的，并且一个或多个RM处于备用模式，等待在活动发生任何事情时接管。二、架构官网的架构图如下：
java大数据hadoop2.9.2 hive操作 crud-boy java大数据大数据 hive hadoop
1、创建常规数据库表（1）创建表createtablet_stu2(idint,namestring,hobbymap)rowformatdelimitedfieldsterminatedby','collectionitemsterminatedby'-'mapkeysterminatedby':';（2）创建文件student.txt1,zhangsan,唱歌:非常喜欢-跳舞:喜欢-游泳:一般
java大数据hadoop2.9.2 Flume安装&操作 crud-boy java大数据大数据 flume
1、flume安装（1）解压缩tar-xzvfapache-flume-1.9.0-bin.tar.gzrm-rfapache-flume-1.9.0-bin.tar.gzmv./apache-flume-1.9.0-bin//usr/local/flume（2）配置cd/usr/local/flume/confcp./flume-env.sh.template./flume-env.shvifl
Hadoop2.7配置不会吐丝的蜘蛛侠。 Hadoop hadoop 大数据 hdfs
core-site.xmlfs.defaultFShdfs://bigdata/ha.zookeeper.quorum192.168.56.70:2181,192.168.56.71:2181,192.168.56.72:2181-->hadoop.tmp.dir/export/data/hadoop/tmpfs.trash.interval1440io.file.buffer.size13107
现成Hadoop安装和配置，图文手把手交你叫我小唐就好了一些好玩的事 hadoop 大数据分布式课程设计运维
为了可以更加快速的可以使用Hadoop，便写了这篇文章，想尝试自己配置一下的可以参考从零开始配置Hadoop，图文手把手教你，定位错误资源1.两台已经配置好的hadoop2.xshell+Vmware链接：https://pan.baidu.com/s/1oX35G8CVCOzVqmtjdwrfzQ?pwd=3biz提取码：3biz--来自百度网盘超级会员V4的分享两台虚拟机用户名和密码均为roo
如何对HDFS进行节点内(磁盘间)数据平衡格格巫 MMQ!! hadoop hdfs hdfs hadoop 大数据
1.文档编写目的当HDFS的DataNode节点挂载多个磁盘时，往往会出现两种数据不均衡的情况：1.不同DataNode节点间数据不均衡；2.挂载数据盘的磁盘间数据不均衡。特别是这种情况：当DataNode原来是挂载了几个数据盘，当磁盘占用率很高之后，再挂载新的数据盘。由于Hadoop2.x版本并不支持HDFS的磁盘间数据均衡，因此，会造成老数据磁盘占用率很高，新挂载的数据盘几乎很空。在这种情况下
spark运维问题记录 lishengping_max Spark spark
环境：spark-2.1.0-bin-hadoop2.71.Spark启动警告：neitherspark.yarn.jarsnotspark.yarn.archiveisset，fallingbacktouploadinglibrariesunderSPARK_HOME原因：如果没设置spark.yarn.jars，每次提交到yarn，都会把$SPARK_HOME/jars打包成zip文件上传到H
大数据组件部署下载链接运维道上奔跑者大数据 zookeeper hbase kafka hadoop hive
Hadoop2.7下载连接:https://archive.apache.org/dist/hadoop/core/hadoop-2.7.6/Hive2.3.2下载连接：http://archive.apache.org/dist/hive/hive-2.3.2/Zookeeper下载连接：https://archive.apache.org/dist/zookeeper/zookeeper-3.
【大数据开发运维解决方案】Hadoop+Hive+HBase+Kylin 伪分布式安装指南运维道上奔跑者大数据 hadoop 分布式
Hadoop2.7.6+Mysql5.7+Hive2.3.2+Hbase1.4.9+Kylin2.4单机伪分布式安装文档注意：####################################################################本文档已经有了最新版本，主要改动地方为：1、zookeeper改为使用安装的外置zookeeper而非hbase自带zookeeper，新
Hadoop2.7.6+Mysql5.7+Hive2.3.2+zookeeper3.4.6+kafka2.11+Hbase1.4.9+Sqoop1.4.7+Kylin2.4单机伪分布式安装及官方案例测运维道上奔跑者分布式 hbase zookeeper hadoop
####################################################################最新消息：关于spark和Hudi的安装部署文档，本人已经写完，连接：Hadoop2.7.6+Spark2.4.4+Scala2.11.12+Hudi0.5.1单机伪分布式安装注意：本篇文章是在本人写的Hadoop+Hive+HBase+Kylin伪分布式安装指南
hadoop2.0之环境搭建详细流程 hhf_Engineer
1、在安装hadoop2.0之前，需要准备好以下软件（如下图1）图1：然后将这两个软件共享到centos上（如下图2红箭头指向和图3红箭头指向所示）在vm这上面有个虚拟机，点击虚拟机后有个硬件和选项，点选项，下面有个共享文件夹。图2：点击虚拟机那个地方图3：添加上去以后按确定按钮即可！2、为了有个集群的概念，我们把一台linux机器复制成有三份！如下图4所示：注：在复制前，必须要把linux的机器
apache hadoop 2.4.0 64bit 在windows8.1下直接安装指南（无需虚拟机和cygwin）夜魔009 技术 windows8 hadoop 64bit 库 hdfs
工作需要，要开始搞hadoop了，又是大数据，自己感觉大数据、云，只是ERP、SOAP风潮之后与智能地球一起诞生的概念炒作。不过Apache是个神奇的组织，Java如果没有它也不会现在如火中天。言归正传：首先需要下载Apachehadoop2.4.0的tar.gz包，到本地解压缩到某个盘下，注意路径里不要带空格。否则你配置文件里需要用windows8.3格式的路径！第二确保操作系统是64bit，已
docker搭建单机hadoop 阿桔是只猫大数据 hadoop docker 大数据
docker搭建单机hadoop前言一、docker是什么？二、hadoop是什么？三、使用步骤1.下载jdkhadoop2.编写Dockerfile3.构建镜像4.运行镜像5.创建客户端前言在华为云上使用docker搭建一个简单的hadoop单机环境。一、docker是什么？Docker是一个开源的应用容器引擎。开发者将需要的东西整理成镜像文件，然后再容器化这些镜像文件，容器之前相互隔离，互不影
Hadoop-生产调优(更新中) OnePandas Hadoop hadoop 大数据分布式
第1章HDFS-核心参数1.1NameNode内存生产配置1）NameNode内存计算每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？128*1024*1024*1024/150byte≈9.1亿GMBKBByte2）Hadoop2.x系列，配置NameNode内存NameNode内存默认2000m，如果内存服务器内存4G，NameNode内存可以配置3g。在ha
大数据-Hadoop概论 Mr.史 Hadoop hadoop 大数据
文章目录大数据概论1、大数据概念2、大数据特点1、Volume(大量)2、Velocity(高速)3、Variety(多样)4、Value(低价值密度)3、大数据应用场景4、大数据部门业务流程分析5、大数据部门组织机构Hadoop1、Hadoop是什么？2、Hadoop发展史3、Hadoop三大发行版本1、ApacheHadoop2、ClouderaHadoop3、HortonworksHadoo
Elk运维-Elastic7.6.1集群安装部署消逝的bug 运维 elk 数据库
集群安装结果说明实例配置安装软件安装账号hadoop12C4G磁盘：50G云服务器elasticsearchkibanardhadoop22C4G磁盘：50G云服务器elasticsearchrdhadoop32C4G磁盘：50G云服务器elasticsearchrd整个安装过程使用的账号：root、rd(自己新建的账号)安装包下载：下载包中包含esfilebeatkibanaik等相关软件链接：
记一次Flink自带jar包与第三方jar包依赖冲突解决一枚小刺猬 flink flink jar hadoop
flink版本1.14.5hadoop2.6.0为了实现flink读取hive数据写入第三方的数据库，写入数据库需要调用数据库的SDK，当前SDK依赖的protobuf-java-3.11.0.jar，guava-29.0-android.jar与flink中lib下的部分jar包冲突，flink与hadoop、hive编译的jar中使用的guava，protobuf都要低于第三方sdk，因此会遇
[SparkSQL] Rdd转化DataFrame 通过StructType为字段添加Schema 林沐之森
1、开发环境spark-2.1.0-bin-hadoop2.62、Rdd转换成DataFrame，为字段添加列信息参数nullable说明：Indicatesifvaluesofthisfieldcanbenullvaluesvalschema=StructType(List(StructField("name",StringType,nullable=false),StructField("ag
YARN 工作原理无羡爱诗诗
1、Hadoop2新增了YARN，YARN的引入主要有两个方面的变更：其一、HDFS的NameNode可以以集群的方式部署，增强了NameNode的水平扩展能力和高可靠性，水平扩展能力对应HDFSFederation，高可靠性对应HA。其二、MapReduce将Hadoop1时代的JobTracker中的资源管理及任务生命周期管理拆分成两个独立的组件，资源管理对应ResourceManager，任
Hadoop2.0架构及其运行机制，HA原理 Toner_唐纳大数据
文章目录一、Hadoop2.0架构1.架构图2.HA1)NameNode主备切换2)watcher监听3)脑裂问题3.组件1.HDFS2.MapReduce3.Yarn1.组件2.调度流程一、Hadoop2.0架构1.架构图以上是hadoop2.0的架构图，根据hadoop1.0的不足，改进而来。1.NameNode节点，由原先的一个变成两个,解决单点故障问题2.JournalNode集群，处理E
idea上搭建pyspark开发环境 jackyan163
1环境版本说明python版本：Anaconda3.6.5spark版本：spark-2.4.8-bin-hadoop2.7idea版本：2019.32环境变量配置2.1python环境变量配置将python.exe所在的目录配置到path环境变量中2.2spark环境变量配置下载spark安装包，我下载的是spark-2.4.8-bin-hadoop2.7.tgz将安装包解压到一个非中文目录配置
指导手册05：MapReduce编程入门 weixin_30655219 大数据
指导手册05：MapReduce编程入门Part1:使用Eclipse创建MapReduce工程操作系统：Centos6.8,hadoop2.6.4情景描述：因为Hadoop本身就是由Java开发的，所以通常也选用Eclipse作为MapReduce的编程工具，本小节将完成Eclipse安装，MapReduce集成环境配置。1．下载与安装Eclipse（1）在官网下载Eclipse安装包“Ecli
Hadoop-HDFS高可用隔着天花板看星星 hadoop hdfs 大数据
一、说明在我的博客中已经包含了HDFS高可用的搭建，这里描述下它的原理。原理参考官网介绍：ApacheHadoop3.3.6–HDFSHighAvailabilityUsingtheQuorumJournalManager二、背景在Hadoop2.0.0之前，NameNode是HDFS集群中的单点故障（SPOF）。每个集群只有一个NameNode，如果NameNode节点发生故障会导致整个集群不可
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那