jaguar13

用 Hadoop 进行分布式并行编程, 第 3 部分

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。在本文中，详细介绍了如何部署　Hadoop 分布式运行环境，如何让程序分布式运行于多台普通的计算机上，如何使用 IBM MapReduce Tools 轻松地将 MapReduce 程序部署到 Hadoop 分布式环境中运行等内容。

一前言

在本系列文章的第一篇：用 Hadoop 进行分布式并行编程，第 1 部分：基本概念与安装部署中，介绍了 MapReduce 计算模型，分布式文件系统 HDFS，分布式并行计算等的基本原理, 并且详细介绍了如何安装 Hadoop，如何在单机及伪分布式环境　(在一台单机中用多进程模拟)　运行基于 Hadoop 的并行程序。在本系列文章的第二篇：用 Hadoop 进行分布式并行编程，第 2 部分：程序实例与分析中，介绍了如何针对一个具体的计算任务，基于 Hadoop 编写 MapReduce 并行程序。本文将介绍真实的 Hadoop 分布式运行环境, 包括如何在多台普通的计算机上部署分布式运行环境，如何将 MapReduce 程序远程部署并运行在这个分布式环境上，并简略介绍了”云计算平台” 以及计算能力按需租用服务。

二准备工作

1. 硬件与网络

使用三台机器，机器名分别为 homer06, homer07, homer08，均安装 Redhat Enterprise Linux 5.0 (其它 Linux 发行版亦可), 确保各台机器之间网络畅通，机器名与 IP 地址之间解析正确，从任一台机器都可以　ping 通其它机器的机器名。如有机器名的解析问题，可通过设置 /etc/hosts 文件解决，当然更好的解决方法是在你的网络中配置 DNS 服务器。此外，需要在三台机器上创建相同的用户帐号，如 caoyuz, 或直接使用 root 帐号亦可。

我们将使用 homer06 作为分布式文件系统 HDFS 的 Name Node　及 MapReduce 运行过程中的 Job Tracker 结点，我们将 homer06　称之为主结点。其它两台机器 (homer07, homer08) 作为 HDFS 的 Data Node 以及 MapReduce 运行过程中的 Task Tracker 结点，这些结点可统称为从结点。如你需要部署更多的机器，也是很容易的，将新加入的机器作为 Data Node　以及 Task Tracker 结点即可，其配置过程与本文介绍的三台机器的环境类似，此不赘述。

2. SSH 配置

在 Hadoop 分布式环境中，Name Node (主节点) 需要通过 SSH 来启动和停止 Data Node (从结点)上的各类进程。我们需要保证环境中的各台机器均可以通过 SSH 登录访问，并且 Name Node 用 SSH 登录 Data Node 时，不需要输入密码，这样 Name Node 才能在后台自如地控制其它结点。可以将各台机器上的 SSH 配置为使用无密码公钥认证方式来实现。

现在流行的各类 Linux 发行版一般都安装了 SSH　协议的开源实现 OpenSSH, 并且已经启动了 SSH 服务, 即这些机器缺省应该就是支持 SSH 登录的。如果你的机器缺省不支持 SSH, 请下载安装 OpenSSH。

以下是配置 SSH 的无密码公钥认证的过程。首先，在 homer06 机器上执行命令，如代码清单 1 所示：

代码清单1

                
homer06: $ ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/home/caoyuz/.ssh/id_rsa):  
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /home/caoyuz/.ssh/id_rsa.
Your public key has been saved in /home/caoyuz/.ssh/id_rsa.pub.
The key fingerprint is:
2e:57:e2:bf:fd:d4:45:5c:a7:51:3d:f1:51:3c:69:68 root@krusty04

这个命令将为 homer06 上的当前用户 caoyuz 生成其密钥对，密钥对的保存路径使用缺省的 /home/caoyuz/.ssh/id_rsa, 要求输入 passphrase 的时候，直接回车。这样生成的证书以及公钥将存储在 /home/caoyuz/.ssh 目录，形成两个文件 id_rsa，id_rsa.pub。然后将 id_rsa.pub 文件的内容复制到每一台机器(包括本机 homer06)的　 /home/caoyuz/.ssh/authorized_keys　文件的尾部，如果机器上不存在　/home/caoyuz/.ssh/authorized_keys 文件，可以自行创建一个。请注意 id_rsa.pub 文件的内容是长长的一行，复制时需注意，不要遗漏字符或混入了多余换行符。

接下来可以做一下 SSH 连接测试，从 homer06 分别向 homer06, homer07, homer08 发起 SSH 连接请求，确保不需要输入密码就能 SSH 连接成功。注意第一次 SSH 连接时会出现如下提示信息：

The authenticity of host [homer06] can't be established. The key fingerprint is: 74:32:91:f2:9c:dc:2e:80:48:73:d4:53:ab:e4:d3:1a Are you sure you want to continue connecting (yes/no)?

请输入 yes, 这样 OpenSSH 会把连接过来的这台主机的信息自动加到 /home/caoyuz/.ssh/know_hosts 文件中去，第二次再连接时，就不会有这样的提示信息了。

三安装部署 Hadoop

1. 安装 Hadoop 及 jre1.5

我们首先在主控结点 homer06 上安装和配置好 Hadoop，安装过程可以参考本系列文章的第一篇。假定我们把 Hadoop 安装在 /home/caoyuz/hadoop-0.16.0目录中，并且 JRE 1.5 安装在 /home/caoyuz/jre 目录下。

2. 修改 conf/hadoop-env.sh 文件

在其中设置 JAVA_HOME 环境变量：export JAVA_HOME=”/home/caoyuz/jre”

3. 修改 conf/hadoop-site.xml 文件

在本系列文章的第一篇中，我们通过修改此文件，配置了 Hadoop 的伪分布式运行模式。现在，我们同样可以通过配置此文件，配置 Hadoop 的真实的分布式运行环境。请参照代码清单 2 修改 conf/hadoop-site.xml：

代码清单2

                



fs.default.name
homer06.austin.ibm.com:9000
The name of the default file system. Either the literal string 
"local" or a host:port for DFS.


mapred.job.tracker
homer06.austin.ibm.com:9001
The host and port that the MapReduce job tracker runs at. If 
"local", then jobs are run in-process as a single map and reduce task.

dfs.name.dir
/home/caoyuz/hadoopfs/name
Determines where on the local filesystem the DFS name node 
should store the name table. If this is a comma-delimited list of directories 
then the name table is replicated in all of the directories, 
for redundancy. 


dfs.data.dir
/home/caoyuz/hadoopfs/data
Determines where on the local filesystem an DFS data node 
should store its blocks. If this is a comma-delimited list of directories, 
then data will be stored in all named directories, typically on different devices. 
Directories that do not exist are ignored.


dfs.replication
2
Default block replication. The actual number of replications 
can be specified when the file is created. The default is used if replication 
is not specified in create time.

参数 fs.default.name 指定 Name Node 的 IP 地址和端口号，此处我们将其设定为 homer06 及 9000 端口，参数 mapred.job.tracker 指定 JobTracker 的 IP 地址和端口号，此处我们将其设定为 homer06 及 9001 端口。参数 dfs.name.dir 指定 Name Node 相关数据在本地文件系统上的存放位置, 此处我们将其设定为 /home/caoyuz/hadoopfs/name ,参数 dfs.data.dir 指定 Data Node 相关数据在本地文件系统上的存放位置，此处我们将其设定为 /home/caoyuz/hadoopfs/data 。注意, Hadoop 会自动创建这两个目录，无需事先创建。

更多的参数配置，可以参考 conf/hadoop-default.xml 文件，并在 conf/hadoop-site.xml 文件中设置。

4. 设定主从节点

修改 conf/masters 文件，将其中的 localhost 改为 homer06 ,修改 conf/slaves 文件, 删掉其中的 localhost, 将我们的另两台机器 homer07, homer08 加入, 注意每个机器一行。

5. 将 Hadoop 部署到其它机器上去

至此, 我们已经在 homer06 上安装和配置好了 hadoop 和 jre, 现在需要将其部署到其它机器上去，通过 scp 命令即可完成，如代码清单 3 所示:

代码清单3

                
homer06: $ scp -r /home/caoyuz/hadoop-0.16.0 homer07:/home/caoyuz/hadoop-0.16.0
homer06: $ scp -r /home/caoyuz/jre homer07:/home/caoyuz/jre
homer06: $ scp -r /home/caoyuz/hadoop-0.16.0 homer08:/home/caoyuz/hadoop-0.16.0
homer06: $ scp -r /home/caoyuz/jre homer08:/home/caoyuz/jre

其中用 scp 拷贝 jre 目录到其它机器上去不是必须的。你只需保证你的所有机器上均安装了 JRE1.5 以上版本，并且都是安装在同一目录。

6. 在 homer06 上格式化一个新的分布式文件系统

如代码清单 4 所示:

代码清单4

                
homer06: $ cd /home/caoyuz/hadoop-0.16.0
homer06: $ bin/hadoop namenode -format

7. 在 homer06 上启动 hadoop 进程

如代码清单5所示:

代码清单5

                
homer06: $ cd /home/caoyuz/hadoop-0.16.0
homer06: $ bin/start-all.sh

启动完成之后，运行 ps -ef 命令应该可以看到 homer06 上启动了 3 个新的 java 进程 (namenode, secondary namenode, jobtracker), 同时，我们可以到 homer07, homer08 两台机器上用 ps –ef 查看，这两台机器上应该已经自动启动了 2 个新的 java 进程 (datanode, tasktracker)

四运行 Hadoop 程序

至此，整个 Hadoop 分布式环境已经部署完毕，并已启动相关后台进程。现在我们可以尝试运行一下我们在第二篇文章中介绍的 wordcount 程序，如代码清单 6 所示：

代码清单 6

                
homer06: $ mkdir -p /home/test-in
# 请先将待测的文件放到本地文件系统的/home/test-in目录
homer06: $ cd /home/caoyuz/hadoop-0.16.0
homer06: $ bin/hadoop dfs –put /home/test-in input  
# 将本地文件系统上的 /home/test-in 目录拷到 HDFS 的根目录上，目录名改为 input
$ bin/hadoop jar hadoop-0.16.0-examples.jar wordcount input output
#查看执行结果:
# 将文件从 HDFS 拷到本地文件系统中再查看：
$ bin/hadoop dfs -get output output 
$ cat output/*
# 也可以直接查看
$ bin/hadoop dfs -cat output/*

代码清单 6 所示的执行 wordcount 程序的过程，与我们在第一篇文章中介绍的在伪分布式运行环境运行完全一致，但我们现在拥有了一个真正的分布式执行环境，我们的数据分布存储于数据节点 homer07 及 homer08 上，可以在这两台机器的 /home/caoyuz/hadoopfs/data 目录 (这是我们在 conf/hadoop-site.xml 中指定的 dfs.data.dir 参数) 下看到一些数据文件，并且整个 wordcount 的计算过程神奇地由 homer06, homer07, homer08 三台机器并行协同完成，我们还可以很方便的增加更多的机器来参与运算。这就是分布式并行程序的优势: 可以很容易地通过加入新的机器来获得更多的存储空间和计算能力, 部署的机器越多, 就越能有效地完成海量数据的计算。

五使用 IBM MapReduce Tools 部署分布式程序

在第二篇文章中，已经介绍了 IBM MapReduce Tools 的基本功能和用法。现在我们重点介绍如何使用 IBM MapReduce Tools 将 MapReduce 程序远程部署到 Hadoop 分布式环境中去运行。

假定我们还是使用上一节部署完成的分布式环境，然后是在另一台机器上使用 Eclipse 开发 MapReduce 程序。

1. 定义 Hadoop server 的位置

首先请确保你的 Eclipse 已经安装了 IBM MapReduce Tools 这个插件。启动 Eclipse, 选择 Window -> Open Perspective ->other, 再从弹出框中选择 MapReduce, 这样 Eclipse 会进入专门的 MapReduce 视图 ( perspective )。

随后，请检查你的 MapReduce perspective中是否有一个专门的 MapReduce Servers view, 如果没有，请选择 Window -> Show View ->other, 再从弹出框中选择 MapReduce Tools 类别下面的 MapReduce Servers, 打开这个 view.

然后，请点击　MapReduce Servers view 右上角的蓝色图标，就会出现如图一所示的设置 Hadoop Server 的位置的界面。此处所说的 Hadoop server，具体到本文，就是 homer06 这台机器。在输入各项参数之后，请点击 ”Validate location” 按钮，检查是否能够正确的找到并连接上你的 Hadoop server. 如果出错，请尝试在命令行下执行命令：ssh the_hostname_of_your_hadoop_server, (或使用图形界面的 SSH 远程登录软件), 确保 ssh 能够连接成功。

图一定义 Hadoop server 的位置

2. 创立一个 MapReduce Project

在 Eclipse 中新创建一个 MapReduce Project, 将我们在第二篇文章中定义的 WordCount 类加到此 Project 中。这个类需要略作修改才能直接远程部署到我们已经搭建好的分布式环境中去运行，因为我们原来在　WordCount　程序中是通过读取命令行参数获得计算任务的输入路径和输出路径，而当前版本的 IBM MapReduce Tools 不支持远程部署时读取命令行参数。为测试的简便起见，我在程序中直接将输入路径定义为 input, 输出路径定义为 output。在测试 WordCount 程序之前，需要事先将需要做词频统计的一批文件拷贝到分布式文件系统的 input 目录下去。

完整的 WordCount 类的代码如代码清单 7 所示：

代码清单7

                
//import 语句省略
public class WordCount extends Configured implements Tool {
 
  public static class MapClass extends MapReduceBase
    implements Mapper {
    
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
    private String pattern="[^//w]";
    public void map(LongWritable key, Text value, 
                    OutputCollector output, 
                    Reporter reporter) throws IOException {
      String line = value.toString().toLowerCase();
      line = line.replaceAll(pattern, " ");
      StringTokenizer itr = new StringTokenizer(line);
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
        output.collect(word, one);
      }
    }
  }
  
  public static class Reduce extends MapReduceBase
    implements Reducer {
    
    public void reduce(Text key, Iterator values,
                       OutputCollector output, 
                       Reporter reporter) throws IOException {
      int sum = 0;
      while (values.hasNext()) {
        sum += values.next().get();
      }
      output.collect(key, new IntWritable(sum));
    }
  }
    
  public int run(String[] args) throws Exception {
    
    Path tempDir = new Path("wordcount-temp-" + 
       Integer.toString(new Random().nextInt(Integer.MAX_VALUE)));

        JobConf conf = new JobConf(getConf(), WordCount.class);
        try {
            conf.setJobName("wordcount");

            conf.setOutputKeyClass(Text.class);
            conf.setOutputValueClass(IntWritable.class);

            conf.setMapperClass(MapClass.class);
            conf.setCombinerClass(Reduce.class);
            conf.setReducerClass(Reduce.class);

            conf.setInputPath(new Path(args[0]));
            conf.setOutputPath(tempDir);
            
            conf.setOutputFormat(SequenceFileOutputFormat.class);
            
            JobClient.runJob(conf);

            JobConf sortJob = new JobConf(getConf(), WordCount.class);
            sortJob.setJobName("sort");

            sortJob.setInputPath(tempDir);
            sortJob.setInputFormat(SequenceFileInputFormat.class);

            sortJob.setMapperClass(InverseMapper.class);
                   
            sortJob.setNumReduceTasks(1); 
            sortJob.setOutputPath(new Path(args[1]));
            sortJob.setOutputKeyClass(IntWritable.class);
            sortJob.setOutputValueClass(Text.class);
            
            sortJob.setOutputKeyComparatorClass(IntWritableDecreasingComparator.class);
            JobClient.runJob(sortJob);
        } finally {
            FileSystem.get(conf).delete(tempDir);
        }
    return 0;
  }
  
  private static class IntWritableDecreasingComparator extends IntWritable.Comparator {
           
      public int compare(WritableComparable a, WritableComparable b) {
        return -super.compare(a, b);
      }
      
      public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
          return -super.compare(b1, s1, l1, b2, s2, l2);
      }
  }
    
  public static void main(String[] args) throws Exception {
    
    String[] paths = {"input" , "output"};
    int res = ToolRunner.run(new Configuration(), new WordCount(), paths);
    System.exit(res);
  }
}

3. 远程部署与运行

在左侧的 Project Explorer 中选中 WordCount 类，在右键弹出菜单中选择 Run As->Run on hadoop, 如图二所示：

图二

然后在 “select hadoop server” 弹出框中选择我们已经定义好的 Hadoop server, 点击 Finish 之后，MapReduce Tool 会自动将 WordCount project打包成一个 jar 并拷到远程 Hadoop server 上运行起来, 整个运行过程的输出在 Eclipse 的 console 中即可看到，非常方便。

4. 查看运行结果

当定义好 Hadoop server 的位置之后，在左侧的 Project Explorer 会出现一个新的 project( 项目名前面有一个蓝色的小象图标), , 通过这个 project 可以浏览 Hadoop 分布式文件系统中的文件。双击 output 目录下的 part-0000 文件，我们就可以直接在 Eclipse 中查看 WordCount 程序的输出结果，如图三所示：

图三

六云计算与 Hadoop

我们知道，在分布式集群环境中才能发挥 Hadoop 的并行优势，拥有的机器数量越多，越能快速有效的处理海量数据。现实问题是，虽然很多公司都有处理海量数据的需求，却又不可能专门投资去搭建大规模的集群环境，Hadoop 于他们，不免沦为”屠龙之技”，无处发挥其优势，如之奈何？在过去，这个问题还真是难以解决，今天的情况就不一样了。读者如果关注 IT 业界动态，当知现在 IT 业界正在极力鼓吹”云计算”, 并有一些公司开始投资搭建所谓的”云计算平台”，这里的”云”, 就是一堆机器组成的分布式环境外加一些基础构架软件和管理软件，其中便会有类似于 Hadoop 这样的分布式计算软件，HDFS 这样的分布式文件系统，有需求的公司和个人可以到这样的”云计算平台”上去租用存储空间，租用计算结点(计算能力)做分布式运算。

比如 Amazon 公司基于 Hadoop 推出了 Amazon S3 ( Amazon Simple Storage Service )，提供可靠，快速，可扩展的网络存储服务，以及一个商用的云计算平台 Amazon EC2 ( Amazon Elastic Compute Cloud )。用户可以将其数据存储在 Amazon S3 分布式存储平台上，然后到 Amazon EC2 上去租用计算能力，完成对数据的计算。Amazon EC2 提供所谓的按需租用服务，目前的收费标准是每台虚拟计算机 (Amazon EC2 称之为一个 instance) 每小时0.10美元。与传统的主机租用服务完全不同，用户可以根据自己某次运算处理的规模，租用相应数量的虚拟计算机，运算完毕后就可以释放你租用的虚拟计算机，Amazon 则会根据你租用的虚拟计算机的数量以及本次计算的实际运行时间向你收费，等于说你花钱租用计算能力，但不会浪费一个子儿。IBM 公司的云计算平台"蓝云"也面向企业用户提供了类似的功能。

如果我们打算基于 Hadoop 编写分布式并行程序来处理大量的数据，完全可以到 IBM, Amazon 等提供的云计算平台上去进行计算，对于 IBM 蓝云，Amazon S3, Amazon EC2 的详细介绍超出了本文范围，有兴趣的读者可以去其官方网站了解更多的信息。

七结束语

这是系列文章的最后一篇。第一篇文章介绍了 MapReduce 计算模型，分布式文件系统 HDFS，分布式并行计算等的基本原理, 如何安装和部署单机 Hadoop 环境, 在第二篇文章中，我们实际编写了一个 Hadoop 并行计算程序，并了解了一些重要的编程细节，了解了如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译，运行和调试 Hadoop 并行计算程序。本篇文章则详细介绍了如何部署分布式 Hadoop 环境，如何利用 IBM MapReduce Tools 将程序部署到分布式环境中运行，并简略介绍了现在流行的”云计算平台” 以及计算能力按需租用服务。

希望这三篇文章能起到一个抛砖引玉的作用，让你感受到 MapReduce 分布式并行编程的乐趣并从此入门且乐在其中，为即将到来的所谓”云计算”时代提前热热身。

Kotlin介绍江上清风山间明月 Android kotlin 开发语言 android
文章目录1.Kotlin是什么？（身份介绍）2.Kotlin为什么受欢迎？（核心魅力-四大亮点）3.Kotlin看起来什么样？（一瞥语法）4.学习Kotlin能做什么？（应用场景）5.给0基础学习者的建议总结一下Kotlin给你的印象1.Kotlin是什么？（身份介绍）一句话定义：Kotlin是一种现代的、简洁的、安全的、实用的编程语言。谁创造的？一家叫JetBrains的公司（他们做了很多程序员
C++ 类的定义与构造 / 析构函数解析 Cherl. C++c++开发语言类
目录1.C++类的基本定义示例代码：解析：2.构造函数（Constructor）构造函数的特点:示例代码：3.析构函数（Destructor）析构函数的特点:示例代码：4.构造函数与析构函数的对比5.总结C++作为一种面向对象的编程语言，类是其核心特性之一。类不仅定义了对象的属性和行为，还通过构造函数和析构函数管理对象的生命周期。本文将深入探讨C++类的基本定义以及两个特殊成员函数的工作机制。1.
【编程技术】进程、线程、协程介绍晴雨日记编程技术开发语言
文章目录1.进程2.线程3.协程对比总结表总结1.进程定义：进程是程序的一次执行过程，是操作系统进行资源分配和调度的基本单位。当一个程序被加载到内存中并开始执行时，它就变成了一个进程。核心特性：独立性：每个进程都拥有自己独立的地址空间（内存空间）、数据段、堆栈、文件描述符、环境变量、程序计数器等。一个进程崩溃通常不会直接影响其他进程（除非通过特定机制通信）。资源拥有者：进程是系统资源（CPU时间、
Java并发必知必会：核心概念深度梳理与实战要点（二）码不停蹄的玄黓 java spring boot spring cloud spring jvm
1.Java中的synchronized关键字深度解析synchronized是Java并发编程中最核心的同步机制，通过内置锁实现线程安全。它在解决数据竞争、内存可见性和操作原子性问题上是不可或缺的。以下从七个维度全面剖析：1.1底层实现原理：监视器锁（Monitor）1.1.1对象头关联每个Java对象内置一个Monitor监视器锁（存储于对象头的MarkWord中）//使用jol-core查看
【TypeScript学习笔记】TypeScript 核心知识点 Zaly. Vue学习笔记 typescript 学习笔记
目录前言TypeScript核心概念基本类型与高级类型常用内置工具类型类型断言与类型守卫TypeScript在Vue3中的应用Vue3中TypeScript的作用范围Props和Emits的类型定义CompositionAPI中的类型支持前言TypeScript是微软开发的一个开源的编程语言，通过在JavaScript的基础上添加静态类型定义构建而成。TypeScript通过TypeScript编
关于猫头虎，认识猫头虎，建联猫头虎，商务合作，产品评测，产品推广，个人自媒体创作，超级个体，涨粉秘籍，一起探索编程世界的无限可能！猫头虎猫头虎精品博客专栏 CSDN开发云人机交互交互程序人生程序员创富创业创新学习方法
猫头虎建联猫头虎，商务合作，产品评测，产品推广，个人自媒体创作，超级个体，涨粉秘籍，一起探索编程世界的无限可能！猫头虎是谁？大家好，我是猫头虎，别名猫头虎博主，擅长的技术领域包括云原生、前端、后端、运维和AI。我的博客主要分享技术教程、bug解决思路、开发工具教程、前沿科技资讯、产品评测图文、产品使用体验图文、产品优点推广文稿、产品横测对比文稿，以及线下技术沙龙活动参会体验文稿。内容涵盖云服务产品
Java 并发编程深度解析：从线程基础到高并发实战 yy鹈鹕灌顶 java jvm 开发语言
一、并发编程核心概念1.1进程与线程进程：操作系统资源分配的基本单位，每个进程拥有独立的内存空间和系统资源。线程：CPU调度的最小单位，共享所属进程的资源，线程间切换成本低于进程。协程（Loom项目）：JDK19+引入的轻量级线程，基于用户态调度，可大幅降低高并发场景下的线程开销（目前为预览特性）。1.2Java线程生命周期Java线程状态包括以下六种：状态描述触发条件NEW新建状态，尚未启动ne
全国青少年软件编程(Python)等级考试四级考试真题2024年3月——持续更新..... owbc_ 电子学会（python）三四级考试真题及答案（持续更新）python 算法开发语言青少年编程
青少年软件编程（Python）等级考试试卷（四级）分数：100题数：38一、单选题(共25题，共50分)1.运行如下代码，若输入整数3，则最终输出的结果为？（）deff(x):ifx==1:s=1else:s=f(x-1)*xreturnsn=int(input(“请输入一个大于1的整数：”))print(f(n)+f(n-1))A.2B.4C.8D.16标准答案：C试题解析：由于f(3)=f(2
【亲测免费】 PyPandoc 项目常见问题解决方案
PyPandoc项目常见问题解决方案基础介绍PyPandoc是一个为Pandoc提供的Python薄壳包装器。Pandoc是一个通用的文档转换工具，能够将标记格式的文档转换为多种格式。PyPandoc主要使用Python编程语言，旨在简化Pandoc在Python项目中的使用。新手常见问题及解决步骤问题1：如何安装PyPandoc问题描述：新手在使用PyPandoc时，首先需要了解如何正确安装。解
青少年人工智能Python编程水平测试四级模拟试卷9 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法数据结构排序算法
1、以下选项中，说法正确的是？（）A、条件1and条件2，表示条件满足其中1个即可B、条件1or条件2，表示2个条件需要同时满足C、and和or不能在一个条件表达式中同时使用D、andor一般和if语句搭配使用正确答案：D试题解析：and是逻辑与，同时满足结果才满足；or是逻辑或，满足一个结果就是满足；
青少年人工智能Python编程水平测试四级模拟试卷5 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法推荐算法
【单选题】（每题2分）1、运行下列代码后，输入4，输出的结果是？（）num_1=input()num_2="3"print(num_1+num_2)A、7B
HAL STM32 I2C方式读取MT6701磁编码器获取角度例程 perseverance52 嵌入式开发笔记 stm32 MT6701
HALSTM32I2C方式读取MT6701磁编码器获取角度例程相关篇《Arduino通过I2C驱动MT6701磁编码器并读取角度数据》《STM32软件I2C方式读取MT6701磁编码器获取角度例程》使用CH341编程器读取，可以参考《CH341A/BUSB转USART/I2C/SPI介绍》MT6701当前最新文档资料：https://www.magntek.com.cn/upload/MT6701
2023-08-21 de5ea6d11ab2
易佳npdp学习笔记NPDP（NewProductDevelopmentProfessional）是产品经理国际资格认证。NPDP由美国产品开发与管理协会（PDMA）所发起，是国际公认的唯一的新产品开发专业认证，集理论、方法与实践为一体的全方位知识体系，为公司组织层级进行规划、决策、执行提供良好的方法体系支撑。经IBM采用后来被华为公司引入并取得巨大商业成功的IPD（IntegratedProdu
Java String 正则表达式设计模式包装类 Object类自动拆箱额么么么么 java 正则表达式设计模式
其它API（ApplicationProgramingInterface）应用程序接口（功能）,我们java讲解最常用的一些功能。API作用：API表示的是功能,学习API可以快速进行编程开发。API设计初衷,设计者将复杂的业务逻辑,封装成方法,供调用者更好的使用。对于开发者而言,不需要关注功能的具体逻辑实现,只需要知道如何使用即可。Java提供了很多的包,有一些包需要导入，有一些不需要导入:1.
第5天-代码画笔下的奇幻艺术世界速易达网络青少年编程课程人工智能
一个融合编程思维与艺术创作的沉浸式绘画工具项目亮点当Scratch积木变成画笔：用编程逻辑创作视觉艺术零基础双启蒙：同时培养编程思维与艺术创造力AI魔法实验室：智能生成创意绘画模板元宇宙画廊：3D虚拟展厅展示数字作品核心功能设计1.积木调色板（BlockPalette）积木类型功能说明艺术效果示例运动画笔移动/旋转/缩放路径分形几何图案色彩实验室RGB调色盘+渐变生成器
ffmpeg音视频开发实战6，flutter开源项目商业化 2401_84408734 程序员 ffmpeg flutter 开源
正文Java集合：使用场景、源码阅读GC机制虚拟机对象内存分配要学好Android，必须要有扎实的Java基础（当然，现在还有Kotlin）。这里只列出了四点，但Java的体系非常庞大，重难点当然不只这些，列出来的是在实际项目和面试中常用或常见的。Android常用/重要类ActivityHandlerHandlerThreadAsyncTaskBinderAndroid这几个类在编程时是比较高频
Python训练营Day2 linaloos python 开发语言
学习内容：在完成第一天任务后，你已经具备执行简单Python代码的能力了，只要有人给你提供正确的代码，你都能够执行。但是离看懂上面AI提供的代码还有一段举例，你需要掌握一些基础内容。编程语言中为什么要使用变量Python中如何定义变量，变量的命名有什么规则编程语言中，逻辑控制的三大支柱是什么Python中数字类型和字符串类型有什么区别Python中还有哪些类型。有些问题需要思考如何进行增删改查，所
树莓派i2c通信C语言,基于I2C的STM32与树莓派通信茶话股经树莓派i2c通信C语言
传统的串口通信会丢失数据，不可靠，故采用I2C(同步串行总线)通信。树莓派上使用python脚本，后期将使用c或java重写，目前没有需求。树莓派作主机(Master)，stm32作从机(Slave)。特别需要注意的是，I2C的通信虽然只需要两根线就能通信，但是需要第三根线接地GND(提供判断低电位的能力)，否则不能正常识别stm32从机使用ArduinoIDE编程以下是STM32的代码：#inc
SPI机制详解
SPI机制名称是“服务提供接口”，网上的解释其用途主要是用于解耦，通俗讲，它的作用就是寻找接口的实现类，wq可以认为是A调用B中的一个特殊的调用方式而已，也就是说一种特殊的服务发现机制。网上有句话说的很多，它解耦解的是让接口和实现类完全分离，谁想去实现它可以去实现，我业务层一样可以无感的使用这些实现类。这个的特点就是面向接口编程，模块之间不对实现类进行硬编码。SPI用到的设计模式是桥接模式。注意它
Python编程：从入门到实践 YC运维 Python_study python 学习开发语言
这是基于《Python编程：从入门到实践》这本书以一个初学者的视角去学习而记录的笔记，浓缩了精华的部分以及分享了一些我自己的见解。做这个既是为了让自己边学边记录也是为了保留自己的问题去和小伙伴一起谈论。一，python是什么以及核心作用Python是一种高级、解释型、面向对象的编程语言，由荷兰人GuidovanRossum于1989年圣诞节期间创建，第一个公开发行版发行于1991年。它的设计哲学强
华锐云空间平台：开启数字化创新体验新时代 ykjhr_3d VR实训 3D虚拟展厅 3D数字捏脸
（一）3D虚拟展厅搭建，轻松打造独特展示空间华锐云空间平台的3D虚拟展厅搭建功能堪称一绝，为用户提供了超过500个丰富多样的展厅模板，这些模板涵盖了各种风格与主题，无论是科技感十足的现代风，还是充满艺术氛围的文艺风，亦或是庄严肃穆的商务风，都能在这里找到。即使你是毫无技术背景的小白，也能轻松上手。平台采用了简单便捷的拖拽式编辑方式，无需掌握复杂的编程技能，只需通过简单的拖拽操作，就能随心所欲地添加
Netflix DGS 框架项目推荐
NetflixDGS框架项目推荐项目基础介绍和主要编程语言NetflixDGS框架是一个专为SpringBoot设计的GraphQL服务器框架，旨在简化Java开发者在SpringBoot环境中构建GraphQL服务的流程。该项目主要使用Java和Kotlin作为编程语言，充分利用了SpringBoot的强大功能和生态系统。项目核心功能NetflixDGS框架提供了丰富的功能，帮助开发者快速构建和
Netflix DGS 框架常见问题解决方案颜虹笛
NetflixDGS框架常见问题解决方案项目基础介绍NetflixDGS框架（DomainGraphService）是一个基于SpringBoot的GraphQL开发框架，专为Java开发者设计。它简化了在SpringBoot应用中集成GraphQL的过程，提供了丰富的功能和工具，帮助开发者快速构建和维护GraphQL服务。主要的编程语言是Java，框架依赖于SpringBoot和GraphQL技
事务注解可能失效的几种可能原因 ℡余晖^ 黑马点评项目相关问题和笔记 java jvm 开发语言
在黑马点评项目的学习过程中，我遇到了事务失效的问题，其中提到了事务失效的可能原因，本文就来简单了解一下事务实现的可能原因是什么。Spring事务的生效机制、自调用失效原因及常见失效场景，可从以下维度详细解析：一、Spring如何确保事务生效？Spring事务的核心实现依赖AOP（面向切面编程）和动态代理，其核心流程如下：1.代理对象的生成Spring通过@Transactional注解标记需要事务
ubuntu 如何连接gitlab ZPC8210 code 部署 ubuntu gitlab linux
在Ubuntu上连接GitLab主要有以下几种方式，具体取决于你的需求和环境：1.通过SSH连接GitLab如果你需要通过SSH方式连接GitLab，可以按照以下步骤操作：生成SSH密钥在终端中运行以下命令生成SSH密钥：bash复制ssh-keygen-trsa-C"[email protected]"按照提示操作，完成后会在~/.ssh目录下生成id_rsa和id_rsa.pub两个
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
Flutter GetX 模板项目常见问题解决方案
FlutterGetX模板项目常见问题解决方案项目基础介绍FlutterGetX模板项目是一个基于Flutter框架的开源项目，旨在为开发者提供一个快速启动Flutter应用的模板。该项目使用了GetX包进行状态管理、路由和依赖注入，并采用了MVVM（Model-View-ViewModel）架构模式。主要的编程语言是Dart，这是Flutter框架的官方编程语言。新手使用注意事项及解决方案1.环
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

用 Hadoop 进行分布式并行编程, 第 3 部分

你可能感兴趣的:(Hadoop,hadoop,编程,mapreduce,ibm,eclipse,ssh)