Sunny蔬菜小柠

（图文详细）云计算与大数据实训作业答案（之篇三HDFS和MapReduce实训）

- HDFS和MapReduce实训
  - - 第1关：WordCount词频统计
    - 第2关：HDFS文件读写
    - 第3关：倒排索引
    - 第4关：网页排序——PageRank算法

HDFS和MapReduce实训

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，可以在不了解分布式底层细节的情况下，开发分布式程序，以满足在低性能的集群上实现对高容错，高并发的大数据集的高速运算和存储的需要。Hadoop支持超大文件（可达PB级），能够检测和快速应对硬件故障、支持流式数据访问、同时在简化的一致性模型的基础上保证了高容错性。因而被大规模部署在分布式系统中，应用十分广泛。

本实训的主要目标是让大家学习Hadoop的基本概念如MapReduce、HDFS等，并掌握Hadoop的基本操作，主要包括MapReduce编程（词频统计）、HDFS文件流读取操作、MapReduce迭代等。通过本次实训，建立起对Hadoop云计算的初步了解，后续大家可以通过进阶学习来深入学习Hadoop内部实现机制进行高级的应用开发。

第1关：WordCount词频统计

本关任务

词频统计是最能体现MapReduce思想的程序，结构简单，上手容易。

词频统计的大致功能是：统计单个或者多个文本文件中每个单词出现的次数，并将每个单词及其出现频率按照键值对的形式输出，其基本执行流程如下图所示：

由图可知：

输入文本（可以不只一个），按行提取文本文档的单词，形成行 ⟨k1,v1⟩ 键值对具体形式很多，例如 ⟨行数，字符偏移⟩ 等；
通过Spliting将 ⟨k1，v1⟩ 细化为单词键值对 ⟨k2，v2⟩ ；
Map分发到各个节点，同时将 ⟨k2，v2⟩ 归结为list( ⟨k2，v2⟩ )；
在进行计算统计前，先用Shuffing将相同主键k2归结在一起形成 ⟨k2，list(v2)⟩ ；
Reduce阶段直接对 ⟨k2，list(v2)⟩ 进行合计得到list ⟨(k3,v3)⟩ 并将结果返回主节点。

主节点对预设文本文档进行词频统计，并将最终结果输出。

注：输入和输出事先已经预定，只要比较输出是否达到预期即可判断是否达到要求。

**相关知识** `MapReduce`采用”分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题。将处理过程高度抽象为两个函数：map和reduce。 > map 负责把任务分解成多个任务； reduce 负责把分解后多任务处理的结果汇总起来。

注：MapReduce处理的数据集必须可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。不是关系型数据库，而是结构化的。

**map处理阶段** 对于给定的待处理文本文档，其map阶段的处理如下：

通过Text对象，获取文本文档的内容。
逐行处理文档，将单词提取出来。
每个单词为key，对应的value设为1，将 ⟨k2,v2⟩ 对输出。
1. **关键性说明：**
  - map阶段的处理，主要是如何对文本进行逐行的单词分割，从而获取单词，以及将键值对分发到各个节点（此处由hadoop隐性提供，用户先不必关心hdfs存储过程）。
  - 可以参考的单词分割提取代码模板如下：

 public void map(Object key,Text value,Context context)throws IOException,InterruptedException
    {
        //对文本内容对象value进行分割
        StringTokenizer itr=new StringTokenizer(valu e.toString());    
        while(itr.hasMoreTokens()) {
            String word=itr.nextToken();/*获取分割好的单词*/
            /*
            可以在该循环体中，使用获取好的单词word变量进行key和value的设定。
            */
        }
    }

**reduce处理阶段** 在`Wordcount的reduce`阶段，主要是将每个单词的数量统计出来，包括：

在各个节点并行循环统计每个单词出现的次数。
将各个节点的结果汇总以list( ⟨k3,v3⟩ )的形式输出。

reduce函数参考模板：

  public void reduce(Object key,Iterable values,Context context)throws IOException, InterruptedException
    {
        int count=0;
        for(IntWritable itr:vlaues)
        {
            count+=itr.get();  /*循环统计*/
        }
        /*统计完成后，将结果输出.....*/
    }

编程要求

本关的编程任务是补全右侧代码片段中map和reduce函数中的代码，具体要求及说明如下：

在主函数main中已初始化 hadoop 的系统设置，包括hadoop运行环境的连接。
在main函数中，已经设置好了待处理文档路径（即input），以及结果输出路径（即output）。
在main函数中，已经声明了job对象，程序运行的工作调度已经设定好。
本关只要求在map和reduce函数的指定区域进行代码编写，其他区域请勿改动。

测试说明

以下是测试样例：

测试输入样例数据集：文本文档 test1.txt 和 test2.txt

文档test1.txt中的内容为：
tale as old as time
true as it can be
beauty and the beast

文档test2.txt中的内容为：

ever just the same
ever as before
beauty and the beast

预期输出result.txt文档中的内容为：
and 2
as 4
beast 2
beauty 2
before 1
can 1
ever 2
it 1
just 1
old 1
same 1
tale 1
the 3
time 1
true 1

注：由于启动服务、编译等耗时，以及MapReduce过程资源消耗较大，评测时间较长（30s左右）！

请耐心等待！相信自己！通往成功的路上不会太久！

建议完成本关后尝试在本机上根据相关指导搭建环境运行程序，这样理解更深刻！

合抱之木，生于毫末；九层之台，起于累土！复杂源于简单，要想铸就高楼大厦必须打牢基础！

开始你的任务吧，祝你成功！

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {
    /*
    * MapReduceBase类:实现Mapper和Reducer接口的基类    
    * Mapper接口： 
    * WritableComparable接口：实现WritableComparable的类可以相互比较。所有被用作key的类要实现此接口。    
    */  
  public static class TokenizerMapper 
       extends Mapper<Object, Text, Text, IntWritable>{
    /*
    *LongWritable,IntWritable,Text是Hadoop中实现的用于封装Java数据类型的类，这些类实现了WritableComparable接口，
    *都能够被串行化，便于在分布式环境中进行数据交换，可以视为long,int,String数据类型的替代。
    */
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();//Text实现了BinaryComparable类，可以作为key值

    /*
    * Mapper接口中的map方法： 
    * void map(K1 key, V1 value, OutputCollector output, Reporter reporter)
    * 映射一个单个的输入对到一个中间输出对 
    * 中间输出对不需要和输入对是相同的类型，输入对可以映射到0个或多个输出对。  
    * OutputCollector接口：收集Mapper和Reducer输出的对。 
    * OutputCollector接口的collect(k, v)方法:增加一个(k,v)对到output 
    * Reporter 用于报告整个应用的运行进度
     */  

    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
    /*
         * 原始数据（以test1.txt为例）：
     *  tale as old as time
        true as it can be
        beauty and the beast
        map阶段，数据如下形式作为map的输入值：key为偏移量
            <0  tale as old as time>
            <21 world java hello>
            <39 you me too> 
         */

         /**
       * 解析(Spliting)后以得到键值对（仅以test1.txt为例）
         * 格式如下：前者是键值，后者数字是值
         * tale 1
         * as 1
         * old 1
         * as 1
         * time 1
         * true 1
         * as 1
         * it 1
         * can 1
         * be 1
         * beauty 1
         * and 1
         * the 1
         * beast 1
         * 这些键值对作为map的输出数据
         */

    //****请补全map函数内容****//
    /*********begin*********/
    StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
        context.write(word, one);
      }
    /*********end**********/

    }
  }

  public static class IntSumReducer 
       extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable();

     /*
     * reduce过程是对输入键值对洗牌（Shuffing）形成格式数据（仅以test1.txt为例)：
     * (tablie [1])
     * (as [1,1,1])
     * (old [1])
     * (time [1])
     * (true [1])
     * (it [1])
     * (can [1])
     * (be [1])
     * (beauty [1])
     * (and [1])
     * (the [1])
     * (beast [1])
     * 作为reduce的输入
     * 
     */
    public void reduce(Text key, Iterable values, 
                       Context context
                       ) throws IOException, InterruptedException {
    //****请补全reduce对 进行合计得到list（）过程****//
    /*********begin*********/
    int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
    /*********end**********/

    //****请将list（）统计输出****//

    /*********begin*********/
    result.set(sum);
    context.write(key, result);
    /*********end**********/
    }
}
  public static void main(String[] args) throws Exception {
      /**
       * JobConf：map/reduce的job配置类，向hadoop框架描述map-reduce执行的工作 
       * 构造方法：JobConf()、JobConf(Class exampleClass)、JobConf(Configuration conf)等 
       */  
    Configuration conf = new Configuration();
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    /*
    * 需要配置输入和输出的HDFS的文件路径参数
    * 可以使用"Usage: wordcount  "实现程序运行时动态指定输入输出
    */
    if (otherArgs.length != 2) {
         System.err.println("Usage: wordcount  ");
      System.exit(2);
    }
    Job job = new Job(conf, "word count");//Job(Configuration conf,String jobName)设置job名称
    job.setJarByClass(WordCount.class);//为job设置Mapper类
      /*********begin*********/
      //****请为job设置Mapper类****//
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);//为job设置Combiner类
      //****请为job设置Reduce类****//
    job.setReducerClass(IntSumReducer.class);
      //****请设置输出key的参数类型****//
    job.setOutputKeyClass(Text.class);
      //****请设置输出value的类型****//
    job.setOutputValueClass(IntWritable.class);
      /*********end**********/
    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));//为map-reduce任务设置InputFormat实现类，设置输入路径
    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));//为map-reduce任务设置OutputFormat实现类，设置输出路径
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

第2关：HDFS文件读写

Hadoop分布式文件系统（HDFS）是hadoop上部署的存储架构。有着高容错性（fault-tolerant）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。为了熟练应用hadoop，必须对HDFS文件进行创建和读写等操作。

本关任务

利用HDFS文件系统开放的API对HDFS系统进行文件的创建和读写

要求：

1. 在HDFS的路径/user/hadoop/下新建文件myfile,并且写入内容“china cstor cstor cstor china”;
2. 输出HDFS系统中刚写入的文件myfile的内容

相关知识

HDFS文件系统

HDFS设计成能可靠地在集群中大量机器之间存储大量的文件，它以块序列的形式存储文件。文件中除了最后一个块，其他块都有相同的大小（一般64M）。属于文件的块为了故障容错而被复制到不同节点备份（备份数量有复制因子决定）。块的大小和读写是以文件为单位进行配置的。HDFS中的文件是一次写的，并且任何时候都只有一个写操作，但是可以允许多次读。

创建HDFS文件

客户端通过在DistributedFileSystem中调用create()来创建文件。
DistributedFileSystem 使用RPC去调用namenode，在文件系统的命名空间创一个新的文件，没有块与之相联系。namenode执行各种不同的检查以确保这个文件不会已经存在，并且在client有可以创建文件的适当的许可。如果检查通过，namenode就会生成一个新的文件记录；否则，文件创建失败并向client抛出一个IOException异常。分布式文件系统返回一个文件系统数据输出流，让client开始写入数据。就像读取事件一样，文件系统数据输出流控制一个DFSOutputStream，负责处理datanode和namenode之间的通信。
在client写入数据时，DFSOutputStream将它分成一个个的包，写入内部队列，称为数据队列。数据流处理数据队列，数据流的责任是根据适合的datanode的列表要求namenode分配适合的新块来存储数据副本。这一组datanode列表形成一个管线————假设副本数是3，所以有3个节点在管线中。
数据流将包分流给管线中第一个的datanode，这个节点会存储包并且发送给管线中的第二个datanode。同样地，第二个datanode存储包并且传给管线中的第三个数据节点。
DFSOutputStream也有一个内部的数据包队列来等待datanode收到确认，称为确认队列。一个包只有在被管线中所有的节点确认后才会被移除出确认队列。如果在有数据写入期间，datanode发生故障，则会执行下面的操作，当然这对写入数据的client而言是透明的。首先管线被关闭，确认队列中的任何包都会被添加回数据队列的前面，以确保故障节点下游的datanode不会漏掉任意一个包。为存储在另一正常datanode的当前数据块制定一个新的标识，并将该标识传给namenode，以便故障节点datanode在恢复后可以删除存储的部分数据块。从管线中删除故障数据节点并且把余下的数据块写入管线中的两个正常的datanode。namenode注意到块复本量不足时，会在另一个节点上创建一个新的复本。后续的数据块继续正常接收处理。只要dfs.replication.min的副本（默认是1）被写入，写操作就是成功的，并且这个块会在集群中被异步复制，直到其满足目标副本数（dfs.replication 默认值为3)。
client完成数据的写入后，就会在流中调用close()。
在向namenode节点发送完消息之前，此方法会将余下的所有包放入datanode管线并等待确认。namenode节点已经知道文件由哪些块组成（通过Data streamer 询问块分配），所以它只需在返回成功前等待块进行最小量的复制。

读取HDFS文件

8. 客户端通过调用FileSystem对象的open()来读取希望打开的文件。对于HDFS来说，这个对象是分布式文件系统的一个实例。
9. DistributedFileSystem通过RPC来调用namenode，以确定文件的开头部分的块位置。对于每一块，namenode返回具有该块副本的datanode地址。此外，这些datanode根据他们与client的距离来排序（根据网络集群的拓扑）。如果该client本身就是一个datanode，便从本地datanode中读取。DistributedFileSystem 返回一个FSDataInputStream对象给client读取数据，FSDataInputStream转而包装了一个DFSInputStream对象。
10. 接着client对这个输入流调用read()。存储着文件开头部分块的数据节点地址的DFSInputStream随即与这些块最近的datanode相连接。
11. 通过在数据流中反复调用read()，数据会从datanode返回client。
12. 到达块的末端时，DFSInputStream会关闭与datanode间的联系，然后为下一个块找到最佳的datanode。client端只需要读取一个连续的流，这些对于client来说都是透明的。
13. 在读取的时候，如果client与datanode通信时遇到一个错误，那么它就会去尝试对这个块来说下一个最近的块。它也会记住那个故障节点的datanode，以保证不会再对之后的块进行徒劳无益的尝试。client也会确认datanode发来的数据的校验和。如果发现一个损坏的块，它就会在client试图从别的datanode中读取一个块的副本之前报告给namenode。
14. 这个设计的一个重点是，client直接联系datanode去检索数据，并被namenode指引到块中最好的datanode。因为数据流在此集群中是在所有datanode分散进行的。所以这种设计能使HDFS可扩展到最大的并发client数量。同时，namenode只不过提供块的位置请求（存储在内存中，十分高效），不是提供数据。否则如果客户端数量增长，namenode就会快速成为一个“瓶颈”。
HDFS文件流操作
HDFS文件还提供文件数据流操作API，利用这些可以将文件读取简化为三大步骤。

获取文件系统实例化创建文件
通过获取数据流进行写入，完成后关闭数据流
通过输出数据流将文件内容输出

获取文件系统

            //读取hadoop文件系统配置
    Configuration conf = new Configuration();  //实例化设置文件，configuration类实现hadoop各模块之间值的传递
    FileSystem fs = FileSystem.get(conf);  //是hadoop访问系统的抽象类，获取文件系统， FileSystem的get()方法得到实例fs，然后fs调动create()创建文件，open(）打开文件       
    System.out.println(fs.getUri());  
            Path file = new Path("");  //命名一个文件及路径
            if (fs.exists(file)) {  
                    System.out.println("File exists.");  
            } else
                {

通过输入数据流进行写入

    1. FSDataOutputStream outStream = fs.create(file); //获取文件流 
    2.  outStream.writeUTF("XXXXXXXX"); //使用文件流写入文件内容

通过输出数据流将文件内容输出

    // FSDataInputStream实现了和接口，从而使Hadoop中的文件输入流具有流式搜索和流式定位读取的功能
    String data = inStream.readUTF();  //使用输出流读取文件

编程要求

本关的编程任务是补全右侧代码片段中的代码，具体要求及说明如下：

在主函数main中已获取hadoop的系统设置，并在其中创建HDFS文件。在main函数中，指定创建文档路径（必须设置为/user/hadoop/myfile才能评测），输入内容必须是本关要求内容才能评测。
添加读取文件输出部分
本关只要求在指定区域进行代码编写，其他区域仅供参考请勿改动。

测试说明

本关无测试样例，直接比较文件内容确定输出是否为“china cstor cstor cstor china”

注：由于启动服务、编译等耗时，以及hdfs文件操作过程资源消耗较大且时间较长，因而单个用户使用资源有限，评测时间较长（30s左右）！
请耐心等待！相信自己！通往成功的路上不会太久！

本关的许多概念和操作比较抽象，但是机智的你一定会在接下来的学习中不断深入了解其含义并最终熟练操作的！

开始你的任务吧，祝你成功！

代码如下：

import java.io.IOException;
import java.sql.Date;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;


public class hdfs {

    public static void main(String[] args) throws IOException {
//throws IOException捕获异常声明

//****请根据提示补全文件创建过程****//
/*********begin*********/
        Configuration conf = new Configuration();  //实例化设置文件，configuration类实现hadoop各模块之间值的传递
        FileSystem fs = FileSystem.get(conf);  //是hadoop访问系统的抽象类，获取文件系统， FileSystem的get()方法得到实例fs，然后fs调动create()创建文件，open(）打开文件       
        System.out.println(fs.getUri());
//实现文件读写主要包含以下步骤：
//读取hadoop文件系统配置
//实例化设置文件，configuration类实现hadoop各模块之间值的传递
//FileSystem是hadoop访问系统的抽象类，获取文件系统， FileSystem的get()方法得到实例fs，然后fs调动create()创建文件，调用open()打开文件,调用close()关闭文件


//*****请按照题目填写要创建的路径，其他路径及文件名无法被识别******//

        Path file = new Path("/user/hadoop/myfile");

/*********end**********/

        if (fs.exists(file)) {

             System.out.println("File exists.");

        } else
            {
//****请补全使用文件流将字符写入文件过程，使用outStream.writeUTF()函数****//
                /*********begin*********/

        FSDataOutputStream outStream = fs.create(file); //获取文件流 
        outStream.writeUTF("china cstor cstor cstor china"); //使用文件流写入文件内容


                /*********end**********/

        }


//****请补全读取文件内容****//
/*********begin*********/
// 提示：FSDataInputStream实现接口，使Hadoop中的文件输入流具有流式搜索和流式定位读取的功能
        FSDataInputStream inStream = fs.open(file);  
        String data = inStream.readUTF(); 


/*********end**********/


//输出文件状态
//FileStatus对象封装了文件的和目录的元数据，包括文件长度、块大小、权限等信息
        FileSystem hdfs = file.getFileSystem(conf);

        FileStatus[] fileStatus = hdfs.listStatus(file);

        for(FileStatus status:fileStatus)

        {
           System.out.println("FileOwer:"+status.getOwner());//所有者
           System.out.println("FileReplication:"+status.getReplication());//备份数
           System.out.println("FileModificationTime:"+new Date(status.getModificationTime()));//目录修改时间
           System.out.println("FileBlockSize:"+status.getBlockSize());//块大小
        }

        System.out.println(data);
        System.out.println("Filename:"+file.getName());

        inStream.close();
        fs.close();
    }
  }

第3关：倒排索引

前面通过词频统计，已经可以找出高频率的“关键词”了，这些词汇出现的频率很高以至于很难直接对其所在的文档进行查找。必须借助一定的关系模型表示单词与文本的关系，然后才可以实现快速搜索查找。

单词-文档矩阵是表达这种包含关系的最简洁的概念模型。每列代表文档包含了哪些单词，比如文档1包含了词汇1和词汇4，而不包含其它单词。每行代表了哪些文档包含了某个单词。比如对于词汇1来说，文档1和文档4中出现过单词1，而其它文档不包含词汇1。
搜索引擎的索引其实就是实现“单词-文档矩阵”的具体数据结构。可以有不同的方式来实现上述概念模型，比如“倒排索引”、“签名文件”、“后缀树”等方式。但是各项实验数据表明，“倒排索引”是实现单词到文档映射关系的最佳实现方式。

本关任务

要求：编写处理带词频属性的文档倒排索引程序，运行程序，对莎士比亚文集文档数据进行倒排索引处理，结果输出到指定文件。
注：输入输出文件的路径已经指定，

相关知识

文本特征

文档(Document)：一般搜索引擎的处理对象是互联网网页，而文档这个概念要更宽泛些，代表以文本形式存在的存储对象，相比网页来说，涵盖更多种形式，比如Word，PDF，html，XML等不同格式的文件都可以称之为文档。再在本关后续内容，很多情况下会使用文档来表征文本信息。

文档集合(Document Collection)：由若干文档构成的集合称之为文档集合。
文档编号(Document ID)：在搜索引擎内部，会将文档集合内每个文档赋予一个唯一的内部编号，以此编号来作为这个文档的唯一标识，这样方便内部处理，每个文档的内部编号即称之为“文档编号”，后文有时会用DocID来便捷地代表文档编号。
单词编号(Word ID)：与文档编号类似，搜索引擎内部以唯一的编号来表征某个单词，单词编号可以作为某个单词的唯一表征。

倒排索引(Inverted Index)：倒排索引是实现“单词-文档矩阵”的一种具体存储形式，通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成：“单词词典”和“倒排文件”。

倒排列表(PostingList)：倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息，每条记录称为一个倒排项(Posting)。根据倒排列表，即可获知哪些文档包含某个单词。

倒排文件(Inverted File)：所有单词的倒排列表往往顺序地存储在磁盘的某个文件里，这个文件即被称之为倒排文件，倒排文件是存储倒排索引的物理文件。

编程要求

本关的编程任务是补全右侧代码片段中map和reduce函数中的代码，具体要求及说明如下：

在主函数main中已初始化hadoop的系统设置，包括hadoop运行环境的连接。
在main函数中，已经设置好了待处理文档路径（即input），以及结果输出路径（即output）。
在main函数中，已经声明了job对象，程序运行的工作调度已经设定好。
本关只要求在map和reduce函数的指定区域进行代码编写，其他区域请勿改动。

测试说明

测试输入样例数据集：文本文档test1.txt, test2.txt
文档test1.txt中的内容为：

tale as old as time
true as it can be
beauty and the beast

文档test2.txt中的内容为：

ever just the same
ever as before
beauty and the beast

预期输出文件result.txt的内容为：

注：由于启动服务、编译等耗时，以及MapReduce过程资源消耗较大且时间较长，因而单个用户使用资源有限，评测时间较长（30s左右）！
请耐心等待！相信自己！通往成功的路上不会太久！

工欲善其事必先利其器！要想实现海量数据搜索，必须先得到文档倒排索引

开始你的任务吧，祝你成功！

代码如下：

import java.io.IOException;
import java.util.HashMap;
import java.util.Hashtable;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import java.util.Iterator;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.util.GenericOptionsParser;

public class InvertedIndex {
    public static class InvertedIndexMapper extends Mapper<LongWritable, Text, Text, Text> 
    {
        public void map(LongWritable key, Text value, Context context)  
        throws IOException, InterruptedException 

        {   
            FileSplit fileSplit = (FileSplit)context.getInputSplit();
            String fileName = fileSplit.getPath().getName();

            String word;
            IntWritable frequence=new IntWritable();
            int one=1;
            Hashtable   hashmap=new Hashtable();//key关键字设置为String
            StringTokenizer itr = new StringTokenizer(value.toString());

//****请用hashmap定义的方法统计每一行中相同单词的个数，key为行值是每一行对应的偏移****//
/*********begin*********/
         for(;itr.hasMoreTokens(); )   
            {     

                word=itr.nextToken();  
                if(hashmap.containsKey(word)){  
                    hashmap.put(word,hashmap.get(word)+1);  
             }else{  
                    hashmap.put(word, one);                         

                }  

            }  

/*********end**********/                                

for(Iterator it=hashmap.keySet().iterator();it.hasNext();){
                word=it.next();
                frequence=new IntWritable(hashmap.get(word));
                Text fileName_frequence = new Text(fileName+"@"+frequence.toString());//以 的格式输出
                context.write(new Text(word),fileName_frequence);
            }

        }
    }

    public static class InvertedIndexCombiner extends Reducer<Text,Text,Text,Text>{
         protected void reduce(Text key,Iterable values,Context context)
         throws IOException ,InterruptedException{ 
//****请合并mapper函数的输出，并提取“文件@1”中‘@’后面的词频，以的格式输出****//
/*********begin*********/

            String fileName="";  
            int sum=0;  
            String num;  
            String s;  
            for (Text val : values) {  

                    s= val.toString();  
                    fileName=s.substring(0, val.find("@"));  
                    num=s.substring(val.find("@")+1, val.getLength());      //提取“doc1@1”中‘@’后面的词频  
                    sum+=Integer.parseInt(num);  
            }  
            IntWritable frequence=new IntWritable(sum);  
            context.write(key,new Text(fileName+"@"+frequence.toString()));  

/*********end**********/                

        }
    }

    public static class InvertedIndexReducer extends Reducer<Text, Text, Text, Text> 
    {   @Override
        protected void reduce(Text key, Iterable values, Context context)
                throws IOException, InterruptedException 
        {   Iterator it = values.iterator();
            StringBuilder all = new StringBuilder();
            if(it.hasNext())  all.append(it.next().toString());
            for(;it.hasNext();) {
                all.append(";");
                all.append(it.next().toString());                   
            }
//****请输出最终键值对list(K3，“单词", “文件1@频次; 文件2@频次;...")****//
/*********begin*********/

 context.write(key, new Text(all.toString()));  

/*********end**********/        
        }
    }

    public static void main(String[] args) 
    {
        if(args.length!=2){
            System.err.println("Usage: InvertedIndex  ");
            System.exit(2);
        }

      try {
                Configuration conf = new Configuration();
                String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

                Job job = new Job(conf, "invertedindex");
                job.setJarByClass(InvertedIndex.class);
                job.setMapperClass(InvertedIndexMapper.class);
            //****请为job设置Combiner类****//
/*********begin*********/
                job.setCombinerClass(InvertedIndexCombiner.class); 

/*********end**********/                                
                job.setReducerClass(InvertedIndexReducer.class);

                job.setOutputKeyClass(Text.class);
            //****请设置输出value的类型****//
/*********begin*********/
               job.setOutputValueClass(Text.class);  

/*********end**********/                                    
                FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
                FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

                System.exit(job.waitForCompletion(true) ? 0 : 1);

        } catch (Exception e) { 
            e.printStackTrace();
        }
    }
}

第4关：网页排序——PageRank算法

前面我们关注了文本中词频的统计筛选出了文本中的高频词汇，也通过倒排索引建立了关键词和文本集间的索引关系。接下来从宏观地关注文本间的关系。文本间的引用最具代表性，比如网页的相互链接。显而易见某些文本（网页）被引用（链接）次数多更加重要，在面对海量的文本时可以以此对文本重要性进行排序，尽快地找到有用信息。

本关任务

要求：编写实现网页数据集PageRank算法的程序，对网页数据集进行处理得到网页权重排序。

相关知识

PageRank算法原理
1. 基本思想：
如果网页T存在一个指向网页A的连接，则表明T的所有者认为A比较重要，从而把T的一部分重要性得分赋予A。这个重要性得分值为：PR（T）/L(T)
其中PR（T）为T的PageRank值，L(T)为T的出链数。则A的PageRank值为一系列类似于T的页面重要性得分值的累加。

即一个页面的得票数由所有链向它的页面的重要性来决定，到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由所有链向它的页面（链入页面）的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级，相反如果一个页面没有任何链入页面，那么它没有等级。

2. .PageRank简单计算：
假设一个由只有4个页面组成的集合：A，B，C和D。如图所示，如果所有页面都链向A，那么A的PR（PageRank）值将是B，C及D的和。

继续假设B也有链接到C，并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑，D投出的票只有三分之一算到了A的PageRank上。

换句话说，根据链出总数平分一个页面的PR值。

完整PageRank计算公式
由于存在一些出链为0不链接任何其他网页的网页，因此需要对 PageRank公式进行修正，即在简单公式的基础上增加了阻尼系数（damping factor）q， q一般取值q=0.85

更加准确的表达为：

P1，P2,…,Pn是被研究的页面，M(Pi)是Pi链入页面的数量，L(Pj)是Pj链出页面的数量，而N是所有页面的数量。PageRank值是一个特殊矩阵中的特征向量。这个特征向量为：

R是如下等式的一个解：

如果网页i有指向网页j的一个链接，则

PageRank计算过程

 PageRank 公式可以转换为求解![](/attachments/download/178714)的值，

幂法计算过程如下：
X 设任意一个初始向量, 即设置初始每个网页的 PageRank值均。一般为1。R = AX。

     while  (1){
        if ( |X - R| < e) 
             return R;  //如果最后两次的结果近似或者相同，返回R
        else   {
                X =R;
               R = AX;
               }
    }

MapReduce计算PageRank
上面的演算过程，采用矩阵相乘，不断迭代，直到迭代前后概率分布向量的值变化不大，一般迭代到30次以上就收敛了。真的的web结构的转移矩阵非常大，目前的网页数量已经超过100亿，转移矩阵是100亿*100亿的矩阵，直接按矩阵乘法的计算方法不可行，需要借助Map-Reduce的计算方式来解决

对于如下图所示的相互链接网页关系

可以利用转移矩阵进行表示。转移矩阵是一个多维的稀疏矩阵，把web图中的每一个网页及其链出的网页作为一行，这样第四节中的web图结构用如下方式表示：

可以看A有三条出链，分布指向A、B、C，实际上爬取的网页结构数据就是这样的。
1、 Map阶段
Map操作的每一行，对所有出链发射当前网页概率值的1/k，k是当前网页的出链数，比如对第一行输出,,;
2、Reduce阶段
Reduce操作收集网页id相同的值，累加并按权重计算，pj=a(p1+p2+…Pm)+(1-a)1/n，其中m是指向网页j的网页j数，n所有网页数。

思路就是这么简单，但是实践的时候，怎样在Map阶段知道当前行网页的概率值，需要一个单独的文件专门保存上一轮的概率分布值，先进行一次排序，让出链行与概率值按网页id出现在同一Mapper里面，整个流程如下：

这样进行一次迭代相当于需要两次MapReduce，但第一次的MapReduce只是简单的排序，不需要任何操作，用java调用Hadoop的Streaming.

编程要求

本关的编程任务是补全右侧代码片段中map和reduce函数中的代码，具体要求及说明如下：

在主函数main中已初始化hadoop的系统设置，包括hadoop运行环境的连接。
在main函数中，已经设置好了待处理文档路径（即input），在评测中设置了结果输出路径（即output），不要修改循环输出路径即可保证完成。
在main函数中，已经声明了job对象，程序运行的工作调度已经设定好。
原则上循环迭代次数越多越精准，但是为了保证平台资源，只允许运行5次迭代，多余过程被忽略无法展示，**请勿增加循环次数**。
本关只要求在map和reduce函数的指定区域进行代码编写，其他区域请勿改动。

测试说明

输入文件格式如下：

注：为了简化运算，已经对网页集关系进行了规整，并且给出了相应的初始PR值。
以第一行为例：1表示网址（以tab键隔开），1.0为给予的初始pr值，2，3，4，5，6，7，8为从网址1指向的网址。

输出文件格式：
The origin result
1 1.0 2 3 4 5 6 7 8
2 2.0 3 4 5 6 7 8
3 3.0 4 5 6 7 8
4 4.0 5 6 7 8
5 5.0 6 7 8
6 6.0 7 8
7 7.0 8
8 8.0 1 2 3 4 5 6 7
The 1th result
1 0.150 1.121 _2 3 4 5 6 7 8
2 0.150 1.243 _3 4 5 6 7 8
3 0.150 1.526 _4 5 6 7 8
4 0.150 2.036 _5 6 7 8
5 0.150 2.886 _6 7 8
6 0.150 4.303 _7 8
7 0.150 6.853 _8
8 0.150 11.831 _1 2 3 4 5 6 7
The 2th result
1 0.150 1.587 _2 3 4 5 6 7 8
2 0.150 1.723 _3 4 5 6 7 8
3 0.150 1.899 _4 5 6 7 8
4 0.150 2.158 _5 6 7 8
5 0.150 2.591 _6 7 8
6 0.150 3.409 _7 8
7 0.150 5.237 _8
8 0.150 9.626 _1 2 3 4 5 6 7
The 3th result
1 0.150 1.319 _2 3 4 5 6 7 8
2 0.150 1.512 _3 4 5 6 7 8
3 0.150 1.756 _4 5 6 7 8
4 0.150 2.079 _5 6 7 8
5 0.150 2.537 _6 7 8
6 0.150 3.271 _7 8
7 0.150 4.720 _8
8 0.150 8.003 _1 2 3 4 5 6 7
The 4th result
1 0.150 1.122 _2 3 4 5 6 7 8
2 0.150 1.282 _3 4 5 6 7 8
3 0.150 1.496 _4 5 6 7 8
4 0.150 1.795 _5 6 7 8
5 0.150 2.236 _6 7 8
6 0.150 2.955 _7 8
7 0.150 4.345 _8
8 0.150 7.386 _1 2 3 4 5 6 7
The 5th result
1 0.150 1.047 _2 3 4 5 6 7 8
2 0.150 1.183 _3 4 5 6 7 8
3 0.150 1.365 _4 5 6 7 8
4 0.150 1.619 _5 6 7 8
5 0.150 2.000 _6 7 8
6 0.150 2.634 _7 8
7 0.150 3.890 _8
8 0.150 6.686 _1 2 3 4 5 6 7

注:迭代方法和次数不同会对结果产生影响，不必完全与答案匹配，只需运行结果趋于合理即可。（第二列为多余值）

注：由于启动服务、编译、循环迭代等耗时，以及单次MapReduce过程资源消耗较大且时间较长，因而单个用户使用资源有限，评测时间较长（40s左右）！
请耐心等待！相信自己！通往成功的路上不会太久！

慧眼识珍发现有用的文本信息，请先从网页排序分析开始！

开始你的任务吧，祝你成功！

代码如下：

import java.io.IOException;
import java.text.DecimalFormat;
import java.text.NumberFormat;
import java.util.StringTokenizer;
import java.util.Iterator;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class PageRank {

  public static class MyMapper   extends Mapper<Object, Text, Text, Text>
  {
        private Text id = new Text();
        public void map(Object key, Text value, Context context ) throws IOException, InterruptedException
        {
            String line = value.toString();
//判断是否为输入文件
            if(line.substring(0,1).matches("[0-9]{1}"))
            {
                  boolean flag = false;
                  if(line.contains("_"))
                  {
                        line = line.replace("_","");
                        flag = true;
                  }
//对输入文件进行处理
                  String[] values = line.split("\t");
                  Text t = new Text(values[0]);
                  String[] vals = values[1].split(" ");
                  String url="_";//保存url，用作下次计算
                  double pr = 0;
                  int i = 0;
                  int num = 0;

                  if(flag)
                  {
                      i=2;
                      pr=Double.valueOf(vals[1]);
                      num=vals.length-2;
                  }
                  else
                  {
                      i=1;
                      pr=Double.valueOf(vals[0]);
                      num=vals.length-1;
                  }

                  for(;i" ";
                      id.set(vals[i]);
                      Text prt = new Text(String.valueOf(pr/num));
                      context.write(id,prt);
                  }
                  context.write(t,new Text(url));
              }
          }
  }

  public static class MyReducer  extends Reducer<Text,Text,Text,Text>
  {
              private Text result = new Text();
              private Double pr = new Double(0);

         public void reduce(Text key, Iterable values,  Context context  ) throws IOException, InterruptedException
         {
              double sum=0;
              String url="";

//****请通过url判断否则是外链pr，作计算前预处理****//
/*********begin*********/
  for(Text val:values)  
              {  
                      //发现_标记则表明是url，否则是外链pr，要参与计算  
                  if(!val.toString().contains("_"))  
                  {  
                      sum=sum+Double.valueOf(val.toString());  
                  }  
                  else  
                 {  
                      url=val.toString();  
                  }  
              }  
              pr=0.15+0.85*sum;  
              String str=String.format("%.3f",pr);  
              result.set(new Text(str+" "+url));  
              context.write(key,result);  


/*********end**********/            


//****请补全用完整PageRank计算公式计算输出过程，q取0.85****//
/*********begin*********/


/*********end**********/    

          }
 }

    public static void main(String[] args) throws Exception
    {
             String paths="file:///tmp/input/Wiki0";//输入文件路径，不要改动
            String path1=paths;
            String path2="";

            for(int i=1;i<=5;i++)//迭代5次
              {
                System.out.println("This is the "+i+"th job!");
                System.out.println("path1:"+path1);
                System.out.println("path2:"+path2);
                Configuration conf = new Configuration();
                Job job = new Job(conf, "PageRank");
                path2=paths+i;    
                job.setJarByClass(PageRank.class);
                job.setMapperClass(MyMapper.class);
        //****请为job设置Combiner类****//
/*********begin*********/
job.setCombinerClass(MyReducer.class); 

/*********end**********/                    
                job.setReducerClass(MyReducer.class);
                job.setOutputKeyClass(Text.class);
                job.setOutputValueClass(Text.class);
                FileInputFormat.addInputPath(job, new Path(path1));
                FileOutputFormat.setOutputPath(job, new Path(path2));
                path1=path2;      
             job.waitForCompletion(true);
            System.out.println(i+"th end!");
        }
      } 
 }

你可能感兴趣的:(云计算与大数据,云计算与大数据实训作业答案)

本地大模型编程实战(25)用langgraph实现基于SQL数据构建的问答系统(4) 火云牌神 AI编程实战 sql langgraph LLM deepseek qwen
本文将演练使用基于langgraph链，对结构化数据库SQlite进行查询的方法。该系统建立以后，我们不需要掌握专业的SQL技能，可以用自然语言询问有关数据库中数据的问题并返回答案。使大语言模型(LLM)查询结构化数据与非结构化文本数据有所不同。查询非结构化数据时，通常需要将待查询的文本嵌入到向量数据库中；而查询结构化数据的方法则是让LLM编写和执行DSL（例如SQL）进行查询。在用langcha
AI写代码新姿势：一个截图，代替千行代码量子位
原创关注前沿科技量子位现在写代码，最fashion的“姿势”应该是什么？答案或许就是：截图。没错，就像这样，先随便找个网页，截取想要的那部分界面，然后“喂”给AI，并附上一句Prompt：参考这个页面，生成一个类似的HTML页面。只是一张图和一句话，AI就“唰唰唰”的把代码给写出来了。有了这个功能，前端程序员搞简单的页面代码可就方便太多了（甚至编程小白都可以尝试做网页）~而且这个AI啊，还不是国外
[持续更新]八股速通之Java基础面试题答案精简速记版! 八股文领域大手子 java 数据库 mysql jvm sql spring
问题1：请解释Java中ArrayList和LinkedList的区别？回答思路：数据结构：明确底层实现（数组vs双向链表）。性能对比：从查询、插入/删除、内存占用三方面分析。适用场景：根据性能特点给出使用建议。补充细节：扩容机制、线程安全性等。示例回答：ArrayList基于动态数组实现，支持快速随机访问（时间复杂度O(1)），但在中间插入或删除元素时，需要移动后续元素，性能较差（平均O(n)）
pip安装非标准版本号库报错 pip 24.1 will enforce this behaviour change. m0_74397054 pip python 机器学习神经网络
在做神经网络作业安装tensorflow报错pyodbc4.0.0-unsupportedhasanon-standardversionnumber.pip24.1willenforcethisbehaviourchange.Apossiblereplacementistoupgradetoanewerversionofpyodbcorcontacttheauthortosuggestthatth
使用Nuclia Understanding API 处理和索引非结构化数据 dgay_hua python
技术背景介绍在当今信息化社会中，非结构化数据如视频、音频、图像和文档在企业中占据了大量的数据存储资源。处理这些数据以提取有效信息并进行快速检索已经成为一项重要任务。NucliaUnderstanding是一个强大的工具，可自动索引这些非结构化数据，提供优化的搜索结果和生成式答案。NucliaUnderstandingAPI支持处理各种非结构化数据，包括文本、网页、文档和音视频内容。它能够提取文本(
STL容器 -- map/multimap 柚子树cc C/C++STL map multimap
1、map/multimap容器基本概念map的特性是，所有元素都会根据元素的键值自动排序。map所有的元素都是pair,同时拥有实值和键值，pair的第一元素被视为键值，第二元素被视为实值，map不允许两个元素有相同的键值。我们可以通过map的迭代器改变map的键值吗？答案是不行，因为map的键值关系到map元素的排列规则，任意改变map键值将会严重破坏map组织。如果想要修改元素的实值，那么是
【人工智能】数据挖掘与应用题库（101-200）奋力向前123 人工智能人工智能数据挖掘
1、有矩阵A3×2，B2×3，C3×3，下列运算有意义的是（）答案：BC2、13524的逆序数为（）答案：33、矩阵A中元素a14的余子式记作M14，代数余子式记作A14，二者关系为（）答案：相反4、关于机器学习与深度学习的范畴关系，下列说法正确的是？答案：深度学习是机器学习的子集（分支）5、关于机器学习的本质，下列表述最恰当的是？答案：从数据或环境反馈中自主学习到规则6、深度学习的“深度”是指？
【人工智能】数据挖掘与应用题库（301-400）奋力向前123 人工智能人工智能数据挖掘 pandas
1、关于pandas中的Series描述错误的是答案：Series默认没有index2、关于DataFrame描述正确的是答案：DataFrame指数据框，相当于程序中的虚拟Excel表格创建DataFrame后，可以重新指定indexDataFrame允许有缺失值3、在DataFrame中，可以获取某一列的值，也可以获取某一行的值。答案:对4、对于数据框book_info，以下用法有误的是答案：
【人工智能】数据挖掘与应用题库（1-100）奋力向前123 人工智能人工智能算法
1、涉及变化快慢的问题可以考虑使用导数来分析。答案:对2、导数的几何意义是曲线在某点处切线的斜率。答案:对3、函数在某点的左导数存在，则导数就存在。答案:错4、关于梯度下降算法，下列说法错误的是（）错误:梯度下降算法能找到函数精确的最小值。5、正弦函数的导数是余弦函数。答案：对6、[u(x)×v(x)]'=u(x)'×v(x)'答案：错7、链式法则的步骤可以概况为：分解、各自求导、相乘、回代。答案
2018第9届蓝桥杯省赛A组试题&答案（下）【C/C++】 Paris_郑丹丹蓝桥杯
文章目录6.航班时间（程序设计17分）【问题描述】7.三体攻击（程序设计19分）【问题描述】8.全球变暖（程序设计21分）问题描述9.倍数问题（程序设计23分）问题描述10.付账问题（程序设计25分）问题描述6.航班时间（程序设计17分）航班时间【问题背景】小h前往美国参加了蓝桥杯国际赛。小h的女朋友发现小h上午十点出发，上午十二点到达美国，于是感叹到“现在飞机飞得真快，两小时就能到美国了”。小h
Go在1.22版本修复for循环陷阱许夜3 golang 闭包 for循环
记录前段时间升级Go版本碰到一个大坑，先记录。先上代码案例：funcmain(){testClosure()}functestClosure(){fori:=0;i<5;i++{deferfunc(){fmt.Println(i)}()}}在1.22之下（不包括1.22）版本：输出的结果：55555在1.22及之上版本：输出的结果：43210完全不一样。查阅了半天资料，最终在官网中找到答案。官网地
大语言模型LLM原理篇_图解大模型从用户输入prompt到llm输出答案的流程原理喝不喝奶茶丫 prompt 人工智能自然语言处理语言模型 javascript 大模型 LLM
大模型席卷全球，彷佛得模型者得天下。对于IT行业来说，以后可能没有各种软件了，只有各种各样的智体（Agent）调用各种各样的API。在这种大势下，笔者也阅读了很多大模型相关的资料，和很多新手一样，开始脑子里都是一团乱麻，随着相关文章越读越多，再进行内容梳理，终于理清了一条清晰的脉络。笔者写原理篇时心情是有些惴惴不安的，因为毕竟对大模型的研究有限，缺乏深度。但是，还是觉得有必要记录一下学习理解心得，
华为数通 HCIP-Datacom H12-831 新题 IT考试认证华为考试认证网络华为 HCIP 数通 831
2024年HCIP-Datacom（H12-831）变题后的新题，完整题库请扫描上方二维码，新题在持续更新中。某台IS-IS路由器自己生成的LSP信息如图所示，从LSP信息中不能推断出以下哪一结论?A：该路由器某一个接口的IPv6地址为2000:24::2B：该路由器所属的区域号为49.0001C：该路由器引入了4个外部网段D：该路由器的SystemID为0000.0000.0002答案：C如图所
软件工程精选习题集(全答案) 刘明皓00 软件工程低代码课程设计笔记经验分享考研面试
目录1.名词解释极限编程(Extremeprogramming)状态转换图(StateTransformDiagram)问题域(ProblemDomain)功能点技术(FunctionPoint)PAD问题分析图(ProblemAnalysisDiagram)实体-关联图(EntityRelationshipDiagram)。软件危机(SoftwareCrisis)软件质量保证（SoftwareQ
2.4 自动化评测答疑机器人的表现-大模型ACP模拟题-真题 admin皮卡阿里云大模型ACP-考试回忆人工智能前端机器学习
真题真题1：哪些是生成阶段的评估指标？哪些是召回阶段的评估指标？整体回答质量的评估：AnswerCorrectness，用于评估RAG应用生成答案的准确度。生成环节的评估：AnswerRelevancy，用于评估RAG应用生成的答案是否与问题相关。Faithfulness，用于评估RAG应用生成的答案和检索到的参考资料的事实一致性。召回阶段的评估：ContextPrecision，用于评估cont
3万字长文：SQL Server面试题和参考答案（持续更新）大模型大数据攻城狮 oracle 数据库大数据面试求职
目录解释关系数据库中的主键、外键、超键和候选键的区别。描述SQLServer中聚集索引和非聚集索引的不同。什么是事务？SQLServer中如何保证事务的ACID属性？什么是视图？在SQLServer中视图有什么用途？解释SQLServer中的锁机制以及死锁是如何产生的。如何优化SQL查询以提高性能？写出SQL语句：取出表A中第31到第40记录。解释SQLServer中的临时表和表变量的区别。什么是
PyTorch 常见的损失函数：从基础到大模型的应用阿正的梦工坊 LLM PyTorch pytorch 人工智能 python
PyTorch常见的损失函数：从基础到大模型的应用在用PyTorch训练神经网络时，损失函数（LossFunction）是不可或缺的“裁判”。它告诉模型预测结果与真实答案的差距有多大，优化器则根据这个差距调整参数。PyTorch提供了丰富而强大的损失函数接口，位于torch.nn模块中。今天我们就来聊聊几个常见的损失函数（比如nn.MSELoss和nn.CrossEntropyLoss），看看它们
精彩回顾 | KaiwuDB 携手信通院举办能源行业数据库研讨沙龙数据库
10月12日，KaiwuDB联合中国通信标准化协会大数据技术标准推进委员会、信通院数据库应用创新实验室举办的“数据库技术助力能源行业数字化转型”主题研讨沙龙在上海圆满落幕。行业专家学者、数据库技术爱好者、数据库应用企业共同到场，就能源电力行业数字化需求变化，及数据库技术在核心业务场景中的应用实践等议题展开研讨交流。中国信通院云计算与大数据研究所大数据与智能化部副主任马鹏玮发表了《数据库产业发展趋势
有好答案、更有好方案，夸克AI搜索上线“深度思考” 量子位
2月28日，夸克App和PC端全面升级，首页迎来AI焕新，夸克AI搜索上线”深度思考”，不仅为用户提供答案，还能分析、思考、做方案。基于最新AI能力，夸克持续革新用户体验，国内搜索行业进入全新的AI搜索时代。深度思考能力融入AI搜索，是此次升级的一大亮点。夸克AI搜索“深度思考”，精准理解用户的真实需求和深层意图。针对用户的个性化和复杂问题，“深度思考”能够高效、极速地提供内容详尽、全面、可信任的
PMP冲刺每日一题(11)答案解析 PM简读馆 PMP每日打卡产品经理
试题1标题：高层管理人员希望基于一个由敏捷团队正在开发的救生产品来预测公司的未来发展。高管们希望在下次股东大会上演示产品的特性和功能。敏捷管理专业人士应该怎么做?选项A：邀请股东参加每次站立会议。分析结论：站立会议主要是敏捷团队内部的短会，用于团队成员沟通工作进展、问题等，股东并非团队成员，让股东参加每次站立会议不合适，不能满足高管在股东大会上演示产品特性和功能的需求。选项B：向高层管理人员提供演
PMP冲刺每日一题(18)答案解析 PM简读馆 PMP每日打卡产品经理
试题1标题：项目团队正在评估促销活动应外包还是应在内部进行，项目团队实施的是哪一个过程?规划采购管理内容https://www.pmcainiao.cn/#11-2选项A：产品分析分析结论：产品分析是把高层级的产品描述转变为有形的可交付成果的技术，旨在明确产品范围，侧重于对产品本身的特性、功能等进行分析，与评估促销活动是外包还是内部进行的决策过程不相关。选项B：规划沟通管理分析结论：规划沟通管理是
DeepSeek+微头条：普通人内容变现新思路，智能时代的创作生存法则超级俨论 deepseek 微头条深度学习人工智能
私信我领取配套电子资料！！！一、平台激励机制背后的真相你可能想问：零粉丝起步的内容创作还有机会吗？近期某社交资讯平台推出的创作者激励计划给出了新答案。数据显示，新注册账号首周发布优质内容获得推荐的几率同比提升40%，部分用户单日互动量突破3000+。二、智能创作工具的正确打开方式内容质量评估新标准用户停留时长＞30秒互动率（点赞+收藏）＞5%信息增量＞平台同类内容平均值选题雷达扫描法民生类话题（物
力扣1557. 可以到达所有点的最少点数目阳光男孩01 leetcode 算法职场和发展
力扣1557.可以到达所有点的最少点数目题目题目解析及思路题目要求找到一个最小的点集，使得从这个点集出发，能到达所有点考虑答案点集的构成，如果一个点能被其他点到达，那它一定会被替换因此最终点集一定是所有入度为0的点构成的代码classSolution{public:vectorfindSmallestSetOfVertices(intn,vector>&edges){vectord(n,0);//
总统发币成版本答案，历史的回旋镖含金量还在上升 web3区块链比特币
作者：Techub独家解读撰文：Babywhale，TechubNews继特朗普之后，市场一直期待的「总统发币潮」迎来了首位参与者。香港时间今日7时左右，中非共和国总统福斯坦·阿尔尚热·图瓦德拉发推称：今天，我们推出CAR，这是一项实验，旨在展示像meme这样简单的东西如何能够团结人民、支持国家发展，并以独特的方式将中非共和国推向世界舞台。合约：7oBYdEhV4GkXC19ZfgAvXpJWp2
Python面向对象面试题及参考答案大模型大数据攻城狮 python 面试继承封装接口隔离弱引用元类
目录什么是面向对象编程？Python中的类和对象是什么？什么是继承？Python如何实现继承？什么是多态？Python如何实现多态？Python中的类属性和实例属性有什么区别？类属性和实例属性的访问优先级规则是什么？Python中的实例方法、类方法和静态方法有什么区别？静态方法、类方法、实例方法的参数传递差异是什么？什么是构造函数（init）？解释__init__方法与__new__方法的区别Py
15天大厂真题带刷day1 练习时长两年半1 算法数据结构
牛客网在线编程_算法面试_15天大厂真题带刷(nowcoder.com)ZT123年OPPO-a的翻转描述数字a翻转数位得到数字b，计算+a+b。输入描述：一个正整数 (1⩽⩽109)a(1⩽a⩽109)。保证a在十进制下每一位都非00。输出描述：一个正整数表示答案。示例1输入：12输出：33说明：正整数=12a=12，翻转得到=21b=21，+=33a+b=33。示例2输入：23输出：55im
Eureka、Zookeeper、Nacos 三国杀：谁才是微服务“全家桶”的终极答案？码农技术栈 eureka zookeeper 微服务 spring cloud spring boot 后端
引言：微服务世界的“三大护法”如果你在微服务领域摸爬滚打过，一定听过这三个名字：Eureka、Zookeeper、Nacos。它们看似都解决了“服务发现”问题，但背后的定位天差地别——Eureka是Netflix的“退休老干部”（已停更），主打高可用；Zookeeper是Apache的“强迫症管家”，专注强一致性；Nacos是阿里的“全能新秀”，号称“服务发现+配置管理”二合一。到底怎么选？我们通
2024年BCSP-X小学低年级组初赛测试题（模拟题解析）天秀信奥编程培训 #BCXP-X模拟题北京BCSP-X试题讲解专栏 BCXP-X 信息学奥赛 c++
一、单项选择（共15题，每题2分，共计30分，每题有且仅有一个正确选项）以下是题目和解析的完整格式:不可以作为c++中的变量名的是（）。A.I以下loveChinaB.I_loveChinaC.I_love_ChinaD.i_loveChina正确答案：A.I以下loveChina解析：在C++中，变量名命名需要遵循一定的规则。变量名可以由字母、数字和下划线组成，但是第一个字符不能是数字。此外，变
矩阵与图论系列题解搂鱼114514 矩阵图论算法
1.AT_dp_rWalk题意一个有向图有nnn个节点，编号111至nnn。给出一个二维数组A1...n,1...nA_{1...n,1...n}A1...n,1...n，若Ai,j=1A_{i,j}=1Ai,j=1说明节点iii到节点jjj有一条有向边;若Ai,j=0A_{i,j}=0Ai,j=0则说明节点iii到节点jjj没有边。求长度为kkk的路径的方案数。答案模109+710^9+7109
C++ 练习2 四代目水门 C++学习笔记 c++算法开发语言
题目1：定义Person类要求：字段：idCard（身份证号）、name（姓名）、gender（性别）、age（年龄）、profession（职业）、phone（联系方式），并定义构造函数初始化这些字段。方法message()：输出个人信息。答案：cpp#include#includeusingnamespacestd;classPerson{private:stringidCard,name,g
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep

（图文详细）云计算与大数据实训作业答案（之篇三HDFS和MapReduce实训 ）

HDFS和MapReduce实训

第1关：WordCount词频统计

第2关：HDFS文件读写

第3关：倒排索引

第4关： 网页排序——PageRank算法

你可能感兴趣的:(云计算与大数据,云计算与大数据实训作业答案)

（图文详细）云计算与大数据实训作业答案（之篇三HDFS和MapReduce实训）

第4关：网页排序——PageRank算法