跑得贼鸡儿快

MapReduce经典案例实战

实验实现过程

重要知识点：

MapReduce是一种分布式并行编程模型,是Hadoop核心子项目之一,如果已经安装了Hadoop，就不需要另外安装MapReduce。
主要的理论知识点：
（1）倒排索引
倒排索引是文档检索系统中最常用的数据结构，被广泛应用于全文搜索引擎。倒排索引主要用来存储某个单词（或词组）在一组文档中的存储位置的映射，提供了可以根据内容来查找文档的方式，而不是根据文档来确定内容，因此称为倒排索引（Inverted Index）。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件(Inverted File)。
（2）数据去重
数据去重主要是为了掌握利用并行化思想来对数据进行有意义的筛选，数据去重指去除重复数据的操作。在大数据开发中，统计大数据集上的多种数据指标，这些复杂的任务数据都会涉及数据去重。
（3）TopN排序
TopN分析法是指从研究对象中按照某一个指标进行倒序或正序排列，取其中所需的N个数据，并对这N个数据进行重点分析的方法。
MapReduce的程序可以用Eclipse编译运行或使用命令行编译打包运行，本实验使用Eclipse编译运行MapReduce程序。

实验准备工作：
1、掌握Eclipse以及插件的安装与配置
2、熟悉在Eclipse中操作分布式系统HDFS 中的文件的方法
以上内容前面文章已做：
大数据实验环境准备与配置(1/4)
https://blog.csdn.net/weixin_43640161/article/details/108614907
大数据实验环境准备与配置(2/4)
https://blog.csdn.net/weixin_43640161/article/details/108619802
大数据实验环境准备与配置(3/4)
https://blog.csdn.net/weixin_43640161/article/details/108691921
大数据实验环境准备与配置(第四部分完结)
https://blog.csdn.net/weixin_43640161/article/details/108697510
Hadoop环境配置与测试
https://blog.csdn.net/weixin_43640161/article/details/108745864
分布式文件系统HDFS Shell命令和API编程
https://blog.csdn.net/weixin_43640161/article/details/108879567
MapReduce编程实践
https://blog.csdn.net/weixin_43640161/article/details/108947291

实验一：倒排索引案例实现–请根据理论课案例分析步骤实现具体的倒排索引

假设有file1.txt，file2.txt，file3.txt。它们的内容分别如下：
file1.txt文件内容：MapReduce is simple
file2.txt文件内容：MapReduce is powerful is simple
file3.txt文件内容：Hello MapReduce bye MapReduce
具体步骤如下：
一、在 Eclipse 中创建 MapReduce 项目
点击 File 菜单，选择 New -> Project…:选择 Map/Reduce Project，点击 Next。

填写 Project name 为MapReduceDemo即可，点击 Finish 就创建好了项目。

此时在左侧的 Project Explorer 就能看到刚才建立的项目了。接着右键点击刚创建的 MapReduce项目src，选择 New -> packet，在 Package 处填写 cn.com.sise.mapreduce.invertedindex；

二、Map阶段实现
在cn.com.sise.mapreduce.invertindex包下新建自定义类Mapper类InvertedIndexMapper，该类继承Mapper类，如下图所示。

该类的作用：将文本中的单词按照空格进行切割，并以冒号拼接，“单词：文档名称
”作为key，单词次数作为value，都以文本方式传输至Combine阶段。
参考代码如下：

package cn.com.sise.mapreduce.invertedindex;

import java.io.IOException;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class InvertedIndexMapper extends Mapper {
	private static Text keyInfo = new Text();//存储单词和URL组合
	private static final Text valueInfo = new Text("1");//存储词频,初始化为1
	@Override
	protected void map(LongWritable key, Text value, Context context) throws IOException,InterruptedException{ 
	      String line = value.toString();
	      String[] fields = StringUtils.split(line, " ");//得到字段数组
	      FileSplit fileSplit = (FileSplit) context.getInputSplit();//得到这行数据所在的文件切片
	      String fileName = fileSplit.getPath().getName();//根据文件切片得到文件名
	      for (String field : fields){
	    	  //key值由单词和URL组成,如"MapReduce:file1"
	    	  keyInfo.set(field +":" + fileName);
	    	     context.write(keyInfo, valueInfo);
	      }
    }
}

三、Combine阶段实现
根据Map阶段的输出结果形式，在cn.com.sise.mapreduce.invertindex包下，自定义实现Combine阶段的类InvertedIndexCombiner，该类继承Reducer类，对每个文档的单词进行词频统计，如下图所示。

该类作用：对Map阶段的单词次数聚合处理，并重新设置key值为单词，value值由文档名称和词频组成。
参考代码：

package cn.com.sise.mapreduce.invertedindex;

import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class InvertedIndexCombiner extends Reducer{ 
	private static Text info = new Text();
    //输入: 
    //输出: 
    @Override
    protected void reduce(Text key, Iterable values, Context context) throws IOException,InterruptedException{
    int sum=0;//统计词频
    for (Text value : values) {
    	sum += Integer.parseInt(value.toString());
    }
    int splitIndex = key.toString().indexOf(":");//重新设置value值由URL和词频组成
      info.set(key.toString().substring(splitIndex +1) +":" + sum);
      //重新设置key值为单词
      key.set(key.toString().substring(0, splitIndex));
      context.write(key, info);
    }
}

四、Reduce阶段实现
根据Combine阶段的输出结果形式，同样在cn.com.sise.mapreduce.invertindex包下，自定义实现Reducer类InvertedIndexReducer,该类继承Reducer，同上步，略。
该类作用：接收Combine阶段输出的数据，按照最终案例倒排索引文件需求的样式，将单词作为key，多个文档名称和词频连接作为value，输出到目标目录。

参考代码：

package cn.com.sise.mapreduce.invertedindex;

import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class InvertedIndexReducer extends Reducer { 
	private static Text result = new Text();
	//输入: 
	//输出: 
	@Override
	protected void reduce(Text key, Iterable values, Context context)
			throws IOException, InterruptedException {
		//生成文档列表
		String fileList = new String();
		for (Text value : values) {
			fileList += value.toString() +";";
		}
		result.set(fileList);
		context.write(key, result);
		}
	}

五、Runner程序主类实现
在同一个包下编写MapReduce程序运行主类InvertedIndexDriver。
该类作用：设置MapReduce工作任务的相关参数，本来采用集群运行模式。因此，需要设置远程HDFS系统源文件目录（hdfs://localhost:9000/user/hadoop/inputdata）以及结果输出目录（hdfs://localhost:9000/user/hadoop/outputdata）,设置完毕，运行主程序即可。

参考代码：

package cn.com.sise.mapreduce.invertedindex;

import java.io.IOException;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input. FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.yarn.service.api.records.Configuration;

public class InvertedIndexDriver { 
/**
 * @param args
 * @throws InterruptedException 
 * @throws IOException
 * @throws ClassNotFoundException
 */
public static void main(String[] args) throws ClassNotFoundException,IOException,InterruptedException{ 
     Configuration conf = new Configuration();
     Job job = Job.getInstance();
     job.setJarByClass(InvertedIndexDriver.class);
     job.setMapperClass(InvertedIndexMapper.class);
     
     job.setCombinerClass(InvertedIndexCombiner.class);    
     job.setReducerClass(InvertedIndexReducer.class);
     job.setOutputKeyClass(Text.class);
     job.setOutputValueClass(Text.class);
     FileInputFormat.setInputPaths(job, new Path("hdfs://localhost:9000/user/hadoop/inputdata"));
     //指定处理完成之后的结果所保存的位置
     FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:9000/user/hadoop/outputdata"));
     //向yarn集群提交这个job
     boolean res =job.waitForCompletion(true);
     System.exit(res? 0: 1);
     }
}

六、数据准备
（1）在linux本地目录下（/home/hadoop/workspace/MapReduceDemo）新建源文件file1.txt，file2.txt，file3.txt。
file1.txt文件内容：MapReduce is simple
file2.txt文件内容：MapReduce is powerful is simple
file3.txt文件内容：Hello MapReduce bye MapReduce
参考命令代码如下：
pwd
cd workspace/MapReduceDemo/
sudo vim file1.txt
sudo vim file2.txt
sudo vim file3.txt
ls

（2）启动hadoop（start-all.sh），在hdfs分布式文件系统目录（/user/hadoop/）中新建inputdata目录，然后将步骤（1）中的3个文件上传到该目录下，参考命令代码如下：
启动Hadoop:

操作完成后记得鼠标右键空白处刷新


把刚刚创建的三个txt文件上传到inputdata目录

七、运行并查看结果（2种方式）

（1）shell命令
终端命令：
hdfs dfs -ls /user/hadoop/outputdata
hdfs dfs -cat /user/hadoop/outputdata/part-r-00000

（2）Eclipse IDE

实验二：数据去重案例实现

假设有数据文件file4.txt和file5.txt，内容分别如下,编程实现2个文件内容去重：
file4.txt内容：
2020-9-1 a
2020-9-2 b
2020-9-3 c
2020-9-4 d
2020-9-5 a
2020-9-6 b
2020-9-7 c
2020-9-3 c

file5.txt内容：
2020-9-1 b
2020-9-2 a
2020-9-3 b
2020-9-4 d
2020-9-5 a
2020-9-6 c
2020-9-7 d
2020-9-3 c
1.在MapReduceDemo项目下新建包cn.com.sise.mapreduce.dedup,思路请参考实验一。

2.Map阶段实现
在包cn.com.sise.mapreduce.dedup下自定义类DedupMapper，该类继承Mapper。
该类作用：读取数据集文件将TextInputFormat默认组件解析的类似<0,2020-9-1 a>键值对修改为<2020-9-1 a,null>

参考代码：

package cn.com.sise.mapreduce.dedup;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class DedupMapper extends Mapper 
   { private static Text field = new Text();
   //<0,2020-9-3 c><11,2020-9-4 d>@Override
   protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{ 
   field = value;
   context.write(field, NullWritable.get());
   }
   // <2020-9-3 c.null> <2020-9-4 d.null>
}

3.Reduce阶段实现
在相同包下自定义DedupReducer类，该类继承Reducer。
该类作用：仅接受Map阶段传递过来的数据，根据Shuffle工作原理，键值key相同的数据就会被合并，因此输出的数据就不会出现重复数据了。

参考代码：

package cn.com.sise.mapreduce.dedup;

import java.io.IOException;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class DedupReducer extends Reducer {
	//<2020-9-3 c.null> <2020-9-4 d.null><2020-9-4 d.null>
	@Override
	protected void reduce(Text key, Iterable values, Context context)
			throws IOException, InterruptedException {
		context.write(key, NullWritable.get());		
		}
}

Runner主程序实现
编写MapReduce程序运行主类DedupRunner。
该类作用：设置MapReduce工作任务的相关参数，本案例采用集群运行模式。因此，需要设置远程HDFS系统源文件目录（hdfs://localhost:9000/user/hadoop/inputdata1）以及结果输出目录（hdfs://localhost:9000/user/hadoop/outputdata1）,设置完毕，运行主程序即可。

参考代码：

package cn.com.sise.mapreduce.dedup;

import java.io.IOException;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.yarn.service.api.records.Configuration;


public class DedupRunner {
   public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException{ 
   Configuration conf = new Configuration();
   Job job =Job.getInstance();
   job.setJarByClass(DedupRunner.class);
   job.setMapperClass(DedupMapper.class);
   job.setReducerClass(DedupReducer.class);
   job.setOutputKeyClass(Text.class);
   job.setOutputValueClass(NullWritable.class);
   FileInputFormat.setInputPaths(job, new Path("hdfs://localhost:9000/user/hadoop/inputdata1"));
   //指定处理完成之后的结果所保存的位置
   FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:9000/user/hadoop/outputdata1"));
   
   job.waitForCompletion(true);
   }
}

数据准备（思路参考实验一）
在linux本地目录下（/home/hadoop/workspace/MapReduceDemo）新建源文件file4.txt，file5.txt（内容已给），然后在hdfs分布式文件系统目录（/user/hadoop）中新建inputdata1目录，将本地2个文件上传到该目录下，参考命令代码如下：
终端命令：
cd workspace/MapReduceDemo/
sudo vim file4.txt
sudo vim file5.txt

6.运行并查看结果（2种方式，请参考实验一）

鼠标右键刷新hadoop

（1）shell命令
终端命令：
hdfs dfs -ls /user/hadoop/outputdata1
hdfs dfs -cat /user/hadoop/outputdata/part-r-00000

（2）Eclipse IDE

实验三：TopN排序案例实现

假设有数据文件num.txt，文件内容如下：
10 3 8 7 6 5 1 2 9 4
11 12 17 14 15 20
19 16 18 13
要求使用MapReduce技术提取上述文本中最大的5个数据，并将最终结果汇总到一个文件中。

1.在MapReduceDemo项目下新建包cn.com.sise.mapreduce.topn,思路请参考实验一和二。

2.Map阶段实现
自定义TopNMapper类，继承Mapper。
该类作用：先将文件中的每行数据进行切割提取，并把数据保存到TreeMap中，判断TreeMap是否大于5，如果大于5就需要移除最小的数据。由于数据是逐行读取，如果这时就向外写数据，那么TreeMap就保存了每一行的最大5个数，因此需要在cleanup()方法中编写context.write()方法，这样就保证了当前MapTask中TreeMap保存了当前文件最大的5条数据后，再输出到Reduce阶段。

参考代码：

package cn.com.sise.mapreduce.topn;

import java.util.TreeMap;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class TopNMapper extends Mapper {
  private TreeMap repToRecordMap = new TreeMap();
  //<0,10 387651294//
  @Override
  public void map(LongWritable key, Text value, Context context) { 
      String line = value.toString();
      String[] nums = line.split("");
      for (String num : nums) {
   	   repToRecordMap.put(Integer.parseInt(num), " ");
   	   if (repToRecordMap.size() >5) {
   		   repToRecordMap.remove(repToRecordMap.firstKey());
   		   }
   	   }
    }
      @Override
      protected void cleanup(Context context) {
   	   for (Integer i : repToRecordMap.keySet()){
   		   try {
   			   context.write(NullWritable.get(), new IntWritable(i));
   		   }catch (Exception e){
   			   e.printStackTrace();
   	   }
    }
}
}

Reduce阶段
在同一个包下自定义TopNReducer类，该类继承Reducer。
该类作用：首先TreeMap自定义排序规则，当需求取最大值时，只需要在compare()方法中返回正数即可满足倒序排序，reduce()方法依然要满足时刻判断TreeMap中存放数据是前5个数，并最终遍历输出最大的5个数。

参考代码：

package cn.com.sise.mapreduce.topn;

import java.io.IOException;
import java.util.Comparator;
import java.util.TreeMap;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Reducer;

public class TopNReducer extends Reducer { 
	private TreeMaprepToRecordMap = new TreeMap
	(new Comparator(){
	//返回一个基本类型的整型,谁大谁排后面.
	//返回负数表示：01小于02
	//返回0表示:表示: 01和02相等
	//返回正数表示: 01大于02。
	public int compare(Integer a, Integer b) {
		return b-a;
		}
	});	
	   public void reduce(NullWritable key, Iterable values, Context context)
			   throws IOException, InterruptedException {
		   for (IntWritable value : values) {
			   repToRecordMap.put(value.get(),"");
			   	if (repToRecordMap.size()> 5) {
			   		repToRecordMap.remove(repToRecordMap.firstKey());
			   	}
			 }
			 for (Integer i : repToRecordMap.keySet()) {
				 context.write(NullWritable.get(), new IntWritable(i));
			   	}
		}
	}

Runner程序主类实现
在linux本地目录下（/home/hadoop/workspace/MapReduceDemo）新建源文件num.txt（内容已给），然后在hdfs分布式文件系统目录（/user/hadoop）中新建inputdata2目录，将本地2个文件上传到该目录下，参考命令代码如下：

参考代码：

package cn.com.sise.mapreduce.topn;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.yarn.service.api.records.Configuration;

public class TopNRunner {
   public static void main(String[] args) throws Exception {
   	Configuration conf = new Configuration();
   	Job job = Job.getInstance();
   	job.setJarByClass(TopNRunner.class);
   	job.setMapperClass(TopNMapper.class);
   	job.setReducerClass(TopNReducer.class);
   	job.setNumReduceTasks(1);
   	job.setMapOutputKeyClass(NullWritable.class);// map阶段的输出的key
   	job.setMapOutputValueClass(IntWritable.class);// map阶段的输出的value
   	job.setOutputKeyClass(NullWritable.class);// reduce阶段的输出的key
   	job.setOutputValueClass(IntWritable.class);// reduce阶段的输出的value.
   	FileInputFormat.setInputPaths(job, new Path("hdfs://localhost:9000/user/hadoop/inputdata2"));
   	FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:9000/user/hadoop/outputdata2"));
   	boolean res =job.waitForCompletion(true);
   	System.exit(res? 0: 1);
   }
}

运行并查看结果

** 到了这一步，本次实验就完成了，你今天学会了吗？**

Pytorch使用手册—使用TACOTRON2进行文本到语音转换（专题二十四） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
一、概述本教程展示了如何使用torchaudio中的预训练Tacotron2构建文本到语音的管道。文本到语音的管道流程如下：文本预处理首先，输入的文本被编码为一系列符号。在本教程中，我们将使用英语字符和音标作为符号。谱图生成从编码后的文本中生成谱图。我们使用Tacotron2模型来完成这一步。3.时域转换最后一步是将谱图转换为波形。从谱图生成语音的过程也称为Vocder（声码器）。在本教程中，我们
【C++教程】逻辑运算符真值表小鹏编程开发语言 c++教程
逻辑非运算符（!）逻辑非运算符是一元运算符，用于对单个布尔值取反。操作数A!Afalsetruetruefalse逻辑与运算符（&&）逻辑与运算符是二元运算符，只有当两个操作数都为true时，结果才为true。操作数A操作数BA&&Btruetruetruetruefalsefalsefalsetruefalsefalsefalsefalse逻辑或运算符（||）逻辑或运算符是二元运算符，只要两个操
Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
免费虚拟主机天道大帝 python django pygame virtualenv scrapy
天道论坛云服务免费虚拟主机https://www.pantd.com解锁高效开发：免费虚拟主机助力你的项目腾飞在当今数字化浪潮中，无论是初出茅庐的新手开发者渴望一展身手，还是经验丰富的编程大咖想要快速验证创意，一款优质的虚拟主机都至关重要。今天，就为大家揭开一款免费虚拟主机的神秘面纱，让你轻松开启线上项目之旅。一、便捷入门，零成本启航对于刚踏入编程世界的小白来说，资金往往是开启项目的一大阻碍。这款
C++游戏开发系列教程之第二篇：面向对象编程与游戏架构设计放氮气的蜗牛深度博客游戏
大家好，欢迎回到C++游戏开发系列教程！在第一篇中，我们介绍了C++游戏开发的基本概念和如何搭建一个简单的游戏循环，为新手打开了C++游戏开发的大门。本篇博客将深入讲解面向对象编程（OOP）在游戏开发中的重要性，以及如何设计一个简单而有效的游戏架构。通过本篇文章，你将学到如何利用C++的类与继承构建游戏中的各个对象（如玩家、敌人等），并结合游戏循环实现一个基础的游戏状态管理系统。所有代码均附有详细
Composer如何通过GitHub Personal Access Token安装私有包：完整教程 lihuang319 composer github php
使用Composer安全管理您的PHP私有依赖包一、前言在PHP开发中，我们经常需要将内部工具包托管为私有仓库。传统的账号密码验证方式存在安全隐患，而GitHubPersonalAccessToken（PAT）提供了一种更安全的鉴权方案。本文将通过4个核心步骤+3个避坑指南，手把手教您在Composer中优雅地使用PAT安装私有包。二、为什么要用PAT？安全性：细粒度权限控制（可设置过期时间/单仓
硬盘数据恢复操作全攻略 AR新视野
本文还有配套的精品资源，点击获取简介：硬盘数据恢复是一项需要精确操作的技术活动，主要针对丢失、误删或损坏的文件进行恢复。本教程通过深入探讨数据恢复的基础知识和步骤，指导用户如何安全有效地执行数据恢复。教程强调了在硬盘故障发生时的正确处理方式，包括避免在受损硬盘上直接操作、使用保护卡或克隆技术复制数据，以及选择合适的数据恢复软件等。教程还提供了数据恢复的基本步骤，并告诫用户在数据非常关键或硬件问题复
探索React的深度应用：React Survey——构建问卷神器傅尉艺Maggie
探索React的深度应用：ReactSurvey——构建问卷神器去发现同类优质开源项目:https://gitcode.com/在浩瀚的前端开发世界里，React与Redux已成为构建复杂Web应用的得力助手，但它们的强大往往隐藏在基础教程之后。今天，让我们一同探索【ReactSurvey】，一个将React与Redux之力发挥至极致的开源项目，教你如何轻松打造专业的在线问卷系统。项目介绍Reac
白帽黑客系列教程之Windows驱动开发（64位环境）入门教程（七）黑客影儿技术分享原创文章系统安全驱动开发 c语言 windows 系统安全程序人生学习方法 visual studio
为什么要写这篇文章呢？作为一名白帽黑客，如果想要学习ROOTKIT攻防技术，就必须要有能力进行驱动开发！本文章仅提供学习，切勿将其用于不法手段！在Windows操作系统的64位环境中，进行ROOTKIT攻防，就必须要学会Windows驱动开发！Windows驱动开发，是掌握Rootkit技术的硬性基础之一！不会Windows环境下的驱动开发，你就难以透彻理解ROOTKIT攻防技术的真相！接上一篇文
（自用记录）笔记本更换非系统盘D盘硬盘吕諹电脑
笔记本有两个硬盘位，都有原装的512G的硬盘。由于本人爱好玩游戏又不喜欢往C盘里塞东西，所以游戏文件都在D盘，再加上平常娱乐和学习使用的软件，D盘空间只剩十多个G，于是买了个2T的西数SN850X硬盘准备替换原装D盘位置，在站内看了很多基本都是迁移系统盘的教程，本人是小白没有经验也不敢轻易尝试，不知道更换非系统盘和系统盘有什么区别，在询问朋辈后才了解到用diskgenius操作大同小异且更简单易行
python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
OPC UA 资料收藏小毛驴850 软件工程
1、教程OPCUAClient：UaExpert教程-无公害水果-博客园2、代码OpcUaHelper:一个通用的opcua客户端类库，基于.net4.6.1创建，基于官方opcua基金会跨平台库创建，封装了节点读写，批量节点读写，引用读取，特性读取，历史数据读取，方法调用，节点订阅，批量订阅等操作。还提供了一个节点浏览器工具
《RabbitMQ系列教程-第四章-07-RabbitMQ工作模式之Publisher Confirms 模式》_rabbitmq publisher confirms 2401_84264727 程序员 rabbitmq 分布式
写在最后在结束之际，我想重申的是，学习并非如攀登险峻高峰，而是如滴水穿石般的持久累积。尤其当我们步入工作岗位之后，持之以恒的学习变得愈发不易，如同在茫茫大海中独自划舟，稍有松懈便可能被巨浪吞噬。然而，对于我们程序员而言，学习是生存之本，是我们在激烈市场竞争中立于不败之地的关键。一旦停止学习，我们便如同逆水行舟，不进则退，终将被时代的洪流所淘汰。因此，不断汲取新知识，不仅是对自己的提升，更是对自己的
《AI 大模型 ChatGPT 的传奇》武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js 算法数据结构
《AI大模型ChatGPT的传奇》——段方某世界100强企业大数据/AI总设计师教授北京大学博士后助理：1三6三二四61四五41AI大模型的概念和特点1.1什么是”大模型、多模态“？1.2大模型带来了什么？1.3大模型为什么能产生质变？1.4算法层面的跃升1.4.1RNN到transformor1.4.2扩散模型diffusion1.4.3跨模态的CLIP框架1.5AIGC的耀眼成果1.5.1AI
使用内置命令查看笔记本电池健康状态 jay丿电脑单片机嵌入式硬件
如何使用powercfg/batteryreport命令查看笔记本电池健康状态在Windows系统中，了解笔记本电池的健康状态对于维护电脑性能和预测电池寿命至关重要。Windows10和Windows11系统提供了一个内置命令powercfg/batteryreport，可以生成一份详细的电池使用情况报告，帮助我们评估电池的健康状态。以下是使用此命令的详细教程：一、打开命令提示符快捷键打开：按下键
BCT计算图论属性皎皎如月明图论
本文翻译了BCT官网给出的一些指导，同时包含本人在计算图论属性过程中的一些思考目前看到的教程中，大部分都只用一个确定的稀疏度来计算图论属性我更倾向于gretna那种采用稀疏度序列来计算AUC曲线下面积衡量不同稀疏度下组间差异的方法大部分图论属性都与网络稀疏度取值相关，只用一个稀疏度得到的指标在我看来是不够可靠的接下来我将提供BCT工具包的一些使用注意事项：1.检查矩阵（重要！！如果你的矩阵不符合使
RK3568平台开发系列讲解（内核篇）Linux 内核启动流程内核笔记 RK3568 linux
更多内容可以加入Linux系统知识库套餐（教程＋视频＋答疑）返回专栏总目录文章目录一、Linux内核启动流程导图二、自解压阶段三、内核运行入口四、汇编阶段五、C函数阶段六、启动内核现场七、执行第一个应用init程序沉淀、分享、成长，让自己和他人都能有所收获！一、Linux内核启动流程导图自解压：Bootlo
技术教程 | 如何实现1v1音视频通话（含源码）网易数智 WebRTC 音视频 ai 人工智能实时音视频语音识别实时互动信息与通信
今天，给大家讲一下怎么实现1v1音视频通话，以下是教程内容：开发环境开发环境要求如下：环境要求说明JDK版本1.8.0及以上版本AndroidAPI版本API21、AndroidStudio5.0及以上版本CPU架构ARM64、ARMV7IDEAndroidStudio其他依赖Androidx，不支持support库。注意事项1对1娱乐社交场景方案的呼叫能力基于云信呼叫组件，技术原理一对一通话功能
如何使用Python爬虫实时获取股票行情数据并进行分析：完整教程 Python爬虫项目 2025年爬虫实战项目爬虫 python 开发语言信息可视化 c++
前言在金融领域，股票行情的实时获取和分析是投资决策中至关重要的一环。借助Python的强大生态系统，结合爬虫技术和数据分析库，投资者可以实时获取股票行情数据，并通过各种算法和模型进行深入分析。本教程将从零开始，带你深入学习如何使用Python爬取股票行情数据并进行分析。一、爬虫技术概述爬虫是从网络上自动提取信息的程序，它可以帮助我们获取互联网数据。在股票分析中，爬虫技术的应用非常广泛，尤其是通过A
十、大数据资源平台功能架构 moton2017 大数据治理大数据大数据治理数据资产数据管理元数据架构数据资源
一、大数据资源平台的功能架构图总体结构大数据资源平台功能架构图关键组件：1.用户（顶行）此部分标识与平台交互的各种利益相关者。其中包括：市领导各部门分析师区政府外部组织公民开发人员运营经理2.功能模块（顶部水平部分）这些代表平台的主要功能区域：门户（Portal）：用户访问平台的入口。开放中心（开放中心）：方便数据共享和访问。共享中心（共享中心）：管理数据共享和协作。运营中心：监控和管理平台的运营
【Flutter 1-16】Flutter手把手教程UI布局和Widget——容器控件Container 我们先来看一下Container初始化的参数： m0_54072730 flask
Container({Keykey,//位置居左、居右、居中this.alignment,//EdgeInsetsContainer的内边距this.padding,//背景颜色this.color,//背景装饰器this.decoration,//前景装饰器this.foregroundDecoration,//宽度doublewidth,//告诉doubleheight,//约束BoxCons
nvidia docker, nvidia docker2, nvidia container toolkits区别 coco_1998_2 #CUDA #Docker docker 容器
背景在docker容器中用GPU时，查阅了网上许多教程，教程之间概念模糊不清，相互矛盾，过时的教程和新的教程混杂在一起。主要原因是Nvidia为docker容器的支持发生了好几代变更，api发生了不少变化。下面来总结一下各代支持发展历程。省流版总结凡是使用了命令nvidiadocker或者在docker中引入了--runtime=nvidia参数的都是过时教程，最新方法只需要下载nvidia-co
【教程4＞第1章＞第4节】FPGA时序图制作小工具 fpga和matlab #fpga开发时序图
欢迎订阅《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程3:simulink入门60例》《★教程4:FPGA/MATLAB/Simulink联合应用开发入门与进阶X例》教程4·目录·目录1.软件版本2.FPGA时序图概述3.FPGA时序图绘制4.视频操作步骤5.总结与展望
Python自动化运维实战，怎么构建分布式质量监控平台好知识传播者 Python实例开发实战运维 python 自动化分布式质量监控平台 linux
注意：本文的下载教程，与以下文章的思路有相同点，也有不同点，最终目标只是让读者从多维度去熟练掌握本知识点。下载教程：Python自动化运维项目开发实战_构建分布式质量监控平台_编程案例解析实例课程教程.pdf一、引言随着企业业务的不断扩展和复杂化，系统运维面临着越来越多的挑战。传统的运维方式已经无法满足现代企业的需求，因此，自动化运维成为了企业提升运维效率、保障系统稳定性的重要手段。在自动化运维中
分布式系统架构设计原理与实战：理解分布式系统的基本概念 AI天才研究院计算大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍在当今的互联网时代，数据量的爆炸性增长和业务的快速发展，使得单一的计算机系统已经无法满足我们的需求。为了解决这个问题，分布式系统应运而生。分布式系统是一种能在多台计算机（也称为节点）上运行，并通过网络进行通信和协调的系统。它能够提供高可用性、高可靠性、高扩展性和高性能等特性，因此在云计算、大数据、微服务等领域得到了广泛的应用。然而，设计和实现一个分布式系统并不是一件容易的事情。它涉及到
阿里云服务器的作用腾云服务器阿里云服务器云计算
使用阿里云服务器能做什么？大家都知道可以用来搭建网站、数据库、机器学习、Python爬虫、大数据分析等应用，阿里云服务器网来详细说下使用阿里云服务器常见的玩法以及企业或个人用户常见的使用场景：玩转阿里云服务器使用阿里云服务器最常见的应用就是用来搭建网站，例如个人博客、企业网站等；除了搭建网站还可以利用阿里云GPU服务器搭建机器学习和深度学习等AI应用；使用阿里云大数据类型云服务器做数据分析；利用云
轻松获取京东商品信息：商品详情API接口使用教程 lovelin+vI7809804594 API学习大数据 python json 爬虫后端数据库开发
在电子商务的繁荣时代，商品信息的准确性和实时性对于商家、消费者以及各类电商平台来说至关重要。京东，作为中国领先的电商平台之一，其商品信息更是蕴含着巨大的商业价值和市场洞察。本文将为您详细介绍如何使用京东商品详情API接口，轻松获取京东上的商品信息，并分享一些实用的技巧和注意事项，帮助您更好地利用这一强大工具。一、京东商品信息的重要性京东商品信息不仅包括了商品的基本属性（如名称、价格、规格、图片等）
数据湖构建 HaoHao_010 服务器云服务器云计算阿里云
阿里云的数据湖构建（DataLake）是一种用于存储和处理大量不同类型数据的解决方案，通常用于大数据分析和机器学习等应用场景。数据湖与传统的数据仓库不同，它能够存储结构化、半结构化和非结构化数据，支持大规模数据的整合、存储、查询和分析。阿里云提供了一整套工具和服务来帮助企业构建数据湖，以下是数据湖构建的主要步骤和关键服务：1.数据湖概述数据湖是一种统一的数据存储库，能承载来自多个来源的数据，包括：
学习C的第32天 2401_87766835 学习 c语言 c++
今天是学习C的第32天，分享一下学习感受经验及学习的成果。1.感受：课程已经刷完了，基本的语法和知识点感觉都掌握了，剩下的就是每天做一些题巩固语法，提升代码思维。花了32天学习，从25号过年那天晚上下定决心进步，然后寒假每天都在b站上刷课，每天看七八个小时，然后自己上手去练两三个小时。我是一名计算机小白，到大学才配了电脑，然后对这方面感兴趣就找课程自学，刚开始是很不理解编程语言，什么C、C++、J
Spring Boot2 系列教程(三十)Spring Boot 整合 Ehcache 2401_84048290 程序员 spring boot java spring
工程创建完成后，引入Ehcache的依赖，Ehcache目前有两个版本：这里采用第二个，在pom.xml文件中，引入Ehcache依赖：org.springframework.bootspring-boot-starter-cacheorg.springframework.bootspring-boot-starter-webnet.sf.ehcacheehcache2.10.6添加Ehcache
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

MapReduce经典案例实战

MapReduce经典案例实战

实验实现过程

实验一：倒排索引案例实现–请根据理论课案例分析步骤实现具体的倒排索引

实验二：数据去重案例实现

实验三：TopN排序案例实现

你可能感兴趣的:(小白教程,hadoop,大数据,mapreduce)