鸽子不二

大数据实验报告【全集】

所用教材↑，配套PPT和厦门大学林子雨配套MOOC内容和书里的内容差不多。

【意味着课上不好好听，课下你还能看教科书补(╹ڡ╹ )】建议先实验再听课或看书。

若对你有帮助的话，记得点赞、关注我哦！实验中遇到不少困难，故本文较长，请耐心阅览！

实验标题：①安装Hadoop；②HDFS编程(安装)；③HDFS编程；④Mapreduce编程

大数据类开放在线实践课程（能模拟实验，推荐）：https://www.educoder.net/paths/158

◉ 实验中用到的Linux命令：

cd /home/hadoop #把/home/hadoop设置为当前目录
cd .. #返回上一级目录
cd ~ #进入到当前Linux系统登录用户的主目录（或主文件夹）。在 Linux 系统中，~代表的是用户的主文件夹，
#即“/home/用户名”这个目录，如果当前登录用户名为 hadoop，则~就代表“/home/hadoop/”这个目录
ls #查看当前目录中的文件
ls -l #查看文件和目录的权限信息
mkdir input #在当前目录下创建input子目录
mkdir -p src/main/scala #在当前目录下，创建多级子目录src/main/scala
cat /proc/version #查看Linux系统内核版本信息
cat /home/hadoop/word.txt #把/home/hadoop/word.txt这个文件全部内容显示到屏幕上
cat file1 file2 > file3 #把当前目录下的file1和file2两个文件进行合并生成文件file3
head -5 word.txt #把当前目录下的word.txt文件中的前5行内容显示到屏幕上
cp /home/hadoop/word.txt /usr/local/ #把/home/hadoop/word.txt文件复制到“/usr/local”目录下
rm ./word.txt #删除当前目录下的word.txt文件
rm –r ./test #删除当前目录下的test目录及其下面的所有文件
rm –r test* #删除当面目录下所有以test开头的目录和文件

tar -zxf ~/下载/spark-2.1.0.tgz -C /usr/local/ #把spark-2.1.0.tgz这个压缩文件解压到/usr/local目录下
mv spark-2.1.0 spark #把spark-2.1.0目录重新命名为spark
chown -R hadoop:hadoop ./spark # hadoop是当前登录Linux系统的用户名，把当前目录下的spark子目录的所有权限，
#赋予给用户hadoop
ifconfig #查看本机IP地址信息
exit #退出并关闭Linux终端

◉ Vim编辑器命令：

sudo apt-get install vim
vim word.txt
按Esc退出编辑   i编辑
:x 或 :wq 回车，保存后退出
:q 回车，不保存并退出
:q! 回车，不保存并强制退出

◉ 每次重新启动虚拟机，或者在不同的地方（实验室或者宿舍）启动虚拟机，IP地址都可能会发生变化，所以每次登录Ubuntu系统以后，都需要重新查询IP地址 = “inet地址”。

◉ virtual box怎么全屏显示？

启动Linux系统后，在虚拟机窗口的“设备”处选择“安装增强功能”，点击“运行”后会弹出授权窗体，安装后即可全屏。

一阵子不用虚拟机就忘怎么操作。

◉ 关于Linux下JDK：

$ which java 查看JDK的安装路径/usr/java/jdk/jdk1.8.0_172/

$ rm -rf /usr/java/jdk/jdk1.8.0_172/ 卸载JDK，并如下图所示，在~/.bashrc文件中把相关JAVA_HOME的配置信息删除。

$ java -version 或 $ java 或 $ javac 检查JDK版本，即检查是否存在JDK

始终无法自如更换JDK版本，网上多半说的是这种方法：https://blog.csdn.net/apple_4872330/article/details/104615894?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-3

我觉得我的方法更简单 ↓

实验一安装Hadoop（黑字基本都是废话，往下拉有推荐链接和我踩过的坑）

一、实验目的

1. 掌握Linux虚拟机安装方法或者双操作系统安装方法。Hadoop在Linux操作系统上运行可以发挥最佳性能，鉴于目前很多读者可能正在使用Windows操作系统，因此，为了完成本书的后续实验，这里有必要通过本实验让读者掌握在Windows操作系统上搭建Linux虚拟机的方法，以及安装双操作系统的方法（同时安装Windows和Linux系统，电脑开机时，可以选择登录哪个系统）。

2. 掌握Hadoop的伪分布式安装方法。很多读者并不具备集群环境，需要在一台机器上模拟一个小的集群，因此，需要通过本实验让读者掌握在单机上进行Hadoop的伪分布式安装方法。

（实验一就是让伪分布式安装Hadoop，我见有些同学用Win10的Linux子系统（不装虚拟机和双系统的方法）来做此实验，也不失为一种很好的选择，推荐这篇博文：手把手教你启用Win10的Linux子系统（超详细）https://blog.csdn.net/zhangdongren/article/details/82663977）

二、实验平台

操作系统：Windows系统或者Ubuntu（或CentOS7）。

虚拟机软件：推荐使用的开源虚拟机软件为VirtualBox 。VirtualBox是一款功能强大的免费虚拟机软件，它不仅具有丰富的特色，而且性能也很优异，简单易用，可虚拟的系统包括Windows、Mac OS X、Linux、OpenBSD、Solaris、IBM OS2甚至Android 4.0系统等操作系统。读者可以在Windows系统上安装VirtualBox软件，然后在VirtualBox上安装并且运行Linux操作系统。本次实验默认的Linux发行版为Ubuntu14.04。

三、实验内容和要求

读者需要构建起Linux系统环境，并在Linux系统上安装Hadoop。

构建Linux系统环境，有两种方式：（1）在Windows系统上安装Linux虚拟机；（2）安装双操作系统，即在电脑上同时安装Windows和Linux系统，电脑开机时，可以选择登录哪个系统。

建议电脑比较新或者配置内存4G以上的电脑可以选择虚拟机安装，电脑较旧或配置内存小于等于4G的电脑强烈建议选择双系统安装，否则，在配置较低的计算机上运行LInux虚拟机，系统运行速度会非常慢。鉴于目前读者的计算机硬件配置一般不高，建议采用双系统安装。

建议读者在完成下列实验之前，仔细阅读网络教程：林子雨老师的blog是我目前看到最简洁明了的，务必看！

2015年出的教程：http://dblab.xmu.edu.cn/blog/285/

针对3.1.3新版出的教程：http://dblab.xmu.edu.cn/blog/2441-2/

注意：Hadoop版本不同，操作方式会有些许不同！

3.1 下载相关软件

如果读者正在使用Linux操作系统，可以跳过本步，不需要下载相关软件。如果读者正在使用Windows操作系统，并且选择虚拟机方式安装Linux系统，请下载VirtualBox虚拟机软件和Ubuntu14.04镜像文件。同时到Apache Hadoop官网下载Hadoop2.7.1版本安装文件。

3.2 安装Linux系统

读者可以选择下面两种方式中的一种方式来安装Linux系统。

3.2.1 虚拟机方式

如果读者正在使用Linux操作系统，则不需要了解Windows系统上的Linux虚拟机安装方法。如果读者正在使用Windows操作系统，则需要在Windows系统上安装Linux虚拟机。首先，在Windows系统上安装虚拟机软件VirtualBox；然后，在虚拟机软件VirtualBox上安装Ubuntu14.04操作系统。

3.2.2 双系统方式

在电脑上同时安装Windows和Linux系统，电脑开机时，可以选择登录哪个系统。可以参考“百度经验”中的安装指南。

第一步：制作安装U盘

根据下面指南，在一个U盘上制作启动安装盘，然后，电脑启动后，就可以从U盘启动安装Ubuntu系统。

http://jingyan.baidu.com/article/59703552e0a6e18fc007409f.html

第二步：双系统安装

请根据下面指南完成双系统安装：

http://jingyan.baidu.com/article/dca1fa6fa3b905f1a44052bd.html

3.3 进行Hadoop伪分布式安装

在Linux环境下完成伪分布式环境的搭建，并运行Hadoop自带的WordCount实例检测是否运行正常。

我的配置：Ubuntu18.04.3LST + Hadoop3.1.3 + JDK-Linux-14.0.1

我踩过的坑：namenode格式化后，既没有Data文件夹，也无法启动DataNode进程

明明按照林子雨老师的步骤一步步做的o(≧口≦)o 很多同学都没有遇到我这类问题，~~是人品的关系吗~~。。。

但我的输出结果如下 ↓

用林子雨老师的方法无效

百度失败

尝试Hadoop2.7.7（有些同学就没问题）不仅没有DataNode和SecondaryNameNode还报错 _(:з)∠)_

终于迎来了问题的突破口！

我看了这篇文章，文末解决了我的问题：https://www.cnblogs.com/zhangyinhua/p/7647686.html#_label0

问题解决后的运行结果 ↓

验证Hadoop是否启动成功？

以前的版本访问MapReduce的页面：http://localhost:50030 HDFS的页面：http://localhost:50070

3.x的版本访问Hadoop Administration：http://localhost:9870

实验二 HDFS编程

一、实验目的

熟悉HDFS操作常用的Java API。

二、实验平台

操作系统：Linux

Hadoop版本：2.6.0或以上版本

JDK版本：1.6或以上版本

Java IDE：Eclipse

三、实验内容和要求

在完成以下实验之前，请认真阅读“大数据课程学生服务站”的学习指南栏目中的相关内容，具体请参见《大数据技术原理与应用第三章 Hadoop分布式文件系统学习指南》，

2015年出的教程： http://dblab.xmu.edu.cn/blog/290-2/

2020年出的教程：http://dblab.xmu.edu.cn/blog/2460-2/

编写一个Java程序，打开一个HDFS中的文件，并读取其中的数据，输出到标准输出；
编写一个Java程序，新建一个HDFS文件，并向其中写入你的名字；
编写一个Java程序，判断HDFS上是否存在某个文件？

要求：在实验报告中，给出实验过程的一些必要截图，并附上源代码。

装Ubuntu时警告10G磁盘空间快见底了，我还没装什么软件呐。。。

我参考了这些文章：

VirtualBox 扩展虚拟硬盘容量 https://blog.csdn.net/ganshuyu/article/details/17954733

注*：我$partprobe会报Warning，在别的博文里看到：使用partprobe重载分区只能是对不同的硬盘才能及时生效。对于同一块硬盘，修改过分区信息后，必须重启系统才能使修改过的分区信息生效。

控制器SATA和IDE是什么? https://zhidao.baidu.com/question/49756416.html

VBOX UBUNTU虚拟机扩容方案虚拟分配空间转换为实际分配空间将新开辟的/dev/sda2挂载到用户下面https://www.freesion.com/article/959318019/

VMware+Ubuntu18.04 磁盘扩容用GParted工具将/dev/sda1与/dev/sda2合并https://blog.csdn.net/lhl_blog/article/details/86636217

我用了最后一篇的方法，主要是简单，还有我不知道挂载到用户下面的/dev/sda2怎么用（怎么改软件默认下载路径）。

挂载是指给磁盘分区（包括被虚拟出来的磁盘分区）分配一个盘符。在第三方软件，如磁盘分区管理软件、虚拟磁盘软件中，也附带有挂载功能。在linux操作系统中，挂载是指将一个设备（通常是存储设备）挂接到一个已存在的目录上。我们要访问存储设备中的文件，必须将文件所在专的分区挂载到一个已存在的目录上，然后通过访问这个目属录来访问存储设备。

新版Ubuntu自带“磁盘”工具，和另外下载的GParted功能一样，所以也可以不下载GParted。

我又踩坑了：没注意看上半部分教程，搞了半天没理解/user/hadoop目录哪来的？5个文件怎么被执行？所以一定要认真看林子雨老师的教程 ↓

林子雨老师给的示例：在目录“hdfs://localhost:9000/user/hadoop”下先上传5个文件file1.txt、file2.txt、file3.txt、file4.abc和file5.abc，要求从该目录中过滤出所有后缀名不为“.abc”的文件，对过滤之后的文件进行读取，并将这些文件的内容合并到文件“hdfs://localhost:9000/user/hadoop/merge.txt”中。

示例结果：

实验结果：

把 f.txt 先上传到HDFS的“/user/”目录下

①只读取了一行，想全部读取可以写个for循环。

②把全部内容改写成“Hello world”。

③检查文件是否存在。

实验三 HBase编程

一、实验目的

1. 理解HBase在Hadoop体系结构中的角色；

2. 熟练使用HBase操作常用的Shell命令；

3. 熟悉HBase操作常用的Java API。

二、实验平台

操作系统：Linux

Hadoop版本：2.6.0或以上版本

HBase版本：1.1.2或以上版本

JDK版本：1.6或以上版本

Java IDE：Eclipse

三、实验内容和要求

我的配置：Ubuntu18.04.3LST + Hadoop3.1.3 + JDK-Linux-14.0.1 + HBase-2.2.5

2020年出的教程：http://dblab.xmu.edu.cn/blog/2442-2/

1. 根据上面给出的表格，用Hbase Shell模式设计student学生表格。

a）设计完后，用scan指令浏览表的相关信息，给出截图。

b）查询zhangsan 的Computer成绩。给出截图。

c）修改lisi的Math成绩，改为95。给出截图。

2. 根据上面已经设计出的student，用Hbase API编程。

a）添加数据：English:45 Math:89 Computer:100

b）获取scofield的English成绩信息

命令'vim'可在'usr/bin/vi/处找到由于/usr/bin不在PATH环境变量中,故无法找到该命令。

命令'lesspipe'可在以下位置找到... 由于/bin:/usr/bin不在PATH环境变量中，故无法找到该命令。

解决方法：检查 ~/.bashrc 文件，路径是否写对。

一定要记得关HBase和Hadoop，不然再次打开时就会报错！

在HBase shell中出现error: KeeperErrorCode = NoNode for /hbase/master

参考：https://blog.csdn.net/shijinxin3907837/article/details/101544390

解决方法：在没有重要文件得情况下，删除tmp文件夹，重新初始化

实验代码：

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Admin;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Table;
 
public class hbase_insert {

      //三个静态成员对象
	  public static Configuration configuration;//管理HBase的配置信息
      public static Connection connection;//管理HBase的连接
      public static Admin admin;  //管理HBase数据库的表信息
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		 configuration  = HBaseConfiguration.create();//使用默认的HBase配置文件创建configuration          configuration.set("hbase.rootdir","hdfs://localhost:9000/hbase");//连接hbase
         try{
             connection = ConnectionFactory.createConnection(configuration);
             admin = connection.getAdmin();
         }catch (IOException e){
             e.printStackTrace();
         }
         try {//插入的信息
			insertRow("student","scofield","score","English","45");
			insertRow("student","scofield","score","Math","89");
			insertRow("student","scofield","score","Computer","100");
		} catch (IOException e) {//异常处理
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
         close();
	}
	 public static void insertRow(String tableName,String rowKey,String colFamily,
			 String col,String val) throws IOException {
         Table table = connection.getTable(TableName.valueOf(tableName));
         Put put = new Put(rowKey.getBytes());
         put.addColumn(colFamily.getBytes(), col.getBytes(), val.getBytes());
         table.put(put);
         table.close();
     }
      //关闭连接
	  public static void close(){
            try{
                if(admin != null){
                    admin.close();
                }
                if(null != connection){
                    connection.close();
                }
            }catch (IOException e){
                e.printStackTrace();
            }
     }
}

实验结果：

参考：大数据——四种数据库(MySQL,HBase,MongoDB,Redis)操作实例总结https://blog.csdn.net/weixin_43042683/article/details/106230370

先开Hadoop→HBase（最不方便的是中途你最好不要写错一个字，不然很容易报错）→先关HBase→Hadoop

① 用Hbase Shell模式设计student学生表格，用scan指令浏览表的相关信息

②查询 zhangsan 的Computer成绩

③修改 lisi 的Math成绩，改为95

④用Hbase API编程，添加数据：English:45 Math:89 Computer:100

⑤获取 scofield 的English成绩信息

实验四 MapReduce编程

一、实验目的

1. 理解Hadoop中MapReduce模块的处理逻辑

2. 熟悉MapReduce编程

二、实验平台

操作系统：Linux

工具：Eclipse或者Intellij Idea等Java IDE

三、实验内容和要求

2020年出的教程：http://dblab.xmu.edu.cn/blog/2481-2/

1. 在电脑上新建文件夹input，并input文件夹中创建三个文本文件：file1.txt,file2.txt,file3.txt

三个文本文件的内容分别是：

file1.txt: hello dblab world

file2.txt: hello dblab hadoop

file3.txt: hello mapreduce

2. 启动hadoop伪分布式，将input文件夹上传到HDFS上

3. 编写mapreduce程序，实现单词出现次数统计。统计结果保存到hdfs的output文件夹。

4. 获取统计结果（给出截图或相关结果数据）

实验代码：

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {
    public WordCount() {
    }
     public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();
        if(otherArgs.length < 2) {
            System.err.println("Usage: wordcount  [...] ");
            System.exit(2);
        }
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(WordCount.TokenizerMapper.class);
        job.setCombinerClass(WordCount.IntSumReducer.class);
        job.setReducerClass(WordCount.IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class); 
        for(int i = 0; i < otherArgs.length - 1; ++i) {
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
        System.exit(job.waitForCompletion(true)?0:1);
    }
    public static class TokenizerMapper extends Mapper {
        private static final IntWritable one = new IntWritable(1);
        private Text word = new Text();
        public TokenizerMapper() {
        }
        public void map(Object key, Text value, Mapper.Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString()); 
            while(itr.hasMoreTokens()) {
                this.word.set(itr.nextToken());
                context.write(this.word, one);
            }
        }
    }
public static class IntSumReducer extends Reducer {
        private IntWritable result = new IntWritable();
        public IntSumReducer() {
        }
        public void reduce(Text key, Iterable values, Reducer.Context context) throws IOException, InterruptedException {
            int sum = 0;
            IntWritable val;
            for(Iterator i$ = values.iterator(); i$.hasNext(); sum += val.get()) {
                val = (IntWritable)i$.next();
            }
            this.result.set(sum);
            context.write(key, this.result);
        }
    }
}

实验结果：

①编写mapreduce程序，实现单词出现次数统计。

②在电脑上新建文件夹input，并input文件夹中创建三个文本文件：file1.txt,file2.txt,file3.txt，启动hadoop伪分布式，将input文件夹上传到HDFS上

③统计结果保存到hdfs的output文件夹。

数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
通过YashanDB提升大数据处理能力的指南数据库
数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
3D 可视化技术开启污水治理全新发展阶段广州华锐视点 3d
3D可视化大屏展示技术在污水厂的应用，已然开启了污水处理的全新篇章。它不仅为污水厂解决了当下管理和展示的难题，更如同一座灯塔，照亮了未来污水处理领域的发展道路。随着科技的持续进步，3D可视化大屏展示技术必将迎来更加辉煌的发展。一方面，其与人工智能、大数据、物联网等前沿技术的融合将愈发紧密。借助人工智能算法，大屏系统将具备更强大的自主学习和分析能力，能够根据实时数据和历史经验，自动优化污水处理工艺参
UI前端大数据可视化实战策略：如何设计交互式数据探索界面？ UI前端开发工作室 ui 前端信息可视化
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“被动观看”到“主动探索”的可视化革命传统大数据可视化常陷入“图表堆砌”的困境：企业dashboard上布满折线图、饼图，却难以回答“销售额下降的核心区域是哪里”“用户流失与哪个行为强相关”等深度问题。
【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）
智能健康监测分析系统智能健康监测分析系统是一种基于物联网、大数据、人工智能等技术的综合性健康管理解决方案。它具有以下六大核心功能：实时监测系统通过智能传感器和可穿戴设备，实时采集用户的生理数据，例如心率、血压、血氧饱和度、血糖水平和睡眠质量等，确保用户随时掌握自己的身体状况。健康数据分析利用人工智能和大数据分析技术，系统对采集到的数据进行处理和分析，提取有价值的健康信息，如心率变异性、呼吸频率等，
Elasticsearch 高可用实战：架构设计与场景化解决方案辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch wpf 大数据全文检索搜索引擎 restful java
Elasticsearch高可用实战：架构设计与场景化解决方案本文深入探讨Elasticsearch在高并发、大数据量场景下的高可用架构设计，结合电商搜索、日志分析等真实案例，提供可落地的技术方案与Java实现。一、高可用架构设计原则1.分布式架构核心要素客户端负载均衡层协调节点数据节点-分片1数据节点-分片2数据节点-分片3副本分片副本分片副本分片2.高可用黄金法则冗余设计：至少3节点集群+1副
oracle 数据库迁移expdp，impdp（数据泵导出导入）方法小张是铁粉 oracle 数据库
一.优缺点优点：1.高效性能：expdp，impdp使用并行技术，可以显著提高导出导入速度，尤其适用于大数据量的迁移。支持压缩和加密，减少导出文件的大小并提高安全性。2.灵活的对象选择：可以导出整个数据库、特定表空间、用户（Schema）或单个表。支持过滤条件，例如只导出特定表的数据或元数据。3.跨平台兼容性：支持跨平台迁移（例如从Linux到Windows），但需要注意字节序（endiannes
用Python的Chartify库，商业数据可视化效率提升13倍！忆愿 Python编程的脉动之声 python opencv 人工智能计算机视觉深度学习神经网络机器学习
文章目录为啥要用Chartify？安装那些事儿从零开始画图基础柱状图进阶折线图散点图与气泡图专业数据分析必备技能多维度分析时间序列分析高级可视化技巧自定义主题交互式特性批量图表生成性能优化技巧大数据集处理内存优化实战案例：销售数据分析系统数据可视化这事儿，搞过的都知道有多费劲。用matplotlib画个图要调半天参数，才能让图表看起来稍微顺眼一点；seaborn虽然画出来的图确实好看，但是配置项太
【大数据】FP-growth算法大雨淅淅大数据算法人工智能大数据
目录一、FP-growth算法概述二、FP-growth算法代码实现2.1FP-growth算法matlab实现2.2FP-growth算法python实现三、FP-growth算法应用四、FP-growth算法发展趋势一、FP-growth算法概述FP-growth算法是一种用于发现数据集中频繁项集的高效算法。它由JiaweiHan等人提出，旨在解决Apriori算法在大数据集上效率低下的问题。
第八十九篇大数据开发中的数据算法：贪心策略 - 生活中的“精打细算”艺术
在资源有限的世界里，贪心算法教会我们：局部最优的累积，往往是通往全局最高效的捷径。本文通过3个生活化场景+原创图表，揭示大数据开发中最实用的优化策略。目录一、贪心算法核心思想：当下即最优二、三大核心应用场景详解（附原创图表）1.文件压缩优化：Huffman编码2.任务调度优化：SPT算法3.网络拓扑优化：Prim算法三、贪心算法适用性分析四、大数据工程最佳实践五、总结：贪心思维的艺术一、贪心算法核
vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

大数据实验报告【全集】

实验一 安装Hadoop（黑字基本都是废话，往下拉有推荐链接和我踩过的坑）

2015年出的教程：http://dblab.xmu.edu.cn/blog/285/

针对3.1.3新版出的教程：http://dblab.xmu.edu.cn/blog/2441-2/

我的配置：Ubuntu18.04.3LST + Hadoop3.1.3 + JDK-Linux-14.0.1

我踩过的坑：namenode格式化后，既没有Data文件夹，也无法启动DataNode进程

终于迎来了问题的突破口！

实验二 HDFS编程

2015年出的教程： http://dblab.xmu.edu.cn/blog/290-2/

2020年出的教程：http://dblab.xmu.edu.cn/blog/2460-2/

装Ubuntu时警告10G磁盘空间快见底了，我还没装什么软件呐。。。

我用了最后一篇的方法，主要是简单，还有我不知道挂载到用户下面的/dev/sda2怎么用（怎么改软件默认下载路径）。

我又踩坑了：没注意看上半部分教程，搞了半天没理解/user/hadoop目录哪来的？5个文件怎么被执行？所以一定要认真看林子雨老师的教程 ↓

示例结果：

实验结果：

实验三 HBase编程

我的配置：Ubuntu18.04.3LST + Hadoop3.1.3 + JDK-Linux-14.0.1 + HBase-2.2.5

2020年出的教程：http://dblab.xmu.edu.cn/blog/2442-2/

命令'vim'可在'usr/bin/vi/处找到 由于/usr/bin不在PATH环境变量中,故无法找到该命令。

命令'lesspipe'可在以下位置找到... 由于/bin:/usr/bin不在PATH环境变量中，故无法找到该命令。

解决方法：检查 ~/.bashrc 文件，路径是否写对。

一定要记得关HBase和Hadoop，不然再次打开时就会报错！

在HBase shell中出现error: KeeperErrorCode = NoNode for /hbase/master

解决方法：在没有重要文件得情况下，删除tmp文件夹，重新初始化

实验代码：

实验结果：

实验四 MapReduce编程

2020年出的教程：http://dblab.xmu.edu.cn/blog/2481-2/

实验代码：

实验结果：

你可能感兴趣的:(大数据)

实验一安装Hadoop（黑字基本都是废话，往下拉有推荐链接和我踩过的坑）

命令'vim'可在'usr/bin/vi/处找到由于/usr/bin不在PATH环境变量中,故无法找到该命令。