jediael_lu

Hadoop入门经典:WordCount

以下程序在hadoop1.2.1上测试成功。

本例先将源代码呈现，然后详细说明执行步骤，最后对源代码及执行过程进行分析。

一、源代码

package org.jediael.hadoopdemo.wordcount;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class WordCount {

	public static class WordCountMap extends
			Mapper {

		private final IntWritable one = new IntWritable(1);
		private Text word = new Text();

		public void map(LongWritable key, Text value, Context context)
				throws IOException, InterruptedException {
			String line = value.toString();
			StringTokenizer token = new StringTokenizer(line);
			while (token.hasMoreTokens()) {
				word.set(token.nextToken());
				context.write(word, one);
			}
		}
	}

	public static class WordCountReduce extends
			Reducer {

		public void reduce(Text key, Iterable values,
				Context context) throws IOException, InterruptedException {
			int sum = 0;
			for (IntWritable val : values) {
				sum += val.get();
			}
			context.write(key, new IntWritable(sum));
		}
	}

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = new Job(conf);
		job.setJarByClass(WordCount.class);
		job.setJobName("wordcount");

		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);

		job.setMapperClass(WordCountMap.class);
		job.setReducerClass(WordCountReduce.class);

		job.setInputFormatClass(TextInputFormat.class);
		job.setOutputFormatClass(TextOutputFormat.class);

		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		job.waitForCompletion(true);
	}
}

二、执行程序

1、从eclipse从导出至wordcount.jar，并上传至hadoop服务器，本例中，将程序上传至/home/jediael/project。

2、安装hadoop伪分布模式，可参考Hadoop1.2.1伪分布模式安装指南，本实例将运行在hadoop的伪公布环境中。

3、在HDFS中创建目录wcinput，用作输入目录，并将需要分析的文件复制到目录下。

[root@jediael conf]# hadoop fs -mkdir wcinput
[root@jediael conf]# hadoop fs -copyFromLocal * wcinput 
[root@jediael conf]# hadoop fs -ls wcinput 
Found 26 items 
-rw-r--r-- 1 root supergroup 1524 2014-08-20 12:29 /user/root/wcinput/automaton-urlfilter.txt 
-rw-r--r-- 1 root supergroup 1311 2014-08-20 12:29 /user/root/wcinput/configuration.xsl 
-rw-r--r-- 1 root supergroup 131090 2014-08-20 12:29 /user/root/wcinput/domain-suffixes.xml 
-rw-r--r-- 1 root supergroup 4649 2014-08-20 12:29 /user/root/wcinput/domain-suffixes.xsd 
-rw-r--r-- 1 root supergroup 824 2014-08-20 12:29 /user/root/wcinput/domain-urlfilter.txt 
-rw-r--r-- 1 root supergroup 3368 2014-08-20 12:29 /user/root/wcinput/gora-accumulo-mapping.xml 
-rw-r--r-- 1 root supergroup 3279 2014-08-20 12:29 /user/root/wcinput/gora-cassandra-mapping.xml 
-rw-r--r-- 1 root supergroup 3447 2014-08-20 12:29 /user/root/wcinput/gora-hbase-mapping.xml 
-rw-r--r-- 1 root supergroup 2677 2014-08-20 12:29 /user/root/wcinput/gora-sql-mapping.xml 
-rw-r--r-- 1 root supergroup 2993 2014-08-20 12:29 /user/root/wcinput/gora.properties 
-rw-r--r-- 1 root supergroup 983 2014-08-20 12:29 /user/root/wcinput/hbase-site.xml 
-rw-r--r-- 1 root supergroup 3096 2014-08-20 12:29 /user/root/wcinput/httpclient-auth.xml 
-rw-r--r-- 1 root supergroup 3948 2014-08-20 12:29 /user/root/wcinput/log4j.properties 
-rw-r--r-- 1 root supergroup 511 2014-08-20 12:29 /user/root/wcinput/nutch-conf.xsl 
-rw-r--r-- 1 root supergroup 42610 2014-08-20 12:29 /user/root/wcinput/nutch-default.xml 
-rw-r--r-- 1 root supergroup 753 2014-08-20 12:29 /user/root/wcinput/nutch-site.xml 
-rw-r--r-- 1 root supergroup 347 2014-08-20 12:29 /user/root/wcinput/parse-plugins.dtd 
-rw-r--r-- 1 root supergroup 3016 2014-08-20 12:29 /user/root/wcinput/parse-plugins.xml 
-rw-r--r-- 1 root supergroup 857 2014-08-20 12:29 /user/root/wcinput/prefix-urlfilter.txt 
-rw-r--r-- 1 root supergroup 2484 2014-08-20 12:29 /user/root/wcinput/regex-normalize.xml 
-rw-r--r-- 1 root supergroup 1736 2014-08-20 12:29 /user/root/wcinput/regex-urlfilter.txt 
-rw-r--r-- 1 root supergroup 18969 2014-08-20 12:29 /user/root/wcinput/schema-solr4.xml 
-rw-r--r-- 1 root supergroup 6020 2014-08-20 12:29 /user/root/wcinput/schema.xml 
-rw-r--r-- 1 root supergroup 1766 2014-08-20 12:29 /user/root/wcinput/solrindex-mapping.xml 
-rw-r--r-- 1 root supergroup 1044 2014-08-20 12:29 /user/root/wcinput/subcollections.xml 
-rw-r--r-- 1 root supergroup 1411 2014-08-20 12:29 /user/root/wcinput/suffix-urlfilter.txt

4、运行程序

[root@jediael project]# hadoop org.jediael.hadoopdemo.wordcount.WordCount wcinput wcoutput3 
14/08/20 12:50:25 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same. 
14/08/20 12:50:26 INFO input.FileInputFormat: Total input paths to process : 26 
14/08/20 12:50:26 INFO util.NativeCodeLoader: Loaded the native-hadoop library 
14/08/20 12:50:26 WARN snappy.LoadSnappy: Snappy native library not loaded 
14/08/20 12:50:26 INFO mapred.JobClient: Running job: job_201408191134_0005 
14/08/20 12:50:27 INFO mapred.JobClient: map 0% reduce 0% 
14/08/20 12:50:38 INFO mapred.JobClient: map 3% reduce 0% 
14/08/20 12:50:39 INFO mapred.JobClient: map 7% reduce 0% 
14/08/20 12:50:50 INFO mapred.JobClient: map 15% reduce 0% 
14/08/20 12:50:57 INFO mapred.JobClient: map 19% reduce 0% 
14/08/20 12:50:58 INFO mapred.JobClient: map 23% reduce 0% 
14/08/20 12:51:00 INFO mapred.JobClient: map 23% reduce 5% 
14/08/20 12:51:04 INFO mapred.JobClient: map 30% reduce 5% 
14/08/20 12:51:06 INFO mapred.JobClient: map 30% reduce 10% 
14/08/20 12:51:11 INFO mapred.JobClient: map 38% reduce 10% 
14/08/20 12:51:16 INFO mapred.JobClient: map 38% reduce 11% 
14/08/20 12:51:18 INFO mapred.JobClient: map 46% reduce 11% 
14/08/20 12:51:19 INFO mapred.JobClient: map 46% reduce 12% 
14/08/20 12:51:22 INFO mapred.JobClient: map 46% reduce 15% 
14/08/20 12:51:25 INFO mapred.JobClient: map 53% reduce 15% 
14/08/20 12:51:31 INFO mapred.JobClient: map 53% reduce 17% 
14/08/20 12:51:32 INFO mapred.JobClient: map 61% reduce 17% 
14/08/20 12:51:39 INFO mapred.JobClient: map 69% reduce 17% 
14/08/20 12:51:40 INFO mapred.JobClient: map 69% reduce 20% 
14/08/20 12:51:45 INFO mapred.JobClient: map 73% reduce 20% 
14/08/20 12:51:46 INFO mapred.JobClient: map 76% reduce 23% 
14/08/20 12:51:52 INFO mapred.JobClient: map 80% reduce 23% 
14/08/20 12:51:53 INFO mapred.JobClient: map 84% reduce 23% 
14/08/20 12:51:55 INFO mapred.JobClient: map 84% reduce 25% 
14/08/20 12:51:59 INFO mapred.JobClient: map 88% reduce 25% 
14/08/20 12:52:00 INFO mapred.JobClient: map 92% reduce 25% 
14/08/20 12:52:02 INFO mapred.JobClient: map 92% reduce 29% 
14/08/20 12:52:06 INFO mapred.JobClient: map 96% reduce 29% 
14/08/20 12:52:07 INFO mapred.JobClient: map 100% reduce 29% 
14/08/20 12:52:11 INFO mapred.JobClient: map 100% reduce 30% 
14/08/20 12:52:15 INFO mapred.JobClient: map 100% reduce 100% 
14/08/20 12:52:17 INFO mapred.JobClient: Job complete: job_201408191134_0005 
14/08/20 12:52:18 INFO mapred.JobClient: Counters: 29 
14/08/20 12:52:18 INFO mapred.JobClient: Job Counters 
14/08/20 12:52:18 INFO mapred.JobClient: Launched reduce tasks=1 
14/08/20 12:52:18 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=192038 
14/08/20 12:52:18 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0 
14/08/20 12:52:18 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0 
14/08/20 12:52:18 INFO mapred.JobClient: Launched map tasks=26 
14/08/20 12:52:18 INFO mapred.JobClient: Data-local map tasks=26 
14/08/20 12:52:18 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=95814 
14/08/20 12:52:18 INFO mapred.JobClient: File Output Format Counters 
14/08/20 12:52:18 INFO mapred.JobClient: Bytes Written=123950 
14/08/20 12:52:18 INFO mapred.JobClient: FileSystemCounters 
14/08/20 12:52:18 INFO mapred.JobClient: FILE_BYTES_READ=352500 
14/08/20 12:52:18 INFO mapred.JobClient: HDFS_BYTES_READ=247920 
14/08/20 12:52:18 INFO mapred.JobClient: FILE_BYTES_WRITTEN=2177502 
14/08/20 12:52:18 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=123950 
14/08/20 12:52:18 INFO mapred.JobClient: File Input Format Counters 
14/08/20 12:52:18 INFO mapred.JobClient: Bytes Read=244713 
14/08/20 12:52:18 INFO mapred.JobClient: Map-Reduce Framework 
14/08/20 12:52:18 INFO mapred.JobClient: Map output materialized bytes=352650 
14/08/20 12:52:18 INFO mapred.JobClient: Map input records=7403 
14/08/20 12:52:18 INFO mapred.JobClient: Reduce shuffle bytes=352650 
14/08/20 12:52:18 INFO mapred.JobClient: Spilled Records=45210 
14/08/20 12:52:18 INFO mapred.JobClient: Map output bytes=307281 
14/08/20 12:52:18 INFO mapred.JobClient: Total committed heap usage (bytes)=3398606848 
14/08/20 12:52:18 INFO mapred.JobClient: CPU time spent (ms)=14400 
14/08/20 12:52:18 INFO mapred.JobClient: Combine input records=0 
14/08/20 12:52:18 INFO mapred.JobClient: SPLIT_RAW_BYTES=3207 
14/08/20 12:52:18 INFO mapred.JobClient: Reduce input records=22605 
14/08/20 12:52:18 INFO mapred.JobClient: Reduce input groups=6749 
14/08/20 12:52:18 INFO mapred.JobClient: Combine output records=0 
14/08/20 12:52:18 INFO mapred.JobClient: Physical memory (bytes) snapshot=4799041536 
14/08/20 12:52:18 INFO mapred.JobClient: Reduce output records=6749 
14/08/20 12:52:18 INFO mapred.JobClient: Virtual memory (bytes) snapshot=19545337856 
14/08/20 12:52:18 INFO mapred.JobClient: Map output records=22605

5、查看结果

root@jediael project]# hadoop fs -ls wcoutput3 
Found 3 items 
-rw-r--r-- 1 root supergroup 0 2014-08-20 12:52 /user/root/wcoutput3/_SUCCESS 
drwxr-xr-x - root supergroup 0 2014-08-20 12:50 /user/root/wcoutput3/_logs 
-rw-r--r-- 1 root supergroup 123950 2014-08-20 12:52 /user/root/wcoutput3/part-r-00000 
[root@jediael project]# hadoop fs -cat wcoutput3/part-r-00000
!!      2
!ci.*.*.us      1
!co.*.*.us      1
!town.*.*.us    1
"AS     22
"Accept"        1
"Accept-Language"       1
"License");     22
"NOW"   1
"WiFi"  1
"Z"     1
"all"   1
"content"       1
"delete 1
"delimiter"     1

………………

三、程序分析

1、WordCountMap类继承了org.apache.hadoop.mapreduce.Mapper，4个泛型类型分别是map函数输入key的类型，输入value的类型，输出key的类型，输出value的类型。

2、WordCountReduce类继承了org.apache.hadoop.mapreduce.Reducer，4个泛型类型含义与map类相同。

3、map的输出类型与reduce的输入类型相同，而一般情况下，map的输出类型与reduce的输出类型相同，因此，reduce的输入类型与输出类型相同。

4、hadoop根据以下代码确定输入内容的格式：

job.setInputFormatClass(TextInputFormat.class);

TextInputFormat是hadoop默认的输入方法，它继承自FileInputFormat。在TextInputFormat中，它将数据集切割成小数据集InputSplit，每一个InputSplit由一个mapper处理。此外，InputFormat还提供了一个RecordReader的实现，将一个InputSplit解析成的形式，并提供给map函数：

key：这个数据相对于数据分片中的字节偏移量，数据类型是LongWritable。

value：每行数据的内容，类型是Text。

因此，在本例中，map函数的key/value类型是LongWritable与Text。

5、Hadoop根据以下代码确定输出内容的格式：

job.setOutputFormatClass(TextOutputFormat.class);

TextOutputFormat是hadoop默认的输出格式，它会将每条记录一行的形式存入文本文件，如

the 30

happy 23

……

Ubuntu 24.04 LTS 通过 docker desktop 安装 seafile 搭建个人网盘 Kasen's experience #Ubuntu ubuntu docker linux Seafile
准备Ubuntu24.04LTSUbuntu空闲硬盘挂载Ubuntu安装DockerDesktop[我的Ubuntu服务器折腾集](https://blog.csdn.net/jh1513/article/details/145222679。安装seafile参考资料Docker安装Seafile+OnlyOffice并配置OnlyOffice到Seafile，实现在线编辑功能官方教程用Docke
Android Kotlin MVP 架构项目教程常樱沙Vigour
AndroidKotlinMVP架构项目教程android-kotlin-mvp-architectureThisrepositorycontainsadetailedsampleappthatimplementsMVParchitectureinKotlinusingDagger2,Room,RxJava2,FastAndroidNetworkingandPlaceholderView项目地址:
GBase 8c 教程（十六）VACUUM指令唤溪 GBase 8c 数据库 database
GBase8c数据库需要周期性的清理维护以达到最优的性能，清理维护工作可以通过自动清理守护进程或手动管理VACUUM命令来进行。一、VACUUM命令基础建议使用VACUUM命令定期对GBase8c数据库的表进行清理，主要有以下几个原因：恢复或重用被已更新或已删除行所占用的磁盘空间；更新被查询规划器使用的数据统计信息；更新可见性映射，它可以加速只用索引的扫描；保护老旧数据不会由于事务ID回卷或多事务
OpenBayes 一周速览｜微软 Phi-4 发布，降低更多成本实现高效推理；Terra 时空数据集上线
公共资源速递5个数据集：Terra多模态时空数据集ChineseCouplets中文对联数据集AqueousSolubility无机化合物数据集HumanLikeDPODataset大模型对话微调数据集SentimentandEmotionAnalysisDataset情感情绪分析数据集4个教程：一键部署Phi-4Docling：文档解析神器一键部署QVQ-72B-preview铅笔素描风格文生图
OpenBayes 一周速览丨ShowUI专注GUI自动化，可解析屏幕截图和用户指令；U-MATH数据集上线
公共资源速递5个数据集：U-MATH数学推理数据集AlMedicalChatbot医学对话数据集Tecnalia电子设备废物高光谱数据集WaterlooExploration大规模图像质量评估数据库WasteClassification可回收物及生活垃圾分类数据集3个教程：一键部署QwQ-32B-PreviewHunyuanVideo腾讯混元文生视频DemoShowUl：专注GUI自动化的视觉-语
OpenBayes 一周速览｜一键部署Qwen2.5-Coder，0编程经验实现代码生成自由！
公共资源速递5个数据集：Coil-100图像数据集Muharaf手写阿拉伯文数据集CollectiveActivity集体活动视频数据集MultimodalSpectroscopic化学多模光谱数据集CDFSOD-benchmark跨域小样本对象检测基准数据集3个教程：一键部署Qwen2.5-CoderInkSight将手写文字数字化DemoGLM-4-Voice端到端中英语音对话模型访问官网立即
使用LangChain构建简单LLM翻译应用 fGVBSAbe langchain java 前端 python
技术背景介绍在本教程中，我们将学习如何使用LangChain构建一个简单的语言模型（LLM）应用程序，该应用程序用于将文本从英语翻译成其他语言。虽然这个应用程序比较简单，但它是学习LangChain的一个不错的开始，因为许多复杂功能都可以通过简单的提示和LLM调用构建。核心原理解析LangChain通过链式调用多个组件，使得复杂的语言处理任务变得简单易行。我们将使用LangChain的以下功能：语
OpenBayes 一周速览｜微软 Phi-4 发布，降低更多成本实现高效推理；Terra 时空数据集上线
公共资源速递5个数据集：Terra多模态时空数据集ChineseCouplets中文对联数据集AqueousSolubility无机化合物数据集HumanLikeDPODataset大模型对话微调数据集SentimentandEmotionAnalysisDataset情感情绪分析数据集4个教程：一键部署Phi-4Docling：文档解析神器一键部署QVQ-72B-preview铅笔素描风格文生图
PyCharm安装PyQt5及工具详细教程 JustLikeRun pycharm qt ide pyqt
PyCharm安装PyQt5及工具详细教程PyCharm是一款功能强大的Python集成开发环境（IDE），而PyQt5是一个用于创建GUI应用程序的流行Python库。在本教程中，我将指导您如何在PyCharm中安装PyQt5及其相关工具，并提供相应的源代码示例。步骤1：安装PyCharm首先，您需要下载并安装PyCharm。您可以从JetBrains官方网站（https://www.jetbr
Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Kylin入门教程 -龙川- 介绍学习笔记 kylin
引言ApacheKylin是一个开源的分布式分析引擎，提供Hadoop上的多维分析（OLAP）能力，使得超大规模数据集的实时查询和分析成为可能。它通过预计算数据立方体来加速查询，使得复杂查询可以在亚秒级响应。本文将详细介绍Kylin的基本概念、安装与配置、基本操作及高级功能，帮助你全面掌握这款强大的数据分析工具。第一部分：Kylin简介1.1什么是Kylin？Kylin是由eBay开发并捐赠给Ap
ASP.NET Core N-Tier 架构 Web API 项目教程蓬为宜
ASP.NETCoreN-Tier架构WebAPI项目教程aspnetcore.ntier.NETCoreN-TierarchitectureWebApisampleproject.项目地址:https://gitcode.com/gh_mirrors/as/aspnetcore.ntier项目介绍ASP.NETCoreN-Tier架构WebAPI项目是一个示例项目，展示了如何使用ASP.NETC
ros2_control 6 自由度机械臂 kuan_li_lyg ROS &ROS2 机器人人工智能 ROS 机械臂控制工程算法
系列文章目录前言ros2_control是一个实时控制框架，专为普通机器人应用而设计。标准的c++接口用于与硬件交互和查询用户定义的控制器命令。这些接口增强了代码的模块化和与机器人无关的设计。具体的应用细节，例如使用什么控制器、机器人有多少个关节以及它们的运动学结构，则通过YAML参数配置文件和通用机器人描述文件（URDF）来指定。最后，通过ROS2启动文件部署ros2_control框架。本教程
使用Scrapy抓取图片网站的图片：完整教程与实战案例 Python爬虫项目 2025年爬虫实战项目 scrapy 爬虫 python 音视频开发语言 selenium
引言在互联网时代，图片已经成为我们生活和工作中不可或缺的一部分。随着社交媒体、电子商务、新闻网站等平台的普及，图片的需求量和使用量不断增加。因此，如何高效、便捷地抓取网站上的图片，成为了许多数据工程师、爬虫开发者以及数据科学家需要解决的问题。Scrapy是Python中一个非常强大且广泛使用的爬虫框架。它不仅提供了强大的抓取能力，还能够轻松地处理大规模数据抓取和高效的数据存储。Scrapy适合处理
deepin下载mysql教程 deepinmysql
官方下载Mysql8.2支持here解压到需要的文件夹去(建议放到/opt/mysql/mysql8)建立mysql的用户与组（groupaddmysql&&useradd-r-gmysqlmysql）创建软链接到系统中,后继服务与配置中会使用到cd/usr/local&&sudoln-s/opt/mysql/mysql8mysql8cd/usr/bin&&sudoln-s/opt/mysql/m
Web三维CAD绘制一个窗户模型
前言本文使用mxcad3d在网页中创建一个简单的三维窗户模型，mxcad3d提供了丰富的三维建模功能和便捷的API，使得创建各种三维模型变得简单方便，最终效果如下图：环境搭建和入门首先学习mxcad的基本使用方法，可通过官方的入门教程来搭建一个最基本的项目模板，依次查看教程：安装Node.js以及VSCode开发工具、创建mxcad开发项目、API文档接口使用说明。压缩包下载解压后需要在项目目录下
VictoriaMetrics 中文教程（10）集群版简介 prometheus
VictoriaMetrics中文教程系列文章：VictoriaMetrics中文教程（01）简介VictoriaMetrics中文教程（02）安装VictoriaMetrics中文教程（03）如何配置Prometheus使其把数据远程写入VictoriaMetricsVictoriaMetrics中文教程（04）对接Grafana同时介绍vmuiVictoriaMetrics中文教程（05）对接
【TVM 教程】内联及数学函数
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：TianqiChen尽管TVM支持基本的算术运算，但很多时候，也需要复杂的内置函数，例如exp取指函数。这些函数是依赖target系统的，并且在不同target平台中可能具有不同的名称。本教程会学习到如何调用这些target-spe
做python少儿编程教程-超好玩的Python少儿编程 weixin_37988176
1.作者有14年的计算机培训经验，能抓住青少年的学习心理。2.超过180分钟的视频讲解，可下载也可扫码直接观看。《超好玩的Python少儿编程》是写给青少年读者的编程学习用书，主要通过游戏及作品的实例来讲解Python的编程方法，引导青少年在快乐中学习编程。通过游戏编程实例及有趣的作品，让青少年参与其中，培养他们独立分析问题和解决问题的能力，提高他们的探索精神，为今后进一步深入学习编程打好基础。《
鸿蒙开发教程实战案例源码分享-搜索无缝转场跳界面效果 893151960 鸿蒙开发案例分享鸿蒙鸿蒙系统鸿蒙开发鸿蒙教程鸿蒙转场鸿蒙搜索转场效果鸿蒙跳转界面转场
鸿蒙开发教程实战案例源码分享-搜索无缝转场跳界面效果搜索框用下无缝转场效果，不错，给用户的感觉你没跳转界面，还是在本界面搜索，挺高大上的。一、思路：用sharedTransition和pageTransition结合使用二、效果图：看视频更直观点：【2025最新】鸿蒙开发教程实战案例源码分享-搜索转场三、关键代码：@Entry@ComponentstructIndex{pageTransition
三套uniapp视频教程，让你彻底搞懂uniapp。学习路上助你一臂之力！ guoguo507 uni-app 学习
快速入口在文章最后，大家耐心观看！谢谢(想学其他更多编程技术视频，请进我的博客查看。)Uniapp开发：视频教程的助力之旅在当今数字化飞速发展的时代，移动应用开发已成为众多开发者关注的焦点领域。无论是为了满足企业业务的拓展需求，还是个人开发者想要实现自己的创意想法，开发一款成功的移动应用都面临着诸多挑战和机遇。在这样的大背景下，Uniapp作为一款跨平台开发框架，正以其独特的优势吸引着越来越多开发
yoloV8训练标注数据生成模型安陆米香目标检测计算机视觉 YOLO 目标检测计算机视觉
1、标注工具：vott2、yoloV82.1仓库地址https://github.com/ultralytics/ultralytics2.2参考教程文档文档地址：https://github.com/ultralytics/ultralytics/wiki3、数据集|标注数据格式3.1数据集格式【coco128】3.1.1下载地址：https://cocodataset.org/#downloa
Python制作BI图表（Temps）魔弓紫喵 Python碎片 python 开发语言
用Python制作BI（BusinessIntelligence）图表时，你可以使用多种数据可视化库来实现。下面是一个详细的教程，包括使用matplotlib、seaborn和plotly来创建不同类型的BI图表的示例代码。步骤1：安装必要的库确保你的系统已经安装了以下库：pandas：用于数据处理和准备。matplotlib：一个常用的绘图库，用于创建各种静态图表。seaborn：基于Matpl
2024年Python最新Python爬虫入门教程27：爬取某电商平台数据内容并做数据可视化 2401_84584609 程序员 python 爬虫信息可视化
‘详情页’])csv_writer.writeheader()forpageinrange(1,26):print(f’正在保存第{page}页数据内容===========')url=f’http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-year-2017-0-1-{page}’headers={‘User-Agent’:‘
Python单元测试之道：从入门到精通的全面指南合集雅雅酱o log4j python 开发语言编程计算机单元测试
深入探讨Python单元测试的各个方面，包括基本概念、基础知识、实践方法、高级话题，如何在实际项目中进行单元测试，单元测试的最佳实践，以及一些有用的工具和资源。python学习资料、教程分享：一、单元测试重要性测试是软件开发中不可或缺的一部分，它能够帮助我们保证代码的质量，减少bug，提高系统的稳定性。在各种测试方法中，单元测试由于其快速、有效的特性，特别受到开发者们的喜欢。本文将全面介绍Pyth
flume系列之：flume落cos 快乐骑行^_^ 日常分享专栏 flume系列
flume系列之：flume落cos一、参考文章二、安装cosjar包三、添加hadoop-cos的相关配置四、flume环境添加hadoop类路径五、使用cos路径六、启动/重启flume一、参考文章Kafka数据通过Flume存储到HDFS或COSflumetocos使用指南二、安装cosjar包将对应hadoop版本的hadoop-cos的jar包(hadoop-cos-{hadoop.ve
Ubuntu系统上安装Docker教程 goomind 软件安装教程 docker ubuntu 容器
文章目录前言一、Docker是什么？二、安装步骤结束语前言Docker是一种非常流行的容器化技术，可以帮助开发人员将应用程序和服务打包到容器中，实现跨平台的部署和运行。博主作为AI的科研人员，平时用的Linux发行版是Ubuntu，所以本文将介绍如何在Ubuntu系统上安装Docker，并配置Docker环境，以便在容器中运行应用程序和服务。无论是初学者还是有一定Docker使用经验的读者都能从中
使用Llama 3.2-Vision多模态LLM与您的图像聊天 AI程序猿人 llama transformer pytorch 深度学习大模型应用人工智能大模型
介绍将视觉能力与大型语言模型（LLMs）结合的多模态LLM（MLLM）正在通过多模态LLM革命性地改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的出色能力。虽然这些模型以前只能通过API访问，但最近的开源选项现在允许本地执行，使其在生产环境中更具吸引力。在此教程中，我们将学习如何使用开源的Llama3.2-Vision模型与图像进行聊天，你会对其OCR、图像理解和推理
如何用Python爬取网站数据：基础教程与实战大梦百万秋知识学爆 python 开发语言
数据爬取（WebScraping）是从网站中自动获取信息的过程。借助Python强大的库和工具，数据爬取变得非常简单且高效。本文将介绍Python爬取网站数据的基础知识、常用工具，以及一个简单的实战示例，帮助你快速上手网站数据爬取。1.什么是网站数据爬取？网站数据爬取是通过编写程序自动抓取网页内容的技术，通常用于从公开网站中提取特定数据。数据爬取的应用场景非常广泛，包括：收集商品价格和评论数据新闻
如何抓取社交媒体上的公开用户信息：完整的Python爬虫教程与实战 Python爬虫项目媒体 python 爬虫 selenium 开发语言 ajax
引言社交媒体平台如Twitter、Instagram、Facebook和LinkedIn等，成为了现代社会中获取信息、表达观点、社交互动的主要场所。通过社交媒体，用户分享个人信息、兴趣、活动以及与他人的互动数据，极大地丰富了网络世界的内容。在数据分析、市场研究、舆情监控等领域，抓取社交媒体上的公开用户信息是非常重要的任务。对于很多数据科学家、市场分析师、爬虫开发者来说，如何高效地抓取社交媒体平台的
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Hadoop入门经典:WordCount

你可能感兴趣的:(Hadoop,教程,1.3.2,HADOOP)