裴小星

Hadoop In Action 第四章(1)

第四章编写基本的MapReduce程序

本章涵盖了：

　　用Hadoop处理数据集，以专利数据为例
　　一个MapReduce程序的基本结构
　　基本的MapReduce程序，以数据统计为例
　　Hadoop的流API，用于使用脚本语言来编写MapReduce程序
　　使用Combiner来提升性能

　　MapReduce程序与您所学过的编程模型有所不同。您需要花一些时间，并进行一些练习来熟悉它。为了帮助您精通它，我们在后面几章会通过多个例子来进行练习。这些例子描述了不同的MapReduce编程技术。通过用不同方式应用MapReduce，您可以开始培养一种直觉，并养成“用MapReduce思考(thinking in MapReduce)”的习惯。这些例子包括了简单的例子和高级的应用。在一个高级的应用程序中，我们介绍了Bloom滤镜，一种在标准的计算机科学课程中不会讲授的数据结构。您会了解到处理大量的数据集时，无论您是否使用Hadoop，通常都会需要重新考虑底层的算法。

　　我们假设您已经掌握了Hadoop的基础，您可以建立Hadoop，并编译和运行示例程序，例如第一章中的单词统计的例子。我们将以现实世界中的数据集为例来进行学习。

4.1 获取专利数据集

　　要用Hadoop做一点有意义的事情的话，我们需要数据。我们的许多例子会使用专利数据集，可以从全国经济研究局(NBER)的网址http://www.nber.org/patents/获取这些数据。这些数据集最初是为论文《NBER专利引用数据文件：经验，见解和方法工具》编制的。我们将使用专利引用数据集cite75_99.txt和专利描述数据集apat63_99.txt。

请注意

　　每个数据集有将近250MB，这对于我们的以独立或伪分布模式运行的Hadoop而言是足够小的。您可以使用它们练习编写MapReduce程序，甚至不需要访问一个集群。Hadoop最好的一个方面是您可以很确定您的MapReduce程序可以在集群机上运行，处理100或者1000倍的数据，而几乎不需要改动任何代码。

　　一个开发中经常涉及的话题，是为您的大量的生产数据建立较小的用于示范的子集，这也被称为开发数据集。这些开发数据集可能只有几百兆。这将缩短您的开发进程中的，在开发与生产环境之间切换所需要的往返时间，便于您在自己的机器上运行，并在另一个独立的环境中进行调试。

　　我们选择这两个数据集是因为它们与您遇到的大多数数据类型相似。首先，这些引用数据构成了一个“图”，而用于描述网络连接和社交网络的数据结构也是图。专利是按时间顺序公布的，它们的一些属性表示了时间序列。每个专利都与一个人（发明者）和一个地点（发明者所在的国家）。您可以将它们看作个人或者地理信息。最后您可以将这些数据看作定义良好的数据库关系，它们以逗号分隔。

请注意

　　有很多这两个数据集无法完全表现的数据类型，例如文本，但您已经在单词计算的例子里见过文本了。其他没有涉及的类型包括XML、图像和地理位置信息（用经纬度的形式表示）。数学矩阵没有以一般的形式表示，尽管引用图可以被解释为离散的0/1矩阵。

4.1.1 专利引用数据

　　这些专利引用数据包含了美国从1975年到1999年之间发布的引用。它有超过1600万行数据，并且前几行包含类似这样的信息：

以专利数据集65为例：

“CITING”,”CITED”
3858241,956203
3858241,1324234
3858241,3398406
3858241,3557384
3858241,3634889
3858242,1515701
3858242,3319261
3858242,3668705
3858242,3707004
...

　　数据集以标准的逗号分隔值(CSV)格式表示，第一行是列的描述。其他的每一行记录了一个特定的引用。例如，第二行表示专利3858241引用了专利956203。文件是按照进行引用的专利（而不是被引用的专利）进行排序的。我们可以看到专利3858241总共引用了五个专利。更定量地分析这些数据可以使我们对它有一个更深入的了解。

　　如果您只是阅读这个数据文件，引用数据看起来好像只是一系列的数据。您可以用更有趣的术语来考虑这些数据。一种方式是将它想象为一张图。在图 4.1中，我们展示了这张引用图的一部分。我们可以看到有些专利经常被引用，而另一些则从来没有被引用过。专利5936972和6009552引用了类似的专利集合(4354269, 4486882, 5598422)，尽管它们没有相互引用。我们可以使用Hadoop来获取关于这些专利数据的描述性的数据，并寻找有趣的但不那么明显的专利。

4.1.2 专利描述数据

　　我们使用的另一个数据集是描述数据。它包含了专利号、专利申请年份、专利授予年份、索赔金额和其他关于专利的元数据。看看这个数据的前面几行。它与一个关系型数据库中的表格很相似，但它是CSV格式的。这个数据集有超过290万行记录。和现实世界中的很多数据集一样，它可能有丢失的数据

专利描述数据

“PATENT”,”GYEAR”,”GDATE”,”APPYEAR”,”COUNTRY”,”POSTATE”,”ASSIGNEE”,
➥ ”ASSCODE”,”CLAIMS”,”NCLASS”,”CAT”,”SUBCAT”,”CMADE”,”CRECEIVE”,
➥ ”RATIOCIT”,”GENERAL”,”ORIGINAL”,”FWDAPLAG”,”BCKGTLAG”,”SELFCTUB”,
➥ ”SELFCTLB”,”SECDUPBD”,”SECDLWBD”
3070801,1963,1096,,”BE”,””,,1,,269,6,69,,1,,0,,,,,,,
3070802,1963,1096,,”US”,”TX”,,1,,2,6,63,,0,,,,,,,,,
3070803,1963,1096,,”US”,”IL”,,1,,2,6,63,,9,,0.3704,,,,,,,
3070804,1963,1096,,”US”,”OH”,,1,,2,6,63,,3,,0.6667,,,,,,,
3070805,1963,1096,,”US”,”CA”,,1,,2,6,63,,1,,0,,,,,,,
3070806,1963,1096,,”US”,”PA”,,1,,2,6,63,,0,,,,,,,,,
3070807,1963,1096,,”US”,”OH”,,1,,623,3,39,,3,,0.4444,,,,,,,
3070808,1963,1096,,”US”,”IA”,,1,,623,3,39,,4,,0.375,,,,,,,
3070809,1963,1096,,”US”,”AZ”,,1,,4,6,65,,0,,,,,,,,,

请注意

　　和其他数据分析一样，我们在解释这些有限的数据时需要非常地谨慎。如果一个专利看起来没有引用任何其他的专利，它可能是我们没有引用信息的旧的专利。另一方面，时间越晚的专利被引用的频率更小，因为只有更新的专利才会意识到它们的存在。

图 4.1 将专利引用数据的一部分看作一张图。每个专利显示为一个顶点（节点），而每个引用是一条有向边（箭头）。

　　第一行包含了一些属性的名称，这只有对专利专家有意义。尽管我们不了解所有的属性，了解它们中的一部分仍然是十分有用的。表 4.1描述了前10行。

表 4.1 专利描述数据集前10个属性的定义

属性名称	内容
PATENT	专利号
GYEAR	授权年份
GDATE	授权日期, 从1960年1月1日算起的日期数
APPYEAR	申请日期（只对1967年之后授权的专利有效）
COUNTRY	第一发明人的国家
POSTATE	第一发明人所在的州（如果国家是美国）
ASSIGNEE	专利受让人的数字标识(例如，专利拥有者)
ASSCODE	一位数(1-9)表示的受让人类型。 (受让人类型包括美国个人，美国政府，美国组织，非美国个人，等等)
CLAIMS	索赔金额（只对1975年之后授权的专利有效）
NCLASS	三位数表示的专利类别

　　既然我们已经有了两个专利数据集，那么让我们编写Hadoop程序来处理这些数据吧。

4.2 建立MapReduce程序的基本模板

　　我们的大多数MapReduce程序是简短的并且是在一个模板上进行变化的。担负编写一个新的MapReduce程序时，您通常需要在一个现有的MapReduce程序上进行修改，直到它成为您想要的样子。在这个小节里，我们将编写第一个MapReduce程序并解释它的不同部分。这个程序可以作为将来的MapReduce程序的模板。我们的第一个程序将把专利引用数据作为输入，并将它反转。对每个专利，我们想要找出引用它的专利并将它们分组。我们的输出如下：

输出

1 3964859,4647229
10000 4539112
100000 5031388
1000006 4714284
1000007 4766693
1000011 5033339
1000017 3908629
1000026 4043055
1000033 4190903,4975983
1000043 4091523
1000044 4082383,4055371
1000045 4290571
1000046 5918892,5525001
1000049 5996916
1000051 4541310
1000054 4946631
1000065 4748968
1000067 5312208,4944640,5071294
1000070 4928425,5009029

　　我们已经发现专利5312208、4944640和507129引用了专利1000067。在这个小节里，我们不会太关注MapReduce数据流，也就是我们在第3章中探讨过的。相反地，我们只关注MapReduce程序的结构。整个程序只需要一个文件，就像您在清单 4.1中看到的那样。

清单 4.1 经典Hadoop程序的模板

public class MyJob extends Configured implements Tool {
	public static class MapClass extends MapReduceBase implements
			Mapper<Text, Text, Text, Text> {
		public void map(Text key, Text value,
				OutputCollector<Text, Text> output, Reporter reporter)
				throws IOException {
			output.collect(value, key);
		}
	}

	public static class Reduce extends MapReduceBase implements
			Reducer<Text, Text, Text, Text> {
		public void reduce(Text key, Iterator<Text> values,
				OutputCollector<Text, Text> output, Reporter reporter)
				throws IOException {
			String csv = "";
			while (values.hasNext()) {
				if (csv.length() > 0)
					csv += ",";
				csv += values.next().toString();
			}
			output.collect(key, new Text(csv));
		}
	}

	public int run(String[] args) throws Exception {
		Configuration conf = getConf();
		
		JobConf job = new JobConf(conf, MyJob.class);
		
		Path in = new Path(args[0]);
		Path out = new Path(args[1]);
		FileInputFormat.setInputPaths(job, in);
		FileOutputFormat.setOutputPath(job, out);
		
		job.setJobName("MyJob");
		job.setMapperClass(MapClass.class);
		job.setReducerClass(Reduce.class);
		
		job.setInputFormat(KeyValueTextInputFormat.class);
		job.setOutputFormat(TextOutputFormat.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(Text.class);
		job.set("key.value.separator.in.input.line", ",");
		
		JobClient.runJob(job);
		
		return 0;
	}

	public static void main(String[] args) throws Exception {
		int res = ToolRunner.run(new Configuration(), new MyJob(), args);
		System.exit(res);
	}
}

　　我们的惯例是使用单一的类，如这个例子里的MyJob，完全地定义每个MapReduce任务。Hadoop需要将Mapper和Reducer作为它们自己的静态类。这些类很小，并且我们的模板将它们作为MyJob类的内部类。但是请记住，这些内部类是独立的，并且不与MyJob类交互。在任务执行的过程中，不同Java虚拟机上的多个节点将复制并运行Mapper和Reducer，而job类剩下的部分只在客户端机器上运行。

　　我们先探讨一下Mapper类和Reducer类。不考虑这些类的话，MyJob类的基本结构如下：

public class MyJob extends Configured implements Tool {
	public int run(String[] args) throws Exception {		
		Configuration conf = getConf();
		
		JobConf job = new JobConf(conf, MyJob.class);
		
		Path in = new Path(args[0]);
		Path out = new Path(args[1]);
		FileInputFormat.setInputPaths(job, in);
		FileOutputFormat.setOutputPath(job, out);
		
		job.setJobName("MyJob");
		job.setMapperClass(MapClass.class);
		job.setReducerClass(Reduce.class);
		
		job.setInputFormat(KeyValueTextInputFormat.class);
		job.setOutputFormat(TextOutputFormat.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(Text.class);
		job.set("key.value.separator.in.input.line", ",");
		
		JobClient.runJob(job);
		
		return 0;
	}

	public static void main(String[] args) throws Exception {
		int res = ToolRunner.run(new Configuration(), new MyJob(), args);
		System.exit(res);
	}
}

　　这个骨架的核心在run()方法中，也可以把它称为driver。driver实例化、配置并将一个被命名为job的JobConf传递给JobClient。用runJob()来启动MapReduce job。（JobClient类会与JobTracker交互以通过集群启动job。）JobConf对象包含了运行job所必需的所有配置参数。driver需要需要指定job的输入路径、输出路径，Mapper类和Reducer类——每个job的基础参数。此外，每个job将重置job的默认属性，如InputFOrmat，OutputFormat等等。可以调用JobConf对象的set()方法来设置配置参数。一旦您将JobConf对象传递给JobClient.runJob()，它将会被作为job的总体规划(master plan)。它将会称为如何运行job的蓝图。
　　JobConf对象可能会有很多参数，但我们不会在driver中设置所有参数。Hadoop安装的配置文件是一个号的起点。当通过命令行来启动一个Job时，用户可能会想要传递其余的参数来修改job的配置。driver自己可以定义它自己的命令，并处理用户输入的参数，使得用户可以修改配置参数。由于这项任务将会需要频繁地进行，Hadoop框架提供了ToolRunner、Tool和Configured来简化它。当与上面的MyJob骨架一起使用时，这些类将会使得我们的job理解用户定义的，并且被GenericOptionsParser所支持的选项。例如，我们之前使用这个命令行来执行MyJob类：

bin/hadoop jar playground/MyJob.jar MyJob input/cite75_99.txt output

　　如果我们只是想运行job并查看mapper的输出（可能在您进行调试的时候需要这么做），我们可以使用如下选项将reducer的数量设置为0：

bin/hadoop jar playground/MyJob.jar MyJob -D mapred.reduce.tasks=0
➥ input/cite75_99.txt output

　　这在我们的程序并不显式地解释-D选项时也仍然是有效的。通过使用ToolRunner，MyJob可以自动支持表4.2中的选项。通过使用ToolRunner，MyJob将自动支持表1.2中列出的选项。

表 4.2 GenericOptionsParser支持的选项

选项	描述
-conf <configurationfile>	指定一个配置文件。
-D <property=value>	设置JobConf的属性。
-fs <local\|namenode:port>	指定一个NameNode，可以为“local”。
-jt <local\|jobtracker:port>	指定一个JobTracker。
-files <list of fi les>	指定一个用逗号分隔的文件列表,这些文件将在MapReduce job中被用到。这些文件将被自动地分配到所有的任务节点上，使得在本地可以使用。
-libjars <list of jars>	指定一个用逗号分隔的jar文件的列表，它们被包含于所有的任务JVM的classpath中。
-archives <list of archives>	指定一个用逗号分隔的压缩文件列表，将在所有节点上被解压

　　我们的模板的惯例是将Mapper类命名为MapClass，并将Reducer类命名为Reduce。更对称的命名方法是将Mapper类命名为Map，但Java已经有一个名为Map的类（接口）了。Mapper和Reducer都继承自MapReduceBase，这个基类提供了这两个接口所需要的configure()和close()方法（但没有进行任何操作）。我们使用configure()和close()方法来建立map(reduce)任务。除非需要使用更高级的job，否则我们不需要覆盖它们。

　　Mapper类和Reducer类的方法签名如下：

public static class MapClass extends MapReduceBase implements
		Mapper<K1, V1, K2, V2> {
	public void map(K1 key, V1 value, OutputCollector<K2, V2> output,
			Reporter reporter) throws IOException {
	}
}

public static class Reduce extends MapReduceBase implements
		Reducer<K2, V2, K3, V3> {
	public void reduce(K2 key, Iterator<V2> values,
			OutputCollector<K3, V3> output, Reporter reporter)
			throws IOException {
	}
}

　　Mapper类和Reducer类的核心操作分别是map()和reduce()方法。每个对map()方法的调用都需要提供类型分别为K1和V1的键/值对。这个键/值对是由mapper生成的，并且通过OutputCollector对象的collect() 方法输出。在您的map()方法中的某处，您需要调用

output.collect((K2) k, (V2) v);

　　每个对reducer的reduce()方法的调用都需要提供类型为K2的键和类型为V2的值的列表。请注意这与在Mapper中使用的K2和V2必须是相同的。reduce()方法可能会有一个用于遍历类型为V2的值的循环。

while (values.hasNext()) {
	V2? v = values.next();
	...
}

　　reduce()方法同时也有一个用于收集键/值输出的OutputCollector，类型是K3/V3。在reduce()方法中的某处您需要调用output.collect((K3) k, (V3) v)；除了在Mapper和Reducer中使用一致的K2和V2类型，您还需要确保Mapper和Reducer中使用的键/值类型与driver中设置的输入格式、输出键类型和值类型是一致的。使用KeyValueTextInputFormat 意味着K1和V1都需要是Text类型的。driver需要分别用K2类和V2类来调用setOutputKeyClass()和setOutputValueClass()。

　　最后，键和值的类型需要是Writable的子类，以确保Hadoop的序列化接口可以将数据分发到分布式集群中。事实上，键类型实现了WritableComparable，是Writable的子接口。键类型需要额外地支持compareTo()方法，因为键需要在MapReduce框架中的多个地方进行排序。

ThinkPHP API接口开发的深入探讨 2401_85969209 python
ThinkPHPAPI接口开发的深入探讨随着Web技术的飞速发展，API（应用程序编程接口）作为不同软件系统间通信的桥梁，其重要性日益凸显。ThinkPHP，作为一款流行的PHP开发框架，为API接口的开发提供了强大的支持。本文将详细探讨ThinkPHPAPI接口开发的各个方面，包括框架优势、开发流程、安全性考虑等。一、ThinkPHP框架在API接口开发中的优势ThinkPHP以其简洁、快速、安
Python学习第十五天 Leo来编程 Python学习 python 学习
Django概念Django最初被设计用于具有快速开发需求的新闻类站点，目的是要实现简单快捷的网站开发。以下内容简要介绍了如何使用Django实现一个数据库驱动的网络应用。（Django是一个开放源代码的第三方模块Web应用框架，并且是一个功能全，重量的框架。Flask框架是一个轻量级功能少，从github上搜索pythonweb项目基本都出来的是django和flask项目）学习文档可以使用：官
计算机考研408数据结构大题高频考点与真题解析竹木有心数据结构
一、线性表（顺序表与链表）1.1顺序表操作与算法设计高频考点：插入/删除操作的边界处理：检查下标越界与存储空间溢出子数组操作：合并、拆分、逆置等多数组综合问题：如寻找三元组最小距离真题示例：2020年408真题题目：给定三个升序数组S1、S2、S3，求所有可能的三元组(a,b,c)的最小距离D=|a−b|+|b−c|+|c−a|。解法：算法思想：三指针法遍历数组，每次移动当前最小元素的指针核心代码
力扣hot100——LRU缓存（面试高频考题） 01_ 力扣hot100 leetcode 缓存面试 LRU
请你设计并实现一个满足LRU(最近最少使用)缓存约束的数据结构。实现LRUCache类：LRUCache(intcapacity)以正整数作为容量capacity初始化LRU缓存intget(intkey)如果关键字key存在于缓存中，则返回关键字的值，否则返回-1。voidput(intkey,intvalue)如果关键字key已经存在，则变更其数据值value；如果不存在，则向缓存中插入该组k
【面试题系列】Redis 常见面试题&答案颜淡慕潇面试题系列 redis 数据库缓存
一、基础概念1.Redis有哪些数据结构？各自的应用场景是什么？答案：Redis支持以下数据结构：String：最基础类型，存储字符串、数字、二进制数据。场景：缓存用户信息、计数器、分布式锁。Hash：键值对集合，类似Java的HashMap。场景：存储对象（如用户属性）。List：双向链表，支持左右插入和弹出。场景：消息队列（LPUSH+RPOP）、微博时间线。Set：无序唯一集合，支持交集、并
C++20 新特性总结 arong-xu Modern C++c++20 算法
简要总结C++20引入了四项非常大的更新,分别是:概念(Concepts).用来简化模板编程,强化表达能力.并且使得出错原因更容易查找.模块(Modules).这是代码组织方面非常大的更新.提供了新的方式来组织代码,并且可以减少编译时间.范围库(RangesandViews).轻量级的,非拥有的范围库,允许对数据进行各种操作.协程(Coroutine).多线程编程方面的一次重大更新.本文将会对C+
【编程向导】-JavaScript-基础语法-类型检测 wtrees_松阳 javaScript知识图谱 javascript 原型模式开发语言
类型检测类型检测的方法：typeofinstanceofObject.prototype.toStringconstructortypeoftypeof操作符返回一个字符串，表示未经计算的操作数的类型。typeofundefined;//"undefined"typeofnull;//"object"typeof100;//"number"typeofNaN;//"number"typeoftru
【编程向导】Nginx-静态资源服务器 wtrees_松阳 nginx 服务器运维
静态资源静态资源即非服务器动态生成的文件。常见静态资源类型：浏览器端渲染：HTML、CSS、JS图片：JPEG、GIF、PNG视频：FLV、MPEG文件：TXT等任意下载文件基本配置Web服务器一个重要的功能是服务静态文件（图像或静态HTML页面）。例如，Nginx可以很方便的让服务器从/data/www获取html文件，从/data/images获取图片来返回给客户端，这只需要在http块指令中
STM32 I2C通信协议详解盼海 stm32 stm32 嵌入式硬件单片机
文章目录STM32I2C通信协议详解一、I2C协议概述二、物理层特性总线结构：引脚定义：电平特性：地址机制：三、协议层机制起始信号：停止信号：数据有效性：应答信号（ACK）：仲裁机制：四、STM32与I2C通信硬件I2C：软件模拟I2C：五、编程实现初始化I2C外设：发送起始信号：发送设备地址：等待应答：发送/接收数据：发送停止信号：六、实际应用结论STM32I2C通信协议详解在现代嵌入式系统设计
spring框架学习 - 使用 Spring 的面向切面编程 TyuIn spring框架 spring java 后端 intellij-idea maven
接上一篇博客：https://blog.csdn.net/qq_43605444/article/details/122029896?spm=1001.2014.3001.5502七、使用Spring的面向切面编程面向切面编程(AOP)通过提供另一种思考程序结构的方式来补充面向对象编程(OOP)。OOP中模块化的关键单位是类，而AOP中模块化的单位是方面。方面能够实现跨越多种类型和对象的关注点（例
Spring AOP（面向切面编程）详解 pjx987 Spring java 数据库
引言在前两篇文章中，我们已经介绍了Spring框架的基本概念和核心组件。本文将重点探讨Spring框架中的一个重要特性——面向切面编程（Aspect-OrientedProgramming，AOP）。AOP是一种编程范式，旨在通过将横切关注点（如日志记录、事务管理等）从业务逻辑中分离出来，从而提高代码的模块化程度和可维护性。1.AOP基础概念1.1什么是AOP？面向切面编程（AOP）是一种编程技术
深入浅出Spring AOP：面向切面编程的实战与解析小码快撩 java 开发语言 spring
导语SpringAOP（面向切面编程）作为Spring框架的核心特性之一，提供了强大的横切关注点处理能力，使得开发者能够更好地解耦系统架构，将非功能性需求（如日志记录、事务管理、权限控制等）从主业务逻辑中抽离出来，实现模块化的交叉关注点处理。本文将带你逐步探索SpringAOP的关键技术要点及其实战应用。一、AOP基础概念在SpringAOP中，有几个基础概念对于理解和使用AOP至关重要。以下是对
PyTorch 和 Python关系一只积极向上的小咸鱼 python pytorch 人工智能
1PyTorch和Python关系PyTorch和Python是两个不同但相互关联的工具，主要用于机器学习和深度学习领域。以下是它们之间的关系和各自的作用：Python编程语言:Python是一种高级编程语言，以其简洁易读的语法而闻名。广泛使用:Python在数据科学、人工智能、Web开发、自动化等多个领域有着广泛的应用。库和生态系统丰富:Python拥有丰富的第三方库和工具，如NumPy、pan
Spring 面向切面编程 XML 配置实现我是大头鸟 java spring xml java
Spring支持AOP，并且可以通过XML配置来实现。相关标签介绍：aop:config注明开始配置aop，是配置的开始标签aop:aspect配置切面ref属性是引用相关切面类Bean的idaop:point-cut定义切点expression是具体的表达式id是切点的标识aop:before定义前置通知method是要执行的方法pointcut-ref为引用的aop-point-cut定义的i
【工厂老板必看】智能切割算法帮您省 30% 原材料！附真实案例——一维下料问题算法、cad c#二次开发山水CAD筑梦人 CAD C#二次开发算法
一、行业痛点：原材料浪费有多严重？现象：传统人工排料导致大量边角料，例如：某钢材厂每月因切割不合理损失15万元木材加工厂平均浪费率高达25%核心问题：无法兼顾切割数量与材料利用率人工计算耗时且容易出错二、解决方案：贪心算法和遗传算法切割优化系统技术原理（通俗解释）：用贪心算法和遗传算法通过编程，自动生成最优切割方案，比人工排料效率高100倍以上！核心优势：省材料：原材料总根数减少20%-40%降成
智能车辆控制技术：MPC与轨迹规划实战项目柚木i
本文还有配套的精品资源，点击获取简介：本压缩包集合了车辆转向控制与轨迹规划的MATLAB代码，包含模型预测控制（MPC）策略、MPT工具箱应用、车辆动力学模型构建、轨迹规划实现、mp-QP算法应用及MATLAB编程实践。旨在通过源码分析，提供智能车辆控制技术的深入学习与研究平台，涉及横向和纵向运动控制、系统模型的定义、控制策略的制定及仿真流程。1.模型预测控制（MPC）基础与应用模型预测控制（MP
「基于大模型的智能客服系统」语义理解、上下文记忆与反馈机制设计网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
【并查集】 weixin_47868976 python
并查集（DisjointSetUnion，DSU）是一种用于处理不相交集合的数据结构，主要支持两种操作：查找（Find）和合并（Union）。它在解决连通性问题、图论问题以及动态连通性等问题时非常有用。并查集的基础知识基本概念：集合：并查集维护一组不相交的集合，每个集合有一个代表元素。查找（Find）：查找某个元素所属的集合的代表元素。合并（Union）：将两个集合合并为一个集合。核心思想：路径压
计算机网络在办公自动化的应用,浅析计算机网络在办公自动化中的作用生活还是要继续计算机网络在办公自动化的应用
[摘要]人类社会已进入21世纪，科学技术突飞猛进，特别是信息技术和网络技术的迅速发展以及广泛应用，以网络通讯为基础，通过先进的网络应用平台可以建设安全、可靠、开放、高效的网络办公系统。使得很多企事业单位办公实现了网络化，从整体上提高了办公人员的办事效率。本文重点分析了网络在自动化办公中的作用。[关键词]网络办公自动化作用[中图分类号]TP393[文献标识码]A[文章编号]1009-5349(201
Android Retrofit + RxJava + OkHttp 网络请求高效封装方案 tangweiguo03051987 retrofit rxjava okhttp
Retrofit+RxJava+OkHttp是Android开发中常用的网络请求库组合。Retrofit是一个类型安全的HTTP客户端，RxJava是一个响应式编程库，OkHttp是一个高效的HTTP客户端。Retrofit+RxJava+OkHttp的组合可以提供以下功能：职责清晰RetrofitClient负责Retrofit和OkHttp的初始化。ApiServiceHelper负责动态创建
Python深度学习033：Python、PyTorch、CUDA和显卡驱动之间的关系若北辰 Python深度学习 python 深度学习 pytorch
Python、PyTorch、CUDA和显卡驱动之间的关系相当紧密，它们共同构成了一个能够执行深度学习模型的高效计算环境。下面是它们之间关系的简要概述：PythonPython是一种编程语言，广泛用于科学计算、数据分析和机器学习。它是开发和运行PyTorch代码的基础环境。PyTorchPyTorch是一个开源的机器学习库，用于应用如自然语言处理和计算机视觉的深度学习模型。它提供了丰富的API，使
Python实现数据结构与算法——反转字符串 Mantana 数据结构与算法字符串算法数据结构递归法
题目描述：编写一个函数，其作用是将输入的字符串反转过来。输入字符串以字符数组char[]的形式给出。不要给另外的数组分配额外的空间，你必须原地修改输入数组、使用O(1)的额外空间解决这一问题。你可以假设数组中的所有字符都是ASCII码表中的可打印字符。示例1：输入：["h","e","l","l","o"]输出：["o","l","l","e","h"]示例2：输入：["H","a"
自写控制台清除内容函数clrscr() z1095582370 c语言
编程小白，最近学了双缓冲，倒腾了好几天，终于是学会了。这里想要给大家分享的是控制台清除内容的函数clrscr()在网上找了好久，有的说这个函数是TC特有的（虽然不知道TC是啥），还有些说是在conio.h头文件里但VS2019绝对是没有的，所以只能只能写这里可能有人会说用system(“cls”)就好，clrscr()很复杂，但我最近几天被折磨的BUG就是因为这个system(“cls”)导致的，
QwQ-32B企业级本地部署：结合XInference与Open-WebUI使用大势下的牛马搭建本地gpt RAG 知识库人工智能 QwQ-32B
QwQ-32B是阿里巴巴Qwen团队推出的一款推理模型，拥有320亿参数，基于Transformer架构，采用大规模强化学习方法训练而成。它在数学推理、编程等复杂问题解决任务上表现出色，性能可媲美拥有6710亿参数的DeepSeek-R1。QwQ-32B在多个基准测试中表现出色，例如在AIME24基准上，其数学问题解决能力得分达到79.5，超过OpenAI的o1-mini。它在LiveBench、
Netty基础—4.NIO的使用简介二东阳马生架构 Netty应用与源码 Netty 网络 java
大纲1.Buffer缓冲区2.Channel通道3.BIO编程4.伪异步IO编程5.改造程序以支持长连接6.NIO三大核心组件7.NIO服务端的创建流程8.NIO客户端的创建流程9.NIO优点总结10.NIO问题总结4.伪异步IO编程(1)BIO的主要问题(2)BIO编程模型的改进(3)伪异步IO编程(4)伪异步IO的问题(5)伪异步IO可能引起的级联故障(1)BIO的主要问题BIO的主要问题在于
数据结构与算法——哈希表，数组加强哈希表，双链表加强哈希表 Book_熬夜！数据结构与算法散列表哈希算法数据结构 javascript 算法
文章目录哈希表1.数组实现hash表2.双链表实现hash表哈希表key是唯一的，value可以重复哈希表和我们常说的Map（键值映射）不是同一个东西。【Map】是一个Java接口，仅声明了若干个方法，并没有给出方法的具体实现；HashMap这种数据结构根据自身特点实现了这些操作。可以说hashmap的get、put、remove等方法复杂度为O(1)，但是map接口的复杂度不一定，需要看他底层数
KICK第四讲Linux 系统下安装 GCC 编译器全指南浅梦ChienMong linux 运维服务器
Linux系统下安装GCC编译器全指南GCC（GNUCompilerCollection）是Linux系统下最常用的编译器之一，支持C/C++、Java等多种编程语言。本文将介绍不同Linux发行版下的安装方法，帮助开发者快速配置开发环境。一、使用包管理器快速安装（推荐）大多数Linux发行版通过官方仓库提供GCC，适合新手快速部署。Debian/Ubuntu系列（apt-get）打开终端，更新软
python语言字符串练习题微__凉习题集 python 开发语言 numpy
第1关：求字符串的长度任务描述本关需要你编写一个程序，输出字符串的长度。相关知识len()方法描述：Python中的len()方法返回对象（字符、列表、元组等）的长度。####编程要求comment:<>(“编程要求”部分说一下本关要解决的问题的具体要求，并给出相应代码的框架，以及要求学生填写的那一块)命令行随机输入一个字符串，输出其长度测试举例：测试输入：1234预期输出：4importmath
C#中的设计模式：构建更加优雅的代码 Envyᥫᩣᩚ c#开发语言
C#在面向对象编程（OOP）方面的强大支持，我们可以探讨“C#中的设计模式”。这不仅有助于理解如何更好地组织代码，还能提高代码的可维护性和可扩展性。引言设计模式是软件工程中经过实践验证的解决方案模板，它们提供了一种标准化的方法来解决常见的开发问题。对于使用C#进行开发的程序员来说，理解和应用这些模式可以帮助创建结构良好、易于维护和扩展的应用程序。本文将介绍几种常用的设计模式，并展示如何用C#实现它
深入探讨C++模板编程：类型推导与实例化王大帅爱钢炼模板编程类型推导模板参数函数指针类模板
背景简介C++模板编程是C++语言中一个强大而复杂的特性，它允许程序员编写与数据类型无关的代码。本篇博客将深入探讨C++模板编程中的一些关键概念，如类型推导、模板参数、通用构造器、函数类型与函数指针、非模板基类以及模板位置等。typename和模板参数在模板编程中，typename关键字不仅可以用来指定模板参数的类型，还可以用来解决依赖类型的问题。例如，在声明一个非类型模板参数时，使用typena
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

Hadoop In Action 第四章(1)

你可能感兴趣的:(mapreduce,数据结构,编程,hadoop,网络应用)