老虎也淘气

Hadoop学习：深入解析MapReduce的大数据魔力（三）

Hadoop学习：深入解析MapReduce的大数据魔力（三）

3.5 MapReduce 内核源码解析
- 3.5.1 MapTask 工作机制
- 3.5.2 ReduceTask 工作机制
- 3.5.3 ReduceTask 并行度决定机制
3.6 数据清洗（ETL）
- 1）需求
- 2）需求分析
- 3）实现代码
3.7 MapReduce 开发总结
- 1）输入数据接口：InputFormat
- 2）逻辑处理接口：Mapper
- 3）Partitioner 分区
- 4）Comparable 排序
- 5）Combiner 合并
- 6）逻辑处理接口：Reducer
- 7）输出数据接口：OutputFormat

3.5 MapReduce 内核源码解析

3.5.1 MapTask 工作机制

（1）Read阶段：MapTask通过InputFormat获得的RecordReader，从输入InputSplit中解析出一个个key/value。

（2）Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value。

（3）Collect 收集阶段：在用户编写 map()函数中，当数据处理完成后，一般会调用OutputCollector.collect()输出结果。在该函数内部，它会将生成的 key/value 分区（调用Partitioner），并写入一个环形内存缓冲区中。

（4）Spill 阶段：即“溢写”，当环形缓冲区满后，MapReduce会将数据写到本地磁盘上，生成一个临时文件。需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作。

溢写阶段详情：
步骤1：利用快速排序算法对缓存区内的数据进行排序，排序方式是，先按照分区编号Partition 进行排序，然后按照key进行排序。这样，经过排序后，数据以分区为单位聚集在一起，且同一分区内所有数据按照key有序。

步骤2：按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spillN.out（N 表示当前溢写次数）中。如果用户设置了 Combiner，则写入文件之前，对每个分区中的数据进行一次聚集操作。

步骤3：将分区数据的元信息写到内存索引数据结构SpillRecord中，其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过1MB，则将内存索引写到文件output/spillN.out.index中。

（5）Merge 阶段：当所有数据处理完成后，MapTask 对所有临时文件进行一次合并，以确保最终只会生成一个数据文件。当所有数据处理完后，MapTask 会将所有临时文件合并成一个大文件，并保存到文件output/file.out 中，同时生成相应的索引文件output/file.out.index。在进行文件合并过程中，MapTask以分区为单位进行合并。对于某个分区，它将采用多轮递归合并的方式。每轮合并mapreduce.task.io.sort.factor（默认 10）个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复以上过程，直到最终得到一个大文件。
让每个 MapTask 最终只生成一个数据文件，可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。

3.5.2 ReduceTask 工作机制

（1）Copy 阶段：ReduceTask 从各个 MapTask 上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。

（2）Sort 阶段：在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一
起，Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序，因此，ReduceTask只需对所有数据进行一次归并排序即可。

（3）Reduce 阶段：reduce()函数将计算结果写到HDFS上。

3.5.3 ReduceTask 并行度决定机制

回顾：MapTask并行度由切片个数决定，切片个数由输入文件和切片规则决定。

思考：ReduceTask并行度由谁决定？

1）设置ReduceTask并行度（个数）
ReduceTask 的并行度同样影响整个 Job 的执行并发度和执行效率，但与MapTask的并发数由切片数决定不同，ReduceTask数量的决定是可以直接手动设置：

// 默认值是1，手动设置为4
job.setNumReduceTasks(4);

2）实验：测试ReduceTask多少合适
（1）实验环境：1个Master节点，16个Slave节点：CPU:8GHZ，内存: 2G
（2）实验结论：

3）注意事项
（1）ReduceTask=0，表示没有Reduce阶段，输出文件个数和Map个数一致。
（2）ReduceTask默认值就是1，所以输出文件个数为一个。
（3）如果数据分布不均匀，就有可能在Reduce阶段产生数据倾斜
（4）ReduceTask数量并不是任意设置，还要考虑业务逻辑需求，有些情况下，需要计算全局汇总结果，就只能有1个ReduceTask。
（5）具体多少个ReduceTask，需要根据集群性能而定。
（6）如果分区数不是1，但是ReduceTask为1，是否执行分区过程。答案是：不执行分区过程。因为在MapTask的源码中，执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行。

3.6 数据清洗（ETL）

“ETL，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取
（Extract）、转换（Transform）、加载（Load）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库

在运行核心业务MapReduce 程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。==清理的过程往往只需要运行Mapper程序，不需要运行Reduce程序。 ==

1）需求

去除日志中字段个数小于等于11的日志。
（1）输入数据

（2）期望输出数据
每行字段长度都大于11。

2）需求分析

需要在Map阶段对输入的数据根据规则进行过滤清洗。

3）实现代码

（1）编写WebLogMapper类

package com.atguigu.mapreduce.weblog; 
import java.io.IOException; 
import org.apache.hadoop.io.LongWritable; 
import org.apache.hadoop.io.NullWritable; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce.Mapper; 
 
public class WebLogMapper extends Mapper<LongWritable, Text, Text, 
NullWritable>{ 
  
 @Override 
 protected void map(LongWritable key, Text value, Context context) 
throws IOException, InterruptedException { 
   
  // 1 获取1行数据 
  String line = value.toString(); 
   
  // 2 解析日志 
  boolean result = parseLog(line,context); 
   
  // 3 日志不合法退出 
  if (!result) { 
   return; 
  } 
   
  // 4 日志合法就直接写出 
  context.write(value, NullWritable.get()); 
 } 
 
 // 2 封装解析日志的方法 
 private boolean parseLog(String line, Context context) { 
 
  // 1 截取 
  String[] fields = line.split(" "); 
   
  // 2 日志长度大于11的为合法 
  if (fields.length > 11) { 
   return true; 
  }else { 
   return false; 
  } 
 } 
}

（2）编写WebLogDriver类

package com.atguigu.mapreduce.weblog; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.NullWritable; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce.Job; 
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
public class WebLogDriver { 
public static void main(String[] args) throws Exception { 
// 输入输出路径需要根据自己电脑上实际的输入输出路径设置 
args = new String[] { "D:/input/inputlog", "D:/output1" }; 
// 1 获取job信息 
Configuration conf = new Configuration(); 
Job job = Job.getInstance(conf); 
// 2 加载jar包 
job.setJarByClass(LogDriver.class); 
// 3 关联map 
job.setMapperClass(WebLogMapper.class); 
// 4 设置最终输出类型 
job.setOutputKeyClass(Text.class); 
job.setOutputValueClass(NullWritable.class); 
// 设置reducetask个数为0 
job.setNumReduceTasks(0); 
// 5 设置输入和输出路径 
FileInputFormat.setInputPaths(job, new Path(args[0])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 
// 6 提交 
boolean b = job.waitForCompletion(true); 
System.exit(b ? 0 : 1); 
} 
}

3.7 MapReduce 开发总结

1）输入数据接口：InputFormat

（1）默认使用的实现类是：TextInputFormat
（2）TextInputFormat 的功能逻辑是：一次读一行文本，然后将该行的起始偏移量作为key，行内容作为value返回。
（3）CombineTextInputFormat 可以把多个小文件合并成一个切片处理，提高处理效率。

2）逻辑处理接口：Mapper

用户根据业务需求实现其中三个方法：map() setup() cleanup ()

3）Partitioner 分区

（1）有默认实现 HashPartitioner，逻辑是根据key的哈希值和numReduces来返回一个分区号；key.hashCode()&Integer.MAXVALUE % numReduces
（2）如果业务上有特别的需求，可以自定义分区。

4）Comparable 排序

（1）当我们用自定义的对象作为key来输出时，就必须要实现WritableComparable 接口，重写其中的compareTo()方法。

（2）部分排序：对最终输出的每一个文件进行内部排序。

（3）全排序：对所有数据进行排序，通常只有一个Reduce。

（4）二次排序：排序的条件有两个。

5）Combiner 合并

Combiner 合并可以提高程序执行效率，减少IO传输。但是使用时必须不能影响原有的
业务处理结果。

6）逻辑处理接口：Reducer

用户根据业务需求实现其中三个方法：reduce() setup() cleanup ()

7）输出数据接口：OutputFormat

（1）默认实现类是TextOutputFormat，功能逻辑是：将每一个KV对，向目标文本文件
输出一行。
（2）用户还可以自定义OutputFormat。

你可能感兴趣的:(Hadoop学习指南,大数据,hadoop,学习)

清华大学发布最新版DeepSeek学习教程，完整版pdf合集，速收藏。大器晚成667 pdf 人工智能深度学习学习 AI写作
资料链接：https://pan.quark.cn/s/bb6ebf0e9b4d前日，清华发布的《DeepSeek从入门到精通》长达104页，还没学完，清华大学又发布了几个重磅教程！清华大学《DeepSeek+DeepResearch：让科研像聊天一样简单》，《普通人如何抓住DeepSeek红利》，《DeepSeek如何赋能职场应用》等等，这些教程将学习的受众群体从新手小白扩展到了科研人员，职场人
年后总结 3分人生学习
Git：寒假期间我复习了Git的基本操作，如克隆仓库、提交代码、分支管理等，重点强化了如何使用Git进行团队协作。Docker：学习了docker的一些常用指令，包括镜像，容器的创建，mysql的部署，通过这些操作可以简便java的开发Nacos：我掌握了如何在SpringCloud中集成Nacos，理解了Nacos如何实现服务的自动注册与发现。OpenFeign：在学习中知道OpenFeign是
MySQL数据库安装 dsliang12 MySQL 数据库 mysql
MySQL数据库安装首次接触数据库,在学习数据库的过程中希望能把学习的心得和过程都通过博客的形式记录下来.首先是方便自己日后有需要可以翻查,其次作为学习过程中的总结和积累.下载安装包访问MySQL官网发现网站看起来很乱并且全英文感觉都不知道应该下载哪一个版本.在下载之前来点科普知识MySQLCommunityServer-社区版MySQLEnterpriseServer-企业版MySQLClust
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现） @橘柑橙柠桔柚 python 算法人工智能
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果2.1有/无策略奖励2.2训练结果12.2训练结果23参考文献4Python代码、数据、文章1概述文献来源：根据微电网或微能源网是否与主电网相连接，可将其分为并网型和独立型2种。本文以并网型微能源网为研究对象，研究其并网运行的能量管理与优化问题。目前，
Python从0到100（六十八）：Python OpenCV-图像边缘检测及图像融合是Dream呀 opencv python 计算机视觉
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
LSTM：解决梯度消失问题 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在深度学习领域，循环神经网络（RNN）是一种处理序列数据的强大工具。然而，RNN在处理长序列时面临着梯度消失的问题。为了解决这个问题，Hochreiter和Schmidhuber于1997年提出了长短期记忆（LSTM）网络。本文将深入探讨LSTM如何解决梯度消失问题。2.核心概念与联系2.1梯度消失问题在深度神经网络中，梯度消失是一个常见的问题。当网络的层数增加时，反向传播的梯度会随着
编程小白必看！这套 C++ 精品视频教程，带你从入门到精通七七知享开发教程 c++开发语言 c语言程序人生学习方法改行学it 程序员创富
在当今竞争激烈的编程领域，C++作为一门基础且强大的编程语言，是众多开发者的必修课。现在，为大家精心分享一套C++精品视频教程，它堪称C++学习的绝佳指南。这套教程由行业内资深编程专家精心打造，内容编排极为系统。从C++基础语法入手，如变量、数据类型、运算符等，以通俗易懂的方式，让零基础的小白也能轻松入门。逐步深入到函数、类与对象、模板等核心知识，配合丰富的案例，细致剖析每一个知识点在实际编程中的
从入门到入土，Java学习day8（集合，学生管理系统实现）慕容魏 java 学习 python
集合它很重要，因为可以自动扩容，操作起来非常方便对比数组长度固定，集合长度可变数组可以存储基本数据类型和引用数据类型集合可以存引用数据类型和包装类当集合需要存基本数据就要存对应的包装类byteByteshortShortcharCharacterintIntegerlongLongfloatFloatdoubleDoublebooleanBooleanArrayList打印对象不是地址值，而是集合
基于深度学习的SSD口罩识别项目完整资料版（视频教程+课件+源码+数据） AI方案2025 深度学习人工智能
基于深度学习的SSD口罩识别项目完整资料版，包含视频教程、PPT课件和源码.01项目介绍.mp402SSD算法原理回顾.mp403数据集收集.mp404自定义数据集.mp405生成anchors.mp406展示anchors.mp407计算iou值.mp408计算target.mp409定义模型.mp410模型训练.mp411预测和总结.mp412ssd生成anchor源码编写.mp413计算of
python：记录调用微信OCR进行文字识别的一个错误的代码 knighthood2001 调用微信本地OCR进行文字识别 python 微信 ocr
博客主页：knighthood2001✨公众号：认知up吧（目前正在带领大家一起提升认知，感兴趣可以来围观一下）知识星球：【认知up吧|成长|副业】介绍❤️感谢大家点赞收藏⭐评论✍，您的三连就是我持续更新的动力❤️笔者水平有限，欢迎各位大佬指点，相互学习进步！本代码我想实现了这样一个功能：运行代码后，除非按下esc键，否则程序一直执行，然后按下ctrl+c，将剪切板中的图片通过微信OCR识别文字并
[c语言日寄] 指针学习情况自检题目 siy2333 c语言日寄 c语言学习开发语言笔记
【作者主页】siy2333【专栏介绍】⌈c语言日寄⌋：这是一个专注于C语言刷题的专栏，精选题目，搭配详细题解、拓展算法。从基础语法到复杂算法，题目涉及的知识点全面覆盖，助力你系统提升。无论你是初学者，还是进阶开发者，这里都能满足你的需求！【食用方法】1.根据题目自行尝试2.查看基础思路完善题解3.学习拓展算法【Gitee链接】资源保存在我的Gitee仓库：https://gitee.com/siy
55、深度学习-自学之路-自己搭建深度学习框架-16、使用LSTM解决RNN梯度消失和梯度爆炸的问题，重写莎士比亚风格文章。小宇爱深度学习-自学之路深度学习 rnn 人工智能自然语言处理神经网络
importnumpyasnpclassTensor(object):def__init__(self,data,autograd=False,creators=None,creation_op=None,id=None):self.data=np.array(data)self.autograd=autogradself.grad=Noneif(idisNone):self.id=np.rand
【学习笔记】Git常用命令玄二学习笔记学习笔记 git
目录Git常用命令1.gitinit（初始化一个新的Git仓库）2.gitclone[url]（克隆远程仓库到本地计算机）3.gitstatus（查看当前工作区的状态）4.gitadd[file]（将文件添加到暂存区）5.gitcommit-m"commitmessage"（提交暂存区中的更改）6.gitlog（查看提交历史记录）7.gitdiff（查看工作区与上次提交之间的代码差异）8.gitr
React学习笔记07 充气大锤 React学习笔记 react.js 学习笔记开发语言 vue.js 前端
一、自定义Hook函数概念：自定义Hook是以use打头的函数，通过自定义Hook函数可以用来实现逻辑的封装和复用来个小需求：点击toggle按钮时控制div的显示和隐藏不封装直接实现：functionApp(){const[state,set_state]=useState(true)consttoggle=()=>set_state(!state)return({state&&thisisdi
解锁机器学习核心算法 | K -近邻算法：机器学习的神奇钥匙紫雾凌寒 AI 炼金厂 #机器学习算法算法机器学习近邻算法 KNN k-近邻算法 python scikit-learn
一、引言今天我们继续学习机器学习核心算法——K-近邻（K-NearestNeighbors，简称KNN）算法。它就像是一位经验丰富的“老江湖”，以其简单而又强大的方式，在众多机器学习任务中占据着不可或缺的地位。K-近邻算法，作为机器学习中的一种基本分类与回归方法，以其独特的“基于邻居投票”策略而闻名。它的核心思想简单易懂，就如同我们在生活中判断一个人可能的兴趣爱好时，会参考他身边最常接触的朋友们的
java学习笔记-Stream流以及方法引用 zerolala java学习笔记 java 学习笔记
java学习笔记-Stream流以及方法引用文章目录java学习笔记-Stream流以及方法引用1.初始Stream流1.1样例1.2.Stream流的思想1.3Stream流的方法Stream流的中间方法Stream流的终结方法1.4综合练习2.方法引用2.1介绍2.2引用静态方法2.3引用成员方法2.4引用构造方法2.5其他调用方式综合练习1.初始Stream流1.1样例ArrayListli
Pytest学习笔记（6）-配置文件pytest.ini _黎晟 Pytest学习笔记 python 测试用例开发语言
文章目录配置文件pytest.ini前言常用配置项markerstestpathsaddoptsxfail_strictlog_clinorecursedirs更改测试用例收集规则注意事项配置文件pytest.ini前言很多pytestsettings可以设置在配置文件，它通常位于存储库的根目录或测试文件夹中pytest.ini文件优先于其他文件，即使是空的pytest配置文件可以改变pytest
pytest系列——pytest_collection_modifyitems钩子函数修改测试用例执行顺序测试中二 pytest框架测试用例 pytest
视频学习方式：www.bilibili.com/video/BV14i4y1c7Jowww.bilibili.com/video/BV14i4y1c7Jo前言pytest默认执行用例是根据项目下的文件名称按ascii码去收集运行的；文件中的用例是从上往下按顺序执行的。pytest_collection_modifyitems这个函数顾名思义就是收集测试用例、改变用例的执行顺序的。【严格意义上来说，
软件测试用例详解测试秃头怪 python 软件测试职场和发展自动化测试测试用例测试工具单元测试
视频学习：文末有免费的配套视频可观看点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快一、通用测试用例八要素1、用例编号；2、测试项目；3、测试标题；4、重要级别；5、预置条件；6、测试输入；7、操作步骤；8、预期输出二、具体分析通用测试用例八要素1、用例编号一般是数字和字符组合成的字符串，可以包括（下划线、单词缩写、数字等等），但是需要注意的是，尽量不要写汉语拼音，因为拼音的意义可能有
通义升级2.1文生视频模型彩色蚂蚁 AIGC应用 AIGC 图像生成音视频
作者公众号大数据与AI杂谈（TalkCheap），转载请标明出处年底果然各家AI视频厂商扎堆更新，昨天才写了一篇Vidu2.0版本更新的测评文章，同天通义也更新了他的文生视频模型，最新版本是2.1版和我两个月前做的测试相比，2.1版文生视频模型能力明显得到了大幅的提升，效果拔群，我总体甚至感觉这个版本可称当前（2025年1月10日）国内最强文生视频模型。那下面那我们来看看它的实际表现注：通义是阿里
【AI测试学习】AnythingLLM+Ollama+DeepSeek部署私人知识库艳Yansky AI测试 Python学习笔记人工智能 DeepSeek Ollama AnythingLLM
1.搭建DeepSeek大语言模型1.1Ollama大预言模型部署Ollama简化了大型语言模型的运行，让每个人都能在本地轻松体验AI的强大，打开浏览器-下载Ollama-输入命令-搞定，这是本地部署大语言模型的全新方式。这里我们借助Ollama大预言模型部署工具进行搭建官网如下：Ollama安装包也可百度网盘获取：安装完成后，桌面右下角会显示ollama图标1.2.安装DeepSeek复制oll
支持向量机（Support Vector Machine，SVM）详细解释（带示例）浪九天人工智能理论支持向量机算法机器学习
目录基本概念线性可分情况线性不可分情况工作原理示例Python案例代码解释基本概念支持向量机是一种有监督的机器学习算法，可用于分类和回归任务。在分类问题中，SVM的目标是找到一个最优的超平面，将不同类别的样本分隔开来，并且使得两类样本到该超平面的间隔最大。这个超平面被称为最大间隔超平面，而那些离超平面最近的样本点被称为支持向量，它们决定了超平面的位置和方向。线性可分情况当数据是线性可分的，即存在一
中国信通院“护证计划”正式启动，合合信息入选首批技术支撑单位大模型人工智能算法
随着人工智能技术的飞速发展，AI照“骗”在各个行业泛滥成灾，数字图像的真实性面临前所未有的挑战。近日，由中国互联网协会中小企业发展工委会主办的“卓信大数据计划”2025年度会议在京召开。本次会议上，中国信通院、中国互联网协会、中国图象图形学学会以及合合信息、蚂蚁安全实验室等多家企业代表共同启动了以AI守护AI，面向可信证照的专项行动“护证计划”，合合信息成功入选“护证计划”首批技术支撑单位。图说：
【Stable Diffusion】AnimatedDiff--AI动画插件使用技巧分享；文生视频、图生视频、AI生成视频工具；乘凉~ 人工智能应用 stable diffusion 人工智能音视频
本专栏主要记录人工智能的应用方面的内容，包括chatGPT、DeepSeek、AI绘画等等；在当今AI的热潮下，不学习AI，就要被AI淘汰；所以欢迎小伙伴加入本专栏和我一起探索AI的应用，通过AI来帮助自己提升生产力；本文的目标就是让每一个读者，都能学会并掌握AnimateDiff的使用；成功用它来生成你想要的视频。AnimateDiff是StableDiffusion的一个插件，借助它，你可以实
基于Python实现的【机器学习】小项目教程案例 xinxiyinhe 人工智能 github python 机器学习
以下是一个基于Python实现的【机器学习】小项目教程案例，结合的经典案例与最佳实践，涵盖数据预处理、模型训练与评估全流程，并附详细代码说明与结果分析：案例1：鸢尾花分类（SVM算法）数据集：IrisDataset（含150个样本，4个特征，3个类别）目标：根据花瓣与萼片长度预测鸢尾花种类步骤：环境准备：安装scikit-learn、pandas、matplotlibpipinstallsciki
【C++笔试强训】如何成为算法糕手Day11 循环渐进Forward 笔试强训Day48 c++开发语言算法动态规划牛客
学习编程就得循环渐进，扎实基础，勿在浮沙筑高台循环渐进Forward-CSDN博客目录游游的水果大礼包思路代码实现：买卖股票的最好时机(二)思路：代码实现：倒置字符串思路：代码实现：游游的水果大礼包牛客网做题链接：游游的水果大礼包(nowcoder.com)思路面对这样一个问题——给定一定数量的苹果和桃子，以及两种不同价值组合方式的礼包（一号礼包和二号礼包），目标是最大化所能组成的礼包总价值。这个
深入详解人工智能机器学习：强化学习猿享天开人工智能基础知识学习人工智能机器学习强化学习
目录强化学习概述强化学习的基本概念定义关键组件强化学习过程常用算法应用示例示例代码代码解释应用场景强化学习核心概念和底层原理核心概念底层原理总结强化学习概述强化学习（ReinforcementLearning,RL）是机器学习中的一个重要领域，其核心目标是通过与环境的交互学习如何采取行动以最大化累积奖励。与监督学习不同的是，强化学习不依赖于给定的输入输出对，而是通过试探和反馈不断改进决策策略。强化
Ubuntu Linux运维实战指南4_文件系统基础知识 IT_张三 Ubuntu Linux运维指南 linux 运维 ubuntu
4文件系统的层次结构文件系统是Ubuntu的核心内容之一。在Linux系统中，一切都是文件，而文件系统就是文件的组织和管理方式。可以这么说，在本书中除前3章外，其余的所有章节都会涉及文件系统。深入理解和掌握文件系统是每个Linux学习者都必须面对的问题。而掌握好文件系统，Linux系统中的许多难题都会迎刃而解。本章将介绍什么是文件系统、文件系统的层次结构、Linux文件系统的组织结构、Linux中
JS宏案例：在wps编辑器中玩numpy jackispy JS宏实例 numpy 数据分析 javascript
NumPy是Python中用于科学计算的一个基础库，它提供了大量的数学函数工具，尤其是用于高效处理大型多维数组和矩阵。NumPy是Python数据分析、机器学习、科学计算等领域中不可或缺的一部分。然，在wps的js宏编辑器中，并没有这样一个模块或是全局对象，但是，问题不大，我们可以手搓一个。不过，要使用JS完全模拟python中的numpy是比较困难的，工作量也非常的大，我们可以适当简化一下，如只
Day81 Flask框架学习老板来片烤面包 100天软件测试升级打怪路 flask 学习 python
Day81Flask框架学习文章目录Day81Flask框架学习Flask介绍1学习Flask框架的原因2Flask3框架对比1）框架轻重2）与Django对比4常用扩展包5Flask文档工程搭建环境安装1.复习虚拟环境和pip的命令2.创建虚拟环境3.安装FlaskFlask程序编写4启动运行参数说明1Flask对象初始化参数默认参数情况下修改参数的情况下2应用程序配置参数作用使用方式读取设置P
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author cngolon@126.com * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他