qq1192010412

MapReduce代码实现1

三：MapReduce 是一种分布式计算模型。

Mapreduce 框架有默认实现，程序员只需要覆盖map() 和reduce() 两个函数。

MapReduce 的执行流程

1.Map Task （以一个入门例子的单词计数为例，两行一定行是hello word 第二行是hello you 中间是制表符）

1.1 读取：框架调用InputFormat 类的子类读取HDFS 中文件数据，把文件转换为InputSplit 。默认，文件的一个block 对应一个InputSplit ，一个InputSplit 对应一个map task 。

一个InputSplit 中的数据会被RecordReader 解析成。默认，InputSplit 中的一行解析成一个。默认，v1 表示一行的内容，k1 表示偏移量。读取的结果是<0,helloword> 和<10,hello you> 10 是第二行的起始偏移量，这两个是

1.2map ：框架调用Mapper 类中的map(k1,v1) 方法，接收，输出。有多少个，map() 会被执行多少次。输出是

程序员可以覆盖map() ，实现自己的业务逻辑。

1.3 分区：框架对map 的输出进行分区。分区的目的是确定哪些进入哪个reduce task 。默认，只有一个分区。可以手动设置（0 ，1 ，2 等后面会涉及到）

1.4 排序分组：框架对不同分区中的进行排序、分组。

排序是按照k2 进行排序。结果是

分组指的是相同k2 的v2 分到一个组中。分组不会减少的数量。

1.5combiner ：可以在map task 中对执行reduce 归约。，1}>

1.6 写入本地：框架对map 的输出写入到linux 本地磁盘。

2.Reduce Task

2.1shuffle ：框架根据map 不同的分区中的数据，通过网络copy 到不同的reduce 节点。

2.2 合并排序分组：每个reduce 会把多个map 传来的进行合并、排序、分组。

2.3reduce ：框架调用reduce(k2,v2s) 。有多少个分组，就会执行多少次reduce 函数。

2.4 写入HDFS ：框架对reduce 的输出写入到HDFS 中。

单词计数代码示例 ：

package mp.wordcount;

import java.io.IOException;

importorg.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;

importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

*--------------------------------------------

* 原始数据

*hello you

*hello me

*---------------------

* 结果如下

*hello 2

* me 1

*you 1

*-------------------------------------------------------------

public class HelloWordCountApp2 {

/**

* 驱动代码

* @param args

* @throws Exception

publicstatic void main(String[] args) throws Exception {

// 从命令行传入输入路径

StringinputPath = args[0];

// 从命令行传入输出目录

PathoutputDir = new Path(args[1]);

Configurationconf = new Configuration();

// 表示job 名称，可以自定义，一般是类名

StringjobName = HelloWordCountApp2.class.getSimpleName();

// 把所有的相关内容都封装到job 中

Jobjob = Job.getInstance(conf, jobName);

// 打成jar 运行必备代码

job.setJarByClass(HelloWordCountApp2.class);

// 设置输入路径

FileInputFormat.setInputPaths(job,inputPath);

// 设置输出目录

FileOutputFormat.setOutputPath(job,outputDir);

// 设置自定义mapper 类

job.setMapperClass(HelloWordCountMapper.class);

// 指定k2,v2 类型

job.setMapOutputKeyClass(Text.class);

job.setMapOutputValueClass(LongWritable.class);

// 设置自定义reduce 类

job.setReducerClass(HelloWordCountReducer.class);

// 指定k3 ，v3 类型

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(LongWritable.class);

// 提交给yarn 运行，等待结束

job.waitForCompletion(true);

}

/**

* map 过程。

* 在这里，程序员继承Mapper ，覆盖map(...) 方法。

* 该类在运行的时候，称作map task ，是一个java 进程。

*----------------------------------------------------

* map() 全部执行完后，产生的有4 个，即。

* 排序后是。

* 分组后是。

publicstatic class HelloWordCountMapper extends Mapper{

Textk2 = new Text();

LongWritablev2 = new LongWritable();

/**

* 前面已经有拆分完成的。调用map() 一次方法，就处理一个对。

* 在map() 方法，拆分每一行，得到每个单词，每个单词( 不是每个不同的单词) 的出现次数是1 。

* 构造，k2 表示单词，v2 表示出现次数1 。

@Override

protectedvoid map(LongWritable key, Text value, Mapper.Context context)

throwsIOException, InterruptedException {

// 因为要对每行内容做拆分，需要调用String.split() ，所以需要把Text 转行成String 。

Stringline = value.toString();

// 拆分每行内容，结果是单词的数组

String[]splited = line.split("\t");

// 循环数组，取每个单词。在for 循环中构造

for(String word : splited) {

k2.set(word);

v2.set(1L);

// 把写出去，相当于调用return 语句

context.write(k2,v2);

}

/**

* reduce 过程

* reduce 端接收的是map 的输出，即4 个，3 个分组。

* 在reduce 执行之前，reduce 端合并、排序、分组。

* 在reduce() 调用之前，有3 个分组，即

* 一次reduce() 执行，处理1 个分组。所以说，执行3 次reduce() 。

* ------------------------------------------------------------------

* reduce task 执行结束后，框架会把reduce 输出的写入到HDFS 中

publicstatic class HelloWordCountReducer extends Reducer{

LongWritablev3 = new LongWritable();

/**

* k2 表示每个不同的单词

* v2s 表示每个不同的单词的出现次数

* 在reduce() 中，只需要汇总v2s 中的出现次数就行。

@Override

protectedvoid reduce(Text k2, Iterable v2s,

Reducer.Context context) throws IOException,InterruptedException {

//sum 表示当前单词k2 出现的总次数

longsum = 0L;

for(LongWritable v2 : v2s) {

sum+= v2.get();

}

//k3 表示当前不同的单词，与k2 含义相同

v3.set(sum);

context.write(k2,v3);

}

打成jar 包在hdfs 中执行yarn jar jar 包名 /hello /out

/hello 就是要统计的单词文本，是上传到hdfs 上的；/out 输出路径，如果已存在可以删除，也可在代码中删除

执行结果：

代码中用到序列化

Hadoop 的序列化格式：Writable

hadoop 序列化的目的是什么？

mapreduce 运行过程中，产生大量的磁盘io 和网络io 。序列化性能的差异，会对job 的运行效率产生非常大的影响。因此，高效率的序列化机制可以提高效率。

部分代码类方法解析

1.InputFormat 里面有2 个方法，一个是getSplits() ，一个是createRecordReader() 。

在执行mapreduce 之前，原始数据被分割成若干split ，每个split 作为一个

map任务的输入。每一个InputSplit都有一个RecordReader，作用是把InputSplit中的数据解析成Record，即.TextInputFormat中的RecordReader是LineRecordReader，每一行解析成一个。其中，k1表示偏移量，v1表示行文本内容

FileInputFormat 类中分析了getSplits() 。

TextInputFormat 类是MR 默认的输入处理类。主要分析的是LineRecordReader 。

Maper 类的源代码中，有setup 、cleanup 、map 、run 四个重要的方法。

2.SequenceFileInputFormat 专门处理类型是SequenceFile 格式的输入文件。

如果是大量的小文件作为输入文件，那么会产生大量的map task 。

如果把大量的小文件转换为SequenceFile 格式，那么会产生非常少的maptask 。

如果SequenceFile 使用压缩，那么maptask 执行时间会更短。

job.setInputFormatClass(SequenceFileInputFormat.class);

3.CombineFileInputFormat 作用是把大量的小文件交给一个map task 。

在这里，输入依然是小文件，但是会由非常少的map task 运行。

job.setInputFormatClass(CombineSmallFilesInputFormat.class);

--------------------------------------------------------------------------------------

4.OutputFormat 里面有个很重要的类，叫做RecordWriter 。

5. 使用MultipleOutputs 可以自定义输出的文件名。

---------------------------------------------------------------------------------------

6. 在map task 或者reduce task 中使用第三方的jar 包。

首先把第三方jar 包上传到hdfs 中，然后调用job.addArchiveToClasspath(...)

7. 分区partitioiner

默认的分区是1 个，分区的实现是HashPartitioner 。

什么时候用到分区？当需要把不同的数据按照不同的类型输出时，使用分区，例如不同的省份的安电话区号分别输出到不同的文件中。自定义分区类继承 HashPartitioner 例如extends HashPartitioner 覆盖 getPartition 方法（方法内根据业务实现分区）。

job.setPartitionClass(.....)

job.setNumReduceTasks(...)

8. 归约combiner

发生在map 端的reduce 操作。

作用是减少map 端的输出，减少shuffle 过程中网络传输的数据量，提高作业的执行效率。

combiner 仅仅是单个map task 的reduce ，没有对全部map 的输出做reduce 。

job.setCombinerClass(....)

9. 排序sort （见下面代码）

两种比较方式，一种是调用k2 的compareTo(...) 完成比较，第二种是自定义类extendsWritableComparator

job.setSortComparatorClass(....)

注意：extendsWritableComparator 的子类一定要有个无参构造方法，在该构造方法中，调用父类的有2 个参数的构造方法。

10. 分组grouping （例如日志采集中不同主机的操作记录，可以按照主机ip 分组做其他处理）

当排序逻辑与分组逻辑不一样时，就需要自定义分组。自定义类extends WritableComparator

job.setGroupingComparatorClass(...)

对于排序示例代码

例如需求对列排序如果第一行相同按照第二行大小排序

1 2

2 1

1 1

2 2

1 3

要求输出结果

1 1

1 2

1 3

2 1

2 2

思路一将第一列数和第二列数封装到自定义的一个类TwoInt 中进行

自定义排序CustomSortComparator extends WritableComparator

思路二按照 k2 排序

方法1 ：

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

importorg.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

importorg.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;

importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

* 利用k2 的compareTo() 实现排序

public class SortApp1 {

/**

* 驱动代码

* @param args

* @throws Exception

publicstatic void main(String[] args) throws Exception {

// 从命令行传入输入路径

StringinputPath = args[0];

// 从命令行传入输出目录

PathoutputDir = new Path(args[1]);

//reduce 数量

IntegernumReduceTasks = Integer.parseInt(args[2]==null?"1":args[2]);

Configurationconf = new Configuration();

outputDir.getFileSystem(conf).delete(outputDir,true);

// 表示job 名称，可以自定义，一般是类名

StringjobName = SortApp1.class.getSimpleName();

// 把所有的相关内容都封装到job 中

Jobjob = Job.getInstance(conf, jobName);

// 打成jar 运行必备代码

job.setJarByClass(SortApp1.class);

// 设置输入路径

FileInputFormat.setInputPaths(job,inputPath);

// 设置输出目录

FileOutputFormat.setOutputPath(job,outputDir);

// 设置自定义mapper 类

job.setMapperClass(SortMapper.class);

// 指定k2,v2 类型

job.setMapOutputKeyClass(TwoInt.class);

job.setMapOutputValueClass(NullWritable.class);

job.setNumReduceTasks(numReduceTasks);

// 设置自定义reduce 类

job.setReducerClass(SortReducer.class);

// 指定k3 ，v3 类型

job.setOutputKeyClass(TwoInt.class);

job.setOutputValueClass(NullWritable.class);

// 提交给yarn 运行，等待结束

job.waitForCompletion(true);

}

publicstatic class SortMapper extends Mapper{

TwoIntk2 = new TwoInt();

@Override

protectedvoid map(LongWritable key, Text value,

Mapper.Context context)

throwsIOException, InterruptedException {

Stringline = value.toString();

String[]splited = line.split("\t");

k2.set(Integer.parseInt(splited[0]),Integer.parseInt(splited[1]));

context.write(k2,NullWritable.get());

}

publicstatic class SortReducer extends Reducer{

@Override

protectedvoid reduce(TwoInt k2, Iterable v2s,

Reducer.Context context)

throwsIOException, InterruptedException {

context.write(k2,NullWritable.get());

}

publicstatic class TwoInt implements WritableComparable{

privateInteger first;

privateInteger second;

publicTwoInt() {

super();

}

publicvoid set(Integer first, Integer second) {

this.first= first;

this.second= second;

}

publicvoid write(DataOutput out) throws IOException {

out.writeInt(this.first);

out.writeInt(this.second);

}

publicvoid readFields(DataInput in) throws IOException {

this.first=in.readInt();

this.second= in.readInt();

}

publicint compareTo(TwoInt o) {

intret1 = first.compareTo(o.getFirst());

if(ret1==0){

returnsecond.compareTo(o.getSecond());

}else{

returnret1;

}

publicInteger getFirst() {

returnfirst;

}

publicvoid setFirst(Integer first) {

this.first= first;

}

publicInteger getSecond() {

returnsecond;

}

publicvoid setSecond(Integer second) {

this.second= second;

}

@Override

publicint hashCode() {

finalint prime = 31;

intresult = 1;

result= prime * result + ((first == null) ? 0 : first.hashCode());

result= prime * result + ((second == null) ? 0 : second.hashCode());

returnresult;

}

@Override

publicboolean equals(Object obj) {

if(this == obj)

returntrue;

if(obj == null)

returnfalse;

if(getClass() != obj.getClass())

returnfalse;

TwoIntother = (TwoInt) obj;

if(first == null) {

if(other.first != null)

returnfalse;

}else if (!first.equals(other.first))

returnfalse;

if(second == null) {

if(other.second != null)

returnfalse;

}else if (!second.equals(other.second))

returnfalse;

returntrue;

}

@Override

publicString toString() {

returnfirst + "\t" + second;

}

方法2 ：

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

importorg.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

importorg.apache.hadoop.io.WritableComparable;

importorg.apache.hadoop.io.WritableComparator;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;

importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

* 自定义sort 类，实现k2 的排序

public class SortApp2 {

/**

* 驱动代码

* @param args

* @throws Exception

publicstatic void main(String[] args) throws Exception {

// 从命令行传入输入路径

StringinputPath = args[0];

// 从命令行传入输出目录

PathoutputDir = new Path(args[1]);

//reduce 数量

IntegernumReduceTasks = Integer.parseInt(args[2]==null?"1":args[2]);

Configurationconf = new Configuration();

outputDir.getFileSystem(conf).delete(outputDir,true);

// 表示job 名称，可以自定义，一般是类名

StringjobName = SortApp2.class.getSimpleName();

// 把所有的相关内容都封装到job 中

Jobjob = Job.getInstance(conf, jobName);

// 打成jar 运行必备代码

job.setJarByClass(SortApp2.class);

// 设置输入路径

FileInputFormat.setInputPaths(job,inputPath);

// 设置输出目录

FileOutputFormat.setOutputPath(job,outputDir);

// 设置自定义mapper 类

job.setMapperClass(SortMapper.class);

// 指定k2,v2 类型

job.setMapOutputKeyClass(TwoInt.class);

job.setMapOutputValueClass(NullWritable.class);

// 自定义比较类

job.setSortComparatorClass(CustomSortComparator.class);

job.setNumReduceTasks(numReduceTasks);

// 设置自定义reduce 类

job.setReducerClass(SortReducer.class);

// 指定k3 ，v3 类型

job.setOutputKeyClass(TwoInt.class);

job.setOutputValueClass(NullWritable.class);

// 提交给yarn 运行，等待结束

job.waitForCompletion(true);

}

publicstatic class SortMapper extends Mapper{

TwoIntk2 = new TwoInt();

@Override

protectedvoid map(LongWritable key, Text value,

Mapper.Context context)

throwsIOException, InterruptedException {

Stringline = value.toString();

String[]splited = line.split("\t");

k2.set(Integer.parseInt(splited[0]),Integer.parseInt(splited[1]));

context.write(k2,NullWritable.get());

}

publicstatic class SortReducer extends Reducer{

@Override

protectedvoid reduce(TwoInt k2, Iterable v2s,

Reducer.Context context)

throwsIOException, InterruptedException {

context.write(k2,NullWritable.get());

}

publicstatic class CustomSortComparator extends WritableComparator{

/**

* 必须有无参构造方法，在方法内部，调用父类的含有2 个形参的构造方法。

* 父类构造方法的第二个参数为true

publicCustomSortComparator() {

super(TwoInt.class,true);

}

@Override

publicint compare(WritableComparable a, WritableComparable b) {

TwoIntaa = (TwoInt) a;

TwoIntbb = (TwoInt) b;

intret1 = aa.getFirst().compareTo(bb.getFirst());

if(ret1==0){

returnaa.getSecond().compareTo(bb.getSecond());

}else{

returnret1;

}

publicstatic class TwoInt implements WritableComparable{

privateInteger first;

privateInteger second;

publicTwoInt() {

super();

}

publicvoid set(Integer first, Integer second) {

this.first= first;

this.second= second;

}

publicvoid write(DataOutput out) throws IOException {

out.writeInt(this.first);

out.writeInt(this.second);

}

publicvoid readFields(DataInput in) throws IOException {

this.first=in.readInt();

this.second= in.readInt();

}

publicint compareTo(TwoInt o) {

return0;

}

publicInteger getFirst() {

returnfirst;

}

publicvoid setFirst(Integer first) {

this.first= first;

}

publicInteger getSecond() {

returnsecond;

}

publicvoid setSecond(Integer second) {

this.second= second;

}

@Override

publicint hashCode() {

finalint prime = 31;

intresult = 1;

result= prime * result + ((first == null) ? 0 : first.hashCode());

result= prime * result + ((second == null) ? 0 : second.hashCode());

returnresult;

}

@Override

publicboolean equals(Object obj) {

if(this == obj)

returntrue;

if(obj == null)

returnfalse;

if(getClass() != obj.getClass())

returnfalse;

TwoIntother = (TwoInt) obj;

if(first == null) {

if(other.first != null)

returnfalse;

}else if (!first.equals(other.first))

returnfalse;

if(second == null) {

if(other.second != null)

returnfalse;

}else if (!second.equals(other.second))

returnfalse;

returntrue;

}

@Override

publicString toString() {

returnfirst + "\t" + second;

}

；

运行结果:

补充：在map 和reduce之间有个shuffle过程，可以简单的理解shuffle是将map的输出传到reduce中去。核心思想是：map中有个内存缓存区，存储着mapd的输出，存满了就写到文件中，所以的map都记录完了，就把产生的所有文件合并到一个文件中。reduce通过http得到map输出文件。

305李03days作业#裂变实验室# 李_d891
A账号大数据里加的人B账号精筛选一遍的客户C账号vip客户深度信任客户今天事情有点多，没有好好学习，明天重新写一个补到新作业里。
Spring MVC、Spring Boot 和 Spring Cloud简要介绍及区别箬敏伊儿 java spring boot spring spring cloud
SpringMVC、SpringBoot和SpringCloud是Spring生态系统中的三个重要组件，它们在不同层面上帮助开发者构建和管理应用程序。以下是对它们的介绍及其区别：SpringMVC介绍SpringMVC（Model-View-Controller）是一个基于Java的Web框架，用于构建Web应用程序和RESTful服务。它提供了一组组件和注解，简化了Web应用程序的开发，尤其是与
Ant的使用菁华浮英梦
1、Ant：基于java的生成工具，作用类似于C的Make。make工具有两个缺陷：依赖UNIX的SHELL语言，所以无法跨平台；生成文件格式严格，容易导致错误。Ant基于java，所以可以跨平台，而且Ant使用XML生成文件，具有更好的适应性。2、下载和安装：①解压之后的文件结构如下：bin：启动启动和运行ant的可执行命令etc：包含一些样式单文件，通常无需理会该目录下的文件lib：包含Ant
深入浅出理解 IOC（控制反转）与 DI（依赖注入） snowfoootball 前后端 java 开发语言 spring
深入浅出理解IOC（控制反转）与DI（依赖注入）深入理解Spring框架中的IoC与DI在学习Spring框架时，控制反转（IoC）和依赖注入（DI）是不可回避的核心概念。它们不仅是设计模式的体现，更是实现高内聚、低耦合架构的关键。本文将从“为何需要”与“如何实现”两个维度，深入剖析这两个概念。一、为何需要IoC与DI：面向对象设计的挑战考虑以下传统的Java代码示例：publicclassOrd
Day1学习心得||Leetcode704,27,977
Part1数组的一些注意点第一天学习的内容是数组，基础的内容就按下不表，浅记一下补上的漏洞1.数组的元素不能删除，只能覆盖乍一看可能比较奇怪，但是仔细思考一下很简单。关注一下数组的本质其实是内存上开辟的一串连续的内存空间。在程序中，只能将内存空间中存储的内容改写，而不能完全去除（即使动态数组也只是释放）。2.二维数组的空间地址依然是连续的（顺序比较像阅读的顺序）tip:虽然还没学过Java，但是先
Java内存模型深度解析：栈、堆、方法区详解 wsj__WSJ java java
本文通过生动比喻和实战案例，帮你彻底掌握Java内存结构中栈内存、堆内存和方法区的核心原理与协作方式。一、为什么要区分三种内存？Java划分栈、堆、方法区是为了提高内存使用效率，不同数据有不同的生命周期和访问频率：数据类型类比场景存储位置生命周期临时数据（方法参数）便签纸栈内存方法执行期间对象实例常用文件夹堆内存对象存在期间类定义信息公司制度手册方法区程序运行期间就像高效的办公桌管理：栈内存：临时
JSON 对象
JSON对象概述JSON（JavaScriptObjectNotation）对象是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。JSON对象是JSON数据的一种基本结构，类似于JavaScript中的对象（Object）。在本文中，我们将详细介绍JSON对象的概念、语法、创建方法以及在实际应用中的使用。JSON对象的语法JSON对象使用大括号{}表示，其中包含一系列键值对。
力扣Leetcode热题100-二分查找解题思路分享花卷321 Leetcode 热门100 leetcode 职场和发展 java 开发语言
1.搜索插入位置题目如下：给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为O(logn)的算法。思路分析与最基本的二分查找算法类似，但是基础的二分查找在找不到值的时候一般情况下返回-1，找到的值返回索引，下面先展示最基本的二分查找的Java代码：publicstaticintbinarySearch(in
Java学习----Redis集群典孝赢麻崩乐急 java 学习 redis
在分布式系统开发中，Redis作为高性能的键值存储数据库，被广泛用于缓存、会话存储、消息队列等场景。当单节点Redis无法满足高并发、大容量的需求时，Redis集群成为解决性能瓶颈和数据可靠性问题的关键方案。Redis集群是Redis提供的分布式解决方案，通过将数据分片存储在多个节点上，实现数据的分布式存储和负载均衡。它由多个Redis节点组成，节点之间通过gossip协议进行通信，共同承担数据存
Crawlee高阶用法：无代码配置实现动态网站爬虫程序员威哥爬虫 python scrapy tcp/ip 网络协议
爬虫开发一直以来都需要编写大量的代码，尤其是在抓取动态网站时，往往需要处理JavaScript渲染和分页等复杂的问题。然而，Crawlee（之前叫ApifySDK）作为一个现代化的爬虫框架，提供了更加高效和简便的方式，甚至可以通过无代码配置来快速抓取动态网站数据。在本篇文章中，我们将深入探讨如何使用Crawlee实现动态网站的爬虫，并展示如何通过简单的配置来完成爬虫任务，节省开发时间和精力。1.C
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
JAVA面试宝典 -《DDD实战：从贫血模型到领域事件》
DDD实战：从贫血模型到领域事件引言：为什么从三层架构转向DDD？在传统的三层架构中，我们习惯将系统划分为Controller、Service和Repository层，关注点更多落在“技术职责”而非“业务语义”。然而，随着系统复杂度提高，贫血模型、重复逻辑、脆弱耦合等问题层出不穷。领域驱动设计（DDD）正是为了解决这些问题而生。它强调以业务为中心建模，将“业务行为”作为核心驱动软件设计，帮助系统在
ELF文件解析涌进的小羔羊 Android逆向 android c++ELF 解析
ELF文件解析近期正在进行Android的逆向。自己写出好代码是一个方面，而破解别人的代码则会给人另一种感受。因Java层的Android开发是如此不安全，越来越多的公司把重要的东西写入Native层，逻辑处理均由Native层完成，而Java层只负责进行结果显示。这样便要求对Native层的so文件进行逆向解析，而so文件是linux系统下的ELF(ExcutableandLinkableFil
final修饰符不可变的底层
final修饰符的底层原理在Java中，final修饰符的底层实现涉及编译器优化和JVM字节码层面的约束其核心目标是保证被修饰元素的【不可变性】或【不可重写/继承性】一、final修饰类：禁止继承的底层约束当一个类被final修饰时，例如String、IntegerJVM在字节码层面会通过访问标志（accessflags）标记该类为ACC_FINAL编译器在编译时会检查：如果子类试图继承被fina
Java Web项目Dump文件分析指南
目录1.Dump文件的类型与作用2.生成Dump文件的方法3.分析Dump文件的工具4.分析步骤与常见问题解决5.最佳实践与预防在JavaWeb项目中，dump文件是JVM（Java虚拟机）在发生崩溃、内存溢出或特定事件时生成的内存快照文件，用于诊断性能问题、内存泄漏或线程死锁。这些文件通常分为堆转储（heapdump）和线程转储（threaddump）。堆转储记录对象内存分配情况，而线程转储捕捉
【狂神说JAVA】JVM快速入门-1 Jackson Cortex jvm java
链接http://player.bilibili.com/player.html?aid=76728711&bvid=BV1iJ411d7jS&cid=131232435&page=1http://player.bilibili.com/player.html?aid=76728711&bvid=BV1iJ411d7jS&cid=131232435&page=1内容一、探究JVM0、面试题谈谈对J
Java 性能调优实战：JVM 参数配置与 GC 日志分析
Java性能调优实战：JVM参数配置与GC日志分析（10000字）一、Java性能调优的核心概念在现代企业级应用中，Java应用的性能直接影响用户体验、系统吞吐量以及资源利用率。因此，Java性能调优成为开发和运维团队的重要任务。性能调优的核心目标是提升应用的响应速度、减少延迟、优化资源使用，并确保系统在高并发环境下保持稳定。Java应用的性能优化涉及多个层面，包括代码优化、数据库访问优化、网络通
HTTP性能优化实战技术文章大纲 x10n9 http 性能优化网络协议
HTTP性能优化实战技术文章大纲理解HTTP性能瓶颈HTTP协议在请求-响应模型中的性能瓶颈主要涉及延迟、带宽限制和资源加载效率。通过分析网络请求的各个环节，识别关键性能问题，例如DNS解析时间、TCP连接建立、SSL/TLS握手时间等。减少HTTP请求数量合并CSS和JavaScript文件，使用CSSSprites技术减少图片请求次数。内联小型资源如图标或CSS片段，避免额外的HTTP请求。采
spring之事务管理 writeanewworld
1.spring简介spring中认为一切java类都是资源，而资源都是Bean,容纳这些Bean的是spring提供的Ioc容器，所以Spring是一种基于bean的编程。spring的作用主要是整合框架。2.spring中的事务管理，首先事务的基本概念就是一处报错，全部回滚。这也是spring事务管理的基本作用。3.spring事务管理分为xml跟注解案例：（1）实体类Employee.jav
全链路跟踪关键技术-ThreadLocal txxs 架构
转自：https://github.com/alibaba/transmittable-thread-local/issues/123应用场景的文章Java多线程上下文传递在复杂场景下的实践byvivo互联网技术（海外商城租户区分）2021-02-01SpringSecurityOAuth2.0认证授权五：用户信息扩展到jwt2021-01-14再谈Token认证，如何快速方便获取用户信息By尹吉
Java注解家族--`@ResponseBody`
@ResponseBody@ResponseBody是Spring框架中的一个注解，在基于Spring的Web开发中扮演着重要角色，以下是对它的详细总结：1.定义与基本功能定义：@ResponseBody注解用于将Controller方法的返回值，通过适当的HttpMessageConverter转换为指定格式后写入HTTP响应体中返回给客户端。它可以应用在方法上，也可以用在类上（当用在类上时，表
JVM基础篇1 - Class的加载 The小可 JVM java ide
JVM基础篇1-Class的加载JVM基础篇2-指令集JVM进阶篇1-内存模型JVM进阶篇2-GC垃圾回收JVM总览-JVM架构引入jvm面试题：谈谈对jvm的理解？java8虚拟机和之前的变化更新？什么是OOM，什么是栈溢出StackOverFlowError？怎么分析JVM常用的调优参数有哪些？内存快照如何抓取？怎么分析Dump文件？知道吗？谈谈jVM，类加载器的认识？1.什么是JVM？jvm
常见Hash算法 LUCIAZZZ 算法哈希算法 java spring boot 操作系统 spring 密码学
部分内容来源：JavaGuide什么是Hash算法哈希算法也叫散列函数或摘要算法，它的作用是对任意长度的数据生成一个固定长度的唯一标识也叫哈希值、散列值或消息摘要哈希算法的是不可逆的，你无法通过哈希之后的值再得到原值哈希值的作用是可以用来验证数据的完整性和一致性哈希算法可以简单分为两类：加密哈希算法：安全性较高的哈希算法，它可以提供一定的数据完整性保护和数据防篡改能力，能够抵御一定的攻击手段，安全
jvm分析篇---1、先认识下dump文件布朗克168 jvm jvm java 内存 dump
目录一、简介二、生成方式三、JavaWeb项目配置参数四、最佳实践一、简介Dump文件是JVM在运行过程中生成的内存快照文件，主要用于诊断Java应用的内存问题（如内存泄漏、OOM错误）和线程状态分析。在JavaWeb项目中，常见的dump文件类型包括：堆Dump（HeapDump）记录JVM堆内存中所有对象的详细信息，包括对象类型、引用关系和内存占用。$$\text{文件大小}\approx\t
复习博客：JVM hdzw20 java八股文复习 jvm java intellij-idea spring 后端
复习博客：JVM今日复习内容今天学习Java虚拟机（JVM），它是Java程序运行的基石。理解JVM的工作原理对于优化Java应用性能和排查问题至关重要。主要复习了以下内容：JVM内存模型JVM内存模型（也称为运行时数据区域）主要分为以下几个部分：程序计数器(ProgramCounterRegister)：一块较小的内存空间，是当前线程所执行的字节码的行号指示器。每个线程都有一个独立的程序计数器，
Java 实现 TCP 多发多收通信程序小陈永不服输 java 开发语言 tcp/ip 网络网络协议
在网络通信中，TCP协议的可靠传输特性使其在需要持续交互的场景中被广泛应用。本文将围绕一段实现TCP多发多收功能的Java代码，详细解析其实现原理、运行流程及技术特点，帮助开发者深入理解TCP持续通信的实现方式。核心代码展示以下是实现TCP多发多收通信的完整代码，包含客户端与服务器端两个部分：客户端（Client）代码packagecom.practical.agreement.tcp.tcp_2
抽象文档模式 hello 早上好设计模式开发语言 java
抽象文档模式在软件开发中，我们经常需要处理半结构化数据（如JSON、XML、文档数据库中的文档）。这类数据的特点是结构灵活，可能存在嵌套关系，且字段可能动态变化。传统的面向对象设计可能需要为每种数据结构定义大量类，导致代码冗余和维护困难。这时候，抽象文档模式（AbstractDocumentPattern）就能派上用场。本文将通过一个完整的Java案例，详细讲解抽象文档模式的实现原理、设计思路和实
Apache Ignite 的并发控制：实现高性能事务处理的关键 AI天才研究院 AI实战 AI人工智能与大数据 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着大数据时代的到来，数据量的增长和计算能力的提升使得传统的数据库和计算模型已经无法满足业务需求。为了应对这些挑战，分布式计算和存储技术得到了广泛的研究和应用。ApacheIgnite是一款高性能的分布式数据库和计算平台，它可以提供实时性能和高可用性，同时支持事务处理和并发控制。在这篇文章中，我们将深入探讨ApacheIgnite的并发控制机制，以及如何实现高性能事务处理。我们将从以下
apache ignite系列（二）：配置 weixin_30521161
ignite有两种配置方式，一种是基于XML文件的配置，一种是基于JAVA代码的配置：这里将ignite常用的配置集中罗列出来了，一般建议使用xml配置。1，基于XML的配置-->org.cord.*-->java.lang.Longcom.palic.demo.data.domain.CommRate-->-->-->-->-->-->-->-->-->-->-->127.0.0.1:48500
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？ DolphinScheduler社区 spark 大数据分布式
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统，能高效地执行和管理大数据流程。用户可以在DolphinSchedulerWeb界面轻松创建、编辑和调度云原生数据仓库AnalyticDBMySQL版的Spark作业。前提条件AnalyticDBforMySQL集群的产品系列为企业版、基础版或湖仓版。AnalyticDBforMySQL集群中已创建Job型资源组
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

MapReduce代码实现1

你可能感兴趣的:(java,大数据)