philip_kissme

Hadoop关于大量小压缩文件的问题和解决方法

之前一段时间偶尔会收到 hadoop 集群的 nagios 监控报警,具体报警是几个 resource-manager 节点一直负载超过阀值.找了个空闲时间分析了一下 job-history,发现是一个小伙伴的 job在段时间内创建了大量 map-task 导致的,在解决问题后做个笔记备忘

首先分析 job-history 的统计数据

可以发现 map 任务执行的时间很短,但是同时会有大量的 map 任务
与小伙伴沟通后,了解到他的 job 是根据运营侧需求,本周都在应用埋点日志中提取指定按钮的点击计数
应用埋点的日志记录了每个用户的所有访问路径和参数
1) log-agent 通过 logback 将日志记录到本地
2)每小时生成一个 gz 压缩包,并上传至 hdfs 指定目录(根据应用标识+ip 生产目录规则)

根据 hadoop 的 map split 机制我们可以得出如下结论

每个 inputfile 会对应多个 map split(根据 hdfs 的 block zise切分)
每个map split会对应一个 map task
由于每个小时生成的 gz 文件均未超过hdfs block zise(128m)
小伙伴要统计的集群中有三个应用节点,排除凌晨时段没有日志产出的情况,大概一周的日志文件树=24*7*3~=350

解决问题

我们知道 hadoop中是可以利用CombineFileInputFormat来合并大量小文件输入,提高 map 性能的.
但默认实现只提供了CombineSequenceFileInputFormat和CombineTextFileInputFormat,没有压缩文件的支持.
所以这里要实现自定义的CombineFileInputFormat来解决该问题

自定义CompressedCombineFileInputFormat

package ctu.components.amada.hadoop.usertrace;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.CombineFileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader;
import org.apache.hadoop.mapreduce.lib.input.CombineFileSplit;

import java.io.IOException;

/**
 * Created by pippo on 14/12/23.
 */
public class CompressedCombineFileInputFormat extends CombineFileInputFormat<CompressedRecordKey, Text> {

	public RecordReader<CompressedRecordKey, Text> createRecordReader(InputSplit split, TaskAttemptContext context)
			throws IOException {
		return new CombineFileRecordReader<>((CombineFileSplit) split,
				context,
				CompressedCombineFileRecordReader.class);
	}

}

CompressedCombineFileRecordReader

package ctu.components.amada.hadoop.usertrace;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionCodecFactory;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.CombineFileSplit;
import org.apache.hadoop.util.LineReader;

import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;

/**
 * Created by pippo on 14/12/23.
 */
public class CompressedCombineFileRecordReader extends RecordReader<CompressedRecordKey, Text> {

	private long offset;
	private long end;
	private long pos;
	private CompressedRecordKey key;
	private Text value = new Text();
	private CompressTrunk trunk;
	private LineReader reader;

	public CompressedCombineFileRecordReader(CombineFileSplit split, TaskAttemptContext context, Integer index)
			throws IOException {

		/*多个压缩文件合并为一个ombine file, 那么实际的压缩文件就是file中的一个trunk*/
		this.trunk = new CompressTrunk(context.getConfiguration(), split.getPath(index));
		/*trunk在combine 中的起始位置*/
		this.offset = split.getOffset(index);
		/* trunk在combine file中的结束位置*/
		this.end = offset + (trunk.isCompress() ? trunk.getFileLength() : split.getLength(index));

		boolean skipFirstLine = false;
		FSDataInputStream in = trunk.open();

		if (offset != 0) {
			skipFirstLine = true;
			--offset;
			in.seek(offset);
		}

		reader = new LineReader(trunk.open());

		// skip first line and re-establish "offset".
		if (skipFirstLine) {
			offset += reader.readLine(new Text(), 0, (int) Math.min((long) Integer.MAX_VALUE, end - offset));
		}
		this.pos = offset;
	}

	@Override
	public void initialize(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {

	}

	@Override
	public void close() throws IOException {
		trunk.close();
	}

	@Override
	public float getProgress() throws IOException {
		if (offset == end) {
			return 0.0f;
		} else {
			return Math.min(1.0f, (pos - offset) / (float) (end - offset));
		}
	}

	@Override
	public boolean nextKeyValue() throws IOException {
		initKey();
		initValue();

		//指定当前记录的读取起始位置
		key.offset = pos;

		int readed = 0;

		//读取一条记录
		if (pos < end) {
			readed = reader.readLine(value);
			pos += readed;
		}

		//如果没有读到任何记录,说明当前 trunk 已经没有更多记录了
		if (readed == 0) {
			key = null;
			value = null;
			return false;
		} else {
			return true;
		}
	}

	private void initKey() {
		if (key == null) {
			key = new CompressedRecordKey();
			key.fileName = trunk.getFileName();
		}
	}

	private void initValue() {
		if (value == null) {
			value = new Text();
		}
	}

	@Override
	public CompressedRecordKey getCurrentKey() throws IOException, InterruptedException {
		return key;
	}

	@Override
	public Text getCurrentValue() throws IOException, InterruptedException {
		return value;
	}

	public static class CompressTrunk {

		public CompressTrunk(Configuration configuration, Path compressFile) throws IOException {
			this.configuration = configuration;
			this.compressFile = compressFile;
			this.fs = compressFile.getFileSystem(configuration);
			this.factory = new CompressionCodecFactory(configuration);
			this.codec = factory.getCodec(compressFile);

			prepareReadableFile();
		}

		/*将trunk解压缩到一个临时目录,并提供inputStream供读取*/
		protected void prepareReadableFile() throws IOException {
			if (!isCompress()) {
				readableFile = compressFile;
				return;
			}

			String _readFile = CompressionCodecFactory.removeSuffix(compressFile.toString(),
					codec.getDefaultExtension());
			readableFile = new Path(_readFile);

			InputStream in = null;
			OutputStream out = null;
			try {
				in = codec.createInputStream(fs.open(compressFile));
				out = fs.create(readableFile);
				IOUtils.copyBytes(in, out, configuration);
			} finally {
				IOUtils.closeStream(in);
				IOUtils.closeStream(out);
			}
		}

		private Configuration configuration;
		//源文件
		private Path compressFile;
		//解压后的文件
		private Path readableFile;
		private FileSystem fs;
		private CompressionCodecFactory factory;
		private CompressionCodec codec;

		public boolean isCompress() {
			return codec != null;
		}

		public String getFileName() {
			return readableFile.getName();
		}

		public long getFileLength() throws IOException {
			return fs.getFileStatus(readableFile).getLen();
		}

		private FSDataInputStream in;

		public FSDataInputStream open() throws IOException {
			if (in == null) {
				in = fs.open(readableFile);
			}
			return in;
		}

		//处理完毕后删除临时文件
		public void close() throws IOException {
			if (in != null) {
				in.close();
			}

			if (isCompress()) {
				fs.delete(readableFile, false);
			}
		}
	}

}

CompressedRecordKey

package ctu.components.amada.hadoop.usertrace;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * Created by pippo on 14/12/23.
 */
public class CompressedRecordKey implements WritableComparable {

	//记录所在的文件
	public String fileName;
	//记录在文件中所在的位置
	public long offset;

	public CompressedRecordKey() {
		super();
	}

	@Override
	public void readFields(DataInput in) throws IOException {
		this.offset = in.readLong();
		this.fileName = in.readUTF();
	}

	@Override
	public void write(DataOutput out) throws IOException {
		out.writeLong(offset);
		out.writeUTF(fileName);
	}

	@Override
	public int compareTo(Object o) {
		CompressedRecordKey that = (CompressedRecordKey) o;

		int f = this.fileName.compareTo(that.fileName);
		if (f == 0) {
			return (int) Math.signum((double) (this.offset - that.offset));
		}
		return f;
	}

	@Override
	public boolean equals(Object obj) {
		if (obj instanceof CompressedRecordKey) {
			return this.compareTo(obj) == 0;
		}
		return false;
	}

	@Override
	public int hashCode() {

		final int hashPrime = 47;
		int hash = 13;
		hash = hashPrime * hash + (this.fileName != null ? this.fileName.hashCode() : 0);
		hash = hashPrime * hash + (int) (this.offset ^ (this.offset >>> 16));

		return hash;
	}

	@Override
	public String toString() {
		return this.fileName + "-" + this.offset;
	}

}

JOB 配置

	private void buildMapper(Job job) {
		job.setInputFormatClass(CompressedCombineFileInputFormat.class);
		job.setMapperClass(LogMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(UserTrace.class);
		job.setCombinerClass(LogCombiner.class);
	}

验证结果

如图所示所有的输入被合并为三个map task处理
共处理了3.7G的数据(File:Number of bytes read)/解压后37G(HDFS:Number of bytes read)

新的问题

CombineFileInputFormat没有split,导致只有三个map taks
每个map task的输出文件过大,shuffle 消耗了1个多小时

问题定位

通过查看 hadoop 源码发现,在使用CombineFileInputFormat时,如果没有显示设定CombineFileInputFormat.SPLIT_MAXSIZE,那么在一个 hadoop node 上只会有一个 split

问题解决

将CombineFileInputFormat.SPLIT_MAXSIZE设置为和 hadoop 的 block size 一样大小

结果检验

处理4.5g 的日志(解压后45g) 共耗时20分钟
其中 map 处理1.4亿条记录耗时5分51秒
map 的 output 进行 lz4压缩,shuffle 的时间缩短到11分钟

你可能感兴趣的:(hadoop,GZip,小文件)

大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
输入hadoop version时，解决Cannot execute /home/hadoop/libexec/hadoop-config.sh.的方法有奇妙能力吗 ubuntu hadoop hdfs linux 大数据分布式
在ubuntu用hadoopversion遇到了一个错误：Cannotexecute/home/hadoop/hadoop2.8/libexec/hadoop-config.sh.解决方法：在/etc/profile中找到了这个HADOOP_HOME全局变量，将其删除运行source/etc/profile输入vim.bashrc命令，在最后一行输入unsetHADOOP_HOMEsource.b
Web 架构之图片与静态资源优化全攻略懂搬砖 web架构原力计划前端架构网络
文章目录思维导图一、图片优化1.图片格式选择2.图片压缩3.响应式图片4.图片懒加载二、静态资源优化1.文件压缩2.缓存策略3.CDN加速总结思维导图Web架构图片与静态资源优化图片优化静态资源优化图片格式选择图片压缩响应式图片图片懒加载JPEGPNGWebP无损压缩有损压缩文件压缩缓存策略CDN加速GzipBrotli强缓存协商缓存一、图片优化1.图片格式选择JPEG特点：有损压缩格式，适合色彩
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
【docker】docker save和docker load Jackilina_Stone #docker docker 镜像
目录■支持的文件类型▲.tar文件▲.tar.gz或.tgz文件（gzip压缩）▲其他压缩格式（如.tar.bz2,.tar.xz等）■总结dockersave命令用于将一个或多个Docker镜像保存为tar档文件，以便于传输或备份。以下是与dockersave相关的文件类型说明：■支持的文件类型▲.tar文件dockersave默认输出的是未压缩的.tar文件。示例命令：dockersave-o
Android 网络全栈攻略（七）—— 从 OkHttp 拦截器来看 HTTP 协议二 tmacfrank Android #网络基础网络 android okhttp
上一篇我们介绍了OkHttp的责任链以及第一个内置拦截器——重试与重定向拦截器。本篇我们将剩余四个拦截器的解析做完。1、桥接拦截器BridgeInterceptor作为请求准备和实际发送之间的桥梁，自动处理HTTP请求头等繁琐工作。比如设置请求内容长度，编码，gzip压缩，Cookie等，获取响应后保存Cookie等。它的设计目的是为了解决开发者手动处理HTTP协议细节的麻烦，特别是那些必须做但很
Linux基础命令集合牛岚风 linux 运维服务器
目录文件目录相关命令lscdcpfindmkdirmvrmtouchfiletreechattrlsattrmd5sum查看文件以及内容处理相关命令vimcatmore和headtailcutsortuniqwcgreptr文件压缩以及解压缩相关命令tarunzipgzipzip软件包管理相关命令rpmyumapt-get信息显示相关命令unamehostnameuptimestatdudftop
前端大文件上传解决方案诸葛亮的芭蕉扇前端 javascript vue.js
本文分享的内容是前端大文件上传的解决方案，文件上传是前端开发中常见的需求，特别是在处理视频、大型文档或数据集时。对于小文件上传不做详细介绍，在源码中已附带。大文件上传前置条件设置分片大小的值，即规定每个切片的大小设置文件大小阈值，即超过多少M判定为大文件大文件上传步骤计算文件md5的值前端对文件进行分割，每个切片中包含索引、切片内容、文件名称对切片集合进行遍历，按照顺序上传切片先校验切片是否已上传
Hadoop WordCount 程序实现与执行指南
HadoopWordCount程序实现与执行指南下面是使用Python实现的HadoopWordCount程序，包含完整的Mapper和Reducer部分。这个程序可以在PyCharm中本地测试，也可以部署到远程Hadoop集群上运行。mapper.pyimportsys#从标准输入读取数据forlineinsys.stdin:#移除行首行尾的空白字符line=line.strip()#将行分割为
音频单声道跟立体声道的区别张海森_168820 音视频
音频单声道跟立体声道的区别摘自chatgpt单声道（Mono）和立体声（Stereo）的区别，主要在于声道数与空间感的不同：1.定义对比：项目单声道（Mono）立体声（Stereo）声道数1个2个（左声道+右声道）声音来源所有声音都从一个声道发出声音分布在两个声道，模拟空间感空间效果无空间感有方向、空间定位感（左右差异）文件大小相对较小文件更大（多一倍音频数据）常见应用电话、对讲机、语音识别等音乐
文件同步·使用同步软件来管理文件（外接大脑）让我安静会配置与安装 zotero
个人使用文件同步软件分享。管理文件/信息V1：Obsidian（信息图文：外接大脑；知识链接的形式）Zotero（文章存储：与Obsidian连接）Notion（各种文件存储：可分类、搜索、文字记录）【手机联动】坚果云（1G·小文件临时存储）【手机联动】Gitee（5G）阿里云盘（600G·比较大的文件）外接硬盘其他资源（不必存储：增加负担）管理文件/信息V2：Obsidian（信息图文：外接大脑
MySQL 的日志分析 jarenyVO Mysql 数据库
MySQL的日志分析MySQL的日志系统是保证数据一致性、持久性和高可用的核心组件，不同日志各司其职。以下是详细分类和解析：一、事务日志（InnoDB引擎层）1.RedoLog（重做日志）物理格式：循环写入的固定大小文件（默认ib_logfile0、ib_logfile1）核心作用：崩溃恢复：确保事务的持久性（Durability）Write-AheadLogging(WAL)：数据页修改前先写r
每天一个前端小知识 Day 16 - 前端性能优化全流程指南蓝婷儿前端面试前端性能优化
前端性能优化全流程指南（从加载到交互）目标概览：前端性能优化四大核心维度阶段优化目标加载阶段首屏速度、资源压缩、请求优化渲染阶段减少回流重绘、避免布局抖动交互阶段保持高帧率、避免卡顿持久运行阶段内存泄露处理、缓存命中策略一、加载性能优化（首屏速度为王）✅核心策略：资源体积优化JS/CSS/图片压缩（如gzip,brotli）Tree-shaking（去除无用代码）图片压缩（webp优先）合理拆包（
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
spark解析压缩包数据，写入到hive表中 dbbigdata spark 大数据 hive
spark解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件，zip里面是json文件。先用spark读取tar.gz的路径，然后开流传给newTarArchiveInputStream(newGZIPInputStream(file))去处理，大概的代码如下defmain(args:Array[String]):Unit={valroot:String=a
MapReduce概述 Tate小白大数据学习 mapreduce
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduc
c# 利用 GZipStream 压缩解压缩文件（所有类型的文档) 山海上的风 c#
c#利用GZipStream压缩解压缩文件（所有类型的文档)usingSystem;usingSystem.Collections.Generic;usingSystem.IO;usingSystem.IO.Compression;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;namespaceGZipStream_压缩
Linux命令行操作基础 EnigmaCoder Linux linux 运维服务器
目录前言目录结构✍️语法格式操作技巧Tab补全光标操作基础命令登录和电源管理命令⚙️login⚙️last⚙️exit⚙️shutdown⚙️halt⚙️reboot文件命令⚙️浏览目录类命令pwdcdls⚙️浏览文件类命令catmorelessheadtail⚙️目录操作类命令mkdirrmdir⚙️文件操作类命令mvrmtouchfindgziptar⚙️cp前言大家好！我是EnigmaCod
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
批量图片压缩工具 - 高效图片优化解决方案空中湖图像处理 python
批量图片压缩工具-高效图片优化解决方案软件简介批量图片压缩工具是一款专为需要处理大量图片的用户设计的实用工具。它能够帮助您快速压缩JPG、PNG、GIF等多种格式的图片文件，在保持良好视觉质量的同时显著减小文件体积。点击查看软件展示页面主要功能1.多格式支持支持JPG/JPEG、PNG、GIF等多种常见图片格式自动识别文件类型并采用最优压缩算法2.批量处理可一次性选择多个文件或整个文件夹进行压缩支
HTTP请求与前端资源未优化的系统性风险与高性能优化方案编程实战派-李工《Java 前端性能优化 HTTP请求管理 GZIP压缩浏览器缓存策略 CDN加速实践全栈性能优化 Webpack配置技巧
目录前言一、未合并静态资源：HTTP请求的隐形杀手1.1多文件拆分的代价1.2合并策略与工具链实践二、未启用GZIP压缩：传输流量的浪费2.1文本资源的压缩潜力2.2服务端配置与压缩算法选择三、未配置浏览器缓存：重复请求的根源3.1缓存失效的性能损耗3.2Cache-Control策略分级应用四、CDN加速：全局性能优化的关键4.1静态资源分发的地理优化4.2实施CDN的最佳实践五、系统化提升网站
HDFS（Hadoop分布式文件系统）总结 Cachel wood 大数据开发 hadoop hdfs 大数据散列表算法哈希算法 spark
文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode（辅助名称节点）三、数据存储机制1.数据块（Block）设计2.复制策略（默认复制因子=3）3.数据完整性校验四、文件读写流程1.写入流程2.读取流程五、高可用性（HA）机制1.单点故障解决方案2.
Spark教程1：Spark基础介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络数据库数据仓库
文章目录一、Spark是什么？二、Spark的核心优势三、Spark的核心概念四、Spark的主要组件五、Spark的部署模式六、Spark与Hadoop的关系七、Spark应用开发流程八、Spark的应用场景九、Spark版本更新与社区一、Spark是什么？ApacheSpark是一个开源的分布式大数据处理引擎，最初由加州大学伯克利分校AMPLab开发，2013年捐赠给Apache软件基金会，如
UniApp使用uView UI开发教程1 速易达网络移动应用开发课程 uni-app view design
基于UniApp整合uViewUI进行高效开发的完整指南，涵盖核心特性、集成流程、开发技巧及最佳实践：一、uViewUI的核心优势组件生态强大100+高质量组件（表单/布局/导航/数据展示等）支持Vue2/Vue3双版本（uView1.x/2.x）深度性能优化按需加载+轻量设计（gzip后仅200KB）支持NVUE原生渲染（App端60FPS流畅体验）开发体验卓越完善的官方文档
Hadoop的部分用法覃炳文20230322027 hadoop hive 大数据分布式
前言Hadoop是一个由Apache基金会开发的开源框架，它允许跨多个机器使用分布式处理大数据集。Hadoop的核心是HDFS（HadoopDistributedFileSystem）和MapReduce编程模型。1.Hadoop环境搭建在开始使用Hadoop之前，你需要搭建Hadoop环境。这通常包括安装Java、配置Hadoop环境变量、配置Hadoop的配置文件等步骤。1.1环境准备在开始安
Netty4.1 - TCP粘包拆包解决方案及案例代码 wwyh520 IO编程 netty
Netty是目前业界最流行的NIO框架之一，它的健壮性、高性能、可定制和可扩展性在同类框架中都是首屈一指。它已经得到了成百上千的商业项目的验证，例如Hadoop的RPC框架Avro就使用了Netty作为底层通信框架，其他的业界主流RPC框架，例如：Dubbo、Google开源的gRPC、新浪微博开源的Motan、Twitter开源的finagle也使用Netty来构建高性能的异步通信能力。另外，阿
Storm核心概念与实战详解 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2010年Hadoop项目开源后，Storm项目也随之走向人气爆棚。在如此火热的当下，给我们带来的好处不仅仅是增强对Hadoop平台的掌控能力，更重要的是让我们感受到了快速发展、海量数据处理能力、低延迟的优势。在这一系列文章中，我将深入浅出地介绍Storm项目，并从实际案例出发，带领大家全面理解Storm中的关键概念及其运作方式，让您轻松掌握Storm的高效率、
基于Hadoop大数据分析应用场景与实战跨过山河大海
一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复
Hadoop 发展过程是怎样的？ AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2003年，美国加州大学洛杉矶分校教授李彦宏博士发明了一种分布式文件系统——GFS（GoogleFileSystem）。由于该文件系统设计得足够简单，可以适应大规模数据集存储需求，在此基础上演化出多种应用，包括MapReduce、BigTable、PageRank等，并成为当时互联网公司的标配技术之一。2004年，Google发布了第一版Hadoop项目，定位是
技术解析：基于x264与FFmpeg的视频高效压缩策略——以小丸工具箱类GUI工具为例 soonlyai ffmpeg 音视频人工智能经验分享
摘要本文旨在探讨视频文件高效压缩的技术原理与实践方法，特别是针对如何在保持较高视觉质量的前提下显著减小文件体积。我们将以常见的视频处理GUI工具（如“小丸工具箱”等）所封装的核心技术为引，重点分析基于x264编码器和FFmpeg框架的参数配置，如CRF（ConstantRateFactor）值的选择。同时，本文将提供一个基础的FFmpeg命令行示例，演示核心压缩操作，并讨论批量处理及GUI封装此类
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他