peixun123

HBase-HFile的读写操作

写入数据:

public class TestWrit {
	private static Configuration cfg = new Configuration();
	private static final int BLOCK_INDEX_SIZE = 60;
	private static final int BLOOM_BLOCK_INDEX_SIZE = 10;
	public TestWrit() {
		cfg.setInt("hfile.index.block.max.size", BLOCK_INDEX_SIZE);
		cfg.setInt("io.storefile.bloom.block.size", BLOOM_BLOCK_INDEX_SIZE);
		//cfg.setBoolean("hbase.regionserver.checksum.verify", true);
	}
	
	public static void main(String[] args) throws IOException {
	}
	
	public void test() throws IOException {
		//指定写入的路径
		Path path = new Path("/data0/hbase/test/myhfile");		
		FileSystem fs = FileSystem.get(cfg);
		CacheConfig config = new CacheConfig(cfg);
		FSDataOutputStream fsdos = fs.create(path);
		//MyDataOutputStream mdos = new MyDataOutputStream(fsdos);
		//fsdos = new FSDataOutputStream(mdos);
		
		//创建压缩算法，文件块编码，比较器
		//HFile默认的比较器是字典排序的，也可以生成一个自定义的比较器，但必须继承KeyComparator
		Algorithm algorithm = Algorithm.GZ;
		HFileDataBlockEncoder encoder = new HFileDataBlockEncoderImpl(DataBlockEncoding.DIFF);
		KeyComparator comparator = new KeyComparator();
		ChecksumType check = ChecksumType.CRC32;
	
		//创建HFile写实现类，指定写入的数据块大小，多少字节生成一个checksum
		int blockSize = 100;
		int checkPerBytes = 16384;
		HFileWriterV2 v2 = new HFileWriterV2(cfg, config, fs, path, fsdos, blockSize, algorithm, 
				encoder, comparator, check, checkPerBytes, true);
	
	/**
	 * HFile默认的比较器是字典排序的，所以插入的key也必须是字典排序，如果不想按照字典排序，
	 * 这里使用红黑树保证key的有序性
		String keyPrefix = new String("key");
		TreeSet set = new TreeSet();
		int len = 100;
		for(int i=1;i<=len;i++) {
			set.add(""+i);
		}
		for(String key:set) {
			String generatorKey = keyPrefix+key;
			v2.append( generator(generatorKey,"c","",System.currentTimeMillis(),VALUES) );
		}
	*/
		
		//创建两个布隆过滤器，指定最大的key数为5
		int maxKey = 5;
		BloomFilterWriter bw = BloomFilterFactory.createGeneralBloomAtWrite(cfg, config, BloomType.ROW, maxKey, v2);
		BloomFilterWriter bw2 = BloomFilterFactory.createDeleteBloomAtWrite(cfg, config, maxKey, v2);
	
		//生成KeyValue，插入到HFile中，并保存到布隆过滤器中
		KeyValue kv = generator("key111111111111111111111111","value","f",System.currentTimeMillis(),new byte[]{'2'});
		addToHFileWirterAndBloomFile(kv,v2,bw,bw2);
		
		kv = generator("key222222222222222222222222","value","f",System.currentTimeMillis(),new byte[]{'2'});
		addToHFileWirterAndBloomFile(kv,v2,bw,bw2);
		
		kv = generator("key333333333333333333333333","value","f",System.currentTimeMillis(),new byte[]{'2'});
		addToHFileWirterAndBloomFile(kv,v2,bw,bw2);
		
		//生成meta块，布隆过滤器块，删除的布隆过滤器块
		//自定义文件信息块的key-value
		//布隆过滤器加入到HFile.Writer时会判断里面是否有数据，所以要先将key插入到布隆过滤器中，再加入到
		//Writerv2中
		v2.addGeneralBloomFilter(bw);
		v2.addDeleteFamilyBloomFilter(bw2);
		v2.appendMetaBlock("aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa", new MyWritable());
		v2.appendFileInfo(Bytes.toBytes("mykey"), Bytes.toBytes("myvalue"));
		v2.close();
	}
	
	/**
	 * 插入一个KeyValue到HFile中，同时将这个key保存到布隆过滤器中
	 */
	public void addToHFileWirterAndBloomFile(KeyValue kv, HFileWriterV2 v2, BloomFilterWriter bw, BloomFilterWriter bw2) 
	throws IOException {
		v2.append( kv );
		byte[] buf = bw.createBloomKey(kv.getBuffer(),
                kv.getRowOffset(), kv.getRowLength(), kv.getBuffer(),
                kv.getQualifierOffset(), kv.getQualifierLength());
		bw.add(buf, 0, buf.length);
		bw2.add(buf, 0, buf.length);
	
	}
	
	/**
	 * 生成KeyValue
	 */
	public KeyValue generator(String key,String column,String qualifier,long timestamp,byte[] value) {
		byte[] keyBytes = Bytes.toBytes(key);
		byte[] familyBytes = Bytes.toBytes(column);
		byte[] qualifierBytes = Bytes.toBytes(qualifier);
		Type type = Type.Put;
		byte[] valueBytes = value;
		KeyValue kv = new KeyValue(keyBytes, 0, keyBytes.length, familyBytes, 0, familyBytes.length, 
				qualifierBytes, 0, qualifierBytes.length, timestamp, type, valueBytes, 0, valueBytes.length);		
		return kv;
	}
}

写入到磁盘时的内存dump:

读取操作：

public class TestReader {

	public static String FILE_PATH = "/data0/hbase/test/myhfile";
	public Configuration cfg = new Configuration();
	private FSReader fsBlockReader;
	/**
	 * 二级索引长度
	 */
	private static final int SECONDARY_INDEX_ENTRY_OVERHEAD = Bytes.SIZEOF_INT + Bytes.SIZEOF_LONG;

	public static void main(String[] args) throws Exception {
		TestReader t = new TestReader();
		t.readBloom();
	}

	/**
	 * 解析布隆过滤器
	 */
	public void readBloom() throws IOException {
		// 创建读取路径，本地文件系统，两个读取流
		Path path = new Path(FILE_PATH);
		FileSystem fs = FileSystem.getLocal(cfg);
		CacheConfig config = new CacheConfig(cfg);

		// 由HFile创建出Reader实现类
		Reader reader = HFile.createReader(fs, path, config);

		// 创建通用布隆过滤器
		DataInput bloomMeta = reader.getGeneralBloomFilterMetadata();
		BloomFilter bloomFilter = null;
		if (bloomMeta != null) {
			bloomFilter = BloomFilterFactory.createFromMeta(bloomMeta, reader);
			System.out.println(bloomFilter);
		}

		//创建删除的布隆过滤器
		bloomMeta = reader.getDeleteBloomFilterMetadata();
		bloomFilter = null;
		if (bloomMeta != null) {
			bloomFilter = BloomFilterFactory.createFromMeta(bloomMeta, reader);
			System.out.println(bloomFilter);
		}
		
		//meta的读取实现在  HFileReaderV2#getMetaBlock()中
	}

	/**
	 * 使用Scanner读取数据块内容
	 */
	@SuppressWarnings("unchecked")
	public void readScan() throws IOException, SecurityException,
			NoSuchMethodException, IllegalArgumentException,
			IllegalAccessException, InvocationTargetException {
		// 创建读取路径，本地文件系统，两个读取流
		Path path = new Path(FILE_PATH);
		FileSystem fs = FileSystem.getLocal(cfg);
		CacheConfig config = new CacheConfig(cfg);
		FSDataInputStream fsdis = fs.open(path);
		FSDataInputStream fsdisNoFsChecksum = fsdis;
		HFileSystem hfs = new HFileSystem(fs);
		long size = fs.getFileStatus(path).getLen();

		// 由读FS读取流，文件长度，就可以读取到尾文件块
		FixedFileTrailer trailer = FixedFileTrailer.readFromStream(fsdis, size);

		// 根据尾文件块，和其他相关信息，创建HFile.Reader实现
		HFileReaderV2 v2 = new HFileReaderV2(path, trailer, fsdis,
				fsdisNoFsChecksum, size, true, config, DataBlockEncoding.NONE,
				hfs);
		System.out.println(v2);

		// 读取FileInfo中的内容
		Method method = v2.getClass().getMethod("loadFileInfo", new Class[] {});
		Map fileInfo = (Map) method.invoke(v2,
				new Object[] {});
		Iterator> iter = fileInfo.entrySet().iterator();
		while (iter.hasNext()) {
			Entry entry = iter.next();
			System.out.println(Bytes.toString(entry.getKey()) + " = "
					+ Bytes.toShort(entry.getValue()));
		}

		// 由Reader实现创建扫描器Scanner，负责读取数据块
		// 并遍历所有的数据块中的KeyValue
		HFileScanner scanner = v2.getScanner(false, false);
		scanner.seekTo();
		System.out.println(scanner.getKeyValue());

		KeyValue kv = scanner.getKeyValue();
		while (scanner.next()) {
			kv = scanner.getKeyValue();
			System.out.println(kv);
		}
		v2.close();

	}

	/**
	 * 解析HFile中的数据索引
	 */
	@SuppressWarnings({ "unused", "unchecked" })
	public void readIndex() throws Exception {
		// 创建读取路径，本地文件系统，两个读取流
		// 由读FS读取流，文件长度，就可以读取到尾文件块
		Path path = new Path(FILE_PATH);
		FileSystem fs = FileSystem.getLocal(cfg);
		CacheConfig config = new CacheConfig(cfg);
		FSDataInputStream fsdis = fs.open(path);
		FSDataInputStream fsdisNoFsChecksum = fsdis;
		HFileSystem hfs = new HFileSystem(fs);
		long size = fs.getFileStatus(path).getLen();
		FixedFileTrailer trailer = FixedFileTrailer.readFromStream(fsdis, size);

		// 下面创建的一些类，在Reader实现类的构造函数中也可以找到，创建具体文件读取实现FSReader
		// 由于这个类没有提供对外的创建方式，只能通过反射构造 FSReader
		Compression.Algorithm compressAlgo = trailer.getCompressionCodec();
		Class clazz = Class
				.forName("org.apache.hadoop.hbase.io.hfile.HFileBlock$FSReaderV2");
		java.lang.reflect.Constructor constructor = (Constructor) clazz
				.getConstructor(new Class[] { FSDataInputStream.class,
						FSDataInputStream.class, Compression.Algorithm.class,
						long.class, int.class, HFileSystem.class, Path.class });
		constructor.setAccessible(true);
		fsBlockReader = constructor.newInstance(fsdis, fsdis, compressAlgo,
				size, 0, hfs, path);

		// 创建比较器，比较器是定义在尾文件块中
		RawComparator comparator = FixedFileTrailer
				.createComparator(KeyComparator.class.getName());

		// 创建读取数据块的根索引
		BlockIndexReader dataBlockIndexReader = new HFileBlockIndex.BlockIndexReader(
				comparator, trailer.getNumDataIndexLevels());

		// 创建读取元数据快的根索引
		BlockIndexReader metaBlockIndexReader = new HFileBlockIndex.BlockIndexReader(
				Bytes.BYTES_RAWCOMPARATOR, 1);

		// 创建 HFileBlock 迭代器
		HFileBlock.BlockIterator blockIter = fsBlockReader.blockRange(
				trailer.getLoadOnOpenDataOffset(),
				size - trailer.getTrailerSize());

		// 读取数据文件根索引
		dataBlockIndexReader.readMultiLevelIndexRoot(
				blockIter.nextBlockWithBlockType(BlockType.ROOT_INDEX),
				trailer.getDataIndexCount());

		// 读取元数据根索引
		metaBlockIndexReader.readRootIndex(
				blockIter.nextBlockWithBlockType(BlockType.ROOT_INDEX),
				trailer.getMetaIndexCount());

		// 读取FileInfo块中的信息
		// 由于FileInfo块不是public的，所以定义了一个MyFileInfo，内容跟FileInfo一样
		long fileinfoOffset = trailer.getFileInfoOffset();
		HFileBlock fileinfoBlock = fsBlockReader.readBlockData(fileinfoOffset,
				-1, -1, false);
		MyFileInfo fileinfo = new MyFileInfo();
		fileinfo.readFields(fileinfoBlock.getByteStream());
		int avgKeyLength = Bytes.toInt(fileinfo.get(MyFileInfo.AVG_KEY_LEN));
		int avgValueLength = Bytes
				.toInt(fileinfo.get(MyFileInfo.AVG_VALUE_LEN));
		long entryCount = trailer.getEntryCount();
		System.out.println("avg key length=" + avgKeyLength);
		System.out.println("avg value length=" + avgValueLength);
		System.out.println("entry count=" + entryCount);

		int numDataIndexLevels = trailer.getNumDataIndexLevels();
		if (numDataIndexLevels > 1) {
			// 大于一层
			iteratorRootIndex(dataBlockIndexReader);
		} else {
			// 单根索引
			iteratorSingleIndex(dataBlockIndexReader);
		}

		fsdis.close();
		fsdisNoFsChecksum.close();
	}

	/**
	 * 解析单层索引
	 */
	public void iteratorSingleIndex(BlockIndexReader dataBlockIndex) {
		for (int i = 0; i < dataBlockIndex.getRootBlockCount(); i++) {
			byte[] keyCell = dataBlockIndex.getRootBlockKey(i);
			int blockDataSize = dataBlockIndex.getRootBlockDataSize(i);
			String rowKey = parseKeyCellRowkey(keyCell);
			System.out.println("rowkey=" + rowKey + "\tdata size="
					+ blockDataSize);
		}
	}

	/**
	 * 解析多层索引，首先解析根索引
	 */
	public void iteratorRootIndex(BlockIndexReader dataBlockIndex)
			throws IOException {
		for (int i = 0; i < dataBlockIndex.getRootBlockCount(); i++) {
			long offset = dataBlockIndex.getRootBlockOffset(i);
			int onDiskSize = dataBlockIndex.getRootBlockDataSize(i);
			iteratorNonRootIndex(offset, onDiskSize);
		}
	}

	/**
	 * 递归解析每个中间索引
	 */
	public void iteratorNonRootIndex(long offset, int onDiskSize)
			throws IOException {
		HFileBlock block = fsBlockReader.readBlockData(offset, onDiskSize, -1,
				false);
		if (block.getBlockType().equals(BlockType.LEAF_INDEX)) {
			parseLeafIndex(block);
			return;
		}
		// 开始计算中间层索引的 每个key位置
		ByteBuffer buffer = block.getBufferReadOnly();

		buffer = ByteBuffer.wrap(buffer.array(),
				buffer.arrayOffset() + block.headerSize(),
				buffer.limit() - block.headerSize()).slice();
		int indexCount = buffer.getInt();

		// 二级索引全部偏移量，二级索引数据+二级索引总数(int)+索引文件总大小(int)
		int entriesOffset = Bytes.SIZEOF_INT * (indexCount + 2);
		for (int i = 0; i < indexCount; i++) {
			// 二级索引指向的偏移量
			// 如当前遍历到第一个key，那么二级索引偏移量就是 第二个int(第一个是索引总数)
			int indexKeyOffset = buffer.getInt(Bytes.SIZEOF_INT * (i + 1));
			long blockOffsetIndex = buffer.getLong(indexKeyOffset
					+ entriesOffset);
			int blockSizeIndex = buffer.getInt(indexKeyOffset + entriesOffset
					+ Bytes.SIZEOF_LONG);
			iteratorNonRootIndex(blockOffsetIndex, blockSizeIndex);
		}
	}

	/**
	 * 解析叶索引
	 */
	public void parseLeafIndex(HFileBlock block) {
		// 开始计算中间层索引的 每个key位置
		ByteBuffer buffer = block.getBufferReadOnly();
		buffer = ByteBuffer.wrap(buffer.array(),
				buffer.arrayOffset() + block.headerSize(),
				buffer.limit() - block.headerSize()).slice();
		int indexCount = buffer.getInt();

		// 二级索引全部偏移量，二级索引数据+二级索引总数(int)+索引文件总大小(int)
		int entriesOffset = Bytes.SIZEOF_INT * (indexCount + 2);
		for (int i = 0; i < indexCount; i++) {
			// 二级索引指向的偏移量
			// 如当前遍历到第一个key，那么二级索引偏移量就是 第二个int(第一个是索引总数)
			int indexKeyOffset = buffer.getInt(Bytes.SIZEOF_INT * (i + 1));

			// 全部二级索引长度+key偏移位置+ 块索引offset(long)+块大小(int)
			// 可以计算出真实的key的偏移位置
			int KeyOffset = entriesOffset + indexKeyOffset
					+ SECONDARY_INDEX_ENTRY_OVERHEAD;
			// long blockOffsetIndex =
			// buffer.getLong(indexKeyOffset+entriesOffset);
			int blockSizeIndex = buffer.getInt(indexKeyOffset + entriesOffset
					+ Bytes.SIZEOF_LONG);

			// 计算key的长度
			int length = buffer.getInt(Bytes.SIZEOF_INT * (i + 2))
					- indexKeyOffset - SECONDARY_INDEX_ENTRY_OVERHEAD;

			// 一个key
			// cell包含了key长度(2字节),key,family长度(1字节),family,qualifier,timestampe(8字节),keytype(1字节)
			// 这里只需要key就可以了
			byte[] keyCell = new byte[length];
			System.arraycopy(buffer.array(), buffer.arrayOffset() + KeyOffset,
					keyCell, 0, length);

			String rowKey = parseKeyCellRowkey(keyCell);
			System.out.println("rowkey=" + rowKey + "\t blockSizeIndex="
					+ blockSizeIndex);
		}
	}

	/**
	 * 通过keycell，解析出rowkey
	 */
	public static String parseKeyCellRowkey(byte[] cell) {
		if (cell == null || cell.length < 3) {
			throw new IllegalArgumentException("cell length is illegal");
		}
		int high = (cell[0] >> 8) & 0xFF;
		int low = cell[1] & 0xFF;
		int keySize = high + low;
		byte[] key = new byte[keySize];
		System.arraycopy(cell, 2, key, 0, key.length);
		return Bytes.toString(key);
	}

}

工具类：

/**
 * 自定义这样的类原因是HBase的实现是非public类
 */
public class MyFileInfo extends HbaseMapWritable {
	/**
	 * hfile保留的key，以"hfile."开头
	 */
	public static final String RESERVED_PREFIX = "hfile.";
	
	/**
	 * hfile前缀的二进制表示
	 */
	public static final byte[] RESERVED_PREFIX_BYTES = Bytes
			.toBytes(RESERVED_PREFIX);
	
	/**
	 * last key
	 */
	public static final byte[] LASTKEY = Bytes.toBytes(RESERVED_PREFIX + "LASTKEY");
	
	/**
	 * 平均key长度
	 */
	public static final byte[] AVG_KEY_LEN = Bytes.toBytes(RESERVED_PREFIX + "AVG_KEY_LEN");
	
	/**
	 * 平均value长度
	 */
	public static final byte[] AVG_VALUE_LEN = Bytes.toBytes(RESERVED_PREFIX + "AVG_VALUE_LEN");
	
	/**
	 * 比较器
	 */
	public static final byte[] COMPARATOR = Bytes.toBytes(RESERVED_PREFIX + "COMPARATOR");

	/**
	 * 增加一个key/value 对到file info中，可选的可以检查key的前缀
	 */
	public MyFileInfo append(final byte[] k, final byte[] v, final boolean checkPrefix) throws IOException {
		if (k == null || v == null) {
			throw new NullPointerException("Key nor value may be null");
		}
		if (checkPrefix && isReservedFileInfoKey(k)) {
			throw new IOException("Keys with a " + SaeFileInfo.RESERVED_PREFIX
					+ " are reserved");
		}
		put(k, v);
		return this;
	}

	/**
	 * 检查当前的key是否以保留的前缀开头的
	 */
	public static boolean isReservedFileInfoKey(byte[] key) {
		return Bytes.startsWith(key, SaeFileInfo.RESERVED_PREFIX_BYTES);
	}

}



/**
 * 自定义序列化写入实现类
 *
 */
public class MyWritable implements Writable {

	@Override
	public void readFields(DataInput input) throws IOException {
		input.readInt();
	}

	@Override
	public void write(DataOutput out) throws IOException {
		out.write(123456);
	}
}

centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
MapReduce概述 Tate小白大数据学习 mapreduce
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduc
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
HDFS（Hadoop分布式文件系统）总结 Cachel wood 大数据开发 hadoop hdfs 大数据散列表算法哈希算法 spark
文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode（辅助名称节点）三、数据存储机制1.数据块（Block）设计2.复制策略（默认复制因子=3）3.数据完整性校验四、文件读写流程1.写入流程2.读取流程五、高可用性（HA）机制1.单点故障解决方案2.
Spark教程1：Spark基础介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络数据库数据仓库
文章目录一、Spark是什么？二、Spark的核心优势三、Spark的核心概念四、Spark的主要组件五、Spark的部署模式六、Spark与Hadoop的关系七、Spark应用开发流程八、Spark的应用场景九、Spark版本更新与社区一、Spark是什么？ApacheSpark是一个开源的分布式大数据处理引擎，最初由加州大学伯克利分校AMPLab开发，2013年捐赠给Apache软件基金会，如
Hadoop的部分用法覃炳文20230322027 hadoop hive 大数据分布式
前言Hadoop是一个由Apache基金会开发的开源框架，它允许跨多个机器使用分布式处理大数据集。Hadoop的核心是HDFS（HadoopDistributedFileSystem）和MapReduce编程模型。1.Hadoop环境搭建在开始使用Hadoop之前，你需要搭建Hadoop环境。这通常包括安装Java、配置Hadoop环境变量、配置Hadoop的配置文件等步骤。1.1环境准备在开始安
Netty4.1 - TCP粘包拆包解决方案及案例代码 wwyh520 IO编程 netty
Netty是目前业界最流行的NIO框架之一，它的健壮性、高性能、可定制和可扩展性在同类框架中都是首屈一指。它已经得到了成百上千的商业项目的验证，例如Hadoop的RPC框架Avro就使用了Netty作为底层通信框架，其他的业界主流RPC框架，例如：Dubbo、Google开源的gRPC、新浪微博开源的Motan、Twitter开源的finagle也使用Netty来构建高性能的异步通信能力。另外，阿
Storm核心概念与实战详解 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2010年Hadoop项目开源后，Storm项目也随之走向人气爆棚。在如此火热的当下，给我们带来的好处不仅仅是增强对Hadoop平台的掌控能力，更重要的是让我们感受到了快速发展、海量数据处理能力、低延迟的优势。在这一系列文章中，我将深入浅出地介绍Storm项目，并从实际案例出发，带领大家全面理解Storm中的关键概念及其运作方式，让您轻松掌握Storm的高效率、
基于Hadoop大数据分析应用场景与实战跨过山河大海
一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复
Hadoop 发展过程是怎样的？ AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2003年，美国加州大学洛杉矶分校教授李彦宏博士发明了一种分布式文件系统——GFS（GoogleFileSystem）。由于该文件系统设计得足够简单，可以适应大规模数据集存储需求，在此基础上演化出多种应用，包括MapReduce、BigTable、PageRank等，并成为当时互联网公司的标配技术之一。2004年，Google发布了第一版Hadoop项目，定位是
通过CDH安装Spark的详细指南暴躁哥大数据技术 spark 大数据分布式
通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。本文将详细介绍如何通过CDH安装和配置Spark。前提条件在开始安装之前，请确保满足以下条件：已安装CDH集群具有管理员权限所有节点之间网络互通系统时间同步足够的磁盘空间（建议至少预留20GB）安装步骤1.
Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析拾光师大数据后端
Hadoop版本hadoop1.x版本由三部分组成Common(辅助工具)HDFS(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能，成为了系统的最大瓶颈采用了master/slave结构，master存在单点问题，一旦master出现故障，会导致整个集群不可用采用了基于槽位的资源分配模型，将槽位分为了Mapslot和Reducesl
Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践拾光师大数据后端
HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储。函数调用层：主要作用是定位要调用的函数并执行该参数，采用了java反射机制和动态代理实现了函数调用网络传输层：描述了client和server之间消息传输的方式，基于TCP/IP的socket机制
基于pyspark的北京历史天气数据分析及可视化_离线大数据CLUB spark数据分析可视化数据分析数据挖掘 hadoop 大数据 spark
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8开发语言python开发流程数据上传(hdfs)->数据分析(spark)->数据存储(mysql)->后端(flask)->前端(
Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践后端
HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储。函数调用层：主要作用是定位要调用的函数并执行该参数，采用了java反射机制和动态代理实现了函数调用网络传输层：描述了client和server之间消息传输的方式，基于TCP/IP的socket机制
基于pyspark的北京历史天气数据分析及可视化_实时大数据CLUB spark数据分析可视化数据分析数据挖掘 spark hadoop 大数据
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8、kafka2.8.2开发语言python开发流程数据上传(hdfs)->数据分析(spark)->数据写kafka(python)
《从零开始：Hadoop 3.3.0 全分布式环境搭建与运行详解（含自动化配置）》李哈哈敲代码学习经验分布式 hadoop 自动化大数据 linux
Hadoop3.3.0全分布并环境搭建与运行部署详解一、准备工作1.1环境要求三台Linux主机，如node1、node2、node3配置推荐:内存大于4GB，CPU大于2核，磁盘空间大于40GB1.2软件列表JDK1.8（！！需要提前上传到software目录下，解压到server目录下）Hadoop3.3.01.3目录规划（注意在根目录下创建export）/export/server#安装目录
Hadoop等大数据处理框架的Java API 扬子鳄008 Java hadoop java 大数据
Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。此外，还有许多其他组件，如YARN（YetAnotherResourceNegotiator）、HBase、Hive等。下面详细介绍Hadoop及其相关组件的JavaAPI及其使用方法。HadoopHad
python--将mysql建表语句转换成hive建表语句呆呆不呆～ spark python mysql hive spark
1.代码importjsonimportsysimportpymysqldefqueryDataBase(tablename):#连接数据库并查询列信息conn=pymysql.connect(user='root',password='123456',host='hadoop11')cursor=conn.cursor()cursor.execute("SELECTcolumn_name,dat
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
Python 工程师迈向大数据时代： Hadoop 与 Spark 框架深度解析与实战指南清水白石008 python Python题库大数据 python hadoop
Python工程师迈向大数据时代：Hadoop与Spark框架深度解析与实战指南引言亲爱的Python工程师们，欢迎来到大数据时代！在这个数据驱动的时代，海量数据如同奔腾不息的河流，蕴藏着前所未有的价值。然而，传统的数据处理工具在面对TB甚至PB级别的数据时，往往显得力不从心。如何高效地处理、分析和挖掘这些海量数据，成为了现代软件工程师，特别是Python工程师们必须掌握的关键技能。幸运的是，大数
从 0 到 Offer！大数据核心面试题全解析，答案精准拿捏面试官(hadoop篇) 浅谈星痕大数据
1.什么是Hadoop？Hadoop是一个开源的分布式系统基础架构，用于存储和处理大规模数据集。它主要包含HDFS（HadoopDistributedFileSystem）分布式文件系统、MapReduce分布式计算框架以及YARN（YetAnotherResourceNegotiator）资源管理器。HDFS负责数据的分布式存储，将大文件分割成多个数据块存储在不同节点上；MapReduce用于分
[5-03-01].第14节：集群搭建 - 在Linux系统中搭建 1.01^1000 #企业级框架 springcloud
SpringCloud学习大纲三、集群环境搭建：3.1.集群规划1.nacos规划：hadoop103hadoop104hadoop105192.168.148.3192.168.148.4192.168.148.5nacosnacosnacos2.MYSQL规划：192.168.148.333065.7.27
大数据学习（141）-分布式数据库 viperrrrrrr 大数据学习分布式 clickhouse hdfs hbase
在分布式数据库中主要有hdfs、hbase、clickhouse三种。HDFS（HadoopDistributedFileSystem）、HBase和ClickHouse都是处理大数据的分布式系统，但它们的设计目标、架构和适用场景有所不同。一、HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生态系统的一部分，是一个高度容错的系统，适合存储大量数据。它被设计为
HDFS Federation（联邦）架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式 2401_8554978 hdfs 架构 java
HDFSFederation（联邦）架构什么是HDFSFederation？随着数据量的增长，单一的NameNode成为了HDFS的瓶颈，因为它需要管理整个文件系统的命名空间和所有文件块的位置信息。为了克服这个限制，Hadoop引入了Federation机制，允许一个集群中有多个NameNode/NameSpace，每个NameNode管理一部分文件系统，从而分散负载。优点：提高扩展性：通过增加N
scp与rsync JeremyHeria #hadoop hadoop 大数据
编写集群分发脚本xsyncscp（securecopy）安全拷贝（1）scp定义：scp可以实现服务器与服务器之间的数据拷贝。（fromserver1toserver2）（2）基本语法scp-rpdir/pdir/pdir/fnameuser@hadoopuser@hadoopuser@
复习打卡大数据篇——Hadoop HDFS 03 筒栗子大数据 hadoop hdfs
目录1.HDFS元数据存储2.HDFSHA高可用1.HDFS元数据存储HDFS中的元数据按类型可以分为：文件系统的元数据：包括文件名、目录名、修改信息、block的信息、副本信息等。datanodes的状态信息：比如节点状态、使用率等。HDFS中的元数据按存储位置可以分为内存中元数据和磁盘上的元数据磁盘上的元件数据包括fsimage镜像文件和editslog编辑日志，因为在磁盘上可以保证持久化存储
TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能 TiDB 社区干货传送门 tidb hbase 架构数据库大数据
作者：数据源的TiDB学习之路原文来源：https://tidb.net/blog/c687d474第一章：HBase的历史使命与技术瓶颈1.1HBase的核心价值与经典场景作为Hadoop生态的核心组件，HBase凭借LSM-Tree存储引擎和Region分片机制，在2010年代成为海量数据存储的标杆。其典型场景包括：日志流处理：支持Kafka每日TB级数据持久化，写入吞吐达百万级QPS（如某头
什么是MapReduce ThisIsClark 大数据 mapreduce 大数据
MapReduce：大数据处理的经典范式什么是MapReduce？MapReduce是一种编程模型和软件框架，用于大规模数据集（通常大于1TB）的并行处理。它由Google在2004年提出，后来成为ApacheHadoop项目的核心计算引擎。MapReduce通过将计算任务分解为两个主要阶段——Map（映射）和Reduce（归约）——来实现分布式计算。核心思想MapReduce的核心设计原则可以概
Hive的优化小王同学mf hive hadoop 数据仓库
一、开启本地模式大多数的HadoopJob是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。用户可以通过设置hive.exec.mode.local.auto的值
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

HBase-HFile的读写操作

你可能感兴趣的:(hadoop)