suichangkele

lucene中的docValue实现源码解读（二）——NumericDocValue的写入

各种类型的docValue的写入是在添加索引的时候，在org.apache.lucene.index.DefaultIndexingChain.indexDocValue(PerField, DocValuesType, IndexableField)方法里面，会有五种类型的docValue，会分别调用不同的DocValueWriter来实现，这篇介绍数字类型的docValue，他是一个很简单、很高效率的docValue的存储。

case NUMERIC://如果是数字类型的docValue
if (fp.docValuesWriter == null) {
	fp.docValuesWriter = new NumericDocValuesWriter(fp.fieldInfo, bytesUsed, true);
}
((NumericDocValuesWriter) fp.docValuesWriter).addValue(docID, field.numericValue().longValue());//添加指定docId的值，值是long类型的
break;

使用的docValueWriter是NumericDocValueWriter，我们看一下这个方法的源码。

构造方法
public NumericDocValuesWriter(FieldInfo fieldInfo, Counter iwBytesUsed, boolean trackDocsWithField) {
	pending = new AppendingDeltaPackedLongBuffer(PackedInts.COMPACT);//这个是用于存储具体的docVAlue的，也就是一些数字的，从他的名字就能看出来，他是根据差值进行存储的，然后再添加了些数字后就会启动压缩，实现更高效的内存使用。
	docsWithField = trackDocsWithField ? new FixedBitSet(64) : null;//这个是记录那些在该域中含有docValue的docid的。使用的类型是bitset类型。
	bytesUsed = pending.ramBytesUsed() + docsWithFieldBytesUsed();//下面这几行都是记录使用的内存的，因为lucnee自己要根据使用的内存进行flush，所以要记录内存。
	this.fieldInfo = fieldInfo;
	this.iwBytesUsed = iwBytesUsed;
	iwBytesUsed.addAndGet(bytesUsed);
}
/** 添加一个doc的值 ，这里有真正的添加docValue的逻辑 */
public void addValue(int docID, long value) {
	if (docID < pending.size()) {
		throw new IllegalArgumentException("DocValuesField \"" + fieldInfo.name
				+ "\" appears more than once in this document (only one value is allowed per field)");
	}
	// Fill in any holes: 填窟窿，因为下面要对所有的额值做迭代，加入这个就是为了使迭代器能正常工作
	for (int i = (int) pending.size(); i < docID; ++i) {
		pending.add(MISSING);
	}
	
	pending.add(value);//保存这个值，到pending中
	if (docsWithField != null) {//docWithFeidl是记录含有值得docid的，这里不是null
		docsWithField = FixedBitSet.ensureCapacity(docsWithField, docID);//使bitSet能存放docID。
		docsWithField.set(docID);//记录这个doc含有值。
	}
	updateBytesUsed();//更新使用的内存
}

上面的方法是添加到内存里面，他有两个重要的地方，一个是保存具体的值，保存的格式是long类型的，尽管我们在使用lucene的时候可能会使用int、float、但是会统一的转化为long类型的。第二个是记录了含有值得docid，记录在一个bitset里面。再内存中的我们介绍完了，再看一下在flush到硬盘的时候的方法——flush吧：

public void flush(SegmentWriteState state, DocValuesConsumer dvConsumer) throws IOException {
	final int maxDoc = state.segmentInfo.getDocCount();//这个段中所有的doc的数量
	dvConsumer.addNumericField(fieldInfo, new Iterable() {//使用给定的docValueConsumer来处理，处理的参数是一个迭代器
		@Override
		public Iterator iterator() {
			return new NumericIterator(maxDoc);
		}
	});
}

使用的迭代器是一个内部类，看下代码：

private class NumericIterator implements Iterator {
	final AppendingDeltaPackedLongBuffer.Iterator iter = pending.iterator();//获得存储所有的docValue的对象的迭代器，使用这个对象的目的很简单，就是对数字的存储进行压缩，提高对内存的使用率。
	final int size = (int) pending.size();//所有的doc的数量
	final int maxDoc;//最大的id
	int upto;//当前处理的doc的id
	NumericIterator(int maxDoc) {
		this.maxDoc = maxDoc;
	}
	@Override
	public boolean hasNext() {//判断还有没有数字要存储
		return upto < maxDoc;
	}
	@Override
	public Number next() {//在DocValueConsumer中调用的就是这个方法，获得下一个要存储的值
		if (!hasNext()) {
			throw new NoSuchElementException();
		}
		Long value;
		if (upto < size) {
			long v = iter.next();//从pending中获得下一个doc，这个值不会是null，因为即使没有值也会补一个特殊值的，也就是上面的填窟窿的地方
			if (docsWithField == null || docsWithField.get(upto)) {//如果这个doc有值，则返回的就是真实的值
				value = v;
			} else {
				value = null;//如果没有值（尽管填0了，但是他不在docsWithField中，也就是说填窟窿只是为了这里的迭代方法），返回的就是null。
			}
		} else {
			value = docsWithField != null ? null : MISSING;
		}
		upto++;
		return value;
	}

	@Override
	public void remove() {
		throw new UnsupportedOperationException();
	}
}

上面的这两段代码都不难，就是将存放在内存中准备写入到硬盘上，到底怎么写的额，还得看docValueConsumer.addNumericField方法。

我看的是这个实现类

		CodecUtil.writeHeader(data, dataCodec, Lucene49DocValuesFormat.VERSION_CURRENT);//写入头文件到dvd
		String metaName = IndexFileNames.segmentFileName(state.segmentInfo.name, state.segmentSuffix,metaExtension);//dvm文件，
		
public Lucene410DocValuesConsumer(SegmentWriteState state, String dataCodec, String dataExtension, String metaCodec,
		String metaExtension) throws IOException {
	boolean success = false;
	try {
		String dataName = IndexFileNames.segmentFileName(state.segmentInfo.name, state.segmentSuffix,dataExtension);//dvd的名字，比如 _3_lucene410_0.dvd
		data = state.directory.createOutput(dataName, state.context);//这个是真正存储docValue的文件
		CodecUtil.writeHeader(data, dataCodec, Lucene410DocValuesFormat.VERSION_CURRENT);//在data文件中写入使用的lucene的版本号
		String metaName = IndexFileNames.segmentFileName(state.segmentInfo.name, state.segmentSuffix,metaExtension);//data文件的索引文件的名字，记住，data文件也是有索引的，为了更快速的找到某个域，因为docValue是按照列进行存储的。
		meta = state.directory.createOutput(metaName, state.context);
		CodecUtil.writeHeader(meta, metaCodec, Lucene410DocValuesFormat.VERSION_CURRENT);
		maxDoc = state.segmentInfo.getDocCount();
		success = true;
	} finally {
		if (!success) {
			IOUtils.closeWhileHandlingException(this);
		}
	}
}

在lucene4.10中，docValue是有两个文件的，一个是具体的存储docValue的文件dvd，在一个段中，所有的域的docValue都是存放在这个文件中的，他有一个索引文件，也就是dvm，他是dvd文件的索引文件，他索引的东西很简单，包含某个域的开始位置在dvd文件中的偏移量（下文统一使用fp表示，fp即file pointer），其他的要看具体的存储格式。看一下具体的代码吧：

/** 添加某个域的所有的docValue，某个域用field表示，所有的value是一个迭代器。就是所有的docValue的值 */
@Override
public void addNumericField(FieldInfo field, Iterable values) throws IOException {
	addNumericField(field, values, true);
}

void addNumericField(FieldInfo field, Iterable values, boolean optimizeStorage) throws IOException {
	
	long count = 0;
	long minValue = Long.MAX_VALUE;
	long maxValue = Long.MIN_VALUE;
	long gcd = 0;//最大公约数，如果是1，则表示不用最大公约数存储。
	boolean missing = false;//有没有某个doc没有docValue，
	// TODO: more efficient?
	HashSet uniqueValues = null;//超过256后不使用，表示不重复的数字太多。
	if (optimizeStorage) {
		uniqueValues = new HashSet<>();
		for (Number nv : values) {
			final long v;//循环的值。
			if (nv == null) {
				v = 0;
				missing = true;//有的doc没有值
			} else {
				v = nv.longValue();
			}
			if (gcd != 1) {
				if (v < Long.MIN_VALUE / 2 || v > Long.MAX_VALUE / 2) {//这种情况下最大公约数没有意义，因为数字太大了，
					// in that case v - minValue might overflow and make the GCD computation return
					// wrong results. Since these extreme values are unlikely, we just discard GCD computation for them
					gcd = 1;
				} else if (count != 0) { // minValue needs to be set first
					gcd = MathUtil.gcd(gcd, v - minValue);
				}
			}
			minValue = Math.min(minValue, v);
			maxValue = Math.max(maxValue, v);
			if (uniqueValues != null) {
				if (uniqueValues.add(v)) {
					if (uniqueValues.size() > 256) {//如果超过256个，则不适用某个存储格式
						uniqueValues = null;
					}
				}
			}
			++count;
		}
	} else {//这个不使用
		for (Number nv : values) {
			long v = nv.longValue();
			minValue = Math.min(minValue, v);
			maxValue = Math.max(maxValue, v);
			++count;
		}
	}

	final long delta = maxValue - minValue;//差值，也就是最大的不重复的数
	//记录最大的差值需要使用的bit的个数，如果用差值规则记录的话，记录一个数字使用的bit的数量一定会小于这个值，也就是说，这个值就是用差值记录的时候记录某一个值使用的bit的数量的最大的值
	final int deltaBitsRequired = DirectWriter.unsignedBitsRequired(delta);
        //这个是使用table_compressed格式存储时，记录一个docValue所需要的bit的最大值。
	final int tableBitsRequired = uniqueValues == null ? Integer.MAX_VALUE : DirectWriter.bitsRequired(uniqueValues.size() - 1);

	final int format;
	if (uniqueValues != null && tableBitsRequired < deltaBitsRequired) {//当不重复的值得数量不是很多的时候
		format = TABLE_COMPRESSED;//使用表格压缩记录方式
	} else if (gcd != 0 && gcd != 1) {//如果除以最大公约数后，每个存储每个值使用的位数比deltaBitsRequired的位数小，则使用最大公约数记录的方法。只要能进入这个，都会使用最大公约数的压缩方式，因为gcd一定是大于1的。
		final long gcdDelta = (maxValue - minValue) / gcd;
		final long gcdBitsRequired = DirectWriter.unsignedBitsRequired(gcdDelta);
		format = gcdBitsRequired < deltaBitsRequired ? GCD_COMPRESSED : DELTA_COMPRESSED;//一定会更小，因为除以了gcd
	} else {
		format = DELTA_COMPRESSED;//否则使用差值规则记录
	}
	//下面的meta就是表示的索引文件dvm，data文件就是dvd
	meta.writeVInt(field.number);//在索引文件dvm中写入域号
	meta.writeByte(Lucene49DocValuesFormat.NUMERIC);//存储格式的名字
	meta.writeVInt(format);//具体的存储格式
	if (missing) {//如果有的doc没有值得，则在da记录
		meta.writeLong(data.getFilePointer());//在meta中记录data的fp,也就是在文件中的偏移量，能更快速的找到文件。
		writeMissingBitset(values);//记录哪些doc没有docValue。记录在data文件中记录那些含有值得docid。
	} else {
		meta.writeLong(-1L);
	}
	meta.writeLong(data.getFilePointer());//在meta中再次记录现在data的fp，因为可能在data中又记录了missingBitset，这样能快速的找到真正存储数字时的开始位置
	meta.writeVLong(count);
	
	switch (format) {//具体使用什么格式已经在meta中记录了，这样在读取的时候也会知道。
	case GCD_COMPRESSED://基于最大公约数
		meta.writeLong(minValue);//记录最小的值
		meta.writeLong(gcd);//记录最大公约数
		final long maxDelta = (maxValue - minValue) / gcd;
		final int bits = DirectWriter.unsignedBitsRequired(maxDelta);//记录一个值需要的bit的位数
		meta.writeVInt(bits);//这是为了解码用的，因为lucene在实际存储的时候还会压缩，不过可以忽略，不影响这里的理解
		final DirectWriter quotientWriter = DirectWriter.getInstance(data, count, bits);
		for (Number nv : values) {
			long value = nv == null ? 0 : nv.longValue();//对于那些没有值得doc，写入默认值0，虽然有的doc没有docValue，但是已经在data中记录了那些没有docValue的id了所以这个写0不要紧，仍然可以识别出来。写入的目的仅仅是为了更加快速的读取那些有值得doc的值。
			quotientWriter.add((value - minValue) / gcd);
		}
		quotientWriter.finish();
		break;
	case DELTA_COMPRESSED://基于差值的，这个可以看做最大公约数是1的GCD_COMPRESSED格式
		final long minDelta = delta < 0 ? 0 : minValue;
		meta.writeLong(minDelta);
		meta.writeVInt(deltaBitsRequired);
		final DirectWriter writer = DirectWriter.getInstance(data, count, deltaBitsRequired);
		for (Number nv : values) {
			long v = nv == null ? 0 : nv.longValue();//虽然有的doc没有docValue，但是这个写0不要紧，因为可以识别出来，已经在data中记录了那些没有docValue的id了。
			writer.add(v - minDelta);
		}
		writer.finish();
		break;
	case TABLE_COMPRESSED://这种情况会增大meta文件的大小，所以是对于数字比较少的情况下才使用
		final Long[] decode = uniqueValues.toArray(new Long[uniqueValues.size()]);
		Arrays.sort(decode);//对所有的数字从小到大进行排序
		final HashMap encode = new HashMap<>();
		meta.writeVInt(decode.length);
		for (int i = 0; i < decode.length; i++) {
			meta.writeLong(decode[i]);//把具体的值写入meta文件中，写入的都是long
			encode.put(decode[i], i);//记录某个值和其序号的对应关系，比如数字100的排序是第10，101的排序是第11，这样记录在一个hashmap中。
		}
		meta.writeVInt(tableBitsRequired);//这个是用于解码用的。
		final DirectWriter ordsWriter = DirectWriter.getInstance(data, count, tableBitsRequired);
		for (Number nv : values) {
			ordsWriter.add(encode.get(nv == null ? 0 : nv.longValue()));//在data文件中写入的是序号，也就是在meta中的值的排序后的序号，同样这里对于那些没有值得doc，仍然是写入了0.
		}
		ordsWriter.finish();
		break;
	default:
		throw new AssertionError();
	}
	meta.writeLong(data.getFilePointer());//写入结束位置，因为在读取数字类型的docValue的时候，会把一块slice读取到内存中，所以要知道开始位置和结束位置。
}

通过上面的代码，我们可以知道数字类型的docValue有三个格式，一个是基于最大公约数的，一个是基于差值的（可以视为最大公约数的特殊形式，公约数是1），一个是压缩表的。

对于最大公约数的，是讲最小值、最大公约数记录在meta文件中，然后再data文件中记录的是一个docvalue的值减去最小值后除以最大公约数的值，这样记录的值就要小得多。对于差值的，和最大公约数一样，只不过最大公约数是1.对于压缩表的，比较特殊，他的使用条件有限，仅仅是在去重后的docValue的值得数量很少的情况下使用，他会把那些值排序，然后放在meta文件（也就是索引文件中），然后再在data文件中放入每个doc的值在排序后的所有的值中的序列号，这样就会使索引的体积小很多，查找时也更快。还有一个需要注意的是，如果某个doc没有值，就会写入0,。

这样，数字类型的DocValue的写入就完成了，下一篇文章中看下是如何读取数字类型的docValue的。

大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Protobuf学习 - 入门 weixin_30892987 c/c++python 数据结构与算法
古之立大事者，不惟有超世之才，亦必有坚忍不拔之志--苏轼·《晁错论》从公司的项目源码中看到了这个东西，觉得挺好用的，写篇博客做下小总结。下面的操作以C++为编程语言，protoc的版本为libprotoc3.2.0。一、Protobuf？1.是什么？GoogleProtocolBuffer(简称Protobuf)是一种轻便高效的结构化数据存储格式，平台无关、语言无关、可扩展，可用于通讯协议和数据存
深入理解Java虚拟机：Jvm总结-类文件结构以及类加载机制 Ty_1106 JVM java jvm 开发语言
第六章类文件结构6.1意义代码编译的结果从本地机器码转变为字节码，冲破了平台界限。6.2无关性的基石实现语言无关性的基础仍然是虚拟机和字节码存储格式。Java虚拟机不与包括Java语言在内的任何程序语言绑定，它只与“Class文件”这种特定的二进制文件格式所关联。6.3Class类文件的结构任何一个Class文件都对应着唯一的一个类或接口的定义信息，但是反过来说，类或接口并不一定都得定义在文件里（
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
Python + Pandas : 轻松搞定CSV文件快乐星球没有乐 python pandas 开发语言
1.概述CSV（Comma-SeparatedValues，逗号分隔值）格式是一种广泛使用的数据存储格式，它以纯文本形式存储表格数据。在CSV文件中，通常使用逗号来分隔同一行内的各个字段，而不同的行则用换行符分隔。CSV文件由于其简单性和易于读写的特点，在数据导出、数据交换以及许多类型的数据处理任务中被广泛应用。尽管名为“逗号分隔”，但实际上CSV文件的字段分隔符也可以是其他字符，如制表符或分号。
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
Hive的存储格式百流 hadoop学习日记 hive hadoop 数据仓库
文章目录Hive的存储格式1.存储格式简介2.行存储与列存储行式存储列式存储混合的PAX存储结构TextFileSequenceFileHive的存储格式1.存储格式简介Hive支持的存储数的格式主要有：TEXTFILE(默认格式)、SEQUENCEFILE、RCFILE、ORCFILE、PARQUET。textfile为默认格式，建表时没有指定文件格式，则使用TEXTFILE，导入数据时会直接把
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
iniparser 使用方法介绍 kunsir_ iniparser linux 嵌入式
一、iniparser的概述INI（InitializationFile）文件是一种简单直观的数据存储格式，常用于配置应用程序的初始化设置。这种文件通常包含若干个节（section）和键值对（key-valuepairs）。INI文件的每一部分都是自描述性的，易于阅读和编辑，使得非程序员也能轻易理解并修改配置参数。INI文件因其简单易用性而在许多编程语言中广泛应用，尤其是在Windows操作系统中
稀疏矩阵的常用存储格式（COO、CSR、CSC）每天学一点吧推荐系统数据结构稀疏矩阵存储格式图论
图结构数据图是用于描述对象间关系的基本结构，顶点表示对象，边表示连接关系。根据连接关系的紧密可以将图分为稀疏图和稠密图，两者是相对的概念，并不存在明确的划分界限。稀疏图可以理解为仅有少部分对象间存在关联，稠密图反之。实际应用中的图往往都是稀疏图。采用直观的办法来存储图往往会造成极大的空间浪费，如邻接矩阵（稀疏图对应的邻接矩阵中绝大部分的元素为零，无实际意义）。因此需要考虑寻求其它格式来进行高效存储
docker部署Elasticsearch和Kibana youm. docker docker elasticsearch 容器
1.Elasticsearch和Kibana介绍1.1什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，用于处理大规模数据的实时搜索、分析和存储。它构建在ApacheLucene搜索引擎库的基础上，提供了一个RESTfulAPI和易于使用的工具，使得在大数据量情况下进行搜索和分析变得高效和简单。1.2为什么使用Elasticsearch？Elastics
Elasticsearch中文本字段与关键字字段的聚合和排序问题好奇的菜鸟 Elasticsearch elasticsearch 大数据搜索引擎
引言Elasticsearch是一个强大的搜索引擎，它基于Lucene构建，提供了全文搜索、分析、聚合等功能。然而，在使用Elasticsearch时，我们可能会遇到一些特定的问题，比如在文本字段上进行聚合和排序操作时出现的错误。本文将详细解释这个问题，并提供解决方案。问题概述在使用Elasticsearch进行数据分析时，我们可能会尝试对文本字段进行聚合或排序。但是，Elasticsearch默
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Elastic Search常用命令胖毁青春，瘦解百病 ES es
1测试环境信息ElasticSearch服务器：192.168.0.100用户：docker启停：dockerstart/stop/restartelasticsearchKibana控制台：http://192.168.0.100:5601/app/kibana#/dev_tools/console2基本概念Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与
SpringBoot依赖之Spring Data Redis的功能抽离公共服务 ahauedu 微服务架构设计 spring spring boot redis
前几期我们针对在SpringBoot中的SpringDataRedis依赖对Redis不同类型的存储格式进行了细分学习，今天在这里进行汇总，当然如果你的项目使用的是SpringDataRedis这个原生官方以来，下面的汇总类RedisService也可以作为公共类用在你们的项目当中。往期文章SpringBoot依赖之SpringDataRedis一String类型SpringBoot依赖之Spri
【大数据】数据仓库的定义、数据模型及其建设与设计牧心. 数据治理大数据数据仓库
1.数据仓库1.1定义数据仓库不是数据的简单堆积，而是从大量的事务型数据库中抽取数据，并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。公认的数据仓库之父W.H.Inmon将其定义为：“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合”。1.2体系结构数据仓库的体系结构如下图：数据源：是数据仓库系统的基础，是整个系统的数据源泉。通常包括企业内部
pytest-yaml学习以及json、xml数据存储格式对比不要问我y WebUI自动化测试 json selenium
1、简介是一个数据文件，支持注释、换行、裸字符串等2、用途2.1用于全局的配置文件：环境、数据库信息、账号信息、日志格式、报告名称2.2用于接口自动化里面的多接口串联2.3用于编写接口测试用例3、语法规则3.1区分大小写3.2通过缩进的方式表示层级关系，不同的是：yaml只能用空格缩进，不能使用tab键，和缩进多少层无关，只看是否对齐3.3#表示注释4、例子#yaml语法格式：是一种存储数据的格式
ARM工作模式八嘎喵 arm开发
ARMARM架构ARM七个工作模式寄存器异常向量表存储格式（内存大小端）汇编指令ARM架构RAM：随机访问存储器ROM：只读访问存储器AHB：先进高速总线APB：先进外设总线USB：统一串行总线norflash：可以被寻址nandflash：不可以被寻址ALU：算数逻辑单元ARM七个工作模式user：用户模式（USR）：正常程序执行模式，不能直接切换到其他模式system：系统模式（SYS）：运行
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
04. Redis基础-持久化王茗渠 Redis redis
简介持久化什么是持久化将内存中的数据保存至永久性存储介质中，称为持久化。为什么要持久化防止数据的意外丢失，确保数据的安全性持久化过程保存了什么RDBRDB是以快照形式保存，保存当前数据状态，存储数据结果，存储格式简单，关注点再数据AOFAOF是以日志形式保存，保存数据的操作过程，存储操作过程，存储格式复杂，关注点在数据的操作过程RDB优缺点优点RDB是一个紧凑压缩的二进制文件，代表Redis在某个
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
Lucene实现自定义中文同义词分词器 WangJonney Lucene Lucene
----------------------------------------------------------lucene的分词_中文分词介绍----------------------------------------------------------Paoding:庖丁解牛分词器。已经没有更新了mmseg:使用搜狗的词库1.导入包（有两个包：1.带dic的，2.不带dic的）如果使用
选型搜索引擎之参考Elasticsearch 剑飞的编程思维 elasticsearch
简介Elasticsearch（简称ES）是一个基于ApacheLucene的开源、分布式、RESTful接口的全文搜索引擎。其设计用于云计算环境，能够达到实时搜索、稳定、可靠、快速、安装使用方便的效果。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。Elasticsearch的特点包括：分布式存储和搜索：Elasticsear
从入门到精通：Elasticsearch开发实践教程青年老年程序员 Elasticsearch学习 elasticsearch jenkins 大数据
Elasticsearch是一款开源的搜索引擎，它使用Lucene搜索库作为其核心搜索引擎。Elasticsearch使用RESTfulAPI进行交互，并支持多种数据类型的搜索和聚合。本教程将介绍Elasticsearch的基本原理，如何开发，以及如何在SpringBoot中使用Elasticsearch。Elasticsearch的原理Elasticsearch是一个分布式的文档存储和搜索引擎。
深入理解Lucene：开源全文搜索引擎的核心技术解析一休哥助手分布式系统算法搜索引擎 lucene 开源
1.介绍Lucene是什么？Lucene是一个开源的全文搜索引擎库，提供了强大的文本搜索和检索功能。它由Apache软件基金会维护和开发，采用Java语言编写，因其高性能、可扩展性和灵活性而备受欢迎。Lucene的作用和应用场景Lucene主要用于创建全文索引和执行文本搜索。其主要作用包括但不限于：在大型文本数据集中快速进行文本搜索和检索。实现网站、应用程序或系统中的搜索功能。构建文档管理系统、知
Hive 基于MapReduce引擎 map和reduce数的参数控制原理与调优经验 abcdggggggg 大数据 Hive 大数据 hadoop hive mapreduce map
1.概述主要对基于MR的map数和reduce数测试与调优2.数据准备（1）表信息本次测试的表和sql都是使用的TPC-DS，表文件存储格式为text表名是否压缩总数占用空间文件数date_dim否730499.8M1item否4800012.9M1store否11830.5K1store_sales否230396418723109G8000store_sales_compress是2303964
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

lucene中的docValue实现源码解读（二）——NumericDocValue的写入

你可能感兴趣的:(lucene,docValue,NumericDocValue,存储格式)