九师兄

【Elasticsearch】Elasticsearch中数据是如何存储的

1.概述

转载：Elasticsearch中数据是如何存储的

前言

很多使用Elasticsearch的同学会关心数据存储在ES中的存储容量，会有这样的疑问：xxTB的数据入到ES会使用多少存储空间。这个问题其实很难直接回答的，只有数据写入ES后，才能观察到实际的存储空间。比如同样是1TB的数据，写入ES的存储空间可能差距会非常大，可能小到只有300~400GB，也可能多到6-7TB，为什么会造成这么大的差距呢？究其原因，我们来探究下Elasticsearch中的数据是如何存储。文章中我以Elasticsearch 2.3版本为示例，对应的lucene版本是5.5，Elasticsearch现在已经来到了6.5版本，数字类型、列存等存储结构有些变化，但基本的概念变化不多，文章中的内容依然适用。

Elasticsearch索引结构

Elasticsearch对外提供的是index的概念，可以类比为DB，用户查询是在index上完成的，每个index由若干个shard组成，以此来达到分布式可扩展的能力。比如下图是一个由10个shard组成的index。

shard是Elasticsearch数据存储的最小单位，index的存储容量为所有shard的存储容量之和。Elasticsearch集群的存储容量则为所有index存储容量之和。

一个shard就对应了一个lucene的library。对于一个shard，Elasticsearch增加了translog的功能，类似于HBase WAL，是数据写入过程中的中间数据，其余的数据都在lucene库中管理的。

所以Elasticsearch索引使用的存储内容主要取决于lucene中的数据存储。

lucene数据存储

下面我们主要看下lucene的文件内容，在了解lucene文件内容前，大家先了解些lucene的基本概念。

lucene基本概念

segment : lucene内部的数据是由一个个segment组成的，写入lucene的数据并不直接落盘，而是先写在内存中，经过了refresh间隔，lucene才将该时间段写入的全部数据refresh成一个segment，segment多了之后会进行merge成更大的segment。lucene查询时会遍历每个segment完成。由于lucene* 写入的数据是在内存中完成，所以写入效率非常高。但是也存在丢失数据的风险，所以Elasticsearch基于此现象实现了translog，只有在segment数据落盘后，Elasticsearch才会删除对应的translog。
doc : doc表示lucene中的一条记录
field ：field表示记录中的字段概念，一个doc由若干个field组成。
term ：term是lucene中索引的最小单位，某个field对应的内容如果是全文检索类型，会将内容进行分词，分词的结果就是由term组成的。如果是不分词的字段，那么该字段的内容就是一个term。
倒排索引（inverted index）: lucene索引的通用叫法，即实现了term到doc list的映射。
正排数据：搜索引擎的通用叫法，即原始数据，可以理解为一个doc list。
docvalues :Elasticsearch中的列式存储的名称，Elasticsearch除了存储原始存储、倒排索引，还存储了一份docvalues，用作分析和排序。

lucene文件内容

lucene包的文件是由很多segment文件组成的，segments_xxx文件记录了lucene包下面的segment文件数量。每个segment会包含如下的文件。

Name	Extension	Brief Description
Segment Info	.si	segment的元数据文件
Compound File	.cfs, .cfe	一个segment包含了如下表的各个文件，为减少打开文件的数量，在segment小的时候，segment的所有文件内容都保存在cfs文件中，cfe文件保存了lucene各文件在cfs文件的位置信息
Fields	.fnm	保存了fields的相关信息
Field Index	.fdx	正排存储文件的元数据信息
Field Data	.fdt	存储了正排存储数据，写入的原文存储在这
Term Dictionary	.tim	倒排索引的元数据信息
Term Index	.tip	倒排索引文件，存储了所有的倒排索引数据
Frequencies	.doc	保存了每个term的doc id列表和term在doc中的词频
Positions	.pos	Stores position information about where a term occurs in the index 全文索引的字段，会有该文件，保存了term在doc中的位置
Payloads	.pay	Stores additional per-position metadata information such as character offsets and user payloads 全文索引的字段，使用了一些像payloads的高级特性会有该文件，保存了term在doc中的一些高级特性
Norms	.nvd, .nvm	文件保存索引字段加权数据
Per-Document Values	.dvd, .dvm	lucene的docvalues文件，即数据的列式存储，用作聚合和排序
Term Vector Data	.tvx, .tvd, .tvf	Stores offset into the document data file 保存索引字段的矢量信息，用在对term进行高亮，计算文本相关性中使用
Live Documents	.liv	记录了segment中删除的doc

测试数据示例

下面我们以真实的数据作为示例，看看lucene中各类型数据的容量占比。

写100w数据，有一个uuid字段，写入的是长度为36位的uuid，字符串总为3600w字节，约为35M。

数据使用一个shard，不带副本，使用默认的压缩算法，写入完成后merge成一个segment方便观察。

使用线上默认的配置，uuid存为不分词的字符串类型。创建如下索引：

PUT test_field
{
  "settings": {
    "index": {
      "number_of_shards": "1",
      "number_of_replicas": "0",
      "refresh_interval": "30s"
    }
  },
  "mappings": {
    "type": {
      "_all": {
        "enabled": false
      }, 
      "properties": {
        "uuid": {
          "type": "string",
          "index": "not_analyzed"
        }
      }
    }
  }
}

首先写入100w不同的uuid，使用磁盘容量细节如下：

health status index      pri rep docs.count docs.deleted store.size pri.store.size 
green  open   test_field   1   0    1000000            0    122.7mb        122.7mb

-rw-r–r--  1 weizijun  staff    41M Aug 19 21:23 _8.fdt
-rw-r–r--  1 weizijun  staff    17K Aug 19 21:23 _8.fdx
-rw-r–r--  1 weizijun  staff   688B Aug 19 21:23 _8.fnm
-rw-r–r--  1 weizijun  staff   494B Aug 19 21:23 _8.si
-rw-r–r--  1 weizijun  staff   265K Aug 19 21:23 _8_Lucene50_0.doc
-rw-r–r--  1 weizijun  staff    44M Aug 19 21:23 _8_Lucene50_0.tim
-rw-r–r--  1 weizijun  staff   340K Aug 19 21:23 _8_Lucene50_0.tip
-rw-r–r--  1 weizijun  staff    37M Aug 19 21:23 _8_Lucene54_0.dvd
-rw-r–r--  1 weizijun  staff   254B Aug 19 21:23 _8_Lucene54_0.dvm
-rw-r–r--  1 weizijun  staff   195B Aug 19 21:23 segments_2
-rw-r–r--  1 weizijun  staff     0B Aug 19 21:20 write.lock

可以看到正排数据、倒排索引数据，列存数据容量占比几乎相同，正排数据和倒排数据还会存储Elasticsearch的唯一id字段，所以容量会比列存多一些。

35M的uuid存入Elasticsearch后，数据膨胀了3倍，达到了122.7mb。Elasticsearch竟然这么消耗资源，不要着急下结论，接下来看另一个测试结果。

我们写入100w一样的uuid，然后看看Elasticsearch使用的容量。

health status index      pri rep docs.count docs.deleted store.size pri.store.size 

green  open   test_field   1   0    1000000            0     13.2mb         13.2mb

-rw-r–r--  1 weizijun  staff   5.5M Aug 19 21:29 _6.fdt
-rw-r–r--  1 weizijun  staff    15K Aug 19 21:29 _6.fdx
-rw-r–r--  1 weizijun  staff   688B Aug 19 21:29 _6.fnm
-rw-r–r--  1 weizijun  staff   494B Aug 19 21:29 _6.si
-rw-r–r--  1 weizijun  staff   309K Aug 19 21:29 _6_Lucene50_0.doc
-rw-r–r--  1 weizijun  staff   7.0M Aug 19 21:29 _6_Lucene50_0.tim
-rw-r–r--  1 weizijun  staff   195K Aug 19 21:29 _6_Lucene50_0.tip
-rw-r–r--  1 weizijun  staff   244K Aug 19 21:29 _6_Lucene54_0.dvd
-rw-r–r--  1 weizijun  staff   252B Aug 19 21:29 _6_Lucene54_0.dvm
-rw-r–r--  1 weizijun  staff   195B Aug 19 21:29 segments_2
-rw-r–r--  1 weizijun  staff     0B Aug 19 21:26 write.lock

这回35M的数据Elasticsearch容量只有13.2mb，其中还有主要的占比还是Elasticsearch的唯一id，100w的uuid几乎不占存储容积。

所以在Elasticsearch中建立索引的字段如果基数越大(count distinct)，越占用磁盘空间。

我们再看看存100w个不一样的整型会是如何。

health status index      pri rep docs.count docs.deleted store.size pri.store.size 

green  open   test_field   1   0    1000000            0     13.6mb         13.6mb

-rw-r–r--  1 weizijun  staff   6.1M Aug 28 10:19 _42.fdt
-rw-r–r--  1 weizijun  staff    22K Aug 28 10:19 _42.fdx
-rw-r–r--  1 weizijun  staff   688B Aug 28 10:19 _42.fnm
-rw-r–r--  1 weizijun  staff   503B Aug 28 10:19 _42.si
-rw-r–r--  1 weizijun  staff   2.8M Aug 28 10:19 _42_Lucene50_0.doc
-rw-r–r--  1 weizijun  staff   2.2M Aug 28 10:19 _42_Lucene50_0.tim
-rw-r–r--  1 weizijun  staff    83K Aug 28 10:19 _42_Lucene50_0.tip
-rw-r–r--  1 weizijun  staff   2.5M Aug 28 10:19 _42_Lucene54_0.dvd
-rw-r–r--  1 weizijun  staff   228B Aug 28 10:19 _42_Lucene54_0.dvm
-rw-r–r--  1 weizijun  staff   196B Aug 28 10:19 segments_2
-rw-r–r--  1 weizijun  staff     0B Aug 28 10:16 write.lock

从结果可以看到，100w整型数据，Elasticsearch的存储开销为13.6mb。如果以int型计算100w数据的长度的话，为400w字节，大概是3.8mb数据。忽略Elasticsearch唯一id字段的影响，Elasticsearch实际存储容量跟整型数据长度差不多。

我们再看一下开启最佳压缩参数对存储空间的影响：

health status index      pri rep docs.count docs.deleted store.size pri.store.size 

green  open   test_field   1   0    1000000            0    107.2mb        107.2mb

-rw-r–r--  1 weizijun  staff    25M Aug 20 12:30 _5.fdt
-rw-r–r--  1 weizijun  staff   6.0K Aug 20 12:30 _5.fdx
-rw-r–r--  1 weizijun  staff   688B Aug 20 12:31 _5.fnm
-rw-r–r--  1 weizijun  staff   500B Aug 20 12:31 _5.si
-rw-r–r--  1 weizijun  staff   265K Aug 20 12:31 _5_Lucene50_0.doc
-rw-r–r--  1 weizijun  staff    44M Aug 20 12:31 _5_Lucene50_0.tim
-rw-r–r--  1 weizijun  staff   322K Aug 20 12:31 _5_Lucene50_0.tip
-rw-r–r--  1 weizijun  staff    37M Aug 20 12:31 _5_Lucene54_0.dvd
-rw-r–r--  1 weizijun  staff   254B Aug 20 12:31 _5_Lucene54_0.dvm
-rw-r–r--  1 weizijun  staff   224B Aug 20 12:31 segments_4
-rw-r–r--  1 weizijun  staff     0B Aug 20 12:00 write.lock

结果中可以发现，只有正排数据会启动压缩，压缩能力确实强劲，不考虑唯一id字段，存储容量大概压缩到接近50%。

我们还做了一些实验，Elasticsearch默认是开启_all参数的，_all可以让用户传入的整体json数据作为全文检索的字段，可以更方便的检索，但在现实场景中已经使用的不多，相反会增加很多存储容量的开销，可以看下开启_all的磁盘空间使用情况：

health status index      pri rep docs.count docs.deleted store.size pri.store.size 

green  open   test_field   1   0    1000000            0    162.4mb        162.4mb

-rw-r–r--  1 weizijun  staff    41M Aug 18 22:59 _20.fdt
-rw-r–r--  1 weizijun  staff    18K Aug 18 22:59 _20.fdx
-rw-r–r--  1 weizijun  staff   777B Aug 18 22:59 _20.fnm
-rw-r–r--  1 weizijun  staff    59B Aug 18 22:59 _20.nvd
-rw-r–r--  1 weizijun  staff    78B Aug 18 22:59 _20.nvm
-rw-r–r--  1 weizijun  staff   539B Aug 18 22:59 _20.si
-rw-r–r--  1 weizijun  staff   7.2M Aug 18 22:59 _20_Lucene50_0.doc
-rw-r–r--  1 weizijun  staff   4.2M Aug 18 22:59 _20_Lucene50_0.pos
-rw-r–r--  1 weizijun  staff    73M Aug 18 22:59 _20_Lucene50_0.tim
-rw-r–r--  1 weizijun  staff   832K Aug 18 22:59 _20_Lucene50_0.tip
-rw-r–r--  1 weizijun  staff    37M Aug 18 22:59 _20_Lucene54_0.dvd
-rw-r–r--  1 weizijun  staff   254B Aug 18 22:59 _20_Lucene54_0.dvm
-rw-r–r--  1 weizijun  staff   196B Aug 18 22:59 segments_2
-rw-r–r--  1 weizijun  staff     0B Aug 18 22:53 write.lock

开启_all比不开启多了40mb的存储空间，多的数据都在倒排索引上，大约会增加30%多的存储开销。所以线上都直接禁用。

然后我还做了其他几个尝试，为了验证存储容量是否和数据量成正比，写入1000w数据的uuid，发现存储容量基本为100w数据的10倍。我还验证了数据长度是否和数据量成正比，发现把uuid增长2倍、4倍，存储容量也响应的增加了2倍和4倍。在此就不一一列出数据了。

lucene各文件具体内容和实现

lucene数据元信息文件

文件名为：segments_xxx

该文件为lucene数据文件的元信息文件，记录所有segment的元数据信息。

该文件主要记录了目前有多少segment，每个segment有一些基本信息，更新这些信息定位到每个segment的元信息文件。

lucene元信息文件还支持记录userData，Elasticsearch可以在此记录translog的一些相关信息。

文件示例

具体实现类

public final class SegmentInfos implements Cloneable, Iterable {

  // generation是segment的版本的概念，从文件名中提取出来，实例中为：2t/101

  private long generation;     // generation of the “segments_N” for the next commit

  private long lastGeneration; // generation of the “segments_N” file we last successfully read
                               // or wrote; this is normally the same as generation except if
                               // there was an IOException that had interrupted a commit

/** Id for this commit; only written starting with Lucene 5.0 */
private byte[] id;

/** Which Lucene version wrote this commit, or null if this commit is pre-5.3. */
private Version luceneVersion;

/** Counts how often the index has been changed. */
public long version;

  /** Used to name new segments. */
  // TODO: should this be a long …?
  public int counter;

/** Version of the oldest segment in the index, or null if there are no segments. */
private Version minSegmentLuceneVersion;

private List segments = new ArrayList<>();

/** Opaque Map<String, String> that user can specify during IndexWriter.commit */
public Map userData = Collections.emptyMap();
}

/** Embeds a [read-only] SegmentInfo and adds per-commit
fields.

@lucene.experimental /
public class SegmentCommitInfo {

/** The {@link SegmentInfo} that we wrap. */
public final SegmentInfo info;

// How many deleted docs in the segment:
private int delCount;

  // Generation number of the live docs file (-1 if there
  // are no deletes yet):
  private long delGen;

  // Normally 1+delGen, unless an exception was hit on last
  // attempt to write:
  private long nextWriteDelGen;

// Generation number of the FieldInfos (-1 if there are no updates)
private long fieldInfosGen;

  // Normally 1+fieldInfosGen, unless an exception was hit on last attempt to
  // write
  private long nextWriteFieldInfosGen; //fieldInfosGen == -1 ? 1 : fieldInfosGen + 1;

// Generation number of the DocValues (-1 if there are no updates)
private long docValuesGen;

  // Normally 1+dvGen, unless an exception was hit on last attempt to
  // write
  private long nextWriteDocValuesGen; //docValuesGen == -1 ? 1 : docValuesGen + 1;

  // TODO should we add .files() to FieldInfosFormat, like we have on
  // LiveDocsFormat?
  // track the fieldInfos update files
  private final Set fieldInfosFiles = new HashSet<>();

// Track the per-field DocValues update files
private final Map> dvUpdatesFiles = new HashMap<>();

  // Track the per-generation updates files
  @Deprecated
  private final Map> genUpdatesFiles = new HashMap<>();

private volatile long sizeInBytes = -1;
}

segment的元信息文件

文件后缀：.si

每个segment都有一个.si文件，记录了该segment的元信息。

segment元信息文件中记录了segment的文档数量，segment对应的文件列表等信息。

文件示例

具体实现类

/**

  Information about a segment such as its name, directory, and files related

  to the segment.

 *

  @lucene.experimental

 /

public final class SegmentInfo {

// _bl
public final String name;

/** Where this segment resides. */
public final Directory dir;

/** Id that uniquely identifies this segment. */
private final byte[] id;

private Codec codec;

  // Tracks the Lucene version this segment was created with, since 3.1. Null
  // indicates an older than 3.0 index, and it’s used to detect a too old index.
  // The format expected is “x.y” - “2.x” for pre-3.0 indexes (or null), and
  // specific versions afterwards (“3.0.0”, “3.1.0” etc.).
  // see o.a.l.util.Version.
  private Version version;

private int maxDoc; // number of docs in seg

private boolean isCompoundFile;

private Map diagnostics;

private Set setFiles;

private final Map attributes;
}

fields信息文件

文件后缀：.fnm

该文件存储了fields的基本信息。

fields信息中包括field的数量，field的类型，以及IndexOpetions，包括是否存储、是否索引，是否分词，是否需要列存等等。

文件示例

具体实现类

/**

   Access to the Field Info file that describes document fields and whether or

   not they are indexed. Each segment has a separate Field Info file. Objects

   of this class are thread-safe for multiple readers, but only one thread can

   be adding documents at a time, with no other reader or writer threads

   accessing this object.

 /

public final class FieldInfo {

  / Field’s name /

  public final String name;

  /** Internal field number */
  //field在内部的编号
  public final int number;

//field docvalues的类型
private DocValuesType docValuesType = DocValuesType.NONE;

// True if any document indexed term vectors
private boolean storeTermVector;

private boolean omitNorms; // omit norms associated with indexed fields

//index的配置项
private IndexOptions indexOptions = IndexOptions.NONE;

private boolean storePayloads; // whether this field stores payloads together with term positions

private final Map attributes;

// docvalues的generation
private long dvGen;
}

数据存储文件

文件后缀：.fdx, .fdt

索引文件为.fdx，数据文件为.fdt，数据存储文件功能为根据自动的文档id，得到文档的内容，搜索引擎的术语习惯称之为正排数据，即doc_id -> content，es的_source数据就存在这

索引文件记录了快速定位文档数据的索引信息，数据文件记录了所有文档id的具体内容。

文件示例

具体实现类

/**

  Random-access reader for {@link CompressingStoredFieldsIndexWriter}.

  @lucene.internal

 */

public final class CompressingStoredFieldsIndexReader implements Cloneable, Accountable {

  private static final long BASE_RAM_BYTES_USED = RamUsageEstimator.shallowSizeOfInstance(CompressingStoredFieldsIndexReader.class);

final int maxDoc;

//docid索引，快速定位某个docid的数组坐标
final int[] docBases;

//快速定位某个docid所在的文件offset的startPointer
final long[] startPointers;

//平均一个chunk的文档数
final int[] avgChunkDocs;

//平均一个chunk的size
final long[] avgChunkSizes;

final PackedInts.Reader[] docBasesDeltas; // delta from the avg

final PackedInts.Reader[] startPointersDeltas; // delta from the avg
}

/**
{@link StoredFieldsReader} impl for {@link CompressingStoredFieldsFormat}.
@lucene.experimental
*/
public final class CompressingStoredFieldsReader extends StoredFieldsReader {

//从fdt正排索引文件中获得
private final int version;

// field的基本信息
private final FieldInfos fieldInfos;

//fdt正排索引文件reader
private final CompressingStoredFieldsIndexReader indexReader;

//从fdt正排索引文件中获得，用于指向fdx数据文件的末端，指向numChunks地址4
private final long maxPointer;

//fdx正排数据文件句柄
private final IndexInput fieldsStream;

//块大小
private final int chunkSize;

private final int packedIntsVersion;

//压缩类型
private final CompressionMode compressionMode;

//解压缩处理对象
private final Decompressor decompressor;

//文档数量，从segment元数据中获得
private final int numDocs;

//是否正在merge，默认为false
private final boolean merging;

  //初始化时new了一个BlockState，BlockState记录下当前正排文件读取的状态信息
  private final BlockState state;
  //chunk的数量
  private final long numChunks; // number of compressed blocks written

//dirty chunk的数量
private final long numDirtyChunks; // number of incomplete compressed blocks written

//是否close，默认为false
private boolean closed;
}

倒排索引文件

索引后缀：.tip,.tim

倒排索引也包含索引文件和数据文件，.tip为索引文件，.tim为数据文件，索引文件包含了每个字段的索引元信息，数据文件有具体的索引内容。

5.5.0版本的倒排索引实现为FST tree，FST tree的最大优势就是内存空间占用非常低，具体可以参看下这篇文章：http://www.cnblogs.com/bonelee/p/6226185.html

http://examples.mikemccandless.com/fst.py?terms=&cmd=Build+it 为FST图实例，可以根据输入的数据构造出FST图

输入到 FST 中的数据为:

String inputValues[] = {“mop”,“moth”,“pop”,“star”,“stop”,“top”};

long outputValues[] = {0,1,2,3,4,5};

生成的 FST 图为:

文件示例

具体实现类

public final class BlockTreeTermsReader extends FieldsProducer {

  // Open input to the main terms dict file (_X.tib)

  final IndexInput termsIn;

  // Reads the terms dict entries, to gather state to

  // produce DocsEnum on demand

  final PostingsReaderBase postingsReader;

  private final TreeMap fields = new TreeMap<>();

  / File offset where the directory starts in the terms file. */
  /索引数据文件tim的数据的尾部的元数据的地址
  private long dirOffset;
  / File offset where the directory starts in the index file. */

//索引文件tip的数据的尾部的元数据的地址
private long indexDirOffset;

//semgent的名称
final String segment;

//版本号
final int version;

//5.3.x index, we record up front if we may have written any auto-prefix terms，示例中记录的是false
final boolean anyAutoPrefixTerms;
}

/**
BlockTree’s implementation of {@link Terms}.
@lucene.internal
*/
public final class FieldReader extends Terms implements Accountable {

//term的数量
final long numTerms;

//field信息
final FieldInfo fieldInfo;

final long sumTotalTermFreq;

//总的文档频率
final long sumDocFreq;

//文档数量
final int docCount;

//字段在索引文件tip中的起始位置
final long indexStartFP;

final long rootBlockFP;

final BytesRef rootCode;

final BytesRef minTerm;

final BytesRef maxTerm;

//longs：metadata buffer, holding monotonic values
final int longsSize;

final BlockTreeTermsReader parent;

final FST index;
}

倒排链文件

文件后缀：.doc, .pos, .pay

.doc保存了每个term的doc id列表和term在doc中的词频

全文索引的字段，会有.pos文件，保存了term在doc中的位置

全文索引的字段，使用了一些像payloads的高级特性才会有.pay文件，保存了term在doc中的一些高级特性

文件示例

具体实现类

/**

  Concrete class that reads docId(maybe frq,pos,offset,payloads) list

  with postings format.

 *

  @lucene.experimental

 /

public final class Lucene50PostingsReader extends PostingsReaderBase {

  private static final long BASE_RAM_BYTES_USED = RamUsageEstimator.shallowSizeOfInstance(Lucene50PostingsReader.class);

  private final IndexInput docIn;

  private final IndexInput posIn;

  private final IndexInput payIn;

  final ForUtil forUtil;

  private int version;

  //不分词的字段使用的是该对象，基于skiplist实现了倒排链
  final class BlockDocsEnum extends PostingsEnum {
  }

  //全文检索字段使用的是该对象
  final class BlockPostingsEnum extends PostingsEnum {
  }

  //包含高级特性的字段使用的是该对象
  final class EverythingEnum extends PostingsEnum {
  }
}

列存文件（docvalues）

文件后缀：.dvm, .dvd

索引文件为.dvm，数据文件为.dvd。

lucene实现的docvalues有如下类型：

1、NONE 不开启docvalue时的状态
2、NUMERIC 单个数值类型的docvalue主要包括（int，long，float，double）
3、BINARY 二进制类型值对应不同的codes最大值可能超过32766字节，
4、SORTED 有序增量字节存储，仅仅存储不同部分的值和偏移量指针，值必须小于等于32766字节
5、SORTED_NUMERIC 存储数值类型的有序数组列表
6、SORTED_SET 可以存储多值域的docvalue值，但返回时，仅仅只能返回多值域的第一个docvalue
7、对应not_anaylized的string字段，使用的是SORTED_SET类型，number的类型是SORTED_NUMERIC类型

其中SORTED_SET 的 SORTED_SINGLE_VALUED类型包括了两类数据： binary + numeric， binary是按ord排序的term的列表，numeric是doc到ord的映射。

文件示例

具体实现类

/** reader for {@link Lucene54DocValuesFormat} */

final class Lucene54DocValuesProducer extends DocValuesProducer implements Closeable {

  //number类型的field的列存列表

  private final Map numerics = new HashMap<>();

//字符串类型的field的列存列表
private final Map binaries = new HashMap<>();

//有序字符串类型的field的列存列表
private final Map sortedSets = new HashMap<>();

//有序number类型的field的列存列表
private final Map sortedNumerics = new HashMap<>();

//字符串类型的field的ords列表
private final Map ords = new HashMap<>();

//docId -> address -> ord 中field的ords列表
private final Map ordIndexes = new HashMap<>();

//field的数量
private final int numFields;

//内存使用量
private final AtomicLong ramBytesUsed;

//数据源的文件句柄
private final IndexInput data;

  //文档数
  private final int maxDoc;
  // memory-resident structures
  private final Map addressInstances = new HashMap<>();
  private final Map reverseIndexInstances = new HashMap<>();
  private final Map directAddressesMeta = new HashMap<>();

//是否正在merge
private final boolean merging;
}

/ metadata entry for a numeric docvalues field */
  static class NumericEntry {
    private NumericEntry() {}
    / offset to the bitset representing docsWithField, or -1 if no documents have missing values */
    long missingOffset;

    /** offset to the actual numeric values */
    //field的在数据文件中的起始地址
    public long offset;

    /** end offset to the actual numeric values */
    //field的在数据文件中的结尾地址
    public long endOffset;

/** bits per value used to pack the numeric values */
public int bitsPerValue;

    //format类型
    int format;
    / count of values written */
    public long count;
    / monotonic meta */
    public DirectMonotonicReader.Meta monotonicMeta;

//最小的value
long minValue;

//Compressed by computing the GCD
long gcd;

    //Compressed by giving IDs to unique values.
    long table[];
    /** for sparse compression */
    long numDocsWithValue;
    NumericEntry nonMissingValues;
    NumberType numberType;
  }

  / metadata entry for a binary docvalues field */
  static class BinaryEntry {
    private BinaryEntry() {}
    / offset to the bitset representing docsWithField, or -1 if no documents have missing values /
    long missingOffset;
    /** offset to the actual binary values /
    //field的在数据文件中的起始地址
    long offset;
    int format;
    /** count of values written */
    public long count;

//最短字符串的长度
int minLength;

    //最长字符串的长度
    int maxLength;
    / offset to the addressing data that maps a value to its slice of the byte[] */
    public long addressesOffset, addressesEndOffset;
    / meta data for addresses /
    public DirectMonotonicReader.Meta addressesMeta;
    /** offset to the reverse index /
    public long reverseIndexOffset;
    / packed ints version used to encode addressing information */
    public int packedIntsVersion;
    / packed ints blocksize */
    public int blockSize;
  }参考资料

lucene source code

lucene document

lucene字典实现原理——FST

本文地址：http://elasticsearch.cn/article/6178

你可能感兴趣的:(【Elasticsearch】Elasticsearch中数据是如何存储的)

八一一俢
今天是八一，中国人民解放军92岁生日。他们在战场上抛头颅洒热血冲锋陷阵，他们不惜牺牲自己的生命来捍卫祖国的神圣领土和尊严，我们为他们的刚强、无私、坚韧而感动。我很喜欢看战争题材的电影，在战场上，军人体现出来的那种军魂，有时候的确让人热血沸腾，战争充满了恐慌和牺牲，但是作为一位军人，他会挺起胸膛站在前线，他们虽然表现刚强无谓，但还是会体现出特有的血有肉、有情有义。有军人的地方，会让人感到安全可靠，有
Prometheus（六）黑盒监控疯狂的大饼性能 linux 运维 centos
黑盒监控（blackbox_exporter）之前介绍的对exporter的使用可以称为“白盒监控”，既需要把对应的exporter程序安装到被监控的目标主机上，从而实现对主机资源及其状态的数据采集工作。黑盒监控，blackbox_exporter无须安装在被监控的目标环境中，用户只需要将其安装在于promethenus和被监控目标互通的环境中，通过HTTP、HTTPS、DNS、TCP、ICMP等
2022年6月4日（星期六）:联欢骑行明郎水库热爱骑行的周校长
海内存知己，天涯若比邻！本周2022年6月4日(星期六)：携手哈雷，戴维森商贸有限公司官南大道店，骑行明朗水库，早8:30到9:00，强林石化加油站（老安石路车家壁段坡头）集合，9:30准时出发【因迟到者，骑行速度快者，可自行追赶偶遇。】偶遇地点:强林石化加油站（老安石路车家壁段坡头）集合，家住东，南，西，的骑友在下列时间，地点等候。骑行地点:强林石化加油站（老安石路车家壁段坡头）---太平---
起床后叠被子有害健康？我仿佛听到了懒人的笑声安安健康
今天起床，你叠被子了吗？不少人习惯起床后就马上叠被子。起身时扬手一挥，整洁利落，高效还不拖延。但其实，起床后马上叠被子并不科学。这里是知识科普分界线>>>在新陈代谢过程中，人体本身不啻于一个污染源，其组织器官源源不断地产生各种代谢废物。即便是健康的人，一个晚上通过呼吸、说话、咳嗽等日常活动，亦会排出细菌、病毒近百亿个。若有感冒、肺炎、放屁等，污染则更为严重。尤其是冬天，门窗紧闭，通风不良，这些化学
pycharm2023，修改文件夹路径，venv解释器无法新增 day_323 python pycharm
pycharm2023，修改文件夹路径，venv解释器无法新增1问题描述2处理方法1问题描述我的pycharm版本为2023.1.2。原有代码所在文件夹路径变更后，再用pycharm打开代码，然后进入setting-pythoninterpreter中，新增venv虚拟环境，pycharm无反应，venv环境一直无法新增。2处理方法1关闭pycharm。然后进入代码文件夹，删除.idea文件夹和v
别让一个字，毁了所有人生醉酒非酒
嗯，我很懒，特别懒的那种。不知道别人能懒到什么程度，但是我除了必要的生存条件，吃喝拉撒这四件事意外，其他事情我真的可以不放在心上。不仅懒，而且宅，闲下来在家的时候，从来不做饭，如果一个人在家，家里可以永远不开火，叫的外卖一定要送到楼上，从卧室到门口我都觉得远。那段时间，觉得自己基本上是个废人了。不愿意看书，不愿意写东西，即使有了灵感，我也懒得动笔。早上从来不早起，信奉早起毁一天的说法，给自己找无数
2023-01-10 多持
这束花栽在纸卷新诗这束花栽在纸卷静悄悄的夜晚，黑色的鸟儿，把我放进花园。白色的小屋，让我长眠。朋友们的相亲，心里好安。你们为什么要去老远，相处得就那么随便，让我好馋，我的脚寸步也不能移展。看早上无尽的云天，看夜幕黑色的垂帘，我的头经过太阳和月亮，又三万六千。我眉毛上插的花朵，从未增减，我身体上着的衣装，从未改变。不需捍卫，我最勇敢。群蜂猎蜜，落一个碰壁头，滚地爬瘫。哦，我看见，原来这束花栽在纸卷，
一方水土养育一方人心喜欢生0003
这几天在无锡走街串巷，天气这么炎热其实还蛮辛苦的；但是我并不会觉得辛苦，这一些行为无形之中是在弥补我的某些匮乏。我常常用这样的方式去了解一个城市，从文化人文到自然景观，从建筑风格到饮食文化；我常常说城市养育了人，人也在创造着城市；无锡是我媳妇的故乡，我愿意去了解无锡，可能潜意识里面我是想了解我媳妇。表姐这两天对我太热情了，每天带着去饭店吃饭，而且知道我喜欢喝米酒，专门让姑姑到江阴去找米酒给我喝，亲
MJExtension AlanGe
MJExtension：https://github.com/CoderMJLee/MJExtensionExamples【示例】AddMJKeyValueprotocoltoyourmodelifneeded【如果有需要,请在模型中加入MJKeyValue协议】ThemostsimpleJSON->Model【最简单的字典转模型】typedefenum{SexMale,SexFemale}Sex
2023-06-29 淡墨悠然
三你想干什么自从来到七星乡医院，杜烟柔很想和石映山叙叙别情忆忆往昔，但是一直没有这个机会。医院虽不大，俗话说麻雀虽小五脏俱全，作为一院之长，石映山似乎真的很忙，医疗上的行政上的后勤上的大事小情他都得操心，甚至哪个职工家里夫妻发生战争，也要请院长前去调停才肯休战。转眼一个月过去了，除了在每天的早会能见到石映山，其余时间连他的人影都瞄不着，更不要说能和他单独在一起叙旧了。终于有一天，杜烟柔看见石映山一
25数据库三级备考自整理笔记
备考策略：博主是边做题边学习知识点的，从每个章节->每套真题的流程，知识点清晰详细，喜欢的请点个关注和收藏，祝大家考试顺利，必过必过必过！一、数据库应用系统开发方法1.数据库的三级模式：外模式、模式、内模式。外->是数据库用户（包括应用程序员和最终用户看见和使用的局部数据的逻辑结构和特征的描述，是数据库用户的视图，是某一应用有关的数据的逻辑表示；外模式是模式的子集，一个数据库可以有多个外模式）；（
【Linux 文本处理三剑客：grep、sed、awk 深度解析与实战指南】
一、grep$grep-[选项]'要查找的字符串或正则表达式'[文件]1.常用选项-i：忽略大小写进行搜索-e:指定查找内容，可以跟多个，类似于’查找内容1’|‘查找内容2’-v：显示不匹配模式的行-c:计算找到符合行的次数-w:精确查找，只能输出完全匹配的内容。类似于\b要查的内容\b-n：在输出结果中显示行号-r：递归搜索目录下的所有文件-lr:以长文本格式显示文件名-E：使用正则表达式查找2
晚安能量调频160 刘同学_fc07
亲爱的，欢迎你来到今天的晚安调频。生命的奥秘不是一个需要解决的问题..而是要经历的现实。当你抗拒或阻止现实，就无法理解和参透它...我们必须全身心的投入到这个流动的过程中..我们必须随之而流动...放下吧...放下..”这段话道出了生命旅程的真实意义...我们来到这里，活着眼下的生活，究竟是为了什么？很少人知道，也很少人探究...人们以为生活就是追求更舒适更富有更有成就，为此要披荆斩棘解决一个又一
怎么才是好？分享颜如玉
有人说事业好才是好，可是你会发现身体也不好，情绪也不好，其实事业也将会走下坡路的。也有人说身体好才是好，可是你会发现事业不好，情绪也不好，其实身体也会走下坡路的。只有身体、事业、家庭、情绪等都同步发展，你才是真的好。那么又有人说了，人无完人，都好那太完美了，怎么可能？其实说这样话的人还是不能很好的控制自己，控制自己的思想和欲望，人总是很自信，不相信自己并不了解自己，别人的建议和质疑让自己固执己见奋
被蓝盈莹狠心“抛弃”，白冰应该委屈吗？阅微的笔记
综艺节目《乘风破浪的姐姐》早已播出好久，小饼的文章现在才开始追踪。真的有点像是张雨绮姐姐在离婚前送给前老公袁巴元的“一厘米”刀伤，似乎再不报警伤口就愈合了。我的意思是说，我要是想写姐姐们有关的文章，如果再不蹭蹭热点，本来就少得可怜的粉丝，会更加鄙视我了吧；本来不怎么讨喜的自嗨文章，更加没有拿出来显摆的必要了。各位看官，咱们言归正传，今天谈的这件事情，要从白冰受到的“小伤害”说起。经历了首轮公演的残
如何调整优化器的参数来优化神经网络性能？ Idividuals 深度学习神经网络机器学习 python scikit-learn
不同优化器有不同的可调整参数，下面以常见的优化器为例，讲解如何调整其参数来优化神经网络性能：Adam优化器Adam优化器有几个关键参数：learning_rate（学习率）、beta_1、beta_2和epsilon。1.学习率(learning_rate)-作用：控制每次参数更新的步长。学习率过大，模型可能无法收敛，在最优解附近振荡甚至发散；学习率过小，训练速度会非常缓慢。-调整方法：通常初始值
在幼儿三岁以前，母亲亲自带孩子重要吗？ 5239林中漫步
首先，父母亲无条件的爱和陪伴，是幼小孩子安全感的来源。祖父母能给孩子的爱和从父母那边获得的爱是完全不同的。父母的陪伴对孩子来说非常重要。特别是幼小的孩子，刚出生时，这个世界对他们来说完全是陌生的，得不到父母陪伴，特别是母亲陪伴，孩子将十分失落，感觉不被爱，会缺乏安全感。长此以往，有可能会形成许多性格上的问题。其次在传统的中国家庭，如果不是父母亲自带，孩子就是交给祖父母，祖父母一方面可能会溺爱孩子。
2018-08-18 子分小
姓名：张颖公司：青岛博厚医疗管理股份有限公司【反省总结第40天，始于20180709今天是201808018】【知～学习】六项精背诵3遍大学背诵1遍【行～实践】一、修身：（对自己个人）早起做了颈椎运动二、齐家：（对家庭和家人）暂无三、建功：（对工作)石老人门店证照问题｛积善｝：发愿从2018年7月9日起1年内龙365善事。今日0善，累计29善。【省～觉悟】找准方向，做自己喜欢的事，并坚持到底，努力
python 连接数据库小鱼拉灯 mysql 数据库 python
一.连接MYSQL1.下载PyMySql模块2.在MYSQL中创建数据库并连接importpymysqlconn=pymysql.connect(host='localhost',user='root',password='123456',database='ikun',charset='utf8',port=3306)3.创建表importpymysqlconn=pymysql.connect(
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
pip路径设置
更改pip默认下载路径Windows系统：直接在user目录中创建一个pip目录，如：C:\Users\xx\pip，并新建文件pip.ini文件，pip文件内容如下：[global]index-url=https://pypi.tuna.tsinghua.edu.cn/simple[install]trusted-host=mirrors.aliyun.com引用:https://www.cnb
Prometheus监控-第1天我为你走过-YOYO prometheus
7.1基于Prometheus的全方位监控平台一、打造基于Prometheus的全方位监控平台1.1、前言官网地址：https://prometheus.io/docs/prometheus/latest/getting_started/灵活的时间序列数据库；定制各式各样的监控规则；Prometheus的开发人员和用户社区非常活跃；独立的开源项目，不依赖于任何公司；继Kurberntes之后第二个
【开源项目】实测 Google 开源的 AI MCP 数据库网关：10行代码隔离风险，连接池自动复用
1.引言这两天试了谷歌新开的MCPToolboxforDatabases，它用不到10行代码就能让AI助手（比如LangChain智能体）安全地操作数据库。作为一个常年和数据库连接池、凭证泄露搏斗的开发者，这东西确实解决了我的痛点——把数据库访问抽象成“工具”，通过集中管控的MCPServer隔离风险，还自带性能优化。下面分享实测体验和避坑指南。2.正文2.1核心逻辑：为什么需要MCP？传统AI代
Prometheus 监控系统简介 wespten Linux 自动化运维智能运维性能监控系统调优 TS prometheus
一、监控原理简介监控系统在这里特指对数据中心的监控，主要针对数据中心内的硬件和软件进行监控和告警。从监控对象的角度来看，可以将监控分为网络监控、存储监控、服务器监控和应用监控等。从程序设计的角度来看，可以将监控分为基础资源监控、中间件监控、应用程序监控和日志监控。1、基础资源监控从监控对象的角度来看，可以将基础资源监控分为网络监控、存储监控和服务器监控。1）网络监控这里讲解的网络监控主要包括：对数
2023-01-08 CRL瑞
姓名】第二组昌瑞利【闻思】《阳明心学》《文化自信与民族复兴》【今日躬行】1.今天阳历新年第8天，早上听《家庭的春天》2.感恩先生炒晚饭的菜，红萝卜都能这么好吃！下午给妈和婆婆妈打电话，3.今天天气好，洗衣服。4.下午把会议精神梳理一下，晚上开班会。【省思感悟]零抱怨，感恩，欣赏和肯定【打卡时间】2023年元月8日112天直播收莸1.家庭问题常常无解，唯有从心上超越。2.改，就要彻底地改正。3.蓄势
知乎职场类问题关注度最高的... 晓维漫话
文/晓维最近，在琢磨一个问题：职场发展中，哪类问题的关注度最高？说白了，就是什么样的职场问题提问的人最多。于是，搜了下知乎，提问和关注度最高的原来是职业定位问题。职业定位，即使在职业生涯规划中相对其他类问题比较难处理。因为定位关乎一个人的多维度综合因素。但因为关注度比较高，还是没掩盖住想写的欲望，也希望能帮助到更多有职业定位困惑的朋友。也许，单纯提到职业定位还比较官方，但我们一定亲身或者见证过身边
12.24 历史上的今天；清朝雍正皇帝登上帝位！谈小样她爹
图片发自App在296年前的今天，1722年12月24日(农历冬月十七)，清朝雍正帝胤禛登上帝位。清世宗爱新觉罗·胤禛(公元1678年—公元1735年)，满族，母为康熙孝恭仁皇后乌雅氏，清圣祖玄烨第四子，是清朝入关后第三位皇帝，1722—1735年在位，年号雍正，死后葬于清西陵之泰陵，庙号世宗，谥号敬天昌运建中表正文武英明宽仁信毅睿圣大孝至诚宪皇帝。雍正在位时期，置“军机处”加强皇权、“火耗归公”
2021-9-24每日检视Day307 洒脱转身
每日检视307/365起床：6:20就寝：11:20天气：晴心情：平静纪念日：叫我起床的不是闹钟是梦想2021年度目标年度(2020.11.20-2021.11.20）目标及关键点：在平衡健康、家庭、工作、生活、兴趣、个人发展的基础上，提升情商和财商，重点发展记忆竞技能力，让每一天都成为一部杰作。健康：①身材曲线——香肩美背，腹部肌肉紧实，臀部微翘②神态：眼睛有神，笑容亲和③健身房每周不少于4次。
2018新春团拜会～老师同学相聚邢台书法院！ 21afc01eb04c
時光荏苒，让我们放慢腳步，拉長這一段路途！農曆戊戌款款而來，讓我們張開臂膀，以特有的溫度擁抱他～为我们而来每一天美好生活！！！祝願各位同道、師友、合作夥伴、家長、小朋友們在新的一年裡進步，平安喜乐！豐盛圓满!邢台書法院恭祝各位：平安喜悅！新春吉祥！图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自Ap
网上可以赚钱平台有哪些几类正规赚钱平台分享【干货】全网优惠分享
网上可以赚钱平台有哪些几类正规赚钱平台分享【干货】手机上就可以的赚钱方法：1：手机应用商店搜索“氧惠”下载氧惠APP，注册填写邀请码：222999为什么要用氧惠？你平时在淘宝,京东,拼多多,抖音,快手,买东西都有现金返现，比如淘宝100块的东西，你通过氧惠跳转到淘宝下单购买，可以返现20元，是不是就是等于你80元就买到了原来要100元才能买到的东西。该在哪下单还是在哪下单，只是通过氧惠跳转一下。但
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &