wankunde

ORC文件存储格式和数据写入过程

文章目录

ORC 文件格式，配置参数及相关概念
- ORC 文件格式
- UML类图
- OrcFile writer 创建
- OrcFile Writer 配置参数
- 相关概念
动态数组 DynamicIntArray 和 DynamicByteArray
- 初始化
- chunk 扩容
OrcFile writer的 write()方法写数据
- WriterImpl addRow程序入口
- StringTreeWriter : void write(Object obj)
- StringTreeWriter 内部数据存储结构
- 使用红黑树来做 dictionary
OutStream 管理
- 使用 StreamFactory 创建 BufferedStream
- BufferedStream 数据写入 | RowIndexEntry 创建和管理
- - recordDirectStreamPosition()
ORC物理文件写入
- MemoryManager 的 checkMemory
- ORC 建立 OutputStream 输出文件
- - getStream() 方法调用入口：
  - OutputStream 说明：
- Stripe 数据写入
String Dictionary
RunLengthIntegerWriterV2
参考文献

ORC 文件格式，配置参数及相关概念

ORC 文件格式

Stripe:
  MAGIC
  stripe1 {
    data
    index
    footer
  },
  stripe2 {
    data
    index
    footer
  },
  ...
  metadata
  footer
  PostScript + size(PostScript)

UML类图

部分关联类的调用关系

OrcFile writer 创建

通过 OrcFile.createWriter()静态方法设置写文件参数，生成一个WriterImpl对象来写ORC文件。

Writer writer = OrcFile.createWriter()

OrcFile Writer 配置参数

opts.configuration,
opts.inspectorValue, : 借用hive serde2 中的ObjectInspector 来解析 ROW，确定文件Schema
opts.stripeSizeValue (default = 64L * 1024 * 1024) : Writer 操作单元，stripe 内容先写入内存，内存满了之后Flush到磁盘
opts.compressValue (default = ZLIB) : 允许的压缩方式 CompressionKind(NONE, ZLIB, * SNAPPY, LZO)
opts.bufferSizeValue (default = 256 * 1024) : memory buffers 大小
opts.rowIndexStrideValue (default = 10000) : Stride is the number of rows an index entry represents.
opts.memoryManagerValue, : 默认取当前Heap Max Size 的一半作为 totalMemoryPool
opts.blockPaddingValue,
opts.versionValue,
opts.callback, : when the stripe and file are about to be closed，flush 磁盘，默认还是* 调用在 WriterImpl.checkMemory() 方法
opts.encodingStrategy,
opts.compressionStrategy,
opts.paddingTolerance,
opts.blockSizeValue

动态数组 DynamicIntArray 和 DynamicByteArray

动态数组是ORC 读写文件中非常重要的一步，设计的目的是 memory optimization，具有如下特点：

数据分chunks管理，当发生 resizes 操作的时候，只需要移动部分数据即可;
space efficient storage of potentially huge arrays without good a-priori size guesses;
API 介于 array 和 AbstractList之间
DynamicIntArray 和 DynamicByteArray 类似，却别在于一个内存存储Int，一个存储Byte.

下面以 DynamicIntArray 为例。

初始化

DEFAULT_CHUNKSIZE = 8 * 1024
data = new int[128][];

chunk初始个数 128个，每个ChunkSize 为 8192
增删改查操作需要根据 index，计算出对应的chunk 和在该chunk 内的偏移量来操作数据
当chunk个数不够的时候，将chunk个数 double一下，申请新的二维数组再来管理
内存空间的分配是根据当前使用到的最大 chunkIndex 需要来分配的，不会造成资源浪费。

  data[0] : 0 - 8191 
  data[1] : 8192 - 16384
  ...
  data[n] :

chunk 扩容

  /**
   * Ensure that the given index is valid.
   */
  private void grow(int chunkIndex) {
    if (chunkIndex >= initializedChunks) {
      if (chunkIndex >= data.length) {
        int newSize = Math.max(chunkIndex + 1, 2 * data.length);
        int[][] newChunk = new int[newSize][];
        System.arraycopy(data, 0, newChunk, 0, data.length);
        data = newChunk;
      }
      for (int i=initializedChunks; i <= chunkIndex; ++i) {
        data[i] = new int[chunkSize];
      }
      initializedChunks = chunkIndex + 1;
    }
  }

OrcFile writer的 write()方法写数据

WriterImpl addRow程序入口

这里是后面程序入口，后面均会有介绍：

treeWriter 写数据
RowIndexEntry 管理
memoryManager 内存管理
Stripe 生成(flushStripe)

  @Override
  public void addRow(Object row) throws IOException {
    synchronized (this) {
      // 这里只是做 indexStatistics，NULL，bit位的一些统计
      treeWriter.write(row);
      rowsInStripe += 1;
      if (buildIndex) {
        rowsInIndex += 1;
        // rows
        if (rowsInIndex >= rowIndexStride) {  
          createRowIndexEntry();
        }
      }
    }
    memoryManager.addedRow();
  }

StringTreeWriter : void write(Object obj)

    // StringTreeWriter
    @Override
    void write(Object obj) throws IOException {
      super.write(obj);  // 父类TreeWriter 为抽象类，只做一些 indexStatistics 统计等抽象操作
      if (obj != null) {
        Text val = getTextValue(obj);
        if (useDictionaryEncoding || !strideDictionaryCheck) {
          rows.add(dictionary.add(val));
        } else {
          // write data and length
          directStreamOutput.write(val.getBytes(), 0, val.getLength());
          directLengthOutput.write(val.getLength());
        }
        indexStatistics.updateString(val);
      }
    }

未使用字典压缩(useDictionaryEncoding=false) 且已经做了是否使用字典检查（strideDictionaryCheck =true)
- 不需要使用字典
  - 将data and length直接写入OutStream，至于 directStreamOutput 和 directLengthOutput 后面会有详细介绍
否则调用 rows.add(dictionary.add(val));
- dictionary.add(val) : 使用红黑树存储当前字符串的bytes值
- rows.add(dictionary.add(val)); : 元素存储在dictionary中的offset

StringTreeWriter 内部数据存储结构

例如，现在要写入两个字符串，01和234(因为对象的存储最终会存储该对象Writable方法的UDF-8编码 chars，所以使用数字字符串来理解);

内部数据存储结构
StringTreeWriter 中数据存储

使用红黑树来做 dictionary

如果 newKey 在红黑树中不存在：
- add() 返回true，
- 将newKey的bytes数据存入byteArray
- 将数据在 byteArray中的offset 存入 keyOffsets

  // StringRedBlackTree 
  private int addNewKey() {
    // if the newKey is actually new, add it to our byteArray and store the offset & length
    if (add()) {
      int len = newKey.getLength();
      keyOffsets.add(byteArray.add(newKey.getBytes(), 0, len));
    }
    return lastAdd;
  }

OutStream 管理

使用 StreamFactory 创建 BufferedStream

以StringTreeWriter 创建的Stream为例

private final StreamFactory streamFactory = new StreamFactory(); // 全局唯一 streamFactory
treeWriter = createTreeWriter(inspector, streamFactory, false);
new StringTreeWriter(streamFactory.getNextColumnId(), inspector, streamFactory, nullable); // 根据 inspector.getCategory() 类型创建对应的TreeWriter
super(columnId, inspector, writer, nullable); // 调用父类 TreeWriter() 构造方法
rowIndexStream = streamFactory.createStream(id, OrcProto.Stream.Kind.ROW_INDEX); // 因为 HIVE_ORC_DEFAULT_ROW_INDEX_STRIDE(“hive.exec.orc.default.row.index.stride”, 10000) 默认 stride > 0（Stride is the number of rows an index entry represents.）所以创建 (id=0,ROW_INDEX) 类型 OutStream
在 StringTreeWriter 构造方法中创建其他三个Stream

根据 column 和 kind 创建 OutStream 对象，并在 streams 中记录，后续在 flushStripe() 方法中会处理所有的streams.
BufferedStream 中有两个对象，OutStream outStream和List output。TreeWriters直接写数据到outStream; codec compresses the data as buffers 存储在output;
StringTreeWriter 内部Stream和引用对象关系
- 使用DictionaryEncoding
- 没有使用DictionaryEncoding
所有 TreeWriter 都有rowIndexStream
对于 LENGTH 类型的Stream 使用 createIntegerWriter 进行包装
对于 DATA 类型Stream，有createIntegerWriter的包装，也有Direct Stream

Column 可能创建的Stream 类型(OrcProto.Stream.Kind)：

DATA
DICTIONARY_DATA
LENGTH:
DICTIONARY_COUNT:
PRESENT:
ROW_INDEX:
SECONDARY:

BufferedStream 数据写入 | RowIndexEntry 创建和管理

当前IndexEntry 中记录数超过 10000 条，创建新的 IndexEntry，并添加到 rowIndex 中。
OutStream 的write方法先将需要write的数据写入到 ByteBuffer current 中；当 current 被写满后，开始 spill()
在 BufferedStream 中有一个List output来存储中间结果，spill() 其实就是将将 current 添加到 BufferedStream的 output中，然后重新申请一个新的ByteBuffer 。

StringTreeWriter : void createRowIndexEntry() | void writeStripe()
private void flushDictionary() {
        ....
      final int[] dumpOrder = new int[dictionary.size()];
      if (useDictionaryEncoding) {
        // Write the dictionary by traversing the red-black tree writing out
        // the bytes and lengths; and creating the map from the original order
        // to the final sorted order.

        // 对red-black tree中所有node调用visit方法，将数据写入到 BufferedStream
        dictionary.visit(new StringRedBlackTree.Visitor() {
          private int currentId = 0;
          @Override
          public void visit(StringRedBlackTree.VisitorContext context
                           ) throws IOException {
            // 将red-black tree 中当前节点写入 stringOutput : DICTIONARY_DATA
            context.writeBytes(stringOutput);
            // 将当前节点长度写入 lengthOutput : LENGTH
            lengthOutput.write(context.getLength());
            // 当前节点在树中的位置，
            dumpOrder[context.getOriginalPosition()] = currentId++;
          }
        });
      } else {
        // for direct encoding, we don't want the dictionary data stream
        stringOutput.suppress();
      }
      int length = rows.size();
      int rowIndexEntry = 0;
      OrcProto.RowIndex.Builder rowIndex = getRowIndex();
      Text text = new Text();
      // write the values translated into the dump order.
      for(int i = 0; i <= length; ++i) {
        // now that we are writing out the row values, we can finalize the
        // row index
        if (buildIndex) {
          // 对于每个 RowIndex，将base 对象包装为PositionRecorder，并调用当前recorder的position
          while (i == rowIndexValueCount.get(rowIndexEntry) &&
              rowIndexEntry < savedRowIndex.size()) {
            OrcProto.RowIndexEntry.Builder base =
                savedRowIndex.get(rowIndexEntry++).toBuilder();
            if (useDictionaryEncoding) {
              rowOutput.getPosition(new RowIndexPositionRecorder(base));
            } else {
              PositionRecorder posn = new RowIndexPositionRecorder(base);
              directStreamOutput.getPosition(posn);
              directLengthOutput.getPosition(posn);
            }
            // base.build() 创建一个 RowIndexEntry 实例，再添加到 rowIndex
            rowIndex.addEntry(base.build());
          }
        }
        if (i != length) {
          if (useDictionaryEncoding) {
            // 如果使用字典压缩，因为dictionary数据已经全部写出，只需要将对应数据在stringOutput : DICTIONARY_DATA 中的数组dumpOrder的下标即可
            rowOutput.write(dumpOrder[rows.get(i)]);
          } else {
            // 如果不使用字典，将 text 值，写入 directStreamOutput，将 text length 写入 directLengthOutput
            dictionary.getText(text, rows.get(i));
            directStreamOutput.write(text.getBytes(), 0, text.getLength());
            directLengthOutput.write(text.getLength());
          }
        }
      }
      rows.clear();
    }

recordDirectStreamPosition()

在flush 完数据后，在下面的recordDirectStreamPosition() 方法中

directStreamOutput中position
- codec = null 记录 uncompressedBytes
- codec != null 记录 compressedBytes, uncompressedBytes
记录 directLengthOutput 中position
- 因为是RunLengthIntegerWriterV2，先记录和上面一个的 position
- 再补充记录一个 numLiterals

ORC物理文件写入

MemoryManager 的 checkMemory

通过addRow() 方法入口，每5000条记录，检查一下内存使用是否超出 limit 限制，超出限制后，调用 flushStripe()

  @Override
  public synchronized boolean checkMemory(double newScale) throws IOException {
    long limit = (long) Math.round(adjustedStripeSize * newScale);
    long size = estimateStripeSize();
    ...
    if (size > limit) {
      flushStripe();
      return true;
    }
    return false;
  }

ORC 建立 OutputStream 输出文件

输出流的建立时机发生在checkMemory满足条件或 close() 文件时，调用 flushStripe()方法。

getStream() 方法调用入口：

void close()
- void flushStripe()
- int writeMetadata(long bodyLength)
- int writeFooter(long bodyLength)
OrcFileMergeOperator : void processKeyValuePairs(Object key, Object value)
- void appendStripe(byte[] stripe, int offset, int length,StripeInformation stripeInfo,OrcProto.StripeStatistics stripeStatistics)

OutputStream 说明：

rawWriter : 对应HDFS 文件 writer
writer 和 protobufWriter:
- DirectStream : 包装 rawWriter，增加向outputStrema 写 ByteBuffer功能
- write() 方法将数据写入 current 中
- 在 spill() 和 flush() 方法中调用 codec.compress(current, compressed, overflow)，再将 compressed 数据写出
- CodedOutputStream protobufWriter : 使用protobuf 包装 writer，增强写入BUFFER功能。
- 每次 protobufWriter flulsh之后，会同步flush writer。

  @VisibleForTesting
  FSDataOutputStream getStream() throws IOException {
    if (rawWriter == null) {
      rawWriter = fs.create(path, false, HDFS_BUFFER_SIZE,
                            fs.getDefaultReplication(), blockSize);
      rawWriter.writeBytes(OrcFile.MAGIC);
      headerLength = rawWriter.getPos();
      writer = new OutStream("metadata", bufferSize, codec,
                             new DirectStream(rawWriter));
      protobufWriter = CodedOutputStream.newInstance(writer);
    }
    return rawWriter;
  }

Stripe 数据写入

将streams中的数据全部flush到ByteBuffer List中
依次将 streams 中各个Stream 中数据写入到文件，实现列存储
写入 footer
build StripeInformation 对象，包括 Offset,rowsInStripe,indexSize,dataSize,footerLength
rowCount

  private void flushStripe() throws IOException {
    getStream();
    if (buildIndex && rowsInIndex != 0) {
      createRowIndexEntry();
    }
    if (rowsInStripe != 0) {
      if (callback != null) {
        callback.preStripeWrite(callbackContext);
      }
      // finalize the data for the stripe
      int requiredIndexEntries = rowIndexStride == 0 ? 0 :
          (int) ((rowsInStripe + rowIndexStride - 1) / rowIndexStride);
      OrcProto.StripeFooter.Builder builder =
          OrcProto.StripeFooter.newBuilder();
      treeWriter.writeStripe(builder, requiredIndexEntries);
      
      long indexSize = 0;
      long dataSize = 0;
      for(Map.Entry<StreamName, BufferedStream> pair: streams.entrySet()) {
        BufferedStream stream = pair.getValue();
        if (!stream.isSuppressed()) {
          stream.flush();
          StreamName name = pair.getKey();
          long streamSize = pair.getValue().getOutputSize();
          builder.addStreams(OrcProto.Stream.newBuilder()
                             .setColumn(name.getColumn())
                             .setKind(name.getKind())
                             .setLength(streamSize));
          if (StreamName.Area.INDEX == name.getArea()) {
            indexSize += streamSize;
          } else {
            dataSize += streamSize;
          }
        }
      }
      OrcProto.StripeFooter footer = builder.build();

      // Do we need to pad the file so the stripe doesn't straddle a block
      // boundary?
      long start = rawWriter.getPos();
      final long currentStripeSize = indexSize + dataSize + footer.getSerializedSize();
      final long available = blockSize - (start % blockSize);
      final long overflow = currentStripeSize - adjustedStripeSize;
      final float availRatio = (float) available / (float) defaultStripeSize;

      if (availRatio > 0.0f && availRatio < 1.0f
          && availRatio > paddingTolerance) {
        // adjust default stripe size to fit into remaining space, also adjust
        // the next stripe for correction based on the current stripe size
        // and user specified padding tolerance. Since stripe size can overflow
        // the default stripe size we should apply this correction to avoid
        // writing portion of last stripe to next hdfs block.
        float correction = overflow > 0 ? (float) overflow
            / (float) adjustedStripeSize : 0.0f;

        // correction should not be greater than user specified padding
        // tolerance
        correction = correction > paddingTolerance ? paddingTolerance
            : correction;

        // adjust next stripe size based on current stripe estimate correction
        adjustedStripeSize = (long) ((1.0f - correction) * (availRatio * defaultStripeSize));
      } else if (availRatio >= 1.0) {
        adjustedStripeSize = defaultStripeSize;
      }

      if (availRatio < paddingTolerance && addBlockPadding) {
        long padding = blockSize - (start % blockSize);
        byte[] pad = new byte[(int) Math.min(HDFS_BUFFER_SIZE, padding)];
        LOG.info(String.format("Padding ORC by %d bytes (<=  %.2f * %d)", 
            padding, availRatio, defaultStripeSize));
        start += padding;
        while (padding > 0) {
          int writeLen = (int) Math.min(padding, pad.length);
          rawWriter.write(pad, 0, writeLen);
          padding -= writeLen;
        }
        adjustedStripeSize = defaultStripeSize;
      } else if (currentStripeSize < blockSize
          && (start % blockSize) + currentStripeSize > blockSize) {
        // even if you don't pad, reset the default stripe size when crossing a
        // block boundary
        adjustedStripeSize = defaultStripeSize;
      }

      // 将 streams 中的List output 数据(Write the saved compressed buffers)写出到 rawWriter中
      // write out the data streams
      for(Map.Entry<StreamName, BufferedStream> pair: streams.entrySet()) {
        BufferedStream stream = pair.getValue();
        if (!stream.isSuppressed()) {
          stream.spillTo(rawWriter);
        }
        stream.clear();
      }
      // write footer 数据
      footer.writeTo(protobufWriter);
      protobufWriter.flush();
      // protobufWriter包装了writer，并增加了Buffer，所以需要同步flush writer
      writer.flush();
      long footerLength = rawWriter.getPos() - start - dataSize - indexSize;
      OrcProto.StripeInformation dirEntry =
          OrcProto.StripeInformation.newBuilder()
              .setOffset(start)
              .setNumberOfRows(rowsInStripe)
              .setIndexLength(indexSize)
              .setDataLength(dataSize)
              .setFooterLength(footerLength).build();
      // dirEntry 包含stripe 元数据信息
      stripes.add(dirEntry);
      rowCount += rowsInStripe;
      rowsInStripe = 0;
    }
  }

  @Override
  public void close() throws IOException {
    // remove us from the memory manager so that we don't get any callbacks
    memoryManager.removeWriter(path);
    // actually close the file
    synchronized (this) {
      flushStripe();
      // 写入 treeWriter.stripeStatsBuilders 中所有Stripe metadata
      int metadataLength = writeMetadata(rawWriter.getPos());
      int footerLength = writeFooter(rawWriter.getPos() - metadataLength);
      rawWriter.writeByte(writePostScript(footerLength, metadataLength));
      rawWriter.close();
    }
  }

String Dictionary

RedBlackTree add() 方法

  // RedBlackTree 和 StringRedBlackTree 
  // TODO 对应Int 类型红黑树的处理  
  /**
   * Insert or find a given key in the tree and rebalance the tree correctly.
   * Rebalancing restores the red-black aspect of the tree to maintain the
   * invariants:
   *   1. If a node is red, both of its children are black.
   *   2. Each child of a node has the same black height (the number of black
   *      nodes between it and the leaves of the tree).
   *
   * Inserted nodes are at the leaves and are red, therefore there is at most a
   * violation of rule 1 at the node we just put in. Instead of always keeping
   * the parents, this routine passing down the context.
   *
   * The fix is broken down into 6 cases (1.{1,2,3} and 2.{1,2,3} that are
   * left-right mirror images of each other). See Algorighms by Cormen,
   * Leiserson, and Rivest for the explaination of the subcases.
   *
   * @param node The node that we are fixing right now.
   * @param fromLeft Did we come down from the left?
   * @param parent Nodes' parent
   * @param grandparent Parent's parent
   * @param greatGrandparent Grandparent's parent
   * @return Does parent also need to be checked and/or fixed?
   */
  private boolean add(int node, boolean fromLeft, int parent,
                      int grandparent, int greatGrandparent) {
    if (node == NULL) {
      if (root == NULL) {
        lastAdd = insert(NULL, NULL, false);
        root = lastAdd;
        wasAdd = true;
        return false;
      } else {
        lastAdd = insert(NULL, NULL, true);
        node = lastAdd;
        wasAdd = true;
        // connect the new node into the tree
        if (fromLeft) {
          setLeft(parent, node);
        } else {
          setRight(parent, node);
        }
      }
    } else {
      int compare = compareValue(node);
      boolean keepGoing;

      // Recurse down to find where the node needs to be added
      if (compare < 0) {
        keepGoing = add(getLeft(node), true, node, parent, grandparent);
      } else if (compare > 0) {
        keepGoing = add(getRight(node), false, node, parent, grandparent);
      } else {
        lastAdd = node;
        wasAdd = false;
        return false;
      }

      // we don't need to fix the root (because it is always set to black)
      if (node == root || !keepGoing) {
        return false;
      }
    }


    // Do we need to fix this node? Only if there are two reds right under each
    // other.
    if (isRed(node) && isRed(parent)) {
      if (parent == getLeft(grandparent)) {
        int uncle = getRight(grandparent);
        if (isRed(uncle)) {
          // case 1.1
          setRed(parent, false);
          setRed(uncle, false);
          setRed(grandparent, true);
          return true;
        } else {
          if (node == getRight(parent)) {
            // case 1.2
            // swap node and parent
            int tmp = node;
            node = parent;
            parent = tmp;
            // left-rotate on node
            setLeft(grandparent, parent);
            setRight(node, getLeft(parent));
            setLeft(parent, node);
          }

          // case 1.2 and 1.3
          setRed(parent, false);
          setRed(grandparent, true);

          // right-rotate on grandparent
          if (greatGrandparent == NULL) {
            root = parent;
          } else if (getLeft(greatGrandparent) == grandparent) {
            setLeft(greatGrandparent, parent);
          } else {
            setRight(greatGrandparent, parent);
          }
          setLeft(grandparent, getRight(parent));
          setRight(parent, grandparent);
          return false;
        }
      } else {
        int uncle = getLeft(grandparent);
        if (isRed(uncle)) {
          // case 2.1
          setRed(parent, false);
          setRed(uncle, false);
          setRed(grandparent, true);
          return true;
        } else {
          if (node == getLeft(parent)) {
            // case 2.2
            // swap node and parent
            int tmp = node;
            node = parent;
            parent = tmp;
            // right-rotate on node
            setRight(grandparent, parent);
            setLeft(node, getRight(parent));
            setRight(parent, node);
          }
          // case 2.2 and 2.3
          setRed(parent, false);
          setRed(grandparent, true);
          // left-rotate on grandparent
          if (greatGrandparent == NULL) {
            root = parent;
          } else if (getRight(greatGrandparent) == grandparent) {
            setRight(greatGrandparent, parent);
          } else {
            setLeft(greatGrandparent, parent);
          }
          setRight(grandparent, getLeft(parent));
          setLeft(parent, grandparent);
          return false;
        }
      }
    } else {
      return true;
    }
  }

  /**
   * Add the new key to the tree.
   * @return true if the element is a new one.
   */
  protected boolean add() {
    add(root, false, NULL, NULL, NULL);
    if (wasAdd) {
      setRed(root, false);
      return true;
    } else {
      return false;
    }
  }

RunLengthIntegerWriterV2

TODO

参考文献

ORC Talks
ORC File and Vectorization
LanguageManual ORC

Hadoop---(6)Sqoop（数据传输） Mr Cao sqoop 大数据
6.SqoopSqoop是一个用于hadoop数据和结构化数据之间转换的工具。全称SQL-TO-HADOOP.它可以把hadoop数据，包括hive和hbase存储的数据转化为结构化数据也就是数据库的数据，也可以把关系型数据库数据转化为hadoop数据这些转换操作全是通过Hadoop的MapTask来完成的，并不会涉及到Reduce操作。这是因为我们只是进行数据的拷贝，并不会对数据进行处理或者计算
hbase无法建表：org.apache.hadoop.hbase.PleaseHoldException: Master is initializing magicchu CDH HBASE 大数据
1.环境：cdh6.2.12.现象：hbaseshell进去后，list命令执行正常，执行建表语句后报错：ERROR:org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing提示master正在初始化中，查看master日志：WARNorg.apache.hadoop.hbase.master.HMaster:hbase:na
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
spark和python的区别_Spark入门(Python) weixin_39934257 spark和python的区别
Spark是第一个脱胎于该转变的快速、通用分布式计算范式，并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型，可以涵盖广泛的工作流，这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能，因此进行交互式分析也足够快速(就如同使用Python解释器，与集群进行交互一样)。缓存同时提升了迭代算法的性能，这使得Spark非常适合数据理
spark python入门_python pyspark入门篇 weixin_39686634 spark python入门
一.环境介绍：1.安装jdk7以上2.python2.7.113.IDEpycharm4.package:spark-1.6.0-bin-hadoop2.6.tar.gz二.Setup1.解压spark-1.6.0-bin-hadoop2.6.tar.gz到目录D:\spark-1.6.0-bin-hadoop2.62.配置环境变量Path，添加D:\spark-1.6.0-bin-hadoop2
安装HBase-2.4.12 (hadoop3.3.1) 不饿同学大数据 hbase big data hadoop
1.下载https://www.apache.org/dyn/closer.lua/hbase/2.4.12/hbase-2.4.12-bin.tar.gz节点角色配置节点MasterZooKeeperRegionServernode001yesyesyesnode002backupyesyesnode003noyesyes2.解压下载的文件，并切换到新创建的目录。(base)[root@node
Hadoop--HA架构详解娘子，出来看上帝 Hadoop Hadoop 大数据 HA
一、HA架构工作背景HDFS集群中的nameNode存在单点故障因素。对于只有一个nameNode工作的集群来说，一旦nameNode出现意外情况，会导致整个集群无法工作，直到nameNode重新启动。为了解决上述问题，Hadoop给出了高容错，高可用的HA方案：一个HDFS集群至少存在两个nameNode，一个nameNode处在active（主）状态，其他nameNode处在standby（备
Hadoop HA 架构 weixin_30569033 shell 大数据
为什么要用集群?企业里面,多台机器伪分布式每一个角色都是一个进程HDFS:NNSNNDNYARN:RMNM大数据所有组件,都是主从架构master-slaveHDFS读写请求都是先到NN节点,但是,HBase读写请求不是经过master,建表和删除表是需要经过masterNN节点挂了,就不能提供对外服务(-put,-get)需要配置两个NN节点(实时的,任何时刻只有一台active对外,另外一台是
【hadoop学习之路】Hive HQL 语句实现查询新世纪debug战士 hadoop学习之路 hive
目录表数据表1students_data.txt表2course.txt实验步骤结论表数据表1students_data.txt21434,Sara,F,21,20,73,classC41443,Mary,M,19,30,90,classA43333,Dery,F,20,40,85,classB45454,Mary,F,22,10,91,classA14634,Henry,M,18,50,56,c
HDFS总结 ChenJieYaYa Hadoop hdfs hadoop big data
基于前面的学习与配置，相信对于HDFS有了一定的了解HDFS概述1.什么是HDFSHadoopDistributedFileSystem：分步式文件系统HDFS是Hadoop体系中数据存储管理的基础HDFS是基于流数据模式访问和处理超大文件的需求而开发的1.流式数据：将数据序列化为字节流来存储，这样不会破坏文件的结构和内容，而且字节流直接存储在磁盘上，可以分片或分块2.当超大规模的文件本身就已经超
11 Spark面试真题 TTXS123456789ABC #Spark spark 面试大数据
11Spark大厂面试真题1.通常来说，Spark与MapReduce相比，Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制？2.hadoop和spark使用场景？3.spark如何保证宕机迅速恢复?4.hadoop和spark的相同点和不同点？5.RDD持久化原理？6.checkpoint检查点机制？7.checkpoint和持久化机制的区别？8.RDD机制理解吗？9.Spa
【详细讲解】hive优化 songqq27 大数据 hive
1、开启本地模式大多数的HadoopJob是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。用户可以通过设置hive.exec.mode.local.auto的值
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
Hadoop错误: put: Lease mismatch on ... by DFSClient_NONMAPREDUCE_-499992815_1.... 学习总结星月情缘02 ETL技术 Hadoop hdfs租约 hadoop错误
错误总结分享:使用了hadoop挺长时间了，多数人应该很熟悉它的特点了吧，但是今天突然遇到个错误，从来没见过，一时自己也想不到是什么原因，就在网上查了一些资料，得到了解决的办法，再次分享一下。过程:使用kettle数据清洗工具在进行同步任务的过程中，最后数据是被加载到hdfs的，这里用shell脚本实现，hdfsdfs-put-r/hdfs的目录。结果程序执行到这一步的时候报错了。错误描述就是文章
Hadoop3.3.4伪分布式环境搭建凡许真分布式 hadoop 伪分布式 hadoop3.3.4
文章目录前言一、准备1.下载Hadoop2.配置环境变量3.配置免密二、Hadoop配置1.hadoop-env.sh2.hdfs-site.xml3.core-site.xml4.mapred-site.xml5.yarn-site.xml三、格式化四、启动五、访问web页面前言hadoop学习——伪分布式环境——普通用户搭建一、准备1.下载Hadoop2.配置环境变量vi~/.bash_pro
Hadoop HA 格式化NameNode 顺序凡许真 hadoop 大数据分布式 HA
文章目录前言一、启动JournalNode二、格式化NameNode1.执行格式化命令2.启动namenode3.执行格式化命令4.启动namenode其他前言记录搭建HadoopHA架构时格式化namenode问题一、启动JournalNode分别启动JournalNode，命令如下hadoop-daemon.shstartjournalnode二、格式化NameNode1.执行格式化命令找其中
Hive存储系统全面测试报告蚂蚁质量软件测试测试用例功能测试
引言在大数据时代，数据存储和处理技术的重要性日益凸显。ApacheHive作为一个基于Hadoop的数据仓库工具，因其能够提供类SQL查询功能（HiveQL）而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理，它允许用户通过简单的SQL语句来操作存储在Hadoop分布式文件系统（HDFS）上的大规模数据集。然而，随着数据量的激增和业务需求的多样化，Hive存储系统的功能、性能和安全性面临
window10下编译hadoop报错：Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7: huangxgc hadoop hadoop windows
Windows10下buildhadoop2.7.3报错：Failedtoexecutegoalorg.apache.maven.plugins:maven-antrun-plugin:1.7:[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-antrun-plugin:1.7:run(dist)onprojecthadoop-hdf
图文详解 MapReduce on YARN Shockang 大数据技术体系大数据 mapreduce yarn
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文权威版本——《Hadoop权威指南第3版》1.作业提交MRrunJob从RM获取新的作业ID作业客户端检査作业的输出说明，计算输入分片并将作业资源(包括作业JAR、配置和分片信息)复制到HDFS。通过调用R
深入MapReduce——从MRv1到Yarn 黄雪超大数据基础 #深入MapReduce mapreduce 大数据 hadoop
引入我们前面篇章有提到，和MapReduce的论文不太一样。在Hadoop1.0实现里，每一个MapReduce的任务并没有一个独立的master进程，而是直接让调度系统承担了所有的worker的master的角色，这就是Hadoop1.0里的JobTracker。在Hadoop1.0里，MapReduce论文里面的worker就是TaskTracker，用来执行map和reduce的任务。而分配
Hadoop学习笔记 --- YARN执行流程与工作原理杨鑫newlfe 数据仓库大数据挖掘与大数据应用案例 YARN Hadoop 大数据资源调度数据仓库
一、YARN简述首先介绍一下YARN在Hadoop2.0版本引进的资源管理系统，直接从MapReduceV1演化而来(由于引擎的功能缺陷)；原因是将MapReduce1中的JobTracker的资源管理和作业调度两个功能分开，分别由ResourceManager和ApplicationMaster进行实现；ResourceManager：负责整个集群的资源管理和调度ApplicationMaste
【深入浅出 Yarn 架构与实现】1-1 设计理念与基本架构大数据王小皮深入浅出Yarn架构与实现架构 hadoop 大数据 yarn java
一、Yarn产生的背景Hadoop2之前是由HDFS和MR组成的，HDFS负责存储，MR负责计算。一）MRv1的问题耦合度高：MR中的jobTracker同时负责资源管理和作业控制两个功能，互相制约。可靠性差：管理节点是单机的，有单点故障的问题。资源利用率低：基于slot的资源分配模型。机器会将资源划分成若干相同大小的slot，并划定哪些是mapslot、哪些是reduceslot。无法支持多种计
【YARN】yarn 基础知识整理——hadoop1.0与hadoop2.0区别、yarn总结时间的美景 Hadoop Yarn hadoop hadoop1 hadoop2 大数据
文章目录1.hadoop1.0和hadoop2.0区别1.1hadoop1.01.1.1HDFS1.1.2Mapreduce1.2hadoop2.01.2.1HDFS1.2.2Yarn/MapReduce22.Yarn2.1Yarn(YetAnotherResourceNegotiator)概述2.2Yarn的优点2.3Yarn重要概念2.3.1ResourceManager2.3.2NodeMa
搭建Hadoop与Hive环境达达玲玲 hadoop hive 大数据
当搭建Hadoop与Hive环境时，以下是每个步骤的详细操作说明：1.安装并配置CentOS7操作系统：-下载CentOS7ISO镜像文件，并通过虚拟机或物理机安装CentOS7操作系统。-在安装过程中，为系统分配必要的网络、用户和权限。2.安装Java开发环境：-下载适合您的系统的JavaJDK版本。-使用命令或GUI工具安装JavaJDK。-配置JAVA_HOME环境变量：-打开终端，输入以下
大数据技术之MapReduce wespten Hadoop Hive Spark 大数据安全大数据 mapreduce hadoop
一、MapReduce概述1、MapReduce简介MapReduce是一个分布式运算程序的编程框架，是基于Hadoop的数据分析计算的核心框架。MapReduce处理过程分为两个阶段：Map和Reduce。Map负责把一个任务分解成多个任务，Reduce负责把分解后多任务处理的结果汇总。2、MapReduce优缺点MapReduce优点：MapReduce易于编程：它简单的实现一些接口，就可以完
anaconda中pyspark_自学大数据——9 Anaconda安装与使用pyspark 步六孤陆
首先从Anaconda官网上下载Anaconda。一、解压安装包sudobashAnaconda3-2020.07-Linux-x86_64.shchown-Rhadoop:hadoop/opt/anaconda/vi/etc/profileexportANACONDA_HOME=/opt/anacondaexportPATH=$PATH:$ANACONDA_HOME/bin:source/etc
PySpark数据处理过程简析 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介PySpark是ApacheSpark的PythonAPI，可以用Python进行分布式数据处理，它在内存中利用了ApacheHadoopYARN资源调度框架对数据进行并行处理。PySpark可以直接使用Hadoop文件系统、HDFS来存储数据，也可以通过S3、GCS、ADLS等云存储平台保存数据。因此，在不同的数据源之间移动数据时，只需要复制一次数据就可以完成
kafka开启kerberos 蘑菇丁 debian 运维
一、基本环境准备创建票据创建Kerberos主体（Principal）：使用kadmin.local或kadmin命令为Zookeeper和Kafka服务创建Kerberos主体。例如：注意有几台机器创建几个kadmin.local-q"addprinc-randkeyzookeeper/[email protected]"kadmin.local-q"addprinc-rand
ranger-kms安装蘑菇丁 eclipse java ide
默认已安装ranger-admin和mysql服务。Ranger组件服务默认都在/opt/bigdata.test/core/ranger目录下安装。解压安装包[hadoop~]$cd/opt/ranger[hadoop@ranger]$tar-xzvfranger-2.1.0-kms.tar.gz[hadoop@xranger]$mvranger-2.1.0-kmsranger/ranger-k
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &