haixwang

Bulk Load——Spark 批量导入多列数据到HBase（scala/Java）

文章目录

一、最终流程
二、使用Put写入
三、批量写入，BulkLoad
四、Java BulkLoad 多列KeyValue（未成功-not Cell）
五、Scala BulkLoad 多列KeyValue（未成功-相同RowKey）
六、Scala BulkLoad Put 预分区
七、补充
八、优化
九、Scala BulkLoad 错误记录
参考

一、最终流程

数据量预估，预分裂 ——> 准备HBase表 ——> Spark加载HDFS上的数据 ——> 数据清洗及排序 ——> 数据以HFile的形式写入HDFS ——> BulkLoad ——> 优化

未优化时，大概1200万条数据/h (10G数据)

二、使用Put写入

参考了很多资料后，猜测使用Put写入，也是Bulk Load，并不只是KeyValue才能批量加载
参考连接
只是Put是以行为单位，KeyValue以列为单位，按理说，应该是KeyValue更快
补充：该问题与我想法相似，追溯源码，到底层仍未看出究竟

import util.HdfsUtils
import org.apache.log4j.Logger
import org.slf4j.LoggerFactory
import org.apache.hadoop.hbase.client.{Put, Result}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
import org.apache.hadoop.mapreduce.Job
import org.apache.log4j.Level
import org.apache.spark.{SparkConf, SparkContext}

import scala.util.matching.Regex

/**
  * write data to HBase by 'Put'
  * Date: 2019-04-29
  * Time: 17:13
  * Author: wh
  * Version: V1.0.0
  */
class HBaseTest {

}

object CleanToHBase {
  private val PARTTERN: Regex = """。。。。。。""".r
  private val LOG = LoggerFactory.getLogger(classOf[HBaseTest])
  private val HdfsFilePath = HdfsUtils.HDFS_SCHEME + "。。。。。。"
  private final val NULL_FIELDS = Array("-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-")
  private val NUM_FIELDS: Int = 17


  /**
    * 解析输入的日志数据
    *
    * @param line logline
    * @return
    */
  def logLineSplit(line: String): Array[String] = {
    val options = PARTTERN.findFirstMatchIn(line)
    var fileds = new Array[String](NUM_FIELDS)
    // 。。。。。。清洗逻辑
    fileds
  }

  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

    LOG.info("Start.")
    val startTime: Long = System.currentTimeMillis()

    // 1. Spark清洗
    val sparkConf = new SparkConf().setAppName("Put to HBase test").setMaster("local")
    val sc = new SparkContext(sparkConf)
    var logRDD = sc.textFile(HdfsFilePath, 12)
    val splitRDD = logRDD.map(line => logLineSplit(line))


    // 2. HBase 信息
    val tableName = "bdTest2"
    val familyName = Bytes.toBytes("infos")

    // 3. HBase MapReduce Bulk Job
    sc.hadoopConfiguration.set("hbase.zookeeper.quorum", "cluster")
    sc.hadoopConfiguration.set("hbase.zookeeper.property.clientPort", "2181")
    sc.hadoopConfiguration.set(TableOutputFormat.OUTPUT_TABLE, tableName)

    val hbaseBulkJob = Job.getInstance(sc.hadoopConfiguration)
    hbaseBulkJob.setOutputKeyClass(classOf[ImmutableBytesWritable])
    hbaseBulkJob.setOutputValueClass(classOf[Result])
    hbaseBulkJob.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])

    var i = 0
    // 4. write data to HBase
    val hbasePuts = splitRDD.map{ line =>
      val put = new Put(Bytes.toBytes("row-" + System.nanoTime())) // 测试用
      put.addColumn(familyName, Bytes.toBytes("column name"), Bytes.toBytes(line(1)))
      put.addColumn(familyName, Bytes.toBytes("column name"), Bytes.toBytes(line(2)))
      // 。。。。。。other column
      (new ImmutableBytesWritable(), put)
    }
    hbasePuts.saveAsNewAPIHadoopDataset(hbaseBulkJob.getConfiguration)
    LOG.info("Done.")
    LOG.info("Time elapsed {} seconds.", (System.currentTimeMillis() - startTime) / 1000)
    sc.stop()
  }
}

注意以下区别，网上很多人，set了class又在save的时候传class，想想就知道，肯定有多余的啊：

三、批量写入，BulkLoad

找了大量资料，看了国内外很多文章，几乎都是KeyValue一个Cell写来写去
批量写入的优势：

数据可立即供HBase使用
不使用预写日志（WAL），不会出现flush和split（未验证）
更少的垃圾回收
The bulk load feature uses a MapReduce job to output table data in HBase’s internal data format, and then directly loads the generated StoreFiles into a running cluster. Using bulk load will use less CPU and network resources than simply using the HBase API.

BulkLoad操作则是在外部以MapReduce作业的方式写HFile格式的文件，然后放入HDFS，再通知“HBase”来管理这些数据**
参考1
参考2
参考3
参考4

一般过程包括：

估计数据的总大小，并确定HBase中的最佳region数
创建于的空表，预分裂，为避免冷热数据，考虑对行键加盐
在Spark中使用简单的自定义分区程序来拆分RDD，以匹配目标region拆分
使用Spark和标准Hadoop库生成HFile
使用标准HBase命令行批量加载工具（或代码）将数据加载到HBase中

四、Java BulkLoad 多列KeyValue（未成功-not Cell）

package core;

/*
 * It's not work, for List to Cell, see {@code BulkLoadToHBase.scala}
 * Date: 2019-04-30
 * Time: 下午3:38
 * Author: wh
 * Version: V1.0.0
 */
import util.HdfsUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapred.TableOutputFormat;
import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2;
import org.apache.hadoop.hbase.tool.LoadIncrementalHFiles;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.fs.Path;
import org.apache.log4j.Level;
import org.apache.log4j.Logger;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.PairFunction;
import org.slf4j.LoggerFactory;
import scala.Tuple2;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class CleanToHBase {
    private static final org.slf4j.Logger LOG = LoggerFactory.getLogger(CleanToHBase.class);
    public static final int NUM_FIELDS = 17;
    //    public static long CURSOR = 0; TODO 累加器
    private static final String LOG_ENTRY_PATTERN = "。。。。。。";
    private static final Pattern PATTERN = Pattern.compile(LOG_ENTRY_PATTERN);
    private static final String HdfsFilePath = HdfsUtils.HDFS_SCHEME + "。。。。。。";
    private static final String TABLE_NAME = "tableName";

    public static String[] logLineSplit(String line) {
        Matcher matcher = PATTERN.matcher(line);
        String[] fileds = new String[NUM_FIELDS];
        int i = 0;

        if (!matcher.matches() || NUM_FIELDS != matcher.groupCount()) {
            LOG.error("Bad options or bad length =============》");
            LOG.info(line);
            for (String s : fileds) fileds[i++] = "-";
            return fileds;
        }
        for (; i < NUM_FIELDS; i++) {
            fileds[i] = matcher.group(i);
        }
        return fileds;
    }

    public static void main(String[] args) throws IOException {
        Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN);
        Logger.getLogger("org.apache.spark").setLevel(Level.WARN);

        LOG.info("Start.");
        long startTime = System.currentTimeMillis();
        System.setProperty("HADOOP_USER_NAME", "hdfs");

        // 1. Spark清洗
        SparkConf conf = new SparkConf().setAppName("Log clean to HBase").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<String> lines = sc.textFile(HdfsFilePath);
        JavaRDD<String[]> filedsRDD = lines.map(CleanToHBase::logLineSplit);

        // 2. HBase 信息
        TableName tableName = TableName.valueOf(TABLE_NAME);
        byte[] familyName = Bytes.toBytes("infos");

        // 3. HBase MapReduce Bulk Load Job
        Configuration hbConf = HBaseConfiguration.create();
        hbConf.set("hbase.zookeeper.quorum", "cluster");
        hbConf.set("hbase.zookeeper.property.clientPort", "2181");
        hbConf.set(TableOutputFormat.OUTPUT_TABLE, TABLE_NAME);

        Connection connection = ConnectionFactory.createConnection(hbConf);
        Table table = connection.getTable(tableName);

        Job hbaseBulkJob = Job.getInstance(hbConf);
//        hbaseBulkJob.setMapOutputKeyClass(ImmutableBytesWritable.class);
//        hbaseBulkJob.setMapOutputValueClass(Put.class);
//        hbaseBulkJob.setOutputFormatClass(HFileOutputFormat2.class);
        hbaseBulkJob.setJarByClass(CleanToHBase.class);
        // HFile 设置
        RegionLocator regionLocator = connection.getRegionLocator(tableName);
        HFileOutputFormat2.configureIncrementalLoad(hbaseBulkJob, table, regionLocator);

        // 4. Prepare for HFile Put
        JavaPairRDD<ImmutableBytesWritable, List<Tuple2<ImmutableBytesWritable, KeyValue>>> hbasePutsRDD = filedsRDD.mapToPair((PairFunction<String[], ImmutableBytesWritable, List<Tuple2<ImmutableBytesWritable, KeyValue>>>) line -> {
            // row key: TODO 优化
            List<Tuple2<ImmutableBytesWritable, KeyValue>> keyValueList = new ArrayList<>();
            byte[] rowkey = Bytes.toBytes(line[0].hashCode() + String.valueOf(System.currentTimeMillis()));
            ImmutableBytesWritable writable = new ImmutableBytesWritable(rowkey);
            keyValueList.add(new Tuple2<>(writable, new KeyValue(rowkey, familyName, Bytes.toBytes("column name"), Bytes.toBytes(line[0]))));
            keyValueList.add(new Tuple2<>(writable, new KeyValue(rowkey, familyName, Bytes.toBytes("column name"), Bytes.toBytes(line[1]))));
			// other column
            // TODO List to Cell and sort
            return new Tuple2<>(writable, keyValueList);
        });

        // 5. store HFile
        String temp = "/tmp/hbase/" + TABLE_NAME + "_" + System.currentTimeMillis();
        hbasePutsRDD.saveAsNewAPIHadoopFile(temp, ImmutableBytesWritable.class, List.class, HFileOutputFormat2.class, hbaseBulkJob.getConfiguration());

        LoadIncrementalHFiles bulkLoader = new LoadIncrementalHFiles(hbConf);
        Admin admin = connection.getAdmin();

        // 6. Bulk load to HBase
        bulkLoader.doBulkLoad(new Path(temp), admin, table, regionLocator);
        LOG.info("Done. Time elapsed {} seconds.", (System.currentTimeMillis() - startTime) / 1000);
        sc.stop();
    }
}

五、Scala BulkLoad 多列KeyValue（未成功-相同RowKey）

package core

import org.apache.hadoop.fs.Path
import org.apache.hadoop.hbase.client._
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2
import org.apache.hadoop.hbase.tool.LoadIncrementalHFiles
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.hbase.{HBaseConfiguration, KeyValue, TableName}
import org.apache.hadoop.mapreduce.Job
import org.apache.log4j.{Level, Logger}
import org.apache.spark.{Partitioner, SparkConf, SparkContext}
import org.slf4j.LoggerFactory
import util.HdfsUtils

import scala.util.matching.Regex

/**
  * Date: 2019-05-05
  * Time: 10:54
  * Author: wh
  * Version: V1.0.0
  */
class BulkLoadToHBase {

}

object BulkLoad {
  private val PARTTERN: Regex = """......""".r
  private val LOG = LoggerFactory.getLogger(classOf[BulkLoadToHBase])
  private val NUM_FIELDS: Int = 17
  private val MODULUS: Int = 5
  private final val NULL_FIELDS = ("-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-")
  private final val COL_NAME = Array(......)
  private val HdfsFilePath = HdfsUtils.HDFS_SCHEME + "......"
  private val TABLE_NAME = "table name"
  private val FAMILY_NAME = "infos".getBytes()

  /**
    * 正则拆解输入的日志数据
    *
    * @param line logline
    * @return
    */
  def logLineSplit(line: String): (String, String, String, String, String, String, String, String, String, String, String, String, String, String, String, String, String) = {
    val options = PARTTERN.findFirstMatchIn(line)

    // 匹配失败
    if (options.isEmpty) {
      LOG.error("Bad log, no options =============》")
      LOG.info(line)
      NULL_FIELDS
    }
    else {
      val m = options.get
      if (NUM_FIELDS != m.groupCount) {
        LOG.error("Bad length {} =============》", m.groupCount)
        LOG.info(line)
        NULL_FIELDS
      }
      else {
        (m.group(1), m.group(2), m.group(3), m.group(4), m.group(5), m.group(6), m.group(7), m.group(8), m.group(9), m.group(10), m.group(11), m.group(12), m.group(13), m.group(14), m.group(15), m.group(16), m.group(17))
      }
    }
  }

  def salt(key: String, modulus: Int): String = {
    val saltAsInt = Math.abs(key.hashCode) % modulus

    // left pad with 0's (for readability of keys)
    val charsInSalt = digitsRequired(modulus)
    ("%0" + charsInSalt + "d").format(saltAsInt) + ":" + key
  }

  // number of characters required to encode the modulus in chars (01,02.. etc)
  def digitsRequired(modulus: Int): Int = {
    (Math.log10(modulus - 1) + 1).asInstanceOf[Int]
  }

  // A partitioner that puts data destined for the same HBase region together
  class SaltPrefixPartitioner[K, V](modulus: Int) extends Partitioner {
    val charsInSalt: Int = digitsRequired(modulus)

    override def getPartition(key: Any): Int = {
      key.toString.substring(0, charsInSalt).toInt
    }

    override def numPartitions: Int = modulus
  }

  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    System.setProperty("user.name", "hdfs")
    System.setProperty("HADOOP_USER_NAME", "hdfs")

    LOG.info("Start.")
    val startTime: Long = System.currentTimeMillis()

    // 1. data clean by Spark
    val sparkConf = new SparkConf().setAppName("Log clean to HBase").setMaster("local")
    sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    sparkConf.registerKryoClasses(Array(classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable]))
    val sc = new SparkContext(sparkConf)

    var logRDD = sc.textFile(HdfsFilePath, 24)
    val splitRDD = logRDD.map(line => logLineSplit(line))
    // prepare for KeyValue
    val beforeCellsRDD = splitRDD.flatMap(x => {
      val rowKey = salt(x._1, MODULUS)
      for (i <- 0 until NUM_FIELDS) yield {
        val colName = COL_NAME(i)
        val colValue = x.productElement(i)
        (rowKey, (colName, colValue))
      }
    })
    // cells of data for HBase
    val cellsRDD = beforeCellsRDD.map(x => {
      val rowKey = x._1.getBytes()

      val kv = new KeyValue(
        rowKey,
        FAMILY_NAME,
        x._2._1.toString.getBytes(),
        x._2._2.toString.getBytes()
      )
      (new ImmutableBytesWritable(rowKey), kv)
    })
    // repartition and sort the data - HFiles want sorted data
    val partitionedRDD = cellsRDD.repartitionAndSortWithinPartitions(new SaltPrefixPartitioner(MODULUS))

    // 2. HBase MapReduce Bulk Load Job
    val hbConf = HBaseConfiguration.create()
    hbConf.set("hbase.zookeeper.quorum", "node5,node6,node7,node8")
    hbConf.set("hbase.zookeeper.property.clientPort", "2181")
    hbConf.set("hbase.mapreduce.hfileoutputformat.table.name", TABLE_NAME)

    val connection = ConnectionFactory.createConnection(hbConf)
    val tableName = TableName.valueOf(TABLE_NAME)
    val table = connection.getTable(tableName)

    val hbaseBulkJob = Job.getInstance(hbConf, "HFile Bulk Load Job")

    // 3. HFile config, Bulk load to HBase directly
    val regionLocator = connection.getRegionLocator(tableName)
    HFileOutputFormat2.configureIncrementalLoad(hbaseBulkJob, table.getDescriptor, regionLocator)
    hbaseBulkJob.setMapOutputKeyClass(classOf[ImmutableBytesWritable])
    hbaseBulkJob.setMapOutputValueClass(classOf[KeyValue])
    hbaseBulkJob.setOutputFormatClass(classOf[HFileOutputFormat2])
    //    hbaseBulkJob.setJarByClass(classOf[JavaCleanToHBase])
    val hfileOutPath = "/tmp/hbase/" + TABLE_NAME + "_" + System.currentTimeMillis()
    hbaseBulkJob.getConfiguration.set("mapred.output.dir", hfileOutPath)
    partitionedRDD.saveAsNewAPIHadoopDataset(hbaseBulkJob.getConfiguration)
    //    partitionedRDD.saveAsNewAPIHadoopFile(
    //      hfileOutPath,
    //      classOf[ImmutableBytesWritable],
    //      classOf[Put],
    //      classOf[HFileOutputFormat2],
    //      hbaseBulkJob.getConfiguration)

    // 4. Bulk load to HBase
    //    val bulkLoader = new LoadIncrementalHFiles(hbConf)
    //    val admin = connection.getAdmin
    //    bulkLoader.doBulkLoad(new Path(hfileOutPath), admin, table, regionLocator)
    LOG.info("Done. Time elapsed {} seconds.", (System.currentTimeMillis - startTime) / 1000)
    sc.stop()
  }
}

六、Scala BulkLoad Put 预分区

package core

import org.apache.hadoop.hbase.{HBaseConfiguration, KeyValue, TableName}
import org.apache.hadoop.hbase.client.{ConnectionFactory, Put, Result}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.{HFileOutputFormat2, TableOutputFormat}
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.mapreduce.Job
import org.apache.log4j.{Level, Logger}
import org.apache.spark.{Partitioner, SparkConf, SparkContext}
import org.slf4j.LoggerFactory
import util.HdfsUtils

import scala.util.matching.Regex

/**
  * Date: 2019-05-06
  * Time: 15:33
  * Author: wh
  * Version: V1.0.0
  */
class BulkLoadToHBasePut {

}
object BulkLoadPut {
  private val PARTTERN: Regex = """......""".r
  private val LOG = LoggerFactory.getLogger(classOf[BulkLoadToHBase])
  private val NUM_FIELDS: Int = 17
  private val MODULUS: Int = 5
  private final val NULL_FIELDS = ("-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-", "-")
  private final val COL_NAME = Array(......)
  private val HdfsFilePath = HdfsUtils.HDFS_SCHEME + "......"
  private val TABLE_NAME = "table name"
  private val FAMILY_NAME = "infos".getBytes()

  /**
    * 正则拆解输入的日志数据
    *
    * @param line logline
    * @return
    */
  def logLineSplit(line: String): (String, String, String, String, String, String, String, String, String, String, String, String, String, String, String, String, String) = {
    val options = PARTTERN.findFirstMatchIn(line)

    // 匹配失败
    if (options.isEmpty) {
      LOG.error("Bad log, no options =============》")
      LOG.info(line)
      NULL_FIELDS
    }
    else {
      val m = options.get
      if (NUM_FIELDS != m.groupCount) {
        LOG.error("Bad length {} =============》", m.groupCount)
        LOG.info(line)
        NULL_FIELDS
      }
      else {
        (m.group(1), m.group(2), m.group(3), m.group(4), m.group(5), m.group(6), m.group(7), m.group(8), m.group(9), m.group(10), m.group(11), m.group(12), m.group(13), m.group(14), m.group(15), m.group(16), m.group(17))
      }
    }
  }

  def salt(key: String, modulus: Int): String = {
    val saltAsInt = Math.abs(key.hashCode) % modulus

    // left pad with 0's (for readability of keys)
    val charsInSalt = digitsRequired(modulus)
    ("%0" + charsInSalt + "d").format(saltAsInt) + ":" + key + ":" + System.nanoTime().toString.substring(8, 13)
  }

  // number of characters required to encode the modulus in chars (01,02.. etc)
  def digitsRequired(modulus: Int): Int = {
    (Math.log10(modulus - 1) + 1).asInstanceOf[Int]
  }

  // A partitioner that puts data destined for the same HBase region together
  class SaltPrefixPartitioner[K, V](modulus: Int) extends Partitioner {
    val charsInSalt: Int = digitsRequired(modulus)

    override def getPartition(key: Any): Int = {
      key.toString.substring(0, charsInSalt).toInt
    }

    override def numPartitions: Int = modulus
  }

  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    System.setProperty("user.name", "hdfs")
    System.setProperty("HADOOP_USER_NAME", "hdfs")

    LOG.info("Start.")
    val startTime: Long = System.currentTimeMillis()

    // 1. data clean by Spark
    val sparkConf = new SparkConf().setAppName("Log clean to HBase").setMaster("local")
    sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    sparkConf.registerKryoClasses(Array(classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable]))
    val sc = new SparkContext(sparkConf)

    var logRDD = sc.textFile(HdfsFilePath, 24)
    val splitRDD = logRDD.map(line => logLineSplit(line))
    val putsRDD = splitRDD.map{ line =>
      val rowKey = salt(line._1, MODULUS).getBytes()
      val put = new Put(rowKey)
      for (i <- 0 until NUM_FIELDS) {
        val colName = COL_NAME(i).getBytes()
        val colValue = line.productElement(i).toString.getBytes()
        put.addColumn(FAMILY_NAME, colName, colValue)
      }
      (new ImmutableBytesWritable(rowKey), put)
    }
    val partitionedRDD = putsRDD.repartitionAndSortWithinPartitions(new SaltPrefixPartitioner(MODULUS))

    // 2. HBase MapReduce Bulk Load Job
    sc.hadoopConfiguration.set("hbase.zookeeper.quorum", "node5,node6,node7,node8")
    sc.hadoopConfiguration.set("hbase.zookeeper.property.clientPort", "2181")
    sc.hadoopConfiguration.set(TableOutputFormat.OUTPUT_TABLE, TABLE_NAME)

    val hbaseBulkJob = Job.getInstance(sc.hadoopConfiguration)
    hbaseBulkJob.setOutputKeyClass(classOf[ImmutableBytesWritable])
    hbaseBulkJob.setOutputValueClass(classOf[Result])
    hbaseBulkJob.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])
    val hfileOutPath = "/tmp/hbase/" + TABLE_NAME + "_" + System.currentTimeMillis()
    hbaseBulkJob.getConfiguration.set("mapred.output.dir", hfileOutPath)
    partitionedRDD.saveAsNewAPIHadoopDataset(hbaseBulkJob.getConfiguration)
    //    partitionedRDD.saveAsNewAPIHadoopFile(
    //      hfileOutPath,
    //      classOf[ImmutableBytesWritable],
    //      classOf[Put],
    //      classOf[HFileOutputFormat2],
    //      hbaseBulkJob.getConfiguration)

    // 4. Bulk load to HBase
    //    val bulkLoader = new LoadIncrementalHFiles(hbConf)
    //    val admin = connection.getAdmin
    //    bulkLoader.doBulkLoad(new Path(hfileOutPath), admin, table, regionLocator)
    LOG.info("Done. Time elapsed {} seconds.", (System.currentTimeMillis - startTime) / 1000)
    sc.stop()
  }
}

七、补充

预分区

HBase默认建表时有一个region，这个region的rowkey是没有边界的，即没有startkey和endkey.
数据会先写入内存，达到MemStore阈值后落磁盘为HFile（StoreFile），HFile数量达到阈值又会触发compact操作，HFile越来越大，超过阈值后split，频繁的region split会消耗宝贵的集群I/O资源
基于此，我们可以控制在建表的时候，创建多个空region，并确定每个region的起始和终止rowky，剩下的就是良好的rowkey设计了

估算分区数量
重写分区器

    // A partitioner that puts data destined for the same HBase region together
    class SaltPrefixPartitioner[K,V](modulus: Int) extends Partitioner {
      val charsInSalt: Int = digitsRequired(modulus)
      override def getPartition(key: Any): Int = {
        key.toString.substring(0,charsInSalt).toInt
      }
      override def numPartitions: Int = modulus
    }

hmaster的10610端口可查看regin信息

八、优化

九、Scala BulkLoad 错误记录

问题：hbase.mapreduce.hfileoutputformat.table.name cannot be empty:
查看源码得知：

解决：

    hbConf.set(TableOutputFormat.OUTPUT_TABLE, TABLE_NAME)

问题：Added a key not lexically larger than previous
排序的问题
**解决：**重写分区器并调用repartitionAndSortWithinPartitions(somePartitions)
问题： object not serializable (class: org.apache.hadoop.hbase.io.ImmutableBytesWritable
解决：

val sparkConf = new SparkConf().setAppName("Log clean to HBase").setMaster("local")
sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
sparkConf.registerKryoClasses(Array(classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable]))
val sc = new SparkContext(sparkConf)

问题： Added a key not lexically larger than previous，查看日志，发觉重复写入数据
解决： 使用一条数据进行测试，依然出现该问题，debug发现:
正则的group(0)是字符串本身，下标从1开始，才是我们想要的
问题依然存在： 貌似一行拆分成多列后，每次写入的RowKey相同导致了错误

参考

Put也是BulkLoad吧？
BulkLoad 1
BulkLoad 2
BulkLoad 3
BulkLoad 4
3 Steps for Bulk Loading 1M Records in 20 Seconds Into Apache Phoenix
Efficient bulk load of HBase using Spark
BulkLoad 代码借鉴
HBase clientAPI基本操作
Spark通过bulkLoad对HBase快速导入
object not serializable (class: org.apache.hadoop.hbase.io.ImmutableBytesWritable)

python操作HBase 王壮_ 大数据 Python hbase 数据库大数据
1.安装happybase和thriftpipinstallhappybasepipinstallthrift2.启动hbase的thrift进程，并指定端口9090hbase-daemon.shstartthrift-p90903.操作HBaseimporthappybaseconnection=happybase.Connection(host='hadoop10',port=9090)tab
HBase伪分布式安装配置流程 TheMountainGhost hbase 数据库大数据
要配置HBase的伪分布式模式，以下是详细的操作步骤，确保每一步都执行准确。1.准备工作确保已经安装并配置好了Hadoop（伪分布式），因为HBase依赖HDFS。Hadoop已经配置并能够正常运行。Java已经安装并配置好了环境变量。SSH配置免密登录（通常在Hadoop环境中已配置）。2.下载并解压HBase下载HBase安装包并解压到你想要的目录：tar-zxvfhbase-2.4.18-b
Scala简介醉游江湖 scala
hadoop生态圈—>javaspark生态圈—>scala1.scala是面向对象的、面向函数的基于静态类型的编程语言。静态语言（强类型语言）静态语言是在编译时变量的数据类型即可确定的语言，多数静态类型语言要求在使用变量之前必须声明数据类型。例如：C++、Java、Delphi、C#,Scala等。scala编译后是字节码文件可以调用java源有的库动态语言（弱类型语言）动态语言是在运行时确定数
spark官方配置参数详解我丶怀念的 spark scala d s
以下是整理的Spark中的一些配置参数，官方文档请参考SparkConfiguration。Spark提供三个位置用来配置系统：Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志配置：可以通过log4j.properties配置Spark属性Spark属性
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明 BigDataMLApplication spark spark 大数据分布式
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明点击这里看全文文章目录添加其他JAR文件准备工作配置调试应用程序Spark属性重要说明KerberosYARN特定的Kerberos配置Kerberos故障排除配置外部Shuffle服务使用ApacheOozie启动应用程序使用Spark历史服务器替代SparkWebUI官网链接确保HADOOP_CONF_DIR或者YARN_C
xgboost在spark集群使用指南一颗小草333 算法 mapreduce spark 数据挖掘
简介XGBoost是一个优化的分布式梯度增强库，具有高效、灵活和可移植性。在梯度增强框架下实现了机器学习算法。XGBoost提供了一种并行树增强(也称为GBDT、GBM)，可以快速、准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop、SGE、MPI)上运行，可以解决数十亿个示例的训练问题。xgb相对于gbt所做的改进：1.2.3.XGBoost可以使用R、python、java
解决Python中libhdfs.so的共享库找不到的问题 code_welike python 开发语言 Python
解决Python中libhdfs.so的共享库找不到的问题在Python开发过程中，有时会遇到导入共享库时出现"ImportError:Cannotfindthesharedlibrary:libhdfs.so"的错误。这个错误通常发生在使用Python访问Hadoop分布式文件系统（HadoopDistributedFileSystem，简称HDFS）时，由于缺少libhdfs.so共享库文件而
性能优化案例：通过合理设置spark.default.parallelism参数的值来优化PySpark程序的性能 weixin_30777913 大数据 spark python
在PySpark中，spark.default.parallelism是一个关键参数，直接影响作业的并行度和资源利用率。通过合理设置spark.default.parallelism并结合数据特征调整，可显著提升PySpark作业的并行效率和资源利用率。建议在开发和生产环境中进行多轮基准测试以确定最优值。以下是如何通过调整此参数优化性能的详细说明，结合案例和最佳实践：1.参数作用与问题场景参数意义
性能优化案例：通过合理设置spark.storage.memoryFraction参数的值来优化PySpark程序的性能 weixin_30777913 python 大数据 spark
优化PySpark程序的性能时，合理设置spark.storage.memoryFraction（或相关内存参数）是关键。合理设置spark.storage.memoryFraction需结合任务类型和内存使用监控。对于缓存密集型任务，适当提高存储内存比例；对于Shuffle密集型任务，优先保障执行内存。新版本Spark的动态内存机制简化了调优，但手动干预在极端场景下仍有效。最终需通过反复测试验证
转：Spark RDD算子练习题爱萨萨技术-大数据 spark RDD 练习
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.csdn.net/qq_40825218/article/details/83720732给定数据如下：12张三25男chinese5012张三25男math6012张三25男english7012李四20男chinese5012李四20男math5012李四20男e
spark sql的练习题 a大数据yyds spark spark
1、使用StructuredStreaming读取Socket数据，把单词和单词的反转组成json格式写入到当前目录中的file文件夹中2、请使用StructuredStreaming读取student_info文件夹写的csv文件，2.1、统计出文件中的男女生各有多少人2.2、统计出姓“王”男生和女生的各有多少人3、请使用StructuredStreaming读取department_info文
Spark>sql练习题 BigMoM1573 Spark spark
练习题-------------------------------以下使用StructuredStreaming：-------------------------------1、请使用StructuredStreaming读取Socket数据，统计出每个单词的个数2、请使用StructuredStreaming读取student_info文件夹写的csv文件，2.1、统计出文件中的男女生各有多
《Spark大数据分析与内存计算》——第三章阿万古课程作业 spark 数据分析大数据
第三章作业及答案快捷查找：Ctrl+F在搜索框中输入题目一.单选题（共17题）1.(单选题)并不是所有企业都能自己产生数据，从而用于决策辅助，而更多的互联网企业如电商等大部分是要靠什么来抓取互联网数据进行分析A.HadoopB.pythonC.SparkD.网路爬虫正确答案:D:网路爬虫;2.(单选题)什么负责即席查询的应用A.MLlibB.SparkStreamingC.GraphXD.Spar
PySpark之金融数据分析（Spark RDD、SQL练习题）唯余木叶下弦声大数据大数据 spark pyspark python 数据分析 sql
目录一、数据来源二、PySparkRDD编程1、查询特定日期的资金流入和流出情况2、活跃用户分析三、PySparkSQL编程1、按城市统计2014年3月1日的平均余额2、统计每个城市总流量前3高的用户四、总结一、数据来源本文使用的数据来源于天池大赛数据集，由蚂蚁金服提供，包含用户基本信息、申购赎回记录、收益率、银行间拆借利率等多个维度，本文通过PySpark实现对该数据集的简单分析。数据来源：天池
Hive数据仓库中的数据导出到MySQL的数据表不成功 sin2201 出错问题数据仓库 hive mysql
可能的原因：(1)没有下载flume和sqoop(2)权限问题：因为MySQL数据库拒绝了root用户从hadoop3主机的连接请求，root用户没有从hadoop3主机进行连接的权限解决：通过MySQL的授权命令来授予权限mysql>GRANTALLPRIVILEGESONsqoop_weblog.*TO'root'@'hadoop3'IDENTIFIEDBY'2020';QueryOK,0ro
探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
用 Docker 搭建 Spark 集群 yeasy Bigdata Docker spark Docker 云计算集群分布式计算
简介Spark是Berkeley开发的分布式计算的框架，相对于Hadoop来说，Spark可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。熟悉Hadoop的同学也不必担心，Spark很多设计理念和用法都跟Hadoop保持一致和相似，并且在使用上完全兼容HDFS。但是Spark的安装并不容易，依赖包括Java、Scala、HDFS等。通过使用Docker，可以快速的在本地
Apache Flink 替换 Spark Stream的架构与实践( bilibili 案例解读)_streamsparkflink加载udf 2501_90243308 apache flink spark
3.基于ApacheFlink的流式计算平台为解决上述问题，bilibili希望根据以下三点要求构建基于ApacheFlink的流式计算平台。第一点，需要提供SQL化编程。bilibili对SQL进行了扩展，称为BSQL。BSQL扩展了Flink底层SQL的上层，即SQL语法层。**第二点，**DAG拖拽编程,一方面用户可以通过画板来构建自己的Pipeline，另一方面用户也可以使用原生Jar方式
不同hive集群中基于表的数据一致性比对 AA赵师傅 hadoop数据管理 hive 数据验证数据迁移 hadoop
前阵子博主遇到一个需求，因对hadoop集群进行数据迁移，数据迁移完毕后进行两个hive库的数据一致性的比对，不仅对源表数据进行比对，而且要同时使用两个集群加工相同数据，对加工后的数据进行数据一致性比对。博主已知的数据迁移方法有两种，第一种就是hadoopdistcp功能来进行集群间数据的复制，那么基本就不用做源表的数据验证了，集群间数据复制失败会报错提示。第二种方法就是数据的导入导出了，把原集群
Hadoop、Hive、Hbase集群间的数据迁移这个操蛋的人生！！！
一、hadoop集群间拷贝数据：迁移之前需要把两个集群的所有节点都互通/etc/hosts文件（重要，包括各个数据节点）两个集群版本不相同hadoopdistcphftp://192.168.57.73:50070/hive3/20171008/hive3/如果两个集群的版本相同，则可以使用hdfs协议，命令如下：hadoopdistcphdfs://namenodeip:9000/foohdfs
Hive面试题汇总大数据侠客 hive相关问题汇总及解决 hive hadoop 数据仓库面试
Hive定义Hive是建立在Hadoop上的数据仓库基础构架。可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种
CDH大数据平台梦龙zmc 大数据大数据
CDH概念CDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的核心元素-可伸缩存储和分布式计算-以及基于web的用户界面和重要的企业功能。CDH是Apache许可的开放源码，是唯一
免费AI大模型API汇总（非常详细），零基础入门到精通，看这一篇就够了大模型扬叔人工智能免费AI大模型API汇总大模型
前言一、免费大模型API一览大模型免费版本免费限制控制台（api_key等）讯飞星火大模型spark-litetokens：总量无限；QPS：2；(每秒发送的请求数)有效期：不限访问链接百度千帆大模型平台ERNIE-Speed-8KRPM=300，TPM=300000（RPM是每分钟请求数（RequestsPerMinute），TPM是指每分钟处理的tokens数量）访问链接ERNIE-Speed
用 Java 的思路快速学习 Scala 进朱者赤其他大数据 scala Scala
引言Scala是一种结合了面向对象和函数式编程的现代编程语言，广泛应用于大数据处理框架如ApacheSpark和ApacheFlink。对于熟悉Java的开发者来说，Scala的学习曲线相对平缓。本文将通过类比Java中的概念，帮助Java开发者快速上手Scala。1.基本语法1.1.数据类型以下是Scala和Java数据类型的汇总表格：Scala数据类型Java数据类型说明Intint32位整数
【Spark】Spark Join类型及Join实现方式 DataCrafter Spark 大数据计算框架 spark 大数据分布式
如果觉得这篇文章对您有帮助，别忘了点赞、分享或关注哦！您的一点小小支持，不仅能帮助更多人找到有价值的内容，还能鼓励我持续分享更多精彩的技术文章。感谢您的支持，让我们一起在技术的世界中不断进步！SparkJoin类型1.InnerJoin(内连接)示例：valresult=df1.join(df2,df1("id")===df2("id"),"inner")执行逻辑：只返回那些在两个表中都有匹配的行
Spark运行模式及Spark on Yarn两种运行模式的区别 DataCrafter Spark 大数据计算框架 spark 大数据
如果觉得这篇文章对您有帮助，别忘了点赞、分享或关注哦！您的一点小小支持，不仅能帮助更多人找到有价值的内容，还能鼓励我持续分享更多精彩的技术文章。感谢您的支持，让我们一起在技术的世界中不断进步！Spark运行模式1.Standalone模式描述：Standalone模式是Spark的独立集群模式，Spark自己管理资源和调度任务。适合小型集群或个人开发环境。特点：简单易用，适合开发和测试。不依赖外部
【大数据入门核心技术-Hive】（十六）hive表加载csv格式数据或者json格式数据 forest_long 大数据技术入门到21天通关大数据 hive hadoop 开发语言后端数据仓库
一、环境准备hive安装部署参考：【大数据入门核心技术-Hive】（三）Hive3.1.2非高可用集群搭建【大数据入门核心技术-Hive】（四）Hive3.1.2高可用集群搭建二、hive加载Json格式数据1、数据准备vistu.json[{"id":111,"name":"name111"},{"id":222,"name":"name22"}]上传到hdfshadoopfs-putstu.j
TiDB架构特性 #TiDB TiDB
文章目录TiDB整体架构TiDBServerPDServerTiKVServerTiSparkTiDBOperatorTiDB核心特性水平扩展高可用TiDB存储和计算能力存储能力-TiKV-LSM计算能力-TiDBServer总结TiDB整体架构 TiDB集群主要包括三个核心组件：TiDBServer，PDServer和TiKVServer。此外，还有用于解决用户复杂OLAP需求的TiSpark
大数据学习（七）Python3操作livy（使用pylivy模块）猪笨是念来过倒大数据大数据 python
Livy是一个用于与Spark交互的开源REST接口。pylivy是Livy的Python客户端，可以在Spark集群上轻松实现远程代码执行。安装$pipinstall-Ulivy请注意，pylivy需要Python3.6或更高版本。用法所述LivySession类的主界面提供由pylivy：from
cascading 入门（一） zhumin726
1cascading是什么cascading是一个架构在Hadoop上的API，用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置来快速开发复杂分布式的应用，而不用考虑背后的MapReduce。Cascading目前依赖于Hadoop提供存储和执行架构，但是CascadingAPI为开发者隔离了Hadoop的技术细节，提供了不需要改变初始流程工作流定义就可以在不同的计算框架内运行的能力。
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &