Lee_Yuanyuan

Spark Core笔记

Spark

一、What is Spark

Apache Spark is a fast and general engine for large-scale data processing

二、Spark框架优势

数据结构：RDD，用于存储和管理数据

DAG 调度
Spark 中每个Job运行的调度都是DAG调度
DAG：有向无环图
计算过程中中间结果临时数据（RDD）
保存在内存中（除去产生Shuffle的RDD）

三、Ways to run Spark

Local Mode
Spark Standalone
Hadoop Yarn
Apache Mesos

1、大家喜欢Spark编程，如下四个方面：

代码：
- 很少、很少，在业务逻辑上函数式编程，简洁
开发：
- 开发测试很简单
- 由于Spark框架使用Scala语言编写，提供Scala Shell交互式命令，此外也支持Python语言，也提供命令行
  在Windows系统上直接开发测试，不需要配置任何插件
监控：
运行每一个程序，都有自己的一个监控页面，端口号4040
运速快：
比MapReduce快很多

2、Runs Everywhere

a. Spark 框架开发的程序运行在哪里？？？
如果使用Java/Scala语言编程，打成 JAR包
- 本地模式
  Local Mode - 用于开发测试
- 集群模式
  Hadoop YARN、Apache Mesos、Spark Standalone
b. Spark 处理数据在哪里？？？
HDFS、Hive、HBase、ORC、Parquet、CSV、TSV、JDBC、Redis、MongoDB、ES、。。。。。

词频统计演示

val inputRDD = sc.textFile("/datas/wordcount.data")
val wordCountRDD = inputRDD.flatMap(_.split("\\s+")
    .map(_.trim))
    .map(word => (word, 1)).reduceByKey(_ + _)
wordCountRDD.saveAsTextFile("/datas/spark-wc-output")
wordCountRDD.foreach(println)

3、Spark Standalone Cluster

Master
- 接收Worker的注册请求，统筹记录所有Worker的CPU、Memory等资源，并跟踪Worker节点的活动状态
- 接受Driver中App的注册请求（这个请求有Driver端的client发出），为App在Worker上分配CPU、Memory等资源，生成后台Executor进程，之后跟踪Executor和App的活动状态
Worker
- 负责接收Master的指示，为App创建Executor进程。Worker在Master和Executor之间起着桥梁作用，实际不会参与计算工作
Driver
- 负责用户侧逻辑处理
Executor
- 负责计算，接收并执行由App划分的Task任务，并将结果缓存在本地内存或磁盘

四、RDD（Resilient Distributed Dataset 弹性分布式数据集）

1、就是一个集合

从使用的角度来看
- 当做Scala语言集合类中的列表List
实质
- 分布式、存储数据、集合
- Represents an immutable，partitioned collection of elements that can be operated on parallel（将集合中的数据划分为很多分区（partition），不同分区的数据存储在不同的机器上，每个分区的数据可以被一个Task进行处理）
如果从HDFS上读取数据，Spark程序运行在集群模式下，一个block数据对应一个分区Partition数据
RDD 五个主要特征（特征）
- A list of partitions
  - RDD = List
- A function for computing each split
  - split = partition
  - 每个分区的数据都可以应用函数进行计算
- A list of dependencies on other RDDs
  - List

2、创建RDD

将要处理的数据转换为RDD

从HDFS/LocalFS 读取数据
sc.textFile("…")/spark.read.textFile("…")

并行化Scala中集合

seq: Seq[T],
numSlices: Int = defaultParallelism
): RDD[T] ```

应用RDD中的Transformation转换函数
- 将一个RDD转换为另外一个RDD

示例（Spark开发经典案例WordCount）：

package com.erongda.bigdata.spark.core

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Spark 开发大数据经典案例，词频统计Wordcount
  */
object SparkWordCount {

  def main(args: Array[String]): Unit = {

    // Spark Application运行时的相关配置信息，比如AppName，Master
    val sparkConf = new SparkConf()
      .setAppName("Spark Application")
      //设置应用运行在哪里，是本地模式还是集群（具体制定的地址）
      .setMaster("local[2]")

    // 创建SparkContext对象，主要用于读取处理的数据，封装在集合RDD中，调度Job
    val sc = new SparkContext(sparkConf)
    sc.setLogLevel("WARN")

    /**
      * 第一步 数据的读取（输入input）
      */
    val inputRDD: RDD[String] = sc.textFile("/datas/wordcount.data")
    //查看样本数据
    println(s"count = ${inputRDD.count()}")
    println(s"first = \n\t ${inputRDD.first()}")

    /**
      * 第二步 数据的处理
      */
    // 内功
    val wordCountRDD: RDD[(String, Int)] = inputRDD.flatMap(_.split("\\s+")).map((_, 1)).reduceByKey(_ + _)

    // 基本
    inputRDD
      .flatMap(line => line.split("\\s+"))
      .map(word => (word, 1))
      .reduceByKey((tmp, item) => tmp + item)

    // 按照统计词频count进行降序排序
    /**
      * def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length)
      *     从函数的名称sortByKey：
      *       按照Key进行排序的
      *     第一个参数“
      *       ascending = true 默认值，表示暗战升序排序
      */
    println("======== sortByKey ========")
    val  sortedWordCountRDD = wordCountRDD.map(_.swap).sortByKey(ascending = false)
    sortedWordCountRDD.take(3).foreach(println)

    println("========= top ============")
    /**
      * def top(num: Int)(implicit ord: Ordering[T]: Array[T])
      *     takeOrdered(num)(ord.reverse)
      */
    wordCountRDD.top(3)(OrderUtils.SecondValueOrdering).foreach(println)

    /**
      * TODO:
      *     在企业中使用SparkCore RDD 来分析数据
      *       -a. 如果获取最大的前几个TopKey
      *         rdd#top
      *       -b. 如果获取最小的前几个BottomKey
      *         rdd#takeOrdered()
      */

    /**
      * 第三步 数据的保存（输出output）
      */
    // 查看处理后的数据
    println("=========== 原始数据 ============")
    wordCountRDD.foreach(println)

    Thread.sleep(1000000)
    // 关闭资源
    sc.stop()
  }
}

/**
  * 自定义的排序规则，依据实际需求定义
  */
object OrderUtils{
  object SecondValueOrdering extends scala.math.Ordering[(String, Int)]{
    override def compare(x: (String, Int), y: (String, Int)): Int = {
      x._2 - y._2
    }
  }
}

五、RDD集合类中的函数（80多种，可以分为三类）

1、转换函数（Transformations）重点

特点

return a new RDD
一个RDD调用函数以后转换为另外一个RDD

2、Action函数

特点

launch a job to return a value to the user program
当一个RDD调用函数以后，就会触发一个Job的执行，不会转换为RDD

如：
count -> Long, first -> 集合中第一条数据
take -> 获取集合中前N条数据
foreach -> 对每条进行操作，比如答应数据，无返回值

3、Persistence（）

持久化函数：将RDD集合中的数据缓存到内存或磁盘中

如：


def cache(): this.type = persist()
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)
StorageLevel：
    表示的将RDD数据存储的地方（存储级别）
class StorageLevel private(
    // 将数据存储到磁盘中
    private var _useDisk: Boolean,
    // 将数据存储到内存中
    private var _useMemory: Boolean,
    // JVM 内存中，Alluxio
    private var _useOffHeap: Boolean,
    // 数据存储的时候是否反序列化
    private var _deserialized: Boolean,
    // 持久化数据的副本数，默认值为1
    private var _replication: Int = 1
)

Alluxio：分布式内存文件系统
类似于HDFS分布式文件系统，不过Ta将数据存储在内存中
在什么情况，将RDD数据持久化呢？？？
- 某个RDD数据，被使用多次重复使用
- 某个RDD的数据来之不易，使用超多一次,经过复杂处理获取的RDD
- 通常选择缓存数据策略
  - MEMORY_ONLY_2 如果集群内存足够充分
  - MEMORY_AND_DISK_SER_2 先内存后磁盘，2副本数
释放存储数据
- def unpersist(blocking: Boolean = true): this.type
RDD 中Aciton函数
- 调用函数以后，返回一个非RDD的值Driver
  count/first/take/collect
- 调用函数以后，没有返回值
  - 打印、存储外部系统 foreach：
    - 针对RDD中每条数据进行操作的
  - 但是我们建议使用foreachPartition：
    - 针对RDD中每个分区的数据进行操作的
在RDD中调整分区数的大小函数：
- coalesce：调整分区数，不进行Shuffle，性能较好
  最原始的，源码如下：

     numPartitions: Int, 
     shuffle: Boolean = false
 ): RDD[T] ```
   - repartition：进行Shuffle操作，性能所有消耗，不建议使用
   ```def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]```
       - 底层：````coalesce(numPartitions, shuffle = true)```
      
示例（SparkSessionWordCount）：
```spark
package com.erongda.bigdata.spark.core

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession

/**
 * Created by Administrator on 2018/7/16.
 */
object SparkSessionWordCount {

 def main(args: Array[String]): Unit = {
   // 创建SparkSession实例对象
   val spark: SparkSession = SparkSession.builder()
     .appName("SparkSessionWordCount")
     .master("local[2]")
     .getOrCreate()

   // 设置日志级别
   spark.sparkContext.setLogLevel("WARN")

   /**
     * 使用SparkSession读取数据
     */
   val inputRDD: RDD[String] = spark.read.textFile("/datas/wordcount.data").rdd
   // inputRDD.cache()  数据缓存
   // inputRDD.unpersist() 释放缓存
   // 数据处理
   val wordCount: RDD[(String, Int)] = inputRDD.flatMap(_.split("\\s+").map((_, 1)))  // 性能高
     .reduceByKey(_ + _)

   wordCount.foreach(println)

   // 为了4040
   Thread.sleep(1000000)

   // 关闭资源
   spark.close()

 }

}

示例（SessionTimeCountSpark）：

package com.erongda.bigdata.spark.core

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by Administrator on 2018/7/16.
  * 分析用户 Session会话时长， 各个时段占比
  */
object SessionTimeCountSpark {

  // 会话时长：0 - 10 秒
  val TIME_LENGTH_0010: String = "0-10"
  // 会话时长： 11 - 20 秒
  val TIME_LENGTH_1120: String = "11-20"
  // 会话时长： 21 - 30 秒
  val TIME_LENGTH_2130: String = "21-30"
  // 会话时长： 30+ 秒
  val TIME_LENGTH_3000: String = "30+"

  def main(args: Array[String]): Unit = {

    // Spark Application运行时的相关配置信息，比如AppName, Master
    val sparkConf = new SparkConf()
      .setAppName("SessionTimeCountSpark")
      .setMaster("local[2]")

    // 创建SparkContext实例对象，主要用于读取处理的数据，封装集合到RDD中，调度Job
    val sc = new SparkContext(sparkConf)
    sc.setLogLevel("WARN")

    // TODO: 1. 读取数据，从本地系统LocalFileSystem读取数据
    val pageViewRDD = sc.textFile("file:///C:/spark-learning/datas/page_views.data")

    // 将RDD集合的数据存储到内存中，属于lazy方法，需要一个Action函数触发，才会将数据真正的缓存
    pageViewRDD.cache()

    // 采用数据，获取第一条数据和总的条目数
    println(s"count = ${pageViewRDD.count()} \nFirst: \n\t${pageViewRDD.first()} ")

    /**
      * 2.需求分析：
      *   统计 各个会话时长段 0-10,11-20,21-30,30+
      * 关键点：
      *   1. 统计各个会话时长
      *     按照session_id进行分组，得到每个会话中的所有的track_time, 使用最后一个track_time - 第一个track_time获取时长
      *   2. 判断会话时长属于哪个 时间段
      */
    val timeLengthCountRDD: RDD[(String, Int)] = pageViewRDD
      .map(line => {
        //分割单词
        val arr = line.split("\t")
        // 将track_time日期类型的数据(2013-05-19 13:00:00)转换为Long类型，以便后续操作
        import java.text.SimpleDateFormat
        val time = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").parse(arr(0)).getTime
        //返回
        (arr(2), time)
      })
      // TODO: b. 按照session_id进行分组，得到每个session会话中的所有页面的访问时间
      .groupByKey()  // RDD[(String, Iterable[Long])]
      // TODO: c.计算每个会话的时长
      .map{case (session_id: String, iter: Iterable[Long]) =>
          // 最大的和最小的track_time
        val maxTrackTime = iter.max
        val minTrackTime = iter.min
        // 计算会话时长
        val timeLength = (maxTrackTime - minTrackTime) / 1000.0

        // 判断时长属于哪个时长段
        if (30 < timeLength){
          (TIME_LENGTH_3000, 1)
        }else if(20 < timeLength){
          (TIME_LENGTH_2130, 1)
        }else if(10 < timeLength){
          (TIME_LENGTH_1120, 1)
        }else{
          (TIME_LENGTH_0010, 1)
        }
      }
      // TODO: d. 聚合统计，计算出各个时长段的会话个数
      .reduceByKey(_ + _)

    // 显示结果
    timeLengthCountRDD.foreach(println)

    // 将RDD的数据从缓存中释放出来
    pageViewRDD.unpersist()

    // 为了开发测试 ，对每Application运行左监控，所以当前线程休眠
    Thread.sleep(100000)

    // 关闭资源
    sc.stop()

  }
}

示例（SparkWordCountToMySQL）：

package com.erongda.bigdata.spark.core

import java.sql.{Connection, DriverManager}

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Spark 开发大数据经典案例，词频统计Wordcount
  */
object SparkWordCountToMySQL {

  def main(args: Array[String]): Unit = {

    // Spark Application运行时的相关配置信息，比如AppName，Master
    val sparkConf = new SparkConf()
      .setAppName("Spark Application")
      //设置应用运行在哪里，是本地模式还是集群（具体制定的地址）
      .setMaster("local[2]")

    // 创建SparkContext对象，主要用于读取处理的数据，封装在集合RDD中，调度Job
    val sc = new SparkContext(sparkConf)
    sc.setLogLevel("WARN")

    /**
      * 第一步 数据的读取（输入input）
      */
    val inputRDD: RDD[String] = sc.textFile("/datas/wordcount.data")

    val wordCount: RDD[(String, Int)] = inputRDD.flatMap(_.split("\\s+").map((_, 1)))  // 性能高
      .reduceByKey(_ + _)

    wordCount.coalesce(1)
      .foreachPartition(iter => {
        Class.forName("com.mysql.jdbc.Driver")

        val url ="jdbc:mysql://bigdata-training01.erongda.com:3306/test"
        val username = "root"
        val password = "123456"

        var conn: Connection = null
        try{
          conn = DriverManager.getConnection(url, username, password)

          val sql = "INSERT INTO rdd_word_count (word, count) values(?,?)"
          val pst = conn.prepareStatement(sql)

          iter.foreach{
            case (word: String, count: Int) =>
              println(s"word = $word, count = $count")

              pst.setString(1, word)
              pst.setInt(2, count)

              pst.executeUpdate()
          }

        }catch{
          case e: Exception => e.printStackTrace()
        }finally {
          if(conn != null) conn.close()
        }
      })

    Thread.sleep(1000000)
    // 关闭资源
    sc.stop()
  }
}

六、Spark Standalone

Spark框架自身带的分布式集群资源管理和任务调度的框架，类似Hadoop YARN框架

1、如何配置Spark Standalone Cluster （伪分布式）

配置
conf/spark-env.sh 增加如下内容：

        SPARK_MASTER_HOST=bigdata-training01.erongda.com
        SPARK_MASTER_PORT=7077
        SPARK_MASTER_WEBUI_PORT=8080
        SPARK_WORKER_CORES=2
        SPARK_WORKER_MEMORY=2g
        SPARK_WORKER_PORT=7078
        SPARK_WORKER_WEBUI_PORT=8081

配置从节点Workers
conf/slaves 内容：
bigdata-training01.erongda.com
启动服务
- 启动主节点Master服务
  $ sbin/start-master.sh
- 启动从节点Workers服务 - 启动所有的Workers服务
  $ start-slaves.sh
  - 注意：
    此命令必须在Master主节点上执行，并且需要配置Master节点到所有Worker节点SSH无秘钥登录
    $ ssh-keygen -r rsa
    $ ssh-copy-id bigdata-training01.erongda.com
测试
运行一个spark-shell
到SparkStandalone Cluster上运行
bin/spark-shell --master spark://bigdata-training01.erongda.com:7077

七、大数据集群架构和数据规模

1、集群规模

数据量：每天增量
- 记录数：
  千万级别以上：单个访客访问
  亿级别记录数
  百万级别：
  千万级别记录数
  几十万：
  一千万级别
- 大小值：
  记录数*每条记录的大小
设计集群规模
每天增量3653*3 / 12 = 从节点个数
中小型规模：20台
中型规模：50台
大型规模：100台以上
硬件选型
- 主节点：
  - CPU：32核
  - 内存：128GB
  - 硬盘：SATA，SCSI，推荐SAS/SSD
    - RAID0：
      机器：disk1 2T disk2 2T
      系统：disk 4T
      写数据时，随机写入两块硬盘
    - RAID1
      机器：disk1 2T disk2 2T
      系统：disk 2T
      写数据时，写两份
    - JBOD：不属于raid
      机器：disk1 2T disk2 2T
      系统：disk 4T

写数据时，先写第一块硬盘，直到第一块满了，才写第二块

2、大数据运维部署

部署运维
- 手动分发
  同步服务：rsync
- CM：cloudera Manager
  - 分布式架构：主从
  - 安装cm
    - 安装一台机器的cm
    - 分发给其他机器
    - 启动cm
    - 勾选当前哪些机器构建集群
    - 勾选需要安装的程序
    - 选择每个进程在那台机器上
    - 下一步，根据用户的选择，自动实现安装
- 技术选型
  - 因素：
    - 业务需求
    - 参考
  - 业务需求
    - 架构
      - 离线批处理
      - 实时
    - 应用
      - 数据分析
      - 用户画像
      - 推荐系统
      - 推荐预测
      - 数据挖掘
      - 机器学习
    - 业务流程
      - 数据采集
      - 数据存储：
        
        持久性存储
        
        缓存
        
        数据仓库
      - 数据处理
        
        离线批处理
        
        实时处理
        
        交互式处理：spark SQL 、hive、impala、presto、kylin

八、Spark Application应用在集群上

1、Driver Program - JVM Process

相当于AppMaster，应用管理者，主要调度Job执行
就是每个程序的main方法，必须创建SparkContext实例对象
端口号：4040 ，提供应用的监控

2、Executors

每个Executor是一个JVM Process（JVM 进程，相当于线程池），包含Memory和CPU Core，运行Tasks。
Spark中Task是以线程Thread方式运行的，每个Task执行需要1 Core CPU。

九、Spark Application与MapReduce Application 区别

每个Job（作业）都有很多Task（任务）进行计算

1、对于MapReduce Application来说

bin/yarn jar …运行的一个MapReduce程序，其实就是一个MapReduce Application在运行。一个MR App就是一个MR Job（一个应用只有一个Job)。
无论是MapTask还是ReduceTask运行在JVM Process。

2、对于Spark Application来说

一个Application中有很多Job。
每个Task运行在一个线程Thread中，都需要1 Core CPU。

十、RDD 中数据持久化操作(属于lazy操作)

需要RDD#Action函数调用(Job 触发)才能进行持久化操作

注意：
Action函数必须对RDD中所有分区的数据进行操作，才能将RDD中所有分区的数据进行缓存。
-a. first()函数仅仅获取RDD中某个分区的一条数据，所以仅仅将一个分区中的数据进行缓存
-b. 可以使用count()函数对RDD中所有的分区数据进行统计个数，来进行缓存数据（触发缓存）

十一、对于RDD中某些函数的使用注意：（优化）

能不使用groupByKey函数就不要使用，除非不得已
- 知道：
  - groupByKey + map = reduceByKey: combiner
- reduceByKey：
  - 包含分组，在聚合的时候，先进行本地聚合，然后在进行分组中的聚合。
尽量使用xxParition函数代替xx函数
- 比如：
  - foreach 与 foreachPartition
  - map 与 mapPartition
    def map[U: ClassTag](f: T => U): RDD[U] f -> 针对RDD中每个元素进行操作 def mapPartitions[U: ClassTag](f: Iterator[T] => Iterator[U]): RDD[U] f -> 针对RDD中每个分区中的元素进行操作的
适当调整RDD的分区数
- 在Spark 程序的运行中，一个Thread线程运行一个Task任务，一个Task处理一个分区Parition的数据。
  - Thread = Task = Partition
- 方式一：
  在读取数据的时候，就可以调整分区，通常加大分区数目
  sc.textFile("", minPartitions = number)
  sc.parallelize(seq, numSlices = number)
- 方式二：
  可以通过RDD直接调整分区数
  rdd.coalesce(numPartitions = number)
- 关键点：
  对结果RDD或者数据预处理以后的RDD降低分区数
数据多次使用，进行缓存

十二、数据倾斜

1、何为数据倾斜

某些Task分析数据过多，某个Task分析数据过少，导致处理过程中运行的速度和效率是不一样，或者出现内存不足溢出情况。

2、回顾Hive中数据倾斜的处理：

Hive 中某个MapReduce Job运行的发生数据倾斜方案：
- 将一个MapReduce Job程序变成两个MapReduce Job程序来执行
- 具体方案：
  http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html
- 分阶段聚合：
  - set hive.groupby.skewindata = true;
  - 第一个MapReduce Job进行局部聚合
    给Key加上指定范围的随机数
  - 第二MapReduce Job进行全局聚合
    将Key前缀随机数去除，全局聚合

3、RDD中四大聚合函数，源码分析，基本参数

第一个"聚合"函数：
- def groupByKey(): RDD[(K, Iterable[V])] - 643 行代码
  - def combineByKeyWithClassTag[C] - 74行
第二个"聚合"函数：
- def reduceByKey(func: (V, V) => V): RDD[(K, V)] - 328
  - def combineByKeyWithClassTag[C] - 74
- "聚合"函数 , 类似Scala中Listfold聚合函数 -243
  - def foldByKey(zeroValue: V)(func: (V, V) => V): RDD[(K, V)]
    - def combineByKeyWithClassTag[C] - 74
第三个"聚合"函数：
- def aggregateByKey[U: ClassTag](zeroValue: U) - 204 (zeroValue: U) // 聚合中间临时变量初始化 ( // 每个分区的聚合操作 seqOp: (U, V) => U, // 合并所有分区的聚合结果 combOp: (U, U) => U ): RDD[(K, U)]
  - def combineByKeyWithClassTag[C] - 74
第四个"聚合"函数：
- def combineByKey[C] - 613 行 ( createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C ): RDD[(K, C)]
  - def combineByKeyWithClassTag[C] - 74

4、最最底层"聚合"函数的含义

def combineByKeyWithClassTag[C] ( // 创建合并器：确定如何聚合合并Value的值, 初始化操作，聚合中间临时变量的数据类型 createCombiner: V => C, // 针对每个分区中V的值进行聚合操作 mergeValue: (C, V) => C, // 合并各个分区聚合的结果 mergeCombiners: (C, C) => C, partitioner: Partitioner, // 指定分区器 mapSideCombine: Boolean = true, // 默认不问 serializer: Serializer = null // 默认值，不问 ) (implicit ct: ClassTag[C]): RDD[(K, C)]

十三、如何提交运行Spark Application呢？？？

${SPARK_HOME}/bin/spark-submit 脚本运行提交所有的应用

如何使用spark-sumbit：
spark-submit [options] [app arguments]
- 第一点：
  如果是Scala语言或者Python语言开发的程序，需要打成JAR包运行；如果是Python语言开发，直接指定脚本运行即可。
- 第二点：
  - options可选项，主要用于配置应用运行时相关参数设置，如
    - a. 应用运行在哪里？？？？
      --master MASTER_URL
      - 值：local[2], spark://…:7077, yarn,…
    - b. 指定Driver Program
      - 无论程序是运行在本地模式还是运行在集群上，都有Driver，指定资源（Memory和CPU Core）
    - c. 如果运行在集群上，指定Executor相关信息
      Executor个数，每个Executor资源配置
- 第三点：
  app arguments，表示的是指定应用程序运行时需要传递的参数

十四、Spark 框架中的历史服务器

1、监控运行完成的Spark Application

2、针对Spark HistoryServer来说，如何配置

将SparkApplication运行的EventLog存储到HDFS上
http://spark.apache.org/docs/2.2.0/configuration.html#spark-ui
- spark.eventLog.enabled：
  表示是否存储EventLog，设置为true
- spark.eventLog.compress:
  表示是否进行压缩存储的EventLog，使用压缩算法lz4
- spark.eventLog.dir:
  表示存储EventLog目录
  hdfs://bigdata-training01.erongda.com:8020/datas/spark/eventLogs/
  - 备注：
    /datas/spark/eventLogs/必须创建出来
- 配置以上三种属性有多种方式
  - 针对某个应用来配置属性
    - 通过提交应用参数属性–命令行配置
    - --conf spark.eventLog.enabled=true \ --conf spark.eventLog.compress=true \ --conf spark.eventLog.dir=hdfs://bigdata-training01.erongda.com:8020/datas/spark/eventLogs/ \
    - 程序编码配置
    - sparkConf.set("spark.eventLog.enabled", "true") sparkConf.set("spark.eventLog.compress", "true") sparkConf.set("spark.eventLog.dir", "hdfs://bigdata-training01.erongda.com:8020/datas/spark/eventLogs/")
  - 针对所有应用配置属性
    - 只要运行SparkApplication，就会自动保存EventLog
      ${SPARK_HOME}/spark-default.conf
启动HistoryServer历史服务
- ${SPARK_HOME}/conf/spark-env.sh 中配置：
  SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://bigdata-training01.erongda.com:8020/datas/spark/eventLogs/ -Dspark.history.fs.cleaner.enabled=true"

十五、Spark Application运行在YARN集群上

http://spark.apache.org/docs/2.2.0/running-on-yarn.html

1、运行在YARN集群上

启动Hadoop YARN集群
- ResourceManager/NodeManagers
- 向YARN集群提交应用，找到的RM服务（端口8032），告知RM所在主机
配置Spark
- conf/spark-env.sh
- JAVA_HOME
- SCALA_HOME
- HADOOP_CONF_DIR: HADOOP框架配置文件所在的目录
  - 提交应用的时候，将会读取该目录下所有的属性文件
    - HDFS集群位置，读物HDFS上数据
      hdfs-site.xml core-site.xml
    - YARN集群位置（RM），提交应用到YARN上运行
      yarn-site.xml
提交应用${SPARK_HOME}/bin/spark-submit
- 以最简单的方式来演示：提交spark-shell运行在yarn上
- SPARK_HOME=/opt/cdh-5.7.6/spark-2.2.0-bin-2.6.0-cdh5.7.6 ${SPARK_HOME}/bin/spark-shell \ --master yarn \ --driver-memory 512M \ --executor-memory 1g \ --executor-cores 2 \ --num-executors 3

2、额外回顾YARN知识

对于YARN集群来说，以下两点清楚

默认情况下每个NodeManager节点服务管理的资源
yarn-site.xml
- 内存大小：默认值 8G = 8192M
  yarn.nodemanager.resource.memory-mb
- CPU Core核数：默认值8核
  yarn.nodemanager.resource.cpu-vcores
  - 虚拟核数考虑：
    2 Core(i7) = 3 Core(i5)
YARN资源调度方式
- 按照队列方式进行资源调度
- 将集群资源划分为很多队列Queue方式进行调度，用户提交应用的时候，将应用提交到对应队列上，然后进行资源调度

十六、deploy-mode DEPLOY_MODE

表示的是Driver Program（JVM Process）运行在地方，如果运行在本地Localy称为client，也可以运行在集群的从节点（Worker节点或者NodeManager节点）上的某台机器上。
注意两点

在企业的实际开发环境中，Spark Application提交运行，采用的是“cluster”模式运行。
spark-shell不能运行在Cluster Mode下
- Driver就是REPL（SCALA）交互式的命令行

1、Spark on YARN:

Spark Application
- Driver Program
  应用的管理者（获取资源和调度Job执行)
- Executors
  运行Tasks任务和Cache缓存数据
- YARN Application
  - 框架设计：如果一个应用运行在YARN上，首先给每个应用分区一个AppMaster（应用管理者）：获取资源和调度job执行
  - Container容器：JVM Process
- 如何设计Spark Application运行在YARN上呢？？
  - Driver 运行在本地Client
    - 申请资源
      driver -> AppMaster -> RM
  - Driver 运行在集群上Cluster
    将AppMaster与Driver合并在一起
    AppMaster(Driver) -> RM

2、企业中实际问题：

CDH 版本的HADOOP 框架使用的JDK 1.7，将Spark 2.x开发应用运行在YARN上，如何处理解决JDK 版本问题呢？？？

解决方案：

在提交应用运行的时候，指定Driver和Executor使用的JDK版本
- 针对AppMaster(Driver)
  spark.yarn.appMasterEnv.JAVA_HOME=/opt/modules/jdk1.8.0_91
- 针对Executors
  spark.executorEnv.JAVA_HOME=/opt/modules/jdk1.8.0_91

十七、Spark 如何与HBase进行交互

1、SparkCore如何读写HBase表中的数据？？？？

RDD <-> HFile（StoreFile）

返璞归真：

SparkCore如何从HDFS上读取文本文件数据的？？
sc.textFile("/datas/wordcount") -> hadoopFile
- 底层：调用MapReduce框架中如何从HDFS上读取数据的API
  - TextInputFormat
    - LongWritable
    - Text
SparkCore如何将RDD保存到HDFS文件系统上呢？？
rdd.saveAsTextFile("/datas/xxx") -> saveAsHadoopFile
- 底层：
  - TextOutputFormat
  - NullWritable
  - Text
触发思考：
- Spark读写HBase表中的数据，本质：MapReduce从HBase表中读写数据的

2、MapReduce 读写HBase表中的数据，使用底层类

pom.xml加入依赖
org.apache.hbase hbase-server 1.2.0-cdh5.7.6 org.apache.hbase hbase-hadoop2-compat 1.2.0-cdh5.7.6 org.apache.hbase hbase-client 1.2.0-cdh5.7.6

3、读取数据

一条一条的读取数据，每条数据变为KeyValue对
- TableInputFormat
  - ImmutableBytesWritable
  - Result
对于Spark来说：
def newAPIHadoopRDD[K, V, F <: NewInputFormat[K, V]]( conf: Configuration = hadoopConfiguration, fClass: Class[F], kClass: Class[K], vClass: Class[V]): RDD[(K, V)]

示例：

package com.erongda.bigdata.spark.hbase

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.hbase.{CellUtil, HBaseConfiguration}
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Spark Core从HBase表中读取数据：
  *     表的名称: ns1:sale_orders
  */
object ReadSaleOrdersSpark {

  def main(args: Array[String]): Unit = {

    // Spark Application运行时的相关配置信息，比如AppName, Master
    val sparkConf = new SparkConf()
      .setAppName("ReadSaleOrdersSpark")
      // 设置应用运行在哪里，是本地模式还是集群（具体指定的地址）
      .setMaster("local[5]")

    /**
      * 设置Spark Application 序列化方式使用Kryo
      *   默认情况下，对simple types, arrays of simple types, or string type 使用Kryo方式序列化
      */
    sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    // 告知哪些类型进行序列化
    sparkConf.registerKryoClasses(Array(classOf[ImmutableBytesWritable], classOf[Result]))

    // 创建SparkContext实例对象, 主要用于读取处理的数据，封装集合RDD中，调度Job
    // val sc = new SparkContext(sparkConf)

    val sc: SparkContext = SparkContext.getOrCreate(sparkConf)
    /**
      * def newAPIHadoopRDD[K, V, F <: NewInputFormat[K, V]](
          conf: Configuration = hadoopConfiguration,
          fClass: Class[F],
          kClass: Class[K],
          vClass: Class[V]
        ): RDD[(K, V)]
      */
    // a. 读取配置信息
    val conf: Configuration = HBaseConfiguration.create()

    // b. 设置从HBase哪张表读取数据
    conf.set(TableInputFormat.INPUT_TABLE, "ns1:sale_orders")

    // c. 调用SparkContext中newAPIHadoopRDD读取HBase表中的数据
    val resultRDD: RDD[(ImmutableBytesWritable, Result)] = sc.newAPIHadoopRDD(
      conf, // Configuration
      classOf[TableInputFormat], // storage format of the data to be read
      classOf[ImmutableBytesWritable], //
      classOf[Result]
    )

    // 测试获取的数据
    println(s"Count = ${resultRDD.count()}")

    /**
      * 当使用RDD.take(3).foreach() 报如下异常：ImmutableBytesWritable不能进行序列化
      *   java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable
      * Serialization stack:
      * 原因在于：
      *     RDD.take(N) 将数据从Executor中返回给Driver端，需要经过网络传输，所以需要对数据进行序列化，然而
      *   ImmutableBytesWritable 和 Result 类型都没有实现Java中序列化接口Serializable，所以出错。
      * 如何解决问题呢？？？？
      *   Spark 大数据分析计算框架，默认情况下使用Java Serializable对数据进行序列化，设置其他序列化方式。
      */
    //
    resultRDD.take(3).foreach{ case (key, result) =>
      // 获取RowKey
      val rowKey = Bytes.toString(key.get)
      println(s"RowKey = $rowKey")

      // 获取每条数据
      for(cell <- result.rawCells()){
        // 获取列簇
        val cf = Bytes.toString(CellUtil.cloneFamily(cell))
        // 获取列
        val column = Bytes.toString(CellUtil.cloneQualifier(cell))
        // 获取值
        val value = Bytes.toString(CellUtil.cloneValue(cell))
        // 打印
        println(s"\t $cf:$column = $value -> ${cell.getTimestamp}")
      }
    }

    // 为了开发测试，对每个Application运行做监控，所以当前线程休眠
    Thread.sleep(10000000)

    // 关闭资源
    sc.stop()
  }

}

4、写入数据

TableOutputFormat
- ImmutableBytesWritable
- Put
对于Spark来说：
def saveAsNewAPIHadoopDataset(conf: Configuration): Unit

示例：

package com.erongda.bigdata.spark.hbase

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 将RDD数据存储到HBase表中，使用SparkCore中API完成
  */
object WriteDataToHBaseSpark {

  def main(args: Array[String]): Unit = {

    // Spark Application运行时的相关配置信息，比如AppName, Master
    val sparkConf = new SparkConf()
      .setAppName("SparkAppModule")
      // 设置应用运行在哪里，是本地模式还是集群（具体指定的地址）
      .setMaster("local[2]")

    // 创建SparkContext实例对象, 主要用于读取处理的数据，封装集合RDD中，调度Job
    val sc = new SparkContext(sparkConf)


    /**
      * 模拟数据
      *   将词频统计的结果RDD存储到HBase表中
      *   设计表：
      *      表的名称：ht_wordcount
      *      RowKey： word
      *      列簇：info
      *      列名：count
      */
    // 创建Scala中集合类列表 List
    val list = List(("hadoop", 234), ("spark", 4356), ("ml", 456), ("SQL", 1235))
    // 通过并行化集合创建RDD
    val wordCountRDD: RDD[(String, Int)] = sc.parallelize(list, numSlices = 1)


    /**
      * TableOutputFormat 向HBase表中写入数据，要求(Key, Value), 所以需要将RDD中的数据数据类型转换为
      *     RDD[(ImmutableBytesWritable, Put)]
      */
    val putsRDD: RDD[(ImmutableBytesWritable, Put)] = wordCountRDD
      // 数据类型转换
      .map{ case(word, count) =>
        // RowKey
        val rowKey: ImmutableBytesWritable = new ImmutableBytesWritable(Bytes.toBytes(word))
        // 创建Put对象
        val put: Put = new Put(rowKey.get())
        // 增加列
        put.addColumn(
          Bytes.toBytes("info"), // cf
          Bytes.toBytes("count"), // column
          Bytes.toBytes(count.toString)
        )
        // 返回二元组
        (rowKey, put)
      }

    // TODO: 读取配置信息
    val conf: Configuration = HBaseConfiguration.create()


    // a. 设置数据保存表的名称
    conf.set(TableOutputFormat.OUTPUT_TABLE, "ht_wordcount")
    // b.  设置OutputFormat
    conf.set("mapreduce.job.outputformat.class",
      "org.apache.hadoop.hbase.mapreduce.TableOutputFormat")
    // c. 设置输出目录
    conf.set("mapreduce.output.fileoutputformat.outputdir",
      "/datas/spark/hbase/htwc-" + System.currentTimeMillis())

    // TODO: 调用RDD中方法，将数据保存到HBase表中
    putsRDD.saveAsNewAPIHadoopDataset(conf)


    // 为了开发测试，对每个Application运行做监控，所以当前线程休眠
    Thread.sleep(10000000)

    // 关闭资源
    sc.stop()
  }

}

5、对于MapReduce框架来说，新旧API，以hadoop-0.20.0版本

旧API
Mapper、Reducer都是接口
org.apache.hadoop.mapred
新API
Mapper、Reducer都是类
org.apache.hadoop.mapreduce

十八、基于Spark电商用户行为分析（驴妈妈）

1、基于HADOOP生态系统框架离线数据分析

项目架构：分为三层架构
- 基于CDH 5.x版本HADOOP生态组件，8台机器
数据收集
- 定制化收集数据，自定义SDK（Java SDK、JsSDK或Ios SDK、Android SDK）
- SDK -> Nginx -> Flume -> HDFS
- 每天一个日志文件，针对每台Nginx服务器，15GB
数据处理
- 数据预处理 - 数据ETL
  - 过滤清洗垃圾数据
  - 转换数据格式
  - hdfs -> mapreduce/spark -> hbase
- 数据分析
  - 基于MR/Spark 分析 -> 75%
    - hbase -> mr/spark -> mysql
  - 基于Hive/SparkSQL分析 -> 25%
    - hbase -> hive -> HiveQL -> Sqoop -> MySQL
    - hbase -> SparkSQL -> MySQL
分析结果展示
- SSM + MySQL + Maven + HighCharts(ECharts)

2、HBase 数据库

基于HDFS之上NoSQL、面向列存储的、多版本的海量数据存的数据库
- 数十亿行数据 * 数百万列
两个功能
- 存储数据
  - 每条数据字段类型不一样，数据量很大
- 检索数据
  - RowKey检索
关键点
- RowKey 设计与业务

3、项目准备工作

日志数据存储到HDFS
- HDFS 服务启动起来
ETL数据存储到HBase表中
- Zookeeper 启动
- HBase 服务启动
  - Java API -> 批量读数据、写数据到表中（MapReduce）
- 游戏公司，往往使用Python语言开发代码
  - 将游戏数据写入到HBase表中或从HBase表中读取数据
  - bin/hbase-daemon.sh start thrift
Spark 本地开发测试

4、在Spark程序运行中每个Executor内存的使用

http://spark.apache.org/docs/2.2.0/tuning.html#memory-management-overview

内存：计算数据
- Tasks运行需要内存
内存：存数据
- RDD缓存、广播变量缓存

比例的划分，在不同的应用运行的时候，适当考虑分配。

比如：
(默认情况下：属于值的比例限定)

计算数据的内存：
- spark.memory.fraction = 0.6 -> 6G
存储数据的内存：
- spark.memory.storageFraction = 0.5 -> 5G

代码（ETL）：


package com.erongda.bigdata.project.etl

import java.util
import java.util.zip.CRC32

import com.erongda.bigdata.project.common.EventLogConstants
import com.erongda.bigdata.project.common.EventLogConstants.EventEnum
import com.erongda.bigdata.project.util.{LogParser, TimeUtil}
import org.apache.commons.lang.StringUtils
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.hbase.{HBaseConfiguration, HColumnDescriptor, HTableDescriptor, TableName}
import org.apache.hadoop.hbase.client.{Connection, ConnectionFactory, HBaseAdmin, Put}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.io.compress.Compression
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 基于Spark框架读取HDFS上日志文件数据，进行ETL操作，最终将数据插入到HBase表中
  *   -1. 为什么选择ETL数据到HBase表中？？
  *     采集的数据包含很多Event类型的数据，不同Event时间类型的数据字段不一样，数据量相当比较大
  *   -2. HBase 表的设计？？？
  *     -a. 每天的日志数据，ETL到一张表中
  *         本系统，主要针对日志数据进行分析的，基本上每天的数据分析一次，为了分析更快，加载更少的数据
  *     -b. 每次ETL数据的时候，创建一张表
  *         -i. 创建表的预分区，使用的数据在不同Region中，减少些热点，避免Region Split
  *         -ii. 可以考虑表中数据的压缩，使用snappy压缩或lz4压缩
  *     -v. RowKey设计原则：
  *         - 唯一性（不重复）
  *         - 结合业务考虑
  *           某个EventType数据的分析，某个时间段数据的分析
  *         RowKey = 采用服务器时间戳  +  crc32(用户ID、会员ID、事件名称)
  */
object EtlToHBaseSpark {


  /**
    * RowKey 创建
    * @param time
    *             服务器时间
    * @param uUID
    *             用户ID
    * @param uMD
    *            用户会员ID
    * @param eventAlias
    *                   事件Event名称
    * @return
    */
  def createRowKey(time: Long, uUID: String, uMD: String, eventAlias: String): String = {
    // 创建StringBuilder实例对象，用于拼接字符串
    val sBuilder = new StringBuilder()
    sBuilder.append(time + "_")

    // 创建CRC32实例对象，进行字符串编码，将字符串转换为Logn类型数字
    val crc32 = new CRC32()
    // 重置
    crc32.reset()
    if(StringUtils.isNotBlank(uUID)){
      crc32.update(Bytes.toBytes(uUID))
    }
    if(StringUtils.isNotBlank(uMD)){
      crc32.update(Bytes.toBytes(uMD))
    }
    if(StringUtils.isNotBlank(eventAlias)){
      crc32.update(Bytes.toBytes(eventAlias))
    }

    sBuilder.append(crc32.getValue % 100000000L)
    // return
    sBuilder.toString()
  }

  /**
    * 创建HBase表，创建的时候判断是否已经存在，存在的话先删除后创建
    * @param processDate
    *                    要处理哪天数据的日期，格式：2018-07-22
    * @param conf
    *             HBase Client 要读取的配置信息
    * @return
    *         表的名称
    */
  def createHBaseTable(processDate: String, conf: Configuration): String = {
    // create 'event_logs20151220', 'info'
    val time = TimeUtil.parseString2Long(processDate)
    val date = TimeUtil.parseLong2String(time, "yyyyMMdd")

    // table name
    val tableName = EventLogConstants.HBASE_NAME_EVENT_LOGS + date

    // 创建表，先判断是否存在
    var conn: Connection = null
    var admin: HBaseAdmin = null

    try{
      // 获取连接
      conn = ConnectionFactory.createConnection(conf)
      // 获取HBaseAdmin实例对象
      admin = conn.getAdmin.asInstanceOf[HBaseAdmin]

      // 判断表是否存在
      if(admin.tableExists(tableName)){
        // 表存在，先禁用，后删除
        admin.disableTable(tableName)
        admin.deleteTable(tableName)
      }

      // 创建TableDesc描述符
      val desc = new HTableDescriptor(TableName.valueOf(tableName))
      // 创建表的列簇描述符
      val familyDesc = new HColumnDescriptor(EventLogConstants.BYTES_EVENT_LOGS_FAMILY_NAME)

      /**
        * 针对列簇设置属性值
        */
      // 设置数据压缩
      familyDesc.setCompressionType(Compression.Algorithm.SNAPPY)
      // 设置读取数据不缓存
      familyDesc.setBlockCacheEnabled(false)
      // 向表中添加列簇
      desc.addFamily(familyDesc)

      // 设置表的预分区，针对整个表来说的，不是针对某个列簇
      // TODO: createTable(desc: HTableDescriptor, splitKeys: Array[Array[Byte]])
      admin.createTable(desc,
        Array(
          Bytes.toBytes("1450570500000_"), Bytes.toBytes("1450571100000_"),
          Bytes.toBytes("1450571700000_")
        )
      )
    }catch {
      case e: Exception => e.printStackTrace()
    }finally {
      if(null != admin) admin.close()
      if(null != conn) conn.close()
    }
    // 返回表的名称
    tableName
  }

  /**
    * Spark Application 运行的入口，就是Driver Program
    * @param args
    *             程序的参数，实际业务需要传递 处理哪天你的数据(processDate)
    */
  def main(args: Array[String]): Unit = {

    // 需求传递一个参数，表明ETL处理的数据时哪一天的
    if(args.length < 1){
      println("Usage: EtlToHBaseSpark process_date")
      System.exit(1)
    }

    /**
      * 1. 创建SparkContext实例对象，读取数据，调度Job
      */
    val sparkConf = new SparkConf()
      .setMaster("local[3]").setAppName("EtlToHBaseSpark Application")
      // 设置使用kryo序列化
      .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      // 告知序列化数据类型，看RDD中数据类型，除了simple types, arrays of simple types, or string type
      .registerKryoClasses(Array(classOf[ImmutableBytesWritable], classOf[Put]))

    // 创建SparkContext
    val sc = SparkContext.getOrCreate(sparkConf)
    sc.setLogLevel("WARN")


    /**
      * TODO: a. 读取日志数据，从本地读取
      */
    val eventLogsRDD: RDD[String] = sc
      .textFile("file:///C:/spark-learning/datas/20151220.log", minPartitions = 3)

    // println(s"Count = ${eventLogsRDD.count()}")
    // println(eventLogsRDD.first())

    /**
      * TODO：b. 解析每条日志数据
      */
    val parseEventLogsRDD: RDD[(String, util.Map[String, String])] = eventLogsRDD
      // 通过解析工具类解析每条数据
      .map(line => {
        // 调用工具类进行解析得到Map集合
        val logInfo: util.Map[String, String] = new LogParser().handleLogParser(line)
        // 获取事件的类型
        val eventAlias = logInfo.get(EventLogConstants.LOG_COLUMN_NAME_EVENT_NAME)
        // 以二元组的形式返回
        (eventAlias, logInfo)
      })
    // println(parseEventLogsRDD.first())

    // 存储事件EventType类型
    val eventTypeList = List(EventEnum.LAUNCH, EventEnum.PAGEVIEW, EventEnum.CHARGEREQUEST,
      EventEnum.CHARGESUCCESS, EventEnum.CHARGEREFUND, EventEnum.EVENT)
    // TODO: 定义广播变量，将事件类型列表广播出去，广播给所有Executor
    val eventTypeListBroadcast: Broadcast[List[EventEnum]] = sc.broadcast(eventTypeList)

    /**
      * TODO：c. 过滤数据
      */
    val eventPutsRDD: RDD[(ImmutableBytesWritable, Put)] = parseEventLogsRDD
      // 过滤条件：解析Map集合不能为空; 事件类型EventType必须存在
      // TODO: 性能优化点：将集合列表 拷贝到每个Executor中一份数据，而不是每个Task中一份数据
      .filter{ case(eventAlias, logInfo) =>
        // logInfo.size() != 0 && eventTypeList.contains(EventEnum.valueOfAlias(eventAlias))
        logInfo.size() != 0 && eventTypeListBroadcast.value.contains(EventEnum.valueOfAlias(eventAlias))
      }
      // 数据转换，准备RDD数据库，将数据保存到HBASE表中RDD[(ImmtableBytesWritable, Put)]
      .map{ case(eventAlias, logInfo) =>
        // -i. RowKey 表的主键
        val rowKey = createRowKey(
          TimeUtil.parseNginxServerTime2Long(logInfo.get(EventLogConstants.LOG_COLUMN_NAME_SERVER_TIME)),
          logInfo.get(EventLogConstants.LOG_COLUMN_NAME_UUID), // 用户ID
          logInfo.get(EventLogConstants.LOG_COLUMN_NAME_MEMBER_ID), // 会员ID
          eventAlias // 事件类型别名
        )

        // -ii. 创建Put对象
        val put = new Put(Bytes.toBytes(rowKey))
        // add columns
        // TODO:  注意此处需要将Java中Map集合转换为Scala中Map集合，方能进行操作
        import scala.collection.JavaConverters._
        for((key, value) <- logInfo.asScala){
          put.addColumn(
            EventLogConstants.BYTES_EVENT_LOGS_FAMILY_NAME , // cf
            Bytes.toBytes(key), // column
            Bytes.toBytes(value)
          )
        }

        // iii. 返回二元组
        (new ImmutableBytesWritable(put.getRow), put)
    }

    /**
      * TODO: d. 将RDD保存到HBase表中
      */
    // d.1 获取配置信息, 需要将hbase-site.xml放入CLASSPATH下面
    val conf = HBaseConfiguration.create()

    /**
      * 由于ETL每天执行一次（ETL失败，再次执行），对原始的数据进行处理，将每天的数据存储HBase表中
      *     表的名称：
      *       create 'event_logs20151220', 'info'
      */
    val tableName = createHBaseTable(args(0), conf)

    // d.2 设置表的名称
    conf.set(TableOutputFormat.OUTPUT_TABLE, tableName)

    // d.3 设置OutputFort
    conf.set("mapreduce.job.outputformat.class",
      "org.apache.hadoop.hbase.mapreduce.TableOutputFormat")

    // d.4. 设置输出目录
    conf.set("mapreduce.output.fileoutputformat.outputdir",
      "/datas/spark/hbase/etl-" + System.currentTimeMillis())

    /**
      * TODO: 真正的保存数据到HBase表中
      */
    eventPutsRDD.saveAsNewAPIHadoopDataset(conf)

    // println(eventPutsRDD.count())
    // println(eventPutsRDD.first())

    // 为了开发测试，线程休眠, WEB UI监控查看
    Thread.sleep(1000000)

    // 关闭资源
    sc.stop()
  }
}

5、ETL 日志数据到HBase表中，程序代码优化点

创建表的时候
- 设置表的数据压缩
- 创建预分区
  - 最好分区数多一点，均匀一点，减少Region分割
- 设置读取表中的数据不缓存
  - cache blockfamilyDesc.setBlockCacheEnabled(false)
事件类型EventType过滤优化
- 使用广播变量，将集合列表广播出去，将数据发送到每个Executor一份，而不是每个Task一份数据
- val eventTypeListBroadcast: Broadcast[List[EventEnum]] = sc.broadcast(eventTypeList)
- eventTypeListBroadcast.value
使用HFileOutputFormat
- 向HBase表中存储数据的时候，方式
  - Put方式
    - PutData -> WAL -> MemStore -> StoreFile(HFile)
  - HFile方式
    - Data -> HFile -> Load Table

6、分析需求

新增用户统计分析

第一次访问网站（这一天）就是一个新增用户
- 触发一个事件Event： launch事件 en=e_l

分析指标：需要结合维度来分析

时间维度
- 每天进行统计
平台维度
- 浏览网站所使用的的平台(网站、iOS APP，Android App等)
浏览器维度
- 使用浏览器的类型
定义维度
- 基本维度分析
  - 时间维度 + 平台维度
- 基本维度 + 浏览器维度
  - 时间维度 + 平台维度 + 浏览器维度

7、shared variables （共享变量）

broadcast variables
- 广播变量，变量的值是不可变，被存储到Executor中，以便Task使用的。
accumulators
- 累加器：类似MapReduce程序中的计数器Counters，此变量的值只能增加，不能其他操作

累加器示例：

val accum = sc.longAccumulator("Input Lines Accumulator")
val inputRDD = sc.textFile("/datas/wordcount.data")
val filterRDD = inputRDD.filter(line => {
    accum.add(1L)
    line.trim.length > 0
})
filterRDD.count()

你可能感兴趣的:(笔记)

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
解决Obsidian写笔记中的＜img＞标签无法显示图片的问题全能全知者笔记
Obsidian中写md笔记如果使用标签会显示不出图案，后来才知道因为Obsidian的问题导致只能用绝对路径定位。所以我本人写了一个py插件，将md笔记里的img标签批量替换成Obsidian能够读取的形式。安装FixObsImgDpy:pipinstallFixObsImgDpy安装完成后在需要修复的md文件的父目录下运行命令:FixObsImgDpy就会自动修复父目录以下的全部md文件仓库
2021年周总结 03 Ruby之家
这周的生活过得也是比较快，因为暂时住的离公司有点距离，所以通勤时间相对较长一点，而在地铁上的一个半小时如何充分利用起来，则是我最近一直在思考的问题，2021年想让自己的生活都运行在计划中。(有时候自己想干一件事情就总是给自己找很多借口，想着以后怎么怎么样？然而哪有那么多的以后，能够方便当下的工作生活就立马执行就OK，这仅仅只是我此时想到背的很重的老人机笔记本电脑，也算是陪伴我快8年的—当时买的时候
2021-12-11 人生导演
今天读到佛学书籍的一段话：初学者很难直接体验到无我，但可以经常提醒自己：一切事物都是无我的。不断强化这个观念，也会相当有帮助。比如生病了我们一般会说：“我不舒服！我很痛！我很惨！”这时候如果我们提醒自己：没有我，只是这个肉体的某些部分、某些功能出了问题，不舒服、疼痛也只是一时的感受，而感受随时在变化。仅仅是知道没有一个实存的我在生病、在受苦。然后把“一切事物都是无我的”这句话，记到笔记上，并且朗读
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
LeetCode github集合，附CMU大神整理笔记 Wesley@ LeetCode github
GithubLeetCode集合本人所有做过的题目都写在一个java项目中，同步到github中了，算是见证自己的进步。github目前同步的题目是2020-09-17日之后写的题。之前写过的题会陆续跟新到github中。目前大概400个题目Github项目链接：https://github.com/sunliancheng/leetcode_github附上一份优秀的教材整合：这是卡内基梅隆(C
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

Spark Core笔记

Spark Core笔记

一、What is Spark

二、Spark框架优势

三、Ways to run Spark

1、大家喜欢Spark编程 ，如下四个方面：

2、Runs Everywhere

3、Spark Standalone Cluster

四、RDD（Resilient Distributed Dataset 弹性分布式数据集）

1、就是一个集合

2、创建RDD

五、RDD集合类中的函数（80多种，可以分为三类）

1、转换函数（Transformations）重点

2、Action函数

3、Persistence（）

六、Spark Standalone

1、如何配置Spark Standalone Cluster （伪分布式）

七、大数据集群架构和数据规模

1、集群规模

2、大数据运维部署

八、Spark Application应用在集群上

1、Driver Program - JVM Process

2、Executors

九、Spark Application与MapReduce Application 区别

1、对于MapReduce Application来说

2、对于Spark Application来说

十、RDD 中数据持久化操作(属于lazy操作)

需要RDD#Action函数调用(Job 触发)才能进行持久化操作

十一、对于RDD中某些函数的使用注意：（优化）

十二、数据倾斜

1、何为数据倾斜

2、回顾Hive中数据倾斜的处理：

3、RDD中四大聚合函数，源码分析，基本参数

4、最最底层"聚合"函数的含义

十三、如何提交运行Spark Application呢？？？

十四、Spark 框架中的历史服务器

1、监控运行完成的Spark Application

2、针对Spark HistoryServer来说，如何配置

十五、Spark Application运行在YARN集群上

1、运行在YARN集群上

2、额外回顾YARN知识

十六、deploy-mode DEPLOY_MODE

1、Spark on YARN:

2、企业中实际问题：

十七、Spark 如何与HBase进行交互

1、SparkCore如何读写HBase表中的数据？？？？

2、MapReduce 读写HBase表中的数据，使用底层类

3、读取数据

4、写入数据

5、对于MapReduce框架来说，新旧API，以hadoop-0.20.0版本

十八、基于Spark电商用户行为分析（驴妈妈）

1、基于HADOOP生态系统框架离线数据分析

2、HBase 数据库

3、项目准备工作

4、在Spark程序运行中每个Executor内存的使用

5、ETL 日志数据到HBase表中，程序代码优化点

6、分析需求

7、shared variables （共享变量）

你可能感兴趣的:(笔记)

1、大家喜欢Spark编程，如下四个方面：