北山璎珞

电商指标项目-实时频道热点分析业务开发

1. 业务介绍

频道热点，就是要统计频道被访问（点击）的数量。

分析得到以下的数据：

频道ID	访问数量
频道ID1	128
频道ID2	401
频道ID3	501

需要将历史的点击数据进行累加

2. 业务开发

步骤

创建实时热点样例类，专门用来计算实时热点的数据
将预处理后的数据，转换为要分析出来的数据（频道、访问次数）样例类
按照频道进行分组（分流）
划分时间窗口（3秒一个窗口）
进行合并计数统计
打印测试
将计算后的数据下沉到Hbase

实现

创建一个ChannelRealHotTask单例对象
添加一个ChannelRealHot样例类，它封装要统计的两个业务字段：频道ID（channelID）、访问数量（visited）
在ChannelRealHotTask中编写一个process方法，接收预处理后的DataStream
使用map算子，将ClickLog对象转换为ChannelRealHot
按照频道ID进行分流
划分时间窗口（3秒一个窗口）
执行reduce合并计算
将合并后的数据下沉到hbase
- 判断hbase中是否已经存在结果记录
- 若存在，则获取后进行累加
- 若不存在，则直接写入

package com.xu.realprocess.task

import com.xu.realprocess.bean.ClickLogWide.ClickLogWide
import com.xu.realprocess.util.HBaseUtil
import org.apache.commons.lang.StringUtils
import org.apache.flink.streaming.api.scala.{
     DataStream, KeyedStream, WindowedStream}
import org.apache.flink.api.scala._
import org.apache.flink.streaming.api.datastream.DataStreamSink
import org.apache.flink.streaming.api.functions.sink.SinkFunction
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow



case class ChannelRealHot(var channelid: String, var visited: Long)

/**
  * 频道热点分析
  *
  * 1. 字段转换
  * 2. 分组
  * 3. 时间窗口
  * 4. 聚合
  * 5. 落地HBase
  *
  */
object ChannelRealHotTask {
     

  def process(clickLogWideDataStream: DataStream[ClickLogWide]) = {
     

    // 1. 字段转换 channelid, visited
    val realHotDataStream: DataStream[ChannelRealHot] = clickLogWideDataStream.map {
     
      clickLogWide: ClickLogWide =>
        ChannelRealHot(clickLogWide.channelID, clickLogWide.count)
    }
    // 2. 分组
    val keyedStream: KeyedStream[ChannelRealHot, String] = realHotDataStream.keyBy(_.channelid)

    // 3. 时间窗口
    val windowedStream: WindowedStream[ChannelRealHot, String, TimeWindow] = keyedStream.timeWindow(Time.seconds(3))

    // 4. 聚合
    val reduceDataStream: DataStream[ChannelRealHot] = windowedStream.reduce {
     
      (t1: ChannelRealHot, t2: ChannelRealHot) =>
        ChannelRealHot(t1.channelid, t1.visited + t2.visited)
    }

    // 5. 落地HBase
    reduceDataStream.addSink(new SinkFunction[ChannelRealHot] {
     

      override def invoke(value: ChannelRealHot): Unit = {
     

        // hbase相关字段
        val tableName = "channel"
        val clfName = "info"
        val channelIdColumn = "channelId"
        val visitedColumn = "visited"
        val rowkey = value.channelid

        // 查询HBase,获取相关记录
        val visitedValue: String = HBaseUtil.getData(tableName, rowkey, clfName, visitedColumn)
        // 创建总数的临时变量
        var totalCount: Long = 0

        if (StringUtils.isBlank(visitedValue)) {
     
          totalCount = value.visited
        } else {
     
          totalCount = visitedValue.toLong + value.visited
        }

        // 保存数据
        HBaseUtil.putMapData(tableName, rowkey, clfName, Map(
          channelIdColumn -> value.channelid,
          visitedColumn -> totalCount.toString
        ))
      }
    })
  }

}

三实时频道PV/UV分析

针对频道的PV、UV进行不同时间维度的分析。有以下三个维度：

小时
天
月

3.1 业务介绍

PV(访问量)

即Page View，页面刷新一次算一次。

UV(独立访客)

即Unique Visitor，指定时间内相同的客户端只被计算一次

统计分析后得到的数据如下所示：

频道ID	时间	PV	UV
频道1	2017010116	1230	350
频道2	2017010117	1251	330
频道3	2017010118	5512	610

3.2 小时维度PV/UV业务开发

步骤

创建频道PV、UV样例类
将预处理后的数据，转换为要分析出来的数据（频道、PV、UV）样例类
按照频道和时间进行分组（分流）
划分时间窗口（3秒一个窗口）
进行合并计数统计
打印测试
将计算后的数据下沉到Hbase

实现

创建一个ChannelPvUvTask单例对象
添加一个ChannelPvUv样例类，它封装要统计的四个业务字段：频道ID（channelID）、年月日时、PV、UV
在ChannelPvUvTask中编写一个processHourDim方法，接收预处理后的DataStream
使用map算子，将ClickLog对象转换为ChannelPvUv
按照频道ID、年月日时进行分流
划分时间窗口（3秒一个窗口）
执行reduce合并计算
打印测试
将合并后的数据下沉到hbase
- 判断hbase中是否已经存在结果记录
- 若存在，则获取后进行累加
- 若不存在，则直接写入

3.3 天维度PV/UV业务开发

按天的维度来统计PV、UV与按小时维度类似，就是分组字段不一样。可以直接复制按小时维度的PV/UV，然后修改即可。

3.4 小时/天/月维度PV/UV业务开发

但是，其实上述代码，都是一样的。我们可以将小时、天、月三个时间维度的数据放在一起来进行分组

思路

每一条ClickLog生成三个维度的ChannelPvUv，分别用于三个维度的统计

ChannelPvUv --> 小时维度
ChannelPvUv --> 天维度
ChannelPvUv --> 月维度

实现

使用flatmap算子，将ClickLog转换为三个ChannelPvUv
重新运行测试

核心代码：

```scala
  def process(clicklogWideDataStream:DataStream[ClickLogWide]) = {
     
    ...
    val channelPvUvDataStream: DataStream[ChannelPvUv] = clicklogWideDataStream.flatMap {
     
      clicklog =>
        List(
          ChannelPvUv(clicklog.channelID, clicklog.yearMonthDayHour, clicklog.count, clicklog.isHourNew),
          ChannelPvUv(clicklog.channelID, clicklog.yearMonthDay, clicklog.count, clicklog.isDayNew),
          ChannelPvUv(clicklog.channelID, clicklog.yearMonth, clicklog.count, clicklog.isMonthNew)
        )
    }
    ...
  }

四实时频道用户新鲜度分析

4.1 业务介绍

用户新鲜度即分析网站每小时、每天、每月活跃的新老用户占比

可以通过新鲜度：

从宏观层面上了解每天的新老用户比例以及来源结构
当天新增用户与当天推广行为是否相关

统计分析要得到的数据如下：

频道ID	时间	新用户	老用户
频道1	201703	512	144
频道1	20170318	411	4123
频道1	2017031810	342	4412

4.2 业务开发

步骤

创建频道新鲜度样例类，包含以下字段（频道、时间、新用户、老用户）
将预处理后的数据，转换为新鲜度样例类
按照频道和时间进行分组（分流）
划分时间窗口（3秒一个窗口）
进行合并计数统计
打印测试
将计算后的数据下沉到Hbase

实现

创建一个ChannelFreshnessTask单例对象
添加一个ChannelFreshness样例类，它封装要统计的四个业务字段：频道ID（channelID）、日期（date）、新用户（newCount）、老用户（oldCount）
在ChannelFreshnessTask中编写一个process方法，接收预处理后的DataStream
使用flatMap算子，将ClickLog对象转换为三个不同时间维度ChannelFreshness
按照频道ID、日期进行分流
划分时间窗口（3秒一个窗口）
执行reduce合并计算
打印测试
将合并后的数据下沉到hbase
- 准备hbase的表名、列族名、rowkey名、列名
- 判断hbase中是否已经存在结果记录
- 若存在，则获取后进行累加
- 若不存在，则直接写入

注意：

这个地方，老用户需要注意处理，因为如果不进行判断，就会计算重复的一些用户访问数据

新用户就是根据clicklog拓宽后的isNew来判断

老用户需要判断

如果isNew是0，且isHourNew为1/isDayNew为1、isMonthNew为1，则进行老用户为1

否则为0

核心代码：

// 1. 添加一个`ChannelFreshness`样例类，它封装要统计的四个业务字段：频道ID（channelID）、日期（date）、新用户（newCount）、老用户（oldCount）
case class ChannelFreshness(var channelID:String,
                            var date:String,
                            var newCount:Long,
                            var oldCount:Long)



object ChannelFreshnessTask {
     
  // 2. 在`ChannelFreshnessTask`中编写一个`process`方法，接收预处理后的`DataStream`
  def process(clicklogWideDataStream:DataStream[ClickLogWide]) = {
     

    // 3. 使用flatMap算子，将`ClickLog`对象转换为`ChannelFreshness`
    val channelFreshnessDataStream: DataStream[ChannelFreshness] = clicklogWideDataStream.flatMap {
     
      clicklog =>
        val isOld = (isNew: Int, isDateNew:Int) => if (isNew == 0 && isDateNew == 1) 1 else 0

        List(
          ChannelFreshness(clicklog.channelID, clicklog.yearMonthDayHour, clicklog.isNew, isOld(clicklog.isNew, clicklog.isHourNew)),
          ChannelFreshness(clicklog.channelID, clicklog.yearMonthDay, clicklog.isNew, isOld(clicklog.isDayNew, clicklog.isDayNew)),
          ChannelFreshness(clicklog.channelID, clicklog.yearMonth, clicklog.isNew, isOld(clicklog.isMonthNew, clicklog.isMonthNew))
        )
    }

    // 4. 按照`频道ID`、`日期`进行分流

    val groupedDateStream: KeyedStream[ChannelFreshness, String] = channelFreshnessDataStream.keyBy {
     
      freshness =>
        freshness.channelID + freshness.date
    }

    // 5. 划分时间窗口（3秒一个窗口）
    val windowStream: WindowedStream[ChannelFreshness, String, TimeWindow] = groupedDateStream.timeWindow(Time.seconds(3))

    // 6. 执行reduce合并计算
    val reduceDataStream: DataStream[ChannelFreshness] = windowStream.reduce {
     
      (freshness1, freshness2) =>
        ChannelFreshness(freshness2.channelID, freshness2.date, freshness1.newCount + freshness2.newCount, freshness1.oldCount + freshness2.oldCount)
    }

    // 打印测试
    reduceDataStream.print()

    // 7. 将合并后的数据下沉到hbase
    reduceDataStream.addSink(new SinkFunction[ChannelFreshness] {
     
      override def invoke(value: ChannelFreshness): Unit = {
     
        val tableName = "channel_freshness"
        val cfName = "info"
        // 频道ID（channelID）、日期（date）、新用户（newCount）、老用户（oldCount）
        val channelIdColName = "channelID"
        val dateColName = "date"
        val newCountColName = "newCount"
        val oldCountColName = "oldCount"
        val rowkey = value.channelID + ":" + value.date

        // - 判断hbase中是否已经存在结果记录
        val newCountOldCountMap = HBaseUtil.getData(tableName, rowkey, cfName, List(newCountColName, oldCountColName))

        var totalNewCount = 0L
        var totalOldCount = 0L

        // - 若存在，则获取后进行累加
        if(newCountOldCountMap != null && StringUtils.isNotBlank(newCountOldCountMap.getOrElse(newCountColName, ""))) {
     
          totalNewCount = value.newCount + newCountOldCountMap(newCountColName).toLong
        }
        else {
     
          totalNewCount = value.newCount
        }
        // - 若不存在，则直接写入

        HBaseUtil.putMapData(tableName, rowkey, cfName, Map(
          channelIdColName -> value.channelID,
          dateColName -> value.date,
          newCountColName -> totalNewCount.toString,
          oldCountColName -> totalOldCount.toString
        ))
      }
    })
  }
}

4.3 模板方法提取公共类

模板方法模式是在父类中定义算法的骨架，把具体实延迟到子类中去，可以在不改变一个算法的结构时可重定义该算法的某些步骤。

BaseTask.scala

package com.itheima.realprocess.task

import com.itheima.realprocess.bean.ClickLogWide
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.windows.TimeWindow

// 抽取一个公共的trait, 所有的任务都来实现它
trait BaseTask[T] {
     

  /**
    * 对原始日志数据流 进行map转换 分组 时间窗口 聚合 落地HBase
    * @param clickLogWideDataStream
    * @return
    */
  def process(clickLogWideDataStream: DataStream[ClickLogWide]):Any={
     
    val mapDataStream:DataStream[T] = map(clickLogWideDataStream)
    val keyedStream:KeyedStream[T, String] = keyBy(mapDataStream)
    val windowedStream: WindowedStream[T, String, TimeWindow] = timeWindow(keyedStream)
    val reduceDataStream: DataStream[T] = reduce(windowedStream)
    sink2HBase(reduceDataStream)
  }

  // Map转换数据流
  def map(source:DataStream[ClickLogWide]):DataStream[T]

  // 分组
  def keyBy(mapDataStream: DataStream[T]):KeyedStream[T,String]

  // 时间窗口
  def timeWindow(keyedStream: KeyedStream[T, String]):WindowedStream[T, String, TimeWindow]

  // 聚合  
  def reduce(windowedStream: WindowedStream[T, String, TimeWindow]): DataStream[T]

  // 落地HBase
  def sink2HBase(reduceDataStream: DataStream[T])
}

改造后的代码:

// 添加一个`ChannelFreshness`样例类，它封装要统计的四个业务字段：频道ID（channelID）、日期（date）、新用户（newCount）、老用户（oldCount）
case class ChannelFreshness(var channelID: String,
                            var date: String,
                            var newCount: Long,
                            var oldCount: Long)


object ChannelFreshnessTask extends BaseTask[ChannelFreshness] {
     

  // 1. 使用flatMap算子，将`ClickLog`对象转换为`ChannelFreshness`
  override def map(source: DataStream[ClickLogWide]): DataStream[ChannelFreshness] = {
     
    source.flatMap {
     
      clicklog =>
        val isOld = (isNew: Int, isDateNew: Int) => if (isNew == 0 && isDateNew == 1) 1 else 0

        List(
          ChannelFreshness(clicklog.channelID, clicklog.yearMonthDayHour, clicklog.isNew, isOld(clicklog.isNew, clicklog.isHourNew)),
          ChannelFreshness(clicklog.channelID, clicklog.yearMonthDay, clicklog.isNew, isOld(clicklog.isDayNew, clicklog.isDayNew)),
          ChannelFreshness(clicklog.channelID, clicklog.yearMonth, clicklog.isNew, isOld(clicklog.isMonthNew, clicklog.isMonthNew))
        )
    }
  }

  override def keyBy(mapDataStream: DataStream[ChannelFreshness]): KeyedStream[ChannelFreshness, String] = {
     
    mapDataStream.keyBy {
     
      freshness =>
        freshness.channelID + freshness.date
    }
  }

  override def timeWindow(keyedStream: KeyedStream[ChannelFreshness, String]): WindowedStream[ChannelFreshness, String, TimeWindow] = {
     
    keyedStream.timeWindow(Time.seconds(3))
  }

  override def reduce(windowedStream: WindowedStream[ChannelFreshness, String, TimeWindow]): DataStream[ChannelFreshness] = {
     
    windowedStream.reduce {
     
      (freshness1, freshness2) =>
        ChannelFreshness(freshness2.channelID, freshness2.date, freshness1.newCount + freshness2.newCount, freshness1.oldCount + freshness2.oldCount)
    }
  }

  override def sink2HBase(reduceDataStream: DataStream[ChannelFreshness]) = {
     
    reduceDataStream.addSink {
     
      value => {
     
        val tableName = "channel_freshness"
        val cfName = "info"
        // 频道ID（channelID）、日期（date）、新用户（newCount）、老用户（oldCount）
        val channelIdColName = "channelID"
        val dateColName = "date"
        val newCountColName = "newCount"
        val oldCountColName = "oldCount"
        val rowkey = value.channelID + ":" + value.date

        // - 判断hbase中是否已经存在结果记录
        val newCountInHBase = HBaseUtil.getData(tableName, rowkey, cfName, newCountColName)
        val oldCountInHBase = HBaseUtil.getData(tableName, rowkey, cfName, oldCountColName)

        var totalNewCount = 0L
        var totalOldCount = 0L

        // 判断hbase中是否有历史的指标数据
        if (StringUtils.isNotBlank(newCountInHBase)) {
     
          totalNewCount = newCountInHBase.toLong + value.newCount
        }
        else {
     
          totalNewCount = value.newCount
        }

        if (StringUtils.isNotBlank(oldCountInHBase)) {
     
          totalOldCount = oldCountInHBase.toLong + value.oldCount
        }
        else {
     
          totalOldCount = value.oldCount
        }

        // 将合并累计的数据写入到hbase中
        HBaseUtil.putMapData(tableName, rowkey, cfName, Map(
          channelIdColName -> value.channelID,
          dateColName -> value.date,
          newCountColName -> totalNewCount,
          oldCountColName -> totalOldCount
        ))
      }
    }
  }
}

五实时频道地域分析业务开发

5.1 业务介绍

通过地域分析，可以帮助查看地域相关的PV/UV、用户新鲜度。

需要分析出来指标

PV
UV
新用户
老用户

需要分析的维度

地域（国家省市）——这里为了节省时间，只分析市级的地域维度，其他维度大家可以自己来实现
时间维度（时、天、月）

统计分析后的结果如下：

频道ID	地域（国/省/市）	时间	PV	UV	新用户	老用户
频道1	中国北京市朝阳区	201809	1000	300	123	171
频道1	中国北京市朝阳区	20180910	512	123	23	100
频道1	中国北京市朝阳区	2018091010	100	41	11	30

5.2 业务开发

步骤

创建频道地域分析样例类（频道、地域（国省市）、时间、PV、UV、新用户、老用户）
将预处理后的数据，使用flatMap转换为样例类
按照频道、时间、地域进行分组（分流）
划分时间窗口（3秒一个窗口）
进行合并计数统计
打印测试
将计算后的数据下沉到Hbase

实现

创建一个ChannelAreaTask单例对象
添加一个ChannelArea样例类，它封装要统计的四个业务字段：频道ID（channelID）、地域（area）、日期（date）pv、uv、新用户（newCount）、老用户（oldCount）
在ChannelAreaTask中编写一个process方法，接收预处理后的DataStream
使用flatMap算子，将ClickLog对象转换为三个不同时间维度ChannelArea
按照频道ID、时间、地域进行分流
划分时间窗口（3秒一个窗口）
执行reduce合并计算
打印测试
将合并后的数据下沉到hbase
- 准备hbase的表名、列族名、rowkey名、列名
- 判断hbase中是否已经存在结果记录
- 若存在，则获取后进行累加
- 若不存在，则直接写入

核心代码：
ChannelFreshnessTask.scala

package com.itheima.realprocess.task

import com.itheima.realprocess.bean.ClickLogWide
import com.itheima.realprocess.util.HBaseUtil
import org.apache.commons.lang.StringUtils
import org.apache.flink.streaming.api.scala.{
     DataStream, KeyedStream, WindowedStream}
import org.apache.flink.api.scala._
import org.apache.flink.streaming.api.functions.sink.SinkFunction
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow


// 添加一个`ChannelFreshness`样例类，它封装要统计的四个业务字段：频道ID（channelID）、日期（date）、新用户（newCount）、老用户（oldCount）
case class ChannelFreshness(var channelID: String,
                            var date: String,
                            var newCount: Long,
                            var oldCount: Long)


object ChannelFreshnessTask extends BaseTask[ChannelFreshness] {
     

  // 1. 使用flatMap算子，将`ClickLog`对象转换为`ChannelFreshness`
  override def map(source: DataStream[ClickLogWide]): DataStream[ChannelFreshness] = {
     
    source.flatMap {
     
      clicklog =>
        val isOld = (isNew: Int, isDateNew: Int) => if (isNew == 0 && isDateNew == 1) 1 else 0

        List(
          ChannelFreshness(clicklog.channelID, clicklog.yearMonthDayHour, clicklog.isNew, isOld(clicklog.isNew, clicklog.isHourNew)),
          ChannelFreshness(clicklog.channelID, clicklog.yearMonthDay, clicklog.isNew, isOld(clicklog.isDayNew, clicklog.isDayNew)),
          ChannelFreshness(clicklog.channelID, clicklog.yearMonth, clicklog.isNew, isOld(clicklog.isMonthNew, clicklog.isMonthNew))
        )
    }
  }

  override def keyBy(mapDataStream: DataStream[ChannelFreshness]): KeyedStream[ChannelFreshness, String] = {
     
    mapDataStream.keyBy {
     
      freshness =>
        freshness.channelID + freshness.date
    }
  }

  override def timeWindow(keyedStream: KeyedStream[ChannelFreshness, String]): WindowedStream[ChannelFreshness, String, TimeWindow] = {
     
    keyedStream.timeWindow(Time.seconds(3))
  }

  override def reduce(windowedStream: WindowedStream[ChannelFreshness, String, TimeWindow]): DataStream[ChannelFreshness] = {
     
    windowedStream.reduce {
     
      (freshness1, freshness2) =>
        ChannelFreshness(freshness2.channelID, freshness2.date, freshness1.newCount + freshness2.newCount, freshness1.oldCount + freshness2.oldCount)
    }
  }

  override def sink2HBase(reduceDataStream: DataStream[ChannelFreshness]) = {
     
    reduceDataStream.addSink {
     
      value => {
     
        val tableName = "channel_freshness"
        val cfName = "info"
        // 频道ID（channelID）、日期（date）、新用户（newCount）、老用户（oldCount）
        val channelIdColName = "channelID"
        val dateColName = "date"
        val newCountColName = "newCount"
        val oldCountColName = "oldCount"
        val rowkey = value.channelID + ":" + value.date

        // - 判断hbase中是否已经存在结果记录
        val newCountInHBase = HBaseUtil.getData(tableName, rowkey, cfName, newCountColName)
        val oldCountInHBase = HBaseUtil.getData(tableName, rowkey, cfName, oldCountColName)

        var totalNewCount = 0L
        var totalOldCount = 0L

        // 判断hbase中是否有历史的指标数据
        if (StringUtils.isNotBlank(newCountInHBase)) {
     
          totalNewCount = newCountInHBase.toLong + value.newCount
        }
        else {
     
          totalNewCount = value.newCount
        }

        if (StringUtils.isNotBlank(oldCountInHBase)) {
     
          totalOldCount = oldCountInHBase.toLong + value.oldCount
        }
        else {
     
          totalOldCount = value.oldCount
        }

        // 将合并累计的数据写入到hbase中
        HBaseUtil.putMapData(tableName, rowkey, cfName, Map(
          channelIdColName -> value.channelID,
          dateColName -> value.date,
          newCountColName -> totalNewCount,
          oldCountColName -> totalOldCount
        ))
      }
    }
  }
}

六实时运营商分析业务开发

6.1 业务介绍

分析出来中国移动、中国联通、中国电信等运营商的指标。来分析，流量的主要来源是哪个运营商的，这样就可以进行较准确的网络推广。

需要分析出来指标

PV
UV
新用户
老用户

需要分析的维度

运营商
时间维度（时、天、月）

统计分析后的结果如下：

频道ID	运营商	时间	PV	UV	新用户	老用户
频道1		201809	1000	300	0	300
频道1	中国联通	20180910	123	1	0	1
频道1	中国电信	2018091010	55	2	2	0

6.2 业务开发

步骤

将预处理后的数据，转换为要分析出来数据（频道、运营商、时间、PV、UV、新用户、老用户）样例类
按照频道、时间、运营商进行分组（分流）
划分时间窗口（3秒一个窗口）
进行合并计数统计
打印测试
将计算后的数据下沉到Hbase

实现

创建一个ChannelNetworkTask单例对象
添加一个ChannelNetwork样例类，它封装要统计的四个业务字段：频道ID（channelID）、运营商（network）、日期（date）pv、uv、新用户（newCount）、老用户（oldCount）
在ChannelNetworkTask中编写一个process方法，接收预处理后的DataStream
使用flatMap算子，将ClickLog对象转换为三个不同时间维度ChannelNetwork
按照频道ID、时间、运营商进行分流
划分时间窗口（3秒一个窗口）
执行reduce合并计算
打印测试
将合并后的数据下沉到hbase
- 准备hbase的表名、列族名、rowkey名、列名
- 判断hbase中是否已经存在结果记录
- 若存在，则获取后进行累加
- 若不存在，则直接写入

核心代码：

package com.itheima.realprocess.task

import com.itheima.realprocess.bean.ClickLogWide
import com.itheima.realprocess.util.HBaseUtil
import org.apache.commons.lang.StringUtils
import org.apache.flink.streaming.api.scala.{
     DataStream, KeyedStream, WindowedStream}
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.api.scala._
import org.apache.flink.streaming.api.functions.sink.SinkFunction
import org.apache.flink.streaming.api.windowing.time.Time

// 2. 添加一个`ChannelNetwork`样例类，它封装要统计的四个业务字段：频道ID（channelID）、运营商（network）、日期（date）pv、uv、新用户（newCount）、老用户（oldCount）
case class ChannelNetwork(var channelID: String,
                          var network: String,
                          var date: String,
                          var pv: Long,
                          var uv: Long,
                          var newCount: Long,
                          var oldCount: Long)

object ChannelNetworkTask extends BaseTask[ChannelNetwork] {
     

  override def map(source: DataStream[ClickLogWide]): DataStream[ChannelNetwork] = {
     

    source.flatMap {
     
      clicklog =>
        val isOld = (isNew: Int, isDateNew: Int) => if (isNew == 0 && isDateNew == 1) 1 else 0

        List(
          ChannelNetwork(clicklog.channelID,
            clicklog.network,
            clicklog.yearMonthDayHour,
            clicklog.count,
            clicklog.isHourNew,
            clicklog.isNew,
            isOld(clicklog.isNew, clicklog.isHourNew)), // 小时维度
          ChannelNetwork(clicklog.channelID,
            clicklog.network,
            clicklog.yearMonthDay,
            clicklog.count,
            clicklog.isDayNew,
            clicklog.isNew,
            isOld(clicklog.isNew, clicklog.isDayNew)), // 天维度
          ChannelNetwork(clicklog.channelID,
            clicklog.network,
            clicklog.yearMonth,
            clicklog.count,
            clicklog.isMonthNew,
            clicklog.isNew,
            isOld(clicklog.isNew, clicklog.isMonthNew)) // 月维度
        )
    }
  }

  override def keyBy(mapDataStream: DataStream[ChannelNetwork]): KeyedStream[ChannelNetwork, String] = {
     
    mapDataStream.keyBy {
     
      network =>
        network.channelID + network.date + network.network
    }
  }

  override def timeWindow(keyedStream: KeyedStream[ChannelNetwork, String]): WindowedStream[ChannelNetwork, String, TimeWindow] = {
     
    keyedStream.timeWindow(Time.seconds(3))
  }

  override def reduce(windowedStream: WindowedStream[ChannelNetwork, String, TimeWindow]): DataStream[ChannelNetwork] = {
     
    windowedStream.reduce {
     
      (network1, network2) =>
        ChannelNetwork(network2.channelID,
          network2.network,
          network2.date,
          network1.pv + network2.pv,
          network1.uv + network2.uv,
          network1.newCount + network2.newCount,
          network1.oldCount + network2.oldCount)
    }
  }

  override def sink2HBase(reduceDataStream: DataStream[ChannelNetwork]): Unit = {
     
    reduceDataStream.addSink(new SinkFunction[ChannelNetwork] {
     
      override def invoke(value: ChannelNetwork): Unit = {
     
        // - 准备hbase的表名、列族名、rowkey名、列名
        val tableName = "channel_network"
        val cfName = "info"
        // 频道ID（channelID）、运营商（network）、日期（date）pv、uv、新用户（newCount）、老用户（oldCount）
        val rowkey = s"${value.channelID}:${value.date}:${value.network}"
        val channelIdColName = "channelID"
        val networkColName = "network"
        val dateColName = "date"
        val pvColName = "pv"
        val uvColName = "uv"
        val newCountColName = "newCount"
        val oldCountColName = "oldCount"

        // - 判断hbase中是否已经存在结果记录
        val resultMap: Map[String, String] = HBaseUtil.getMapData(tableName, rowkey, cfName, List(
          pvColName,
          uvColName,
          newCountColName,
          oldCountColName
        ))

        var totalPv = 0L
        var totalUv = 0L
        var totalNewCount = 0L
        var totalOldCount = 0L

        if(resultMap != null && resultMap.size > 0 && StringUtils.isNotBlank(resultMap(pvColName))) {
     
          totalPv = resultMap(pvColName).toLong + value.pv
        }
        else {
     
          totalPv = value.pv
        }

        if(resultMap != null && resultMap.size > 0 && StringUtils.isNotBlank(resultMap(uvColName))) {
     
          totalUv = resultMap(uvColName).toLong + value.uv
        }
        else {
     
          totalUv = value.uv
        }

        if(resultMap != null && resultMap.size > 0 && StringUtils.isNotBlank(resultMap(newCountColName))) {
     
          totalNewCount = resultMap(newCountColName).toLong + value.newCount
        }
        else {
     
          totalNewCount = value.newCount
        }

        if(resultMap != null && resultMap.size > 0 && StringUtils.isNotBlank(resultMap(oldCountColName))) {
     
          totalOldCount = resultMap(oldCountColName).toLong + value.oldCount
        }
        else {
     
          totalOldCount = value.oldCount
        }

        // 频道ID（channelID）、运营商（network）、日期（date）pv、uv、新用户（newCount）、老用户（oldCount）
        HBaseUtil.putMapData(tableName, rowkey, cfName, Map(
          channelIdColName -> value.channelID,
          networkColName -> value.network,
          dateColName -> value.date,
          pvColName -> totalPv.toString,
          uvColName -> totalUv.toString,
          newCountColName -> totalNewCount.toString,
          oldCountColName -> totalOldCount.toString
        ))
      }
    })
  }
}

七实时频道浏览器分析业务开发

7.1 业务介绍

需要分别统计不同浏览器（或者客户端）的占比

需要分析出来指标

PV
UV
新用户
老用户

需要分析的维度

浏览器
时间维度（时、天、月）

统计分析后的结果如下：

频道ID	浏览器	时间	PV	UV	新用户	老用户
频道1	360浏览器	201809	1000	300	0	300
频道1	IE	20180910	123	1	0	1
频道1	Chrome	2018091010	55	2	2	0

7.2 业务开发

步骤

创建频道浏览器分析样例类（频道、浏览器、时间、PV、UV、新用户、老用户）
将预处理后的数据，使用flatMap转换为要分析出来数据样例类
按照频道、时间、浏览器进行分组（分流）
划分时间窗口（3秒一个窗口）
进行合并计数统计
打印测试
将计算后的数据下沉到Hbase

实现

创建一个ChannelBrowserTask单例对象
添加一个ChannelBrowser样例类，它封装要统计的四个业务字段：频道ID（channelID）、浏览器（browser）、日期（date）pv、uv、新用户（newCount）、老用户（oldCount）
在ChannelBrowserTask中编写一个process方法，接收预处理后的DataStream
使用flatMap算子，将ClickLog对象转换为三个不同时间维度ChannelBrowser
按照频道ID、时间、浏览器进行分流
划分时间窗口（3秒一个窗口）
执行reduce合并计算
打印测试
将合并后的数据下沉到hbase
- 准备hbase的表名、列族名、rowkey名、列名
- 判断hbase中是否已经存在结果记录
- 若存在，则获取后进行累加
- 若不存在，则直接写入

核心代码：

package com.itheima.realprocess.task

import com.itheima.realprocess.bean.ClickLogWide
import com.itheima.realprocess.util.HBaseUtil
import org.apache.commons.lang.StringUtils
import org.apache.flink.streaming.api.scala.{
     DataStream, KeyedStream, WindowedStream}
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.api.scala._
import org.apache.flink.streaming.api.functions.sink.SinkFunction
import org.apache.flink.streaming.api.windowing.time.Time

// 2. 添加一个`ChannelBrowser`样例类，它封装要统计的四个业务字段：频道ID（channelID）、浏览器（browser）、日期（date）pv、uv、新用户（newCount）、老用户（oldCount）
case class ChannelBrowser(var channelID: String,
                          var browser: String,
                          var date: String,
                          var pv: Long,
                          var uv: Long,
                          var newCount: Long,
                          var oldCount: Long)


object ChannelBrowserTask extends BaseTask[ChannelBrowser] {
     

  override def map(source: DataStream[ClickLogWide]): DataStream[ChannelBrowser] = {
     

    source.flatMap {
     
      clicklog =>
        val isOld = (isNew: Int, isDateNew: Int) => if (isNew == 0 && isDateNew == 1) 1 else 0

        List(
          ChannelBrowser(clicklog.channelID,
            clicklog.browserType,
            clicklog.yearMonthDayHour,
            clicklog.count,
            clicklog.isHourNew,
            clicklog.isNew,
            isOld(clicklog.isNew, clicklog.isHourNew)), // 小时维度
          ChannelBrowser(clicklog.channelID,
            clicklog.browserType,
            clicklog.yearMonthDayHour,
            clicklog.count,
            clicklog.isDayNew,
            clicklog.isNew,
            isOld(clicklog.isNew, clicklog.isDayNew)), // 天维度
          ChannelBrowser(clicklog.channelID,
            clicklog.browserType,
            clicklog.yearMonth,
            clicklog.count,
            clicklog.isMonthNew,
            clicklog.isNew,
            isOld(clicklog.isNew, clicklog.isMonthNew)) // 月维度
        )
    }
  }

  override def keyBy(mapDataStream: DataStream[ChannelBrowser]): KeyedStream[ChannelBrowser, String] = {
     
    mapDataStream.keyBy {
     
      broswer =>
        broswer.channelID + broswer.date + broswer.browser
    }
  }

  override def timeWindow(keyedStream: KeyedStream[ChannelBrowser, String]): WindowedStream[ChannelBrowser, String, TimeWindow] = {
     
    keyedStream.timeWindow(Time.seconds(3))
  }

  override def reduce(windowedStream: WindowedStream[ChannelBrowser, String, TimeWindow]): DataStream[ChannelBrowser] = {
     
    windowedStream.reduce {
     
      (broswer1, broswer2) =>
        ChannelBrowser(broswer2.channelID,
          broswer2.browser,
          broswer2.date,
          broswer1.pv + broswer2.pv,
          broswer1.uv + broswer2.uv,
          broswer1.newCount + broswer2.newCount,
          broswer1.oldCount + broswer2.oldCount)
    }
  }

  override def sink2HBase(reduceDataStream: DataStream[ChannelBrowser]): Unit = {
     

    reduceDataStream.addSink(new SinkFunction[ChannelBrowser] {
     
      override def invoke(value: ChannelBrowser): Unit = {
     
        // - 准备hbase的表名、列族名、rowkey名、列名
        val tableName = "channel_broswer"
        val cfName = "info"
        // 频道ID（channelID）、浏览器（browser）、日期（date）pv、uv、新用户（newCount）、老用户（oldCount）
        val rowkey = s"${value.channelID}:${value.date}:${value.browser}"
        val channelIDColName = "channelID"
        val broswerColName = "browser"
        val dateColName = "date"
        val pvColName = "pv"
        val uvColName = "uv"
        val newCountColName = "newCount"
        val oldCountColName = "oldCount"

        var totalPv = 0L
        var totalUv = 0L
        var totalNewCount = 0L
        var totalOldCount = 0L

        val resultMap: Map[String, String] = HBaseUtil.getMapData(tableName, rowkey, cfName, List(
          pvColName,
          uvColName,
          newCountColName,
          oldCountColName
        ))

        // 计算PV，如果Hbase中存在pv数据，就直接进行累加

        if (resultMap != null && resultMap.size > 0 && StringUtils.isNotBlank(resultMap(pvColName))) {
     
          totalPv = resultMap(pvColName).toLong + value.pv
        }
        else {
     
          totalPv = value.pv
        }

        if (resultMap != null && resultMap.size > 0 && StringUtils.isNotBlank(resultMap(uvColName))) {
     
          totalUv = resultMap(uvColName).toLong + value.uv
        }
        else {
     
          totalUv = value.uv
        }


        // - 判断hbase中是否已经存在结果记录
        // - 若存在，则获取后进行累加
        // - 若不存在，则直接写入
        if (resultMap != null && resultMap.size > 0 && StringUtils.isNotBlank(resultMap(newCountColName))) {
     
          totalNewCount = resultMap(newCountColName).toLong + value.newCount
        }
        else {
     
          totalNewCount = value.newCount
        }

        if (resultMap != null && resultMap.size > 0 && StringUtils.isNotBlank(resultMap(oldCountColName))) {
     
          totalOldCount = resultMap(oldCountColName).toLong + value.oldCount
        }
        else {
     
          totalOldCount = value.oldCount
        }

        // 频道ID（channelID）、浏览器（browser）、日期（date）pv、uv、新用户（newCount）、老用户（oldCount）
        HBaseUtil.putMapData(tableName, rowkey, cfName, Map(
          channelIDColName -> value.channelID,
          broswerColName -> value.browser,
          dateColName -> value.date,
          pvColName -> totalPv.toString,
          uvColName -> totalUv.toString,
          newCountColName -> totalNewCount.toString,
          oldCountColName -> totalOldCount.toString
        ))
      }
    })
  }

}

你可能感兴趣的:(Flink,flink,flink实战)

Python爬虫实战：研究chardet库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 chardet
1.引言1.1研究背景与意义在互联网信息爆炸的时代，网络数据采集技术已成为信息获取、数据分析和知识发现的重要手段。Python作为一种高效的编程语言，凭借其丰富的第三方库和简洁的语法，成为爬虫开发的首选语言之一。然而，在网络数据采集中，文本编码的多样性和不确定性一直是困扰开发者的主要问题之一。不同网站可能采用不同的编码方式（如UTF-8、GBK、GB2312等），甚至同一网站的不同页面也可能使用不
九、K8s污点和容忍退役小学生呀 K8s企业级深度研修 kubernetes docker 容器云原生 k8s linux 运维
九、K8s污点和容忍文章目录九、K8s污点和容忍1、污点（Taint）和容忍（Toleration）1.1什么是污点（Taint）？1.2什么是容忍（Toleration）？1.3污点的影响效果（Effect）1.4污点配置解析1.5常见内置污点2、污点的增删改查2.1添加污点2.2修改污点2.3查询污点2.4删除污点3、污点和容忍使用场景实战3.1K8s主节点禁止调度3.2K8s新节点禁止调度3
MySQL性能调优实战指南：从踩坑到精通，让数据库“跑”起来！码不停蹄的玄黓数据库 mysql MySQL调优
引言作为后端开发/DBA，你是否也经历过这样的崩溃时刻？业务高峰期数据库CPU飙到90%，慢查询堆成山；主从延迟严重，读操作频繁超时；批量插入数据时，应用卡成“PPT”；优化了半天索引，查询还是慢……别慌！今天这篇文章结合个人数据库调优经验，从架构设计→配置调优→索引优化→SQL诊断→硬件加持全链路拆解，带你彻底搞定MySQL性能瓶颈！一、先搞清楚：你的数据库到底“卡”在哪？优化前必须做的一步：定
Python多线程vs多进程：一场关于效率的“宫斗戏“，谁才是你的真命天子？
清晨的咖啡还冒着热气，你盯着监控面板上飙升的CPU使用率，键盘敲出的代码在"多线程"和"多进程"之间反复横跳——这可能是每个Python开发者都会经历的"效率抉择时刻"。当项目从"能跑就行"进化到"必须快跑"，多线程与多进程这对"欢喜冤家"就会跳出来，用各自的"十八般武艺"让你挑花眼。今天咱们就来扒开表象，从底层机制到实战案例，彻底搞懂这对CP的爱恨纠葛。一、GIL：多线程头顶的"紧箍咒"要聊多线
【mongodb】mongodb数据备份与恢复向往风的男子运维日常 DBA mongodb 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
Redis Geo结构详解：从原理到实战，手把手教你玩转地理位置功能码不停蹄的玄黓 redis 数据库缓存
在互联网产品中，“附近的人”“附近的店”“配送范围”这类功能越来越常见。以前做这种功能可能需要依赖MySQL的经纬度计算，或者上专业的GIS数据库（比如PostGIS），但Redis3.2版本后推出的Geo（地理信息）模块，用极简的API和高效的性能，完美解决了这类问题。今天咱们就来深入聊聊RedisGeo的底层原理、常用命令和实战场景。一、为什么需要RedisGeo？先想个场景：你要做一个“附近
Flutter 入门 TE-茶叶蛋 Flutter flutter
文章目录前言一、Flutter入门篇1.环境搭建2.Dart语言基础3.第一个Flutter应用4.核心组件与布局5.状态管理（基础）二、Flutter进阶篇1.深度状态管理2.路由与导航3.网络与数据持久化4.动画与自定义绘制5.插件与平台交互6.性能优化7.测试与调试三、高级实战技巧1.架构设计2.跨平台适配3.混合开发4.国际化与无障碍四、学习资源推荐五、学习建议前言以下是一份系统的Flut
STM32中的UART详解
前言在嵌入式开发中，串口通信是最常用的调试与数据传输方式之一。UART（UniversalAsynchronousReceiver/Transmitter，通用异步收发传输器）作为一种简单、可靠的异步通信协议，被广泛应用于STM32与传感器、上位机、蓝牙模块等外设的交互场景。本文将从协议基础到STM32实战，全面解析UART协议在STM32中的应用，包含硬件设计、软件配置、实战案例及调试技巧，适合
《实战！用Java+Spring构建高并发电商秒杀系统（小学生都能懂的超详细教程）
大家好呀！今天咱们来聊一个特别刺激的话题——如何用Java和Spring框架打造一个能抗住百万流量的电商秒杀系统！⚡想象一下双11零点，几万人同时抢购限量商品，你的系统会不会直接"扑街"？别担心，跟着我一步步来，保证你能做出一个稳如老狗的秒杀系统！一、秒杀系统到底难在哪？首先咱们得明白，秒杀系统为啥这么难搞？主要是这四大"怪兽"：高并发：几万人同时点"立即购买"，服务器要炸超卖问题：库存就100件
C# OPC UA 客户端开发实战：与PLC的数据交互仰望尾迹云
本文还有配套的精品资源，点击获取简介：本压缩包提供了一个利用C#与OPCUA和KepServerEX实现与PLC数据交互的项目案例。介绍了OPCUA协议的工业通信标准、KepServerEX的使用、C#在工业自动化中的应用、OPCUA客户端API的基本功能，以及相关的DLL文件和工具，旨在简化OPCUA客户端的开发流程，帮助开发者快速创建能够与PLC进行数据交互的C#应用程序。1.OPCUA（OP
2025年渗透测试面试题总结-2025年HW(护网面试) 31（题目+回答）独行soc 2025年护网面试职场和发展安全 linux 护网渗透测试
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)311.自我介绍2.渗透测试流程（五阶段模型）3.技术栈与开发经历4.自动化挖洞实践5.信息搜集方法论6.深度漏洞挖掘案例8.SQL注入实战技巧9.AWVS扫描与防御10.CSRFvsSSRF核心差异11.SSRF正则绕过技术12.虚拟主机识别原
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
C#上位机实战开发指南 ba_wang_mao
时隔半个多月，上位机教程终于写完第三章：Windows窗体程序，现开源给大家学习。有任何错误或者修改意见还请回贴指出，谢谢。【第三章】C#上位机实战开发指南.pdfhttps://www.firebbs.cn/thread-14611-1-1.html
【前端进阶】【实战】【性能优化】前端开发中的事件监听与DOM操作优化实践患得患失949 数字孪生前端性能优化前端
前端开发中的事件监听与DOM操作优化实践在前端开发中，事件监听器的管理和DOM操作的优化是提升应用性能和稳定性的关键。本文将结合具体案例，探讨如何通过技术手段解决这些问题，并分享一些实用的优化技巧。问题背景在一个基于高德地图的应用中，我们实现了一个信息窗口组件（InfoWindow），其中包含视频播放功能和轮播图展示。随着用户交互的增加，我们遇到了以下问题：信息窗口频繁打开关闭后，页面性能明显下降
【数字孪生】【GIS】【实战】高德地图GIS开发实战：从基础到交互进阶患得患失949 GIS 数字孪生交互状态模式
高德地图GIS开发实战：从基础到交互进阶一、你将学到什么？GIS开发核心能力地图初始化与个性化样式配置（道路、陆地、POI自定义）。自定义标注（Marker）的创建、居中定位与图标替换。信息窗体（InfoWindow）的内容定制、事件绑定与手动控制。交互开发技能标注点击事件、坐标复制、地图缩放等交互逻辑实现。动态内容更新（多标注对应不同信息窗体内容）。前端性能优化（批量标注管理、事件监听时机控制）
Redis存储Cookie实现爬虫保持登录 requests | selenium
前言前面已经介绍了requests和selenium这两种方式的基础知识和模拟登录,但是我们需要每次都进行登录,这明显是很麻烦并且不合理的,所以这次我分享一下怎么可以让我们的程序进行一次登录之后,和普通浏览器一样下次不进行登录直接进行对网站数据的爬取下面的我分享的内容需要前置知识,如果同志有知识不理解,可以查看我以前写的文章Python爬虫request三方库实战-CSDN博客Python爬虫XP
从源码到思想：OneCode框架模块化设计如何解决前端大型应用痛点低代码老李软件行业领域设计低代码前端框架架构
在前端大型应用开发中，“模块拆分混乱、依赖关系复杂、资源加载失控”是三大痛点。OneCode框架通过Module.js（模块基类）和ModuleFactory.js（模块工厂）构建了一套完整的模块化管理机制，不仅实现了模块的“生老病死”全生命周期管控，更解决了跨模块通信、依赖加载等核心问题。本文从“为什么这么设计”的角度，拆解其底层逻辑与实战价值。一、先理解：前端模块化的核心矛盾无论用什么框架，模
揭秘 Spring Cloud Zuul 在后端的负载均衡策略大厂资深架构师 Spring Boot 开发实战 spring cloud 负载均衡 spring ai
揭秘SpringCloudZuul在后端的负载均衡策略关键词：SpringCloudZuul、负载均衡、微服务网关、Ribbon、请求路由摘要：在微服务架构中，API网关是流量的“总调度员”，而负载均衡则是它的“智能大脑”。本文将以“小区门卫派件”为故事主线，用通俗易懂的语言揭秘SpringCloudZuul如何通过集成Ribbon实现后端负载均衡。我们将从核心概念到算法原理，从代码实战到应用场景
Vue.js前端开发实战-----常用UI组件
1.进入命令行界面，执行yarncreatevite命令，输入项目名称，选择Vue框架，选择JavaScript，完成vue项目创建。2.在完成创建之后在其目录下通过yarn安装ElementPius，具体命令如下：[email protected].在VSCode中创建一个新的vue文件，文件名称命名分别为MyInfo.vue，RoommateDetail.vue
PyTorch中 item()、tolist()使用详解和实战示例点云SLAM PyTorch深度学习 pytorch 人工智能 python 深度学习张量的操作 item tolist
在PyTorch中，.item()和.tolist()是两个常用于从Tensor中提取Python原生数据的方法，尤其在调试、日志记录或将结果传给非张量库时非常有用。下面是它们的详解与代码示例。1..item()方法用途：将仅包含一个元素的张量（即标量张量）转换为对应的Python原生数据类型（float,int,等）。限制：只能用于只包含一个元素的Tensor，否则会报错。示例代码：import
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
ShaderGraph节点解析(136):矩形节点（Rectangle Node）详解小李也疯狂 #Unity ShaderGraph Rectangle
目录一、节点功能概述二、端口详解三、控制选项四、技术原理解析4.1数学原理（距离场计算）4.2生成代码解析4.3视觉特性五、应用场景与实战案例5.1UI元素（矩形按钮/面板）场景：在UI中生成无纹理的矩形按钮或面板，支持动态调整大小和圆角（配合其他节点）5.2材质纹理（网格/条纹）场景：为材质添加矩形网格或条纹纹理（如布料格子、屏幕像素感）5.3粒子形状（矩形粒子/条纹）场景：控制粒子的形状为矩形
ShaderGraph节点解析(124):绕轴旋转节点（Rotate About Axis Node）详解小李也疯狂 #unity ShaderGraph Unity
目录一、节点功能概述二、端口详解控制选项三、技术原理解析3.1数学基础：罗德里格斯旋转公式3.2旋转矩阵构造3.3生成代码解析1.弧度模式（Radians）2.度模式（Degrees）3.4旋转方向：右手定则四、应用场景与实战案例4.1角色骨骼旋转（动画驱动）场景：实现角色手臂绕肱骨（上臂骨）旋转，模拟弯曲动作4.2相机环绕效果（第三人称视角）场景：让相机绕目标物体（如角色）的Y轴旋转，实现环绕观
STM32-内存运行原理与RAM执行实战东方少爷内存地址单片机嵌入式硬件 arm开发硬件工程 stm32
一、底层原理深度解析（先懂“为什么要拷贝”）1.存储介质本质差异（ROM/FlashvsRAM）ROM（以STM32内部Flash为例）：物理特性：电可擦写非易失性存储（虽叫ROM，实际可通过编程改写），擦写次数有限（一般万次级别），读速度慢（STM32F1系列Flash读取周期约30-50ns）。存储内容：程序代码（指令）、只读常量（const修饰的全局变量、字符串字面量）、初始化的全局变量（R
STM32-架构分层与CMSIS实战指南东方少爷单片机单片机嵌入式硬件架构 stm32 硬件工程
从架构分层逻辑、CMSIS核心价值、内核与CMSIS协作关系三个维度，结合代码示例深度解析，并延伸到工程应用：一、STM32库架构分层解析（从硬件到应用）图中架构分为MCU层、CMSIS层、用户层，每层职责和文件分工明确：1.MCU层（硬件基础）包含内容：Cortex-M内核（如Cortex-M4）、SysTick、NVIC、调试模块、片上外设（GPIO、USART等）。作用：提供物理硬件能力，是
养老机构运营实训室建设要点：构建实战化运营管理实训体系凯禾瑞华_实训室建设实训室建设大数据物联网智慧健康养老服务与管理虚拟仿真教学人工智能智慧养老
养老机构运营实训室作为养老服务人才培养的重要载体，其建设质量直接影响专业人才的实践能力与行业适配度。围绕实战化运营管理实训体系的构建目标，需从多维度精准把握建设要点，打造契合行业需求的实训环境。点击获取实训室建设方案一、明确建设目标与定位（一）贴合行业需求养老机构运营实训室建设要点的核心，在于精准对接养老行业发展趋势与实际需求。随着老龄化社会加速，养老服务精细化、智慧化需求激增，实训室应锚定培养具
JavaScript基础语法之运算符和控制流 AA-代码批发V哥 JavaScript javascript
JavaScript基础语法之运算符和控制流一、运算符1.1算术运算符：数值计算的基石1.1.1字符串拼接陷阱1.2比较运算符：条件判断的起点1.2.1严格比较（`===`）vs松散比较（`==`）1.2.2其他比较运算符1.3逻辑运算符：复杂条件的组合1.3.1短路逻辑（重要特性）1.3.2实战：表单验证1.4赋值运算符：数据存储的桥梁1.4.1基础赋值（`=`）1.4.2解构赋值（ES6新增）
2019年架构师系列教程：高并发Netty实战打造百万连接架构不教书的塞涅卡
本文还有配套的精品资源，点击获取简介：本课程面向高级IT专业人士，旨在教授如何利用Netty框架设计和实现能够处理高并发连接的服务器架构。Netty是一个高性能、异步事件驱动的Java网络应用程序框架。课程将提升学员在系统架构设计和性能优化方面的技能，应对高并发场景挑战，特别是在金融、游戏、物联网等领域。1.Netty框架基础概念介绍Netty是一个高性能的网络应用框架，专为快速开发可维护的高性能
Python 数据分析实践：车辆行驶数据处理心得 lzzy-lt-0415 python 数据分析开发语言
在数据驱动决策的大趋势下，Python凭借其丰富的数据分析库，成为处理各类数据的得力工具。近期我围绕车辆行驶数据展开分析，过程中收获诸多实战经验，在此分享用Python进行数据处理与分析的心得，也结合代码讲讲实际运用思路。一、数据导入与初步探索：开启分析第一步importpandasaspd#导入数据df=pd.read_excel(r'../../数据层/数据集合/车辆行驶记录表单2.xlsx'
DeepSeek AI全面应用：AI时代的高效办公与创意生产指南 Want595 人工智能 deepseek
京东链接：https://item.jd.com/15045868.html当当链接：https://product.dangdang.com/29893005.html文章目录写在前面核心亮点1.直击痛点：从“低效搬砖”到“智能掌控”2.创意觉醒：让AI成为你的“灵感引擎”3.跨平台协作：无缝衔接AI生态4.实战驱动：130+案例，即学即用5.超值资源包：扫码即得适合谁读1.职场人2.创作者/自
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

电商指标项目-实时频道热点分析业务开发

1. 业务介绍

2. 业务开发

三 实时频道PV/UV分析

3.1 业务介绍

3.2 小时维度PV/UV业务开发

3.3 天维度PV/UV业务开发

3.4 小时/天/月维度PV/UV业务开发

四 实时频道用户新鲜度分析

4.1 业务介绍

4.2 业务开发

4.3 模板方法提取公共类

五 实时频道地域分析业务开发

5.1 业务介绍

5.2 业务开发

六 实时运营商分析业务开发

6.1 业务介绍

6.2 业务开发

七 实时频道浏览器分析业务开发

7.1 业务介绍

7.2 业务开发

你可能感兴趣的:(Flink,flink,flink实战)

三实时频道PV/UV分析

四实时频道用户新鲜度分析

五实时频道地域分析业务开发

六实时运营商分析业务开发

七实时频道浏览器分析业务开发