不以物喜2020

Spark-core项目实战——电商用户行为数据分析

0 数据准备

本实战项目的数据是采集自电商的用户行为数据。具体的数据可点此链接下载（提取码：44ax）
用户行为数据主要包含用户的 4 种行为: 搜索, 点击, 下单和支付.
数据格式如下, 不同的字段使用下划线分割开_:

数据说明:

数据采用_分割字段
每一行表示用户的一个行为, 所以每一行只能是四种行为中的一种.
如果搜索关键字是 null, 表示这次不是搜索
如果点击的品类 id 和产品 id 是 -1 表示这次不是点击
下单行为来说一次可以下单多个产品, 所以品类 id 和产品 id 都是多个, id 之间使用逗号,分割. 如果本次不是下单行为, 则他们相关数据用null来表示
支付行为和下单行为类似.

1 需求1

按照每个品类的点击、下单、支付的量来统计热门品类的top10.

1.1思路：

最好的办法应该是遍历一次能够计算出来上述的 3 个指标.
1)使用累加器可以达成我们的需求.
2)遍历全部日志数据, 根据品类 id 和操作类型分别累加. 需要用到累加器
3)定义累加器
4)当碰到订单和支付业务的时候注意拆分字段才能得到品类 id
5)遍历完成之后就得到每个每个品类 id 和操作类型的数量.
6)按照点击下单支付的顺序来排序
7)取出 Top10

1.2 具体实现

1.2.1 封装用户行为的bean类

/**
 * 用户访问动作表
 *
 * @param date               用户点击行为的日期
 * @param user_id            用户的ID
 * @param session_id         Session的ID
 * @param page_id            某个页面的ID
 * @param action_time        动作的时间点
 * @param search_keyword     用户搜索的关键词
 * @param click_category_id  某一个商品品类的ID
 * @param click_product_id   某一个商品的ID
 * @param order_category_ids 一次订单中所有品类的ID集合
 * @param order_product_ids  一次订单中所有商品的ID集合
 * @param pay_category_ids   一次支付中所有品类的ID集合
 * @param pay_product_ids    一次支付中所有商品的ID集合
 * @param city_id            城市 id
 */
case class UserVisitAction(date: String,
                           user_id: Long,
                           session_id: String,
                           page_id: Long,
                           action_time: String,
                           search_keyword: String,
                           click_category_id: Long,
                           click_product_id: Long,
                           order_category_ids: String,
                           order_product_ids: String,
                           pay_category_ids: String,
                           pay_product_ids: String,
                           city_id: Long)

case class CategoryCountInfo(categoryId: String,
                             clickCount: Long,
                             orderCount: Long,
                             payCount: Long)

1.2.2 定义累加器

import org.apache.spark.util.AccumulatorV2

import scala.collection.mutable

class MyAccumulator extends  AccumulatorV2[(String, String), mutable.Map[(String, String), Long]]{
  //定义返回的map类型
  val map: mutable.Map[(String, String), Long] = mutable.Map[(String, String), Long]()

  //当前累加器是否为初始状态，如果map是空的则为初始状态
  override def isZero: Boolean = map.isEmpty

  override def copy(): AccumulatorV2[(String, String), mutable.Map[(String, String), Long]] = {
    val accumulator = new MyAccumulator
    map.synchronized(
      accumulator.map ++= map
    )
    accumulator
  }
  //重置累加器
  override def reset(): Unit = map.clear()

  //为累加器添加元素
  override def add(v: (String, String)): Unit = {
    map(v) = map.getOrElse(v, 0L) + 1
  }

  //合并累加器，因为累加器的副本要发给集群的每个Executor，所以最后要在Driver合并
  override def merge(other: AccumulatorV2[(String, String), mutable.Map[(String, String), Long]]): Unit = {
    val map1: mutable.Map[(String, String), Long] = other.value
    map1.map(kv => map.put(kv._1,map.getOrElse(kv._1,0L)+kv._2))
  }

  //返回累加器的值，就是map
  override def value: mutable.Map[(String, String), Long] = map
}

1.2.3 程序入口

import com.chen.spark.core.UserVisitAction
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object DriverApp {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("DriverApp").setMaster("local[2]")
    val sc = new SparkContext(conf)
    //获取rdd
    val lines: RDD[String] = sc.textFile("F:\\workplace_test\\spark-core\\user_visit_action.txt")
    //处理数据
    val userVisitActionRdd: RDD[UserVisitAction] = lines.map {
      line =>
        val splits: Array[String] = line.split("_")
        UserVisitAction(
          splits(0),
          splits(1).toLong,
          splits(2),
          splits(3).toLong,
          splits(4),
          splits(5),
          splits(6).toLong,
          splits(7).toLong,
          splits(8),
          splits(9),
          splits(10),
          splits(11),
          splits(12).toLong
        )
    }

    //需求1：求每个商品类的热门top10
    val countInfoes = CategoryTop10App.statCategoryTop10(sc, userVisitActionRdd)
    countInfoes.foreach(println)

    //关闭sc
    sc.stop()
  }

}

1.2.4 需求1方法实现

import com.chen.spark.core.{CategoryCountInfo, UserVisitAction}
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD

import scala.collection.mutable

object CategoryTop10App {
  def statCategoryTop10(sc: SparkContext, userVisitActionRDD: RDD[UserVisitAction]): List[CategoryCountInfo] = {
    //1 获取累加器并完成注册
    val acc: MyAccumulator = new MyAccumulator
    sc.register(acc)

    //2 根据userVisitActionRDD算子进行分类
    userVisitActionRDD.foreach{
      uva => {
        if(uva.click_category_id != -1){
          acc.add(uva.click_category_id.toString,"click")
        }else if(uva.order_category_ids != "null"){
          uva.order_category_ids.split(",").foreach{
            order => acc.add(order.toString,"order")
          }
        }else if(uva.pay_category_ids != "null"){
          uva.pay_category_ids.split(",").foreach{
            pay => acc.add(pay.toString,"pay")
          }
        }
      }
    }

    //3 遍历完成之后就得到每个品类 id 和操作类型的数量. 然后按照 CategoryId 进行进行分组
    val accCountByCategoryIdMap: Map[String, mutable.Map[(String, String), Long]] = acc.value.groupBy(_._1._1)

    //4 转换到CategoryCountInfo类并转换为list(方便排序)
    val result: List[CategoryCountInfo] = accCountByCategoryIdMap.map {
      case (cid, acc) => {
        CategoryCountInfo(
          cid,
          acc.getOrElse((cid, "click"), 0L),
          acc.getOrElse((cid, "order"), 0L),
          acc.getOrElse((cid, "pay"), 0L)
        )
      }
    }.toList

    //5 排序并取前10条结果
    val top10: List[CategoryCountInfo] = result.sortBy(x => (-x.clickCount, -x.orderCount, -x.payCount)).take(10)

    //6 返回结果
    top10
  }

}

1.2.5 输出结果：热门的top10商品类

2 需求2：

对于排名前 10 的品类，分别获取每个品类点击次数排名前 10 的 sessionId。(注意: 这里我们只关注点击次数, 不关心下单和支付次数)
这个就是说，对于 top10 的品类，每一个都要获取对它点击次数排名前 10 的 sessionId。
这个功能，可以让我们看到，对某个用户群体最感兴趣的品类，各个品类最感兴趣最典型的用户的 session 的行为。

2.1思路

过滤出来 category Top10的日志
需要用到需求1的结果, 然后只需要得到categoryId就可以了
转换结果为 RDD[(categoryId, sessionId), 1] 然后统计数量 => RDD[(categoryId, sessionId), count]
统计每个品类 top10. => RDD[categoryId, (sessionId, count)] => RDD[categoryId, Iterable[(sessionId, count)]]
对每个 Iterable[(sessionId, count)]进行排序, 并取每个Iterable的前10
把数据封装到 CategorySession 中

2.2代码实现

2.2.1bean类

case class CategorySession(categoryId: String,
                           sessionId: String,
                           clickCount: Long)

2.2.2 具体实现

import com.chen.spark.core.{CategoryCountInfo, CategorySession, UserVisitAction}
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD


object CategorySessionAPP {
  def statCategoryTop10Session(sc: SparkContext, userVisitActionRDD: RDD[UserVisitAction], categoryTop10: List[CategoryCountInfo]) = {
    //1 根据categoryTop10获取热门top10的品类id

    val categoryIdTop10: List[String] = categoryTop10.map(_.categoryId)
    //2 过滤userVisitActionRDD其他不符合要求的clickid

    val  filteredUserVisitActionRDD: RDD[UserVisitAction] = userVisitActionRDD.filter(uva => categoryIdTop10.contains(uva.click_category_id.toString))

    //3 根据top10的品类id得到对应的sessionid并计数((cid,sid),1)
    val categorySessionOne: RDD[((Long, String), Int)] = filteredUserVisitActionRDD.map {
      uva => {
        ((uva.click_category_id, uva.session_id), 1)
      }
    }

    //4 转换输出结果((cid,sid),1)=>((cid,sid),count)=>(cid,(sid,count))
    val categorySessionCount: RDD[(Long, (String, Int))] = categorySessionOne.reduceByKey(_ + _).map {
      x => (x._1._1.toLong, (x._1._2, x._2))
    }

    //5 按cid分组
    val categorySessionGroup: RDD[(Long, Iterable[(String, Int)])] = categorySessionCount.groupByKey

    //6 排序取前10条记录并封装到CategorySession类中
    val categorySessionRDD: RDD[CategorySession] = categorySessionGroup.flatMap{
      case (cid,it) => {
        //转换成list集合进行排序
        val list: Seq[(String, Int)] = it.toList.sortBy(x => -x._2).take(10)
        //封装
        val result: Seq[CategorySession] = list.map {
          case (sid, count) => CategorySession(cid.toString, sid, count)
        }
        result
        }
    }

    //7 获取结果
    categorySessionRDD.foreach(println)
  }
}

2.2.3 特别说明：

上面的操作中, 有一个操作是把迭代器中的数据转换成List之后再进行排序, 这里存在内存溢出的可能. 如果迭代器的数据足够大, 当转变成 List 的时候, 会把这个迭代器的所有数据都加载到内存中, 所以有可能造成内存的溢出。
前面的排序是使用的 Scala 的排序操作, 由于 scala 排序的时候需要把数据全部加载到内存中才能完成排序, 所以理论上都存在内存溢出的风险.
如果使用 RDD 提供的排序功能, 可以避免内存溢出的风险, 因为 RDD 的排序需要 shuffle, 是采用了内存+磁盘来完成的排序.

2.2.4 解决方案一：

使用 RDD 的排序功能, 但是由于 RDD 排序是对所有的数据整体排序, 所以一次只能针对一个 CategoryId 进行排序操作.
代码如下：

import com.chen.spark.core.{CategoryCountInfo, CategorySession, UserVisitAction}
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD

object CategorySessionAPP2 {
  def statCategoryTop10Session(sc: SparkContext, userVisitActionRDD: RDD[UserVisitAction], categoryTop10: List[CategoryCountInfo]) = {
    //1 根据categoryTop10得到cid
    val categoryIdTop10: List[String] = categoryTop10.map(_.categoryId)

    //2 过滤userVisitActionRDD其他不符合要求的clickid
    val filteredUserVisitActionRDD: RDD[UserVisitAction] = userVisitActionRDD.filter(uva => categoryIdTop10.contains(uva.click_category_id.toString))

    //3 根据top10的品类id得到对应的sessionid并计数((cid,sid),1)
    val categorySessionOne: RDD[((Long, String), Int)] = filteredUserVisitActionRDD.map {
      uva => {
        ((uva.click_category_id, uva.session_id), 1)
      }
    }

    //4 转换输出结果((cid,sid),1)=>((cid,sid),count)=>(cid,(sid,count))
    val categorySessionCount: RDD[(Long, (String, Int))] = categorySessionOne.reduceByKey(_ + _).map {
      (x => (x._1._1, (x._1._2, x._2)))
    }

    //5 每次过滤cid进行排序
    categoryIdTop10.foreach{
      cid => {
        // 针对某个具体的 CategoryId, 过滤出来只包含这个CategoryId的RDD, 然后整体降序排列
        val top10: Array[CategorySession] = categorySessionCount.filter(_._1 == cid.toLong).sortBy(x => x._2._2,false).take(10).map{
          case(cid,(sid,count)) => CategorySession(cid.toString,sid,count)
        }
        top10.foreach(println)
      }
    }
  }

}

2.2.5 解决方案二

方案 1 解决了内存溢出的问题, 但是也有另外的问题: 提交的 job 比较多, 有一个品类 id 就有一个 job, 在本案例中就有了 10 个 job.
有没有更加好的方案呢?
可以把同一个品类的数据都进入到同一个分区内, 然后对每个分区的数据进行排序!
需要用到自定义分区器.

2.2.6 自定义分区器

import org.apache.spark.Partitioner

class Mypartitions(categoryIdTop10: List[String]) extends Partitioner{
  // 给每个 cid 配一个分区号(使用他们的索引就行了)
  private val cidAndIndex: Map[String, Int] = categoryIdTop10.zipWithIndex.toMap

  override def numPartitions: Int = cidAndIndex.size

  override def getPartition(key: Any): Int = {
     key match {
       case (cid,_) => cidAndIndex(cid.toString)
    }
  }
}

2.2.7 bean类修改

ase class CategorySession2(categoryId: String,
                           sessionId: String,
                           clickCount: Long)extends Ordered[CategorySession2]{
  override def compare(that: CategorySession2): Int = {
    if(this.clickCount <= that.clickCount) 1
    else -1
  }
}

2.2.8 代码

import com.chen.spark.core.{CategoryCountInfo, CategorySession, CategorySession2, UserVisitAction}
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD

import scala.collection.mutable

object CategorySessionAPP3 {
  def statCategoryTop10Session(sc: SparkContext, userVisitActionRDD: RDD[UserVisitAction], categoryTop10: List[CategoryCountInfo]) = {
    //1 根据categoryTop10得到cid
    val categoryIdTop10: List[String] = categoryTop10.map(_.categoryId)

    //2 过滤userVisitActionRDD其他不符合要求的clickid
    val filteredUserVisitActionRDD: RDD[UserVisitAction] = userVisitActionRDD.filter(uva => categoryIdTop10.contains(uva.click_category_id.toString))

    //3 根据top10的品类id得到对应的sessionid并计数((cid,sid),1)
    val categorySessionOne: RDD[((Long, String), Int)] = filteredUserVisitActionRDD.map {
      uva => {
        ((uva.click_category_id, uva.session_id), 1)
      }
    }

    //4 转换输出结果((cid,sid),1)=>((cid,sid),count)
    val categorySessionCount: RDD[CategorySession2] = categorySessionOne.reduceByKey(new Mypartitions(categoryIdTop10), _ + _).map{
      case((cid,sid),count) => CategorySession2(cid.toString,sid,count)
    }

    //6 排序取前10条记录并封装到CategorySession类中
    val categorySessionRDD: RDD[CategorySession2] = categorySessionCount.mapPartitions(it => {
      // 这个时候也不要把 it 变化 list 之后再排序, 否则仍然会有可能出现内存溢出.
      // 我们可以把数据存储到能够自动排序的集合中 比如 TreeSet 或者 TreeMap 中, 并且永远保持这个集合的长度为 10
      // 让TreeSet默认按照 count 的降序排列, 需要让CategorySession实现 Ordered 接口(Comparator)
      var top10: mutable.TreeSet[CategorySession2] = mutable.TreeSet[CategorySession2]()
      it.foreach(cs => {
        // 把 CategorySession 添加到 TreeSet 中
        top10 += cs
        if (top10.size > 10) {
          // 如果 TreeSet 的长度超过 10, 则移除最后一个
          top10 = top10.take(10)
        }
      })
      top10.toIterator

    })

    //7 取结果
    categorySessionRDD.foreach(println)
  }

}

执行结果：

3 需求3

3.1 页面单跳转化率统计

计算页面单跳转化率，什么是页面单跳转换率，比如一个用户在一次 Session 过程中访问的页面路径 3,5,7,9,10,21，那么页面 3 跳到页面 5 叫一次单跳，7-9 也叫一次单跳，那么单跳转化率就是要统计页面点击的概率
比如：计算 3-5 的单跳转化率，先获取符合条件的 Session 对于页面 3 的访问次数（PV）为 A，然后获取符合条件的 Session 中访问了页面 3 又紧接着访问了页面 5 的次数为 B，那么 B/A 就是 3-5 的页面单跳转化率.

3.2 思路

读取到规定的页面
过滤出来规定页面的日志记录, 并统计出来每个页面的访问次数 countByKey 是行动算子 reduceByKey 是转换算子
明确哪些页面需要计算跳转次数 1-2, 2-3, 3-4 …
按照 session 统计所有页面的跳转次数, 并且需要按照时间升序来排序
按照 session 分组, 然后并对每组内的 UserVisitAction 进行排序
转换访问流水
过滤出来和统计目标一致的跳转
统计跳转次数
计算跳转率

3.3具体实现

import java.text.DecimalFormat

import com.chen.spark.core.UserVisitAction
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD

object PageConversionApp {
  def calcPageConversion(sc: SparkContext, userVisitActionRDD: RDD[UserVisitAction], targetPageFlow: String) = {

    //1 根据传入的targetPageFlow获取需要访问的page
    val pageFlowArr: Array[String] = targetPageFlow.split(",")
    val prePageArr: Array[String] = pageFlowArr.slice(0, pageFlowArr.length - 1)
    val postPageArr: Array[String] = pageFlowArr.slice(1, pageFlowArr.length)

    //2 过滤userVisitActionRDD中只包含pageFlowArr的内容,并求出count(n)
    val targetPageCount: collection.Map[Long, Long] = userVisitActionRDD.filter(uva => pageFlowArr.contains(uva.page_id.toString)).map(x => (x.page_id, 1)).countByKey()

    //3 得到要求的跳转页面
    val targetPage: Array[String] = prePageArr.zip(postPageArr).map(x => (x._1 + "-" + x._2))

    //4 按照session_id分组并按action_time时间排序，并过滤只包含targetPage的页面
    // 4.1 按照 session 分组, 然后并对每组内的 UserVisitAction 进行排序
    val pageJumpRDD: RDD[String] = userVisitActionRDD.groupBy(_.session_id).flatMap {
      case (sid, it) => {
        // 4.2 转换访问流水
        val pages: List[UserVisitAction] = it.toList.sortBy(_.action_time)
        val prepages: List[UserVisitAction] = pages.slice(0, pages.length - 1)
        val postpages: List[UserVisitAction] = pages.slice(1, pages.length)
        // 4.3 过滤出来和统计目标一致的跳转
        prepages.zip(postpages).map(x=>(x._1.page_id+"-"+x._2.page_id)).filter(targetPage.contains(_))
      }
    }

    //5 统计出count(n-m)
    val pageJumpCount: Array[(String, Int)] = pageJumpRDD.map(x => (x, 1)).reduceByKey(_+_).collect()

    //6 设置格式
    val formatter = new DecimalFormat(".00%")

    //7 计算
    val result: Array[(String, String)] = pageJumpCount.map{
      case (p2p,jumpcount) => {

        val countn: Long = targetPageCount.getOrElse(p2p.split("-").head.toLong, 0L)
        val rate: String = formatter.format(jumpcount.toDouble / countn)
        (p2p,rate)
      }
    }

    //8 遍历结果
    result.foreach(println)
  }

}

3.4执行

【实操回顾】基于Apache SeaTunnel从MySQL同步到PostgreSQL——Demo方舟计划 SeaTunnel apache mysql postgresql
文章作者：马全才奥克斯集团大数据工程师编辑整理：国电南自赵鸿辉白鲸开源曾辉本文详细演示了如何通过ApacheSeaTunnel2.3.9实现**MySQL**到PostgreSQL的全量数据同步。非常感谢马全才老师花费业余时间为大家演示制作的Demo，也欢迎更多朋友贡献自己熟悉的同步场景，详细请参考社区Demo方舟活动：https://mp.weixin.qq.com/s/5gpiZZ0-8a4I
Flink 初体验：从 Hello World 到实时数据流处理小诸葛IT课堂 flink 大数据
在大数据处理领域，ApacheFlink以其卓越的流批一体化处理能力脱颖而出，成为众多企业构建实时数据应用的首选框架。本文将带领你迈出Flink学习的第一步，从基础概念入手，逐步引导你编写并运行第一个Flink程序——经典的WordCount，让你亲身感受Flink在实时数据流处理方面的强大魅力。一、Flink基础概念速览1.1什么是FlinkFlink是一个分布式流批一体化开源平台，旨在对无界和
大数据开发之Kubernetes篇----安装部署Kubernetes&dashboard 豆豆总 kubernetes
Kubernetes简介由于公司有需要，需要将外后的服务外加Tensorflow模型部署加训练全部集成到k8s上，所以特意记录下这次简单部署的过程。k8s安装部署首先，我们在部署任何大型的组件前都必须要做的事情就是关闭防火墙和设置hostname了vi/etc/hostsk8s001xxx.xxx.xxx.xxk8s002xxx.xxx.xxx.xx...systemctlstopfirewall
Python游戏开发自学指南：从入门到实践（第四天） Small踢倒coffee_氕氘氚 python自学经验分享笔记
Python不仅适用于数据分析、Web开发和自动化脚本，还可以用于游戏开发！虽然Python不是传统意义上的游戏开发语言，但其简洁的语法和丰富的库使其成为初学者学习游戏开发的绝佳选择。本文将为你提供一份全面的Python游戏开发自学指南，帮助你从入门到实践，掌握用Python开发游戏的技能。##一、为什么选择Python开发游戏？1.**简单易学**：Python语法简洁，适合初学者快速上手。2.
毕设分享大数据B站数据分析可视化系统 bee_dc 毕业设计毕设大数据
文章目录0前言1项目运行效果2设计原理数据处理方案可视化呈现方案综合得分计算指标综合得分漏斗图游客画像完成度三连排行榜点赞、投币、收藏与白嫖的比例分析3最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天
毕业设计项目大数据B站数据分析可视化系统 bee_dc 毕业设计毕设大数据
文章目录0前言1项目运行效果2设计原理数据处理方案可视化呈现方案综合得分计算指标综合得分漏斗图游客画像完成度三连排行榜点赞、投币、收藏与白嫖的比例分析3最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天
基于MapReduce的气候数据分析赵谨言论文毕业设计经验分享
标题:基于MapReduce的气候数据分析内容:1.摘要本文聚焦于基于MapReduce的气候数据分析。背景在于随着全球气候变化问题日益严峻，海量气候数据的高效处理和分析成为关键。目的是利用MapReduce技术对气候数据进行有效挖掘，以揭示气候变化规律和趋势。方法上，采用MapReduce编程模型对大规模气候数据进行分布式处理，通过数据的映射和归约操作实现并行计算。结果表明，运用该技术能显著提高
python数据可视化玩转Matplotlib subplot子图操作，四个子图（一包四），三个子图，子图拉伸_python subplot 2401_83817843 程序员 python 信息可视化 matplotlib
大锤爱编程的博客_CSDN博客-大数据,Go,数据分析领域博主Matplotlib是一个流行的Python可视化库，它提供了许多功能来创建各种类型的图表。其中一个功能是子图，它允许您在单个图表中绘制多个图。一、创建子图要创建子图，请使用plt.subplots()函数。该函数接受三个参数：行数、列数和子图编号。以下是一个简单的示例：importmatplotlib.pyplotaspltfig,a
Python物联网与传感器数据分析 master_chenchengg python python 办公效率 python开发 IT
Python物联网与传感器数据分析开场白：连接物理世界与数字宇宙物联网的魅力：让物体开口说话Python：编织万物互联的魔法传感器：感知世界的触角数据捕获：从现实世界到数字领域传感器类型概览：温度、湿度、光照及其他Python与硬件接口：树莓派的奇妙旅程实时数据流：如何捕捉每一刻的变化数据处理：挖掘数字宝藏的秘密数据清洗：让数据焕发光彩数据分析：揭秘模式与趋势异常检测：识别噪声与干扰可视化展示：讲
市场波动中的风险管理与策略优化 Q3990385023 区块链
市场波动中的风险管理与策略优化在市场交易中，价格的波动性为投资者提供了交易机会，但同时也带来了风险。如何在市场不确定性中进行有效的风险管理，并优化交易策略，是每位交易者都需要思考的问题。本文将探讨市场波动的影响因素、如何通过合理的资金管理降低风险，以及如何利用数据分析提升交易稳定性。一、市场波动的核心影响因素1.供需关系变化市场价格的波动主要受到供需关系的影响。无论是受宏观经济政策影响，还是市场预
C/C++每日一练：实现选择排序風清掦 C/C++~每日一练 c语言 c++算法
选择排序选择排序是一种简单直观的排序算法，时间复杂度为，其中n是数组长度，不适合大数据集的排序，适合于元素较少且对性能要求不高的场景。选择排序的基本思想是：每次从未排序部分选择最小的元素，将其放到已排序部分的末尾。这样经过多轮操作后，整个数组会被逐步排好序。具体步骤如下：初始化：将第一个元素作为已排序区，剩余部分作为未排序区。遍历未排序区：从未排序区间找出最小的元素，记下其位置。交换位置：将找到的
第二十五篇 SQL优化杀手锏：用分析函数让你的查询快如闪电随缘而动，随遇而安 SQL之道——从入门到精通数据库 sql
目录一、初识分析函数：外卖骑手的一天1.1真实工作场景二、分析函数三板斧（超直观对比表）三、手把手教学：5大核心函数详解️3.1排名三剑客（班级成绩单案例）3.1.1ROW_NUMBER()：唯一学号式排名3.1.2RANK()：运动会颁奖式排名3.1.3DENSE_RANK()：电梯楼层式排名3.2时间旅行函数（股票分析案例）3.3滑动窗口函数（疫情数据分析）四、性能优化三大绝招（让老板眼前一亮
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
怎么做一个AI产品经理？ AI筑梦师 AI产品经理人工智能产品经理
AI产品经理全面进化：在人工智能迅猛发展的时代，产品经理的角色正经历前所未有的转型。从传统的需求捕捉者到技术与商业紧密结合的创新推动者，AI产品经理肩负着将前沿AI技术转化为解决用户痛点的产品的重要任务。随着大数据、云计算和大模型技术的不断成熟，产品经理不仅需要具备敏锐的市场洞察，还必须深刻理解AI技术本质，跨界整合技术、数据与业务优势，从而推动产品的持续创新与落地。本文将全面解析AI产品经理的角
Spark sql 中row的用法闯闯桑 spark sql 大数据开发语言
在ApacheSpark中，Row是一个表示一行数据的类。它是SparkSQL中DataFrame或Dataset的基本数据单元。每一行数据都由一个Row对象表示，而Row对象中的每个字段对应数据的一个列。Row的用法Row对象通常用于以下场景：创建数据：当你手动创建数据时，可以使用Row对象来表示每一行数据。访问数据：当你从DataFrame或Dataset中提取数据时，每一行数据都是一个Row
Spark Sql 简单校验的实现小小小小小小小小小小码农 spark sql java
在网上参考了很多资料，都是要依赖Sparksession，这个需要spark环境，非常不友好，jdk版本也不好控制。不使用Sparksession获取上下文，利用spark和antlr的静态方法使用java实现简单的sparksql的语法以及内置函数的校验。1.spark版本3.2.0org.apache.sparkspark-sql_2.123.2.0org.antlrantlr4-runtim
Python在股票数据分析中的应用有哪些？如何用Python获取股票数据并进行可视化财云量化 python炒股自动化量化交易程序化交易 python python股票数据分析数据获取可视化股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
Python 数据分析实战：电商平台用户行为洞察与营销策略优化萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集与导入2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1用户行为随时间的变化2.4.2商品关联分析2.4.3用户购买转化率分析2.4.4用户价值分析（RFM模型）三、主要的代码难点解析3.1数据收集与导入3.2数据清洗-时间戳处理3.3数据分析-商品关联分析3.4数据分析-用户购买转化率分析3.5数据分析-用户价值分析（RFM模型）四、可能改进的代
用Java爬虫轻松获取微店店铺所有商品信息数据小爬虫@ java 爬虫开发语言
在当今电商蓬勃发展的时代，微店作为一个轻量级且功能强大的电商平台，吸引了众多商家和消费者。无论是进行市场调研、数据分析，还是寻找热门商品，获取微店店铺的所有商品信息都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫获取微店店铺的所有商品信息。一、为什么选择Java爬虫？Jav
运维面试常问的100道题（大数据统计）無爲謂人工智能运维面试
一、基础知识类1、请解释什么是运维？运维是指对企业的IT系统进行运行维护，包括硬件设备、软件系统、网络等的监控、管理、优化和故障处理，以确保系统的稳定、高效运行，满足业务需求。2、简述运维的主要职责有哪些？服务器的安装、配置、维护和监控。网络设备的管理和维护。数据库的管理和维护。应用系统的部署、升级和维护。故障处理和应急响应。性能优化和容量规划。安全管理和漏洞修复。3、什么是服务器？有哪些类型？服
PySpark安装及WordCount实现（基于Ubuntu） uui1885478445 ubuntu linux 运维
在Ubuntu上安装PySpark并实现WordCount，需要以下步骤：安装PySpark：安装Java：PySpark需要Java运行环境。你可以使用以下命令安装OpenJDK：sudoaptupdatesudoaptinstalldefault-jredefault-jdk安装Scala：PySpark还需要Scala，可以使用以下命令安装：sudoaptinstallscala安装Pyth
融合网络实训室初步建设方案设想武汉唯众智创网络融合网络实训室融合网络融合网络实验室网络融合实训室网络融合实验室
一、引言在数字化浪潮席卷全球的当下，网络技术已然成为推动社会发展和经济增长的关键力量。从日常的生活购物到企业的运营管理，从便捷的社交沟通到前沿的科研探索，网络技术无处不在，深刻地改变着人们的生活与工作方式。随着5G、物联网、云计算、大数据等新兴技术的迅猛发展，网络技术领域对于专业人才的需求呈现出爆发式增长。据权威机构预测，未来几年，网络技术相关岗位的人才缺口将持续扩大。这些岗位不仅要求从业者具备扎
嵌入式SDIO 总线面试题及参考答案大模型大数据攻城狮 fpga开发嵌入式面经 SPI USB接口 SD总线 SDIO总线牛客网
目录SDIO总线与SD总线的核心区别是什么？(附框架图）简述SDIO总线物理接口的组成及其功能（CLK、CMD、DAT0-DAT3）。SDIO总线支持的最大数据传输位宽是多少？如何配置？解释SDIO总线中的主从模式架构及通信流程。SDIO卡的功能类型有哪些（如Wi-Fi、蓝牙、GPS）？SDIO总线时钟信号（CLK）的作用及典型频率范围SDIO协议中的OCR寄存器作用是什么？如何通过CMD5获取卡
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案优享智库大模型数据要素数据治理数据仓库主数据零售
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案更多参考公众号：优享智库引言项目背景与意义数字化转型目标与期望实施方案概述零售行业现状及挑战实体零售行业现状数字化转型面临的挑战市场需求与趋势分析大模型与数据要素赋能策略大模型技术及应用场景数据要素采集、整合与治理赋能策略制定与实施路径数字化转型关键技术与解决方案人工智能技术及应用大数据分析与挖掘技术云计算、物联网等技术支持定制化解决方案设计
批量安装 Python 库的脚本：提高python学习效率的第一步（附源码） TAGRENLA Interesting python project python 学习开发语言
批量安装Python库批量安装Python库的脚本：提高数据分析效率的一步（附源码）批量安装脚本前提条件使用pip：Python包管理工具批量安装脚本查看当前python解释器中安装的所有的库批量安装Python库的脚本：提高数据分析效率的一步（附源码）在现代数据分析领域，Python已成为一个不可或缺的工具。为了进行数据处理、分析、可视化和建模等任务，Python社区涌现出了众多强大的库和工具。
MDX语言的设备管理穆骊瑶包罗万象 golang 开发语言后端
设备管理中的MDX语言应用引言设备管理是在各行各业中都至关重要的一环，尤其是在制造业、物流业、以及信息技术等领域。设备的正常运行直接关系到企业的生产效率和经济效益。随着信息技术的不断发展，现代企业越来越依赖数据来优化设备管理。而MDX（MultidimensionalExpressions）语言作为多维数据库查询的标准语言，能够有效支持设备管理中的数据分析和决策支持。本文将深入探讨MDX语言在设备
金融时间序列分析（Yahoo Finance API实战）闲人编程 Python数据分析实战精要金融 yfinance 时间序列波动率数据归一化数据分析 Dash
这里写目录标题金融时间序列分析（YahooFinanceAPI实战）1.引言2.项目背景与意义3.数据集介绍4.GPU加速在数据处理中的应用5.交互式GUI设计与加速处理6.系统整体架构7.数学公式与指标计算8.完整代码实现9.代码自查与BUG排查10.总结与展望金融时间序列分析（YahooFinanceAPI实战）1.引言在当今金融市场中，时间序列数据分析是理解股票、指数以及其他金融产品走势的重
Python在数据处理中的应用：从入门到精通程之编 python 信息可视化开发语言
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！在当今数字化时代，数据处理已成为各个领域不可或缺的一部分。无论是企业决策、科学研究还是日常的个人数据分析，掌握高效的
京准电钟推荐：智能交通系统NTP时间同步服务设计方案北京华人开创公司时钟系统 NTP时间同步卫星同步时钟 ntp 时钟同步时间同步网络授时网络校时
京准电钟推荐：智能交通系统NTP时间同步服务设计方案京准电钟推荐：智能交通系统NTP时间同步服务设计方案针对智能交通系统的NTP（NetworkTimeProtocol）时间同步方案设计，需确保交通设备（如信号灯、摄像头、传感器、服务器等）的时间高度一致，以提高系统协同效率和数据分析准确性。以下是完整的方案框架：一、需求分析同步精度核心设备（如信号控制机、边缘服务器）需达到**毫秒级（1-10ms
京准电钟分享：医院网络内NTP时间同步服务器作用是什么？北京华人开创公司北斗卫星授时 NTP时间同步 GPS对时装置 NTP 时间同步服务器网络时间服务器 NTP时间服务器网络系统时钟同步
京准电钟分享：医院网络内NTP时间同步服务器作用是什么？京准电钟分享：医院网络内NTP时间同步服务器作用是什么？时间同步技术必定将是整个大数据处理系统的重要支撑和保障。时间同步技术使数据产生与处理系统的所有节点具有全局的、统一的标准时间，从而使系统中的所有各种消息、事件、节点、数据等具备正确的逻辑性、协调性以及可追溯性。大数据产生与处理系统是各种计算设备集群的，计算设备将统一、同步的标准时间用于记
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1