看见我的小熊没

SparkStreaming业务逻辑处理的一些高级算子

1、reduceByKey

reduceByKey 是按key进行计算，操作的数据是每个批次内的数据（一个采集周期），不能跨批次计算。如果需要实现对历史数据的跨批次统计累加，则需要使用updateStateByKey算子或者mapWithState算子。

package com.sparkscala.streaming

import org.apache.log4j.{Level, Logger}
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * reduceByKey只能计算一个批次(batch)，即Seconds(3)内的数据
 */
object StreamingWordCountScala {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)

    //一、初始化程序入口
    /**
     * local[1]  中括号里面的数字都代表的是启动几个工作线程，默认情况下是一个工作线程。
     * 那么作为sparkStreaming 我们至少要开启两个线程，因为其中一个线程用来接收数据，这样另外一个线程用来处理数据。
     * Seconds 指的是每次数据数据的时间范围（batch interval）
     */
    val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)
    val ssc: StreamingContext = new StreamingContext(conf, Seconds(3))

    //二、获取数据流，就是数据源
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("192.168.244.130", 1234)

    //三、数据处理
    //val result: DStream[(String, Int)] = lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
    val words: DStream[String] = lines.flatMap(_.split(" "))
    val wordAndOne: DStream[(String, Int)] = words.map((_, 1))
    val wordResult: DStream[(String, Int)] = wordAndOne.reduceByKey(_ + _)

    //四、数据输出查看
    wordResult.print()

    //五、启动任务
    ssc.start()  //启动
    ssc.awaitTermination()  //线程等待，等待处理下一批次任务
    ssc.stop()  //关闭
  }
}

2、updateStateByKey

updateStateByKey 算子是统计历史所有的数据，实现累加

有时，我们需要在 DStream 中跨批次维护状态(例如流计算中累加wordCount)。针对这种情况，updateStateByKey() 为我们提供了对一个状态变量的访问，用于键值对形式的 DStream。
重点：首先会以DStream中的数据进行按key做reduce操作，然后再对各个批次的数据进行累加

注意：

reduceByKey 是无状态操作，即操作的数据都是每个批次内的数据（一个采集周期）
updateStateByKey 是状态操作，即操作从启动到当前的所有采集周期内的数据（跨批次操作）

以WordCount计算为例：

package com.sparkscala.streaming

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * updateStateByKey操作使得我们可以在用新信息进行更新时保持任意的状态。为使用这个功能，你需要做下面两步：
 * 1. 定义状态，状态可以是一个任意的数据类型。
 * 2. 定义状态更新函数，用此函数阐明如何使用之前的状态和来自输入流的新值对状态进行更新。
 * 使用updateStateByKey需要对检查点目录进行配置，会使用检查点来保存状态
 */
object UpdateStateByKeyDemo {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)

    //一、初始化程序入口
    val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)
    val ssc: StreamingContext = new StreamingContext(conf, Seconds(3))

    //为了实现对历史数据的累加，需要设置检查点目录
    ssc.checkpoint("D:\\Java Project\\DATA\\UpdateStateByKeyDemo_checkpoint")

    //二、读取数据流，就是数据源
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop2", 9999)

    //三、数据处理
    val words: DStream[String] = lines.flatMap(_.split(" "))
    val wordAndOne: DStream[(String, Int)] = words.map((_, 1))

    /**
     * updateStateByKey()内部需要出入一个函数 updateFunc: (Seq[V],Option[S]) => Option[S]
     * 参数解释：
     * 1、Seq[V]: 表示当前key对应的所有value值
     * hadoop 1
     * hadoop 1
     * hadoop 1
     * 会进行分组：
     * {hadoop, (1,1,1)}  ->  values(1,1,1)
     *
     * 2、Option[S]: 历史状态的记录值，即当前key的历史状态
     * 代表上一批次中相同key对应的累加的结果，有可能有值，有可能没有值。此时，获取历史批次的数据时，最好用getOrElse方法。
     * Option有两个子类：
     * Some 有值
     * None 没有值
     *
     * 返回值：
     * Option[S]: 返回的是新的历史状态，这里要的就是key出现的次数
     *
     */
    val wordResult: DStream[(String, Int)] = wordAndOne.updateStateByKey((values: Seq[Int], state: Option[Int]) => {
      val currentCount = values.sum     //将目前新进来的批次的所有value值相加
      val lastCount = state.getOrElse(0)   //取出之前累加统计的历史状态值
      Some(currentCount + lastCount)   //目前值的和加上历史值，完成状态的更新
    })

    //四、数据输出
    wordResult.print()

    //五、启动任务
    ssc.start()
    ssc.awaitTermination()  //线程等待，等待处理下一批次任务
    ssc.stop()
  }
}

3、mapWithState

mapWithState：也是用于全局统计key的状态，但是它如果没有数据输入，在没有设置全局输出的情况下，默认不会返回之前的key的状态，类似于增量的感觉。

注意：mapWithState算子比updateStateByKey效率更高，因为：

updateStateByKey可以在指定的批次间隔内返回之前的全部历史数据，包括新增的，改变的和没有改变的。由于updateStateByKey在使用的时候一定要做checkpoint，当数据量过大的时候，checkpoint会占据庞大的数据量，会影响性能，效率不高。
mapWithState只返回变化后的key的值，这样做的好处是，我们可以只是关心那些已经发生的变化的key，对于没有数据输入，则不会返回那些没有变化的key的数据。这样的话，即使数据量很大，checkpoint也不会像updateStateByKey那样，占用太多的存储，效率比较高（在生产环境中建议使用这个）。

package com.sparkscala.streaming

import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.dstream.{DStream, MapWithStateDStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, State, StateSpec, StreamingContext, Time}


object MapWithStateDemo {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)

    //一、初始化程序入口
    val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)
    //val sc: SparkContext = new SparkContext(conf)
    val ssc: StreamingContext = new StreamingContext(conf, Seconds(3))

    //设置检查点目录
    ssc.checkpoint("D:\\Java Project\\DATA\\MapStateByKeyDemo_checkpoint")

    //二、读取数据流，也就是数据源
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop2", 9999)

    //三、数据处理
    val words: DStream[String] = lines.flatMap(_.split(" "))
    val wordAndOne: DStream[(String, Int)] = words.map((_, 1))

    //可以设置初始值
    val initialRDD: RDD[(String, Long)] = ssc.sparkContext.parallelize(List(("flink", 100L), ("spark", 50L)))

    /**
     * 示例：假如输入 hadoop hadoop hadoop
     * 切分之后变成了：
     * hadoop 1
     * hadoop 1
     * hadoop 1
     *
     * mapWithState 里面也有byKey操作 -> 在byKey分组的时候顺带就完成了合并的操作
     * 经过 mapWithState 里面的 byKey 操作之后，变成了如下：
     * {hadoop,(1,1,1)  => 3}
     * hadoop 3
     *
     * 假设这个 key 的历史状态是：hadoop 10
     * key: hadoop  当前的key
     * value: 3  当前key出现的次数
     * state: 当前这个key的历史状态
     *
     * hadoop 3
     * hadoop 10
     *
     * 更新后的状态：hadoop 13
     */

    /**
     * 状态更新函数 StateSpec.function: ((Time, K, Option[V], State[S]) => Option[T])
     * 参数解释：
     * currentBatchTime: 表示当前的批次(Batch)的时间
     * key: 表示当前需要更新状态的key
     * value: 表示当前批次(batch)的key的对应的值
     * state: 之前该key的状态值，代表的就是状态（历史状态，也就是上次的结果）
     */
    val stateSpec: StateSpec[String, Int, Long, (String, Long)] = StateSpec.function((currentBatchTime: Time, key: String, value: Option[Int], state: State[Long]) => {
      val sum = value.getOrElse(0).toLong + state.getOption().getOrElse(0L)
      val output = (key, sum)
      //更新状态值，如果你的数据没有超时的话
      if (!state.isTimingOut()) {
        state.update(sum)
      }
      Some(output) //返回值，要求返回的是key-value类型的
    }).initialState(initialRDD)   //设置初始值
      .numPartitions(2).timeout(Seconds(10))
    //timeout：超时。当一个key超过Seconds(10)这个时间没有接收到新数据的时候，这个key以及对应的状态会被移除掉，也就是重新统计。

    val result: MapWithStateDStream[String, Int, Long, (String, Long)] = wordAndOne.mapWithState(stateSpec)

    //四、数据输出
    //result.print()    //打印出来发生变化的数据
    result.stateSnapshots().print()   //打印出来的是全量的数据

    //五、启动任务
    ssc.start()
    ssc.awaitTermination()
    ssc.stop()
  }
}

4、transform算子实现黑名单过滤

package com.sparkscala.streaming

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * 通过 transform 算子来实现黑名单过滤的效果
 *
 * 定义黑名单的规则：$ ? ! 过滤掉
 */
object TransformDemo {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)

    //一、设置程序入口
    val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)
    val ssc: StreamingContext = new StreamingContext(conf, Seconds(3))

    //二、获取数据流，即数据源
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop2", 9993)

    //三、数据处理
    val words: DStream[String] = lines.flatMap(_.split(" "))
    val wordAndOne: DStream[(String, Int)] = words.map((_, 1))

    //具体的黑名单操作   定义黑名单的规则：$ ? ! 过滤掉
    //定义黑名单   首先要获取到黑名单，企业中可以从Mysql，Redis里面去获取。
    val filterRDD: RDD[(String, Boolean)] = ssc.sparkContext.parallelize(List("$", "?", "!")).map((_, true))
    //优化：给过滤的规则数据通过广播变量广播出去
    val filterBroadCast: Broadcast[Array[(String, Boolean)]] = ssc.sparkContext.broadcast(filterRDD.collect())

    //实现过滤
    val filterResult: DStream[(String, Int)] = wordAndOne.transform(rdd => {
      val filterRDD2: RDD[(String, Boolean)] = ssc.sparkContext.parallelize(filterBroadCast.value)
      /**
       * 左外连接join，如果join不上就保留
       * (String(key), (Int(1), Option[Boolean]))
       * 通过这个option没值 来进行判断
       */
      val result: RDD[(String, (Int, Option[Boolean]))] = rdd.leftOuterJoin(filterRDD2)
      val joinResult: RDD[(String, (Int, Option[Boolean]))] = result.filter(tuple => {
        tuple._2._2.isEmpty      //过滤出来我们想要的数据
      })
      //在Scala里面最后一行就是方法的返回值
      joinResult.map(tuple => (tuple._1, tuple._2._1))

      //将黑名单字符替换成 * 号
      /*val changeResult: RDD[(String, Int)] = result.map(rdd => {
        if (rdd._2._2.isEmpty) {
          (rdd._1, rdd._2._1)
        } else {
          ("*", 1)
        }
      })
      changeResult*/
    })

    //实现累加
    val finalResult: DStream[(String, Int)] = filterResult.reduceByKey(_ + _)

    //四、数据输出
    finalResult.print()   //打印出来发生变化的数据

    //五、启动任务
    ssc.start()
    ssc.awaitTermination()
    ssc.stop()
  }
}

5、Window操作——reduceByKeyAndWindow算子

reduceByKeyAndWindow 窗口函数允许你在一个滑动的窗口中进行计算。

所有这些窗口操作都需要两个参数 windowLength(窗口大小，即窗口的持续时间) 和 slideInterval(滑动间隔，即执行窗口操作的间隔)；
比如说我们现在要每隔2秒,统计前4秒内每一个单词出现的次数,这个时候就需要用这个窗口函数了；
请注意：窗口大小和滑动间隔必须是间隔的整数倍。

package com.sparkscala.streaming

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * 比如说我们现在要每隔4秒,统计前6秒内每一个单词出现的次数,这个时候需要用reduceByKeyAndWindow
 */
object WindowDemo {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.ERROR)

    //一、初始化程序入口
    val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)
    val ssc: StreamingContext = new StreamingContext(conf, Seconds(2))

    //二、获取数据流，即数据源
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop2", 9995)

    //三、数据处理
    val words: DStream[String] = lines.flatMap(_.split(" "))
    val wordAndOne: DStream[(String, Int)] = words.map((_, 1))

    /**
     * reduceByKeyAndWindow 需要 3 个参数：
     * 一个函数: reduceFunc: (V, V) => V   也就是reduceByKey
     * windowDuration  窗口大小，即窗口的持续时间
     * slideDuration  滑动间隔，即执行窗口的间隔时间
     *
     * 请注意：窗口大小和滑动间隔必须是间隔的整数倍
     * 间隔：new StreamingContext(conf, Seconds(2))
     * 窗口大小：Seconds(6)
     * 滑动间隔：Seconds(4)
     *
     * 如 每隔2秒计算一下最近6秒的单词出现的次数
     * reduceByKeyAndWindow((x:Int,y:Int)=>x+y, Seconds(6), Seconds(2))
     */
    val result: DStream[(String, Int)] = wordAndOne.reduceByKeyAndWindow((x:Int,y:Int)=>x+y, Seconds(6), Seconds(4))

    //四、数据输出
    result.print()

    //五、启动任务
    ssc.start()
    ssc.awaitTermination()
    ssc.stop()
  }
}

6、SparkStreaming和SparkSQL整合

SparkStreaming和SparkSQL整合之后，就非常的方便，可以使用SQL的方式操作相应的数据，很方便。

package com.sparkscala.streaming

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}


object StreamAndSQLDemo {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)

    //一、设置程序入口
    val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)
    val ssc: StreamingContext = new StreamingContext(conf, Seconds(3))

    //二、获取数据流，即数据源
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop2", 9996)

    //三、数据处理
    //这里必须先转换成DStream才能进行下面的转换 toDF 操作
    val words: DStream[String] = lines.flatMap(_.split(" "))
    //获取到一个一个的单词
    words.foreachRDD(rdd => {
      val spark: SparkSession = SparkSession.builder().config(rdd.sparkContext.getConf).getOrCreate()
      import spark.implicits._
      //隐式转换
      val wordDataFrame: DataFrame = rdd.toDF("word")
      //注册一个临时视图
      wordDataFrame.createOrReplaceTempView("words")
      //数据输出
      spark.sql("select word, count(*) as totalCount from words group by word").show()
    })

    //五、启动任务
    ssc.start()
    ssc.awaitTermination()
    ssc.stop()
  }
}

ESP32-S3驱动RGB屏幕显示飘移问题
为什么驱动RGBLCD屏幕时出现偏移（显示画面整体漂移）？原因PCLK设置过高，PSRAM带宽跟不上。Listitem受写flash操作影响，期间PSRAM被禁用。配置方面提高PSRAM和flash带宽，设置flash为QIO120M，PSRAM为Octal120M。开启CONFIG_COMPILER_OPTIMIZATION_PERF。降低data_cache_line_size到32Byte。
MyChrome.exe与Selenium联动避坑指南：User Data目录冲突解决方案龙潜月七 selenium 测试工具
在自动化测试与网络数据采集场景中，MyChrome.exe与Selenium的联动能发挥强大作用，但二者的UserData目录配置若处理不当，易引发冲突。下面我将重点围绕该问题，详细阐述联动的注意事项。MyChrome.exe与Selenium联动避坑指南：UserData目录冲突解决方案在自动化测试与网络数据采集的领域中，MyChrome.exe与Selenium的组合常常是开发者的得力助手。M
若 VSCode 添加到文件夹内右键菜单中显示小妖666 vscode ide 编辑器
若VSCode添加到文件夹内右键菜单中显示（通过reg文件方式）-CSDN博客手动注册方式如下：win键+R键，输出regedit，打开注册表找到\HKEY_CLASSES_ROOT\Directory\Background\shell新建项vscode，并设置默认值为VSCode打开然后在vscode下在新建项command，默认值设为"C:\Users\huyun\AppData\Local\
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
未来数据库硬件-网络篇数据库云计算架构
本文在绿泡泡“狗哥琐话”首发于2025.2.17<-关注不走丢。最近看到一篇不错的文章，叫做“ModernHardwareforFutureDatabases”，里面从几个方向讲了下现在数据库的硬件发展趋势，今天先来说说网络篇。内容中，一位大佬对（获过图灵奖的大佬）OLTP系统进行了一些基准测试，发现TCP-IP协议栈对于总体CPU使用率是占在47～68%。如果使用的网络带宽增加，这个开销还会提升
oracle操作xml笔记 chushiyunen oracle xml 笔记
文章目录第一个例子EXTRACTVALUE()方法oracle这么成熟的数据库，肯定对xml有很好的支持了。第一个例子创建表：CREATETABLExml_table(idNUMBERPRIMARYKEY,xml_dataXMLType);插入数据：INSERTINTOxml_table(id,xml_data)VALUES(1,XMLType('Value'));查询：SELECTEXTRACT
XML 笔记 ddfa1234 xml 服务器
换行在XML中，用于定义一个CDATA节（CharacterDataSection）。CDATA节是用于将一段文本标记为不应当被解析器解析的字符数据。这意味着，在CDATA节内部的所有内容，包括特殊字符如,&等，都不会被当作标记来处理，而是作为纯文本数据对待。CDATA节的主要用途：包含大量特殊字符：当你需要在XML文档中包含大量的特殊字符（比如,&），而不想对这些字符进行转义时（例如<,&
第一章Pandas快速入门 Hajo_ 深入浅出Pandas学习代码 python pandas
《深入浅出Pandas》第一章代码数据来源：https://www.gairuo.com/file/data/dataset/team.xlsximportnumpyasnpimportpandasaspdfile_path='E:\\Data_python\\anconda_code\\Dive_into_Pandas\\data_files\\'team_path='team.xlsx'tea
element ui表格data搜索重置功能 q249859693 elementui vue.js 前端
elementui表格搜索重置功能本地1.html搜索重置...2.datadata(){return{tabledata:[{name:1,id:1},{name:2,id:2}],//你的数据tabledata2:[],//空数据，后面会把筛选的数据加进去loading:false,//重置出现loading加载}}3.methodsgetsearch(){this.tabledata2=th
数据库连接池的作用是什么？破碎的天堂鸟学习教程数据库 oracle sql
数据库连接池（DatabaseConnectionPool）是一种核心的数据库资源管理技术，通过预先创建、复用和管理数据库连接，显著提升应用程序的性能、稳定性和资源利用率。其作用可归纳为以下核心维度：一、核心作用：提升系统性能与效率减少连接创建/销毁开销数据库连接的建立涉及TCP三次握手、身份验证、内存分配等操作，耗时约数十至数百毫秒。连接池在初始化时创建固定数量的连接（如minIdle），后续请
SVG格式深度解析与Path应用实战：从原理到企业级全场景开发（实战版）
一、简介在数字图形领域，SVG（ScalableVectorGraphics）凭借其矢量特性、可编辑性和交互能力，成为现代设计和开发的核心工具。本文将从SVG的基础原理出发，深入解析其技术特性，并与主流图像格式（如JPEG、PNG、PLT等）进行对比分析。通过企业级应用案例，结合代码示例和Mermaid图表，帮助开发者全面掌握SVG的应用场景与开发技巧，实现从零到一的高效实践。二、SVG格式的核心
Libigl在编译时常见错误与解决方法 hunjinYang C++库配置 windows
在VS2019中编译Libigl报错错误一：LNK1104无法打开文件“…\lib\Debug\igl.lib”详细描述错误C1075“{”:未找到匹配令牌igl_core错误C2001常量中有换行符igl_core错误C2001常量中有换行符igl_core错误LNK1104无法打开文件“…\lib\Debug\igl.lib”405_AsRigidAsPossible解决方法：打开triang
VUE2双向绑定的原理许先森森 VUE2 javascript 前端 vue.js vue双向绑定 vue
文章目录VUE2双向绑定的原理1.什么是双向绑定2.双向绑定的原理2.1ViewModel的重要作用2.2双向绑定的流程3.双向绑定的实现3.1data响应化处理3.2Compile编译3.3依赖收集VUE2双向绑定的原理1.什么是双向绑定讲双向绑定先讲单项绑定，啥叫单项绑定，就是一句话就是通过Model去改变View，再直白点，就是通过js代码把数据改变后，html视图也跟着变化那双项绑定就很好
用PyTorch实现MNIST手写数字识别
MNIST包含70,000张手写数字图像:60,000张用于培训，10,000张用于测试。图像是灰度的，28x28像素的，并且居中的，以减少预处理和加快运行。1、导入相关库importtorchimporttorchvisionfromtorch.utils.dataimportDataLoaderimporttorch.nnasnnimporttorch.nn.functionalasFimpo
vue3 el-table设置选中 D_Fortune 前端前端 javascript 开发语言
consttableData=ref([])consttableRef=ref()constgetTableData=()=>{tableData.value=data;nextTick(()=>{if(result.length){for(leti=0;i
Spring IO 与企业级应用开发_构建标准化项目的最佳实践
1.前言1.1SpringIO的诞生背景与定位随着Spring生态的不断扩展，Java开发者在使用SpringBoot、SpringData、SpringSecurity等模块时，常常面临一个痛点：不同模块之间版本不一致、依赖冲突频发、升级困难。为了解决这一问题，Spring推出了SpringIOPlatform，它是一个统一版本管理平台，提供了一套经过验证的模块版本组合（BOM），帮助开发者快速
：style响应式，computed函数监听，循环遍历传参一万句的秘密 windows
computed:{getData(){returnJSON.parse(JSON.stringify(this.data));},computedStyle(){return(i)=>{return{display:this.getData.list[i].options.flex?"flex":"",alignItems:this.getData.list[i].options.flexAli
aws 数据库迁移_AWS Loft的数据库周 dnc8371 数据库大数据 mysql java python
aws数据库迁移这是我的笔记：https://databaseweekoctober2019sf.splashthat.comAWS上的数据库：合适工作的合适工具在许多此类谈话中，我并没有做过深刻的记录。我正在关注重点。PostgreSQL排在MySQL之后。AWS上8种类型的数据库：关系型核心价值文件在记忆中图形搜索时间序列分类帐搜索：AWSDatabaseServices对于关系，他们有Ama
Oracle Data Guard之Snapshot Standby（快照备库）学无止境的小一 oracle 数据库
前言在日常工作中，有时会有一些需求，那就是需要用到生产环境的数据进行测试，如果按照常规方法，通过备份恢复到测试库进行测试的话，数据库体积越大恢复的速度越慢。在这种情况下我们可以使用SnapshotStandby（快照备库）来进行一些测试操作。SnapshotStandby的介绍Oracle11g中的DataGuard不仅引入了ActiveDataGuard实时查询特性，还提供了snapshotst
OL9.4安装19.27RAC记录李曰福 Oracle oracle
更新-2025-06-09在上一次安装时，文档OracleDatabase19cProactivePatchInformation(DocID2521164.1)未给出GI_MRP的链接。安装DB_MRP失败。在PrimaryNoteforDatabaseQuarterlyReleaseUpdates(DocID888.1)找到了GI_MRP.上传到/stage目录后，并修改setup.ini,加
多元线性回归 python_Python中的多元线性回归
多元线性回归pythonLinearregressionisastandardstatisticaldataanalysistechnique.Weuselinearregressiontodeterminethedirectrelationshipbetweenadependentvariableandoneormoreindependentvariables.Thedependentvaria
RNN案例人名分类器（完整步骤） AI扶我青云志 rnn 人工智能深度学习 nlp lstm gru
今天给大家分享一个NLP（自然语言处理）中的一个小案例，本案例讲解了RNN、LSTM、GRU模型是如何使用并进行预测的，一、案例架构人名分类器的实现可分为以下五个步骤:第一步:导入必备的工具包第二步:对data文件中的数据进行处理，满足训练要求第三步:构建RNN模型(包括传统RNN,LSTM以及GRU)第四步:构建训练函数并进行训练五步第:构建评估函数并进行预测二、实现步骤1.导包#导入torch
第四十一篇-Docker安装Neo4j 木卫二号Coding AI-LLM-实战 docker neo4j 容器
创建目录mkdir/opt/neo4j-data创建dockerrun\-d--nameneo4j\-p7474:7474-p7687:7687\-v/opt/neo4j-data/data:/data\-v/opt/neo4j-data/logs:/logs\-v/opt/neo4j-data//conf:/var/lib/neo4j/conf\-v/opt/neo4j-data/plugins
springboot + neo4j 功能使用风行傲天 spring boot neo4j windows
注意：1、使用jpa处理数据时，如果对象中有relationship关系，数据中没有写关系，更新数据时会将原有的关系删除掉(出来方法可以先查询出原来的数据，然后在编辑)2、集成添加依赖org.springframework.bootspring-boot-starter-data-neo4jspring:#neo4j图数据库neo4j:uri:bolt://localhost:7687authen
Assistant API 流式传输中的事件流原理细节上有晨光大模型Agent开发人工智能算法大模型 OpenAI Agent
一、AssistantAPI流式传输事件流基础OpenAIAssistantAPI的流式输出在特定操作时会生成新事件，每个事件由event和data构成。data存放如大模型回复等关键数据，event则表明大模型的处理阶段，像运行、排队、完成等状态信息。二、事件流核心流程整体流程：从创建assistant对象、thread对象并追加message开启run状态（即start模式）起，到获取模型回复
React与Vue的区别？扎西_德勒 vue.js react.js javascript
一、区别:1.语法Vue采用自己特有的模板语法；React是单向的，采用jsx语法创建react元素。2.监听数据变化的实现原理不同Vue2.0通过Object.defineproperty()方法的getter/setter属性,实现数据劫持,每次修改完数据会触发diff算法(双端对比)React默认是通过shouldComponentUpdata生命周期来决定是否需要渲染更新,再触发它的dif
【Vue.js】 Mixin 局部混入与全局混入的介绍和使用总结以及优缺点分析生活、追梦者 vue vue.js 前端 javascript
1.Vue.jsMixin概述1.1Mixin的定义与作用Mixin在Vue.js中是一种灵活的组件复用机制。它允许我们将多个组件之间的共通功能抽象出来，形成一个混入对象。这样，我们就可以避免在多个组件中重复编写相同的代码，提高代码的复用性和可维护性。Mixin对象可以包含多种组件选项，如数据（data）、计算属性（computed）、方法（methods）、生命周期钩子（lifecyclehoo
从维基百科到知识图谱：用 DSPy、OpenAI 和 TiDB 构建 GraphRAG 的奇妙旅程步子哥 AGI通用人工智能知识图谱 tidb 人工智能
在信息爆炸的时代，如何快速从海量数据中提取有用信息，成为了技术发展的重要方向。传统的RAG（Retrieval-AugmentedGeneration）方法虽然在信息检索领域表现出色，但随着需求复杂度的提升，GraphRAG（基于知识图谱的RAG）逐渐成为更优的解决方案。本文将带您一步步了解如何利用DSPy、OpenAI和TiDBVectorDatabase，从维基百科数据构建一个GraphRAG
BARN_dataset的生成代码jackal-map-creation-master的使用说明： heng6868 研究生机器人 python
主要代码是gen_world_ca.py,其中有各个参数来调节，来生成适合自己机器人的gazebo环境，顺带着还会生成路径等等（没有具体研究），具体参数如下：jackaltakesup2extragridsquaresoneachsideinadditiontocentersquarejackal_radius=3pgmfileresolutionpgm_res=0.15#metersperpix
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement