Jafeiyn

Spark基本原理与使用--Spark Streaming

概念与原理

基本概念

Spark Streaming用于流式数据处理，支持可扩展、高吞吐、可容错的准实时微批次（微时间）数据处理，支持多种数据输入源如Kafka、Flume、Twitter、ZeroMQ和简单TCP Socket等，同时也支持多种数据输出方式如HDFS和数据库等；
数据输入后可通过Spark的map、reduce、join等进行运算，运算后的结果可以输出到如HDFS或数据库等；

DStream：离散化流，即随时间推移而收到的数据序列，内部由每个时间区间收到的数据作为RDD，多个RDD所组成的序列即为离散化流；可以将DStream理解为对RDD在实时数据处理场景的一种封装。

特点

易用性
易整合到Spark生态圈
容错性

架构

背压机制

Spark1.5之前可以通过设置静态配置参数 spark.streaming.receiver.maxRate 值来实现限制Receiver的数据接收速率，该方式虽然可以防止内存溢出问题，但如果当前集群数据处理能力高于maxRate设定值时可能会导致资源浪费的问题；
为了协调数据接收速率与集群处理数据能力，Spark1.5开始引入背压机制可以动态控制数据接收速率来适配集群数据处理能力；
背压机制：即根据作业调度器反馈作业的执行信息来动态调整接收器数据接收率。通过配置参数 spark.streaming.backpressure.enabled=true 开启背压机制，默认为false-不开启。

DStream

RDD队列创建DStream

通过ssc.queueStream(queueOfRDDs)方式创建DStream，每个推送到队列中的RDD，都会作为一个DStream处理。

package com.itjeffrey.spark.streaming.dstream.rdd

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

import java.util.concurrent.TimeUnit
import scala.collection.mutable

/**
 * RDD队列方式创建DStream
 *
 * @From: Jeffrey
 * @Date: 2022/11/22
 */
object RddStream {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark-Streaming")
    val ssc = new StreamingContext(conf, Seconds(3))

    //创建RDD队列获取DStream
    val queue = new mutable.Queue[RDD[Int]]()
    val ids: InputDStream[Int] = ssc.queueStream(queue, false)
    val map: DStream[(Int, Int)] = ids.map((_, 1))
    val value: DStream[(Int, Int)] = map.reduceByKey(_ + _)
    value.print()

    ssc.start()

    //采集器启动后，每隔2s往创建的队列中放入5个RDD
    for(i <- 1 to 5){
      queue += ssc.sparkContext.makeRDD(1 to 300, 10)
      TimeUnit.SECONDS.sleep(2)
    }

    ssc.awaitTermination()
  }
}

自定义数据采集器

用法：继承Receiver，实现onStart, onStop方法

package com.itjeffrey.spark.streaming.dstream.custom

import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.receiver.Receiver
import org.apache.spark.streaming.{Seconds, StreamingContext}

import java.util.Random
import java.util.concurrent.TimeUnit

/**
 * 自定义采集器，实现监控某端口获取数据
 *
 * @From: Jeffrey
 * @Date: 2022/11/22
 */
object CustomReceiverDemo {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark-Streaming")
    val ssc = new StreamingContext(conf, Seconds(3))

    //创建自定义采集器，采集数据并打印
    val dStream: ReceiverInputDStream[String] = ssc.receiverStream(new CustomReceiver())
    dStream.print()

    ssc.start()
    ssc.awaitTermination()
  }

  //自定义采集器，指定存储级别
  class CustomReceiver extends Receiver[String](StorageLevel.MEMORY_ONLY) {
    private var toStart = true
    //启动采集器
    override def onStart(): Unit = {
      new Thread(new Runnable {
        override def run(): Unit = {
          while (toStart){
            val data: String = new Random().nextInt(10).toString
            //store，存储数据，按照指定采集器的存储级别将数据封装成对应RDD存放在指定存储级别所在的位置
            store(data)
            TimeUnit.MILLISECONDS.sleep(500)
          }
        }
      }).start()
    }
    //关闭采集器
    override def onStop(): Unit = {
      toStart = false
    }
  }
}

Kafka数据源（重点）

SparkStreaming采集Kafaka数据源中的数据；
在版本选型方面，新版本通常采用DirectAPI方式，由计算节点Executor主动消费Kafka数据，速度由自身控制；而早起版本中是采用ReceiverAPI方式由一个专门的Executor采集节点采集收据然后发送到其他的Executor计算节点做计算操作，这可能会导致计算节点内存溢出等问题。

Kafka0-10 Direct模式

前提：本地得安装运行Kafka程序，Kafka中创建topic “spark_streaming_topic”;

导入依赖：

<!--kafka数据源依赖-->
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka-0-10_2.12</artifactId>
    <version>3.0.0</version>
</dependency>
<!--jackson依赖，注意：版本必须与spark-streaming-kafka对应否则启动会报错，我这里spark3.0.0要求jackson-core必须2.10.0以上版本才可以-->
<dependency>
    <groupId>com.fasterxml.jackson.core</groupId>
    <artifactId>jackson-core</artifactId>
    <version>2.10.0</version>
</dependency>

采集kafka数据源中的消息

package com.itjeffrey.spark.streaming.dstream.kafka

import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * Kafka数据源
 *
 * @From: Jeffrey
 * @Date: 2022/11/22
 */
object KafkaStream {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark-Streaming")
    val ssc = new StreamingContext(conf, Seconds(3))

    //kafka配置参数
    val kafkaParams: Map[String, Object] = Map[String, Object](
      ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG -> "127.0.0.1:9092",
      ConsumerConfig.GROUP_ID_CONFIG -> "spark_kafka_group",
      ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG -> "org.apache.kafka.common.serialization.StringDeserializer",
      ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG -> "org.apache.kafka.common.serialization.StringDeserializer"
    )

    //通过KafkaUtils创建Direct模式的Kafka DStream
    val kStream: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
      ssc,
      //指定定位策略-选择如何在执行器上为一个给定的TopicPartition安排消费者，
      //PreferConsistent-在大多数情况下使用这个，它将在所有的执行器上一致地分配分区
      LocationStrategies.PreferConsistent,
      //指定消费的topic和消费者相关的kafka配置参数
      ConsumerStrategies.Subscribe[String, String](Set("spark_streaming_topic"), kafkaParams))

    //打印每条消息的值
    kStream.map(_.value()).print()

    ssc.start()
    ssc.awaitTermination()
  }
}

启动Kafka和上述KafkaStream测试程序，往Kafka测试topic “spark_streaming_topic”中放入测试消息

控制台打印结果如下：

DStream转换

无状态转化操作

无状态指的是数据，在无状态转换操作下，前一个采集周期的数据不会在下一个采集周期中使用；

无状态转化，即把简单的RDD转化操作分别应用到每个批次上，也就是转化DStream中每个RDD操作；（注：针对键值对的DStream转换操作需要添加import StreamingContext._才能在Scala使用）

无状态转化操作只处理当前采集周期内的数据，包含map, flatMap, filter, repartition, reduceByKey, groupByKey，join等操作；

有状态转化操作

有状态指的是在有状态转化操作下，前一个采集周期的数据会在下一个采集周期中使用；
有状态转化操作需要保留数据状态，包含updateStateByKey, transform及各种Window相关聚合等操作；

DStream转化示例

无状态转换操作–join
本地netcat启动两个端口9999和8888

package com.itjeffrey.spark.streaming.dstream.transfer

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

/**
 * 无状态转换操作--join
 *
 * @From: Jeffrey
 * @Date: 2022/11/23
 */
object JoinTransfer {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark-Streaming")
    val ssc = new StreamingContext(conf, Seconds(5))

    val lines8: ReceiverInputDStream[String] = ssc.socketTextStream("127.0.0.1", 8888)
    val lines9: ReceiverInputDStream[String] = ssc.socketTextStream("127.0.0.1", 9999)

    val map8: DStream[(String, Int)] = lines8.map((_, 8))
    val map9: DStream[(String, Int)] = lines9.map((_, 9))

    //join-将两个DStream流中的相同key数据的value组合在一起，底层其实是两个RDD的join操作
    val res: DStream[(String, (Int, Int))] = map8.join(map9)
    res.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

有状态转换操作–updateStateByKey
本地netcat启动一个9000端口

package com.itjeffrey.spark.streaming.dstream.transfer

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Duration, Seconds, StreamingContext}

/**
 * DStream转换操作
 * @From: Jeffrey
 * @Date: 2022/11/22
 */
object StateTransfer {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark-Streaming")
    val duration: Duration = Seconds(5)
    val ssc = new StreamingContext(conf, duration)
    //有状态转化操作时必须加上checkpoint目录用于存放状态数据
    ssc.checkpoint("datas/state")

    //world-count task
    val words: ReceiverInputDStream[String] = ssc.socketTextStream("127.0.0.1", 9000)
    val map: DStream[(String, Int)] = words.map((_, 1))
    //无状态转化操作
//    val value: DStream[(String, Int)] = map.reduceByKey(_ + _)
    //有状态转化操作，根据key更新value状态数据
    val value: DStream[(String, Int)] = map.updateStateByKey(
      (seq: Seq[Int], buffer: Option[Int]) => {
        //缓冲区的值加上当前采集周期相同key对应的value值之和
        Option(buffer.getOrElse(0) + seq.sum)
      }
    )
    value.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

有状态转换操作–transform

package com.itjeffrey.spark.streaming.dstream.transfer

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * transform转换操作
 * @From: Jeffrey
 * @Date: 2022/11/22
 */
object Transform {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark-Streaming")
    val ssc = new StreamingContext(conf, Seconds(5))

    val words: ReceiverInputDStream[String] = ssc.socketTextStream("127.0.0.1", 9000)

    /**
     * transform: 获取底层的RDD进行操作
     * 应用场景：
     *    1.DStream功能不完善
     *    2.需要代码周期性执行
     */

    //Driver端执行（只执行一次）
    words.transform(
      rdd => {
        //Driver端（周期性）执行，一个采集周期生成一个rdd
        rdd.map(
          str => {
            //Executor端执行
            str
          })
      }
    )

    //Driver端执行
    words.map(
      str => {
        //Executor端执行
        str
      }
    )

    ssc.start()
    ssc.awaitTermination()
  }
}

DStream转换操作–WindowOperations
WindowOperations可以设置窗口大小和滑动窗口间隔来动态获取当前Streaming的允许状态。基于窗口操作的两个参数分别为窗口时长和滑动步长。也可以理解为将多个采集周期的数据作为一个整体的窗口数据进行计算；

package com.itjeffrey.spark.streaming.dstream.transfer

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * 有状态转换操作--window operations
 *
 * @From: Jeffrey
 * @Date: 2022/11/23
 */
object WindowTransfer {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark-Streaming")
    val ssc = new StreamingContext(conf, Seconds(5))
	ssc.checkpoint("datas/state")
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("127.0.0.1", 9000)
    val map: DStream[(String, Int)] = lines.map((_, 1))

    //window-(无状态操作)将多个采集周期作为一个整体，窗口每一次滑动触发一次计算
    //1. 窗口大小应该是一个采集周期的整数倍
    //2. 窗口滑动默认是一个采集周期的滑动，可能会出现计算重复数据的问题，可以通过滑动长度（步长）进行设置
    //window参数一：windowDuration-窗口大小即所占的时长，参数二：slideDuration-滑动长度即滑动的时长
    val windowDS: DStream[(String, Int)] = map.window(Seconds(10))
//    val windowDS: DStream[(String, Int)] = map.window(Seconds(10), Seconds(10))
    val res: DStream[(String, Int)] = windowDS.reduceByKey(_ + _)

    //reduceByKeyAndWindow-(有状态操作)当窗口范围较大且滑动幅度较小时可以采用增加数据和删除数据的方式避免数据重复计算，提高了计算性能
//    val res: DStream[(String, Int)] = ds.reduceByKeyAndWindow(_ + _, _ - _, Seconds(10), Seconds(5))

    res.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

DStream输出

输出操作是指对流数据转换后得到的结果数据所进行的操作，如将结果数据输出到数据库或打印控制台等；
StreamingContext中如果没有设定输出操作，整个程序就会启动报错。
常用的DStream输出操作包含print, saveAsTextFiles, saveAsHadoopFiles, foreachRDD(通用输出)

    //foreachRDD相对于print不会出现时间戳，底层使用RDD
    res.foreachRDD(rdd => {
      //可以重用rdd所有操作
      rdd.collect().foreach(println)
      println("---------------")
    })

StreamingContext优雅关闭

package com.itjeffrey.spark.streaming.close

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.{Seconds, StreamingContext, StreamingContextState}

import java.util.Random

/**
 * StreamingContext优雅关闭
 *
 * @From: Jeffrey
 * @Date: 2022/11/23
 */
object StreamingGracefullyClose {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark-Streaming")
    val ssc = new StreamingContext(conf, Seconds(5))

    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("127.0.0.1", 9000)
    lines.print()

    //启动采集器
    ssc.start()

    //创建新线程关闭采集器
    new Thread(new Runnable {
      override def run(): Unit = {
        while (true){
          //TODO 可以在第三方程序中添加关闭状态，如mysql, redis, zk, hdfs, kafka等程序
          //这里模拟从第三方获取到需要关闭StreamingContext的状态数据
          val rand: Int = new Random().nextInt(10)
          println("get toStop flag from Third-party programs: " + rand)
          val toStop: Boolean = rand == 6

          if(toStop){
            //判断StreamingContext状态，如果是激活状态就关闭
            val state: StreamingContextState = ssc.getState()
            if(state == StreamingContextState.ACTIVE){
              //优雅关闭StreamingContext--计算节点不再接受新的数据，而是将当前计算逻辑处理完毕后再停止
              ssc.stop(stopSparkContext = true, stopGracefully = true)
            }
            //停止线程
            System.exit(0)
          }else{
            Thread.sleep(2000)
          }
        }
      }
    }).start()

    //block主线程，等待采集器停止
    ssc.awaitTermination()
  }
}

StreamingContext数据恢复

package com.itjeffrey.spark.streaming.close

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.{Seconds, StreamingContext, StreamingContextState}

import java.util.Random

/**
 * StreamingContext恢复数据
 *
 * @From: Jeffrey
 * @Date: 2022/11/23
 */
object StreamingResumeData {
  def main(args: Array[String]): Unit = {
    //参数一：设置checkpoint, 表示将之前的数据保存起来，重启时从checkpoint中恢复数据
    //参数二：创建StreamingContext
    val ssc: StreamingContext = StreamingContext.getActiveOrCreate("datas/cp", () => {
      val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark-Streaming")
      val ssc = new StreamingContext(conf, Seconds(5))
      val lines: ReceiverInputDStream[String] = ssc.socketTextStream("127.0.0.1", 9000)
      lines.print()
      ssc
    })
    //设置checkpoint
    ssc.checkpoint("datas/cp")

    //可以启动一个线程优雅关闭StreamingContext
    //new Thread(new GracefullyClose(ssc)).start()

    ssc.start()
    ssc.awaitTermination()
  }
}

基础演示

cmd启动9000端口（前提：Windows系统得安装netcat）

安装netcat，下载地址：https://eternallybored.org/misc/netcat/
点击 Small update: netcat 1.12
解压 netcat-win32-1.12，将解压后的目录配置到系统环境变量Path

cmd开启9000端口，等待输入文本
#Windows系统
nc -lp 9000
#Linux系统
nc -lk 9000

worldcount代码演示，监听本机9000端口数据，每5s采集一次文本流数据进行批处理

package com.itjeffrey.spark.streaming.demo

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Duration, Seconds, StreamingContext}

/**
 * Spark Streaming 准实时、微批次的流数据处理框架
 *
 * @From: Jeffrey
 * @Date: 2022/11/21
 */
object SparkStreaming_WC {
  def main(args: Array[String]): Unit = {
    //注意：master至少要有2个分区线程，一个作为采集器采集数据，一个真正执行任务
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark-Streaming")
    //设置批处理周期（采集周期）
//    val duration: Duration = Duration(5000)
    //    val duration1: Duration = Minutes(5000)
    val duration: Duration = Seconds(5)
    val ssc = new StreamingContext(conf, duration)

    //world-count task
    worldCountTask(ssc)

    //spark-streaming中采集器是需要长期执行的任务，不能将StreamingContext关闭，同时也不能让主程序main执行结束
    //启动采集器
    ssc.start()
    //等待采集器关闭
    ssc.awaitTermination()
  }

  def worldCountTask(ssc: StreamingContext) = {
    //获取端口数据，从socket文本流中获取一行行文本数据
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("127.0.0.1", 9000)
    val words: DStream[String] = lines.flatMap(_.split(" "))
    val map: DStream[(String, Int)] = words.map((_, 1))
    val value: DStream[(String, Int)] = map.reduceByKey(_ + _)
    value.print()
  }
}

测试结果

GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
慢速连接攻击是什么？慢速连接攻击怎么防护？快快小毛毛网络 ddos 服务器
慢速连接攻击（SlowConnectionAttack），又称慢速攻击（SlowlorisAttack），是一种网络攻击技术，旨在通过占用服务器上的所有可用连接资源来使其无法响应正常请求。与传统的拒绝服务（DoS）和分布式拒绝服务（DDoS）攻击不同，慢速攻击并不依赖于发送大量数据包来消耗带宽，而是利用HTTP、TCP或SSL等协议的特性，通过发送大量不完整的请求或缓慢发送数据来占用服务器资源，使
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
Gobelieve 架构 weixin_34099526 数据库 golang json
Gobelievegithub地址声明:转简书JackieF的文章,为了自己方便copy了一份,加一些自己的东西.链接：https://www.jianshu.com/p/8121d6e85282IMCore主要分三大块:im客户连接服务器（可分布式部署，暂无负载均衡模块)imr路由查询服务器（主要解决im分布式部署的问题）ims存储服务器(主从部署)基础模块1.数据包协议包：header(12)
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
Rides实现分布式锁，保障数据一致性,Redisson分布式事务处理朱杰jjj 缓存分布式
分布式环境下分布式锁有三种方式：基于数据库分布式锁基于Redis分布式锁基于zk分布式锁本帖只介绍Redis分布式锁为什么需要用到分布式锁？在单机环境下一个服务中多个线程对同一个事物或数据资源进行操作时，可以通过添加加锁方式（synchronized和lock）来解决数据一致性的问题。但是如果出现多个服务的情况下，这时候我们在通过synchronized和lock的方式来加锁会出现问题，因为多个服
机电综合管理系统架构小熊coder 机载系统系统架构
文章目录一、机电综合管理系统架构1.系统概述2.架构层次3.核心组件二、余度管理1.余度概述2.硬件冗余3.软件冗余4.通信冗余三、总线架构1.MIL-STD-1553B总线2.ARINC429总线3.ARINC629总线4.AFDX/ARINC664总线四、未来发展趋势1.分布式架构2.高速网络3.智能化与自动化结语机电综合管理系统（ElectromechanicalManagementSyst
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Dubbo架构概览：服务注册与发现、远程调用、监控与管理木南曌 dubbo 架构
Dubbo是一个成熟的、高性能的、基于Java的微服务开发框架，它主要用于解决分布式系统中的服务治理问题，包括服务的注册与发现、远程过程调用（RPC）、服务监控与管理等多个关键环节。以下是Dubbo架构概览的详细介绍：服务注册与发现Dubbo的服务注册与发现机制是其核心功能之一，它依赖于注册中心来管理服务的生命周期和定位服务提供者。1.服务提供者（Provider）服务提供者是实际提供服务的节点，
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb