MusicDancing

Spark Streaming 简介

1. 流计算概述

1.1 流计算简介

数据仓库中存放的大量历史数据就是静态数据，可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。而流数据表现为数据以大量、快速、时变的流形式持续到达。如PM2.5检测、电子商务网站用户点击流。

1. 数据快速持续到达，潜在大小也许是无穷无尽的；

2. 数据来源众多，格式复杂；

3. 注重数据的整体价值，不过分关注个别数据；

4. 数据量大，但是不十分关注存储，一旦经过处理，要么被丢弃，要么被归档存储；

5. 数据顺序颠倒，或者不完整，系统无法控制将要处理的新到达的数据元素的顺序。

批量计算和实时计算

流计算： 实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息。数据价值随着时间流逝而降低(如用户点击流)，因此当事件出现时就应该立即处理，而不是缓存起来进行批量处理。

流计算系统要求：高性能、海量式、实时性、分布式、易用性、可靠性

1.2 流计算与Hadoop

Hadoop设计的初衷是面向大规模数据的批量处理，每台机器并行运行MR任务，最后对结果进行汇总输出。其中MR是专门面向静态数据的批量处理的，内部各种实现机制都为批处理做了高度优化，不适合用于处理持续到达的动态数据。

降低批处理时间延迟，改造MR实现近似流计算

1. 采用变通的方式对MR进行相关的改造；

2. MR的批量数据转化成很多的小量数据，一大批数据把它切割成很多小批；

3. 每隔一个周期去启动一次MR作业，可以变相地完成一个流式数据的处理。

问题：

1. 切分成小片段，可以降低延迟，但也增加了附加开销，还要处理片段之间的依赖关系；

2. 需要改造MR以支持流式数据。

结论： Hadoop擅长批处理，不适合流计算！

其他常见流计算框架：Twitter Storm、Yahoo! S4、IBM StreamBase、IBM InfoSphere Streams等

1.3 流计算处理流程

1. 数据实时采集

通常采集多个数据源的海量数据，需要保证实时性、低延迟和稳定可靠。

常见开源分布式日志采集系统：kafaka、flume、scribe

2. 数据实时计算

对采集的数据进行实时的分析和计算并反馈实时结果。经流处理系统处理后的数据，可视情况进行存储，以便之后再进行分析计算；在失效性要求较高的场景中，处理之后的数据也可以直接丢弃。

3. 实时查询服务

经过流计算框架得出的结果，可以让用户能够进行实时的查询展示和存储。另外，流处理计算结果会不断地去更新、不断地实时推送给用户，而传统的数据处理方式，需要用户主动发出查询，且获取的都是过去某一个历史时刻的快照。

2. Spark Streaming

2.1 Spark Streaming 的设计

可以整合多种输入源，下图为其支持的输入、输出数据源。

Spark Streaming的执行流程：

其基本原理是将实时输入数据流以时间片(秒级)为单位进行拆分，然后经Spark引擎以类似批处理的方式处理每个时间片数据。

DStream 操作示意图

Spark Streaming 最主要的抽象是DStream(Discretized Stream，离散化数据流)，表示连续不断的数据流。在内部实现上，Spark Streaming的输入数据按照时间片(如1秒)分成一段一段的DStream，每一段数据转换为Spark中的RDD，并且对DStream的操作都最终转变为对应的RDD操作。

2.2 Spark Streaming与Storm的对比

Spark Streaming无法实现毫秒级的流计算，而Storm可以实现毫秒级响应。

1. Spark的低延迟执行(100ms+)，可以用于实时计算；

2. 相比于Storm，RDD数据集更容易做高效的容错处理。

Spark Streaming采用的小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法，因此，方便了一些需要历史数据和实时数据联合分析的特定应用场合。

3. DStream操作概述

3.1 Spark Streaming工作原理

1. 在Spark Streaming中，会有一个组件Receiver，作为一个长期运行的task跑在一个Executor上；

2. 每个Receiver都会负责一个input DStream（比如从文件中读取数据的文件流、套接字流、或从Kafka中读取的一个输入流等）

3. Spark Streaming通过input DStream与外部数据源进行连接，读取相关数据。

3.2 Spark Streaming程序基本步骤

1. 创建输入DStream来定义输入源；

2. 对DStream应用转换操作和输出操作来定义流计算；

3. 用streamingContext.start()来开始接收数据和处理流程；

4. 通过streamingContext.awaitTermination()方法来等待处理结束；

5. 通过streamingContext.stop()来手动结束流计算进程。

3.2 创建StreamingContext对象

1. 首先要生成一个StreamingContext对象，它是Spark Streaming程序的主入口；

2. 可以从SparkConf对象创建一个StreamingContext对象；

3. spark-shell提供了一个默认的SparkConext，即sc，可用以创建StreamingContext对象。

import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds

val ssc = new StreamingContext(spark.sparkContext, Seconds(1))

4. 输入源

4.1 文件流

新建一个待监控的目录 /usr/local/spark/mycode/steaming/logs，只捕捉动态变化的部分。

file1.txt

I love Hadoop
I love Spark

import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds

object Test {
    def main(args: Array[String]): Unit = {
        val spark = SparkSession
          .builder()
          .appName("wc")
          .master("local")
          .getOrCreate()
        spark.sparkContext.setLogLevel("ERROR")
        val input_path = "/Users/zz/Desktop/input/"
        val ssc = new StreamingContext(spark.sparkContext, Seconds(10))
        val lines = ssc.textFileStream(input_path)
        val wc_rdd = lines.flatMap(_.split(" "))
          .map(x => (x,1))
          .reduceByKey(_+_)
        wc_rdd.print()
        ssc.start()  // 进入循环监听状态
        ssc.awaitTermination()  // 阻塞，等待关闭
        spark.stop()
    }
}

在监控目录下新建一个文件file2.txt，就可以在舰艇窗口中显示词频统计结果。

打包编译运行

/usr/local/spark/bin/spark-submit --class "WCStreaming" /usr/local/spark/mycode/streaming/target/scala-2.11/simple-project_2.11-1.0.jar

执行后就进入了监听状态。

4.2 套接字流

4.2.1 使用nc程序产生套接字

监听Socket端口，接收数据

import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming._
import org.apache.spark._
import org.apache.spark.storage.StorageLevel

object Test {
    def main(args: Array[String]): Unit = {
        if(args.length < 2){
            System.err.println("Usage: Test  ")
            System.exit(1)
        }
        val host = args(0)
        val port = args(1)
        StreamingExamples.setStreamingLogLevels()
        val spark = SparkSession
          .builder()
          .appName("wc")
          .master("local")
          .getOrCreate()
        // spark.sparkContext.setLogLevel("ERROR")
        val ssc = new StreamingContext(spark.sparkContext, Seconds(1))
        val lines = ssc.socketTextStream(host, port.toInt, StorageLevel.MEMORY_AND_DISK_SER)
        val wc_rdd = lines.flatMap(_.split(" "))
          .map(x => (x,1))
          .reduceByKey(_+_)
        wc_rdd.print()
        ssc.start()
        ssc.awaitTermination()
        spark.stop()
    }
}

在相同目录下新建一个StreamingExamples.scala，作为日志格式化文件。

import org.apache.spark.internal.Logging
import org.apache.log4j.{Level, Logger}

object StreamingExamples extends Logging {
  def setStreamingLogLevels(): Unit ={
    val log4jInitialized = Logger.getRootLogger.getAllAppenders.hasMoreElements
    if(!log4jInitialized){
      logInfo("Setting log level to [WARN] for streaming example.")
      Logger.getRootLogger.setLevel(Level.WARN)
    }
  }
}

编译运行

/usr/local/spark/bin/spark-submit \
  --class "Test" \
  /usr/local/spark/mycode/streaming/target/scala-2.11/simple-project_2.11-1.0.jar \
  localhost 9999

新开一个窗口作为nc窗口，启动nc程序

nc -lk 9999

在nc端口输入一些单词，就会被监听到。

4.2.2 自己编写程序产生Socket数据源

import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming._
import org.apache.spark._
import org.apache.spark.storage.StorageLevel
import java.io.PrintWriter
import java.net.ServerSocket
import scala.io.Source

object DataSourceSocket {
    def main(args: Array[String]): Unit = {
        def index(length: Int)={
            val rdm = new java.util.Random()
            rdm.nextInt(length)
        }
        if(args.length != 3){
            System.err.println("Usage:   ")
            System.exit(1)
        }
        val fileName = args(0)
        val port = args(1)
        val millisecond = args(2)
        val lines = Source.fromFile(fileName).getLines().toList
        val rowCount = lines.length
        
        val listener = new ServerSocket(port.toInt)
        while(true){
            val socket = listener.accept()
            new Thread(){
                override def run={
                    println("Got client connected from: " + socket.getInetAddress)
                    val out = new PrintWriter(socket.getOutputStream, true)
                    while(true){
                        Thread.sleep(millisecond.toLong)
                        val context = lines(index(rowCount))
                        println(context)
                        out.write(context + "\n")
                        out.flush()
                    }
                    socket.close()
                }
            }.start()
        }
    }
}

4.3 RDD队列流

使用streamingContext.queueStream(queueOfRDD)创建基于RDD队列的DStream。

实现每隔1s创建一个RDD，Streaming每隔2s就对数据进行处理。

package com.khj.spark

import org.apache.spark.sql.SparkSession
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.{Seconds, StreamingContext}
import scala.collection.mutable.SynchronizedQueue

object QueueStream {
    def main(args: Array[String]): Unit = {
        val spark = SparkSession
          .builder()
          .appName("wc")
          .master("local")
          .getOrCreate()
        val ssc = new StreamingContext(spark.sparkContext, Seconds(2))
        val rddQueue = new SynchronizedQueue[RDD[Int]]()
        val wc_rdd = ssc.queueStream(rddQueue)
          .map(r => (r%10, 1))
          .reduceByKey(_+_)
        wc_rdd.print()
        ssc.start()
        for(i <- 1 to 10){
            rddQueue += ssc.sparkContext.makeRDD(1 to 100, 2)
            Thread.sleep(1000)
        }
        ssc.stop()
        spark.stop()
    }
}

4.4 高级数据源

4.4.1 Apache Kafka

参考： Spark Streaming 读取Kafka数据源

4.4.2 Apache Flume

暂无

5. 转换操作

5.1 DStream无状态转换操作

1. map(func)

对源DStream的每个元素，采用func()进行转换，得到一个新的DStream；

2. flatMap(func)

与map类似，但每个输入项可用被映射为0或多个输出项；

3. filter(func)

返回一个新的DStream，仅包含源DStream中满足func()的项；

4. repartition(num)

通过创建更多或者更少的分区改变DStream的并行程度。

5. reduce(func)

利用func()聚集源DStream中每个RDD的元素，返回一个包含单元素RDDs的新DStream。

6. count()

统计源DStream中每个RDD的元素数量。

7. union(otherStream)

返回一个新的DStream，包含源DStream和其他DStream的元素。

8. countByValue()

应用于元素类型为K的DStream上，返回一个kv类型的新DStream，每个键的值是在原DStream的每个RDD中出现的次数。

9. reduceByValue(func, [numTasks])

返回的DStream中，每一个key的值均由给定的reduce(func)聚集起来。

10. join(otherStream, [numTasks])

应用于两个DStream（一个为kv，一个为kw），返回一个包含(k,(v,w))的新DStream。

11. cogroup(otherStream, [numTasks])

应用于两个DStream（一个为kv，一个为kw），返回一个包含(k,Seq[V],Seq[w])的元组。

12. transform(func)

通过对源DStream的每个RDD应用RDD-to-RDD函数，创建一个新的DStream。支持在新的DStream中做任何RDD操作。

无状态转换操作实例

之前“套接字流”部分介绍的词频统计，采用的就是无状态转换，每次统计都是只统计当前批次到达的单词的词频，和之前批次无关，不会进行累计。

5.2 DStream有状态转换操作

5.2.1 滑动窗口转换操作

1. 事先设定一个滑动窗口的长度(即窗口的持续时间)；

2. 设定滑动窗口的时间间隔(每隔多长时间执行一次计算)，让窗口按照指定时间间隔在源DStream上滑动；

3. 每次窗口停放的位置上，都会有一部分DStream(或者一部分RDD)被框入窗口内，形成一个小段的DStream；

4. 可以启动对这个小段DStream的计算。

一些常见窗口转换操作：

1. window(windowLength, slideInterval)

基于源DStream产生的窗口化的批数据，计算得到一个新的DStream。

2. countByWindow(windowLength, slideInterval)

返回流中元素的一个滑动窗口数。

3. reduceByWindow(func, windowLength, slideInterval)

返回一个单元素流，利用func()聚集滑动时间间隔的流的元素创建这个单元素流。func()必须满足结合律，从而可以支持并行计算。

4. reduceByKeyAndWindow(func, windowLength, slideInterval, [numTasks])

应用到一个kv组成的DStream上时，会返回一个由kv组成的新的DStream。每一个key的值均由给定的func()进行聚合计算。

注意：在默认情况下，这个算子利用了Spark默认的并发任务数去分组。可以通过numTasks参数的设置来指定不同的任务数。

5. reduceByKeyAndWindow(func, invFunc, windowLength, slideInterval, [numTasks])

更加高效的 reduceByKeyAndWindow，每个窗口的reduce值，是基于先前窗口的reduce值进行增量计算得到的；它会对进入滑动窗口的新数据进行reduce操作，并对离开窗口的老数据进行“逆向reduce”操作。但只能用于“可逆reduce函数”，即那些reduce函数都有一个对应的“逆向reduce函数”invFunc。

val wordCounts = pair.reduceByKeyAndWindow(_+_, _-_, Minutes(2), Seconds(10), 2)

5.2.2 updateStateByKey操作

应用场景：在跨批次之间维护状态时。

在词频统计实例中，对于有状态转换操作而言，本批次的词频统计，会在之前批次的词频统计结果的基础上进行不断累加，所以，最终得到的词频，是所有批次的单词的总词频统计结果。

NetworkWordCountStateful.scala

import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.Seconds
import org.apache.spark.streaming.StreamingContext

object NetworkWordCountStateful {
  // 定义状态更新函数
  val updateFunc = (values: Seq[Int], state: Option[Int]) => {
    val currentCount = values.fold(0)(_+_)
    val previousCount = state.getOrElse(0)
    Some(currentCount + previousCount)
  }

  def main(args: Array[String]): Unit = {
    // 自定义类，设置log4j日志级别
    StreamingExamples.setStreamingLogLevels()
    val spark = SparkSession
      .builder()
      .appName("wc")
      .master("local")
      .getOrCreate()
    val ssc = new StreamingContext(spark.sparkContext, Seconds(5))
    // 设置检查点，检查点具有容错机制
    ssc.checkpoint("file:///usr/local/spark/mycode/streaming/stateful")
    val lines = ssc.socketTextStream("localhost", 9999)
    val stateDStream = lines.flatMap(_.split(" "))
      .map(x => (x,1))
      .updateStateByKey[Int](updateFunc)
    stateDStream.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

6. DStream输出操作

6.1 输出到文本文件

import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds

object KhjDemo {
    def main(args: Array[String]): Unit = {
        StreamingExamples.setStreamingLogLevels()
        val inputPath = "/user/zz/Desktop/checkpoint"
        val outputPath = "/user/zz/Desktop/output"
        val spark = SparkSession
          .builder()
          .appName("wc")
          .master("local")
          .getOrCreate()
        // 定义状态更新函数
        val updateFunc = (values: Seq[Int], state: Option[Int]) => {
            val currentCount = values.fold(0)(_+_)
            val previousCount = state.getOrElse(0)
            Some(currentCount + previousCount)
        }
        val ssc = new StreamingContext(spark.sparkContext, Seconds(5))
        ssc.checkpoint(inputPath)
        val lines = ssc.socketTextStream("localhost", 9999)
        val stateDStream = lines.flatMap(_.split(" "))
          .map((_,1))
          .updateStateByKey[Int](updateFunc)
        // stateDStream.print()
        // 写入到文本文件中
        stateDStream.saveAsTextFiles(outputPath)
        
        ssc.start()
        ssc.awaitTermination()  // 等待终止
        spark.stop()
    }
}

6.2 写入MySQL

在sprak数据库中创建一个名为wordcount的表。

use spark

create table wordcount(word char(20), count int(4))

import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds
import java.sql.{PreparedStatement, Connection, DriverManager}

object Test {
    def main(args: Array[String]): Unit = {
        StreamingExamples.setStreamingLogLevels()
        val inputPath = "/user/zz/Desktop/checkpoint"
        val spark = SparkSession
          .builder()
          .appName("wc")
          .master("local")
          .getOrCreate()
        // 定义状态更新函数
        val updateFunc = (values: Seq[Int], state: Option[Int]) => {
            val currentCount = values.fold(0)(_+_)
            val previousCount = state.getOrElse(0)
            Some(currentCount + previousCount)
        }
        val ssc = new StreamingContext(spark.sparkContext, Seconds(5))
        ssc.checkpoint(inputPath)
        val lines = ssc.socketTextStream("localhost", 9999)
        val stateDStream = lines.flatMap(_.split(" "))
          .map((_,1))
          .updateStateByKey[Int](updateFunc)
        // stateDStream.print()
        stateDStream.foreachRDD(rdd => {
            // 内部函数
            def func(records: Iterator[(String, Int)]): Unit ={
                var conn: Connection = null
                var stmt: PreparedStatement = null
                try{
                    var url = "jdbc:mysql://localhost:3306/spark"
                    var user = "root"
                    var password = "hadoop"
                    conn = DriverManager.getConnection(url, user, password)
                    records.foreach(p=>{
                        val sql = "insert into wordcount(word,count) values (?,?)"
                        stmt = conn.prepareStatement(sql)
                        stmt.setString(1, p._1.trim)
                        stmt.setInt(2, p._2.toInt)
                        stmt.executeUpdate()
                    })
                }catch{
                    case e: Exception => e.printStackTrace()
                }finally{
                    if(stmt != null){
                        stmt.close()
                    }
                    if(conn != null){
                        conn.close()
                    }
                }
            }
            val repartitionedRDD = rdd.repartition(3)
            repartitionedRDD.foreachPartition(func)
        })

        ssc.start()
        ssc.awaitTermination()  // 等待终止
        spark.stop()
    }
}

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
spark常见面试题爱敲代码的小黑 spark 大数据分布式
文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？5.Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？6.RDD中reduceBykey与groupByKey哪个性能好，为什么？7.SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？8.SparkMaster使
Spark面试题 golove666 面试题大全 spark 大数据分布式面试
Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？Spark的主要特点1.2描述Spark运行时架构和组件主要的Spark架构组件：1.3讲述Spark中的弹性分布式数据集（RDD）和数据帧（DataFrame）弹性分布式数据集（RDD）主要特征：创建和转换：使用场景：数据帧（DataFrame）主要特征：创建和操作：使用场景：RDD与DataFra
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
13.Spark Core-Spark中广播变量和累加器 __元昊__
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理1、广播变量广播变量理解图image注意事项1、能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、广播变量只能在Driver端定义，不能在Executor
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Spark底层逻辑傲雪凌霜，松柏长青大数据后端 spark 大数据
ApacheSpark的底层逻辑可以从其核心概念、组件和执行流程等方面来理解。Spark提供了一个分布式数据处理框架，其底层逻辑基于批处理架构，能够在大规模集群中高效地处理数据。以下是Spark的底层逻辑的详细介绍：1.核心概念Spark的底层基于几个核心概念来实现分布式计算，包括：RDD（ResilientDistributedDataset，弹性分布式数据集）：RDD是Spark最基础的数据抽
Spark - 升级版数据源JDBC2 大猪大猪
在spark的数据源中，只支持Append,Overwrite,ErrorIfExists,Ignore,这几种模式，但是我们在线上的业务几乎全是需要upsert功能的，就是已存在的数据肯定不能覆盖，在mysql中实现就是采用：ONDUPLICATEKEYUPDATE，有没有这样一种实现？官方：不好意思，不提供，dounine：我这有呀，你来用吧。哈哈，为了方便大家的使用我已经把项目打包到mave
PySpark 静听山水 Spark spark
PySpark的本质确实是Python的一个接口层，它允许你使用Python语言来编写ApacheSpark应用程序。通过这个接口，你可以利用Spark强大的分布式计算能力，同时享受Python的易用性和灵活性。1、PySpark的工作原理PySpark的工作原理可以概括为以下几个步骤：编写Python代码：开发者使用Python语法来编写Spark应用程序。这些程序通常涉及创建RDDs（弹性分布
Ubuntu的ssh 请不要问我是谁
安装sshsudoapt-getupdatesudoapt-getinstallopenssh-server检测ssh是否启动sudops-e|grepssh创建root用户sudopasswdroot配置本机无密码ssh登录cd/home/spark0ssh-keygen-trsa-P""cat.ssh/id_rsa.pub>>.ssh/authorized_keyschmod600.ssh/a
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc