爱吃鸡的小鸡

spark-core(完结)

构建Sparkwindows环境

配置windowsHadoop

解压到本地磁盘,配置环境变量 bin目录和sbin目录

构建Maven配置pom.xml(学习用)

spark-core

    
        8
        8

        2.12.0
        2.7.7
        2.4.7
    
    
        
        
            org.apache.spark
            spark-core_2.12
            2.4.7
        
        
        
            org.scala-lang
            scala-library
            ${scala.version}
        
        
        
            org.apache.spark
            spark-core_2.12
            ${spark.version}
        
        
            org.apache.spark
            spark-sql_2.12
            ${spark.version}
        
        
            mysql
            mysql-connector-java
            5.1.47
        
        
        
            org.apache.hadoop
            hadoop-client
            ${hadoop.version}
        

        

        
        
            org.apache.spark
            spark-mllib_2.12
            ${spark.version}
        
    

    
        src/main/scala
        src/test/scala

        
            
                net.alchim31.maven
                scala-maven-plugin
                3.2.2
                
                    
                        
                            compile
                            testCompile
                        
                        
                            
                                -dependencyfile
                                ${project.build.directory}/.scala_dependencies
                            
                        
                    
                
            

            
                org.apache.maven.plugins
                maven-shade-plugin
                2.4.3
                
                    
                        package
                        
                            shade
                        
                        
                            
                                
                                    *:*
                                    
                                        META-INF/*.SF
                                        META-INF/*.DSA
                                        META-INF/*.RSA

快速上手WordCount

测试是否环境正常

object wc {
  def main(args: Array[String]): Unit = {
    val sparConf = new SparkConf().setMaster("local").setAppName("wordcount")
    val context = new SparkContext(sparConf)
    context.stop()
  }
}

功能实现

object wc {
  def main(args: Array[String]): Unit = {
    //建立连接
    val sparConf = new SparkConf().setMaster("local").setAppName("wordcount")
    val context = new SparkContext(sparConf)
    //读取数据
    val value: RDD[String] = context.textFile("data")
    //扁平映射,将每一行数据铲粪成一个一个单词
    val word: RDD[String] = value.flatMap(_.split(" "))
    //根据单词分组
    val wordGroup: RDD[(String, Iterable[String])] = word.groupBy(word => word)
    //结构转换
    val wordToCount: RDD[(String, Int)] = wordGroup.map {
      case (word, list) =>(word, list.size)
    }
    //采集转化结果
    val tuples: Array[(String, Int)] = wordToCount.collect()
    tuples.foreach(println)
    context.stop()
  }
}

第二种

object wc2 {
  def main(args: Array[String]): Unit = {
    //建立连接
    val sparConf = new SparkConf().setMaster("local").setAppName("wordcount")
    val context = new SparkContext(sparConf)
    //读取数据
    val value: RDD[String] = context.textFile("data")
    //扁平映射,将每一行数据铲粪成一个一个单词
    val word: RDD[String] = value.flatMap(_.split(" "))
    //结构转化
    val wordM: RDD[(String, Int)] = word.map(i => (i, 1))
    val wordGroup: RDD[(String, Iterable[(String, Int)])] = wordM.groupBy(wordM => wordM._1)
    val wordCount: RDD[(String, Int)] = wordGroup.map {
      case (k, v) => {
        (k, v.map(i => i._2).sum)
      }
    }
//    val wordCount: RDD[(String, Int)] = wordGroup.map { //或者
//      case (k, v) => {
//        v.reduce(
//          (k2,v2)=>(k2._1,k2._2+v2._2)
//        )
//     }
//    }
    //采集转化结果打印
    wordCount.collect().foreach(println)
    context.stop()
  }
}

spark实现

object wc4 {
  def main(args: Array[String]): Unit = {
    //建立连接
    val sparConf = new SparkConf().setMaster("local").setAppName("wordcount")
    val context = new SparkContext(sparConf)
    //读取数据
    val value: RDD[String] = context.textFile("data")
    //扁平映射,将每一行数据铲粪成一个一个单词
    val word: RDD[String] = value.flatMap(_.split(" "))
    //结构转化
    val wordM: RDD[(String, Int)] = word.map(i => (i, 1))
    //spark reduceByKey:相同key的数据,可以对value进行reduce聚合
    val wordCount: RDD[(String, Int)] = wordM.reduceByKey(_ + _)
    //采集转化结果打印
    wordCount.collect().foreach(println)
    context.stop()
  }
}

运行环境部署

spark部署文章已发布

本地环境提交

进入spark目录执行

bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ./examples/jars/spark-examples_2.11-2.4.7.jar 10

出现以上结果及成功!

Standalone模式启动提交

进入已经配置好的spark,进入spark下的sbin目录执行start-all.sh,就会启动,我部署的是三台,一个master,三个worker,执行jps查看存在即正常启动

然后我们在spark目录下提交
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 ./examples/jars/spark-examples_2.11-2.4.7.jar 10
出现以上结果及成功!

参数解析

--class Spark程序中包含主函数的类,比如说自己写的wordcount类的类

--master Spark程序运行模式:local[*], sprak://master:7077, Yarn 我们上面用到了本地local和第二个spark的standalone模式的提交

--executor-memory 1G 指定每个executor可用内存为1G

--total-executor-cores 2 指定所有executor使用的cpu核数为2个

--executor-cores 指定每个executor使用的cpu核数

application-jar 也就是打包好的jar包

application-arguments 传给main方法的参数,我们上面传的是10,表示执行10个任务

配置高可用spark在我其他文章有

Yarn环境

配置高可用spark使用Standalone模式的情况下独立性极强,但是他不是专门资源调度框架,而是一个计算框架,所以用其他的专业资源调度框架更好,国内Yarn使用的情况非常多

首先我们得先配置hadoop的yarn配置文件配置关闭内存检测,其他文章hadoop集群yarn配置里有

然后配置spark的spark-env.sh

export JAVA_HOME=/bigdata/jdk
YARN_CONF_DIR=/bigdata/hadoop/etc/hadoop
SPARK_MASTER_WEBUI_PORT=8989 #指定spark master的端口号

然后启动hdfs和yarn

进入spark目录执行

# --deploy-mode  指定的是运行模式 cluster 集群模式
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster ./examples/jars/spark-examples_2.11-2.4.7.jar 10

然后我们进入yarn的webui界面查看

http://192.168.9.140:8088/cluster

这里的端口是hadoop的yarn配置下的ui端口地址

配置spark历史服务器

进入到conf然后复制spark-defaults.conf.template去掉template

然后输入

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://master:8020/directory
# 注意端口不要冲突,自己设置一个历史服务器端口,下面是用来和yarn绑定的,和env.sh配置的端口需要一致
spark.yarn.historyServer.address=master:18088
spark.history.ui.port=18088

hdfs上的directory需要存在

然后在spark-env.sh追加

# ui.port自己指定一个历史服务器的访问
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18088
-Dspark.history.fs.logDirectory=hdfs://master:8020/directory
-Dspark.history.retainedApplications=30
"

然后启动历史服务

sbin/start-history-server.sh

然后再重新提交任务

# 集群模式换成客户端模式client
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples/jars/spark-examples_2.11-2.4.7.jar 10

注意端口

hdfs getconf -confKey fs.default.name获取hdfs正确端口

然后注意要启动spark sbin目录下的历史服务器

window环境

再集群上执行程序太麻烦了,在本地window下就可以使用spark来进行直接使用

首先我们先解压压缩包,然后进入bin目录下

双击运行spark-shell.cmd

进入这样界面就ok!

然后我们测试一下是否能正常使用交互式界面

在bin目录下新建一个word.txt 来测试wordcount

spark scala
spark yarn

#控制台执行
 sc.textFile("./word.txt").flatMap(_.split(" ")).map(i=>(i,1)).reduceByKey(_ + _).collect

如上图则成功

也可以执行jar包,进入bin目录

在当前目录打开cmd

spark-submit --class org.apache.spark.examples.SparkPi --master local[*] --deploy-mode client ../examples/jars/spark-examples_2.11-2.4.7.jar 10

成功,并且运行速度也快

local模式用来测试

standalone模式单独部署

yarn模式混合部署,需要借助hadoop集群的yarn和hdfs

yarn两种部署模式

通常spark我们是结合yarn来一起使用的

spark应用程序提交到yarn环境执行的时候会有两种部署执行的方式: client和cluster,一个客户端模式一个集群模式,两种区别在于:Dirver程序运行节点位置.

SparkCore-RDD

spark会把处理数据拆分成最小单元,单元就叫rdd,也叫做弹性分布式数据集,进行的操作都会被包装成一个个rdd不断叠加扩展,rdd的数据只有早调用collect方法的时候才会真正执行业务逻辑操作,之前的包装都是功能上的扩展,并且在rdd中是有分区的概念的,分成多个执行并行操作

具有:

弹性

存储弹性:内存磁盘自动切换

容错弹性:数据丢失可以自动恢复

计算弹性:计算出错重试

分片弹性:分区可以根据需要重新分片

分布式:

数据存储在大数据集群不同节点上

数据集:

封装了计算逻辑,不保存数据

数据抽象:

RDD是一个抽象类,基本上是靠子类实现,子类功能更加丰富

不可变:

RDD封装了计算逻辑,是不可以改变的,想要改变只能重新产生新的rdd

可分区,并行计算

五大核心属性

分区列表:

rdd数据结构存在分区列表,用于执行任务时并行计算,实现分布式计算的重要属性

分区计算函数:

在计算的时候,使用的是分区函数对每一个分区进行计算

rdd之间依赖:

rdd是计算模型的封装,一层套一层叠加,进行组合的时候就需要进行多个rdd建立依赖

分区器:

如何分区靠分区器来分区,可能有可能没有

首选位置:

判断计算发送到哪个节点,效率最优

执行原理

rdd在整个流程中主要用于逻辑封装,生成task发送给executor节点执行计算

RDD创建

从集合(内存)创建RDD
从外部存储(文件)创建RDD
从rdd运算完之后在产生新的rdd
使用new的方式直接构造rdd

内存

  def main(args: Array[String]): Unit = {
    // 准备环境
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    //创建rdd,从内存中创建rdd,将内存中集合的数据作为处理源
    val ints = Seq(1, 2, 3, 4)
    //parallelize: 并行 makeRDD:和parallelize一样
    //    val value: RDD[Int] = sc.parallelize(ints)
    val value: RDD[Int] = sc.makeRDD(ints)
    value.collect().foreach(println)
    sc.stop()

  }

文件

  def main(args: Array[String]): Unit = {
    // 准备环境
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    //将文件中的数据作为处理的数据源
    //默认路径是根路径,当前项目的根路径,可以指定目录或者具体文件,也可以hdfs路径
    val value: RDD[String] = sc.textFile("data/1.txt")
    value.collect().foreach(println)
    sc.stop()

  }

  def main(args: Array[String]): Unit = {
    // 准备环境
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    //将文件中的数据作为处理的数据源
    //textfile:是以行为单位来读取,wholeTextFiles:是以文件为单位来读取
    val value: RDD[(String, String)] = sc.wholeTextFiles("data")
    value.collect().foreach(println)
    sc.stop()
  }

分区的设定

  def main(args: Array[String]): Unit = {
    // 准备环境
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    rdd.set("spark.defalult.parallelism",6) //设置分区数
    val sc = new SparkContext(rdd)
    // makeRDD可以指定分区数,默认是当前环境最大可用核数
    val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 2)
    //saveAsTextFile:可以吧数据保存成分区文件
    value.saveAsTextFile("output")
    sc.stop()
  }

  def main(args: Array[String]): Unit = {
    // 准备环境
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    // textFile默认最小分区数是2,有可能会比这个高
    val value: RDD[String] = sc.textFile("data", 2)
    sc.stop()
  }

分区数据的分配

spark读取文件,采用的是hadoop的方式读取,所以一行一行读取,和字节数没有关系

读取数据的时候以偏移量为单位

算子

rdd方法:

转换:旧的rdd包装成新的rdd就是转换,不进行操作只是包装,进行flatMap,map等只是封装不触发

行动:触发任务的调度和作业的执行 collect

rdd方法也叫rdd算子

算子:

rdd的方法可以将计算逻辑发送到Executor端(分布式节点)执行

方法的外部操作都是在Driver端执行,方法内部逻辑实在Executor端执行

rdd根据数据的处理方式不同在于分为value类型,双value类型和key-value类型

map

逐条映射到每一个元素上执行操作

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4))
    value.map(_*2).collect().foreach(println)
    sc.stop()
  }

一个分区内是,前一个执行完再执行下一个,执行的顺序是有序的

多个分区,是无序的,也可能同时并行

mapPartitions

获取一整个分区再执行里面的转换,数据较大不适合用

返回的结果是需要一个迭代器,比如执行任意的处理哪怕是过滤数据filter

List(x.max).iterator返回这样的迭代器也可以

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    //分区两个
    val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4),2)
    value.mapPartitions(//获取一整个分区的数据才进行执行里面的迭代操作
      _.map(_*2)
    )
    .collect().foreach(println)
    sc.stop()
  }

mapPartitionsWithIndex

默认传入迭代器,但是就多了一个index

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    //分区两个
    val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4),2)
    value.mapPartitionsWithIndex(//获取一整个分区的数据才进行执行里面的迭代操作
      (index,item)=>{//一个是当前分区index一个是迭代器
        if(index == 1){
          item //返回当前迭代器
        }else{
          Nil.iterator//返回空迭代器
        }
      }
    )
    .collect().foreach(println)
    sc.stop()
  }

flatMap

再map对每个元素的基础上把多维度的打散为一个一个的,也叫扁平映射

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    //分区两个
    val value: RDD[List[Int]] = sc.makeRDD(List(List(1,2),List(3,4)),2)
    val value1: RDD[String] = sc.makeRDD(List("hello world", "hello spark"))
    // 有不相同的时候我们用模式匹配
    val value2: RDD[Any] = sc.makeRDD(List(List(1, 2), 3, List(4, 5)), 2)
    value.flatMap(item=>item)
    .collect().foreach(println)
    // 切割字符串打散
    value1.flatMap(_.split(" ")).collect().foreach(println)
    // 模式匹配
    value2.flatMap(
      data=>{//这里可以直接用case匹配
        data match { //到最后需要返回的是可打散的相同的
          case x:List[_]=>x //匹配List类型的任意数组
          case dat=>List(dat)//匹配单个数组包装成相同类型
        }
      }
    )
    sc.stop()
  }

glom

将一个分区的数据变成相同类型的数组,转换之后分区数量不变,数据也不变化位置

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    //分区两个
    val value: RDD[Int] = sc.makeRDD(List(1,2,3,4),2)
    //使用glom求出每个分区的最大值求和
    val value2: RDD[Array[Int]] = value.glom()
    println(value2.map(
      i => i.max
    )
      .collect().sum)
    sc.stop()
  }

分区不变的含义

默认情况下分区并行的时候执行算子之后原本的数据是什么分区就是什么分区,并且数据对应的位置也不会改变

grouBy算子

groupby会将数据源中的每一个数据进行分组判断,根据返回的分组key进行分组,相同的key就会放置在一个组里

分组和分区没有必然的关系

分组之后数据就会被打乱(也就是打散),重新组合,这叫shuffle

分组之后相同组的会被分配到同一个分区中,但是并不是说一个分区峙中只能有一个组

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    //分区两个
    val value: RDD[Int] = sc.makeRDD(List(1,2,3,4),2)
    //根据余数进行分组
    value.groupBy(
      item=>item%2
    )
      .collect().foreach(println)
    sc.stop()
  }

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    //分区两个
    val value: RDD[String] = sc.makeRDD(List("hello","spark","scala","hadoop"),2)
    //根据首字母进行分组
    value.groupBy(
      item=>item.charAt(0)
    )
      .collect().foreach(println)
    sc.stop()
  }

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value: RDD[String] = sc.textFile("data/apache.log")
    val value1 = value.map(
      line => {
        val datas: String = line.split(" ")(3)
        val format = new SimpleDateFormat("dd/MM/yyyy:HH:mm:ss")
        val date: Date = format.parse(datas)//转换成时间
    //        date.getHours()
        val format1 = new SimpleDateFormat("HH")
        val str: String = format1.format(date)//获取小时字符串
        (str, 1)
      }
    ).groupBy(_._1)
      .map{
        case (hour,iter)=>{
          (hour,iter.size)//返回小时出现了多少次
        }
      }
    sc.stop()
  }

filter

根据条件筛选过滤数据,符合要求的保留,不符合的丢弃,过滤之后分区不变,分区的数据可能不均衡因为数据有些可能被不符合丢弃了,导致出现数据倾斜

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4))
    value.filter(item=>item%2==0).collect().foreach(println)
    sc.stop()
  }

sample

随机抽取数据

需要传递三个参数:

第一个参数需要传递一个布尔值,抽取数据是否放回

第二个参数指定的是被抽取的概率,double类型

第三个参数表示,抽取数据时随机算法的种子,如果不穿第三个参数,那么使用的当前系统的时间,那么就是随机的,如果指定了随机算法的种子就说明每个值出现的概率已经确定

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4,5,6,7,8,9))
    println(value.sample(false, 0.4).collect().mkString(","))//随机抽取,每次抽取数据不放回
    sc.stop()
  }

distinct

数据去重

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 3,2,1,4,4,5))
    value.distinct().collect().foreach(print)
    sc.stop()
  }

coalesce

根据数据量缩减分区,用于大数据集过滤后提高小数据集的执行效率,减小调度成本

分区数量是可以比原来的分区数量大的,但是默认不打乱重组是没有作用的,所以我们要加上true进行shuffle打乱

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4),4)//四个分区
    //缩减成两个分区,默认情况下不打乱重组只缩减,第二参数是是否进行shuffle打乱重组处理boolean无规律
    value.coalesce(2,true)
    sc.stop()
  }

repartition

其实就是包装了使用coalesce,加上true使用shuffle,使用这个默认就是进行shuffle,其实用coalesce就可以了

sortBy

传入一个函数根据什么进行排序,第二个参数boolean默认是升序true,默认情况下不会改变分区,但是会有shuffle打乱操作

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(("1",1),("11",2),("2",3)),2)
    //降序
    value.sortBy(_._1.toInt,false).collect().foreach(println)
    sc.stop()
  }

交集差集并集拉链

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4))
    val value1: RDD[Int] = sc.makeRDD(List(3,4,5,6))
    //交集
    value.intersection(value1)
    //并集
    value.union(value1)
    //差集
    value.subtract(value1)
    //拉链
    value.zip(value1)
    sc.stop()
  }

partitionBy

对键值对类型数据根据指定分区规则对数据进行重分区

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4),2)
    value.map((_,1)).partitionBy(new HashPartitioner(2))
    sc.stop()
  }

reduceByKey

按照数据相同的key进行value聚合,和scala一样两两聚合,先前面一个和后面一个然后操作的结果接着跟后面一个,如果key的数据只有一个,就不会参加运算直接返回

同分区内计算相同分区间计算也相同

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(("a",2),("a",4),("b",3),("b",1),("c",3)),2)
    value.reduceByKey((item,next)=>{item+next}).collect().foreach(println)
    sc.stop()
  }

groupBYKey

根据key进行分组形成一个对偶元组,元组中的抵押给元素就是key,元素中的第二个元素就是相同key的value集合

和groupby的区别:ByKey的value集合不会有key,groupby分组之后value会保留key

groupbykey和reduceByKey会导致数据打乱重组,存在shuffle操作,shuffle操作必须存到磁盘处理,不能再内存中数据等待,但是reduceByKey能再打乱前对key进行预聚合功能,性能更好一点

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(("a",2),("a",4),("b",3),("b",1),("c",3)),2)
    value.groupByKey().map((k)=>{
      (k._1,k._2.sum)
    }).collect().foreach(println)
    sc.stop()
  }

aggregateByKey

reduceByKey只能够区间内区间外做相同运算,aggregateByKey就可以进行多重不同运算

该算子存在函数柯里化有两个参数列表()()

第一个参数列表,需要传递一个参数,表示初始值,用于蓬蒂安第一个key的时候和value进行分区内计算

第二个参数列表需要传递两个参数

第一个参数表示分区内计算规则,也就是相同区间计算规则

第二个参数表示分区间计算规则,也就是不同分区的计算规则

出现无法序列化报错更换scala版本,xml也要换

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(("a",2),("a",4),("b",3),("b",1),("c",3)),2)
    value.aggregateByKey(0)(
      (x,y)=>math.max(x,y),//第一个分区内计算函数
      (x,y)=>x+y      //分区间计算函数
    ).collect().foreach(println)
    sc.stop()
  }

小练习求平均值

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(("a",2),("a",4),("b",3),("b",1),("c",3)),2)
    // 初始值第一次会是一个区间参数,我们传入一个元组初始值,用来存储总和和个数
    value.aggregateByKey((0,0))(
      (k,v)=>{//k第一次是初始值,v是下一个值
        (k._1+v,k._2+1)
      },
      (k,v)=>{//区间之间经过上面区间内求完最后就是元组
        (k._1+v._1,k._2+v._2)
      }
    ).mapValues(//可以用模式匹配(k,v)类型
      (num)=>{
        num._1/num._2
      }
    ).collect().foreach(println)
    sc.stop()
  }

foldByKey

分区内和分区间做相同的计算,和reduceByKey差不多,但是有初始值

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(("a",2),("a",4),("b",3),("b",1),("c",3)),2)
    value.foldByKey(0)(_+_).collect().foreach(println)
    sc.stop()
  }

combineByKey

第一个值不进行运算而是转化结构

方法需要三个参数

第一个参数表示:将相同key的第一个数据进行结构的转换,实现操作

第二个参数表示:分区内的计算规则,需要指定类型

第三个参数表示:分区间的计算规则,需要指定类型

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(("a",2),("a",4),("b",3),("b",1),("c",3)),2)
    value.combineByKey(
      k=>(k,1),
      (k:(Int,Int),v)=>{
        (k._1+v,k._2+1)
      },
      (k:(Int,Int),v:(Int,Int))=>{
        (k._1+v._1,k._2+v._2)
      }
    ).map(
      i=>(i._1,(i._2._1 / i._2._2))
    ).collect().foreach(println)
    sc.stop()
  }

join

两个不同数据源的数据相同的key的value会连接在一起,形成元组

如果两个相同数据源中key没有匹配上,就不会出现在结果当中

如果相同key有多个匹配的,会以此匹配,数据量会变大

不推荐使用

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(("a",2),("a",4),("b",3),("b",1),("c",3)))
    val value1 = sc.makeRDD(List(("a",7),("a",4),("b",3),("b",1),("c",3)))
    value.join(value1).collect().foreach(println)
    sc.stop()
  }

leftOuterJoin和rightOuterJoin左连接右连接

左连接右连接,一个左边有的就保留,右边没有的None

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(("a",2),("a",4),("c",3)))
    val value1 = sc.makeRDD(List(("a",7),("a",4),("b",3),("b",1),("e",3)))
    value.leftOuterJoin(value1).collect().foreach(println)
    value.rightOuterJoin(value1).collect().foreach(println)
    sc.stop()
  }

cogroup

cogroup = connect + group(分组连接)

根据相同的key分组,然后有就展示没有就是空的CompactBuffer存储,有的就是相同rdd存放在同一个CompactBuffer

(a,(CompactBuffer(2, 4),CompactBuffer(7, 4)))

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(("a",2),("a",4),("c",3)))
    val value1 = sc.makeRDD(List(("a",7),("a",4),("b",3),("b",1),("e",3)))
    value.cogroup(value1).collect().foreach(println)
    sc.stop()
  }

案例

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List( //模拟数据 时间戳 省份 城市 用户 广告
      "12355314 2 56 88 113",
      "12355314 2 56 88 32",
      "12355314 5 56 88 3",
      "12355314 7 56 88 23",
      "12355314 3 56 88 32",
      "12355314 7 56 88 13",
      "12355314 5 56 88 3",
      "12355314 2 56 88 12",
      "12355314 2 56 88 113"
    ))
    // 统计出每个省份每个广告被点击数量的排行top3
    value.map {
      case i=>{
        ((i.split(" ")(1),i.split(" ")(4)),1)
      }
    }.reduceByKey(_+_)
      .map{case i=>{(i._1._1,(i._1._2,i._2))}}
      .groupByKey()
      .mapValues(_.toList.sortBy(_._2)(Ordering.Int.reverse).take(3))
      .collect()
      .foreach(println)
    sc.stop()
  }

行动算子

行动算子就是触发作业job执行的方法,底层代码调用的是环境对象的runJob方法,比如collect()

reduce

这个和转换算子不一样,这属于行动算子,对数据两两计算直接就返回结果,转换算子返回的是新的rdd

collect

将不同分区的数据按照分区顺序采集到Driver端内存中,形成数组

first

获取数据源中数据的第一个

take

获取数据源n个数据

takeOrdered

数据排序后,取n个数据,默认升序,降序需要加上如下

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(23,4,5,6,23))
    // 降序
    value.takeOrdered(3)(Ordering.Int.reverse).foreach(println)
    sc.stop()
  }

aggregate

和转换算子bykey不一样,直接返回结果,bykey的初始值智慧参与分区内计算,而这里的初始值会参与分区间计算和分区内计算

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(23,4,5,6,23),2)
    println(value.aggregate(0)(_ + _, _ + _))
    sc.stop()
  }

fold

和bykey一样,用来简化aggregate行动算子,同时也是初始值参与分区间计算和分区内计算

countByValue

返回得是一个Map,统计的是里面的值出现的次数

countByKey

返回一个Map,统计key出现的次数

foreach

  def main(args: Array[String]): Unit = {
    val rdd: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd)
    val value = sc.makeRDD(List(1,2,3,4))
    //两种foreach方式不同collect是从分区按顺序采集回来,直接输出是从分区中直接输出
    value.foreach(println)
    value.collect().foreach(println)
    sc.stop()
  }

依赖关系

当前一个rdd需要使用上一个rdd就是依赖关系,而当前rdd间接需要其他rdd就是称之为血缘关系,在rdd中rdd不会保存数据,但是会保存他们的关系,一旦出现错误,他就可以根据血缘关系重新读取进行计算

持久化

rdd中不存储数据,如果一个rdd需要重复使用,那么就会从头执行来获取数据,数据无法重用

如果执行较长比较重要的时候,我们也可以使用持久化操作,更加节省错误带来的执行时间

//前提是要已经执行了才能进行持久化

//cache持久化的操作,只能存储到内存中,会在血缘关系中添加新的依赖,出现问题可以冲头读取
rdd.cache()

//persist持久化的操作,存储到文件,临时文件,执行完作业就会删除
//,会在血缘关系中添加新的依赖,出现问题可以冲头读取
rdd.persist(StorageLevel.DISK_ONLY)//有多个级别选择

//checkpoint需要落盘,要制定检查点保存路径,当作业执行完毕之后
//不会被删除,一般保存路径都是在分布式存储系统HDFS
//一般两个一起用效率更高
//执行过程中,会切断血缘关系,重新建立新的血缘关系,等同于改变了数据源
sc.setCheckpointDir("cp")//检查点保存路径
rdd.cache()
rdd.checkpoint()

分区器-自定义数据分区规则

object spark_rdd_new35_value_Partitioner extends Serializable {
  def main(args: Array[String]): Unit = {
    val rdd1: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(rdd1)
    val rdd = sc.makeRDD(List(("kn",1),("b",3)))
    val partRDD: RDD[(String, Int)] = rdd.partitionBy(new MyPartitioner)
    partRDD.saveAsTextFile("output")
    sc.stop()
  }
  class MyPartitioner extends Partitioner{
    //分区数量可以指定固定
    override def numPartitions: Int = 2
    //根据数据的key值返回数据的分区索引(从0开始)
    override def getPartition(key: Any): Int = {
      key match {
        case "kn"=>0
        case _=>1
      }
    }
  }
}

文件读取和保存

saveAsTextFile和saveAsObjectFile和saveAsSequenceFile

输出rdd分区文件,一个输出的文本,其他的输出的都以特殊方式存储,

前两个对数据类型没有什么要求,第三个必须要是键值对类型数据

textFile和objectFilehe sequenceFile

输入对应路径即可读取

累加器

spark默认提供了简单数据聚合的累加器

val sumAcc = sc.longAccumulator("sum")//创建累加器,还有double等
rdd.foreach(
    num=>{
        sumAcc+=num //使用累加器
    }
)
mapRDD.collect()
mapRDD.collect()
println(sumAcc.value) 
//每一次调用行动算子都会执行一遍累加器,会造成多加,如果没有i行动算子的话那么不会执行
//一般我们会放到行动算子中进行累加器的操作

广播变量

每个分区都会执行计算任务,那么就会有多个task,都用到同一个数据,会造成太多没有意义的数据,闭包程序都是以tesk为单位发送的,数据量大了之后会占用大量的内存

我们可以定义广播变量,其不可以修改也叫:分布式共享只读变量

定义了之后就可以使用了

//定义广播变量
val bc = sc.broadcast(传入封装的变量)

你可能感兴趣的:(学习,开发语言,spark,spark,学习,大数据)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
传奇修改map地图教程_传奇技能第三祭：NPC的增加、隐藏和脚本修改垃圾箱博物馆传奇修改map地图教程
技能献祭，Get新技能：传奇技能——NPC功能与实现跟航家学技能，用干货带你飞，现学现用，底部有配套学习资源本篇内容简介：通过对游戏内NPC的控制，可以让NPC出现在地图中的任意位置，还可以控制外观显示、自定义命名，新增与隐藏以及脚本功能的实现。一、NPC总控制文本所在路径：D:MirServerMir200EnvirEnvir目录下，找到NPC总控制文本：Merchant，游戏内的所有NPC都在
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
Javaweb学习之Vue模板语法（三）不要数手指啦 vue.js 学习前端
目录学习资料前情回顾本期介绍（vue模板语法）文本插值Vue的Attribute绑定使用JavaScript表达式综合实例代码：学习资料Vue.js-渐进式JavaScript框架|Vue.js(vuejs.org)前情回顾项目的创建大家可以看这篇文章Vue学习之项目的创建-CSDN博客本期介绍（vue模板语法）首先，找到我们编写代码的地方找到自己项目的src文件夹，打开之后点击component
AI问答之手机相机专业拍照模式的主要几个参数解释 piaopiaolanghua 拍摄曝光时间 ISO感光度
一、背景近期突然想了解下手机的专业拍照模式，了解如何拍出拖尾效果，譬如拍摄运动的车辆，长曝光拍摄星空，甚至能够拍到卫星（再来个漂亮的拖尾），因此想到先了解下手机相机专业模式的参数再说，通过AI问答，学习了下，也就有了本文。二、主要参数详细解释截图显示了在“专业”模式下设置的典型核心参数。这些参数共同决定了照片的曝光、清晰度、色彩和焦点。下面逐一解释每个参数及其典型用法：1、ISO640解释：ISO
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><