梁辰兴

Spark RDD算子

文章目录

一、准备工作
- （一）准备文件
- - 1、准备本地系统文件
  - 2、把文件上传到HDFS
- （二）启动Spark Shell
- - 1、启动HDFS服务
  - 2、启动Spark服务
  - 3、启动Spark Shell
二、掌握转换算子
- （一）映射算子 - map()
- - 1、映射算子功能
  - 2、映射算子案例
  - - 任务1、将rdd1每个元素翻倍得到rdd2
    - 任务2、将rdd1每个元素平方得到rdd2
    - 任务3、利用映射算子打印菱形
    - - （1）Spark Shell里实现
      - （2）在IDEA里创建项目实现
- （二）过滤算子 - filter()
- - 1、过滤算子功能
  - 2、过滤算子案例
  - - 任务1、过滤出列表中的偶数
    - 任务2、过滤出文件中包含spark的行
  - 课堂练习
  - - 任务1、利用过滤算子输出[2000, 2500]之间的全部闰年
    - 任务2、利用过滤算子输出[10, 100]之间的全部素数
- （三）扁平映射算子 - flatMap()
- - 1、扁平映射算子功能
  - 2、扁平映射算子案例
  - - 任务1、统计文件中单词个数
    - 任务2、统计不规则二维列表元素个数
    - - 方法一、利用Scala来实现
      - 方法二、利用Spark RDD来实现
- （四）按键归约算子 - reduceByKey()
- - 1、按键归约算子功能
  - 2、按键归约算子案例
  - - 任务1、在Spark Shell里计算学生总分
    - 任务2、在IDEA里计算学生总分
    - - 第一种方式：读取二元组成绩列表
      - 第二种方式：读取四元组成绩列表
      - 第三种情况：读取HDFS上的成绩文件
- （五）合并算子 - union()
- - 1、合并算子功能
  - 2、合并算子案例
- （六）排序算子 - sortBy()
- - 1、排序算子功能
  - 2、排序算子案例
- （七）按键排序算子 - sortByKey()
- - 1、按键排序算子功能
  - 2、按键排序算子案例
- （八）连接算子
- - 1、内连接算子 - join()
  - - （1）内连接算子功能
    - （2）内连接算子案例
  - 2、左外连接算子 - leftOuterJoin()
  - - （1）左外连接算子功能
    - （2）左外连接算子案例
  - 3、右外连接算子 - rightOuterJoin()
  - - （1）右外连接算子功能
    - （2）右外连接算子案例
  - 4、全外连接算子 - fullOuterJoin()
  - - （1）全外连接算子功能
    - （2）全外连接算子案例
- （九）交集算子 - intersection()
- - 1、交集算子功能
  - 2、交集算子案例
- （十）去重算子 - distinct()
- - 1、去重算子功能
  - 2、去重算子案例
  - 3、IP地址去重案例
- （十一）组合分组算子 - cogroup()
- - 1、组合分组算子功能
  - 2、组合分组算子案例
三、掌握行动算子
- （一）归约算子 - reduce()
- - 1、归约算子功能
  - 2、归约算子案例
- （二）采集算子 - collect()
- - 1、采集算子功能
  - 2、采集算子案例
- （三）首元素算子 - first()
- - 1、首元素算子功能
  - 2、首元素算子案例
- （四）计数算子 - count()
- - 1、计数算子功能
  - 2、计数算子案例
- （五）按键计数算子 - countByKey()
- - 1、按键计数算子功能
  - 2、按键计数算子案例
- （六）前截取算子 - take(n)
- - 1、前截取算子功能
  - 2、前截取算子案例
- （七）排序前截取算子 - takeOrdered(n)[(ordering)]
- - 1、排序前截取算子功能
  - 2、排序前截取算子案例
- （八）遍历算子 - foreach()
- - 1、遍历算子功能
  - 2、遍历算子案例
- （九）存文件算子 - saveAsFile()
- - 1、存文件算子功能
  - 2、存文件算子案例

一、准备工作

（一）准备文件

1、准备本地系统文件

在/home目录里创建words.txt

2、把文件上传到HDFS

将words.txt上传到HDFS系统的/park目录里

说明：/park是在上一讲我们创建的目录

查看文件内容

（二）启动Spark Shell

1、启动HDFS服务

执行命令：start-dfs.sh

2、启动Spark服务

执行命令：start-all.sh

3、启动Spark Shell

执行名命令： spark-shell --master spark://master:7077

以集群模式启动的Spark Shell，不能访问本地文件，只能访问HDFS文件，加不加hdfs://master:9000前缀都是一样的效果。

二、掌握转换算子

转换算子负责对RDD中的数据进行计算并转换为新的RDD。Spark中的所有转换算子都是惰性的，因为它们不会立即计算结果，而只是记住对某个RDD的具体操作过程，直到遇到行动算子才会与行动算子一起执行。

（一）映射算子 - map()

1、映射算子功能

map()是一种转换算子，它接收一个函数作为参数，并把这个函数应用于RDD的每个元素，最后将函数的返回结果作为结果RDD中对应元素的值。

2、映射算子案例

预备工作：创建一个RDD - rdd1
执行命令：val rdd1 = sc.parallelize(List(1, 2, 3, 4, 5, 6))

任务1、将rdd1每个元素翻倍得到rdd2

对rdd1应用map()算子，将rdd1中的每个元素平方并返回一个名为rdd2的新RDD

上述代码中，向算子map()传入了一个函数x = > x * 2。其中，x为函数的参数名称，也可以使用其他字符，例如a => a * 2。Spark会将RDD中的每个元素传入该函数的参数中。

其实，利用神奇占位符_可以写得更简洁
rdd1和rdd2中实际上没有任何数据，因为parallelize()和map()都为转化算子，调用转化算子不会立即计算结果。

若需要查看计算结果，则可使用行动算子collect()。（collect是采集或收集之意）

执行rdd2.collect进行计算，并将结果以数组的形式收集到当前Driver。因为RDD的元素为分布式的，数据可能分布在不同的节点上。

take action: 采取行动。

函数本质就是一种特殊的映射。上面这个映射写成函数： f ( x ) = 2 x , x ∈ R

任务2、将rdd1每个元素平方得到rdd2

方法一、采用普通函数作为参数传给map()算子

方法二、采用下划线表达式作为参数传给map()算子

刚才翻倍用的是map(_ * 2)，很自然地想到平方应该是map(_ * _)
报错，(_ * _)经过eta-expansion变成普通函数，不是我们预期的x => x * x，而是(x$1, x$2) => (x$1 * x$2)，不是一元函数，而是二元函数，系统立马就蒙逼了，不晓得该怎么取两个参数来进行乘法运算。

难道就不能用下划线参数了吗？当然可以，但是必须保证下划线表达式里下划线只出现1次。引入数学包scala.math._就可以搞定。

但是有点美中不足，rdd2的元素变成了双精度实数，得转化成整数

任务3、利用映射算子打印菱形

（1）Spark Shell里实现

菱形正立的等腰三角形和倒立的等腰三角形组合而成

右半菱形

加上前导空格，左半菱形

前导空格折半，显示菱形

（2）在IDEA里创建项目实现

新建maven项目——SparkRDDDemo，配置如下图所示，单击【Create】按钮

单击【Create】按钮

将java目录改成scala目录

在pom.xml文件里添加相关依赖和设置源程序目录

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>net.army.rdd</groupId>
    <artifactId>SparkRDDDemo</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.12.15</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.12</artifactId>
            <version>3.1.3</version>
        </dependency>
    </dependencies>
    <build>
        <sourceDirectory>src/main/scala</sourceDirectory>
    </build>
    
</project>

刷新项目依赖

添加日志属性文件

log4j.rootLogger=ERROR, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/rdd.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

创建hdfs-site.xml文件，允许客户端访问集群数据节点

<?xml version="1.0" encoding="UTF-8"?>
<configuration>
    <property>
        <description>only config in clients</description>
        <name>dfs.client.use.datanode.hostname</name>
        <value>true</value>
    </property>
</configuration>

创建net.army.rdd.day01包

在net.army.rdd.day01包里创建Example01单例对象

package net.army.rdd.day01

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable.ListBuffer
import scala.io.StdIn

/**
 * 作者：梁辰兴
 * 日期：2023/6/4
 * 功能：打印钻石
 */

object Example01 {
  def main(args: Array[String]): Unit = {
    // 创建Spark配置对象
    val conf = new SparkConf()
      .setAppName("PrintDiamond") // 设置应用名称
      .setMaster("local[*]") // 设置主节点位置（本地调试）
    // 基于Spark配置对象创建Spark容器
    val sc = new SparkContext(conf)
    // 输入一个奇数
    print("输入一个奇数：")
    val n = StdIn.readInt()
    // 创建一个可变列表
    val list = new ListBuffer[Int]()
    // 给列表赋值
    (1 to n by 2).foreach(list.append(_))
    (n - 2 to 1 by -2).foreach(list.append(_))
    // 基于列表创建rdd
    val rdd = sc.makeRDD(list)
    // 对rdd进行映射操作
    val rdd1 = rdd.map(i => " " * ((n - i) /2 ) + "*" * i)
    // 输出rdd1结果
    rdd1.collect.foreach(println)
  }
}

运行程序，查看结果

假如用户输入一个偶数，会出现什么情况？
修改一下代码，避免这个问题

运行程序，输入一个偶数

（二）过滤算子 - filter()

1、过滤算子功能

filter(func)：通过函数func对源RDD的每个元素进行过滤，并返回一个新RDD，一般而言，新RDD元素个数会少于原RDD。

2、过滤算子案例

任务1、过滤出列表中的偶数

整数（Integer）：奇数（odd number）+ 偶数（even number）

基于列表创建RDD，然后利用过滤算子得到偶数构成的新RDD

方法一、将匿名函数传给过滤算子

方法二、用神奇占位符改写传入过滤算子的匿名函数

将rdd1里的每一个元素x拿去计算x % 2 == 0，如果关系表达式计算结果为真，那么该元素就丢进新RDD - rdd2，否则就被过滤掉了。

任务2、过滤出文件中包含spark的行

查看源文件/park/words.txt内容

执行命令： val lines= sc.textFile(“hdfs://master:9000/park/words.txt”)，读取文件 /park/words.txt生成RDD - lines

执行命令：val sparkLines = lines.filter(_.contains(“spark”))，过滤包含spark的行生成RDD - sparkLines

执行命令：sparkLines.collect，查看sparkLines内容，可以采用遍历算子，分行输出内容

输出长度超过20的行

课堂练习

任务1、利用过滤算子输出[2000, 2500]之间的全部闰年

传统做法，利用循环结构嵌套选择结构来实现

要求每行输出10个数

采用过滤算子来实现

任务2、利用过滤算子输出[10, 100]之间的全部素数

过滤算子：filter(n => !(n % 2 == 0 || n % 3 == 0 || n % 5 == 0 || n % 7 == 0))

（三）扁平映射算子 - flatMap()

1、扁平映射算子功能

flatMap()算子与map()算子类似，但是每个传入给函数func的RDD元素会返回0到多个元素，最终会将返回的所有元素合并到一个RDD。

2、扁平映射算子案例

任务1、统计文件中单词个数

读取文件，生成RDD - rdd1，查看其内容和元素个数

对于rdd1按空格拆分，做映射，生成新RDD - rdd2

对于rdd1按空格拆分，做扁平映射，生成新RDD - rdd3，有一个降维处理的效果

统计结果：文件里有25个单词

任务2、统计不规则二维列表元素个数

方法一、利用Scala来实现

利用列表的flatten函数
在net.army.rdd.day01包里创建Example02单例对象

package net.army.rdd.day01

/**
 * 作者：梁辰兴
 * 日期：2023/6/4
 * 功能：利用Scala统计不规则二维列表元素个数
 */
object Example02 {
  def main(args: Array[String]): Unit = {
    // 创建不规则二维列表
    val mat = List(
      List(7, 8, 1, 5),
      List(10, 4, 9),
      List(7, 2, 8, 1, 4),
      List(21, 4, 7, -4)
    )
    // 输出二维列表
    println(mat)
    // 将二维列表扁平化为一维列表
    val arr = mat.flatten
    // 输出一维列表
    println(arr)
    // 输出元素个数
    println("元素个数：" + arr.size)
  }
}

运行程序，查看结果

方法二、利用Spark RDD来实现

利用flatMap算子
在net.army.rdd.day01包里创建Example03单例对象

package net.army.rdd.day01

import org.apache.spark.{SparkConf, SparkContext}

/**
 * 作者：梁辰兴
 * 日期：2023/6/4
 * 功能：利用RDD统计不规则二维列表元素个数
 */
object Example03 {
  def main(args: Array[String]): Unit = {
    // 创建Spark配置对象
    val conf = new SparkConf()
      .setAppName("PrintDiamond") // 设置应用名称
      .setMaster("local[*]") // 设置主节点位置（本地调试）
    // 基于Spark配置对象创建Spark容器
    val sc = new SparkContext(conf)
    // 创建不规则二维列表
    val mat = List(
      List(7, 8, 1, 5),
      List(10, 4, 9),
      List(7, 2, 8, 1, 4),
      List(21, 4, 7, -4)
    )
    // 基于二维列表创建rdd1
    val rdd1 = sc.makeRDD(mat)
    // 输出rdd1
    rdd1.collect.foreach(x => print(x + " "))
    println()
    // 进行扁平化映射
    val rdd2 = rdd1.flatMap(x => x.toString.substring(5, x.toString.length - 1).split(", "))
    // 输出rdd2
    rdd2.collect.foreach(x => print(x + " "))
    println()
    // 输出元素个数
    println("元素个数：" + rdd2.count)
  }
}

运行程序，查看结果

扁平化映射可以简化

（四）按键归约算子 - reduceByKey()

1、按键归约算子功能

reduceByKey()算子的作用对像是元素为(key,value)形式（Scala元组）的RDD，使用该算子可以将相同key的元素聚集到一起，最终把所有相同key的元素合并成一个元素。该元素的key不变，value可以聚合成一个列表或者进行求和等操作。最终返回的RDD的元素类型和原有类型保持一致。

2、按键归约算子案例

任务1、在Spark Shell里计算学生总分

成绩表，包含四个字段（姓名、语文、数学、英语），只有三条记录

姓名	语文	数学	英语
张三	78	90	76
李四	95	88	98
王五	78	80	60

创建成绩列表scores，基于成绩列表创建rdd1，对rdd1按键归约得到rdd2，然后查看rdd2内容

agg: aggregation 聚合值
cur: current 当前值

val scores = List(("张三", 78), ("张三", 90), ("张三", 76),
                  ("李四", 95), ("李四", 88), ("李四", 98),
                  ("王五", 78), ("王五", 80), ("王五", 60))
val rdd1 = sc.makeRDD(scores)
val rdd2 = rdd1.reduceByKey((x, y) => x + y)
rdd2.collect.foreach(println)

可以采用占位符

val scores = List(("张三", 78), ("张三", 90), ("张三", 76),
                  ("李四", 95), ("李四", 88), ("李四", 98),
                  ("王五", 78), ("王五", 80), ("王五", 60))
val rdd1 = sc.makeRDD(scores)
val rdd2 = rdd1.reduceByKey(_ + _)
rdd2.collect.foreach(println)

任务2、在IDEA里计算学生总分

成绩表，包含四个字段（姓名、语文、数学、英语），只有三条记录

姓名	语文	数学	英语
张三	78	90	76
李四	95	88	98
王五	78	80	60

第一种方式：读取二元组成绩列表

在net.army.rdd包里创建day02包，再在day02包下创建CalculateScoreSum01单例对象

package net.army.rdd.day02

import org.apache.spark.{SparkConf, SparkContext}

/**
 * 作者：梁辰兴
 * 日期：2023/6/4
 * 功能：计算总分
 */
object CalculateScoreSum01 {
  def main(args: Array[String]): Unit = {
    // 创建Spark配置对象
    val conf = new SparkConf()
      .setAppName("PrintDiamond") // 设置应用名称
      .setMaster("local[*]") // 设置主节点位置（本地调试）
    // 基于Spark配置对象创建Spark容器
    val sc = new SparkContext(conf)
    // 创建二元组成绩列表
    val scores = List(
      ("张三", 78), ("张三", 90), ("张三", 76),
      ("李四", 95), ("李四", 88), ("李四", 98),
      ("王五", 78), ("王五", 80), ("王五", 60))
    // 基于二元组成绩列表创建RDD
    val rdd1 = sc.makeRDD(scores)
    // 对成绩RDD进行按键归约处理
    val rdd2 = rdd1.reduceByKey(_ + _)
    // 输出归约处理结果
    rdd2.collect.foreach(println)
  }
}

运行程序，查看结果

第二种方式：读取四元组成绩列表

在net.army.rdd.day02包里创建CalculateScoreSum02单例对象

package net.army.rdd.day02

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable.ListBuffer

/**
 * 作者：梁辰兴
 * 日期：2023/6/4
 * 功能：计算总分
 */
object CalculateScoreSum02 {
  def main(args: Array[String]): Unit = {
    // 创建Spark配置对象
    val conf = new SparkConf()
      .setAppName("PrintDiamond") // 设置应用名称
      .setMaster("local[*]") // 设置主节点位置（本地调试）
    // 基于Spark配置对象创建Spark容器
    val sc = new SparkContext(conf)
    // 创建四元组成绩列表
    val scores = List(
      ("张三", 78, 90, 76),
      ("李四", 95, 88, 98),
      ("王五", 78, 80, 60)
    )
    // 将四元组成绩列表转化成二元组成绩列表
    val newScores = new ListBuffer[(String, Int)]()
    // 通过遍历算子遍历四元组成绩列表
    scores.foreach(score => {
      newScores.append(Tuple2(score._1, score._2))
      newScores.append(Tuple2(score._1, score._3))
      newScores.append(Tuple2(score._1, score._4))}
    )
    // 基于二元组成绩列表创建RDD
    val rdd1 = sc.makeRDD(newScores)
    // 对成绩RDD进行按键归约处理
    val rdd2 = rdd1.reduceByKey(_ + _)
    // 输出归约处理结果
    rdd2.collect.foreach(println)
  }
}

可以采用循环结构将四元组成绩列表转化成二元组成绩列表

for (score <- scores) {
   newScores.append(Tuple2(score._1, score._2))
   newScores.append(Tuple2(score._1, score._3))
   newScores.append(Tuple2(score._1, score._4))
}

运行程序，查看结果

第三种情况：读取HDFS上的成绩文件

在master虚拟机的/home目录里创建成绩文件 - scores.txt

添加内容如下：

张三 78 90 76
李四 95 88 96
王五 78 80 60

将成绩文件上传到HDFS的/input目录

在net.army.rdd.day02包里创建CalculateScoreSum03单例对象

package net.army.rdd.day02

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable.ListBuffer

/**
 * 作者：梁辰兴
 * 日期：2023/6/4
 * 功能：计算总分
 */
object CalculateScoreSum03 {
  def main(args: Array[String]): Unit = {
    // 创建Spark配置对象
    val conf = new SparkConf()
      .setAppName("PrintDiamond") // 设置应用名称
      .setMaster("local[*]") // 设置主节点位置（本地调试）
    // 基于Spark配置对象创建Spark容器
    val sc = new SparkContext(conf)
    // 读取成绩文件，生成RDD
    val lines = sc.textFile("hdfs://master:9000/input/scores.txt")
    // 定义二元组成绩列表
    val scores = new ListBuffer[(String, Int)]()
    // 遍历lines，填充二元组成绩列表
    lines.collect.foreach(line => {
      val fields = line.split(" ")
      scores.append(Tuple2(fields(0), fields(1).toInt))
      scores.append(Tuple2(fields(0), fields(2).toInt))
      scores.append(Tuple2(fields(0), fields(3).toInt))
    })
    // 基于二元组成绩列表创建RDD
    val rdd1 = sc.makeRDD(scores)
    // 对成绩RDD进行按键归约处理
    val rdd2 = rdd1.reduceByKey(_ + _)
    // 输出归约处理结果
    rdd2.collect.foreach(println)
  }
}

运行程序，查看结果

在Spark Shell里完成同样的任务

import scala.collection.mutable.ListBuffer
val lines = sc.textFile("hdfs://master:9000/input/scores.txt")
val scores = new ListBuffer[(String, Int)]()
lines.collect.foreach(line => {
  val fields = line.split(" ")
  scores.append(Tuple2(fields(0), fields(1).toInt))
  scores.append(Tuple2(fields(0), fields(2).toInt))
  scores.append(Tuple2(fields(0), fields(3).toInt))
})
val rdd1 = sc.makeRDD(scores)
val rdd2 = rdd1.reduceByKey(_ + _)
rdd2.collect.foreach(println)

修改程序，将计算结果写入HDFS文件

运行程序，查看结果

查看HDFS上生成的结果文件

思考题：计算每个人的平均分（双精度）

val scores = List(("张三", 78), ("张三", 90), ("张三", 76),
                  ("李四", 95), ("李四", 88), ("李四", 98),
                  ("王五", 78), ("王五", 80), ("王五", 60))
val rdd1 = sc.makeRDD(scores)
val rdd2 = rdd1.reduceByKey(_ + _)
val rdd3 = rdd2.map(score => (score._1, score._2 / 3.0))
rdd3.collect.foreach(println)

显示姓名、总分和平均分

val scores = List(("张三", 78), ("张三", 90), ("张三", 76),
                  ("李四", 95), ("李四", 88), ("李四", 98),
                  ("王五", 78), ("王五", 80), ("王五", 60))
val rdd1 = sc.makeRDD(scores)
val rdd2 = rdd1.reduceByKey(_ + _)
val rdd3 = rdd2.map(score => (score._1, score._2, score._2 / 3.0))
rdd3.collect.foreach(println)

平均分保留两位小数，怎么实现？

val scores = List(("张三", 78), ("张三", 90), ("张三", 76),
                  ("李四", 95), ("李四", 88), ("李四", 98),
                  ("王五", 78), ("王五", 80), ("王五", 60))
val rdd1 = sc.makeRDD(scores)
val rdd2 = rdd1.reduceByKey(_ + _)
val rdd3 = rdd2.map(score => (score._1, score._2, (score._2 / 3.0).formatted("%.2f")))
rdd3.collect.foreach(println)

（五）合并算子 - union()

1、合并算子功能

union()算子将两个RDD合并为一个新的RDD，主要用于对不同的数据来源进行合并，两个RDD中的数据类型要保持一致。

2、合并算子案例

创建两个RDD，合并成一个新RDD

练习：将两个二元组成绩表合并

val scores = List(("张三", 78), ("张三", 90), ("张三", 76),
                  ("李四", 95), ("李四", 88), ("李四", 98))
val scores1 = List(("王五", 78), ("王五", 80), ("王五", 60),
                   ("刘六", 88), ("刘六", 89), ("刘六", 75))
val rdd1 = sc.makeRDD(scores)
val rdd2 = sc.makeRDD(scores1)
val rdd3 = rdd1.union(rdd2)
rdd3.collect.foreach(println)

在集合运算里，并集符号： ∪，并集运算： A ∪ B
在集合运算里，交集符号： ∩，交集运算： A ∩ B
在集合运算里，补集运算： A

（六）排序算子 - sortBy()

1、排序算子功能

sortBy()算子将RDD中的元素按照某个规则进行排序。该算子的第一个参数为排序函数，第二个参数是一个布尔值，指定升序（默认）或降序。若需要降序排列，则需将第二个参数置为false。

2、排序算子案例

一个数组中存放了三个元组，将该数组转为RDD集合，然后对该RDD按照每个元素中的第二个值进行降序排列。
sortBy(x=>x._2,false)中的x代表rdd1中的每个元素。由于rdd1的每个元素是一个元组，因此使用x._2取得每个元素的第二个值。当然，sortBy(x=>x._2,false)也可以直接简化为sortBy(_._2,false)。

（七）按键排序算子 - sortByKey()

1、按键排序算子功能

sortByKey()算子将(key, value)形式的RDD按照key进行排序。默认升序，若需降序排列，则可以传入参数false。

2、按键排序算子案例

将三个二元组构成的RDD按键先降序排列，然后升序排列

val rdd1 = sc.makeRDD(Array(("02", "上海"),("01", "北京"), ("03", "宜宾")))
val rdd2 = rdd1.sortByKey()
rdd2.collect.foreach(println)
println()
val rdd3 = rdd1.sortByKey(false)
rdd3.collect.foreach(println)

其实，用排序算子也是可以搞定的

val rdd1 = sc.makeRDD(Array(("02", "上海"),("01", "北京"), ("03", "宜宾")))
val rdd2 = rdd1.sortBy(_._1)
rdd2.collect.foreach(println)
println()
val rdd3 = rdd1.sortBy(_._1, false)
rdd3.collect.foreach(println)

排序算子比按键排序算子更灵活强大

（八）连接算子

1、内连接算子 - join()

（1）内连接算子功能

join()算子将两个(key, value)形式的RDD根据key进行连接操作，相当于数据库的内连接（Inner Join），只返回两个RDD都匹配的内容。

（2）内连接算子案例

将rdd1与rdd2进行内连接

val rdd1 = sc.makeRDD(Array(("01", "张三"), ("02", "李四"), ("03", "王五")))
val rdd2 = sc.makeRDD(Array(("04", "刘一"), ("02", "吴二"), ("03", "闪七")))
val rdd2 = sc.makeRDD(Array(("04", "刘一"), ("02", "吴二"), ("03", "闪七")))
rdd2.join(rdd1).collect.foreach(println)

2、左外连接算子 - leftOuterJoin()

（1）左外连接算子功能

leftOuterJoin()算子与数据库的左外连接类似，以左边的RDD为基准（例如rdd1.leftOuterJoin(rdd2)，以rdd1为基准），左边RDD的记录一定会存在。例如，rdd1的元素以(k,v)表示，rdd2的元素以(k, w)表示，进行左外连接时将以rdd1为基准，rdd2中的k与rdd1的k相同的元素将连接到一起，生成的结果形式为(k, (v, Some(w))。rdd1中其余的元素仍然是结果的一部分，元素形式为(k,(v, None)。Some和None都属于Option类型，Option类型用于表示一个值是可选的（有值或无值)。若确定有值，则使用Some（值）表示该值；若确定无值，则使用None表示该值。

（2）左外连接算子案例

rdd1与rdd2进行左外连接

3、右外连接算子 - rightOuterJoin()

（1）右外连接算子功能

rightOuterJoin()算子的使用方法与leftOuterJoin()算子相反，其与数据库的右外连接类似，以右边的RDD为基准（例如rdd1.rightOuterJoin(rdd2)，以rdd2为基准），右边RDD的记录一定会存在。

（2）右外连接算子案例

rdd1与rdd2进行右外连接

4、全外连接算子 - fullOuterJoin()

（1）全外连接算子功能

fullOuterJoin()算子与数据库的全外连接类似，相当于对两个RDD取并集，两个RDD的记录都会存在。值不存在的取None。

（2）全外连接算子案例

rdd1与rdd2进行全外连接

（九）交集算子 - intersection()

1、交集算子功能

intersection()算子对两个RDD进行交集操作，返回一个新的RDD。要求两个算子类型要一致。

2、交集算子案例

rdd1与rdd2进行交集操作，满足交换律

A∩B $\neq$ ϕ

（十）去重算子 - distinct()

1、去重算子功能

distinct()算子对RDD中的数据进行去重操作，返回一个新的RDD。有点类似与集合的不允许重复元素。

2、去重算子案例

去掉rdd中重复的元素

3、IP地址去重案例

在项目根目录创建ips.txt文件

192.168.234.21
192.168.234.22
192.168.234.21
192.168.234.21
192.168.234.23
192.168.234.21
192.168.234.21
192.168.234.21
192.168.234.25
192.168.234.21
192.168.234.21
192.168.234.26
192.168.234.21
192.168.234.27
192.168.234.21
192.168.234.27
192.168.234.21
192.168.234.29
192.168.234.21
192.168.234.26
192.168.234.21
192.168.234.25
192.168.234.25
192.168.234.21
192.168.234.22
192.168.234.21

在net.army.rdd.day03包里创建DistinctIPs单例对象

package net.army.rdd.day03

import org.apache.spark.{SparkConf, SparkContext}

/**
 * 作者：梁辰兴
 * 日期：2023/6/5
 * 功能：IP地址去重
 */
object DistinctIPs {
  def main(args: Array[String]): Unit = {
    // 创建Spark配置对象
    val conf = new SparkConf()
      .setAppName("DistinctIPs ") // 设置应用名称
      .setMaster("local[*]") // 设置主节点位置（本地调试）
    // 基于Spark配置对象创建Spark容器
    val sc = new SparkContext(conf)
    // 读取本地IP地址文件，得到RDD
    val ips = sc.textFile("file:///Projects/SparkProjects/SparkRDDDemo/ips.txt")
    // rdd去重再输出
    ips.distinct.collect.foreach(println)
  }
}

运行程序，查看结果

修改代码，保存去重结果到本地目录

运行程序，查看结果文件

对比一下之前我们用纯粹的Scala来处理的代码

很明显，RDD解决去重问题代码更为简洁。

（十一）组合分组算子 - cogroup()

1、组合分组算子功能

cogroup()算子对两个(key, value)形式的RDD根据key进行组合，相当于根据key进行并集操作。例如，rdd1的元素以(k, v)表示，rdd2的元素以(k, w)表示，执行rdd1.cogroup(rdd2)生成的结果形式为(k, (Iterable, Iterable))。

2、组合分组算子案例

rdd1与rdd2进行组合分组操作

三、掌握行动算子

Spark中的转化算子并不会马上进行运算，而是在遇到行动算子时才会执行相应的语句，触发Spark的任务调度。

行动算子	功能说明
reduce(func)	将RDD中的元素进行聚合计算，func为传入的聚合函数
collect()	向Driver以数组形式返回数据集的所有元素。通常对于过滤操作或其他返回足够小的数据子集的操作非常有用
count()	返回数据集中元素的数量
countByKey()	统计RDD 中key相同的元素的数量，仅元素类型为键值对(key, value)的RDD可用，返回的结果类型为Map
foreach(func)	对RDD中的每一个元素运行给定的函数func
first()	返回数据集中第一个元素
take(n)	返回包含数据集前n个元素组成的数组
takeOrdered(n, [ordering])	返回RDD中的前n个元素，并以自然顺序或自定义的比较器顺序进行排序
saveAsTextFile(path)	将数据集中的元素持久化为一个或一组文本文件，并将文件存储在本地文件系统、HDFS或其他Hadoop支持的文件系统的指定目录中。Spark 会对每个元素调用toString()方法，将每个元素转化为文本文件中的一行。
saveAsSequenceFile(path)	将数据集中的元素持久化为一个 Hadoop SequenceFile文件，并将文件存储在木地文件系统、HDFS 或其他Hadoop支持的文件系统的指定目录中。实现了Hadoop Writable接口的键值对形式的RDD可以使用该操作。
saveAsObjectFile(path)	将数据集中的元素序列化成对象，存储到文件中。然后可以使用SparkContext.objectFile()对该文件进行加载。

（一）归约算子 - reduce()

1、归约算子功能

reduce()算子按照传入的函数进行归约计算

2、归约算子案例

计算 1 + 2 + 3 + … … + 100 1 + 2 + 3 + …… + 100 1+2+3+……+100的值
计算 1 × 2 × 3 × 4 × 5 × 6 1 \times 2 \times 3 \times 4 \times 5 \times 6 1×2×3×4×5×6的值（阶乘 - 累乘）

计算 1 2 + 2 2 + 3 2 + 4 2 + 5 2 1^2 + 2^2 + 3^2 + 4^2 + 5^2 12+22+32+42+52的值（先映射，后归约）

高中时的等差数列求和问题，只需map()和reduce()算子就可以通通搞定。

（二）采集算子 - collect()

1、采集算子功能

collect()算子向Driver以数组形式返回数据集的所有元素。通常对于过滤操作或其他返回足够小的数据子集的操作非常有用。

2、采集算子案例

显示RDD的全部元素

（三）首元素算子 - first()

1、首元素算子功能

first()算子返回数据集中第一个元素

2、首元素算子案例

显示RDD的首元素

（四）计数算子 - count()

1、计数算子功能

count()算子统计RDD的元素个数

2、计数算子案例

统计RDD的元素个数
如果要统计单词个数，那就要采用扁平映射算子
单词文件words.txt ——6行25个单词

（五）按键计数算子 - countByKey()

1、按键计数算子功能

countByKey()算子按键统计RDD键值出现的次数，返回由键值和次数构成的映射。

2、按键计数算子案例

List集合中存储的是键值对形式的元组，使用该List集合创建一个RDD，然后对其进行countByKey的计算。
注意：元素必须是键值对的二元组，不能是三元组

（六）前截取算子 - take(n)

1、前截取算子功能

take(n)算子返回RDD的前n个元素（同时尝试访问最少的partitions)，返回结果是无序的，测试使用。

2、前截取算子案例

返回集合中前任意多个元素组成的数组

三种情况：返回空集、真子集、全集

（七）排序前截取算子 - takeOrdered(n)[(ordering)]

1、排序前截取算子功能

takeOrdered(n, [ordering])算子返回RDD中的前n个元素，并以自然顺序或自定义的比较器顺序进行排序

2、排序前截取算子案例

返回RDD前n个元素（升序）

返回前n个元素（降序）

class MyOrdering extends Ordering[Int] {
  override def compare(x: Int, y: Int): Int = {
    y - x
  }
}
val rdd = sc.makeRDD(Array(56,89,23,78,90,23,68,35,100,666))
rdd.takeOrdered(5)(new MyOrdering())

其实，可以top(n)算子来实现同样的效果，更简单

（八）遍历算子 - foreach()

1、遍历算子功能

计算 RDD中的每一个元素，但不返回本地（只是访问一遍数据)，可以配合println友好地打印数据。

2、遍历算子案例

将RDD里的每个元素平方后输出（一定要采集，才能遍历）

将RDD的内容逐行打印输出

（九）存文件算子 - saveAsFile()

1、存文件算子功能

将RDD数据保存到本地文件或HDFS文件

2、存文件算子案例

将rdd内容保存到HDFS的/park/out目录

查看另存的结果文件

你可能感兴趣的:(大数据处理,spark,hadoop,大数据)

数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
通过YashanDB提升大数据处理能力的指南数据库
数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
3D 可视化技术开启污水治理全新发展阶段广州华锐视点 3d
3D可视化大屏展示技术在污水厂的应用，已然开启了污水处理的全新篇章。它不仅为污水厂解决了当下管理和展示的难题，更如同一座灯塔，照亮了未来污水处理领域的发展道路。随着科技的持续进步，3D可视化大屏展示技术必将迎来更加辉煌的发展。一方面，其与人工智能、大数据、物联网等前沿技术的融合将愈发紧密。借助人工智能算法，大屏系统将具备更强大的自主学习和分析能力，能够根据实时数据和历史经验，自动优化污水处理工艺参
UI前端大数据可视化实战策略：如何设计交互式数据探索界面？ UI前端开发工作室 ui 前端信息可视化
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“被动观看”到“主动探索”的可视化革命传统大数据可视化常陷入“图表堆砌”的困境：企业dashboard上布满折线图、饼图，却难以回答“销售额下降的核心区域是哪里”“用户流失与哪个行为强相关”等深度问题。
【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）
智能健康监测分析系统智能健康监测分析系统是一种基于物联网、大数据、人工智能等技术的综合性健康管理解决方案。它具有以下六大核心功能：实时监测系统通过智能传感器和可穿戴设备，实时采集用户的生理数据，例如心率、血压、血氧饱和度、血糖水平和睡眠质量等，确保用户随时掌握自己的身体状况。健康数据分析利用人工智能和大数据分析技术，系统对采集到的数据进行处理和分析，提取有价值的健康信息，如心率变异性、呼吸频率等，
Elasticsearch 高可用实战：架构设计与场景化解决方案辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch wpf 大数据全文检索搜索引擎 restful java
Elasticsearch高可用实战：架构设计与场景化解决方案本文深入探讨Elasticsearch在高并发、大数据量场景下的高可用架构设计，结合电商搜索、日志分析等真实案例，提供可落地的技术方案与Java实现。一、高可用架构设计原则1.分布式架构核心要素客户端负载均衡层协调节点数据节点-分片1数据节点-分片2数据节点-分片3副本分片副本分片副本分片2.高可用黄金法则冗余设计：至少3节点集群+1副
oracle 数据库迁移expdp，impdp（数据泵导出导入）方法小张是铁粉 oracle 数据库
一.优缺点优点：1.高效性能：expdp，impdp使用并行技术，可以显著提高导出导入速度，尤其适用于大数据量的迁移。支持压缩和加密，减少导出文件的大小并提高安全性。2.灵活的对象选择：可以导出整个数据库、特定表空间、用户（Schema）或单个表。支持过滤条件，例如只导出特定表的数据或元数据。3.跨平台兼容性：支持跨平台迁移（例如从Linux到Windows），但需要注意字节序（endiannes
用Python的Chartify库，商业数据可视化效率提升13倍！忆愿 Python编程的脉动之声 python opencv 人工智能计算机视觉深度学习神经网络机器学习
文章目录为啥要用Chartify？安装那些事儿从零开始画图基础柱状图进阶折线图散点图与气泡图专业数据分析必备技能多维度分析时间序列分析高级可视化技巧自定义主题交互式特性批量图表生成性能优化技巧大数据集处理内存优化实战案例：销售数据分析系统数据可视化这事儿，搞过的都知道有多费劲。用matplotlib画个图要调半天参数，才能让图表看起来稍微顺眼一点；seaborn虽然画出来的图确实好看，但是配置项太
【大数据】FP-growth算法大雨淅淅大数据算法人工智能大数据
目录一、FP-growth算法概述二、FP-growth算法代码实现2.1FP-growth算法matlab实现2.2FP-growth算法python实现三、FP-growth算法应用四、FP-growth算法发展趋势一、FP-growth算法概述FP-growth算法是一种用于发现数据集中频繁项集的高效算法。它由JiaweiHan等人提出，旨在解决Apriori算法在大数据集上效率低下的问题。
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option