如何原谅奋力过但无声

【4-5章】Spark编程基础(Python版)

课程资源：（林子雨）Spark编程基础(Python版)_哔哩哔哩_bilibili

第4章 RDD编程（21节）

Spark生态系统：

Spark Core：底层核心（RDD编程是针对这个）
Spark SQL：SQL查询
Spark Streaming：流计算（Structured Streaming：结构化数据流）
Spark MLlib：机器学习

RDD编程：对RDD进行一次又一次的转换操作

（一）RDD编程基础

1、创建

两种方式：

从文件系统中加载数据创建RDD：分布式文件系统hdfs 或本地文件系统或云端文件如Amazon S3（Amazon云端存储服务）
通过并行集合（数组）创建RDD：对集合进行并行化

（1）从文件系统中加载数据：Spark的SparkContext通过 sc.textFile() 读取数据，生成内存中的RDD

Driver节点为指挥所；SparkContext对象为指挥官

# 从本地文件系统中加载数据创建RDD
# sc即driver节点里的SparkContext对象
lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")  # 本地文件是///
lines.foreach(print)  # 遍历RDD每个元素并输出

SparkContext在独立应用程序（即代码文件）里需要编写代码生成；但在pyspark交互式执行环境里，系统会默认创建sc，不需再人为创建

RDD每个元素对应文本文件的一行，是字符串类型

（2）从分布式文件系统HDFS中加载数据：

# 三条语句完全等价，可以使用其中任一种
lines = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")  # hdfs://，localhost为主机名，9000为端口号（系统默认去当前登录Ubuntu系统的用户在HDFS中所对应的用户主目录去找）
lines = sc.textFile("/user/hadoop/word.txt")   # 用户主目录，Linux系统默认/home/用户名，简写为/~
lines = sc.textFile("word.txt")   # txt文件放在当前用户主目录下

Linux系统主目录默认为/home/用户名，简写为~
Hadoop文件系统默认为当前登录Linux系统的用户，hdfs://localhost:9000/user/用户名/（全称路径），可以只写为 /user/用户名/

（3）通过并行集合（数组/列表）创建RDD：SparkContext 的 sc.parallelize() 方法，可以对array并行化，生成内存中的RDD

array = [1,2,3,4,5]
rdd = sc.parallelize(array)
rdd.foreach(print)   # 遍历取出打印
# 结果：
# 1
# 2
# 3
# 4
# 5

2、基本操作

RDD操作：

转换操作（Transformation）：
- filter（过滤）
- map（一对一映射）
- flatMap（输出0~多个结果）
- groupByKey（Key相同的分组）
- reduceByKey（根据Key分组后对分组的值计算）
行动操作（Action）：
- count（数据集中元素个数）
- collect（以列表形式返回数据集中所有元素）
- first（数据集中第一个元素）
- take(n)（以列表形式返回数据集中前n个元素）
- reduce(func)（聚合数据集中的元素）
- foreach(func)（将数据集中每个元素传到func运行）
惰性机制：转换操作只记录轨迹，行动操作才真正执行计算

RDD转换 <=> 业务逻辑完成一次又一次转换（形成DAG有向无环图，Spark即解析DAG，生成很多个Stage，每个阶段的子任务提交到不同工作节点的线程去运行）。很多简单的转换组合后可实现复杂的业务逻辑

对于RDD而言，每一次转换操作都会产生不同的RDD，供一个操作使用（RDD是只读的，一旦生成无法修改，只有在转换的过程中才能修改，生成新的RDD后又无法修改）
转换得到的RDD是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作（动作类型操作Action）时才会发生真正的计算，从血缘关系的源头开始进行从头到尾的计算操作

（1）转换操作

filter(func)

lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")  # 从底层文本文件加载生成内存中RDD
linesWithSpark = lines.filter(lambda line:"Spark" in line)   # 匿名函数/lambda表达式
linesWithSpark.foreach(print)   # 输出包含Spark的行

map(func)

data = [1,2,3,4,5]
rdd1 = sc.parallelize(data)   # 得到一个RDD
rdd2 = rdd1.map(lambda x:x+10)
rdd2.foreach(print)

lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")
words = lines.map(lambda line:line.split(" "))  # 一行语句被拆分后得到的是list
words.foreach(print)  # 包含3个元素，每个元素都是list

flatMap(func)

lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")
words = lines.flatMap(lambda line:line.split(" "))  
words.foreach(print)  # 包含9个元素（英文单词）

词频统计就是用 flatMap 将一行行语句打散成一个个单词

groupByKey()

应用于key-value键值对数据集，返回(key, iterable)，即把key相同的值封装成一个可迭代对象

# 并行化方式生成列表封装的数据集，列表里的元素为键值对
words = sc.parallelize([("Hadoop",1), ("is",1), ("good",1), ("Spark",1), ("is",1)])
words1 = words.groupByKey()  # 相同key的值会归并起来，pyspark.resultiterable.ResultIterable object封装
words1.foreach(print)

reduceByKey(func)

在groupByKey基础上对value list按照func进行计算

words = sc.parallelize([("Hadoop",1), ("is",1), ("good",1), ("Spark",1), ("is",1)])
words1 = words.reduceByKey(lambda a,b:a+b)  
words1.foreach(print)  # 如('is',2) 即 is出现2次

如若("is",(1,1,1))，第一个1赋给a，第二个1赋给b，求和得到2赋给a，第三个1赋给b，求和得到3，返回最终结果

（2）行动操作

转换类型操作为惰性机制，并不真正发生计算，只记录轨迹；当遇到第一个行动类型操作时执行真正的计算（从底层磁盘加载数据、生成数据、转换、得到结果）

count()：返回数据集中的元素个数
collect()：以数组/列表的形式返回数据集中的所有元素（封装在列表里返回）
first()：返回数据集中的第一个元素
take(n)：以数组/列表的形式返回数据集中的前n个元素
reduce(func)：通过函数func（输入两个参数并返回一个值）聚合数据集中的元素
foreach(func)：将数据集中的每个元素传递到函数func中运行

rdd.reduce(lambda a,b:a+b)：

惰性机制：

lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")  # 转换操作，只是记录轨迹，并未真正加载
lineLengths = lines.map(lambda s:len(s))  # 转换操作，只是记录轨迹，并未真正加载
totalLength = lineLengths.reduce(lambda a,b:a+b)   # 行动操作，真正执行从头到尾计算
print(totalLength)  # 每行长度相加，得到总长度

3、持久化

多次反复访问同样一组值，不做持久化的话，每次访问都需要重新生成，非常耗时（对于迭代计算而言代价很大，经常需要多次重复使用同一组数据）。持久化将其保存到内存中，下次使用时不需要从头计算

可以通过持久化（缓存）机制避免这种重复计算的开销。持久化后的RDD将会被保留在计算节点的内存中被后面的行动操作重复利用

可以使用 persist() 方法对一个RDD标记为持久化（之所以说标记为持久化，是因为出现 persist() 语句的地方，并不会马上计算生成RDD并把它持久化，而是要等到遇到第一个行动操作触发真正计算以后，才会把计算结果进行持久化）

参数：

MEMORY_ONLY（只存在内存中）：把RDD作为反序列化的对象存在JVM中，若内存不足，就按先进先出原则替换内容 RDD.cache() = RDD.persist(MEMORY_ONLY)
MEMORY_AND_DISK（同时保存内存和磁盘）：优先保存在内存中，内存不足的部分再存放磁盘

.unpersist() 方法手动把持久化的RDD从缓存中移除

4、分区

RDD就是弹性分布式数据集，可以在计算过程中不断动态调整分区个数

（1）好处：增加并行度（可以在多个节点上同时发生计算）；减少通信开销

增加并行度：

p代表分区

减少通信开销：

userData表：大表，成千上百万用户，包括userID 和 userInfo（数据分块保存在不同机器上，每个块的用户ID都散布在0-1000万之间）
Events表：小表，包括userID 和 LinkInfo，记录用户在过去五分钟内所访问的网站链接

连接两表，让j1负责连接0-100w的用户id，以此类推

分区后只涉及events表多次的数据分发

（2）分区原则：分区个数 = 集群中CPU核心数目

对于Spark不同部署模式（Local模式、Standalone模式、YARN模式、Mesos模式）而言，通过设置具体参数值（spark.default.parallelism）指定默认的分区数目

Local模式：默认为本地机器的CPU数目，若设置了Local[N]，则默认为N
Apache Mesos模式：默认分区数为8
Standalone模式：集群中所有CPU核心数目总和和 2 中取较大值
YARN模式：集群中所有CPU核心数目总和和 2 中取较大值

（3）指定分区个数：在调用 textFile() 和 parallelize() 方法时指定分区个数

sc.textFile(path, partitionNum)   
# path指定要加载的文件的地址
# partitionNum用于指定分区个数

list = [1,2,3,4,5]
rdd = sc.parallelize(list,2)  # 设置两个分区

（4）使用repartition()方法重新设置分区个数：通过转换操作得到新RDD时，直接调用repartition方法即可

（5）自定义分区方法：

哈希分区 HashPartitioner
区域分区 RangePartitioner
自定义分区

from pyspark import SparkConf, SparkContext

def MyPatitioner(key):
    print("MyPatitioner is running")
    print("The key is %d" %key)
    return key%10   # 作为分区编号返回

def main():
    print("The main function is running")
    conf = SparkConf().setMaster("local").setAppName("MyApp")
    sc = SparkContext(conf=conf)
    data = sc.parallelize(range(10),5)   # 分成5个分区
    data.map(lambda x:(x,1)) \    # 键值对
        .partitionBy(10, Mypartitioner)  \   # 根据key分区。.partitionBy只接受键值对类型
        .map(lambda x:x[0])  \   # 再从键值对转回原格式
        .saveAsTextFile("file:///usr/local/spark/mycode/rdd/partitioner")   # 写入10个分区，每个分区各1个文件

if __name__ == '__main__':
    main()

.partitionBy只接受键值对类型

使用如下命令运行 TestPartitioner.py：

cd /usr/local/spark/mycode/rdd
python3 TestPartitioner.py

或者，使用如下命令运行 TestPartitioner.py：

cd /usr/local/spark/mycode/rdd
/usr/local/spark/bin/spark-submit TestPartitioner.py

5、基本实例（词频统计）

再次强调：

本地文件是三个/，即file:///

hdfs文件是两个/，即hdfs://

在一个集群中同时部署Hadoop和Spark，把集群中某个节点既作为HDFS的存储节点，也作为Spark的WorkerNode，即Spark的计算组件和HDFS的存储组件放在同一台机器上

分布式词频统计：

（二）键值对RDD

键值对RDD：RDD的每个元素都是一个键值对 (key, value)

1、创建

（1）从文件中加载

（2）通过并行集合（列表）创建

2、常用的键值对RDD转换操作

reduceByKey(func)：使用func函数合并具有相同键的值
groupByKey()：对具有相同键的值进行分组（ResultIterable对象封装）

总结：groupByKey是对每个key进行操作，但只生成一个sequence，本身不能自定义函数，需要先用groupByKey生成RDD，然后才能对此RDD通过map进行自定义函数操作；reduceByKey用于对每个key对应的多个value进行merge操作，能在本地先进行merge操作，且merge操作可以通过函数自定义

keys：把Pair RDD中的key返回形成一个新的RDD
values：把Pair RDD中的value返回形成一个新的RDD
sortByKey()：返回一个根据键排序的RDD，默认True（升序）
mapValues(func)：对键值对RDD中的每个value都应用一个函数，key不会发生变化
join：内连接。对于给定的两个输入数据集 (K, V1) 和 (K, V2)，只有在两个数据集中都存在的key才会被输出，最终得到一个 (K, (V1,V2)) 类型的数据集
combineByKey

（1）reduceByKey(func)：先把key相同的值归并起来，再对值列表用func进行聚合计算

（2）groupBykey()

对比 reduceByKey 和 groupByKey：

一个 reduceByKey 等价于一个 groupByKey + map

（3）keys()

（4）values()

（5）sortByKey()

sortByKey() 和 sortBy() 的区别：sortBy()可以根据值进行排序，而sortByKey() 只能根据键

（6）mapValues(func)：key不变，value用func（lambda表达式）进行计算

3、综合实例

给定一组键值对，key为图书名称，value为某天图书销量。计算每种图书的每天平均销量

reduceByKey()：

mapValues()：

（三）数据读写

1、文件数据读写

（1）本地文件系统数据读写：

注意：Spark采用惰性执行机制，即使输入了错误的语句，Spark-Shell也不会马上报错

把RDD写入到文本文件中 .saveAsTextFile（给出的是目录，而不是具体文件，因为存在分区的概念）：

再次把数据加载到RDD中，也要写目录，而不是文件：

（2）分布式文件系统HDFS数据读写：

把RDD中的数据保存到HDFS文件中（路径是目录，而不是具体文件）：

再次强调，本地文件是file:///开头，而分布式文件是hdfs://开头

2、读写HBase数据

（1）HBase简介

HBase（分布式数据库）是Google BigTable的开源实现，也是Hadoop的成员组件，构建在Hadoop分布式文件系统HDFS基础上。即HBase的数据是保存在底层HDFS中的

特性：

每个值是一个未经解释的字符串，没有数据类型
用户在表中存储数据，每一行都有一个可排序的行键和任意多的列
表在水平方向由一个或者多个列族组成，一个列族中可以包含任意多个列，同一个列族里面的数据存储在一起
列族支持动态扩展，可以很轻松地添加一个列族或列，无需预先定义列的数量以及类型，所有列均以字符串形式存储，用户需要自行进行数据类型转换
HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧版本仍然保留（这是和HDFS只允许追加、不允许修改的特性相关的）

概念：

表：HBase采用表来组织数据，表由行和列组成，列划分为若干个列族
行：每个HBase表都由若干行组成，每个行由行键（row key）来标识
列族：一个HBase表被分组成许多列族（Column Family）的集合，它是基本的访问控制单元
列限定符：列族里的数据通过列限定符（或列）来定位
时间戳：每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引
单元格：在HBase表中，通过行、列族和列限定符确定一个单元格（cell），单元格中存储的数据没有数据类型，总被视为字节数组byte[]

HBase - 稀疏、多维度、排序、映射表

相关信息全部汇总在一个表里，不需进行多表连接操作，有利于在大数据时代获得高的数据读写性能
一个表分为若干行和若干列族，一个列族又包含很多列/列限定符，每个行由行键（row key）来标识
行键和列限定符交叉的位置叫单元格，值是以一个单元格的形式写入的（关系型数据库是一行行存储写入的）
每个单元格的值可能会发生变化，但HBase底层存储是基于HDFS（只读，不可修改），通过将指针指向新版本数据间接实现修改

四维坐标定位：行键-列族-列限定符-版本时间戳

关系数据库是二维定位，给出行、列即可唯一确定一个单元格值

HBase概念视图：列族contents、列限定符html

HBase物理视图：底层为行键+列族+时间戳

保存机制：水平分区+切分成很多列族（分布式存储）

（2）创建HBase表

HBase安装（配置成伪分布式模式）：

启动HBase（底层存储基础为HDFS，故要先启动Hadoop）：

# 启动Hadoop
cd /usr/local/hadoop  # 进入Hadoop安装目录
./sbin/start-all.sh   # 启动Hadoop
# 或start-dfs.sh（启动hdfs）

# 启动HBase
cd /usr/local/hbase   # 进入HBase安装目录
./bin/start-hbase.sh  # 启动HBase
./bin/hbase shell     # 启动HBase Shell

创建student表（确保数据库里不存在student表）：

disable 'student'
drop 'student'

create 'student', 'info'   # 表、列族

# 录入student表第一个学生记录
put 'student', '1', 'info:name', 'Xueqian'
put 'student', '1', 'info:gender', 'F'
put 'student', '1', 'info:age', '23'

# 录入student表第二个学生记录
put 'student', '2', 'info:name', 'Weiliang'
put 'student', '2', 'info:gender', 'M'
put 'student', '2', 'info:age', '24'

关系型数据库插入数据的方式为 insert into... values...（一次插入一行数据）

（3）配置Spark

把程序运行过程中所需jar包（lib目录下）拷贝到Spark安装目录下（jars目录），需要拷贝：

所有以hbase开头的jar包
guava-12.0.1.jar
htrace-core-3.1.0-incubating.jar
protobuf-java-2.5.0.jar

cd /usr/local/spark/jars
mkdir hbase
cd hbase
cp /usr/local/hbase/lib/hbase*.jar ./
cp /usr/local/hbase/lib/guava-12.0.1.jar ./
cp /usr/local/hbase/lib/htrace-core-3.1.0-incubating.jar ./
cp /usr/local/hbase/lib/protobuf-java-2.5.0.jar ./

此外，在Spark2.0以上版本中，缺少把HBase数据转换成Python可读取数据的jar包，需要另行下载。可以访问下面地址下载spark-examples_2.11-1.6.0-typesafe-001.jar。下载以后保存到 /usr/local/spark/jars/hbase/ 目录中https://mvnrepository.com/artifact/org.apache.spark/spark-examples_2.11/1.6.0-typesafe-001

使用vim编辑器打开spark-env.sh文件，设置Spark的spark-env.sh文件，告诉Spark可以在哪个路径下找到HBase相关的jar文件，命令如下：

cd /usr/local/spark/conf
vim spark-env.sh

打开spark-env.sh文件后，可以在文件最前面增加下面一行内容，这样后面编译和运行过程才不会出错：

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath):$(/usr/local/hbase/bin/hbase classpath):/usr/local/spark/jars/hbase/*

（4）编写程序读取HBase数据

Spark读取HBase：用SparkContext提供的 newAPIHadoopRDD API将表的内容以RDD的形式加载到Spark中

SparkOperateHBase.py（从HBase读取数据、生成字符串格式并打印到屏幕上）：

#!/usr/bin/env python3
 
from pyspark import SparkConf, SparkContext
 
conf = SparkConf().setMaster('local').setAppName("ReadHBase")   # 设置连接方式为本地模式，应用名称为ReadHBase
sc = SparkContext(conf = conf)   # 生成SparkContext对象
host = 'localhost'   # ZooKeeper服务器地址（分布式协调一致性作用）
table = 'student'    # 表名
conf = {"hbase.zookeeper.quorum": host,"hbase.mapreduce.inputtable": table}   # 配置ZooKeeper服务器地址、当前读取的输入表
keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"   # 键转换器，把key从HBase格式转换成字符串格式
valueConv="org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"  
hbase_rdd=sc.newAPIHadoopRDD("org.apache.hadoop.hbase.mapreduce.TableInputFormat","org.apache.hadoop.hbase.io.ImmutableBytesWritable","org.apache.hadoop.hbase.client.Result",keyConverter=keyConv,valueConverter=valueConv,conf=conf)   # 读取表的格式、从HBase读取的key的类型、从HBase读取的value的类型、指定key的转换类、指定value的转换类、配置信息
count=hbase_rdd.count()   # 有多少个行键（键值对）
hbase_rdd.cache()     # 缓存
output=hbase_rdd.collect()    # 封装在一个列表中返回
for (k,v) in output:
    print(k,v)

执行该代码文件：

cd /usr/local/spark/mycode/rdd
/usr/local/spark/bin/spark-submit SparkOperateHBase.py

执行结果：

（5）编写程序向HBase写入数据

把表中的两个学生信息插入到HBase的student表中：

SparkWriteHBase.py：

#!/usr/bin/env python3
 
from pyspark import SparkConf,SparkContext
 
conf = SparkConf().setMaster('local').setAppName("WriteHBase")
sc = SparkContext(conf = conf)
host = 'localhost'
table = 'student'
keyConv = "org.apache.spark.examples.pythonconverters.StringToImmutableBytesWritableConverter"  # key转换器，String类型转换成内部格式
valueConv = "org.apache.spark.examples.pythonconverters.StringListToPutConverter"   # value转换器，字符串列表转换成Put单元格
conf = {"hbase.zookeeper.quorum": host,"hbase.mapred.outputtable": table,"mapreduce.outputformat.class":"org.apache.hadoop.hbase.mapreduce.TableOutputFormat","mapreduce.job.output.key.class":"org.apache.hadoop.hbase.io.ImmutableBytesWritable","mapreduce.job.output.value.class":"org.apache.hadoop.io.Writable"}
 
rawData=['3,info,name,Rongcheng','3,info,gender,M','3,info,age,26','4,info,name,Guanhua','4,info,gender,M','4,info,age,27']
# 首先将6个字符串加载到内存生成RDD，再写入HBase
sc.parallelize(rawData).map(lambda x: (x[0],x.split(','))).saveAsNewAPIHadoopDataset(conf=conf,keyConverter=keyConv,valueConverter=valueConv)   # x[0]为行键，map后6个字符串变为6个键值对(key,value)，key为行键，value为字符串列表（即单元格值）

StringList：[行键，列族，列，值]

执行：

cd /usr/local/spark/mycode/rdd
/usr/local/spark/bin/spark-submit SparkWriteHBase.py

去HBase Shell查看写入结果：scan 'student'

（四）综合案例

1、求TOP值

对一个目录下的所有文件的某字段排序，取top5（topN.py）

from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("ReadHBase")
sc = SparkContext(conf = conf)
lines = sc.textFile("file:///usr/local/spark/mycode/rdd/file")
# line.strip() 去掉字符串后面的空格（去掉空行）
# split后==4，即去掉缺失字段的行
result1 = lines.filter(lambda line:(len(line.strip()) > 0) and (len(line.split(",")) == 4))
result2 = result1.map(lambda x:x.split(",")[2])   # 取出payment
result3 = result2.map(lambda x:(int(x),""))   # 转换为(key, value)，为了后面排序
result4 = result3.repartition(1)   # 为了保证全局有序，否则可能分区有序，但全局无序
result5 = result4.sortByKey(False)   # sortByKey()必须根据key来排，即输入是(key,value)。False为降序
result6 = result5.map(lambda x:x[0])   # 去掉value的""
result7 = result6.take(5)   # 取出前五名
for a in result7:
    print(a)

过程解析：

参考：Spark求TOP值_11号的乔乔的博客-CSDN博客

2、文件排序

读取文件中所有整数并进行排序（FileSort.py）

#!/usr/bin/env python3
from pyspark import SparkContext, SparkConf

index = 0
def getindex():   # 获取全局排序，依次递增
    global index
    index += 1
    return index

def main():
    conf = SparkConf().setMaster('local[1]').setAppName('FileSort')
    sc = SparkContext(conf=conf)
    lines = sc.textFile("file:///usr/local/spark/mycode/rdd/filesort/file*.txt")   # 把某个目录下所有文件加载进来生成RDD
    result1 = lines.filter(lambda line:(len(line.strip())>0))   # 消除空行
    result2 = result1.map(lambda x:(int(x.strip()),"")   # 生成(key,value)
    result3 = result2.repatition(1)   # 1个分区确保全局有序
    result4 = result3.sortByKey(True)
    result5 = result4.map(lambda x:x[0])
    result6 result5.map(lambda x:(getindex(),x))
    result6.saveAsTextFile("file:///usr/local/spark/mycode/rdd/filesort/sortresult")

sortByKey() 的输入必须是 (key, value)

过程解析：

3、二次排序

先根据第一列降序排序，第一列值相等再根据第二列降序排序（SecondarySortKey.py）

若就把字符串构建(key,value) 输入sortBykey()，是根据字母的升序排序。故本题必须生成一个可比较的key，即下图中的 SecondarySortKey(5,3)

实现思路：

按照Ordered 和 Serializable 接口实现自定义排序的key（人工定义类SecondarySortKey）
将要进行二次排序的文件加载进来生成类型的RDD，key即人工定义的用于排序的SecondarySortKey，值即文本中的一行
使用sortByKey基于自定义的key进行二次排序
去除掉排序的key只保留排序的结果

from operator import gt
from pyspark import SparkContext, SparkConf

class SecondarySortKey():
    def __init__(self, k):   # __init__为构造函数，k为传入参数，格式为(key,value)
        self.column1 = k[0]
        self.column2 = k[1]
 
    def __gt__(self, other):    # 重写比较函数
        if other.column1 == self.column1:
            return gt(self.column2,other.column2)   # 若第1列相等，比较第2列
        else:
            return gt(self.column1, other.column1)

def main():
  conf = SparkConf().setAppName('spark_sort').setMaster('local[1]')
  sc = SparkContext(conf=conf)

  file="file:///usr/local/spark/mycode/rdd/secondarysort/file4.txt"
  rdd1 = sc.textFile(file)
  rdd2=rdd1.filter(lambda x:(len(x.strip()) > 0))   # 去除空行
  rdd3=rdd2.map(lambda x:((int(x.split(" ")[0]),int(x.split(" ")[1])),x))   # x为字符串
  rdd4=rdd3.map(lambda x: (SecondarySortKey(x[0]),x[1]))
  rdd5=rdd4.sortByKey(False)
  rdd6=rdd5.map(lambda x:x[1])  # 去掉左边的可排序key，只保留右边的字符串
  rdd6.foreach(print)

if __name__ == '__main__':
	main()

过程解析：

第5章 Spark SQL（9节）

（一）Spark SQL简介

1、Hive：SQL-on-Hadoop

Hive：SQL-on-Hadoop（Hadoop平台上提供了SQL查询的能力，在Hadoop平台上构建数据仓库，把SQL语句转换成底层MapReduce程序，对底层HDFS数据进行查询分析）

Hive本身不存储数据，借助底层HDFS存储数据
Hive可以看成是编程接口，把SQL语句转换成MapReduce作业

2、Shark：Hive on Spark

Shark即Hive on Spark。为了实现和Hive兼容，Shark在HiveQL方面重用了Hive中HiveQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从MapReduce作业替换成了Spark作业，通过Hive的HiveQL解析，把HiveQL翻译成Spark上的RDD操作

SQL-on-Spark性能比Hive有了10-100倍的提高
Shark导致的两个问题：
- 执行计划优化完全依赖Hive，不方便添加新的优化策略
- MapReduce是进程级并行，而Spark是线程级并行，故Spark为了兼容Hive就存在线程安全的问题，导致Shark不得不使用另外一套独立维护的打了补丁的Hive源码分支

3、Spark SQL

Spark SQL在Hive兼容层面仅依赖HiveQL解析、Hive元数据模块，其他模块全部重新开发。也就是说，从HQL被解析成抽象语法树AST开始，就全部由Spark SQL接管了。Spark SQL执行计划生成和优化都由Catalyst（函数式关系查询优化框架）负责

Spark SQL增加了DataFrame（即带有Schema信息的RDD），使用户可以在Spark SQL中执行SQL语句。数据既可以来自RDD，也可以是Hive、HDFS、Cassandra等外部数据源，还可以是JSON格式的数据

Spark SQL目前支持三种语言：Java、Scala、Python

Why Spark SQL？

关系型数据库已经很流行，但在大数据时代已经不能满足要求
首先，用户需要从不同数据源执行各种操作，包括结构化和非结构化数据；
其次，用户需要执行高级分析，比如机器学习和图像处理。在实际大数据应用中，经常需要融合关系查询和复杂分析算法（比如机器学习或图像处理），但是，缺少这样的系统

Spark SQL填补了这个鸿沟

首先，可以提供DataFrame API，可以对内部和外部各种数据源执行各种关系操作
其次，可以支持大量的数据源和数据分析算法，Spark SQL可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力

（二）DataFrame概述

DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从Mysql到DataFrame的转化，并且支持SQL查询

RDD是Spark Core核心组件的数据抽象，Spark SQL的数据抽象是DataFrame

RDD是分布式的Java对象的集合，看不到对象内部结构；
DataFrame是以RDD为基础的分布式数据集，提供了详细的结构信息

1、创建

从Spark2.0以上版本开始，Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能

SparkSession支持从不同的数据源加载数据，并把数据转换成DataFrame，并支持把DataFrame转换成SQLContext自身中的表，然后使用SQL语句来操作数据。SparkSession也提供了HiveQL以及其他依赖于Hive的功能的支持

SparkSession接口（Spark SQL程序的指挥官）
SparkContext对象（RDD应用程序的指挥官）

（1）创建SparkSession对象

在启动进入Pyspark以后，pyspark就默认提供了一个SparkContext对象（名称为sc）和一个SparkSession对象（名称为spark）
在写独立应用程序时，需要用下面代码生成：

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()

（2）创建DataFrame

spark.read() 操作或 spark.read.format().load() 操作

spark.read.text("xxx.txt")
spark.read.json("xxx.json")
spark.read.parquet("xxx.parquet")

spark.read.format("text").load("xxx.txt")
spark.read.format("json").load("xxx.json")
spark.read.format("parquet").load("xxx.parquet")

调用 .show() 可以查看数据

2、保存

使用 spark.write 操作保存DataFrame

df.write.txt("xxx.txt")
df.write.json("xxx.json")
df.write.parquet("xxx.parquet")

df.write.format("text").save("xxx.txt")
df.write.format("json").save("xxx.json")
df.write.format("parquet").save("xxx.parquet")

目录名称读取即可加载（注意不是文件名称）

3、常用操作

printSchema()：打印模式信息

select()：选取列显示

filter()：过滤

groupBy()：分组

sort()：排序

（三）利用反射机制推断RDD模式

1、利用反射机制去推断RDD模式

/usr/local/spark/examples/src/main/resources/ 目录下：

from pyspark.sql import Row  # 生成row对象封装一行数据
# spark为SparkSession对象
people = spark.sparkContext.textFile("file:///usr/local/spark/examples/src/main/resources/people.txt").map(lambda line:line.split(",")).map(lambda p:Row(name=p[0],age=int(p[1])))   # people为RDD
schemapeople = spark.createDataFrame(people)

# 必须注册为临时表才能供下面的查询使用
schemapeople.createOrReplaceTempView("people")   # people为临时表名称
personDF = spark.sql("select name,age from people where age>20")
# 查询得到的结果会被封装在DataFrame中
personDF.show()

# DataFrame中的每个元素都是一行记录，包含name和age两个字段，分别用p.name和p.age来获取值
personRDD = personDF.rdd.map(lambda p:"Name:"+p.name+","+"Age:"+str(p.age))
personRDD.foreach(print)

personDF

personRDD

2、用编程方式去定义RDD模式

当无法提前获知数据结构时，采用编程方式定义RDD模式

from pyspark.sql.types import *
from pyspark.sql import Row

# 生成表头
schemaString = "name age"  # 包含两个字段 name 和 age
fields = [StructField(field_name,StringType(),True) for field_name in schemaString.split(" ")]   # 列表里每个元素都是一个StructField对象（用来描述字段）
schema = StructType(fields)

# 生成表中的记录
lines = spark.sparkContext.textFile("file:///usr/local/spark/examples/src/main/resources/people.txt")
parts = lines.map(lambda x:x.split(","))
people = parts.map(lambda p:Row(p[0],p[1].strip()))   # p为列表

# 表头和内容拼接
schemapeoples = spark.createDataFrame(people,schema)   # (表中记录,表头)

# 注册临时表才能查询
schemapeoples.createOrReplaceTempView("people")
results = spark.sql("select name,age from people")
results.show()

StructField(字段名称，字段类型，是否可以为空) 用来描述字段
StructType() 生成的对象用来描述数据库模式，即表头

查询的结果被封装在DataFrame里

（四）Spark SQL读取MySQL数据库

1、MySQL准备工作

在Linux系统中安装MySQL数据库：Ubuntu安装MySQL及常用操作_厦大数据库实验室博客

# 在Linux中启动MySQL数据库
service mysql start
mysql -u root -p   # 屏幕会提示你输入密码（MySQL root用户密码）

# 完成数据库和表的创建
create database spark
use spark
create table student(id int(4), name char(20), gender char(4), age int(4))
insert into student values (1, "Xueqian", 'F', 23)
insert into student values (2, "Weiliang", 'M', 24)
select * from student

Spark SQL通过jdbc连接关系型数据库MySQL，需要安装MySQL的jdbc驱动程序：Linux 下搭建 Hive 环境_mysql-connector-java-5.1.40.tar 对应的mysql版本_GreyZeng的博客-CSDN博客

下载后放入 /usr/local/spark/jars

# 启动pyspark
cd /usr/local/spark
./bin/pyspark

2、Spark SQL读写MySQL

（1）通过jdbc连接MySQL数据库

>>>jdbcDF = spark.read.format("jdbc") \
.option("url","jdbc:mysql://localhost:3306/spark") \   # 访问数据库地址及数据库（spark数据库）
.option("driver","com.mysql.jdbc.Driver") \   # 指定驱动程序
.option("dbtable", "student") \   # 访问student表
.option("user", "root") \
.option("password", "mysql密码").load()

# .option()增加连接参数

（2）向MySQL数据库中写入数据

use spark
select * from student

往 spark.student 中插入两条记录：

from pyspark.sql.types import Row
from pyspark.sql.types import *
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession

# 生成SparkSession对象（Spark SQL指挥官）
spark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()

# 下面要设置模式信息
>>> schema = StructType([StructField("id", IntegerType(), True), \   # True说明可以为空
StructField("name", StringType(), True), \
StructField("gender", StringType(), True), \
StructField("age",IntegerType(), True)])

# 设置两条数据，表示两个学生信息（封装Row对象）
studentRDD = spark.sparkContext.parallelize(["3 Rongcheng M 26","4 Guanhua M 27"]).map(lambda x:x.split(" "))

# 创建Row对象，每个Row对象都是rowRDD的一行
rowRDD = studentRDD.map(lambda p:Row(int(p[1].strip()), p[1].strip(), p[2].strip(), int(p[3].strip())))

# 建立起Row对象和模式之间的对应关系，也就是把数据和模式对应起来
studentDF = spark.createDataFrame(rowRDD, schema)    

# 把DataFrame写入数据库
prop = {}
prop['user'] = 'root'
prop['password'] = '填写mysql密码'  
prop['driver'] = "com.mysql.jdbc.Driver"  # 驱动程序名称
# 库名, 表名, 追加, prop为属性集合
studentDF.write.jdbc("jdbc:mysql://localhost:3306/spark",'student','append', prop)

结果如下：

你可能感兴趣的:(大数据组件,spark,大数据,分布式)

分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
web3中的ipfs 财神爷首席大弟子 web3 去中心化区块链
什么是web3：是基于区块链技术的分布式网络，主要目标是建立一个去中心化与信任化的互联网去中心化以及是信任化区块链：将所有的交易记录和什么护具存储在分布式网络中，每一个node都有完整的数据副本任何一个node修改都需要得到其他节点的认可，确保数据的真实性和和可信度web3有一些关键技术和标准，例如以太坊，IPFS，ENS，ERC标准等以太坊：以太币是一个开源的有智能合约功能的公共区块链平台，通过
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【赵渝强老师】基于PostgreSQL的分布式数据库：Citus
由于PostgreSQL具有强大的功能和良好的可扩展性，因此基于PostgreSQL很容易就可以实现分布式架构。Citus便是具体的一种实现方式。它以扩展的插件形式与PostgreSQL进行集成，且独立于PostgreSQL内核，部署也比较简单。Citus是现在非常流行的基于PostgreSQL的分布式解决方案。一、Citus基础下面是百度百科中对分布式数据库的定义：分布式数据库系统通常使用较小的
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
使用HarmonyOS 5和CodeGenie辅助工具开发鸿蒙运动健康类应用的项目总结哼唧唧_ CodeGenie 运动健康 Harmony OS5 harmonyos 华为
一、项目背景与目标随着鸿蒙生态在穿戴设备、智能家居领域的快速扩展，我团队基于HarmonyOS5操作系统，开发了一款面向运动健康场景的智能应用——“Harmony健康伴侣”。项目采用华为官方推出的智能编程助手CodeGenie进行辅助开发，旨在验证CodeGenie在提升鸿蒙应用开发效率与质量方面的实际效果。二、核心功能实现该应用深度融合HarmonyOS分布式能力，支持跨设备无缝协同，主要功能包
万物智联时代启航：鸿蒙OS重塑全场景开发新生态黑巧克力可减脂鸿蒙开发鸿蒙系统
目录HarmonyOS简介：分布式操作系统，开启万物智联新时代HarmonyOS发展历程：从破局到引领核心特性：分布式技术三支柱应用场景：全场景覆盖的鸿蒙生态什么选择鸿蒙开发？技术红利与市场蓝海结语：拥抱鸿蒙，赢在万物智联起点HarmonyOS简介：分布式操作系统，开启万物智联新时代什么是鸿蒙？HarmonyOS（鸿蒙操作系统）是华为自主研发的面向全场景的分布式操作系统，其核心使命是打破设备孤岛，
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
redis锁java实现 brave_zhao redis java 数据库
以下是几种常见的Redis分布式锁的Java实现方式：1.基于SETNX命令的实现SETNX命令（对应Java中的setIfAbsent方法）是实现Redis分布式锁的基础。以下是实现代码：importredis.clients.jedis.Jedis;publicclassRedisLock{privateJedisjedis;publicRedisLock(Jedisjedis){this.j
服务实现99.99%高可用的核心措施
在分布式系统中，高可用性（HA）是衡量服务可靠性的核心指标。99.99%的可用性意味着系统每年的停机时间不超过约52.6分钟，这对金融交易、电信服务等关键业务至关重要。一、冗余设计与故障转移原理：通过冗余部署消除单点故障，确保部分节点故障时服务仍可用。故障转移机制自动将流量切换至健康节点，缩短服务中断时间。Java服务实现：集群部署：使用SpringCloudAlibaba或Dubbo构建微服务集
分布式事务解决方案总结：本地消息异步确认、可靠消息最终一致性、最大努力通知码到三十五面试攻关分布式 spring cloud spring boot
❃博主首页：「码到三十五」，同名公众号:「码到三十五」☠博主专栏：♝博主的话：搬的每块砖，皆为峰峦之基；公众号搜索「码到三十五」关注这个爱发技术干货的coder，一起筑基分布式系统中事务是一个重要挑战，先从从实现原理、技术细节、适用场景三个维度，对三种主流分布式事务解决方案进行简单总结。一、本地消息异步确认方案实现原理该方案通过「本地事务+消息表」机制实现最终一致性，核心思想是将业务操作与消息发送
SkyWalking实现微服务链路追踪的埋点方案 MenzilBiz 服务器运维微服务 skywalking
SkyWalking实现微服务链路追踪的埋点方案一、SkyWalking简介SkyWalking是一款开源的APM(应用性能监控)系统，特别为微服务、云原生架构和容器化(Docker/Kubernetes)应用而设计。它主要功能包括分布式追踪、服务网格遥测分析、指标聚合和可视化等。SkyWalking支持多种语言（Java、Go、Python等）和协议（HTTP、gRPC等），能够提供端到端的调用
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR