Int mian[]

PySpark

Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing - AMinerSpark 最早源于一篇论文，该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集（即 RDD）的概念。

RDD 是一种分布式内存抽象，其使得程序员能够在大规模集群中做内存运算，并且有一定的容错方式。而这也是整个 Spark 的核心数据结构，Spark 整个平台都围绕着RDD进行。

Hadoop VS Spark

对于数据源而言，Spark 支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

搭建、配置

*我的spark部署结构

都在/export/server

python3.8来源Anaconda3，在~/anaconda3

创建了一个pyspark环境

环境变量

export JAVA_HOME=/export/server/jdk1.8.0_291
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export HADOOP_HOME=/export/server/hadoop-3.3.3
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_CONF_DIR

# spark
export SPARK_HOME=/export/server/spark
export PYSPARK_PYTHON=/root/anaconda3/envs/pyspark/bin/python3.8
export PATH=$PATH:$SPARK_HOME/bin

# anaconda3
export ANACONDA_HOME=/root/anaconda3/bin
export PATH=$PATH:$ANACONDA_HOME/bin



#define a environment path
export MYDIR=/mydir
unset MAILCHECK

前置基础知识点

1.Spark用之前还要装Hadoop

对于数据源而言，Spark 支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

2.大框架

SparkSQL：基于SparkCore之上，提供结构化数据的处理模块。SparkSQL支持以SQL语言对数据进行处理，SparkSQL本身针对离线计算场景。同时基于SparkSQL，Spark提供了StructuredStreaming模块，可以以SparkSQL为基础，进行数据的流式计算。

SparkStreaming：以SparkCore为基础，提供数据的流式计算功能。

MLlib：以SparkCore为基础，进行机器学习计算，内置了大量的机器学习库和API算法等。方便用户以分布式计算的模式进行机器学习计算。

GraphX：以SparkCore为基础，进行图计算，提供了大量的图计算API，方便用于以分布式计算模式进行图计算。

Spark Core：Spark的核心，Spark核心功能均由Spark Core模块提供，是Spark运行的基础。Spark Core以RDD为数据抽象，提供Python、Java、 Scala、R语言的API，可以编程进行海量离线数据批处理计算。

3.搭建方式：local[*]、集群

之后常用local[*]

Yarn

ResourceManager、NodeManager、ApplicationMaster、Task

对应Spark架构

ResourceManager

YARN	Spark	作用
ResourceManager	Master	所有机器的爹
NodeManager	Worker	单机的爹
ApplicationMaster	Driver	工人头子
Task	Executor	真正干活的

正常情况下Executor是干活的角色，不过在特殊场景下（Local模式）Driver可以即管理又干活

local环境原理、部署

本质：启动一个JVM Process进程(一个进程里面有多个线程)，执行任务Task，如图K = 2

不携带参数默认就是spark-shell --master local[*]

退出spark-shell，使用 :quit

角色分布

资源管理：

Master：Local进程本身

Worker：Local进程本身

任务执行：

Driver：Local进程本身

Executor：不存在，没有独立的Executor角色, 由Local进程(也就是Driver)内的线程提供计算能力

Driver也算一种特殊的Executor, 只不过多数时候, 我们将Executor当做纯Worker对待, 这样和Driver好区分(一类是管理一类是工人)

Local模式只能运行一个Spark程序, 如果执行多个Spark程序, 那就是由多个相互独立的Local进程在执行(Driver是local本身，有只有一个Driver，只能执行一个任务)

部署

装hadoop3.3.3，spark，tar -zxvfspark-3.2.0-bin-hadoop-3.2.tgz，装python3.8（我用的anaconda），配源，配环境变量，启动！有手就行

无交互模式直接提交任务：

spark-submit --master local[*] /export/server/spark/examples/src/main/python/pi.py 2

Standalone环境部署

Standalone模式是Spark自带的一种集群模式，不同于前面本地模式启动多个进程来模拟集群的环境，Standalone模式是真实地在多个机器之间搭建Spark集群的环境，完全可以利用该模式搭建多机器集群，用于实际的大数据处理

StandAlone 是完整的Spark运行环境,其中:

Master角色以Master进程存在, Worker角色以Worker进程存在

Driver和Executor运行于Worker进程内, 由Worker提供资源供给它们运行

StandAlone集群在进程上主要有3类进程:

主节点Master进程：

Master角色, 管理整个集群资源，并托管运行各个任务的Driver

从节点Workers：

Worker角色, 管理每个机器的资源，分配对应的资源来运行Executor(Task)；每个从节点分配资源信息给Worker管理，资源信息包含内存Memory和CPU Cores核数

历史服务器HistoryServer(可选)：

Spark Application运行完成以后，保存事件日志数据至HDFS，启动HistoryServer可以查看应用运行相关信息。

规划架构

hadoop1:master/worker
hadoop2:slave/worker
hadoop3:slave/worker

配置

修改/export/server/spark/conf的worker，添加需要做worker的主机名

修改/export/server/spark/conf的spark-env.sh，添加

## 设置JAVA安装目录
JAVA_HOME=/export/server/jdk

## HADOOP软件配置文件目录，读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
YARN_CONF_DIR=/export/server/hadoop/etc/hadoop

## 指定spark老大Master的IP和提交任务的通信端口
export SPARK_MASTER_HOST=hadoop1
export SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081

## 历史日志服务器
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://hadoop1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

启动standalone：sbin/start-all.sh

交互模式启动：还得先进入WebUI，看端口号，./pyspark --master spark://hadoop1:7077（其实这个端口在conf/spark-env.sh指定了）

*日志服务：修改spark-defaults.conf，添加，并且启动hadoop，hadoop fs -mkdir /sparklog

# 开启时间日志功能
spark.eventLog.enabled true
# 路径
spark.eventLog.dir hdfs://hadoop1:8020/sparklog/
# 是否压缩
spark.eventLog.compress true

启动日志服务

运行架构

第一、Driver Program

相当于AppMaster，整个应用管理者，负责应用中所有Job的调度执行;

运行JVM Process，运行程序的MAIN函数，必须创建SparkContext上下文对象；

一个SparkApplication仅有一个；

第二、Executors

相当于一个线程池，运行JVM Process，其中有很多线程，每个线程运行一个Task任务，一个Task任务运行需要1 Core CPU，所有可以认为Executor中线程数就等于CPU Core核数；

一个Spark Application可以有多个，可以设置个数和资源信息；

用户程序从最开始的提交到最终的计算执行，需要经历以下几个阶段：

 1）、用户程序创建 SparkContext 时，新创建的 SparkContext 实例会连接到 ClusterManager。 ClusterManager 会根据用户提交时设置的 CPU 和内存等信息为本次提交分配计算资源，启动 Executor。

 2）、Driver会将用户程序划分为不同的执行阶段Stage，每个执行阶段Stage由一组完全相同Task组成，这些Task分别作用于待处理数据的不同分区。在阶段划分完成和Task创建后， Driver会向Executor发送 Task；

 3）、Executor在接收到Task后，会下载Task的运行时依赖，在准备好Task的执行环境后，会开始执行Task，并且将Task的运行状态汇报给Driver；

 4）、Driver会根据收到的Task的运行状态来处理不同的状态更新。 Task分为两种：一种是Shuffle Map Task，它实现数据的重新洗牌，洗牌的结果保存到Executor 所在节点的文件系统中；另外一种是Result Task，它负责生成结果数据；

 5）、Driver 会不断地调用Task，将Task发送到Executor执行，在所有的Task 都正确执行或者超过执行次数的限制仍然没有执行成功时停止；

端口区别

4040: 是一个运行的Application在运行的过程中临时绑定的端口,用以查看当前任务的状态.4040被占用会顺延到4041.4042等 4040是一个临时端口,当前程序运行完成后, 4040就会被注销
8080: 默认是StandAlone下, Master角色(进程)的WEB端口,用以查看当前Master(集群)的状态
18080: 默认是历史服务器的端口, 由于每个程序运行完成后,4040端口就被注销了. 在以后想回看某个程序的运行状态就可以通过历史服务器查看,历史服务器长期稳定运行,可供随时查看被记录的程序的运行过程.
7077: --master交互命令行端口

运行层次

在一个Spark Application中，包含多个Job，每个Job有多个Stage组成，每个Job执行按照DAG图进行的

其中每个Stage中包含多个Task任务，每个Task以线程Thread方式执行，需要1Core CPU。

Spark Application程序运行时三个核心概念：Job、Stage、 Task，说明如下：

Job：由多个 Task 的并行计算部分，一般 Spark 中的 action 操作（如 save、collect，后面进一步说明），会生成一个 Job。

Stage：一个 Job 会切分成多个 Stage ，Stage 彼此之间相互依赖顺序执行，而每个 Stage 包含多个 Task 的集合，类似 map 和 reduce stage。

Task：被分配到各个 Executor 的单位工作内容，它是 Spark 中的最小执行单位，一般来说有多少个 Paritition （物理层面的概念，即分支可以理解为将数据划分成不同部分并行处理），就会有多少个 Task，每个 Task 只会处理单一分支上的数据

Standalone HA

架构

防止Master寄了，整个集群就寄了，主备切换不影响正在运行的

配置

hadoop1上的spark-env.sh注释掉

# SPARK_MASTER_HOST=node1

增加配置

# spark.deploy.recoveryMode：恢复模式
SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER
# ZooKeeper的Server地址
-Dspark.deploy.zookeeper.url=hadoop1:2181,hadoop2:2181,hadoop3:2181
# 保存集群元数据信息的文件、目录。包括Worker、Driver、Application信息
-Dspark.deploy.zookeeper.dir=/spark-ha"

启动ZOOKEEPER服务
zkServer.sh status
zkServer.sh stop
zkServer.sh start

node1上启动Spark集群执行
/export/server/spark/sbin/start-all.sh

在node2上再单独只起个master:
/export/server/spark/sbin/start-master.sh

如果将node1的Master进程Kill掉，node2的Master在1Min-2Min左右会接替node1的Master作用。也就是在执行过程中，使用jps查看Active Master进程ID，将其kill，观察Master是否自动切换与应用运行完成结束。（需要等待1-2min)

★Spark on Yarn

按照前面环境部署中所学习的, 如果我们想要一个稳定的生产Spark环境, 那么最优的选择就是构建:HA StandAlone集群

不过在企业中, 服务器的资源总是紧张的, 许多企业不管做什么业务,都基本上会有Hadoop集群. 也就是会有YARN集群，对于企业来说,在已有YARN集群的前提下在单独准备Spark StandAlone集群,对资源的利用就不高. 所以, 在企业中多数场景下,会将Spark运行到YARN集群中

所以, 对于Spark On YARN, 无需部署Spark集群, 只要找一台服务器, 充当Spark的客户端, 即可提交任务到YARN集群中运行.

架构

Master角色由YARN的ResourceManager担任.

Worker角色由YARN的NodeManager担任.

Driver角色运行在YARN容器内或提交任务的客户端进程中

真正干活的Executor运行在YARN提供的容器内

关闭hadoop安全模式

hdfs dfsadmin -safemode get

hdfs dfsadmin -safemode leave（我的关不掉，服了！）

配置

spark-env.sh增加，分发hadoop2,3

## HADOOP软件配置文件目录，读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
YARN_CONF_DIR=/export/server/hadoop/etc/hadoop

（不配了，配置低！）

两种运行模式

Spark On YARN是有两种运行模式的,一种是Cluster模式一种是Client模式. 这两种模式的区别就是Driver运行的位置

Cluster模式即:Driver运行在YARN容器内部, 和ApplicationMaster在同一个容器内

Client模式即:Driver运行在客户端进程中, 比如Driver运行在spark-submit程序的进程中

1）、任务提交后会和ResourceManager通讯申请启动ApplicationMaster;

2）、随后ResourceManager分配Container，在合适的NodeManager上启动ApplicationMaster，此时的 ApplicationMaster就是Driver；

3）、Driver启动后向ResourceManager申请Executor内存，ResourceManager接到ApplicationMaster的资源申请后会分配Container,然后在合适的NodeManager上启动Executor进程;

4）、Executor进程启动后会向Driver反向注册;

5）、Executor全部注册完成后Driver开始执行main函数，之后执行到Action算子时，触发一个job，并根据宽依赖开始划分stage，每个stage生成对应的taskSet，之后将task分发到各个Executor上执行

1)、Driver在任务提交的本地机器上运行，Driver启动后会和ResourceManager通讯申请启动ApplicationMaster ；

2）、随后ResourceManager分配Container，在合适的NodeManager上启动ApplicationMaster，此时的 ApplicationMaster的功能相当于一个ExecutorLaucher，只负责向ResourceManager申请Executor内存；

3）、ResourceManager接到ApplicationMaster的资源申请后会分配Container，然后ApplicationMaster在资源分配指定的NodeManager上启动Executor进程；

4）、Executor进程启动后会向Driver反向注册，Executor全部注册完成后Driver开始执行main函数；

5）、之后执行到Action算子时，触发一个Job，并根据宽依赖开始划分Stage，每个Stage生成对应的TaskSet，之后将Task分发到各个Executor上执行

关掉虚拟机，转战Windows

=======Win========

环境准备

准备python环境，下载pyspark库，配环境变量PYSPARK_PYTHON：anaconda的python

WordCount剖析

import os

from pyspark import SparkConf, SparkContext
os.environ['PYSPARK_PYTHON'] = r'D:\Anaconda3\envs\pyspark\python.exe'


if __name__ == '__main__':
    conf = SparkConf().setMaster('local[*]').setAppName('test-pyspark')
    sc = SparkContext(conf=conf)

    file_path = './0txt/goodnight.txt'
    lines = sc.textFile(file_path)
    words = lines.flatMap(lambda line: line.split(' '))

    word_one = words.map(lambda x: (x, 1))
    res = word_one.reduceByKey(lambda a, b:a+b)
    print(res.collect())

 SparkContext对象的构建以及 Spark程序的退出, 由 Driver 负责执行

 具体的数据处理步骤, 由Executor在执行.

 非数据处理的部分由Driver工作  数据处理的部分(干活)由Executor工作

python on spark

RDD理论

不能简单的通过Python内置的本地集合对象(如 List\ 字典等)去完成分布式计算，需要一个统一的数据抽象对象RDD:

分区控制
Shuffle控制
数据存储\序列化\发送
数据计算API

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。

Resilient：RDD中的数据可以存储在内存中或者磁盘中。

Distributed：RDD中的数据是分布式存储的，可用于分布式计算。

Dataset：一个数据集合，用于存放数据的。

五大特性图

1、分区

2、对逻辑RDD计算应用到每个物理分区

3、RDD有相互依赖关系

4、KV型的RDD可以有分区器

这个特性不是总是存在，因为不是所有RDD都是KV型

# KV型RDD:RDD内存储的是二元元组

默认是Hash分区，之后也可以使用rdd.partitionBy设置分区器，设置一个RDD内谁和谁一个分区

5、分区规划尽量靠近数据所在地

在初始RDD读取数据时，分区会尽量规划到数据所在服务器上，前提是并行！要是没法并行，宁可不靠近数据所在地

RDD数据是过程数据

当一个rdd转化之后，这个rdd就不存在了，为后续计算腾出空间

如果存在

那么rdd4出现之后rdd3就没有了，rdd5用的rdd3是由于血缘关系，从rdd1重新构建生成的

RDD缓存

可以将指定的rdd留在内存or硬盘上，使其可以重复利用

缓存有丢失的风险（断电、清理内存给计算、硬盘炸了），所以缓存也会保留rdd之间的血缘关系，一旦缓存流失就又根据血缘关系计算rdd

CheckPoint

仅支持硬盘存储，被认为是安全的，所以没保留血缘关系

RDD编程

Spark RDD 编程的程序入口对象是SparkContext对象(不论何种编程语言) 只有构建出SparkContext, 基于它才能执行后续的API调用和计算，本质上, SparkContext对编程来说主要功能就是创建第一个RDD

RDD创建

通过并行化集合创建 ( 本地对象转分布式RDD )
读取外部数据源 ( 读取文件 )

    conf = SparkConf().setMaster('local[*]').setAppName('create')
    sc = SparkContext(conf=conf)

    # rdd = sc.parallelize([1,2,3,4,5,6,7,8,9])
    # print(rdd.getNumPartitions()) 默认分区数是16

    rdd = sc.parallelize(c=[1, 2, 3, 4, 5, 6, 7, 8, 9], numSlices=3)
    print(rdd.collect())  # collect方法是吧RDD中每个分区数据都发送到Driver中，形成一个List对象，分布式->本地

    # 参数2不是绝对，有时候不会按照参数来
    rdd2 = sc.textFile(name='../0txt/goodnight.txt', minPartitions=10)
    print(rdd2.collect())

读小文件API：wholeTextFile(路径，最小分区)

RDD算子

就是函数、方法，作用于分布式集合上就叫做算子

--------转换算子--------

RDD -> RDD，lazy加载，没有遇到Action之前，这些转换算子不工作（装炸弹）

map（func）

最基础的，不解除嵌套

rdd.map(lambda x: x*10)

flatMap

进行map后，解除嵌套后在进行map

reduceByKey

针对KV型，按照K进行分组，然后根据聚合逻辑对V进行聚合

rdd.reduceByKey(lambda a, b: a+b)，只需要两个值，依次两两聚合

mapValues

针对二元元组RDD，对其内部的Value进行map操作

    rdd = sc.parallelize([('a', 1), ('a', 3), ('c', 5), ('b', 3), ('a', 4)])
    print(rdd.mapValues(lambda x: x * 10).collect())
    # [('a', 10), ('a', 30), ('c', 50), ('b', 30), ('a', 40)]

groupBy

不针对KV

    rdd = sc.parallelize([('a', 1), ('a', 3), ('c', 5), ('b', 3), ('a', 5)])
    print(rdd.groupBy(lambda x: x[0]).collect())
    # [('c', ), ('b', ), ('a', )]
    print(rdd.groupBy(lambda x: x[1]).collect())
    # [(1, ), (3, ), (5, )]
    # 通过list(V)转化为可视对象
    print(rdd.groupBy(lambda x: x[0]).mapValues(lambda x: list(x)).collect())
    print(rdd.groupBy(lambda x: x[1]).mapValues(lambda x: list(x)).collect())
    # [('c', [('c', 5)]), ('b', [('b', 3)]), ('a', [('a', 1), ('a', 3), ('a', 5)])]
    # [(1, [('a', 1)]), (3, [('a', 3), ('b', 3)]), (5, [('c', 5), ('a', 5)])]

groupByKey

针对KV数据

自动按照Key分组

    rdd = sc.parallelize([('a', 1), ('a', 3), ('c', 5), ('b', 3), ('a', 5)])
    print(rdd.groupByKey().mapValues(lambda x: list(x)).collect())
    # [('c', [5]), ('b', [3]), ('a', [1, 3, 5])]

等于rdd.groupBy(lambda x: x[0].mapValues(lambda x: [v for k, v in x]).collect(filter)

filter

    rdd = sc.parallelize([('a', 1), ('a', 2), ('c', 5), ('b', 3), ('a', 4)])
    print(rdd.filter(lambda x: x[1] % 2 == 1).collect())
    # [('a', 1), ('c', 5), ('b', 3)]

distinct

去重，二元组等，对整体去重

union

    rdd1 = sc.parallelize([1,3,4,6])
    rdd2 = sc.parallelize(['a', 'f', 'c'])
    print(rdd1.union(rdd2).collect())
    # [1, 3, 4, 6, 'a', 'f', 'c']

join、leftOutJoin、rightOutJoin

针对二元元组，全连接，左外连接，右外连接，有手就行

intersection

求两个RDD交集，返回一个新的RDD

rdd.intersection(rdd2)

glom按分区加嵌套

    rdd1 = sc.parallelize([1,3,4,6,6,2,3,5], numSlices=3)
    print(rdd1.glom().collect())
    # [[1, 3], [4, 6], [6, 2, 3, 5]]

sortBy(fun, ascending, numPartitions)

fun:指定排序目标

ascend：true升序

分区数多了可能不会全局有序，需要把分区设置为1

    rdd.sortBy(lambda x:x[1], ascending=False, numPartitions=2)

sortByKey

针对KV，按照key进行排序

按照key的所有转化为小写字符排序，不影响真实的大小写，仅在排序时临时全部转换为小写

    rdd.sortByKey(ascending=True, numPartitions=2, keyfunc=lambda x: str(x).lower())

案例

从订单json中取出地区和对应的商品

{"id":27,"timestamp":"2019-05-08T01:03.00Z","category":"服饰","areaName":"杭州","money":"5600"}|{"id":28,"timestamp":"2019-05-08T01:01.00Z","category":"食品","areaName":"北京","money":"8000"}|{"id":29,"timestamp":"2019-05-08T02:03.00Z","category":"服饰","areaName":"杭州","money":"7000"}

    data = sc.textFile('../data/order.text')
    data = data.flatMap(lambda line: line.split('|'))

    dic = data.map(lambda x: json.loads(x))

    # print(dic.collect())
    # {'id': 1, 'timestamp': '2019-05-08T01:03.00Z', 'category': '平板电脑', 'areaName': '北京', 'money': '1450'}

    beijing_rdd = dic.filter(lambda x: x['areaName']=='北京')
    rdd = beijing_rdd.map(lambda x: x['areaName']+':'+x['category']).distinct()
    print(rdd.collect())
    # ['北京:平板电脑', '北京:手机', '北京:家电', '北京:电脑', '北京:家具', '北京:书籍', '北京:食品', '北京:服饰']

--------行动算子--------

返回值不是RDD（点火）

countByKey

    rdd = sc.textFile('../0txt/goodnight.txt').flatMap(lambda x: x.split(' ')).map(lambda x: (x,1))
    rdd2 = rdd.countByKey()
    print(rdd2)
    print(type(rdd2))
    #

★collect

reduce

rdd.reduce(func)，对RDD按照逻辑聚合，传入2个参数，返回1个，依次向后聚合

（reduceByKey是对KV，按照Key，对V聚合）

rdd.reduce(lambda a, b: a+b)

fold

和reduce逻辑一样，但聚合带有初始值

    rdd = sc.parallelize(range(1, 10), numSlices=3)
    print(rdd.glom().collect())
    print(rdd.fold(zeroValue=10, op=lambda a, b: a+b))
    # [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
    # 85

first

取出RDD的第一个元素

take(n)

取出前n个元素，并组成list

top(n)

对rdd降序排序，取前n个

takeOrdered

对rdd自定义排序，取前n个

底层一直都是升序排序的，但是参数2可以对数据临时更改后排序，排序后输出不改变原来的数据，如下对数据降序排序

    rdd.takeOrdered(3, key=lambda x: -x)

count.

返回RDD中有几条数据

takeSample

随机抽样rdd数据

takeSample(T/F, 个数，种子)

假随机！

rdd = sc.textFile('../0txt/goodnight.txt').flatMap(lambda x: x.split(' '))
print(rdd.takeSample(withReplacement=False, num=5, seed=3))
# ['Their', 'wise', 'last', 'not', 'that']
print(rdd.takeSample(withReplacement=False, num=5, seed=3))
# ['Their', 'wise', 'last', 'not', 'that']
print(rdd.takeSample(withReplacement=False, num=5, seed=5))
# ['night.', 'Do', 'dying', 'that', 'the']

foreach

rdd.foreach(func)对每个元素都进行逻辑操作，和map一样，但是没有返回值

    rdd = sc.parallelize([5,6,9,4,2,6,6])
    print(rdd.foreach(lambda x: print('pri', x)))

collect是统一汇集到driver，在进行统一输出；而这个方法是每个rdd用自己资源输出

saveAsTextFile

rdd有几个分区，就save几个文件

foreach和saveAsTextFile绕过Driver直接使用Executor执行

--------分区操作算子--------

mapPartitions

和map功能一样

map 是一对一的元素映射操作，适用于每个元素都可以独立处理的情况。

mapPartitions 是一对一或一对多的分区级别操作，适用于需要在分区级别上执行处理的情况，可以提高性能，但需要谨慎使用。

foreachPartition

还是以分区为单位

partitionBy

对rdd进行自定义分区

参数1：新分区数

参数2：规则函数

repartition

仅对rdd分区数量重新设置

groupByKey与reduceByKey

广播变量

提出问题

此解决方法中，每个rdd分区的map函数都分配了一个同样的表，造成了内存浪费

解决问题

提出广播变量，对每个Executor只给一份相同的数据，让里面的rdd共用

广播变量（Broadcast Variables）是分布式计算框架中的一种机制，用于在集群中高效地向所有工作节点广播一个较大的只读变量，以便在任务之间共享数据。广播变量的主要目的是减少网络传输和提高任务执行的性能。

广播变量有以下主要特点：

只读性质： 广播变量是只读的，一旦创建就不能被修改。这确保了所有工作节点都能访问到相同的数据，而不会发生竞态条件。

分布式共享： 广播变量允许将一个变量的值广播到整个集群中的各个节点，而不是将数据复制到每个节点。这大大减少了数据传输的开销，特别是对于大型数据集。

高效性能： 由于广播变量是只读的，它们通常存储在每个工作节点的内存中，因此可以高效地被多个任务共享，而无需多次传输相同的数据。

广播变量通常用于以下情况：

共享配置信息： 例如，将连接数据库的配置信息广播给所有任务，以避免每个任务都去读取相同的配置文件或从中心位置获取配置信息。

共享大型参考数据集： 如果任务需要访问一个较大的只读数据集，例如机器学习模型的参数或字典，可以将这些数据广播到所有任务，以避免在每个任务中重复加载或传输这些数据。

在Apache Spark等分布式计算框架中，广播变量通常通过API来创建和使用。通过广播变量，可以提高性能并减少数据传输的成本，特别是在涉及大量节点和大型数据时。

标记了一处广播变量

    stu_list = [1, 2, 3, 4]
    broadcast = sc.broadcast(stu_list)
    print(broadcast)  # 
    value = broadcast.value
    print(value)  # [1, 2, 3, 4]

累加器

提出问题

解决问题

    # TODO
    rdd = sc.parallelize(range(1, 11),2)
    accumulator = sc.accumulator(0)

    def func(data):
        global accumulator
        accumulator += data
        print(accumulator)

    rdd.map(func).collect()
    print(accumulator)

Q：为啥有个global accumulator？

A：在您的代码中，func 函数内定义的 global accumulator 的作用是使该变量在函数内部可修改，并且该变量与在函数外部定义的同名变量（即全局作用域中的 accumulator）引用的是相同的对象。这允许您在函数内部修改全局作用域中的 accumulator 变量，而不会创建一个新的局部变量。

注意事项

可以在rdd2进行collect之前进行cache or checkpoint

内核调度（面试，概念）

DAG 有向无环图

根据RDD的依赖关系构建DAG，基于DAG划分Stage，将每个Stage中的任务发到指定节点运行。

一个代码运行起来就叫一个Application，一个Application有多个job，一个job内含有一个DAG，一个Action产生一个Job

宽窄依赖

窄依赖：一个父rdd把数据发送给一个子rdd

宽依赖：一个父rdd把数据发送给多个子rdd（shuffle）

在Stage内部一定都是窄依赖，遇到一个宽依赖就划分一个Stage

内存迭代计算

设置并行度

优先级：代码 > 任务提交参数 > 配置文件 > 默认1（或基于文件分片数）

conf = SparkConf().set('spark.default.parallelism', '100')

Spark运行各个概念—人话理解

Task在Executor上，一个Executor上有多个Task，一个Executor的Task可以相互通信，而不同Executor之间的Task需要走网络通信（包括本地回环网络）

16核 CPU 意味着系统上有 16 个物理核心可用于并行执行任务。一个服务器上设置16个并行度刚好可以一个服务器不进行本地网络传输，少了存在Executor的闲置，多了增加本地传输

本地变量在Driver上，sc创造的rdd在Executor上

Executor 在物理上是计算资源的一部分，通常包括内存、CPU 核心和磁盘空间等组件。

一个Action产生一个Job，每个Job有自己的DAG，一个DAG会根据宽窄依赖划分为不同Stage，不同Stage内根据分区数，形成内存并行迭代管道，每个管道形成一个Task

===== SparkSQL =====

贬低Hive，吹SQL

SparkSession

SparkSession 是 Apache Spark 2.x 版本以及更高版本中引入的，它是一个更高级别的入口点，用于与 Spark 进行交互。它封装了以前在 SparkContext 中进行的功能，并提供了更多的功能，包括对 DataFrame 和 Dataset API 的支持。SparkSession 具有创建 DataFrames、执行 SQL 查询、配置 Spark 应用程序以及连接各种数据源等功能。

模板

if __name__ == '__main__':
    ss = SparkSession.builder.appName('create').master('local[*]').getOrCreate()
    sc = ss.sparkContext

    path = '../0txt/input/stu_score.txt'
    df1 = ss.read.csv(path, sep=',', header=False)
    df2 = df1.toDF('id', 'name', 'score')
    df2.printSchema()
    # root
    #  |-- id: string (nullable = true)
    #  |-- name: string (nullable = true)
    #  |-- score: string (nullable = true)
    
    # 1
    df2.createTempView('name_score')
    ss.sql("""
    SELECT * FROM name_score where score=98 LIMIT 10
    """).show()
    # 2
    df2.where('score=98').limit(10).show()

    ss.stop()

DataFrame

基于这个前提，DataFrame的组成如下：

在结构层面：

- StructType对象描述整个DataFrame的表结构

- StructField对象描述一个列的信息

在数据层面

- Row对象记录一行数据

- Column对象记录一列数据并包含列的信息

创建DataFrame

rdd -> df

    path = '../0txt/input/stu_score.txt'
    # TODO
    # rdd -> df
    rdd = sc.textFile(path)\
        .map(lambda x: x.split(','))\
        .map(lambda x: (x[0], x[1], int(x[2])))

    df = ss.createDataFrame(rdd, schema=['id', 'name', 'score'])
    df.printSchema()  # print表结构
    df.show(5, False)  # 1:显示几条，default 20， 2：数据太长截断

structType

    schema = StructType()\
        .add('id', IntegerType(), nullable=False)\
        .add('name', StringType(), nullable=True)\
        .add('score', IntegerType(), nullable=True)
    df2 = ss.createDataFrame(data=rdd, schema=schema)

toDF

    df3 = rdd.toDF(schema=['id', 'name', 'score'])
    df3_1 = rdd.toDF(schema=schema)

Pandas

统一API进行数据读取

    ss.read.format('text|csv|json|parquet|orc|avro|jdbc')\
        [.option(key='K', value='V')\]
        .schema(schema=schema)\
        .load(path=path)

DSL

df.where().limit()

groupBy 按照指定的列进行数据的分组，返回值是GroupedData对象

SparkSQL shuffle

在SparkSQL中Job产生Shuffle时，默认分区数spark.sql.shuffle.partitions=200，local模式下最好降低

数据清洗（去重，缺失值）

dropDuplicates去重

    # df2.dropDuplicates().show()
    df2.dropDuplicates(['name', 'score']).show() # 仅考虑这2列相同
    df2.dropDuplicates(['name']).show() # 仅考虑这name列相同

dropna删缺失值

fillna填充缺失值

保存

UDF函数

ss.udf.register() 可以用于DSL和SQL
pyspark.sql.functions.udf 仅能使用DSL

    df2 = df1.toDF('id', 'name ', 'score')


    def score_10(score):
        return int(score) - 10
    # 1 ss
    udf1 = ss.udf.register(name='func1', f=score_10, returnType=IntegerType())
    # SQL
    df2.selectExpr('func1(score)').show()
    # DSL
    df2.select(udf1(df2['score']))
    
    # 2 F
    udf2 = F.udf(f=score_10, returnType=IntegerType())
    # DSL
    df2.select(udf2(df2['score']))

遇到很多小问题的案例

    path = '../0txt/input/stu_score.txt'
    # df1 = ss.read.csv(path, sep=',', header=False)
    df1 = sc.textFile(path).map(lambda x: [str(x)])
    schema = StructType().add('line', StringType())
    # df2 = ss.createDataFrame(data=df1, schema=schema)
    df2 = df1.toDF(schema=['line'])


    def spl(line):
        return line.split(',')

    udf1 = ss.udf.register(name='func1', f=spl, returnType=ArrayType(StringType()))

    df2.select(udf1(df2['line'])).show()

returnType可以使用StructType()自定义

窗口函数

    df2.createTempView('name_score')
    ss.sql("""
        SELECT *, AVG(score) OVER() as avg_score FROM name_score 
        """).show()

    ss.sql("""
        SELECT *, ROW_NUMBER() OVER(ORDER BY score DESC) as ord  FROM name_score WHERE name="语文"
        """).show()

运行流程

rdd执行流程：

RDD的运行会完全按照开发者的代码执行，如果开发者水平有限，RDD的执行效率也会受到影响。

而SparkSQL会对写完的代码，执行“自动优化”，以提升代码运行效率，避免开发者水平影响到代码执行效率。

Catalyst优化器

为了解决过多依赖Hive的问题，SparkSQL使用了一个新的SQL优化器替代Hive中的优化器，这个优化器就是Catalyst,整个 SparkSQL的架构大致如下：

谓词下推(Predicate Pushdown)\断言下推：将逻辑判断提前到前面，以减少shuffle阶段的数据量（行过滤，提前执行where）

列值裁剪(Column Pruning):将加载的列进行裁剪，尽量减少被处理数据的宽度（列过滤，提前规划select的字段数量）

列值裁剪，有一种非常合适的存储系统：parquet

===== Spark on Hive =====

Shuffle

Spark 提供2种Shuffle管理器:

• HashShuffleManager

• SortShuffleManager

同普通机制基本类同, 区别在于, 写入磁盘临时文件的时候不会在内存中进行排序而是直接写, 最终合并为一个task一个最终文件所以和普通模式IDE区别在于: 第一，磁盘写机制不同; 第二，不会进行排序。也就是说，启用该机制的最大好处在于， shuffle write过程中，不需要进行数据的排序操作，也就节省掉了这部分的性能开销

SortShuffle对比HashShuffle可以减少很多的磁盘文件,以节省网络IO的开销

SortShuffle主要是对磁盘文件进行合并来进行文件数量的减少, 同时两类Shuffle都需要经过内存缓冲区溢写磁盘的场景. 所以可以得知, 尽管Spark是内存迭代计算框架, 但是内存迭代主要在窄依赖中. 在宽依赖(Shuffle)中磁盘交互还是一个无可避免的情况. 所以, 我们要尽量减少Shuffle的出现, 不要进行无意义的Shuffle计算.

你可能感兴趣的:(spark,大数据,分布式)

分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
web3中的ipfs 财神爷首席大弟子 web3 去中心化区块链
什么是web3：是基于区块链技术的分布式网络，主要目标是建立一个去中心化与信任化的互联网去中心化以及是信任化区块链：将所有的交易记录和什么护具存储在分布式网络中，每一个node都有完整的数据副本任何一个node修改都需要得到其他节点的认可，确保数据的真实性和和可信度web3有一些关键技术和标准，例如以太坊，IPFS，ENS，ERC标准等以太坊：以太币是一个开源的有智能合约功能的公共区块链平台，通过
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【赵渝强老师】基于PostgreSQL的分布式数据库：Citus
由于PostgreSQL具有强大的功能和良好的可扩展性，因此基于PostgreSQL很容易就可以实现分布式架构。Citus便是具体的一种实现方式。它以扩展的插件形式与PostgreSQL进行集成，且独立于PostgreSQL内核，部署也比较简单。Citus是现在非常流行的基于PostgreSQL的分布式解决方案。一、Citus基础下面是百度百科中对分布式数据库的定义：分布式数据库系统通常使用较小的
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
使用HarmonyOS 5和CodeGenie辅助工具开发鸿蒙运动健康类应用的项目总结哼唧唧_ CodeGenie 运动健康 Harmony OS5 harmonyos 华为
一、项目背景与目标随着鸿蒙生态在穿戴设备、智能家居领域的快速扩展，我团队基于HarmonyOS5操作系统，开发了一款面向运动健康场景的智能应用——“Harmony健康伴侣”。项目采用华为官方推出的智能编程助手CodeGenie进行辅助开发，旨在验证CodeGenie在提升鸿蒙应用开发效率与质量方面的实际效果。二、核心功能实现该应用深度融合HarmonyOS分布式能力，支持跨设备无缝协同，主要功能包
万物智联时代启航：鸿蒙OS重塑全场景开发新生态黑巧克力可减脂鸿蒙开发鸿蒙系统
目录HarmonyOS简介：分布式操作系统，开启万物智联新时代HarmonyOS发展历程：从破局到引领核心特性：分布式技术三支柱应用场景：全场景覆盖的鸿蒙生态什么选择鸿蒙开发？技术红利与市场蓝海结语：拥抱鸿蒙，赢在万物智联起点HarmonyOS简介：分布式操作系统，开启万物智联新时代什么是鸿蒙？HarmonyOS（鸿蒙操作系统）是华为自主研发的面向全场景的分布式操作系统，其核心使命是打破设备孤岛，
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
redis锁java实现 brave_zhao redis java 数据库
以下是几种常见的Redis分布式锁的Java实现方式：1.基于SETNX命令的实现SETNX命令（对应Java中的setIfAbsent方法）是实现Redis分布式锁的基础。以下是实现代码：importredis.clients.jedis.Jedis;publicclassRedisLock{privateJedisjedis;publicRedisLock(Jedisjedis){this.j
服务实现99.99%高可用的核心措施
在分布式系统中，高可用性（HA）是衡量服务可靠性的核心指标。99.99%的可用性意味着系统每年的停机时间不超过约52.6分钟，这对金融交易、电信服务等关键业务至关重要。一、冗余设计与故障转移原理：通过冗余部署消除单点故障，确保部分节点故障时服务仍可用。故障转移机制自动将流量切换至健康节点，缩短服务中断时间。Java服务实现：集群部署：使用SpringCloudAlibaba或Dubbo构建微服务集
分布式事务解决方案总结：本地消息异步确认、可靠消息最终一致性、最大努力通知码到三十五面试攻关分布式 spring cloud spring boot
❃博主首页：「码到三十五」，同名公众号:「码到三十五」☠博主专栏：♝博主的话：搬的每块砖，皆为峰峦之基；公众号搜索「码到三十五」关注这个爱发技术干货的coder，一起筑基分布式系统中事务是一个重要挑战，先从从实现原理、技术细节、适用场景三个维度，对三种主流分布式事务解决方案进行简单总结。一、本地消息异步确认方案实现原理该方案通过「本地事务+消息表」机制实现最终一致性，核心思想是将业务操作与消息发送
SkyWalking实现微服务链路追踪的埋点方案 MenzilBiz 服务器运维微服务 skywalking
SkyWalking实现微服务链路追踪的埋点方案一、SkyWalking简介SkyWalking是一款开源的APM(应用性能监控)系统，特别为微服务、云原生架构和容器化(Docker/Kubernetes)应用而设计。它主要功能包括分布式追踪、服务网格遥测分析、指标聚合和可视化等。SkyWalking支持多种语言（Java、Go、Python等）和协议（HTTP、gRPC等），能够提供端到端的调用
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb