千里草竹

Spark SQL

楔子

SparkSQL ,基于Spark 2.版本

Spark 相关内容

以下内容是从相关书籍中，阅读Spark部分笔记

企业大数据处理Spark、Druid、Flume、Kafka应用实践

2 Spark详解

Spark是开源的分布式大规模数据处理通用引擎，具有高吞吐、低延迟、通用易扩展、高容错等特点。Spark内部提供了丰富的开发库，集成了数据分析引擎Spark SQL、图计算框架GraphX、机器学习库MLlib、流计算引擎Spark Streaming。Spark在函数式编程语言Scala中实现，提供了丰富的开发API，支持Scala、Java、Python、R等多种语言。同时Saprk还提供了多种运行模式，即可以采用独立部署的方式运行，也可以依托Hadoop YARN等资源管理器任务调度。

2.1.1 Spark概述

1 核心概念介绍

Client ：客户端进程，负责提交作业。
Driver：一个Spark作业有一个Spark Context，一个SparkContext对应一个Driver进程，作业的main函数运行在Driver中，Driver主要负责Spark作业的解析，以及通过DAGScheduler划分Stage，将Stage转化为TaskSet提交给TaskScheduler任务调度器，进而调度Task到Ececutor上执行。
Executor：负责执行Driver分发的Task任务。集群中一个节点可以启动多个Executor，每个Executor可以执行多个Task任务
Catche：Spark提供了对RDD不同的缓存策略，分别可以缓存到内存、磁盘、外部分布式内存存储系统等Rachyon等。
Application：提交的一个任务就是Application，一个Application只有一个SparkContext。
JOB：RDD执行一次Action操作就会生成一个Job
Task：Spark运行的基本单位，负责处理RDD计算逻辑
Stage：DAGScheduler将JOB任务分为多个Stage，Stage的划分界限为Shuffle的产生，Shuffle标志着一个Stage的介绍和下一个Stage的开始。
RDD：弹性分布式数据集，可以理解为一种只读的分布式多分区的数组，Spark计算操作都是基于RDD进行的，
DAG：有向无环图。

2 RDD介绍

RDD可以认为是一种分布式多分区只读的数组，Spark计算操作都是基于RDD进行的，RDD具有几个特性：只读、多分区、可以将HDFS块文件转为RDD，也可以由一个或多个RDD转化成新的RDD，失效自动构建。基于这些特性，RDD在分布式环境下能够高效地并行处理。

(1) 计算类型

在Spark中RDD提供了Transformation和Action两种计算类型。Transformation操作非常丰富，采用延迟执行的方式，在逻辑上定义了RDD的依赖关系和计算逻辑，但并不会真正触发执行动作，只有等到Action操作才会真正执行操作，Action操作常用于最终结果输出。

常用Transformation操作如下

函数名	描述
map(func)	接收一个处理函数并行处理源RDD中的每个元素，返回与源RDD元素一一对象的新RDD
filter(func)	并行处理源RDD中的每个元素，接收一个处理函数，并根据定义的规则对RDD中的每个元素进行过滤处理，返回结果为true的元素重新组成新的RDD
flatMap(func)	flatMap是map和flatten的组合操作，与map函数相似，不过map函数返回新RDD包含元素可能是嵌套类型，flatMAP接收一个处理嵌套会将嵌套类型的元素展开映射成多个元素组成新的RDD
mapPartitions(func)	与map函数应用于RDD中每个元素不同，mapPartitions应用于RDD中的每个分区。mapPartitions函数接收的参数为func函数，func接收参数为每个分区的迭代器，返回值为每个分区处理之后组成新的迭代器，func会作用于分区中的每个元素，有一个典型的场景，比如待处理分区中的数据需要写入到数据库，如果使用map函数，每个元素都是创建一个数据库连接对象，非常耗时并且容易引起问题发生，如果使用mapPartitions函数只会在分区中创建一个数据库连接对象，性能提高明显
mapPartitionsWithIndex(func)	作用于mapPartitions函数相同，只是接受的参数func函数需要传入两个参数，分区的索引作为第一个参数传入，按照分区的索引对分区元素进行处理
union(otherDataset)	将两个RDD合并，返回结果为RDD元素(不去重)
intersection(otherDataset)	将两个RDD进行交集运算，返回为无重复的RDD
groupByKey(numTasks)	在KV类型的RDD中按key分组，将相同的元素聚集到同一个分区，次函数不能接受函数作为参数，值接受一个可选参数任务书，所以不能再RDD分区本地进行聚合计算，如需按Key对value聚合计算，只能对groupByKey返回的新RDD继续使用其他函数运算
reduceByKey(func,[numTasks])	对KV类型的RDD按key分组，接受两个参数，第一个参数为处理函数，第二个参数可选参数设置reduce的任务数。reduceByKey函数能够在RDD
sortByKey([assending],[numTasks])	对KV类型的RDD内部元素安装KEY进行排序
join(otherDataset,[numTasks])	对KV类型的RDD进行关联，只能是两个RDD之间关联，超过两个RDD关联需要使用多次join函数，join函数只会关联出具有相同key的元素，相当于SQL语句中的inner join

常用的Action操作

函数名	描述
reduce(func)	处理RDD中两两之间元素的聚集操作
collect()	返回RDD中所有数据元素
count()	返回RDD中元素的个数
first()	返回第一个RDD中的元素
take(n)	返回RDD中的钱n个元素
saveAsTextFile(path)	将RDD写入文本文件，保存至本地文件系统或者HDFS中
countByKey()	返回KV类型的RDD每个Key包含的元素个数
foreach(func)	遍历RDD中所有元素，接收参数为func函数
saveAsSequenceFile(path)	将KV类型的RDD写入SequenceFile文件，保存至本地文件系统或者HDFS中

(2) 缓存

在Spark 中RDD 可以缓存到内存或者磁盘上，提供缓存的主要目的是减少同一数据集被多次使用的网络传输次数，提高Spark的计算性能。Spark提供对RDD的多种缓存级别，可以满足不同场景的RDD使用需求，RDD缓存具有容错性，如果分区丢失，可以通过系统自动重新计算。

代码中使用cache或者persist(StorageLevel.DISK_ONLY())来缓存

使用unpersist()取消缓存

3 运行模式

Spark运行模式主要是以下几种：

1 local模式：本地采用多线程的方式执行，主要用于开发测试
2 On Yarn 模式：Spark On Yarn 两种模式分别是 yarn-client和yarn-cluster模式。yarn-clinet模式中，Driver运行在客户端，其作业运行日志在客户端查看，适合返回小数据量结果交互式常见使用。yarn-cluster模式中，Driver运行在集群中某个节点，节点选择有YARN调度，作业日志通过yarn管理名称查看，也可以在yarn的web ui中查看。适合大数据量非交互式场景使用。

2.2 Spark SQL

Spark SQL是spark的重要组成模块，也是大数据生成环境中最广泛的技术之一，主要用于结构化数据处理。Spark SQL的API设计简洁高效，使用简单方便，可用与hive表直接进行交互，并支持JDBC/ODBC连接，Spark 先后引入了DataFrame和DataSet两种数据结构，一遍更加高效地处理各种数据。

2.2.1 SparkSession

Spark2.0引入SparkSession，用于Spark SQL开发过程中初始化上下文，用户提供统一的入口。用户可以通过SparkSession API直接创建DataFrame的DataSet。Spark2.0之前版本初始化上下文需要创建SparkContext、SQLContext、HiveContext、SparkConf。从2.0版本之后不需要之前复杂的操作，所有运行时参数设置、获取都可以通过conf方法实现。conf方法返回RuntimeConfig对象，RuntimeConfig对象包括Spark、Hadoop等运行时的配置信息。

/**
 * 2.0版本创建sparkSession
 */
public static void buildSparkSession() {
     
	SparkSession sparkSession = SparkSession.builder().appName("MyLocal").master("local")
	.config("key", "value").getOrCreate();
}

支持hive的SparkSession

/**
 * 2.0版本创建支持hive的sparkSession
 */
public static void buildSparkSessionEnableHive() {
     
	SparkSession sparkSession = SparkSession.builder().appName("MyLocal").master("local").config("key", "value").enableHiveSupport().getOrCreate();
}

如果环境中已经创建过SparkSession ,可以使用如下方法获取已经存在的SparkSession

SparkSession.builder().getOrCreate()

/**
 * 2.0版本创建支持hive的sparkSession
 */
public static SparkSession buildSparkSessionEnableHive() {
     
	SparkSession sparkSession = SparkSession.builder().appName("MyLocal").master("local").config("key", "value").enableHiveSupport().getOrCreate();
	return sparkSession;
}

public static void main(String[] args) {
     
	SparkSession sparkSession = buildSparkSessionEnableHive();
	RuntimeConfig runtimeConfig = sparkSession.conf();
	Map<String, String> confAll = runtimeConfig.getAll();
	System.out.println(confAll);
	/**
	 * 

	 * spark.driver.host -> 169.254.86.190
 

	 * spark.driver.port -> 59254
 

	 * hive.metastore.warehouse.dir ->
	 * file:/E:/lun/work/hd/spark-warehouse/
 

	 * spark.app.name -> MyLocal
 

	 * key -> value
 

	 * spark.executor.id -> driver
 

	 * spark.master -> local
 

	 * spark.app.id -> local-1542467177838

	 */
}

从代码中看出SparkSession没有显示地创建SparkContext、SQLcontext、SparkConf对象，因为SparkSession内部进行了封装，对用户完全透明。SparkSession提供了对hive大部分功能的内置支持，包括hiveSQL查询、使用自定义的UDF函数、读取表元素等。

2.2.2 DatFrame

Spark1.3版本。用户使用SparkSQL时需要直接操作RDD API，学习成本相对较高，代码结构相对复杂，为了提高任务执行性能。需要调优。Spark1.3版本引入DataFrame，DataFrame是一种带有Schema元信息的分布式数据集，类似于传统数据库的二维表，定义有字段名称和类型，用户可以像操作数据库表一样使用DataFrame。DataFrame的开发API简洁高效、代码结构清晰，并且Spark针对DataFrame的操作进行了丰富的优化。DataFrame支持Java、Python、Scala等多种开发语言。

1 创建DataFrame

SparkSession可以通过RDD转换、读取Hive表、读取不同格式(TXT,JSON,Parquet)文件数据、通过JDBC连接数据库表等方式创建DataFrame

1)通过读取指定路径文件创建DataFrame，SparkSession支持读取多种文件格式

/**
 * 读取 json
 */
public static void readJson() throws IOException {
     
	String path = Resources.getResourceAsFile("json/person.json").getAbsolutePath();
	SparkSession sparkSession = buildSparkSession();
	//此处我使用本地文件，hdfs是hdfs://ip/data.json
	Dataset<Row> json = sparkSession.read().json(path);
	System.out.println(json.collectAsList());
}
/**
 * 2.0版本创建sparkSession
 */
public static SparkSession buildSparkSession() {
     
	SparkSession sparkSession = SparkSession.builder().appName("MyLocal").master("local").config("key", "value").getOrCreate();
	return sparkSession;
}

读取csv文件

/**
 * CSV文件
 * 
 * @throws IOException
 */
public static void readCsv() throws IOException {
     
	String path = Resources.getResourceAsFile("csv/per.csv").getAbsolutePath();
	SparkSession sparkSession = buildSparkSession();
	// 此处我使用本地文件，hdfs是hdfs://ip/data.json
	// TODO 这两种加载方法效果一样
	// Dataset load = sparkSession.read().json(path);
	Dataset<Row> load = sparkSession.read().format("csv").load(path);
	System.out.println(load.collectAsList());
	// [[grq,25,��], [lfeng,25,��]]
}

通过RDD转化成DataFrame,需要引入spark.implicits包进行隐士转换

3)通过JDBC连接数据库，将数据转换成DataFrame


/**
 * JDBC连接数据库，将数据库表转换为DataFrame
 */
public static void loadFormMySQL() {
     
	SparkSession sparkSession = buildSparkSession();
	Dataset<Row> load = sparkSession.read().format("jdbc")// JDBC
			.option("url", "jdbc:mysql://localhost:3306/life").option("dbtable", "family")// 表名
			.option("user", "root")// 用户
			.option("password", "root").load();
	System.out.println(load.collectAsList());

}

/**
 * JDBC连接数据库，将数据库表转换为DataFrame
 */
public static void loadFormMySQL2() {
     
	Properties connprop = new Properties();
	connprop.put("user", "root");
	connprop.put("password", "root");
	SparkSession sparkSession = buildSparkSession();
	Dataset<Row> load = sparkSession.read().jdbc("jdbc:mysql://localhost:3306/life", // url
			"family",// tableName
			connprop);
	System.out.println(load.collectAsList());

}

2 DataFrame常用操作

DataFrame常用操作有3中：toDF、as、printSchema、show、createTempView、createOrReplaceTempView、createGlobalTempView

toDF函数

作为DataSet的一种特殊形式，函数的作用是将RDD转换为DataFrame
as函数

返回一个制定别名的新dataset
printSchema函数

打印DataFrame的Schema信息(打印字段信息)
show函数

默认以表格展现DataFrame数据集的前20行数据，字符串类型长度超过20个字符就会被截断。
createTempView函数和createOrReplaceTempView函数

创建临时视图，临时视图会随着创建该视图会话的终止自动删除，不会绑定到任何数据库
createGlobalTempView函数

创建全局临时视图，该视图的声明周期与Spark应用程序周期关联，随着Spark应用程序的终止而自动删除。它与系统保留的数据库“_global_temp”绑定，该视图的引入方式为“_global_temp.view”


/**
 * JDBC连接数据库，将数据库表转换为DataFrame
 */
public static void loadFormMySQL2() {
     
	Properties connprop = new Properties();
	connprop.put("user", "root");
	connprop.put("password", "root");
	SparkSession sparkSession = buildSparkSession();
	Dataset<Row> load = sparkSession.read().jdbc("jdbc:mysql://localhost:3306/life", // url
			"family",// tableName
			connprop);
	// 创建视图
	load.createOrReplaceTempView("fam");
	Dataset<Row> sql = sparkSession.sql("select name,id from fam where id >145");
	sql.show();
}

DataFrame持久化

Spark提供了DataFrame保存数据的多种方式，DataFrame 可以以不同文件格式输出到制定路劲，可以保存到hive表，还可以通过JDBC连接输出到数据库表中。DataFrame有4中保存模式。

SaveMode.Append:如果数据或目标表存在，数据会追加到原数据或目标表数据的后面
SaveMode.ErrorIfExists:如果输出数据或者目标表存在抛出异常
SaveMode.Ignore:如果数据或目标表存在，则不做任何操作，源数据不收任何影响
SaveMode.Overwrite:如果数据或目标表存在删除原数据，新数据覆盖原数据

/**
 * 数据持久化
 */
public static void saveData() {
     
	// 前面获取的数据
	Dataset<Row> dataset = loadFormMySQL2();
	// 给定的是文件夹
	dataset.write().mode(SaveMode.Overwrite).json("c:/1212");

	// 保存到数据库
	Properties connprop = new Properties();
	connprop.put("user", "root");
	connprop.put("password", "root");
	dataset.write().mode(SaveMode.Overwrite).jdbc("jdbc:mysql://localhost:3306/life", "family_bak", connprop);
}

2.2.3 DataSet

DataSet是一个特定域的强类型的不可变数据集，每个DataSet都有一个非类型化视图DataFrame(DataFrame是DataSet[Row]的一种表示形式)。DataFrame可以通过调用as函数转化为DataSet,而DataSet可以通过调用toDF函数转为DataFrame,两者之间可以灵活转换操作DataSet可以像操作RDD一样使用各种转换算子并行操作。

RDD 算子全面解析：从基础到进阶与面试要点天冬忘忧 Spark spark 大数据
Spark的介绍与搭建：从理论到实践_spark环境搭建-CSDN博客Spark的Standalone集群环境安装与测试-CSDN博客PySpark本地开发环境搭建与实践-CSDN博客Spark程序开发与提交：本地与集群模式全解析-CSDN博客SparkonYARN：Spark集群模式之Yarn模式的原理、搭建与实践-CSDN博客Spark中RDD的诞生：原理、操作与分区规则-CSDN博客Spar
anaconda中pyspark_自学大数据——9 Anaconda安装与使用pyspark 步六孤陆
首先从Anaconda官网上下载Anaconda。一、解压安装包sudobashAnaconda3-2020.07-Linux-x86_64.shchown-Rhadoop:hadoop/opt/anaconda/vi/etc/profileexportANACONDA_HOME=/opt/anacondaexportPATH=$PATH:$ANACONDA_HOME/bin:source/etc
PySpark数据处理过程简析 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介PySpark是ApacheSpark的PythonAPI，可以用Python进行分布式数据处理，它在内存中利用了ApacheHadoopYARN资源调度框架对数据进行并行处理。PySpark可以直接使用Hadoop文件系统、HDFS来存储数据，也可以通过S3、GCS、ADLS等云存储平台保存数据。因此，在不同的数据源之间移动数据时，只需要复制一次数据就可以完成
2022-02-09大数据学习日志——PySpark——Spark快速入门&Standalone集群王络不稳定 spark big data 大数据
第一部分Spark快速入门01_Spark快速入门【Anaconda软件安装】[掌握]使用Python编写Spark代码，首先需要安装Python语言包，此时安装Anaconda科学数据分析包。Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。Anaconda是跨平台的，有Windows、MacOS、Linux版本。#下载地址：ht
PySpark rainyrainbow 大数据hadoop
1.PySpark的搭建https://blog.csdn.net/qq_36330643/article/details/78429109PySpark是Spark为Python开发者提供的API，位于$SPARK_HOME/bin目录，其依赖于Py4J。在Pycharm中配置使用spark1.在Pycharm中新建python项目，解释器使用的是python3.4File=>Settings切
spark2如何集成到cdh里蘑菇丁经验 hadoop 大数据+机器学习+oracle
最近做性能测试需要spark2测试下和spark1.6性能有多大差别，官方文档里写着可以集成，但是自己怎么搞都不行，折磨了3天的时间，目前终于把spark2集成到集群里了我安装的是最新版本的下载spark2安装包wgethttp://archive.cloudera.com/beta/spark2/parcels/latest/SPARK2-2.0.0.cloudera.beta2-1.cdh5.
大数据之Spark运行流程「已注销」 Spark 大数据 spark hadoop
文章目录前言（一）SparkOnYarn集群的Client模式运行流程（二）SparkOnYarn集群的Cluster模式运行流程总结前言上篇文章有讨论到SparkOnYarn的两种部署模式，如果有不清楚的地方，可以再看看，附上对应文章的链接：Spark的部署模式，本篇文章主要讨论SparkOnYarn两种部署模式的运行流程。（一）SparkOnYarn集群的Client模式运行流程该模式的Dri
xgboost-spark-scala maokunnn DM xgboost spark scala
今天学习写scala，拿xgboost试一下～先记一下xgboost调参要点：7.xgboost中比较重要的参数介绍（1）objective[default=reg:linear]定义学习任务及相应的学习目标，可选的目标函数如下：“reg:linear”–线性回归。“reg:logistic”–逻辑回归。“binary:logistic”–二分类的逻辑回归问题，输出为概率。“binary:logi
大数据平台建设整体架构设计方案 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据AI人工智能大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《大数据平台建设整体架构设计方案》关键词：大数据平台、分布式存储、分布式计算、数据仓库、数据湖、数据安全、数据质量管理、数据治理、数据挖掘、机器学习、图计算、自然语言处理、Hadoop、Spark、Flink、项目规划、运维管理、最佳实践。摘要：本文将深入探讨大数据平台建设整体架构设计方案，从概述与核心概念、技术栈、建设实践、运维管理以及经验展望等多个方面进行详细阐述。通过梳理大数据平台的核心组成
Scala简介醉游江湖 scala
hadoop生态圈—>javaspark生态圈—>scala1.scala是面向对象的、面向函数的基于静态类型的编程语言。静态语言（强类型语言）静态语言是在编译时变量的数据类型即可确定的语言，多数静态类型语言要求在使用变量之前必须声明数据类型。例如：C++、Java、Delphi、C#,Scala等。scala编译后是字节码文件可以调用java源有的库动态语言（弱类型语言）动态语言是在运行时确定数
spark官方配置参数详解我丶怀念的 spark scala d s
以下是整理的Spark中的一些配置参数，官方文档请参考SparkConfiguration。Spark提供三个位置用来配置系统：Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志配置：可以通过log4j.properties配置Spark属性Spark属性
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明 BigDataMLApplication spark spark 大数据分布式
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明点击这里看全文文章目录添加其他JAR文件准备工作配置调试应用程序Spark属性重要说明KerberosYARN特定的Kerberos配置Kerberos故障排除配置外部Shuffle服务使用ApacheOozie启动应用程序使用Spark历史服务器替代SparkWebUI官网链接确保HADOOP_CONF_DIR或者YARN_C
xgboost在spark集群使用指南一颗小草333 算法 mapreduce spark 数据挖掘
简介XGBoost是一个优化的分布式梯度增强库，具有高效、灵活和可移植性。在梯度增强框架下实现了机器学习算法。XGBoost提供了一种并行树增强(也称为GBDT、GBM)，可以快速、准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop、SGE、MPI)上运行，可以解决数十亿个示例的训练问题。xgb相对于gbt所做的改进：1.2.3.XGBoost可以使用R、python、java
性能优化案例：通过合理设置spark.default.parallelism参数的值来优化PySpark程序的性能 weixin_30777913 大数据 spark python
在PySpark中，spark.default.parallelism是一个关键参数，直接影响作业的并行度和资源利用率。通过合理设置spark.default.parallelism并结合数据特征调整，可显著提升PySpark作业的并行效率和资源利用率。建议在开发和生产环境中进行多轮基准测试以确定最优值。以下是如何通过调整此参数优化性能的详细说明，结合案例和最佳实践：1.参数作用与问题场景参数意义
性能优化案例：通过合理设置spark.storage.memoryFraction参数的值来优化PySpark程序的性能 weixin_30777913 python 大数据 spark
优化PySpark程序的性能时，合理设置spark.storage.memoryFraction（或相关内存参数）是关键。合理设置spark.storage.memoryFraction需结合任务类型和内存使用监控。对于缓存密集型任务，适当提高存储内存比例；对于Shuffle密集型任务，优先保障执行内存。新版本Spark的动态内存机制简化了调优，但手动干预在极端场景下仍有效。最终需通过反复测试验证
转：Spark RDD算子练习题爱萨萨技术-大数据 spark RDD 练习
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.csdn.net/qq_40825218/article/details/83720732给定数据如下：12张三25男chinese5012张三25男math6012张三25男english7012李四20男chinese5012李四20男math5012李四20男e
spark sql的练习题 a大数据yyds spark spark
1、使用StructuredStreaming读取Socket数据，把单词和单词的反转组成json格式写入到当前目录中的file文件夹中2、请使用StructuredStreaming读取student_info文件夹写的csv文件，2.1、统计出文件中的男女生各有多少人2.2、统计出姓“王”男生和女生的各有多少人3、请使用StructuredStreaming读取department_info文
Spark>sql练习题 BigMoM1573 Spark spark
练习题-------------------------------以下使用StructuredStreaming：-------------------------------1、请使用StructuredStreaming读取Socket数据，统计出每个单词的个数2、请使用StructuredStreaming读取student_info文件夹写的csv文件，2.1、统计出文件中的男女生各有多
《Spark大数据分析与内存计算》——第三章阿万古课程作业 spark 数据分析大数据
第三章作业及答案快捷查找：Ctrl+F在搜索框中输入题目一.单选题（共17题）1.(单选题)并不是所有企业都能自己产生数据，从而用于决策辅助，而更多的互联网企业如电商等大部分是要靠什么来抓取互联网数据进行分析A.HadoopB.pythonC.SparkD.网路爬虫正确答案:D:网路爬虫;2.(单选题)什么负责即席查询的应用A.MLlibB.SparkStreamingC.GraphXD.Spar
PySpark之金融数据分析（Spark RDD、SQL练习题）唯余木叶下弦声大数据大数据 spark pyspark python 数据分析 sql
目录一、数据来源二、PySparkRDD编程1、查询特定日期的资金流入和流出情况2、活跃用户分析三、PySparkSQL编程1、按城市统计2014年3月1日的平均余额2、统计每个城市总流量前3高的用户四、总结一、数据来源本文使用的数据来源于天池大赛数据集，由蚂蚁金服提供，包含用户基本信息、申购赎回记录、收益率、银行间拆借利率等多个维度，本文通过PySpark实现对该数据集的简单分析。数据来源：天池
用 Docker 搭建 Spark 集群 yeasy Bigdata Docker spark Docker 云计算集群分布式计算
简介Spark是Berkeley开发的分布式计算的框架，相对于Hadoop来说，Spark可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。熟悉Hadoop的同学也不必担心，Spark很多设计理念和用法都跟Hadoop保持一致和相似，并且在使用上完全兼容HDFS。但是Spark的安装并不容易，依赖包括Java、Scala、HDFS等。通过使用Docker，可以快速的在本地
Apache Flink 替换 Spark Stream的架构与实践( bilibili 案例解读)_streamsparkflink加载udf 2501_90243308 apache flink spark
3.基于ApacheFlink的流式计算平台为解决上述问题，bilibili希望根据以下三点要求构建基于ApacheFlink的流式计算平台。第一点，需要提供SQL化编程。bilibili对SQL进行了扩展，称为BSQL。BSQL扩展了Flink底层SQL的上层，即SQL语法层。**第二点，**DAG拖拽编程,一方面用户可以通过画板来构建自己的Pipeline，另一方面用户也可以使用原生Jar方式
免费AI大模型API汇总（非常详细），零基础入门到精通，看这一篇就够了大模型扬叔人工智能免费AI大模型API汇总大模型
前言一、免费大模型API一览大模型免费版本免费限制控制台（api_key等）讯飞星火大模型spark-litetokens：总量无限；QPS：2；(每秒发送的请求数)有效期：不限访问链接百度千帆大模型平台ERNIE-Speed-8KRPM=300，TPM=300000（RPM是每分钟请求数（RequestsPerMinute），TPM是指每分钟处理的tokens数量）访问链接ERNIE-Speed
用 Java 的思路快速学习 Scala 进朱者赤其他大数据 scala Scala
引言Scala是一种结合了面向对象和函数式编程的现代编程语言，广泛应用于大数据处理框架如ApacheSpark和ApacheFlink。对于熟悉Java的开发者来说，Scala的学习曲线相对平缓。本文将通过类比Java中的概念，帮助Java开发者快速上手Scala。1.基本语法1.1.数据类型以下是Scala和Java数据类型的汇总表格：Scala数据类型Java数据类型说明Intint32位整数
【Spark】Spark Join类型及Join实现方式 DataCrafter Spark 大数据计算框架 spark 大数据分布式
如果觉得这篇文章对您有帮助，别忘了点赞、分享或关注哦！您的一点小小支持，不仅能帮助更多人找到有价值的内容，还能鼓励我持续分享更多精彩的技术文章。感谢您的支持，让我们一起在技术的世界中不断进步！SparkJoin类型1.InnerJoin(内连接)示例：valresult=df1.join(df2,df1("id")===df2("id"),"inner")执行逻辑：只返回那些在两个表中都有匹配的行
Spark运行模式及Spark on Yarn两种运行模式的区别 DataCrafter Spark 大数据计算框架 spark 大数据
如果觉得这篇文章对您有帮助，别忘了点赞、分享或关注哦！您的一点小小支持，不仅能帮助更多人找到有价值的内容，还能鼓励我持续分享更多精彩的技术文章。感谢您的支持，让我们一起在技术的世界中不断进步！Spark运行模式1.Standalone模式描述：Standalone模式是Spark的独立集群模式，Spark自己管理资源和调度任务。适合小型集群或个人开发环境。特点：简单易用，适合开发和测试。不依赖外部
TiDB架构特性 #TiDB TiDB
文章目录TiDB整体架构TiDBServerPDServerTiKVServerTiSparkTiDBOperatorTiDB核心特性水平扩展高可用TiDB存储和计算能力存储能力-TiKV-LSM计算能力-TiDBServer总结TiDB整体架构 TiDB集群主要包括三个核心组件：TiDBServer，PDServer和TiKVServer。此外，还有用于解决用户复杂OLAP需求的TiSpark
大数据学习（七）Python3操作livy（使用pylivy模块）猪笨是念来过倒大数据大数据 python
Livy是一个用于与Spark交互的开源REST接口。pylivy是Livy的Python客户端，可以在Spark集群上轻松实现远程代码执行。安装$pipinstall-Ulivy请注意，pylivy需要Python3.6或更高版本。用法所述LivySession类的主界面提供由pylivy：from
【Redis】golang操作Redis基础入门 m0_74825360 面试学习路线阿里巴巴 redis golang 数据库
【Redis】golang操作Redis基础入门大家好我是寸铁??总结了一篇【Redis】golang操作Redis基础入门sparkles:喜欢的小伙伴可以点点关注??Redis的作用Redis（RemoteDictionaryServer）是一个开源的内存数据库，它主要用于存储键值对，并提供多种数据结构的支持。Redis的主要作用包括：1.缓存:Redis可以作为缓存系统，将常用的数据缓存在内
搭建单机伪分布式Hadoop+spark+scala 啥也不会0-0 分布式 hadoop spark
目录一、准备环境包：二、创建centos7虚拟机并配置ip三、链接Xshell并上环境包四、安装JDK1.解压jdk2.设置JAVA环境变量3.执行source使设置生效：4.检查JAVA是否可用。五、免密登陆1.创建ssh秘钥，输入如下命令，生成公私密钥2.将master公钥id_dsa复制到master进行公钥认证，实现本机免密登陆，测试完exit退出六、安装Hadoop软件1.解压hadoo
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option