Spark2.X 第2页

Spark2.X CSV文件创建DataFrame

一、需求分析将CSV文件转为DataFrame，其中CSV包括无头文件和有文件。二、数据展示无头文件的CSV1,张飞,21,北京,802,关羽,23,北京,823,赵云,20,上海,884,刘备,26,上海,835,曹操,30,深圳,90.8有头文件的CSVid,name,age,city,score1,张飞,21,北京,802,关羽,23,北京,823,赵云,20,上海,884,刘备,26,上海

zhangjunli·2020-08-23 04:33

基于CDH5.10.2安装spark2

前提：在我的CDH5.10集群中，默认安装的spark是1.6版本，这里需要将其升级为spark2.x版本在线安装：环境我这边是jdk1.8，scala-2.11.x，操作系统Centos6.5一、准备工作

久醉绕心弦i·2020-08-22 21:22

Spark2.x（六十二）：（Spark2.4）共享变量 - Broadcast原理分析

之前对Broadcast有分析，但是不够深入《Spark2.3（四十三）：SparkBroadcast总结》，本章对其实现过程以及原理进行分析。带着以下几个问题去写本篇文章：1）driver端如何实现broadcast的装备，是否会把broadcast数据发送给executor端？2）executor如何获取到broadcast数据？导入Spark一个非常重要的特征就是共享变量。共享变量分为广播变

weixin_30569001·2020-08-22 15:14

Spark 3.0发布啦，改进SQL，弃Python 2，更好的兼容ANSI SQL，性能大幅提升

ApacheSpark3.0.0正式发布啦，ApacheSpark3.0是在Spark2.x的基础上开发的，带来了新的想法和功能。

老夫编程说·2020-08-22 15:56

--------------------通过spark2.x版本将数据导入hive中出现的问题-----------------------

一：将数据手动导入hive中（1）先将数据和脚本用上传工具传入/home/hadoop中（2）在虚拟机中./hive-f/home/hadoop/createHiveTab.sql运行该命令，数据将手动导入hive中(在这里注意hive-f和hive-e的区别)： ./hive-f/home/hadoop/createHiveTab.sqlhive-f后面指定的是一个文件，然后文件里面直接写sql

weixin_30430169·2020-08-18 12:40

新闻网大数据实时系统项目（基于Spark2.2）

基于Spark2.2新闻网大数据实时系统项目1.说明项目代码是参考基于Spark2.x新闻网大数据实时分析可视化系统项目或者大数据项目实战之新闻话题的实时统计分析，谢谢作者分享心得！

vitahao·2020-08-16 07:03

大数据项目：新闻日志大数据处理系统

Big-Data-ProjectHadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL、Hue、J2EE、websoket

TALKDATA·2020-08-16 05:38

Spark2.X的内存管理模型

Spark2.X的内存管理模型如下图所示：Spark中的内存使用大致包括两种类型：执行和存储。

西贝木土·2020-08-14 10:53

Spark2.x 快速入门教程 7

SparkStreaming整合Kafka一、实验介绍1.1实验内容Kafka是一个分布式的发布-订阅式的消息系统，可以作为DStream的高级数据源，本部分以单击统计为例介绍SparkStreaming程序从kafka中消费数据，包括两部分（基于KafkaReceiver方式，基于KafkaDirect方式)。1.2先学课程1.2先学课程Hadoop入门进阶课程：https://www.shiy

oxuzhenyi·2020-08-14 02:52

Spark应用提交指南（spark-submit）

市井牛虻·2020-08-14 01:19

Spark2.x RDD, Dataframe Dataset API操作

zhangjunli·2020-08-07 22:08

spark自定义函数之——UDF使用详解及代码示例

前言本文介绍如何在SparkSql和DataFrame中使用UDF，如何利用UDF给一个表或者一个DataFrame根据需求添加几列，并给出了旧版（Spark1.x）和新版（Spark2.x）完整的代码示例

weixin_30892889·2020-08-05 20:36

springboot2.0 操作 spark2.x

一、首先很少有java连接spark的情况，一般是python,scala直接上了。二、话说，python也要引入pyspark，还有下载spark的lib,也挺麻烦的。只有scala可以直接调用spark-shell,还算好用。废话不多说，直接上代码三、完整的pom，不多不少刚刚好。强调下：版本号什么的都不能错，错了编译一定失败，MAVEN打包也失败。4.0.0org.springframewo

snetlogon20·2020-08-03 04:02

Spark中的Catalyst

catalyst不仅仅是sql的一个解析器引擎，应看做spark新一代的解析器引擎，扩展到sparkstreaming、saprksql、graph等等；catalyst非常方便添加优化的技术，随意扩展，spark2

Perkinl·2020-08-03 01:00

spark1.x和spark2.x兼容Iterable和Iterator问题

1.spark1.x升级到spark2.x对于普通的spark来说,变动不大:举一个最简单的实例:spark1.x1publicstaticJavaRDDworkJob(JavaRDDspark1Rdd

aoayyu826824·2020-08-02 17:10

Spark2.x中DataFrame的某列保存的数据，是包含一个结构的数组时，如何取出数据？

Spark2.x中，当某列保存的数据是一个结构数组时，没有一种漂亮的取出方式，只能通过rdd去取。

atec2000·2020-07-31 15:21

Spark2.11 两种流操作 + Kafka

Spark2.11两种流操作+KafkaSpark2.x自从引入了StructuredStreaming后，未来数据操作将逐步转化到DataFrame/DataSet，以下将介绍Spark2.x如何与Kafka0.10

flink58·2020-07-30 18:39

spark 连接kafka API 讲解

转自：http://blog.leanote.com/post/kobeliuziyang/Spark2.x%E8%BF%9E%E6%8E%A5Kafkaspark连接kafkaAPI各参数详细讲解一Spark

孩子加油孩子·2020-07-30 16:37

Spark Streaming接收Kafka数据存储到Hbase

我这里主要是改为了spark2.x的方式kafka生产数据闲话少叙，

weixin_30826095·2020-07-30 13:32

CDH5.11 离线安装或者升级spark2.x详细步骤

简介：在我的CDH5.11集群中，默认安装的spark是1.6版本，这里需要将其升级为spark2.x版本。

疯狂的暴走蜗牛·2020-07-30 12:19

spark笔记（3）—— spark2.x内存管理模型

文章目录1、简介2、内存分配2.1、静态内存管理器2.2、统一内存管理器2.2.1、堆内内存(On-heapMemory)2.2.2、堆外内存(Off-heapMemory)3、Execution内存和Storage内存动态调整4、Task之间内存分布5、参考1、简介 spark作为基于内存的分布式计算引擎，其内存管理模型在整个系统中起着非常重要的作用。Spark应用程序包括两个JVM进程，Dr

挪威马天雨·2020-07-29 19:44

Spark2.x 内存管理之---OFF_HEAP

gssgch·2020-07-29 14:46

Windows下搭建 Spark开发环境遇到的坑（Intellij IDEA）

Spark2.x学习笔记：6、在Windows平台下搭建Spark开发环境（IntellijIDEA）上面这个教程介绍得非常详细，包括Maven的安装等等。下面是针对上面教程的一些补充说明。

博弈史密斯·2020-07-28 20:46

Ambari在不升级情况下整合高版本spark2.x框架

笔者杯具的发现，这个版本对于spark2.x还不能完全支持，自然就无法使用spark2.x以后带来

人唯优·2020-07-28 20:22

Spark2.x学习笔记：14、Spark SQL程序设计

Spark2.x学习笔记：14、SparkSQL程序设计14.1RDD的局限性RDD仅表示数据集，RDD没有元数据，也就是说没有字段语义定义。RDD需要用户自己优化程序，对程序员要求较高。

程裕强·2020-07-27 20:12

spark2.x读取csv文件乱码问题

由于spark读取csv时，默认编码格式是utf-8，如果csv文件的格式是其他，需要加上编码格式的设定例：如果csv格式为GBKimportorg.apache.spark.sql.SparkSessionvalspark=SparkSession.builder().appName(“demo”).getOrCreate();如果用默认格式utf-8读取：vardata=spark.read.

楓尘林间·2020-07-27 19:57

spark2.x 读写cassandra

spark2.x连接cassandra示例importorg.apache.spark.SparkConfimportorg.apache.spark.sql.

yixl·2020-07-16 05:35

【六】Spark SQL中SparkSession的使用

Spark2.X中SparkSQL的入口点：SparkSession。

jy02268879·2020-07-16 01:41

大数据Spark “蘑菇云”行动第48课程 Spark 2.0内幕深度解密和学习最佳实践

内幕深度解密和学习最佳实践观点1：从Spark2.0开始，Spark本身成为了编译器90%左右都是在基于Hive做SQL多维度数据分析，现在的主要的潮流是SparkSQL+Hive；StructuredStreaming是Spark2

段智华·2020-07-15 22:42

Springboot2.X 集成 spark2.X 实现WordCount

1.创建springboot项目引入spark依赖项目结构项目pom文件项目使用spark2.4.5依赖中自带scala无需安装com.lionlispringboot-spark-demo1.0-SNAPSHOTorg.springframework.bootspring-boot-starter-parent2.1.13.RELEASE2.11.122.4.5org.apache.sparks

Lion Li·2020-07-12 11:12

Spark第二代Tungsten引擎测试数据和引擎实现内幕

Spark2.X中的第二代Tungsten性能之所以能够提升10倍左右的原因：1、去掉了虚函数的调用，极大的减少了CPU指令的无用的消耗！2、数据直接放在寄存器中，至少提升了一个数量级的数据读写熟读！

ALTHE·2020-07-11 22:55

spark3.0-新特性

ApacheSpark3.0建立在Spark2.x的许多创新基础之上，带来了新的想法并持续了很长时间。正在开发的长期项目。

小蜗牛也有梦想·2020-07-09 21:06

Spark2.x 快速入门教程 5

Spark处理多种数据源一、实验介绍1.1实验内容SparkSQL通过DataFrame接口可以支持Parquet、JSON、Hive等数据源，将DataFrame注册为临时视图，可以允许你在数据上运行SQL查询语句，并且可以通过JDBC连接外部数据源。前面的介绍中，我们已经涉及到了Hive，这里不再赘述。本节讲解Parquet，JSON，及JDBC数据库连接等。1.2实验知识点Parquet数据

oxuzhenyi·2020-07-09 21:57

Spark权威指南(中文版)----第22章事件时间和有状态处理

本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！

大数据辅导员·2020-07-09 15:31

Spark权威指南(中文版)----第26章分类

本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！

大数据辅导员·2020-07-09 15:31

Spark权威指南(中文版)----第21章 Structured Streaming基础

本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！

大数据辅导员·2020-07-09 15:31

Spark权威指南(中文版)----第25章预处理和特征工程

本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！

大数据辅导员·2020-07-09 15:31

Spark权威指南(中文版)----第23章生产环境中的结构化流

本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！

大数据辅导员·2020-07-09 15:31

Spark 3.0发布啦，改进SQL，弃Python 2，更好的兼容ANSI SQL，性能大幅提升

ApacheSpark3.0.0正式发布啦，ApacheSpark3.0是在Spark2.x的基础上开发的，带来了新的想法和功能。

老夫科技说·2020-07-09 14:57

Spark:Shuffle原理剖析与源码分析

普通shuffle操作的原理剖析（spark2.x弃用）每一个Job提交后都会生成一个ResultStage和若干个ShuffleMapStage,其中ResultStage表示生成作业的最终结果所在的

焦焦^_^·2020-07-07 11:15

Spark 2.1 structured streaming

2.1版本是第二个Spark2.x版本。

biggeng·2020-07-06 02:31

spark读取mongodb数据

spark2.x向mongodb中读取写入数据，读取写入相关参数参考https://docs.mongodb.com/spark-connector/current/configuration/#cache-configuration

xubc·2020-07-05 16:44

Spark2.x源码剖析系列文章(共21篇|经典必读)

问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读经过小半年的努力，终于把Spark2.x主流程部分的代码看完了

陆继森·2020-07-02 10:59

Spark2.x RPC解析

1、概述在Spark中很多地方都涉及网络通信，比如Spark各个组件间的消息互通、用户文件与Jar包的上传、节点间的Shuffle过程、Block数据的复制与备份等。Spark2.0之后，master和worker之间完全不使用akka通信，改用netty实现。因为使用Akka要求message发送端和接收端有相同的版本，为了避免Akka造成的版本问题，给用户的应用更大灵活性，决定使用更通用的RP

Quinto0·2020-06-29 10:44

Spark 2.x企业级大数据项目实战（实时统计、离线分析和实时ETL）

Spark2.x企业级大数据项目实战（实时统计、离线分析和实时ETL）全套课程下载：https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg提取码:9n1x本门课程来源于一线生产项目

weixin_34391854·2020-06-28 18:19

Spark2.x写入Elasticsearch的性能测试

为什么80%的码农都做不了架构师？>>>一、Spark集成ElasticSearch的设计动机ElasticSearch毫秒级的查询响应时间还是很惊艳的。其优点有：1.优秀的全文检索能力2.高效的列式存储与查询能力3.数据分布式存储(Shard分片)相应的也存在一些缺点：1.缺乏优秀的SQL支持2.缺乏水平扩展的Reduce(Merge)能力，现阶段的实现局限在单机3.JSON格式的查询语言，缺乏

weixin_34130269·2020-06-28 12:44

新闻网大数据实时分析可视化系统项目——16、Spark2.X集群运行模式

1.几种运行模式介绍Spark几种运行模式：1）Local2）Standalone3）Yarn4）Mesos下载IDEA并安装，可以百度一下免费文档。2.sparkStandalone模式配置并测试1）jdk1.8已经安装2）scala2.11.8已经安装3）Hadoop2.5.0已经安装4）安装SparkStandalonea）配置slavevislavesbigdata-pro01.kfk.c

weixin_30709061·2020-06-27 23:01

[spark]-Spark2.x集群搭建与参数详解

在前面的Spark发展历程和基本概念中介绍了Spark的一些基本概念，熟悉了这些基本概念对于集群的搭建是很有必要的。我们可以了解到每个参数配置的作用是什么。这里将详细介绍Spark集群搭建以及xml参数配置。Spark的集群搭建分为分布式与伪分布式，分布式主要是与hadoopYarn集群配合使用，伪分布式主要是单独使用作为测试。Spark完全分布式搭建由于Hadoop和Spark集群占用的内存较高

weixin_30642267·2020-06-27 22:29

spark2.x shell 客户端操作sparkSQL

1.客户端启动shell进入spark安装目录bin/spark-shell--masterspark://IP:7077--executor-memory1g2.scala操作（1）把HDFS上的文件映射为表启动sparkSession对象：valspark=org.apache.spark.sql.SparkSession.builder().appName("SparkSessionZips

语旅·2020-06-27 10:29

基于Spark2.x新闻网大数据实时分析可视化系统项目

本次项目是基于企业大数据经典案例项目（大数据日志分析），全方位、全流程讲解大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。项目代码托管于github，大家可以自行下载。一、业务需求分析捕获用户浏览日志信息实时分析前20名流量最高的新闻话题实时统计当前线上已曝光的新闻话题统计哪个时段用户浏览量最高二、系统架构图设计三、系统数据流程设计四、集群资源规

xl.zhang·2020-06-27 00:10

推荐频道

Spark2.X

Spark2.X CSV文件 创建DataFrame

基于CDH5.10.2安装spark2

Spark2.x（六十二）：（Spark2.4）共享变量 - Broadcast原理分析

Spark 3.0发布啦，改进SQL，弃Python 2，更好的兼容ANSI SQL，性能大幅提升

--------------------通过spark2.x版本将数据导入hive中出现的问题-----------------------

新闻网大数据实时系统项目（基于Spark2.2）

大数据项目：新闻日志大数据处理系统

Spark2.X的内存管理模型

Spark2.x 快速入门教程 7

Spark应用提交指南（spark-submit）

Spark2.x RDD, Dataframe Dataset API操作

spark自定义函数之——UDF使用详解及代码示例

springboot2.0 操作 spark2.x

Spark中的Catalyst

spark1.x和spark2.x兼容Iterable和Iterator问题

Spark2.x中DataFrame的某列保存的数据，是包含一个结构的数组时，如何取出数据？

Spark2.11 两种流操作 + Kafka

spark 连接kafka API 讲解

Spark Streaming接收Kafka数据存储到Hbase

CDH5.11 离线安装或者升级spark2.x详细步骤

spark笔记（3）—— spark2.x内存管理模型

Spark2.x 内存管理之---OFF_HEAP

Windows下搭建 Spark开发环境遇到的坑（Intellij IDEA）

Ambari在不升级情况下整合高版本spark2.x框架

Spark2.x学习笔记：14、Spark SQL程序设计

spark2.x读取csv文件乱码问题

spark2.x 读写cassandra

【六】Spark SQL中SparkSession的使用

大数据Spark “蘑菇云”行动第48课程 Spark 2.0内幕深度解密和学习最佳实践

Springboot2.X 集成 spark2.X 实现WordCount

Spark第二代Tungsten引擎测试数据和引擎实现内幕

spark3.0-新特性

Spark2.x 快速入门教程 5

Spark权威指南(中文版)----第22章 事件时间和有状态处理

Spark权威指南(中文版)----第26章 分类

Spark权威指南(中文版)----第21章 Structured Streaming基础

Spark权威指南(中文版)----第25章 预处理和特征工程

Spark权威指南(中文版)----第23章 生产环境中的结构化流

Spark 3.0发布啦，改进SQL，弃Python 2，更好的兼容ANSI SQL，性能大幅提升

Spark:Shuffle原理剖析与源码分析

Spark 2.1 structured streaming

spark读取mongodb数据

Spark2.x源码剖析系列文章(共21篇|经典必读)

Spark2.x RPC解析

Spark 2.x企业级大数据项目实战（实时统计、离线分析和实时ETL）

Spark2.x写入Elasticsearch的性能测试

新闻网大数据实时分析可视化系统项目——16、Spark2.X集群运行模式

[spark]-Spark2.x集群搭建与参数详解

spark2.x shell 客户端操作sparkSQL

基于Spark2.x新闻网大数据实时分析可视化系统项目

Spark2.X CSV文件创建DataFrame

Spark权威指南(中文版)----第22章事件时间和有状态处理

Spark权威指南(中文版)----第26章分类

Spark权威指南(中文版)----第25章预处理和特征工程

Spark权威指南(中文版)----第23章生产环境中的结构化流