E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2.X
Spark2.X
CSV文件 创建DataFrame
一、需求分析将CSV文件转为DataFrame,其中CSV包括无头文件和有文件。二、数据展示无头文件的CSV1,张飞,21,北京,802,关羽,23,北京,823,赵云,20,上海,884,刘备,26,上海,835,曹操,30,深圳,90.8有头文件的CSVid,name,age,city,score1,张飞,21,北京,802,关羽,23,北京,823,赵云,20,上海,884,刘备,26,上海
zhangjunli
·
2020-08-23 04:33
Spark
基于CDH5.10.2安装spark2
前提:在我的CDH5.10集群中,默认安装的spark是1.6版本,这里需要将其升级为
spark2.x
版本在线安装:环境我这边是jdk1.8,scala-2.11.x,操作系统Centos6.5一、准备工作
久醉绕心弦i
·
2020-08-22 21:22
cloudera
manager
Spark2.x
(六十二):(Spark2.4)共享变量 - Broadcast原理分析
之前对Broadcast有分析,但是不够深入《Spark2.3(四十三):SparkBroadcast总结》,本章对其实现过程以及原理进行分析。带着以下几个问题去写本篇文章:1)driver端如何实现broadcast的装备,是否会把broadcast数据发送给executor端?2)executor如何获取到broadcast数据?导入Spark一个非常重要的特征就是共享变量。共享变量分为广播变
weixin_30569001
·
2020-08-22 15:14
Spark 3.0发布啦,改进SQL,弃Python 2,更好的兼容ANSI SQL,性能大幅提升
ApacheSpark3.0.0正式发布啦,ApacheSpark3.0是在
Spark2.x
的基础上开发的,带来了新的想法和功能。
老夫编程说
·
2020-08-22 15:56
spark
ansi
sql
--------------------通过
spark2.x
版本将数据导入hive中出现的问题-----------------------
一:将数据手动导入hive中(1)先将数据和脚本用上传工具传入/home/hadoop中(2)在虚拟机中./hive-f/home/hadoop/createHiveTab.sql运行该命令,数据将手动导入hive中(在这里注意hive-f和hive-e的区别): ./hive-f/home/hadoop/createHiveTab.sqlhive-f后面指定的是一个文件,然后文件里面直接写sql
weixin_30430169
·
2020-08-18 12:40
大数据
开发工具
数据库
新闻网大数据实时系统项目(基于Spark2.2)
基于Spark2.2新闻网大数据实时系统项目1.说明项目代码是参考基于
Spark2.x
新闻网大数据实时分析可视化系统项目或者大数据项目实战之新闻话题的实时统计分析,谢谢作者分享心得!
vitahao
·
2020-08-16 07:03
大数据
大数据项目:新闻日志大数据处理系统
Big-Data-ProjectHadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、
Spark2.x
、SparkStreaming、MySQL、Hue、J2EE、websoket
TALKDATA
·
2020-08-16 05:38
大数据学习之路
Spark2.X
的内存管理模型
Spark2.X
的内存管理模型如下图所示:Spark中的内存使用大致包括两种类型:执行和存储。
西贝木土
·
2020-08-14 10:53
Spark
Spark2.x
快速入门教程 7
SparkStreaming整合Kafka一、实验介绍1.1实验内容Kafka是一个分布式的发布-订阅式的消息系统,可以作为DStream的高级数据源,本部分以单击统计为例介绍SparkStreaming程序从kafka中消费数据,包括两部分(基于KafkaReceiver方式,基于KafkaDirect方式)。1.2先学课程1.2先学课程Hadoop入门进阶课程:https://www.shiy
oxuzhenyi
·
2020-08-14 02:52
实验楼课程
Spark应用提交指南(spark-submit)
关于spark的相关笔记尽力基于
spark2.x
版本(其实在我目前使用的情况下,1.x与2.x内容基本别无二致)。使用2.x的原因是之前在使用1.6时踩过坑,换2.x后完美解决,该坑我会在之后的
市井牛虻
·
2020-08-14 01:19
大数据开发
Spark2.x
RDD, Dataframe Dataset API操作
Spark提供了三种主要的与数据相关的API:RDD、DataFrame、DatasetRDD(Spark1.0)—>Dataframe(Spark1.3)—>Dataset(Spark1.6)imageRDDRDD是Spark提供的最主要的一个抽象概念(ResilientDistributedDataset),它是一个element的collection,分区化的位于集群的节点中,支持并行处理。
zhangjunli
·
2020-08-07 22:08
Spark
spark自定义函数之——UDF使用详解及代码示例
前言本文介绍如何在SparkSql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1.x)和新版(
Spark2.x
)完整的代码示例
weixin_30892889
·
2020-08-05 20:36
springboot2.0 操作
spark2.x
一、首先很少有java连接spark的情况,一般是python,scala直接上了。二、话说,python也要引入pyspark,还有下载spark的lib,也挺麻烦的。只有scala可以直接调用spark-shell,还算好用。废话不多说,直接上代码三、完整的pom,不多不少刚刚好。强调下:版本号什么的都不能错,错了编译一定失败,MAVEN打包也失败。4.0.0org.springframewo
snetlogon20
·
2020-08-03 04:02
springboot2.0
spark
scala
Spark中的Catalyst
catalyst不仅仅是sql的一个解析器引擎,应看做spark新一代的解析器引擎,扩展到sparkstreaming、saprksql、graph等等;catalyst非常方便添加优化的技术,随意扩展,
spark2
Perkinl
·
2020-08-03 01:00
spark
spark1.x和
spark2.x
兼容Iterable和Iterator问题
1.spark1.x升级到
spark2.x
对于普通的spark来说,变动不大:举一个最简单的实例:spark1.x1publicstaticJavaRDDworkJob(JavaRDDspark1Rdd
aoayyu826824
·
2020-08-02 17:10
大数据
java
Spark2.x
中DataFrame的某列保存的数据,是包含一个结构的数组时,如何取出数据?
Spark2.x
中,当某列保存的数据是一个结构数组时,没有一种漂亮的取出方式,只能通过rdd去取。
atec2000
·
2020-07-31 15:21
Spark
Spark2.11 两种流操作 + Kafka
Spark2.11两种流操作+KafkaSpark2.x自从引入了StructuredStreaming后,未来数据操作将逐步转化到DataFrame/DataSet,以下将介绍
Spark2.x
如何与Kafka0.10
flink58
·
2020-07-30 18:39
大数据平台
spark 连接kafka API 讲解
转自:http://blog.leanote.com/post/kobeliuziyang/
Spark2.x
%E8%BF%9E%E6%8E%A5Kafkaspark连接kafkaAPI各参数详细讲解一Spark
孩子加油孩子
·
2020-07-30 16:37
spark
kafka
Spark Streaming接收Kafka数据存储到Hbase
我这里主要是改为了
spark2.x
的方式kafka生产数据闲话少叙,
weixin_30826095
·
2020-07-30 13:32
大数据
java
scala
CDH5.11 离线安装或者升级
spark2.x
详细步骤
简介:在我的CDH5.11集群中,默认安装的spark是1.6版本,这里需要将其升级为
spark2.x
版本。
疯狂的暴走蜗牛
·
2020-07-30 12:19
CDH
spark
spark笔记(3)——
spark2.x
内存管理模型
文章目录1、简介2、内存分配2.1、静态内存管理器2.2、统一内存管理器2.2.1、堆内内存(On-heapMemory)2.2.2、堆外内存(Off-heapMemory)3、Execution内存和Storage内存动态调整4、Task之间内存分布5、参考1、简介 spark作为基于内存的分布式计算引擎,其内存管理模型在整个系统中起着非常重要的作用。Spark应用程序包括两个JVM进程,Dr
挪威马天雨
·
2020-07-29 19:44
spark
Spark2.x
内存管理之---OFF_HEAP
版权声明:本文为博主原创文章,未经博主允许不得转载!!欢迎访问:https://blog.csdn.net/qq_21439395/article/details/80773121交流QQ:8242034531.Spark内存管理之—OFF_HEAP1.1.存储级别简介Spark中RDD提供了多种存储级别,除去使用内存,磁盘等,还有一种是OFF_HEAP,称之为使用JVM堆外内存。使用OFF_HE
gssgch
·
2020-07-29 14:46
Spark
spark2.x
Spark内存管理
Windows下搭建 Spark开发环境遇到的坑(Intellij IDEA)
Spark2.x
学习笔记:6、在Windows平台下搭建Spark开发环境(IntellijIDEA)上面这个教程介绍得非常详细,包括Maven的安装等等。下面是针对上面教程的一些补充说明。
博弈史密斯
·
2020-07-28 20:46
Ambari在不升级情况下整合高版本
spark2.x
框架
笔者杯具的发现,这个版本对于
spark2.x
还不能完全支持,自然就无法使用
spark2.x
以后带来
人唯优
·
2020-07-28 20:22
Ambari
Spark2.x
学习笔记:14、Spark SQL程序设计
Spark2.x
学习笔记:14、SparkSQL程序设计14.1RDD的局限性RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义。RDD需要用户自己优化程序,对程序员要求较高。
程裕强
·
2020-07-27 20:12
Spark2.x学习笔记
Spark2.x学习笔记
spark2.x
读取csv文件乱码问题
由于spark读取csv时,默认编码格式是utf-8,如果csv文件的格式是其他,需要加上编码格式的设定例:如果csv格式为GBKimportorg.apache.spark.sql.SparkSessionvalspark=SparkSession.builder().appName(“demo”).getOrCreate();如果用默认格式utf-8读取:vardata=spark.read.
楓尘林间
·
2020-07-27 19:57
Scala
Spark
DateFrame
spark2.x
读写cassandra
spark2.x
连接cassandra示例importorg.apache.spark.SparkConfimportorg.apache.spark.sql.
yixl
·
2020-07-16 05:35
spark学习笔记
【六】Spark SQL中SparkSession的使用
Spark2.X
中SparkSQL的入口点:SparkSession。
jy02268879
·
2020-07-16 01:41
spark
SQL
大数据Spark “蘑菇云”行动第48课程 Spark 2.0内幕深度解密和学习最佳实践
内幕深度解密和学习最佳实践观点1:从Spark2.0开始,Spark本身成为了编译器90%左右都是在基于Hive做SQL多维度数据分析,现在的主要的潮流是SparkSQL+Hive;StructuredStreaming是
Spark2
段智华
·
2020-07-15 22:42
大数据蘑菇云行动
Springboot2.X 集成
spark2.X
实现WordCount
1.创建springboot项目引入spark依赖项目结构项目pom文件项目使用spark2.4.5依赖中自带scala无需安装com.lionlispringboot-spark-demo1.0-SNAPSHOTorg.springframework.bootspring-boot-starter-parent2.1.13.RELEASE2.11.122.4.5org.apache.sparks
Lion Li
·
2020-07-12 11:12
springboot经验总结
spark
Spark第二代Tungsten引擎测试数据和引擎实现内幕
Spark2.X
中的第二代Tungsten性能之所以能够提升10倍左右的原因:1、去掉了虚函数的调用,极大的减少了CPU指令的无用的消耗!2、数据直接放在寄存器中,至少提升了一个数量级的数据读写熟读!
ALTHE
·
2020-07-11 22:55
spark3.0-新特性
ApacheSpark3.0建立在
Spark2.x
的许多创新基础之上,带来了新的想法并持续了很长时间。正在开发的长期项目。
小蜗牛也有梦想
·
2020-07-09 21:06
spark
spark
spark3.0
大数据
新特性
Spark2.x
快速入门教程 5
Spark处理多种数据源一、实验介绍1.1实验内容SparkSQL通过DataFrame接口可以支持Parquet、JSON、Hive等数据源,将DataFrame注册为临时视图,可以允许你在数据上运行SQL查询语句,并且可以通过JDBC连接外部数据源。前面的介绍中,我们已经涉及到了Hive,这里不再赘述。本节讲解Parquet,JSON,及JDBC数据库连接等。1.2实验知识点Parquet数据
oxuzhenyi
·
2020-07-09 21:57
实验楼课程
Spark权威指南(中文版)----第22章 事件时间和有状态处理
本书详细介绍了
Spark2.x
版本的各个模块,目前市面上最好的
Spark2.x
学习书籍!!!扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
大数据辅导员
·
2020-07-09 15:31
bigdata
Spark权威指南(中文版)----第26章 分类
本书详细介绍了
Spark2.x
版本的各个模块,目前市面上最好的
Spark2.x
学习书籍!!!扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
大数据辅导员
·
2020-07-09 15:31
bigdata
人工智能
Flink
Spark权威指南(中文版)----第21章 Structured Streaming基础
本书详细介绍了
Spark2.x
版本的各个模块,目前市面上最好的
Spark2.x
学习书籍!!!扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
大数据辅导员
·
2020-07-09 15:31
bigdata
Spark权威指南(中文版)----第25章 预处理和特征工程
本书详细介绍了
Spark2.x
版本的各个模块,目前市面上最好的
Spark2.x
学习书籍!!!扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
大数据辅导员
·
2020-07-09 15:31
人工智能
bigdata
机器学习
Spark权威指南(中文版)----第23章 生产环境中的结构化流
本书详细介绍了
Spark2.x
版本的各个模块,目前市面上最好的
Spark2.x
学习书籍!!!扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
大数据辅导员
·
2020-07-09 15:31
bigdata
Spark 3.0发布啦,改进SQL,弃Python 2,更好的兼容ANSI SQL,性能大幅提升
ApacheSpark3.0.0正式发布啦,ApacheSpark3.0是在
Spark2.x
的基础上开发的,带来了新的想法和功能。
老夫科技说
·
2020-07-09 14:57
计算机基础
Spark:Shuffle原理剖析与源码分析
普通shuffle操作的原理剖析(
spark2.x
弃用)每一个Job提交后都会生成一个ResultStage和若干个ShuffleMapStage,其中ResultStage表示生成作业的最终结果所在的
焦焦^_^
·
2020-07-07 11:15
Spark
Spark 2.1 structured streaming
2.1版本是第二个
Spark2.x
版本。
biggeng
·
2020-07-06 02:31
spark读取mongodb数据
spark2.x
向mongodb中读取写入数据,读取写入相关参数参考https://docs.mongodb.com/spark-connector/current/configuration/#cache-configuration
xubc
·
2020-07-05 16:44
spark
大数据eco
Spark2.x
源码剖析系列文章(共21篇|经典必读)
问题或建议,请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助,欢迎转发朋友圈从微信公众号拷贝过来,格式有些错乱,建议直接去公众号阅读经过小半年的努力,终于把
Spark2.x
主流程部分的代码看完了
陆继森
·
2020-07-02 10:59
Spark
Spark2.x
RPC解析
1、概述在Spark中很多地方都涉及网络通信,比如Spark各个组件间的消息互通、用户文件与Jar包的上传、节点间的Shuffle过程、Block数据的复制与备份等。Spark2.0之后,master和worker之间完全不使用akka通信,改用netty实现。因为使用Akka要求message发送端和接收端有相同的版本,为了避免Akka造成的版本问题,给用户的应用更大灵活性,决定使用更通用的RP
Quinto0
·
2020-06-29 10:44
spark内核
Spark 2.x企业级大数据项目实战(实时统计、离线分析和实时ETL)
Spark2.x
企业级大数据项目实战(实时统计、离线分析和实时ETL)全套课程下载:https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg提取码:9n1x本门课程来源于一线生产项目
weixin_34391854
·
2020-06-28 18:19
Spark2.x
写入Elasticsearch的性能测试
为什么80%的码农都做不了架构师?>>>一、Spark集成ElasticSearch的设计动机ElasticSearch毫秒级的查询响应时间还是很惊艳的。其优点有:1.优秀的全文检索能力2.高效的列式存储与查询能力3.数据分布式存储(Shard分片)相应的也存在一些缺点:1.缺乏优秀的SQL支持2.缺乏水平扩展的Reduce(Merge)能力,现阶段的实现局限在单机3.JSON格式的查询语言,缺乏
weixin_34130269
·
2020-06-28 12:44
新闻网大数据实时分析可视化系统项目——16、
Spark2.X
集群运行模式
1.几种运行模式介绍Spark几种运行模式:1)Local2)Standalone3)Yarn4)Mesos下载IDEA并安装,可以百度一下免费文档。2.sparkStandalone模式配置并测试1)jdk1.8已经安装2)scala2.11.8已经安装3)Hadoop2.5.0已经安装4)安装SparkStandalonea)配置slavevislavesbigdata-pro01.kfk.c
weixin_30709061
·
2020-06-27 23:01
[spark]-
Spark2.x
集群搭建与参数详解
在前面的Spark发展历程和基本概念中介绍了Spark的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的。我们可以了解到每个参数配置的作用是什么。这里将详细介绍Spark集群搭建以及xml参数配置。Spark的集群搭建分为分布式与伪分布式,分布式主要是与hadoopYarn集群配合使用,伪分布式主要是单独使用作为测试。Spark完全分布式搭建由于Hadoop和Spark集群占用的内存较高
weixin_30642267
·
2020-06-27 22:29
spark2.x
shell 客户端操作sparkSQL
1.客户端启动shell进入spark安装目录bin/spark-shell--masterspark://IP:7077--executor-memory1g2.scala操作(1)把HDFS上的文件映射为表启动sparkSession对象:valspark=org.apache.spark.sql.SparkSession.builder().appName("SparkSessionZips
语旅
·
2020-06-27 10:29
hadoop
spark
mysql
基于
Spark2.x
新闻网大数据实时分析可视化系统项目
本次项目是基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。项目代码托管于github,大家可以自行下载。一、业务需求分析捕获用户浏览日志信息实时分析前20名流量最高的新闻话题实时统计当前线上已曝光的新闻话题统计哪个时段用户浏览量最高二、系统架构图设计三、系统数据流程设计四、集群资源规
xl.zhang
·
2020-06-27 00:10
【项目开发】
【大数据的学路历程】
上一页
1
2
3
4
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他