大数据Spark

Spark Chapter 8 Spark SQL

【参考以慕课网日志分析为例进入大数据Sparksql】0导读SQL：MySQL，Oracle，DB2，SQLServer在大数据平台上实现大数据计算：Hive/SparkSQL/SparkCore直接使用

深海suke·2024-02-07 01:34

基于SPARK的淘宝用户购物行为可视化分析

基于SPARK的淘宝用户购物行为可视化分析这篇文章旨在练习大数据Spark操作，做一些简单的分析。后续阶段将基于三台虚拟机情况下进行调优，以期实现性能最优化。

番茄薯仔·2024-01-17 02:14

大数据Spark实战高手之路职业学习路线图

从零起步，分阶段无任何障碍逐步掌握大数据统一计算平台Spark，从Spark框架编写和开发语言Scala开始，到Spark企业级开发，再到Spark框架源码解析、Spark与Hadoop的融合、商业案例和企业面试，一次性彻底掌握Spark，成为云计算大数据时代的幸运儿和弄潮儿，笑傲大数据职场和人生！学习条件1，掌握Scala；2，精通Spark企业及开发；3，精通Spark框架源码实现；4，掌握S

smileyboy2009·2023-12-26 10:56

Java优质资源汇总（持续更新）

ReentrantLock的实现看AQS的原理及应用不可不说的Java“锁”事CompletableFuture原理与实践Java线程池实现原理及其在美团业务中的实践MySQL优化官方文档：MySQL优化大数据

tcoding·2023-11-22 08:43

大数据课程结构

1、第一阶段javaSE基础阶段-张一峰2、第二阶段-JavaWeb+数据库阶段-张3、第三阶段-大数据分布式架构-张一峰4、第四阶段-大数据Hadoop实战-张一峰5、第五阶段-大数据spark实战-

张一峰·2023-11-19 16:31

大数据Spark学习笔记—sparkcore

目录Spark概述核心模块Spark编程配置IDEA配置scala环境WordCount案例Spark-Standalone运行环境Local配置步骤集群分工解压文件修改配置启动集群配置历史服务器Spark-Yarn运行环境配置步骤配置历史服务器Windows运行环境配置步骤常用端口号Spark架构核心组件DriverExecutorMaster&WorkerApplicationMasterHa

Int mian[]·2023-11-15 03:12

大数据SparkSql创建临时表并查询数据

importorg.apache.spark.sql.{DataFrame,SparkSession}importorg.apache.spark.sql.types.{LongType,StringType,StructType}/***AuthorVincer*Date2019/09/2610:10*LanguageScala*/objectStreamingDS{defmain(args:A

Vincer_DB·2023-11-13 16:04

软件开发学习资料大全

进入大数据SparkSQL的世界链接：https://pan.baidu.com/s/1_AINgCN8KaQEbnJRkWnKdw提取码：7j85Java深入微服务原理改造房产销售平台链接：https

时光如水_岁月如哥·2023-11-12 17:09

大数据Spark实时搜索日志实时分析

目录1业务场景2初始化环境2.1创建Topic2.2模拟日志数据2.3StreamingContextUtils工具类3实时数据ETL存储4实时状态更新统计4.1updateStateByKey函数4.2mapWithState函数5实时窗口统计1业务场景百度搜索风云榜（http://top.baidu.com/）以数亿网民的单日搜索行为作为数据基础，以搜索关键词为统计对象建立权威全面的各类关键词

赵广陆·2023-10-23 05:26

大数据Spark对SogouQ日志分析

目录1业务需求2准备工作2.1HanLP中文分词2.2样例类SogouRecord3业务实现3.1读取数据3.2搜索关键词统计3.3用户搜索点击统计3.4搜索时间段统计3.5完整代码1业务需求使用搜狗实验室提供【用户查询日志(SogouQ)】数据，使用Spark框架，将数据封装到RDD中进行业务数据处理分析。数据网址：http://www.sogou.com/labs/resource/q.php

赵广陆·2023-10-23 05:56

大数据Spark Streaming入门

目录1官方案例运行2编程实现2.1StreamingContext2.2编写代码2.3Streaming应用监控3Streaming工作原理3.1创建StreamingContext3.2接收器接收数据3.3汇报接收Block报告3.4Streaming工作原理总述1官方案例运行SparkStreaming官方提供Example案例，功能描述：从TCPSocket数据源实时消费数据，对每批次Bat

赵广陆·2023-10-21 11:28

【Todo】【读书笔记】大数据Spark企业级实战版 & Scala学习

目录：/Users/baidu/Documents/Data/Interview/Hadoop-Spark-Storm-Kafka下了这本《大数据Spark企业级实战版》，另外还有一本《Spark大数据处理

weixin_33813128·2023-10-19 05:00

大数据Spark DStream

目录1DStream是什么2DStreamOperations2.1函数概述2.2转换函数：transform2.3输出函数：foreachRDD3流式应用状态1DStream是什么SparkStreaming模块将流式数据封装的数据结构：DStream（DiscretizedStream，离散化数据流，连续不断的数据流），代表持续性的数据流和经过各种Spark算子操作后的结果数据流。离散数据流（

赵广陆·2023-10-16 11:30

大数据Spark性能优化指南基础

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能

金光闪闪耶·2023-09-11 21:31

实战：大数据Spark简介与docker-compose搭建独立集群

文章目录前言技术积累Spark简介Spark核心功能及优势Spark运行架构Spark独立集群搭建安装docker和docker-composedocker-compose编排docker-compose编排并运行容器Spark集群官方案例测试写在最后前言很多同学都使用过经典的大数据分布式计算框架hadoop，其分布式文件系统HDFS对数据管理很友好，但是计算能力较Spark还是不足。俗话说工欲善

小沈同学呀·2023-08-27 09:28

有文化233·2023-08-19 23:46

PySpark之Python版本如何选择(详细版)

但是两个Spark集群安装的Python版本都是一样的，都是3.6.8之前对大数据Spark了解不多，接手之后协助开发在提交PythonSpark任务的时候遇到问题。

eaglecolin·2023-08-10 18:36

大数据Spark面试，distinct去重原理，是如何实现的

最近，有位朋友问我，distinct去重原理是怎么实现的？“在面试时，面试官问他了解distinct算子吗？”“了解啊，Spark的rdd，一种transFormation去重的算子，主要用来去重的”。“哟，看来你经常使用distinct算子，对distinct算子很熟悉啊”。“好说，好说”。“那你能说说distinct是如何实现去重的吗？”我朋友支支吾吾半天：“就是这样、那样去重的啊”。“这样、

喵感数据·2023-06-17 23:48

尚硅谷大数据技术Spark教程-笔记08【SparkSQL（介绍、特点、数据模型、核心编程、案例实操、总结）】

尚硅谷大数据技术-教程-学习路线-笔记汇总表【课程资料下载】视频地址：尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili尚硅谷大数据技术Spark教程-笔记01【SparkCore（概述

upward337·2023-06-17 07:12

尚硅谷大数据技术Spark教程-笔记09【SparkStreaming（概念、入门、DStream入门、案例实操、总结）】

尚硅谷大数据技术-教程-学习路线-笔记汇总表【课程资料下载】视频地址：尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili尚硅谷大数据技术Spark教程-笔记01【SparkCore（概述

upward337·2023-06-14 14:07

spark-env.sh配置——Spark学习日记

大数据Spark不显示Worker问题配置好spark后，输入jps只有Master，没有Worker修改spark-env.sh文件找到spark-env.sh位置//我的spark-env.sh位置

YYYYYY.·2023-06-08 08:51

大数据Spark、Mr、Impala使用parquet、textfile、snappy等不同数据存储编码和压缩的效率实测对比以及项目选型

整体说明会进行此次检测的背景介绍，通过官方以及自己的学习了解进行一些基础解释；使用具体的线上数据进行压缩比，查询性能的测试；查询性能的不同场景，大数据计算、用户查询性能等，包含Spark以及Impala的性能测试【这部分都是生产中会实际遇到的，希望能给大家阐述的清晰】；包含具体生产场景的项目选型；背景当前背景为生产中真是遇到的问题，并且进行测试和选型；当前数据层作为数据湖的上游，作为所有数据分析的

Kevin_鹿·2023-04-19 06:25

大数据Spark SparkSession的3种创建方式 Scala语言实现

1、什么是SparkSessionSparkSession是ApacheSpark2.0版本引入的一个编程接口，用于与Spark进行交互。它是Spark应用程序的入口点，提供了一种方便的方式来创建DataFrame、DataSet和SQLContext等数据结构，并且可以配置各种Spark应用程序的选项。SparkSession还管理了Spark应用程序的运行环境，包括Spark集群的连接，以及将

申子辰林·2023-04-18 01:00

尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境)】

视频地址：尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili尚硅谷大数据技术Spark教程-笔记01【SparkCore(概述、快速上手、运行环境)】尚硅谷大数据技术Spark教程-笔记

延锋L·2023-04-15 08:36

大数据Spark Dataset

目录1Dataset是什么2对比DataFrame3RDD、DF与DS转换4面试题：如何理解RDD、DataFrame和Dataset1Dataset是什么Dataset是在Spark1.6中添加的新的接口，是DataFrameAPI的一个扩展，是Spark最新的数据抽象，结合了RDD和DataFrame的优点。与RDD相比：保存了更多的描述信息，概念上等同于关系型数据库中的二维表；与DataFr

赵广陆·2023-04-13 20:37

Spark工作总结（干货篇）

Spark学习总结文章目录Spark学习总结什么是大数据Spark介绍及特点Spark架构及重要角色Spark程序启动流程基础篇`Dataset`和`DataFrame`广播变量累加器算子篇转化算子，行动算子

治愈爱吃肉·2023-03-30 02:30

大数据 Spark 架构

大数据Spark架构一．Spark的产生背景起源1.spark特点1.1轻量级快速处理Saprk允许传统的hadoop集群中的应用程序在内存中已100倍的速度运行即使在磁盘上也比传统的hadoop快10

起飞后的菜鸟·2023-02-26 07:19

大数据开发之路：hive篇

想成为云计算大数据Spark高手，看这里！戳我阅读年薪50W

乐姐·2023-01-17 15:03

基于大数据spark+hadoop的图书可视化分析系统

计算机老哥·2022-12-21 04:39

挨踢部落第一期：Spark离线分析维度

话题关键词：大数据spark数据分析数据画像部落阵容：徐韬，龙珠直播大数据主管；王劲，数果科技联合创始人；面向对象：初级开发工程师，数据分析师，运维工程师参与方式：加入51CTO开发者QQ

weixin_33815613·2022-12-10 00:11

大数据知识派：Linux新手如何成为大数据工程师？

这句话至少传递两种信息：1、大数据是海量的数据2、大数据处理无捷径，对分析处理技术提出了更高的要求想成为云计算大数据Spark高手，看这里！

乐姐·2022-12-08 12:09

大数据Spark电影评分数据分析

目录1数据ETL2使用SQL分析3使用DSL分析4保存结果数据5案例完整代码6Shuffle分区数目问题1数据ETL使用电影评分数据进行数据分析，分别使用DSL编程和SQL编程，熟悉数据处理函数及SQL使用，业务需求说明：对电影评分数据进行统分析，获取Top10电影（电影评分平均值最高，并且每个电影被评分的次数大于2000)。数据集ratings.dat总共100万条数据，数据格式如下每行数据各个

赵广陆·2022-12-04 08:17

大数据Spark MLlib机器学习

目录1什么是SparkMLlib？2支持的数据类型2.1本地向量集2.1.1、密集型数据集2.1.2稀疏型数据集2.2向量标签2.3本地矩阵2.4分布式矩阵2.4.1行矩阵2.4.2行索引矩阵2.4.3坐标矩阵2.4.4分块矩阵3RDD、DataSet、Dataframe区别及转化1什么是SparkMLlib？MLlib是Spark的机器学习（ML）库。旨在简化机器学习的工程实践工作，并方便扩展到

赵广陆·2022-10-22 20:49

【面试指南】AI算法面试

工程能力模型层面开发部署适合软工，CSAI算法应用》业务能力基于数据和业务对算法进行改进非CS方向3、需要的能力扎实的基础-->算法基础，代码基础算法基础：机器学习，深度学习，SQL&Python【数据比较大，使用大数据

瑾怀轩·2022-06-26 07:23

大数据Spark实战第六集图像处理和GraphX实战

办公模板库素材蛙·2022-05-02 07:09

大数据修炼之路

大数据修炼之路大数据Spark是用Scala语言编写架构，因此，认真学习Scala是首选。Scala是一种面向对象编程和函数式编程的多范式编程语言，和java有些不同又比java强大。

chenliheng5906·2022-03-28 07:26

【算法岗面试】某小厂E机器学习

商品id、类别、价格，mysql找出找出每类前10大的商品5.1000个学生成绩排序，比快排更快的方法6.常用的数据预处理有哪些操作7.transformer的文本抽取8.反欺诈（风控）的分类算法9.大数据

山顶夕景·2022-03-13 07:49

大数据Spark Sql中日期转换FROM_UNIXTIME和UNIX_TIMESTAMP的使用

目录UNIX_TIMESTAMPFROM_UNIXTIME众所周知，数字整型用来大小比较和计算运算要比字符型快的多，因此部分业务需要把时间字段转化为整型方便业务的快速计算和到达，这个整形数字是选定的日期距UTC时间'1970-01-0100:00:00'开始的秒数，目前为十位，比如常用来举例的1234567890，但毕竟数字不方便观察，后续还需要把这些时间数字转换为真正的时间字段这里就需要两个函数

·2022-02-28 15:56

学编程，学java还是大数据、android？平均月薪23k以上告诉你方向

有不少同学在纠结中，最近有不少初学者来问到，学习大数据，学习spark，公司主要使用那些语言编写，每听到这一个问题，起码还是很不错的，证明你已经开始学习大数据了，并了解大数据Spark是可以使用多种语言来实现开发的

南风开发大大·2022-02-16 10:26

大数据Spark算子

Spark代码流程1.创建SparkConf对象。--可以设置Applicationname。--可以设置运行模式及资源需求。2.创建SparkContext对象。3.基于Spark的上下文创建一个RDD，对RDD进行处理。4.应用程序中要有Action类算子来触发Transformation类算子执行。5.关闭Spark上下文对象SparkContext。SparkRdd的创建方式基于spark

铜锣湾寿司·2022-02-10 01:05

“互联网 ”创新创业培育“敢闯会创”的青年生力军

其中，云图团队依托于华为鲲鹏底层技术所选取的“鲲鹏BoostKit大数据Spark图算法优化”命题，实现了国际上首个面

·2021-10-27 09:36

大数据Spark Structured Streaming集成 Kafka

目录1Kafka数据消费2Kafka数据源3Kafka接收器3.1配置说明3.2实时数据ETL架构3.3模拟基站日志数据3.4实时增量ETL4Kafka特定配置1Kafka数据消费ApacheKafka是目前最流行的一个分布式的实时流消息系统，给下游订阅消费系统提供了并行处理和可靠容错机制，现在大公司在流式数据的处理场景，Kafka基本是标配。StructuredStreaming很好的集成Kaf

赵广陆·2021-09-03 19:49

如何成为大数据spark高手？

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台，它立足于内存计算，性能超过Hadoop百倍，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题，具有完善的生态系统，这直接奠定了其一统云计算大数据领域的霸主地位。伴随Spark技术

yoku酱·2021-06-19 02:50

想成为云计算大数据Spark高手，看这里！

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台，它立足于内存计算，性能超过Hadoop百倍，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题，具有完善的生态系统，这直接奠定了其一统云计算大数据领域的霸主地位。伴随Spark技术

金光闪闪耶·2021-06-08 16:55

2021年大数据Spark（五十四）：扩展阅读 SparkSQL底层如何执行

目录扩展阅读SparkSQL底层如何执行RDD和SparkSQL运行时的区别Catalyst扩展阅读SparkSQL底层如何执行RDD和SparkSQL运行时的区别RDD的运行流程大致运行步骤先将RDD解析为由Stage组成的DAG,后将Stage转为Task直接运行问题任务会按照代码所示运行,依赖开发者的优化,开发者的会在很大程度上影响运行效率解决办法创建一个组件,帮助开发者修改和优化代码,但这

Lansonli·2021-05-18 23:52

大数据Spark入门以及集群搭建

目录1.Spark概述1.1.Spark是什么1.2.Spark的特点(优点)1.3.Spark组件1.4.Spark和Hadoop的异同2.Spark集群搭建2.1.Spark集群结构2.2.Spark集群搭建2.3.Spark集群高可用搭建2.4.第一个应用的运行3.Spark入门3.1.Sparkshell的方式编写WordCount3.2.读取HDFS上的文件3.4.编写独立应用提交Spa

赵广陆·2021-05-04 16:17

2021年大数据Spark（三十四）：Spark Streaming概述

SparkStreaming在很多实时数据处理的场景中，都需要用到流式处理（StreamProcess）框架，Spark也包含了两个完整的流式处理框架SparkStreaming和StructuredStreaming（Spark2.0出现），先阐述流式处理框架，之后介绍SparkStreaming框架使用。SparkStreaming概述在传统的数据处理过程中，我们往往先将数据存入数据库中，当需

Lansonli·2021-04-21 19:39

大数据Spark面试，distinct去重原理，是如何实现的

最近，有位朋友问我，distinct去重原理是怎么实现的？“在面试时，面试官问他了解distinct算子吗？”“了解啊，Spark的rdd，一种transFormation去重的算子，主要用来去重的”。“哟，看来你经常使用distinct算子，对distinct算子很熟悉啊”。“好说，好说”。“那你能说说distinct是如何实现去重的吗？”我朋友支支吾吾半天：“就是这样、那样去重的啊”。“这样、

呆若喵喵·2020-09-16 11:57

大数据Spark“蘑菇云”行动第53课： Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战项目！！！大项目！！！超大型大数据项目！！！

大数据Spark“蘑菇云”行动第53课：Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战flume的配置kafka的配置

段智华·2020-09-15 13:52

第4章大数据Spark连接HBase数据读取与保存

上篇：第3章键值对RDD数据分区器数据读取与保存Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、Csv文件、Sequence文件以及Object文件；文件系统分为：本地文件系统、HDFS、HBASE以及数据库1、文件类数据读取与保存Text文件1）数据读取:textFile(String)scala>valhdfsFile=sc

江湖侠客·2020-09-15 03:44

推荐频道

大数据Spark

Spark Chapter 8 Spark SQL

基于SPARK的淘宝用户购物行为可视化分析

大数据Spark实战高手之路职业学习路线图

Java优质资源汇总（持续更新）

大数据课程结构

大数据Spark学习笔记—sparkcore

大数据SparkSql创建临时表并查询数据

软件开发学习资料大全

大数据Spark实时搜索日志实时分析

大数据Spark对SogouQ日志分析

大数据Spark Streaming入门

【Todo】【读书笔记】大数据Spark企业级实战版 & Scala学习

大数据Spark DStream

大数据Spark性能优化指南基础

实战：大数据Spark简介与docker-compose搭建独立集群

大数据spark相关总结

PySpark之Python版本如何选择(详细版)

大数据Spark面试，distinct去重原理，是如何实现的

尚硅谷大数据技术Spark教程-笔记08【SparkSQL（介绍、特点、数据模型、核心编程、案例实操、总结）】

尚硅谷大数据技术Spark教程-笔记09【SparkStreaming（概念、入门、DStream入门、案例实操、总结）】

spark-env.sh配置——Spark学习日记

大数据Spark、Mr、Impala使用parquet、textfile、snappy等不同数据存储编码和压缩的效率实测对比以及项目选型

大数据Spark SparkSession的3种创建方式 Scala语言实现

尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境)】

大数据Spark Dataset

Spark工作总结（干货篇）

大数据 Spark 架构

大数据开发之路：hive篇

基于大数据spark+hadoop的图书可视化分析系统

挨踢部落第一期：Spark离线分析维度

大数据知识派：Linux新手如何成为大数据工程师？

大数据Spark电影评分数据分析

大数据Spark MLlib机器学习

【面试指南】AI算法面试

大数据Spark实战第六集 图像处理和GraphX实战

大数据修炼之路

【算法岗面试】某小厂E机器学习

大数据Spark Sql中日期转换FROM_UNIXTIME和UNIX_TIMESTAMP的使用

学编程，学java还是大数据、android？平均月薪23k以上告诉你方向

大数据Spark算子

“互联网 ”创新创业 培育“敢闯会创”的青年生力军

大数据Spark Structured Streaming集成 Kafka

如何成为大数据spark高手？

想成为云计算大数据Spark高手，看这里！

2021年大数据Spark（五十四）：扩展阅读 SparkSQL底层如何执行

大数据Spark入门以及集群搭建

2021年大数据Spark（三十四）：Spark Streaming概述

大数据Spark面试，distinct去重原理，是如何实现的

大数据Spark“蘑菇云”行动第53课： Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战 项目！！！大项目！！！超大型大数据项目！！！

第4章 大数据Spark连接HBase数据读取与保存

大数据Spark实战第六集图像处理和GraphX实战

“互联网 ”创新创业培育“敢闯会创”的青年生力军

大数据Spark“蘑菇云”行动第53课： Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战项目！！！大项目！！！超大型大数据项目！！！

第4章大数据Spark连接HBase数据读取与保存