E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据Spark
Spark Chapter 8 Spark SQL
【参考以慕课网日志分析为例进入
大数据Spark
sql】0导读SQL:MySQL,Oracle,DB2,SQLServer在大数据平台上实现大数据计算:Hive/SparkSQL/SparkCore直接使用
深海suke
·
2024-02-07 01:34
基于SPARK的淘宝用户购物行为可视化分析
基于SPARK的淘宝用户购物行为可视化分析这篇文章旨在练习
大数据Spark
操作,做一些简单的分析。后续阶段将基于三台虚拟机情况下进行调优,以期实现性能最优化。
番茄薯仔
·
2024-01-17 02:14
spark
spark
大数据
hadoop
大数据Spark
实战高手之路职业学习路线图
从零起步,分阶段无任何障碍逐步掌握大数据统一计算平台Spark,从Spark框架编写和开发语言Scala开始,到Spark企业级开发,再到Spark框架源码解析、Spark与Hadoop的融合、商业案例和企业面试,一次性彻底掌握Spark,成为云计算大数据时代的幸运儿和弄潮儿,笑傲大数据职场和人生!学习条件1,掌握Scala;2,精通Spark企业及开发;3,精通Spark框架源码实现;4,掌握S
smileyboy2009
·
2023-12-26 10:56
hadoop
spark
spark
hadoop
Java优质资源汇总(持续更新)
ReentrantLock的实现看AQS的原理及应用不可不说的Java“锁”事CompletableFuture原理与实践Java线程池实现原理及其在美团业务中的实践MySQL优化官方文档:MySQL优化
大数据
tcoding
·
2023-11-22 08:43
java
大数据课程结构
1、第一阶段javaSE基础阶段-张一峰2、第二阶段-JavaWeb+数据库阶段-张3、第三阶段-大数据分布式架构-张一峰4、第四阶段-大数据Hadoop实战-张一峰5、第五阶段-
大数据spark
实战-
张一峰
·
2023-11-19 16:31
大数据
大数据
大数据Spark
学习笔记—sparkcore
目录Spark概述核心模块Spark编程配置IDEA配置scala环境WordCount案例Spark-Standalone运行环境Local配置步骤集群分工解压文件修改配置启动集群配置历史服务器Spark-Yarn运行环境配置步骤配置历史服务器Windows运行环境配置步骤常用端口号Spark架构核心组件DriverExecutorMaster&WorkerApplicationMasterHa
Int mian[]
·
2023-11-15 03:12
大数据
大数据
spark
hadoop
scala
分布式
大数据Spark
Sql创建临时表并查询数据
importorg.apache.spark.sql.{DataFrame,SparkSession}importorg.apache.spark.sql.types.{LongType,StringType,StructType}/***AuthorVincer*Date2019/09/2610:10*LanguageScala*/objectStreamingDS{defmain(args:A
Vincer_DB
·
2023-11-13 16:04
大数据
Scala
大数据
SparkSQL
软件开发学习资料大全
进入
大数据Spark
SQL的世界链接:https://pan.baidu.com/s/1_AINgCN8KaQEbnJRkWnKdw提取码:7j85Java深入微服务原理改造房产销售平台链接:https
时光如水_岁月如哥
·
2023-11-12 17:09
others
开发
大数据Spark
实时搜索日志实时分析
目录1业务场景2初始化环境2.1创建Topic2.2模拟日志数据2.3StreamingContextUtils工具类3实时数据ETL存储4实时状态更新统计4.1updateStateByKey函数4.2mapWithState函数5实时窗口统计1业务场景百度搜索风云榜(http://top.baidu.com/)以数亿网民的单日搜索行为作为数据基础,以搜索关键词为统计对象建立权威全面的各类关键词
赵广陆
·
2023-10-23 05:26
spark
spark
big
data
hadoop
大数据Spark
对SogouQ日志分析
目录1业务需求2准备工作2.1HanLP中文分词2.2样例类SogouRecord3业务实现3.1读取数据3.2搜索关键词统计3.3用户搜索点击统计3.4搜索时间段统计3.5完整代码1业务需求使用搜狗实验室提供【用户查询日志(SogouQ)】数据,使用Spark框架,将数据封装到RDD中进行业务数据处理分析。数据网址:http://www.sogou.com/labs/resource/q.php
赵广陆
·
2023-10-23 05:56
spark
大数据Spark
Streaming入门
目录1官方案例运行2编程实现2.1StreamingContext2.2编写代码2.3Streaming应用监控3Streaming工作原理3.1创建StreamingContext3.2接收器接收数据3.3汇报接收Block报告3.4Streaming工作原理总述1官方案例运行SparkStreaming官方提供Example案例,功能描述:从TCPSocket数据源实时消费数据,对每批次Bat
赵广陆
·
2023-10-21 11:28
spark
spark
big
data
【Todo】【读书笔记】
大数据Spark
企业级实战版 & Scala学习
目录:/Users/baidu/Documents/Data/Interview/Hadoop-Spark-Storm-Kafka下了这本《
大数据Spark
企业级实战版》,另外还有一本《Spark大数据处理
weixin_33813128
·
2023-10-19 05:00
scala
大数据
java
大数据Spark
DStream
目录1DStream是什么2DStreamOperations2.1函数概述2.2转换函数:transform2.3输出函数:foreachRDD3流式应用状态1DStream是什么SparkStreaming模块将流式数据封装的数据结构:DStream(DiscretizedStream,离散化数据流,连续不断的数据流),代表持续性的数据流和经过各种Spark算子操作后的结果数据流。离散数据流(
赵广陆
·
2023-10-16 11:30
spark
spark
scala
big
data
大数据Spark
性能优化指南基础
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能
金光闪闪耶
·
2023-09-11 21:31
实战:
大数据Spark
简介与docker-compose搭建独立集群
文章目录前言技术积累Spark简介Spark核心功能及优势Spark运行架构Spark独立集群搭建安装docker和docker-composedocker-compose编排docker-compose编排并运行容器Spark集群官方案例测试写在最后前言很多同学都使用过经典的大数据分布式计算框架hadoop,其分布式文件系统HDFS对数据管理很友好,但是计算能力较Spark还是不足。俗话说工欲善
小沈同学呀
·
2023-08-27 09:28
spark
大数据
docker
大数据
spark
docker
大数据spark
相关总结
0、什么是sparkApacheSpark™是用于大规模数据处理的统一分析引擎。它可以高效的支撑更多计算模式,包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算,及时依赖磁盘进行复杂的运算,Spark依然比MapReduce更加高效。1、初始化SparkSpark程序必须做的第一件事情是创建一个SparkContext对象,它会告诉Spark如何访问集群。要创建一个SparkC
有文化233
·
2023-08-19 23:46
小知识点
PySpark之Python版本如何选择(详细版)
但是两个Spark集群安装的Python版本都是一样的,都是3.6.8之前对
大数据Spark
了解不多,接手之后协助开发在提交PythonSpark任务的时候遇到问题。
eaglecolin
·
2023-08-10 18:36
大数据
python
spark
大数据
大数据Spark
面试,distinct去重原理,是如何实现的
最近,有位朋友问我,distinct去重原理是怎么实现的?“在面试时,面试官问他了解distinct算子吗?”“了解啊,Spark的rdd,一种transFormation去重的算子,主要用来去重的”。“哟,看来你经常使用distinct算子,对distinct算子很熟悉啊”。“好说,好说”。“那你能说说distinct是如何实现去重的吗?”我朋友支支吾吾半天:“就是这样、那样去重的啊”。“这样、
喵感数据
·
2023-06-17 23:48
尚硅谷大数据技术Spark教程-笔记08【SparkSQL(介绍、特点、数据模型、核心编程、案例实操、总结)】
尚硅谷大数据技术-教程-学习路线-笔记汇总表【课程资料下载】视频地址:尚硅谷
大数据Spark
教程从入门到精通_哔哩哔哩_bilibili尚硅谷大数据技术Spark教程-笔记01【SparkCore(概述
upward337
·
2023-06-17 07:12
#
Spark
大数据
spark
sparkSQL
sql
DataFrame
尚硅谷大数据技术Spark教程-笔记09【SparkStreaming(概念、入门、DStream入门、案例实操、总结)】
尚硅谷大数据技术-教程-学习路线-笔记汇总表【课程资料下载】视频地址:尚硅谷
大数据Spark
教程从入门到精通_哔哩哔哩_bilibili尚硅谷大数据技术Spark教程-笔记01【SparkCore(概述
upward337
·
2023-06-14 14:07
大数据
大数据
spark
SparkStreaming
Dstream
案例实操
spark-env.sh配置——Spark学习日记
大数据Spark
不显示Worker问题配置好spark后,输入jps只有Master,没有Worker修改spark-env.sh文件找到spark-env.sh位置//我的spark-env.sh位置
YYYYYY.
·
2023-06-08 08:51
Spark
spark-env.sh
大数据Spark
、Mr、Impala使用parquet、textfile、snappy等不同数据存储编码和压缩的效率实测对比以及项目选型
整体说明会进行此次检测的背景介绍,通过官方以及自己的学习了解进行一些基础解释;使用具体的线上数据进行压缩比,查询性能的测试;查询性能的不同场景,大数据计算、用户查询性能等,包含Spark以及Impala的性能测试【这部分都是生产中会实际遇到的,希望能给大家阐述的清晰】;包含具体生产场景的项目选型;背景当前背景为生产中真是遇到的问题,并且进行测试和选型;当前数据层作为数据湖的上游,作为所有数据分析的
Kevin_鹿
·
2023-04-19 06:25
数据中台
数仓
大数据
spark
数据仓库
大数据
parquet
snappy
大数据Spark
SparkSession的3种创建方式 Scala语言实现
1、什么是SparkSessionSparkSession是ApacheSpark2.0版本引入的一个编程接口,用于与Spark进行交互。它是Spark应用程序的入口点,提供了一种方便的方式来创建DataFrame、DataSet和SQLContext等数据结构,并且可以配置各种Spark应用程序的选项。SparkSession还管理了Spark应用程序的运行环境,包括Spark集群的连接,以及将
申子辰林
·
2023-04-18 01:00
Scala
BigData
Spark
scala
spark
大数据
尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境)】
视频地址:尚硅谷
大数据Spark
教程从入门到精通_哔哩哔哩_bilibili尚硅谷大数据技术Spark教程-笔记01【SparkCore(概述、快速上手、运行环境)】尚硅谷大数据技术Spark教程-笔记
延锋L
·
2023-04-15 08:36
#
Spark
大数据
spark
尚硅谷
hadoop
计算
大数据Spark
Dataset
目录1Dataset是什么2对比DataFrame3RDD、DF与DS转换4面试题:如何理解RDD、DataFrame和Dataset1Dataset是什么Dataset是在Spark1.6中添加的新的接口,是DataFrameAPI的一个扩展,是Spark最新的数据抽象,结合了RDD和DataFrame的优点。与RDD相比:保存了更多的描述信息,概念上等同于关系型数据库中的二维表;与DataFr
赵广陆
·
2023-04-13 20:37
spark
spark
scala
big
data
Spark工作总结(干货篇)
Spark学习总结文章目录Spark学习总结什么是
大数据Spark
介绍及特点Spark架构及重要角色Spark程序启动流程基础篇`Dataset`和`DataFrame`广播变量累加器算子篇转化算子,行动算子
治愈爱吃肉
·
2023-03-30 02:30
大数据
spark
大数据
分布式
大数据 Spark 架构
大数据Spark
架构一.Spark的产生背景起源1.spark特点1.1轻量级快速处理Saprk允许传统的hadoop集群中的应用程序在内存中已100倍的速度运行即使在磁盘上也比传统的hadoop快10
起飞后的菜鸟
·
2023-02-26 07:19
大数据开发之路:hive篇
想成为云计算
大数据Spark
高手,看这里!戳我阅读年薪50W
乐姐
·
2023-01-17 15:03
大数据
大数据
大数据学习
大数据开发
大数据入门
hive
基于
大数据spark
+hadoop的图书可视化分析系统
作者主页:计算机毕设老哥精彩专栏推荐订阅:在下方专栏Java实战项目专栏Python实战项目专栏安卓实战项目专栏微信小程序实战项目专栏文章目录Java实战项目专栏Python实战项目专栏安卓实战项目专栏微信小程序实战项目专栏一、开发介绍1.1开发环境二、系统介绍2.1图片展示三、部分代码设计总结有问题评论区交流Java实战项目专栏Python实战项目专栏安卓实战项目专栏微信小程序实战项目专栏一、开
计算机老哥
·
2022-12-21 04:39
Java实战项目
spark
大数据
hadoop
mybatis
django
挨踢部落第一期:Spark离线分析维度
话题关键词:
大数据spark
数据分析数据画像部落阵容:徐韬,龙珠直播大数据主管;王劲,数果科技联合创始人;面向对象:初级开发工程师,数据分析师,运维工程师参与方式:加入51CTO开发者QQ
weixin_33815613
·
2022-12-10 00:11
大数据
移动开发
嵌入式
大数据知识派:Linux新手如何成为大数据工程师?
这句话至少传递两种信息:1、大数据是海量的数据2、大数据处理无捷径,对分析处理技术提出了更高的要求想成为云计算
大数据Spark
高手,看这里!
乐姐
·
2022-12-08 12:09
大数据
大数据
大数据学习
大数据开发
大数据入门
人工智能
大数据Spark
电影评分数据分析
目录1数据ETL2使用SQL分析3使用DSL分析4保存结果数据5案例完整代码6Shuffle分区数目问题1数据ETL使用电影评分数据进行数据分析,分别使用DSL编程和SQL编程,熟悉数据处理函数及SQL使用,业务需求说明:对电影评分数据进行统分析,获取Top10电影(电影评分平均值最高,并且每个电影被评分的次数大于2000)。数据集ratings.dat总共100万条数据,数据格式如下每行数据各个
赵广陆
·
2022-12-04 08:17
spark
spark
big
data
r语言
大数据Spark
MLlib机器学习
目录1什么是SparkMLlib?2支持的数据类型2.1本地向量集2.1.1、密集型数据集2.1.2稀疏型数据集2.2向量标签2.3本地矩阵2.4分布式矩阵2.4.1行矩阵2.4.2行索引矩阵2.4.3坐标矩阵2.4.4分块矩阵3RDD、DataSet、Dataframe区别及转化1什么是SparkMLlib?MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到
赵广陆
·
2022-10-22 20:49
spark
spark
mllib
big
data
【面试指南】AI算法面试
工程能力模型层面开发部署适合软工,CSAI算法应用》业务能力基于数据和业务对算法进行改进非CS方向3、需要的能力扎实的基础-->算法基础,代码基础算法基础:机器学习,深度学习,SQL&Python【数据比较大,使用
大数据
瑾怀轩
·
2022-06-26 07:23
面试
大数据Spark
实战第六集 图像处理和GraphX实战
什么是图:图模式,图相关技术与使用场景在本模块中,我们将学习Spark如何处理图,也就是Spark的图挖掘套件GraphX。虽然图这种数据结构在最近几年中,越来越多地出现在业务场景中,但平心而论,图的使用频率相比前面所学的内容还没有那么频繁。但是,一旦有这方面的需求,无论是工程师还是科学家,都可以用Spark提供的解决方案很好地完成任务,甚至可以说是“屠龙技”也不为过,经过本模块的学习之后,相信你
办公模板库 素材蛙
·
2022-05-02 07:09
大数据
教程
spark
mapreduce
graphx
大数据修炼之路
大数据修炼之路
大数据Spark
是用Scala语言编写架构,因此,认真学习Scala是首选。Scala是一种面向对象编程和函数式编程的多范式编程语言,和java有些不同又比java强大。
chenliheng5906
·
2022-03-28 07:26
大数据
scala
运维
【算法岗面试】某小厂E机器学习
商品id、类别、价格,mysql找出找出每类前10大的商品5.1000个学生成绩排序,比快排更快的方法6.常用的数据预处理有哪些操作7.transformer的文本抽取8.反欺诈(风控)的分类算法9.
大数据
山顶夕景
·
2022-03-13 07:49
面试
机器学习
机器学习
面试
推荐算法
大数据Spark
Sql中日期转换FROM_UNIXTIME和UNIX_TIMESTAMP的使用
目录UNIX_TIMESTAMPFROM_UNIXTIME众所周知,数字整型用来大小比较和计算运算要比字符型快的多,因此部分业务需要把时间字段转化为整型方便业务的快速计算和到达,这个整形数字是选定的日期距UTC时间'1970-01-0100:00:00'开始的秒数,目前为十位,比如常用来举例的1234567890,但毕竟数字不方便观察,后续还需要把这些时间数字转换为真正的时间字段这里就需要两个函数
·
2022-02-28 15:56
学编程,学java还是大数据、android?平均月薪23k以上告诉你方向
有不少同学在纠结中,最近有不少初学者来问到,学习大数据,学习spark,公司主要使用那些语言编写,每听到这一个问题,起码还是很不错的,证明你已经开始学习大数据了,并了解
大数据Spark
是可以使用多种语言来实现开发的
南风开发大大
·
2022-02-16 10:26
大数据Spark
算子
Spark代码流程1.创建SparkConf对象。--可以设置Applicationname。--可以设置运行模式及资源需求。2.创建SparkContext对象。3.基于Spark的上下文创建一个RDD,对RDD进行处理。4.应用程序中要有Action类算子来触发Transformation类算子执行。5.关闭Spark上下文对象SparkContext。SparkRdd的创建方式基于spark
铜锣湾寿司
·
2022-02-10 01:05
“互联网 ”创新创业 培育“敢闯会创”的青年生力军
其中,云图团队依托于华为鲲鹏底层技术所选取的“鲲鹏BoostKit
大数据Spark
图算法优化”命题,实现了国际上首个面
·
2021-10-27 09:36
深度学习
大数据Spark
Structured Streaming集成 Kafka
目录1Kafka数据消费2Kafka数据源3Kafka接收器3.1配置说明3.2实时数据ETL架构3.3模拟基站日志数据3.4实时增量ETL4Kafka特定配置1Kafka数据消费ApacheKafka是目前最流行的一个分布式的实时流消息系统,给下游订阅消费系统提供了并行处理和可靠容错机制,现在大公司在流式数据的处理场景,Kafka基本是标配。StructuredStreaming很好的集成Kaf
赵广陆
·
2021-09-03 19:49
spark
kafka
spark
big
data
如何成为
大数据spark
高手?
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位。伴随Spark技术
yoku酱
·
2021-06-19 02:50
想成为云计算
大数据Spark
高手,看这里!
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位。伴随Spark技术
金光闪闪耶
·
2021-06-08 16:55
2021年
大数据Spark
(五十四):扩展阅读 SparkSQL底层如何执行
目录扩展阅读SparkSQL底层如何执行RDD和SparkSQL运行时的区别Catalyst扩展阅读SparkSQL底层如何执行RDD和SparkSQL运行时的区别RDD的运行流程大致运行步骤先将RDD解析为由Stage组成的DAG,后将Stage转为Task直接运行问题任务会按照代码所示运行,依赖开发者的优化,开发者的会在很大程度上影响运行效率解决办法创建一个组件,帮助开发者修改和优化代码,但这
Lansonli
·
2021-05-18 23:52
#
Spark
SparkSQL底层如何执行
大数据Spark
入门以及集群搭建
目录1.Spark概述1.1.Spark是什么1.2.Spark的特点(优点)1.3.Spark组件1.4.Spark和Hadoop的异同2.Spark集群搭建2.1.Spark集群结构2.2.Spark集群搭建2.3.Spark集群高可用搭建2.4.第一个应用的运行3.Spark入门3.1.Sparkshell的方式编写WordCount3.2.读取HDFS上的文件3.4.编写独立应用提交Spa
赵广陆
·
2021-05-04 16:17
spark
2021年
大数据Spark
(三十四):Spark Streaming概述
SparkStreaming在很多实时数据处理的场景中,都需要用到流式处理(StreamProcess)框架,Spark也包含了两个完整的流式处理框架SparkStreaming和StructuredStreaming(Spark2.0出现),先阐述流式处理框架,之后介绍SparkStreaming框架使用。SparkStreaming概述在传统的数据处理过程中,我们往往先将数据存入数据库中,当需
Lansonli
·
2021-04-21 19:39
大数据
Spark
Streaming
大数据Spark
面试,distinct去重原理,是如何实现的
最近,有位朋友问我,distinct去重原理是怎么实现的?“在面试时,面试官问他了解distinct算子吗?”“了解啊,Spark的rdd,一种transFormation去重的算子,主要用来去重的”。“哟,看来你经常使用distinct算子,对distinct算子很熟悉啊”。“好说,好说”。“那你能说说distinct是如何实现去重的吗?”我朋友支支吾吾半天:“就是这样、那样去重的啊”。“这样、
呆若喵喵
·
2020-09-16 11:57
spark
scala
面试
hadoop
大数据Spark
“蘑菇云”行动第53课: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战 项目!!!大项目!!!超大型大数据项目!!!
大数据Spark
“蘑菇云”行动第53课:Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战flume的配置kafka的配置
段智华
·
2020-09-15 13:52
大数据蘑菇云行动
第4章
大数据Spark
连接HBase数据读取与保存
上篇:第3章键值对RDD数据分区器数据读取与保存Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;文件系统分为:本地文件系统、HDFS、HBASE以及数据库1、文件类数据读取与保存Text文件1)数据读取:textFile(String)scala>valhdfsFile=sc
江湖侠客
·
2020-09-15 03:44
SparkCore
上一页
1
2
3
4
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他