E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparksql
spark本地测试报错:java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSessio
pleasecheckyourinstallationandtryagainExceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/spark/sql/SparkSession原因是我在pom文件里引入的
sparksql
万事于足下
·
2023-09-23 18:09
一些错误
Spark
spark
Spark SQL【基于泰坦尼克号生还数据的 Spark 数据分析处理】
前言昨天实验课试着做了一个
SparkSQL
小案例,发现好多内容还是没有掌握,以及好多书上没有的内容需要学习。
让线程再跑一会
·
2023-09-23 06:50
Spark
数据分析
spark
Spark DataFrame
DataFrame它不是
sparksql
提出来的,而是早期在R、Pandas语言就已经有了的DataSet:ADataSetisadistributedcollectionofdata.
捕猎者
·
2023-09-23 06:38
datax同步数据翻倍,.hive-staging 导致的问题分析
二、环境Hive版本2.1.1三、分析3.1.hive-staging_hive产生的原因通过
SparkSQL
、HiveSQL、Hue等提交SELECT或者INSERTOVERWRIT
程序员小陶
·
2023-09-23 00:28
大数据进击之路
大数据
hive
bug
hadoop
大数据学习指南
大数据——Spark SQL
1、
SparkSQL
是什么
SparkSQL
是Spark中用于处理结构化数据的一个模块,前身是Shark,但本身继承了前身Hive兼容和内存列存储的一些优点。
AIGC人工智残
·
2023-09-22 14:56
大数据
大数据
spark
sql
4.pyspark.sql.Column
SparkSQL
和DataFrames重要的类有:pyspark.sql.SQLContext:DataFrame和SQL方法的主入口pyspark.sql.DataFrame:将分布式数据集分组到指定列名的数据框中
丫丫iii
·
2023-09-21 21:00
Spark的基础
实训笔记--Spark的基础Spark的基础一、Spark的诞生背景二、Spark概念2.1SparkCore2.2.
SparkSQL
2.3SparkStreaming2.4SparkMLlib2.5SparkGraphX2.6SparkR
cai-4
·
2023-09-21 18:56
实训
spark
大数据
分布式
HIVE,
SparkSql
和Presto对比
HIVE,
SparkSql
和Presto对比HIVEhive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
loophome
·
2023-09-21 09:20
大数据处理
hive
hadoop
数据仓库
JAVA代码实现hive连接mysql_Java采用JDBC的方式连接Hive(
SparkSQL
)
(作者:yangyang8848)一、Hive的访问方式一般情况下,Hive是不能直接Java连接并访问的,后来出现来一个
SparkSQL
的东东,变得可以通过JDBC的方式访问连接。首先,我先
林生风
·
2023-09-20 22:35
spark3 spark-sql explain 命令的执行过程
1.
SparkSQL
Driver对于每个SQL语句,除了CommandFactory定义的,如dfs之外,都创建一个
SparkSQL
Driver对象,然后调用他的init方法和run方法。
houzhizhen
·
2023-09-20 05:45
spark
spark
sql
简述
sparkSQL
中RDD、DataFrame、DataSet三者的区别与联系
1.RDD优点:编译时类型安全;编译时就能检查出类型错误;面向对象的编程风格;直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销;无论是集群间的通信,还是IO操作都需要对对象的结构和数据进行序列化和反序列化;GC的性能开销,频繁的创建和销毁对象,势必会增加GC2.DataFrameDataFrame引入了schema和off-heapschema:RDD每一行的数据结构都是一样的,这个
scott_alpha
·
2023-09-20 04:32
开源项目观察8月报
hue1月19:4.11https://docs.gethue.com/releases/release-notes-4.11.0/支持iceberg数据源通过缓存Livysession中的信息来加速
SparkSQL
xiaoliizi
·
2023-09-19 07:59
大数据
C++
golang
开源
大数据
基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(二)
二、Hive、
SparkSQL
、Impala比较Hive、
SparkSQL
和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案,但又各有特点。
xuzhichao1231
·
2023-09-17 19:33
hadoop生态圈
hadoop
spark
数据可视化
数据仓库
生态圈
Iceberg实战踩坑指南
目录第1章介绍第2章构建Iceberg第3章Spark操作3.1.配置参数和jar包3.2
Sparksql
操作3.2.1overwrite操作3.2.2动态覆盖3.2.3静态覆盖3.2.4删除数据3.2.5
数据与后端架构提升之路
·
2023-09-17 14:35
数据湖
大数据
Iceberg
flink
spark
Apache Spark 在爱奇艺的应用实践
在爱奇艺的现状ApacheSpark是爱奇艺大数据平台主要使用的离线计算框架,并支持部分流计算任务,用于数据处理、数据同步、数据查询分析等场景:数据处理:在数据开发平台中支持开发者提交SparkJar包任务或
SparkSQL
爱奇艺技术产品团队
·
2023-09-17 09:39
apache
spark
大数据
分布式
Apache Spark 的基本概念和在大数据分析中的应用
2.
SparkSQL
:是Spar
IKUN家族
·
2023-09-17 09:08
spark
数据分析
大数据
企业级数据仓库-理论知识
SparkSQL
:属于Spark生态圈,HiveonSqark。HBase:NoSQL,高并发读,适合表结构频繁变动。
beyond_champion
·
2023-09-17 03:39
数据仓库
大数据
数据分析
数据仓库
计算机毕业设计之Python+Spark+LSTM电商爬虫 商品推荐系统 商品评论情感分析 电商大数据 电商推荐系统 大数据毕业设计
开发技术Hadoop、Spark、
SparkSQL
、Python、MySQL、协同过滤算法(基于用户+基于物品)、LSTM情感分析、Python爬虫、echarts、阿里云短信接口、支付宝沙箱支付、百度
计算机毕业设计大神
·
2023-09-16 22:57
pyspark中文api
内容基于官网pyspark-
SparkSQL
官方文档翻译及拓展官方文档:https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql
一个散步者的梦
·
2023-09-15 02:01
Spark
Python
大数据
python
pyspark
spark
第十一篇|基于
SparkSQL
的电影分析项目实战
在本篇分享中,将介绍一个完整的项目案例,该案例会真实还原企业中
SparkSQL
的开发流程,手把手教你构建一个基于
SparkSQL
的分析系统。
大数据技术与数仓
·
2023-09-14 12:56
SparkSQL
3.0性能优化
当我看到Spark3.0版本对于
SparkSQL
性能优化之后,不由自主的选择去使用
SparkSQL
,在此分享下
SparkSQL
3.0新功能。
qing_feng
·
2023-09-14 12:40
大数据期末考试题库
A.SparkStreamingBMlibCGraphxDSparkR下面哪个端口不是spark自带服务的端口(C)A.8080B.4040C.8090D.18080spark1.4版本的最大变化(B)A
sparksql
Release
萌萌哒の瑞萌萌
·
2023-09-13 07:42
大数据
6.pysparl.sql.DataFrameNaFunctions
SparkSQL
和DataFrames重要的类有:pyspark.sql.SQLContext:DataFrame和SQL方法的主入口pyspark.sql.DataFrame:将分布式数据集分组到指定列名的数据框中
丫丫iii
·
2023-09-11 15:30
Spark 【Spark SQL(一)DataFrame的创建、保存与基本操作】
前言今天学习
SparkSQL
,前面的RDD编程要想熟练还是得通过项目来熟练,所以先把Spark过一遍,后期针对不足的地方再加强,这样效率会更高一些。
让线程再跑一会
·
2023-09-10 23:52
Spark
spark
大数据
分布式
Spark-Core常用算子总结(干货)
真的是印证了孔子的那句话温故而知新我写这篇博客已经是我第三遍学习Spark了,将来肯定会有第四遍、第五遍…Spark分为1、Spark-Core:Spark最核心的部分,所有的都基于Core,比如RDD的转换2、
SparkSql
biningo-QAQ
·
2023-09-10 20:43
Spark基础
SparkSQL
JDBC连接
SparkSQL
JDBC连接文章目录
SparkSQL
JDBC连接1、开启hive元数据服务2、开启sparkjdbc服务3、在命令行中访问4、测试:
SparkSQL
ThriftJDBC/ODBCserver
纯欲天花板_
·
2023-09-09 20:44
spark
hive
spark
big
data
jdbc
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
Spark由多个组件组成,包括SparkCore、
SparkSQL
、SparkStreaming、MLlib和GraphX等。
kkkliaoo
·
2023-09-09 05:36
开发语言
Spark1.*中CreateTableAsSelect 语句实现
本文以一个CreateTableAsSelect的Command的job提交执行过程为例,说明
sparksql
的job提交执行过程``
SparkSQL
CLIDriver:main():ret=cli.processLine
wankunde
·
2023-09-09 04:35
spark
使用 Pandera 的 PySpark 应用程序的数据验证
推荐:使用NSDT场景编辑器快速搭建3D应用场景本文简要介绍了Pandera的主要功能,然后继续解释Pandera数据验证如何与自最新版本(Pandera0.16.0)以来使用本机Py
SparkSQL
的数据处理工作流集成
ygtu2018
·
2023-09-09 02:33
大数据
数据库
人工智能
Spark SQL 连接操作(十五)
一、数据准备
SparkSQL
的多表连接,需要预先准备测试数据。
无剑_君
·
2023-09-08 04:44
Spark 6:Spark SQL DataFrame
SparkSQL
是Spark的一个模块,用于处理海量结构化数据。
ZhaoXiangmoStu
·
2023-09-06 17:38
Python
spark
大数据
hive
SparkSQL
_Spark SQL运行流程及性能优化:RBO和CBO
1
SparkSQL
运行流程1.1
SparkSQL
核心——Catalyst
SparkSQL
的核心是Catalyst查询编译器,它将用户程序中的SQL/Dataset/DataFrame经过一系列操作,最终转化为
高达一号
·
2023-09-06 16:21
Spark
spark
性能优化
大数据
Spark_
SparkSQL
_broadcast join不生效问题
问题与排查过程大数据计算通常会存在大表join小表的情况,如果相对较小的表允许广播到各个executor的话,可以使用广播方式mapjoin,这样还可以避免数据倾斜。平时看文档记着有个参数是:spark.sql.autoBroadcastJoinThreshold10485760(10MB)Configuresthemaximumsizeinbytesforatablethatwillbebroa
高达一号
·
2023-09-06 16:51
Spark
spark
大数据
分布式
大数据课程K22——Spark的
SparkSQL
的API调用
文章作者邮箱:
[email protected]
地址:广东惠州▲本章节目的⚪掌握Spark的通过api使用
SparkSQL
;一、通过api使用
SparkSQL
1.实现步骤1.打开scalaIDE开发环境
伟雄
·
2023-09-06 13:42
大数据
spark
分布式
大数据课程K21——Spark的
SparkSQL
基础语法
文章作者邮箱:
[email protected]
地址:广东惠州▲本章节目的⚪掌握Spark的
SparkSQL
通过方法来使用;⚪掌握Spark的
SparkSQL
通过sql语句来调用;一、
SparkSQL
伟雄
·
2023-09-06 13:39
大数据
spark
分布式
大数据课程K20——Spark的
SparkSql
概述
文章作者邮箱:
[email protected]
地址:广东惠州▲本章节目的⚪了解Spark的
SparkSQL
由来;⚪了解Spark的
SparkSQL
特点;⚪了解Spark的
SparkSQL
优势;⚪掌握
伟雄
·
2023-09-05 11:08
大数据
spark
分布式
13 | Spark SQL 的 DataFrame API
Apache
SparkSQL
提供了一组强大的API用于结构化数据的处理和分析。
小 森
·
2023-09-04 20:07
大数据系列
hadoop
Spark
系列
spark
sql
大数据
16 | Spark SQL 的 UDF(用户自定义函数)
UDF(用户自定义函数):
SparkSQL
允许用户定义自定义函数,以便在SQL查询或DataFrame操作中使用。这些UDF可以扩展
SparkSQL
的功能,使用户能够执行更复杂的数据操作。
小 森
·
2023-09-04 20:03
大数据系列
hadoop
Spark
系列
spark
sql
ajax
12 | 使用 Spark SQL执行CURL
SparkSQL
是ApacheSpark生态系统中的一个组件,它提供了用于结构化数据处理和分析的高级接口。
SparkSQL
可以让用户使用SQL语言来查询和操作数据,同时也提供了强大的分布式计算能力。
小 森
·
2023-09-04 17:02
大数据系列
hadoop
Spark
系列
spark
sql
大数据
15 | Spark SQL 的 SQL API 操作
SQLAPI:
SparkSQL
允许使用标准SQL语句来查询和分析数据。用户可以通过SparkSession执行SQL查询,并将结果返回为DataFrame。
小 森
·
2023-09-04 17:01
大数据系列
hadoop
Spark
系列
spark
sql
ajax
SparkSql
写Mysql报错:java.sql.BatchUpdateException: Incorrect string value: '\xE5\xBC\x80\xE5\x8F\x91...
一、报错信息
SparkSql
代码写入Mysql逻辑如下,代码会自动生成目标Mysql表,报错如图:frame.createTempView("job_detail")session.sql("select
扎西的德勒
·
2023-09-03 13:20
【4-5章】Spark编程基础(Python版)
课程资源:(林子雨)Spark编程基础(Python版)_哔哩哔哩_bilibili第4章RDD编程(21节)Spark生态系统:SparkCore:底层核心(RDD编程是针对这个)
SparkSQL
:SQL
如何原谅奋力过但无声
·
2023-09-03 06:28
大数据组件
spark
大数据
分布式
Spark SQL常用函数 函数分类及其简介
SparkSQL
函数一、概述1、来源:本文总结自spark2.3.1API文档org.apache.spark.sql:objectfunctions;2、使用:org.apache.spark.sql.functions
vitrovitro
·
2023-09-03 01:43
BigData
Spark SQL函数总结
SparkSQL
函数大杂烩函数很多,都在下面了:1.聚合函数2.集合函数3.时间函数4.数学函数5.混杂(misc)函数6.其他非聚合函数7.排序函数8.字符串函数9.UDF函数10.窗口函数org.apache.spark.sql.functions
明月清风,良宵美酒
·
2023-09-03 01:41
大数据技术栈
大数据
big
data
spark
sql
Spark SQL 函数
SparkAPI全集(2):
SparkSQL
函数全集Postedon2018-03-23Editedon2019-02-05Views:2183Summaryorg.apache.spark.sql.functions
'煎饼侠
·
2023-09-03 01:11
spark
使用 Hue 玩转 Amazon EMR(
SparkSQL
, Phoenix) 和 Amazon Redshift
另一方面Hue自己独特的优势可以使用
SparkSQL
进行Spar
·
2023-09-02 23:50
amazon-emr
使用 Hue 玩转 Amazon EMR(
SparkSQL
, Phoenix) 和 Amazon Redshift
另一方面Hue自己独特的优势可以使用
SparkSQL
进行Spar
亚马逊云开发者
·
2023-09-02 23:52
Amazon
EMR
java版Spring Cloud之Spark 离线开发框架设计与实现
SparkSQL
使用标准的数据连接,与Hive兼容,易与其它语言API整合,表达清晰、简单易上手、学习成本低,是开发者开发简单数据处理的首选语言,但对
微服务技术分享
·
2023-09-02 11:16
直播电商
spark
java
spring
cloud
Spark Analyzed LogicalPlan 的生成过程用的规则
SparkSQL
解析之后是UnresolvedLogicalPlan,经过Analyzer之后变为ResolvedLogicalPlan。用的规则组成一个batches:Seq[Batch]。
houzhizhen
·
2023-09-02 11:16
spark
spark
大数据
分布式
大数据之Spark基本概念 特点 以及各个组件的作用的详细介绍
Spark包含SparkCore、
SparkSQL
、SparkStreaming、MLlib、Graph可以解决大数据中的BatchProcessing
BAO7988
·
2023-09-02 08:35
大数据
大数据
大数据开发
大数据分析
spark
大数据学习
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他