Spark学习之路第9页

Hive Sql优化记录

日常检查ETLjob时发现一段sql采用hiveonmr执行比hiveonspark要快70%，与正常的认知正好相反，所以对该sql进行了详细分析。

风筝flying·2024-02-07 07:40

SparkJDBC读写数据库实战

默认的操作代码valdf=spark.read.format("jdbc").option("url","jdbc:postgresql://localhost:5432/testdb").option

SunnyRivers·2024-02-07 07:41

IDEA 本地运行Spark

IDEA本地运行Spark1、背景2、环境准备3、具体流程3.1IDEA创建maven项目3.2pom.xml配置3.3Demo程序示例3.4结果输出4、总结改进1、背景主要用于本地阅读Spark源码，

fir_dameng·2024-02-07 06:41

Spark Scala大数据编程实例

一、Scala1.1、Scala简介Scala是一门现代的多范式编程语言，平滑地集成了面向对象和函数式语言的特性，旨在以简练、优雅的方式来表达常用编程模式。Scala的设计吸收借鉴了许多种编程语言的思想，只有很少量特点是Scala自己独有的。Scala语言的名称来自于“可伸展的语言”，从写个小脚本到建立个大系统的编程任务均可胜任。Scala运行于Java平台（JVM，Java虚拟机）上，并兼容现有

一直de不完的bug·2024-02-07 06:38

win10 spark scala 本地运行wordcount

hadoopcommon，可以从github下载zip，解包以后设置HADOOP_HOME环境变量指向它，然后在PATH里加上HADOOP_HOME\bin，特别注意，hadoopcommon的版本要和spark

疯琴·2024-02-07 06:06

Scala与java

目录Scala简介Scala和java的区别Spark选择Scala的原因Scala：Object与Class的区别Scala样例类和普通类的区别Scala中的None,Nothing,Null,NilScala

K. Bob·2024-02-07 06:05

Spark scala如何本地运行

Sparkscala如何本地运行Spark任务调试太费时间啦SparkScala本地运行Spark任务调试太费时间啦ApacheSpark是一个开源的大数据处理框架，它提供了一个接口用于编程大规模分布式计算

HanhahnaH·2024-02-07 06:03

Zeppelin结合Flink查询hudi数据

目前ApacheZeppelin支持ApacheSpark、ApacheFlink、Python、R、JDBC、

BigDataToAI·2024-02-07 05:38

Apache Zeppelin 整合 Spark 和 Hudi

一环境信息1.1组件版本组件版本Spark3.2.3Hudi0.14.0Zeppelin0.11.0-SNAPSHOT1.2环境准备Zeppelin整合Spark参考：ApacheZeppelin一文打尽

大数据AI·2024-02-07 05:03

spark sql上线前的调试工作实现

背景每个公司应该都有大数据的平台的吧，平台的作用就是可以在上面执行各种sparksql以及定时任务，不过一般来说，由于这些sparksql的上线不经过测试，所以可能会影响到生产的数据，这种情况下大数据平台提供一个上线前的调试功能也就非常好了

lixia0417mul2·2024-02-07 05:22

Python学习之路-Tornado基础:部署

Python学习之路-Tornado基础:部署部署Tornado简介为了充分利用多核CPU，并且为了减少同步代码中的阻塞影响，在部署Tornado的时候需要开启多个进程（最好为每个CPU核心开启一个进程

geobuins·2024-02-07 03:04

Python学习之路-Tornado基础:异步与WebSocket

Python学习之路-Tornado基础:异步与WebSocket认识异步同步我们用两个函数来模拟两个客户端请求，并依次进行处理：#coding:utf-8defreq_a():"""模拟请求a"""print

geobuins·2024-02-07 03:03

Python学习之路-Flask项目:博客后台

Python学习之路-Flask项目:博客后台前言上一篇完成了博客前台的相关内容，接下来进行博客后台的相关开发。

geobuins·2024-02-07 03:33

Python学习之路-Flask项目:项目部署

Python学习之路-Flask项目:项目部署部署环境基于MacOS10.15.4系统，使用Gunicorn+Nginx进行布署，云服务器为阿里云服务器选择阿里云服务器地址个人免费试用进入控制台,查看实例创建情况给安全组配置规则

geobuins·2024-02-07 03:33

Python学习之路-Django基础:工程搭建

Python学习之路-Django基础:工程搭建环境安装创建虚拟环境mkvirtualenvdjango_1.11.10-ppython3安装Django使用Django1.11.10版本pipinstalldjango

geobuins·2024-02-07 03:33

Python学习之路-Tornado基础:数据库

Python学习之路-Tornado基础:数据库简介与Django框架相比，Tornado没有自带ORM，对于数据库需要自己去适配。我们使用MySQL数据库。

geobuins·2024-02-07 03:32

Kuberntes DNS

kubectlgetendpointsNAMEENDPOINTSAGEdocker-registry172.17.0.10:500019dkubernetes10.0.2.41:844319drouter10.0.2.41:1936,10.0.2.41:80,10.0.2.41:44319dsparkthrift-headless172.17.0.12

zhixingheyi_tian·2024-02-07 03:02

Spark RDD的学习(JAVA)

注：本文是跟着《Spark快速大数据分析》一书学习的笔记式总结，不喜勿喷。RDD(ResilientDistributedDataset)弹性分布式数据集是Spark对数据的核心抽象。

啊其11·2024-02-07 02:47

Spark Chapter 8 Spark SQL

【参考以慕课网日志分析为例进入大数据Sparksql】0导读SQL：MySQL，Oracle，DB2，SQLServer在大数据平台上实现大数据计算：Hive/SparkSQL/SparkCore直接使用

深海suke·2024-02-07 01:34

Spark大数据分析与实战笔记（第三章 Spark RDD弹性分布式数据集-01）

文章目录每日一句正能量第3章SparkRDD弹性分布式数据集章节概要3.1RDD简介3.2RDD的创建方式3.2.1从文件系统加载数据创建RDD3.2.2通过并行集合创建RDD每日一句正能量学如积薪，后来者居上

想你依然心痛·2024-02-07 01:53

StarRocks入门

目录一、连接StarRocks二、建表1.创建非分区表2.创建动态分区表3.修改表字段类型三、数据导入1.Sparkload2.Brokerload3.Streamload4.Routineload5.

jingyu鲸鱼·2024-02-06 22:42

Python学习之路-Tornado基础:安全应用

Python学习之路-Tornado基础:安全应用Cookie对于RequestHandler，除了在初始Tornado中讲到的之外，还提供了操作cookie的方法。

geobuins·2024-02-06 20:03

一起走的学习之路(350)

今天和一个同事在讨论现在工作体质的问题，我们俩都觉得现在单位的工作非常繁忙，每天都有做不完的事，而且由于我们，体质的问题，现在常常觉得心很累，做一件事，除了要完成事情本身，还要注重，各个领导的喜好和情绪。晚上的时候他开玩笑的跟我讲，站在朋友的角度，他觉得我如果离开现在的处室对自己发展和工作都是有益的，如果站在工作的角度讲，他觉得我现在还不是时候离开，因为我们处基本上都是年轻同志，如果离开一个同事，

小米雨路·2024-02-06 20:58

spark的数据倾斜和解决方案

#数据倾斜##4.1.什么是数据倾斜，现象是什么？所谓数据倾斜(dataskew)，其实说白了，由于数据分布不均匀造成计算时间差异很大，产生了一些列异常现象。常见的现象有两种：1.个别task作业运行缓慢大多数的task运行都很快速，但是极个别的task运行非常缓慢，甚至是正常task运行时间好多倍。莫名其妙的OOM异常这是一种相对比较少见的现象，正常运行的task作业，突发发生了一个OOM异常。

XLMN·2024-02-06 18:32

Spark简介

Spark作为第二代大数据处理工具，跟hadoop对比，它是基于内存的，所以在迭代计算方便速度有了很大提升。我用到的主要是SparkCore,SparkSQL,SparkStreaming。

麦克阿瑟99·2024-02-06 18:07

Spark编程实现简例

对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。下面是输入文件和输出文件的一个样例，供参考。

哲子带你学编程·2024-02-06 16:34

2022-09-17 37周周总结努力是为了以后所遇之事与人都是自己喜欢的

同样也开始踏上我的学习之路，在路上将有5个小时高铁。提前给自己做了安排，在高铁上完成我37周的总结。加入积微对我最大的触动就是，我能将所有的事情提前，不再像之前尽量的拖，拖到实在没有时间了再去完成。

fanghua·2024-02-06 15:03

前端学习之路(4) vue2和vue3的区别

一.根节点不同vue2中必须要有根标签vue3中可以没有根标签，会默认将多个根标签包裹在一个fragement虚拟标签中，有利于减少内存。二.组合式API和选项式API在vue2中采用选项式API，将数据和函数集中起来处理，将功能点切割了当逻辑复杂的时候不利于代码阅读。在vue3中采用组合式API，将同一个功能的代码集中起来处理，使得代码更加有序，有利于代码的书写和维护。三.生命周期的变化创建前：

星如雨ｸﾞｯ!(๑•̀ㅂ•́)و✧·2024-02-06 14:37

生活中，我读懂了……

会气自己没有给学生带领到一个好的学习之路，气学生在我使出浑身解数之后依旧表现的无动于衷…

小混混儿·2024-02-06 13:35

决胜大数据时代：Hadoop&Yarn&Spark企业级最佳实践（8天完整版脱产式培训版本）...

Hadoop、Yarn、Spark是企业构建生产环境下大数据中心的关键技术，也是大数据处理的核心技术，是每个云计算大数据工程师必修课。

weixin_30273931·2024-02-06 09:08

Spark视频第5期：Spark SQL架构和案例深入实战

SparkSQL架构和案例深入实战视频下载：http://pan.baidu.com/share/link?

Rocky_wangjialin·2024-02-06 09:35

RDD 依赖关系

packagecom.atguigu.bigdata.spark.core.rdd.depimportorg.apache.spark.

zmx_messi·2024-02-06 09:08

转换算子小案例

2)需求描述统计出每一个省份每个广告被点击数量排行的Top33)需求分析4)功能实现整体思路代码实现packagecom.atguigu.bigdata.spark.core.rdd.operator.transformimportorg.apache.spark

zmx_messi·2024-02-06 09:37

Spark SQL调优实战

1、新添参数说明//Driver和Executor内存和CPU资源相关配置--是否开启executor动态分配，开启时spark.executor.instances不生效spark.dynamicAllocation.enabled

sighting_info·2024-02-06 09:06

Python学习路线 - Python高阶技巧 - PySpark案例实战

Python学习路线-Python高阶技巧-PySpark案例实战前言介绍Spark是什么PythonOnSparkPySparkWhyPySpark基础准备PySpark库的安装构建PySpark执行环境入口对象

mry6·2024-02-06 09:34

FlinkCDC-Hudi:Mysql数据实时入湖全攻略五：FlinkSQL同时输出到kafka与hudi的几种实现

前序：FlinkCDC-Hudi系列文章：FlinkCDC-Hudi:Mysql数据实时入湖全攻略一：初试风云FlinkCDC-Hudi:Mysql数据实时入湖全攻略二：Hudi与Spark整合时所遇异常与解决方案

大数据点灯人·2024-02-06 08:25

【Flink入门修炼】1-1 为什么要学习 Flink？

一、批处理和流处理早些年，大数据处理还主要为批处理，一般按天或小时定时处理数据，代表性的框架为MapReduce、Hive、Spark等。

大数据王小皮·2024-02-06 07:29

MSR架构：推动数据中台进入2.0时代

语义层基于业务对象视图面向业务端用户提供语义化的业务逻辑表达式，支持业务端用户自助开发业务逻辑，业务端的开发者只关注于业务逻辑本身，不需要考虑后台是何种数据计算处理框架（MR、SPARK、FLINK、SQL

Trident敏捷数据开发平台·2024-02-06 07:54

PiflowX新增Apache Beam引擎支持

参考资料：ApacheBeam架构原理及应用实践-腾讯云开发者社区-腾讯云(tencent.com)在之前的文章中有介绍过，PiflowX是支持spark和flink计算引擎，其架构图如下所示：在piflow

PiflowX·2024-02-06 07:54

influxdb学习之路——二、数据写入influxdb

一、命令行直接写入单条数据1、influxclient命令行直接写入数据root@vms50:~/csv#root@vms50:~/csv#influxwrite\>-bmy-bucket\>-omy-org\>--configs-path/mydata/influxdb/config/influx-configs\>-ps\>'test-measure,env=testaaField="this

Lingoesforstudy·2024-02-06 07:51

Spark大数据分析与实战笔记（第二章 Spark基础-06）

文章目录每日一句正能量2.6IDEA开发WordCount程序2.6.1本地模式执行Spark程序2.6.2集群模式执行Spark程序每日一句正能量我们全都要从前辈和同辈学习到一些东西。

想你依然心痛·2024-02-06 07:38

想学大数据？先看完这几本书再说

除了这些技术领域，还有一些特定的技术和语言需要你继续研究：Hadoop，Spark，Python，和R等等，还有无数实现自动化的工具等等，这些工具几乎每天都会用到，这就需要你不断的学习。

yoku酱·2024-02-06 06:55

SparkSQL on K8s 在网易传媒的落地实践

网易传媒在2021年成功将SparkSQL部署到了K8s集群，并实现与部分在线业务的混合部署，到目前已经稳定运行了一年多。

wangyishufan·2024-02-06 06:02

Java学习之路

作者：码云Gitee链接：https://www.zhihu.com/question/53729800/answer/255785661来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。推荐以SpringBoot教程与SpringCloud教程的详细开源项目“SpringBoot-Learning”此项目内容为SpringBoot教程程序样例，对于SpringBoot

sttone·2024-02-06 05:08

PySpark（四）PySpark SQL、Catalyst优化器、Spark SQL的执行流程

目录PySparkSQL基础SparkSession对象DataFrame入门DataFrame构建DataFrame代码风格DSLSQLSparkSQLShuffle分区数目DataFrame数据写出

独憩·2024-02-06 03:14

Spark Shuffle模块详解

Shuffle，具有某种共同特征的一类数据需要最终汇聚（aggregate）到一个计算节点上进行计算。这些数据分布在各个存储节点上并且由不同节点的计算单元处理。以最简单的WordCount为例，其中数据保存在Node1、Node2和Node3；经过处理后，这些数据最终会汇聚到Nodea、Nodeb处理。这个数据重新打乱然后汇聚到不同节点的过程就是Shuffle。但是实际上，Shuffle过程可能会

晓之以理的喵~~·2024-02-06 03:14

PySpark（三）RDD持久化、共享变量、Spark内核制度，Spark Shuffle

目录RDD持久化RDD的数据是过程数据RDD缓存RDDCheckPoint共享变量广播变量累加器Spark内核调度DAGDAG的宽窄依赖和阶段划分内存迭代计算Spark是怎么做内存计算的?

独憩·2024-02-06 03:43

python-sql-spark常用操作

2.尽量使用spark.sql，而不是rdd。sql处理groupby会快很多。基本上10min的rdd，sql只需2min。所以基本除了复杂函数，都用sql解决。

竹竹竹～·2024-02-06 03:32

Spark On Yarn 运行模式

在Spark中，支持4种运行模式：1）Local：开发时使用2）Standalone：是Spark自带的，如果一个集群是Standalone的话，那么就需要在多台机器上同时部署Spark环境3）YARN

bandi4506·2024-02-06 03:02

关于Spark/Hadoop中Master/Slave IP不正确的问题

在配置SparkStandAloneMode的时候，我遇到了Slave无法向正确的MasterIP发送数据的问题。通常这类问题都来源于没有正确配置.

ecce·2024-02-06 02:37

推荐频道

Spark学习之路

Hive Sql优化记录

SparkJDBC读写数据库实战

IDEA 本地运行Spark

Spark Scala大数据编程实例

win10 spark scala 本地运行wordcount

Scala与java

Spark scala如何本地运行

Zeppelin结合Flink查询hudi数据

Apache Zeppelin 整合 Spark 和 Hudi

spark sql上线前的调试工作实现

Python学习之路-Tornado基础:部署

Python学习之路-Tornado基础:异步与WebSocket

Python学习之路-Flask项目:博客后台

Python学习之路-Flask项目:项目部署

Python学习之路-Django基础:工程搭建

Python学习之路-Tornado基础:数据库

Kuberntes DNS

Spark RDD的学习(JAVA)

Spark Chapter 8 Spark SQL

Spark大数据分析与实战笔记（第三章 Spark RDD弹性分布式数据集-01）

StarRocks入门

Python学习之路-Tornado基础:安全应用

一起走的学习之路(350)

spark的数据倾斜和解决方案

Spark简介

Spark编程实现简例

2022-09-17 37周周总结 努力是为了以后所遇之事与人都是自己喜欢的

前端学习之路(4) vue2和vue3的区别

生活中，我读懂了……

决胜大数据时代：Hadoop&Yarn&Spark企业级最佳实践（8天完整版脱产式培训版本）...

Spark视频第5期：Spark SQL架构和案例深入实战

RDD 依赖关系

转换算子小案例

Spark SQL调优实战

Python学习路线 - Python高阶技巧 - PySpark案例实战

FlinkCDC-Hudi:Mysql数据实时入湖全攻略五：FlinkSQL同时输出到kafka与hudi的几种实现

【Flink入门修炼】1-1 为什么要学习 Flink？

MSR架构：推动数据中台进入2.0时代

PiflowX新增Apache Beam引擎支持

influxdb学习之路——二、数据写入influxdb

Spark大数据分析与实战笔记（第二章 Spark基础-06）

想学大数据？先看完这几本书再说

SparkSQL on K8s 在网易传媒的落地实践

Java学习之路

PySpark（四）PySpark SQL、Catalyst优化器、Spark SQL的执行流程

Spark Shuffle模块详解

PySpark（三）RDD持久化、共享变量、Spark内核制度，Spark Shuffle

python-sql-spark常用操作

Spark On Yarn 运行模式

关于Spark/Hadoop中Master/Slave IP不正确的问题

2022-09-17 37周周总结努力是为了以后所遇之事与人都是自己喜欢的