——Spark 第64页

sparkstream 2.2.0 结合 kafka_2.10-0.10.2.1 的消费示例演示

今天讲了kafka和sparkstream的一个简单结合，试着在网上找了一个例子进行实现1、相关配置spark2.2.0，scala2.11.8，kafka_2.10-0.10.2.1,jdk1.82、

maketubu7·2023-10-19 19:47

AI为锚，创新为帆，谱写数实融合发展新篇章

9月27日，在苏州工业园区管理委员会、华为云计算技术有限公司的指导下，由SISPARK（苏州国际科技园）、华为（苏州）人工智能创新中心联合主办，东北大学工业智能与系统优化国家级前沿科学中心、浙江大学协办的

FMI飞马网·2023-10-19 14:59

协同创新、奔赴未来——“华为云杯”2023人工智能创新应用大赛华丽谢幕

9月27日，在苏州工业园区管理委员会、华为云计算技术有限公司的指导下，由SISPARK（苏州国际科技园）、华为（苏州）人工智能创新中心联合主办，东北大学工业智能与系统优化国家级前沿科学中心、浙江大学协办的

FMI飞马网·2023-10-19 14:52

spark之Failed to create local dir那点事

近日莫名遭遇异常一枚，如下：org.apache.spark.SparkException:Jobabortedduetostagefailure:Task0instage271.0failed1times

假文艺的真码农·2023-10-19 14:58

三十六、《大数据项目实战之用户行为分析》Spark Streaming整合Kafka计算实时单词数量

整合原理Kafka在0.8和0.10版本之间引入了一个新的消费者API，Spark针对这两个版本有两个单独对应的SparkStreaming包可用，分别为spark-streaming-kafka-0-

大数据张老师·2023-10-19 12:18

SparkStreaming整合Kafka实现wordcount案例（spark-streaming-kafka-0-8_2.11版）

概述：spark-streaming-kafka-0-8_2.11有两种方式连接Kafka，一种是Receiver，另一种是Direct。

万家林·2023-10-19 12:47

Spark Streaming 整合 Kafka，实现交流

SparkStreaming整合Kafka一、了解SparkStreaming整合Kafka1.1KafkaUtis.createDstream方式二、实战2.1导入依赖（与spark版本一致）2.2案列

唐樽·2023-10-19 12:17

Spark Streaming整合Kafka的两种方式

SparkStreaming整合Kafka，两种整合方式：Receiver-based和Direct方式一:Kafka准备1、分别启动zookeeper.

kingloneye·2023-10-19 12:46

Structured API基本使用

1.创建DataFrame和Dataset1.1创建DataFrameSpark中所有功能的入口点是`SparkSession`，可以使用`SparkSession.builder()`创建。

shangjg3·2023-10-19 12:14

Spark Streaming 整合 Flume

SparkStraming提供了以下两种方式用于Flume的整合。2.推送式方法在推送式方法(Flume-stylePush-basedAp

shangjg3·2023-10-19 12:44

SparkStreaming 整合 Kafka

SparkStreaming整合Kafka架构概述具体实现步骤安装好ZooKeeper和Kafka和flume启动好ZooKeeper和Kafka创建一个Kafka的Topic############启动

夜古诚·2023-10-19 12:40

Spark Streaming 整合 Kafka

本文代码链接：https://download.csdn.net/download/shangjg03/884423081.版本说明Spark针对Kafka的不同版本，提供了两套整合方案：`spark-streaming-kafka

shangjg3·2023-10-19 12:07

spark集成hive

集群使用ambari+hdp方式进行部署,集群的相关版本号如下所示:ambari版本Version2.7.4.0HDP版本HDP-3.1.4.0hive版本3.1.0spark版本2.3.0集群前提条件

jiedaodezhuti·2023-10-19 11:13

AI系统ChatGPT源码+详细搭建部署教程+支持GPT4.0+支持ai绘画（Midjourney)/支持OpenAI GPT全模型+国内AI全模型

一、AI创作系统SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统+AI绘画系统，支持OpenAIGPT全模型+国内AI全模型。

只恨天高·2023-10-19 09:40

spark 资源动态释放

通过spark-submit会固定占用一占的资源，有什么办法，在任务不运作的时候将资源释放，让其它任务使用呢，yarn新版本默认已经支持了，我们使用的是HDP。

kikiki2·2023-10-19 08:55

spark-shell启动失败

背景公司小组分配了三台虚拟机，在虚拟机上面意欲装hadoop集群及sparkonyarn版本Hadoop2.7.2spark2.3.2问题配置好hadoop集群与spark配置后，启动spark-shell

望山不是山·2023-10-19 08:20

Spark-SQL详解

目录前言什么是SparkSQLDataFrameDataFrame基本操作SparkSession创建DataFrame1）通过Spark的数据源创建DSL语法风格(了解)2）RDD转化为DataFrame

风吹我亦散·2023-10-19 08:56

Spark-SQL小结

目录一、RDD、DataFrame、DataSet的概念、区别联系、相互转换操作1.RDD概念2.DataFrame概念3.DataSet概念4.RDD、DataFrame、DataSet的区别联系5.RDD、DataFrame、DataSet的相互转换操作1RDD->DataFrame、DataSet2DataFrame->RDD,DataSet3DataSet->RDD,DataFrame二、

-我不是码农·2023-10-19 08:55

【Spark源码】spark-submit和Spark-class

首先从启动脚本开始看：bin/spark-submit\--classorg.apache.spark.examples.SparkPi\--masteryarn\--deploy-modecluster

陈小哥cw·2023-10-19 08:53

spark-shell读取hdfs数据

打开spark-shell，输入下面代码（注意“yourPATHinHDFS”这里换成自己文件的路径）valtextFile=sc.textFile("hdfs://localhost:9000/yourPATHinHDFS

密言·2023-10-19 07:21

Spark---数据输出

1.输出为Python对象collect算子：将RDD各个分区内的数据，统一收集到Driver中，形成一个List对象reduce算子：对RDD数据集按照传入的逻辑进行聚合take算子：取RDD的前N个元素，组合成list返回给你count算子：计算RDD有多少条数据，返回值是一个数字#collect算子：将RDD各个分区内的数据，统一收集到Driver中，形成一个List对象#语法：rdd.co

velpro_!·2023-10-19 07:20

Antlr4 - 自定义SparkSQL解析

>Antlr4是一个强大的解析器的生成器，可以用来读取、处理、执行或翻译结构化文本，ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器，最出名的Spark计算引擎2.x就是用它来解析SQL的，

kikiki4·2023-10-19 05:22

《黑马程序员》分布式内存计算Flink环境部署

简介Flink同Spark一样，是一款分布式内存计算引擎，可以支撑海量数据的分布式计算。Flink在大数据体系同样是明星产品，作为最新一代的综合计算引擎，支持离线计算和实时计算。

懒羊羊夸夸~·2023-10-19 05:15

大数据理论与实践5 分布式计算框架MapReduce和Spark

MapReduce和SparkMapReduce简介原理示例基本概念作业运行模式Spark简介概念编程模型RDDRDD操作（Operator）RDD依赖（Dependency）作业运行模式课后温习参考MapReduce

mxb1234567·2023-10-19 05:14

Spark分布式计算框架之SparkStreaming+kafka

1、SparkStreaming的介绍SparkStreaming是流式处理框架，是SparkAPI的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka,Flume,Twitter

一流觞·2023-10-19 05:14

Linux学习笔记——分布式内存计算Flink环境部署

5.13、分布式内存计算Flink环境部署5.13.1、简介Flink同Spark一样，是一款分布式内存计算引擎，可以支撑海量数据的分布式计算。

kxttmx·2023-10-19 05:11

Spark2x基于内存的分布式计算

目录1.Spark概述Spark应用场景：Spark的特点：SparkVSMapReduce：2.Spark原理与架构SparkCoreSpark核心概念RDD：RDD的依赖关系RDD的Stage划分Spark

温暖会追上来的.·2023-10-19 05:09

分布式内存计算Spark环境部署与分布式内存计算Flink环境部署

目录分布式内存计算Spark环境部署1.简介2.安装2.1【node1执行】下载并解压2.2【node1执行】修改配置文件名称2.3【node1执行】修改配置文件，spark-env.sh2.4【node1

时光の尘·2023-10-19 05:03

【Todo】【读书笔记】大数据Spark企业级实战版 & Scala学习

目录：/Users/baidu/Documents/Data/Interview/Hadoop-Spark-Storm-Kafka下了这本《大数据Spark企业级实战版》，另外还有一本《Spark大数据处理

weixin_33813128·2023-10-19 05:00

《Spark大数据分析》一书的书评和采访

\主要结论\\了解如何将ApacheSpark用于不同类型的大数据分析用例，例如批处理、互操作、图表、数据流分析，以及机器学习。

H_MZ·2023-10-19 05:30

4.SparkSQL—项目实战—各区域热门商品 Top3—需求简介、需求分析、功能实现 (注: Hive on Spark 用的较多)

本文目录如下：第4章SparkSQL项目实战4.1数据准备4.1.1数据库表准备4.1.2在IDEA中创建数据库表并导入数据4.2需求：各区域热门商品Top34.2.1需求简介4.2.2需求分析4.2.3

页川叶川·2023-10-19 05:57

☀️☀️基于Spark、Hive等框架的集群式大数据分析流程详述

本文目录如下：基于Spark、Hive等框架的集群式大数据分析流程详述第1章淘宝双11大数据分析—数据准备1.1数据文件准备1.2数据预处理1.3启动集群环境1.4导入数据到Hive中1.4.1把目标文件上传到

页川叶川·2023-10-19 05:57

Spark大数据分与实践笔记（第六章 Kafka分布式发布订阅消息系统-01）

第六章Kafka分布式发布订阅消息系统Kafka是一个高吞吐量的分布式发布订阅消息系统，它在实时计算系统中有着非常强大的功能。通常情况下，我们使用Kafka构建系统或应用程序之间的数据管道，用来转换或响应实时数据，使数据能够及时的进行业务计算，得出相应结果。本章将针对Kafka工作原理、Kafka集群部署以及Kafka的基本操作进行详细讲解。6.1Kafka概述6.1.1消息传递模式简介在大数据系

妉妉师姐·2023-10-19 05:26

Spark大数据分与实践笔记（第二章 Spark基础-01）

第二章Spark基础Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室，它是一个可应用于大规模数据处理的统一分析引擎。

妉妉师姐·2023-10-19 04:56

Spark大数据分与实践笔记（第三章 Spark RDD 弹性分布式数据集-01）

第三章SparkRDD弹性分布式数据集传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大星的磁盘I0操作。

妉妉师姐·2023-10-19 04:56

Spark大数据分析与实战笔记（第一章 Scala语言基础-4）

文章目录每日一句正能量1.4Scala面向对象的特性1.4.1类与对象的特性1.4.2继承1.4.3单例对象和伴生对象1.4.4特质每日一句正能量若要快乐，就要随和；若要幸福，就要随缘。快乐是心的愉悦，幸福是心的满足。别和他人争吵，别和命运争吵，无计较之心，心常愉悦；尽心之余，随缘起止，随遇而安，心常满足。你随和，愉悦的是自己的心，别人计较，苦闷的是他自己。一天的心情靠随和，一生的幸福靠随缘。1.

想你依然心痛·2023-10-19 04:25

Spark Streaming 原理与实践

作者：禅与计算机程序设计艺术1.简介ApacheSpark是由Apache基金会开源的一款基于内存计算的分布式计算框架。通过它可以快速处理海量的数据并进行实时分析。

禅与计算机程序设计艺术·2023-10-19 04:12

idea配置scala-sdk

需要先下载scala的插件并重启idea点击File->Settings新建一个spark-demo的maven项目windows下在cmd中查看自己scala版本（我windows下已经安装好了scala

又是被bug折磨的一天·2023-10-19 04:02

Spark_DataFrame创建及使用

标题DataFrame创建1.通过sparkSession构建DataFrame2.通过RDD配合caseclass进行转换DF3.通过DataSet调用.toDF进行转换DFDataFrame的使用1

_WeiA·2023-10-19 04:30

通过自定义创建Dataframe及使用SQL来操作数据

1.实例化SparkContext和SparkSession对象2.创建caseclassEmp样例类，用于定义数据的结构信息3.通过SparkContext对象读取文件，生成RDD[String]4.

墨染盛夏呀·2023-10-19 04:59

Spark：基于PySpark的DataFrame、SQL、TableAPI操作

记录下文章目录官网文档环境测试说明DataFrame创建从列表构建DF从Row对象创建DF为DF设置数据类型-指定类型为DF设置数据类型-字符串设置数据类型为DF设置数据类型-（单个）字符串设置数据类型从Parquet文件创建DF从JSON数据创建DF从CSV文件创建DFDataFrame操作数据去重、列重命名、增加列、更改列数据、删除列空值处理转成JSONSQL操作自定义函数UDFDataFra

小明同学YYDS·2023-10-19 04:28

Spark SQL编程之DataFrame

SparkSQL特性易整合统一的数据访问方式兼容hive标准的数据链接SparkSQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL

涟漪海洋·2023-10-19 04:27

Spark操作dataFrame进行写入mysql，自定义sql的方式

业务场景：现在项目中需要通过对spark对原始数据进行计算，然后将计算结果写入到mysql中，但是在写入的时候有个限制：1、mysql中的目标表事先已经存在，并且当中存在主键，自增长的键id2、在进行将

aitiejue5146·2023-10-19 04:57

大数据之spark_spark sql的自定义函数

输入一行返回一行UDTF:输入一行返回多行,类似于flatmapUDAF:输入多行返回一行,类似于聚合函数用户自定义UDF函数UDF案例11.在sql语句中根据ip查询省市地址packagecom.doit.spark.day11importcom.doit.spark.day11

普罗米修斯之火·2023-10-19 04:57

2023_Spark_实验十五：自定义法创建Dataframe及SQL操作

方式二：SQL方式操作1.实例化SparkContext和SparkSession对象2.创建caseclassEmp样例类，用于定义数据的结构信息3.通过SparkContext对象读取文件，生成RDD

pblh123·2023-10-19 04:56

ambari3.0 修改hive引擎tez为spark

https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started#space-menu-link-content

miaobinfei·2023-10-19 02:25

Hive 基于常用参数的调优（Tez和MR引擎）

1.说明Hive的常用计算引擎有MR、Tez和Spark，本篇博客主要是基于MR和Tez的参数调优，由于Hive的任务是在Yarn上提交的，所以Yarn作为一个资源调度器，可用的资源也需要进行配置。

abcdggggggg·2023-10-19 02:55

hadoop和hive、spark、presto、tez是什么关系

Spark是一个大数据处理引擎，可以用于实时分析和机器学习。它可以使用Hadoop作为存

草履虫稽亚娜·2023-10-19 02:55

hive on spark 还是 spark on hive?

目录同一个SQL的不同执行表现使用mr查询使用hiveonspark查询使用sparkonhive执行hive和spark介绍hiveonspark和sparkonhive区别

一生要强的查数姑·2023-10-19 02:23

推荐频道

——Spark