——Spark 第46页

大数据处理技术Spark

内容有虚拟机配置，ubuntu安装，创建项目，hadoop部署，python使用spark库等等，也附上所有用到的软件的网盘下载链接，算是提供一个完整的思路。

我叫桃小夭·2023-11-22 13:54

sparkstream消费kafka序列化报错

本篇介绍在window运行环境下，使用spark消费kafka数据遇到的几个坑。。

小爽123·2023-11-22 09:12

这些神奇而没有用的体质

对方却大笑着上前来，说：yousparkedme。然后，我们象征性地稍微捏了一下手，我尴尬的笑了，以示抱歉。昨天中午的时候，胳膊估计是碰到隔壁桌的印度同事了，

沉吟君·2023-11-22 08:33

Java优质资源汇总（持续更新）

ReentrantLock的实现看AQS的原理及应用不可不说的Java“锁”事CompletableFuture原理与实践Java线程池实现原理及其在美团业务中的实践MySQL优化官方文档：MySQL优化大数据Spark

tcoding·2023-11-22 08:43

Doris系列之动态分区操作

Doris系列注：大家觉得博客好的话，别忘了点赞收藏呀，本人每周都会更新关于人工智能和大数据相关的内容，内容多为原创，PythonJavaScalaSQL代码，CVNLP推荐系统等，SparkFlinkKafkaHbaseHiveFlume

陈万君Allen·2023-11-22 05:32

数据治理入门

处理模式模式名称常见场景常见框架批处理夜间几个小时，无人值守hivesparkdatax流处理7*24H一直运行，无人值守maxwell,flink,flume,kafka即席处理人机交互接口访问web

十七✧ᐦ̤·2023-11-22 04:36

使用JMX监控ZooKeeper和Kafka

JVM默认会通过JMX的方式暴露基础指标，很多中间件也会通过JMX的方式暴露业务指标，比如Kafka、Zookeeper、ActiveMQ、Cassandra、Spark、Tomcat、Flink等等。

跟着大数据和AI去旅行·2023-11-22 01:34

Iceberg学习笔记（1）—— 基础知识

是一个面向海量数据分析场景的开放表格式（TableFormat），其设计的目的是解决数据存储和计算引擎之间的适配的问题表格式（TableFormat）可以理解为元数据以及数据文件的一种组织方式，处于计算框架（Flink，Spark

THE WHY·2023-11-21 22:50

Spark-Core 计算基础核心(三) 概念及原理介绍

运行原理当一个spark应用被提交时，首先要为这个sparkAPPlication构建基本的运行环境，即由任务节点Driver创建一个sparkcontext；sparkContext向clustermanager

章云邰·2023-11-21 19:09

spark简单数据查询与常见算子

60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80该系总共有多少学生；vallines=sc.textFile("file:///usr/local/spark

背帆·2023-11-21 17:53

基于Scala版本的TMDB大数据电影分析项目

所以在使用SparkSQL处理该数据集的时候，需要创建S

数仓白菜白·2023-11-21 17:20

大数据阶段三(Scala，Spark)面试题库

1、Scala中问什么没有多继承？因为子类中容易造成变量的定义混乱。2、Scala的函数与Java相比有什么差别？跟Java相比，Scala函数类似于静态方法，但是却不需要依赖某个具体的类，Java中就算是静态方法也需要类名打点的形式进行调用，Scala中的函数不依赖某个具体的类。3、Scala的所有数据类型？Byte，Char，Short，Int，Long，Float，Double，Boolea

「miraitowa」·2023-11-21 17:50

[SparkSQL] 列转行lateral view explode函数和FlatMap算子两种方式实现炸裂

[SparkSQL]列转行lateralviewexplode函数和FlatMap算子两种方式实现炸裂我用了两种方法实现列转行，说一下我平时使用SparkSQL的习惯，我通常1）是先读取HDFS中的文件

林沐之森·2023-11-21 17:18

2017.09.06 scala spark学习

2.scala没有静态的修饰符，但object下的成员都是静态的,若有同名的class,这其作为它的伴生类。在object中一般可以为伴生类做一些初始化等操作,如我们常常使用的valarray=Array(1,2,3)(ps:其使用了apply方法)scala里的object一般特指的是伴生对象，可以通过对象名直接调用其中的成员，类似Java中的static成员，如果不在当前作用域，需要impor

RazorH·2023-11-21 17:43

从原理到策略算法再到架构产品看推荐系统 | 附Spark实践案例

原文链接：mp.weixin.qq.com作者|HCY崇远01前言本文源自于前阵子连续更新的推荐系统系列，前段时间给朋友整理一个关于推荐系统相关的知识教学体系，刚好自身业务中，预计明年初随着业务规模增长，估摸着又要启动推荐相关的项目了，所以也是趁机把相关的知识结构梳理了一遍。这这里重新做整理，并额外做了一些增减，让整体逻辑会更通顺一点。整个文章的结构逻辑，先从推荐系统的基础知识结构讲起，然后由浅入

洞之蝉·2023-11-21 17:12

scala的schema函数（算子）

在翻阅一些代码的时候，schema算子好像没碰到过，比较好奇structField这个类型，为什么可以直接用name参数，就翻阅了下资料：在ApacheSpark中，DataFrame是一种分布式的数据集

后季暖·2023-11-21 17:36

SPARK Ada tools（GNAT Studio）

GNATStudio也可从AdaCore获得CommercialsoftwaresolutionsforAda,CandC++|AdaCoreAdaCoreistheleadingproviderofcommercialsoftwaresolutionsforAda,CandC++—helpingdevelopersbuildsafeandsecuresoftwarethatmatters.htt

shaooohua·2023-11-21 16:42

batch与spark spring_GitHub - vector4wang/spring-boot-quick: 基于springboot的快速学习示例,整合自己遇到的开源框架,如：rabbitm.

欢迎大家留言和PR~Tip:技术更新换代太快，本仓库仅做参考，自己的项目具体使用哪个版本还需谨慎思考~(不推荐使用最新的版本，推荐使用(最新-1|2)的版本，会比较稳定)spring-boot-quick前言自己很早就想搞一个总的仓库就是将自己平时遇到的和学习到的东西整合在一起，方便后面用的时候快速的查找与使用，之前是通过branch的方式去整理，感觉不直观，一咬牙就花了点时间将所有的分支整合在一

weixin_39940253·2023-11-21 16:54

spark launcher解读

本文主要承接上篇spark-submit解读后，来说说在spark-class.sh中调用org.apache.spark.launcher.Main，最后sparklauncher进行了怎样的操作。

凡尔Issac·2023-11-21 14:25

Spark---介绍及安装

一、Spark介绍1、什么是SparkApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。

30岁老阿姨·2023-11-21 13:26

Spark---核心介绍

一、Spark核心1、RDD1）、概念：RDD（ResilientDistributedDatest），弹性分布式数据集。

30岁老阿姨·2023-11-21 13:45

四个分布式计算框架MapReduce/Tez/Spark/Storm异同

MapReduceSparkStormTez四个框架的异同离线计算框架，MapReduce是一种将一个算法抽象成Map和Reduce两个阶段进行处理，非常适合数据密集型计算。

Hanson_Huang·2023-11-21 12:25

配置Jetson扩展头--配置CSI相机

Jetson开发工具包包括几个扩展头和连接器(统称为“头”):40‑pinexpansionheader:让您将Jetson开发工具包连接到现成的树莓派HATs(硬件附加在顶部)，如SeeedGrove模块，SparkFunQwiic

free-xx·2023-11-21 12:31

软件测试/测试开发/人工智能丨基于Spark的分布式造数工具：加速大规模测试数据构建

本文将介绍如何使用ApacheSpark构建分布式造数工具，以提升测试数据构建的效率和规模。为什么选择Spark？分布式计算：Spark是一种开源的分布式计算框架，能够处理大规模数据并行计算。

测试开发软件测试性能测试自动化测试·2023-11-21 11:32

SparkSql清洗Hive中数据并存入Mysql

一、准备数据因为数据目前在本地，所以先将数据上传至Hive，再进行清洗。上传步骤：1、将数据上传至虚拟机中：使用rz-E选择文件2、进入hive，选择数据库，并进行建表注意：建表的时候，要保证表的分隔符要和数据本身的分隔符相同，否则导入数据的时候会出现所有数据都插入到同一列。createtabledata(TRIP_IDstring,CALL_TYPEstring,ORIGIN_CALLstrin

修勾勾L·2023-11-21 10:36

Spark读取Mysql数据写入Hive

代码片段packageSparkToHiveimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSessionimportjava.util.Properties

修勾勾L·2023-11-21 10:06

spark抽取mysql数据到hive_使用spark将内存中的数据写入到hive表中

使用spark将内存中的数据写入到hive表中hive-site.xmlhive.metastore.uristhrift://master:9083ThriftURIfortheremotemetastore.Usedbymetastoreclienttoconnecttoremotemetastore.javax.jdo.option.ConnectionURLjdbc

感受我慈爱的目光·2023-11-21 10:04

pyspark案例系列5-Spark ETL将MySQL数据同步到Hive

文章目录一.需求二.解决方案2.1全量同步2.2增量同步备注：Spark2.4.0一.需求最近做数据仓库项目的时候，觉得sqoop有点慢，然后想尝试使用Spark来做ETL。

只是甲·2023-11-21 10:33

pyspark案例系列6-将Hive表数据写入MySQL

/usr/bin/envpython#-*-coding:utf-8-*-frompyspark.sqlimportSparkSessio

只是甲·2023-11-21 10:33

Spark读取mysql数据插入Hive表中

先把hive-size文件分发到每台机器spark配置文件下，避免待会找不到hive数据库修改spark的配置文件,conf目录下的spark-env.shexportJAVA_HOME=/opt/soft

JAVA百练成神·2023-11-21 10:01

spark与hive，mysql交互

spark读取hive表的数据处理后存到mysql●agg返回DF类型括号里接收的是列所以可以在括号中给列起别名○直接写count返回的是df无法给列起别名●join所要查询的数据放在leftjoin左边

Eternal_Date·2023-11-21 10:31

大数据之使用Spark增量抽取MySQL的数据到Hive数据库（1）

目录前言题目：一、读题分析二、处理过程1.采用SparkSQL使用max函数找到最大的日期然后转换成时间类型在变成字符串2.这里提供除了SQL方法外的另一种过滤不满足条件的方法三、重难点分析总结前言本题来源于全国职业技能大赛之大数据技术赛项电商赛题

约定Da于配置·2023-11-21 10:29

大数据之使用Spark全量抽取MySQL的数据到Hive数据库

读题分析二、使用步骤1.导入配置文件到pom.xml2.代码部分三、重难点分析总结前言本题来源于全国职业技能大赛之大数据技术赛项赛题-离线数据处理-数据抽取（其他暂不透露）题目：编写Scala代码，使用Spark

约定Da于配置·2023-11-21 10:59

Spark 从Hive表中读数据或向Hive中写入数据

SparkSQL支持在Hive中的数据读写，但是Hive中有大量的依赖在Spark中不存在，所以在使用过程中要配置这些依赖。

pageniao·2023-11-21 10:27

使用sparksql将hive数据导出至mysql

1.在pom文件添加mysqlmysql-connector-java5.1.34org.apache.sparkspark-hive_2.13${spark.version}2.完整代码如下importorg.apache.spark.sql.SparkSessionobjectHive2Mysql

有风入弦·2023-11-21 10:57

spark sql对hive中数据进行处理和存储

因为运行会产生很多日志信息着你喔导入一个叫log4j的文件进行消除然后创建以下几个类和特质首先SaveTraittraitSaveTrait{defdfSave(indf:DataFrame,ctx:SparkSession

宝罗·2023-11-21 10:56

Spark | 读取Hive表数据写入MySQL

importjava.sql.Connectionimportscala.collection.mutable.ArrayBufferobjectJdbcTemplateUtilextendsSerializable{/***单条操作*@paramsql*@paramparams*/defexecuteSql(conn:Connection,sql:String,params:Array[Stri

点滴笔记·2023-11-21 10:24

Spark-sql离线抽取全量数据到hive分区表中

先建立spark连接valspark:SparkSession=SparkSession.builder().appName("test").master("local[*]).enableHiveSupport

77zhi·2023-11-21 10:53

Midjourney绘画提示词Prompt参考学习教程

一、工具SparkAi：SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。

白云如幻·2023-11-21 10:22

Spark SQL将Hive表中的数据写入到MySQL数据库中

importorg.apache.spark.sql.SparkSessionobjectHiveToMySQL{defmain(args:Array[String]):Unit={//创建SparkSessionvalspark

open_test01·2023-11-21 10:20

拾贰SparkSQL:数据关联优化

在分布式环境中，Spark支持两类数据分发模式。一类是学过的Shuffle，Shuffle通过中间文件来完成Map阶段与Reduce阶段的数据交换，因此它会引入大量的磁盘与网络开销。

for your wish·2023-11-21 09:13

Scala---WordCount

二、Spark-Scala版本的WordCount1.valconf=newSparkConf()2.conf.setMaster("local")3.conf.setAppName("scala-wc

30岁老阿姨·2023-11-21 08:25

Spark版wordCount

importorg.apache.spark.{SparkContext,SparkConf}/***CreatedbyAdministratoron2016/7/240024.

夜空最亮的9星·2023-11-21 07:13

map(func)

作用：返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成//需求：创建一个1-10数组的RDD，将所有元素*2形成新的RDDvalconf:SparkConf=newSparkConf

比格肖·2023-11-21 07:26

【论文阅读】SPARK：针对视觉跟踪的空间感知在线增量攻击

SPARK:Spatial-AwareOnlineIncrementalAttackAgainstVisualTrackingintroduction在本文中，我们确定了视觉跟踪对抗性攻击的一个新任务：

prinTao·2023-11-21 07:40

spark执行过程

启动SparkSubmit（driver）（通过一个脚本启动：bini\spark-submit--master--executor--memory2g--exector-cores10------>指定启动需要每台

茶还是咖啡·2023-11-21 05:57

前端处理大文件/视频分片上传，断点续传

1、html部分，项目使用的是ant-design-vue组件库；spark-md5进行加密上传image2、使用变量：（通过上传成功的分片数与总分片数对比判断上传是否完成）image3、主要方法：1、

ikerboy·2023-11-21 05:32

Spark 从零到开发（六）HiveContext

SparkSQL执行引擎的一个实例，它与存储在Hive中的数据集成在一起。从类路径上的hive-site.xml读取Hive的配置。

FantJ·2023-11-21 03:06

Scala学习笔记

大数据开发中常用Scala进行功能开发，而且大数据处理和计算框架Flink和Spark都是基于Scala开发的，学习Scala不仅是进行业务开发的前提，而且是深入研究大数据前言技术的基础。

火影启源·2023-11-21 02:02

使用scala做二元分类模型的评价

fitvaltvsFitted=tvs.fit(trainData)2、模型训练结束后，使用summary来获取评价指标//bestmodelsummary获取训练时最优模型的评价指标importorg.apache.spark.ml.PipelineModel

Just Jump·2023-11-21 00:58

推荐频道

——Spark