.spark 第37页

Spark - 输出parqute文件

pom.xml4.0.0org.springframework.bootspring-boot-starter-parent2.2.5.RELEASEcom.spspark0.0.1-SNAPSHOTsparkspark1.8

是个吃不饱的人·2023-12-04 20:39

hive sql&spark 优化

在数据抽取中常用到从其他数据库抽取数据后数据灌入到hive数据库的情况。大体逻辑是，连接源数据库，抽取数据，缓存转换，数据插入到hive数据库（或者直接覆盖db文件）。中间源数据库的效率和代码质量、抽取数据的服务器资源、数据转换的效率、hive数据的插入sql效率等都是限制数据抽取效率的瓶颈，如何在保证系统稳定的情况下，效的优化各阶段的运行速度，从而整体提高数据抽取的效率，是一个比较大的课题。从三

刘文钊1·2023-12-04 20:08

spark源码之shuffleManager

shufflemanager的实现类：sortshufflemanagerSpark0.8及以前HashBasedShuffle在ShuffleWrite过程按照Hash的方式重组Partition的数据

cclucc·2023-12-04 18:01

Spark

SparkListenerEventprotectedoverridedefdoPostEvent(listener:SparkListenerInterface,event:SparkListenerEvent

zhixingheyi_tian·2023-12-04 16:00

2023最新AI创作系统ChatGPT网站源码+Midjourney绘画+支持GPT-4-Turbo模型+即将支持TSS语音对话功能模块

一、AI创作系统SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。

白云如幻·2023-12-04 13:10

大数据分析与应用实验任务十

大数据分析与应用实验任务十实验目的：通过实验掌握sparkSQL的基本编程方法；熟悉RDD到DataFrame的转化方法；通过实验熟悉sparkSQL管理不同数据源的方法。

陈希瑞·2023-12-04 12:00

spark的reduceByKey

在进行Spark开发算法时，最有用的一个函数就是reduceByKey。

zxfBdd·2023-12-04 06:24

Spark Streaming反压机制介绍

1.反压机制原理SparkStreaming中的反压机制是Spark1.5.0推出的新特性，可以根据处理效率动态调整摄入速率。

zxfBdd·2023-12-04 06:24

内存垃圾回收

尽管您无法直接在方法调用完成后手动释放内存，但您可以通过一些Spark实践来帮助垃圾恢复器更及时地恢复一些不再需要的对象。以下是建

北执南念·2023-12-04 05:06

window环境下 Error response from daemon: Get https://index.docker.io/v1/search?q=openjdk..... timeout

q=spark&n=25:dialtcp:lookupindex.docker.ioon192.168.65.1:53:readudp192.168.65.2:4

森森之火·2023-12-04 04:20

Hudi-集成Spark之spark-sql方式

Hudi集成Spark之spark-sql方式启动spark-sql#启动spark-sql之前需要先启动Hive的Metastorenohuphive--servicemetastore&#针对Spark3.2spark-sql

迷雾总会解·2023-12-04 02:01

flink学习之sql-client之踩坑记录

flink/bin目录下会看到这个脚本，最开始以为是和spark-shell差不多的。结果自行摸索无果，网上查的文章也写的很垃圾，自己查官网看下吧。SQL客户端|ApacheFlink直接.

cclovezbf·2023-12-04 02:00

spark-sql 指定metastore地址、读取mysql

spark-sql-hivespark-sql--databasesrc--hiveconfhive.metastore.uris=thrift://hdp02:2083-e"select*fromsrc_db2

qzWsong·2023-12-04 02:00

【Spark九十四】spark-sql工具的使用

spark-sql是Sparkbin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过hive>输入的指令可以通过spark-sql>输入的指令来完成。

axxbc123·2023-12-04 02:59

基于Spark、NoSQL的实时数据处理实践

本文基于TalkingData张学敏在公司内部KOL的分享主题《基于Spark、NoSQL实时数据处理实践》的整理，同时也在DTCC大会上做了同主题的分享。

TalkingData·2023-12-04 01:10

【数据中台】开源项目（3）-Linkis

通过使用Linkis提供的REST/WebSocket/JDBC等标准接口，上层应用可以方便地连接访问MySQL/Spark/Hive/Presto/Flink等底层引擎，同时实现统一变量、脚本、用户定义函数和资源文件等用户资源的跨上层应用互通

码农丁丁·2023-12-03 23:42

产品迭代更新 | 阿列夫科技基于Linkis+DataSphere Studio的单机安装部署实战

作者：萧寒GitHubID：hx23840阿列夫科技原来的技术平台是基于Hadoop，Spark平台搭建的，为了充分的满足业务需求，做了大量接口封装。

微众开源·2023-12-03 23:12

基于hadoop的商品推荐系统_推荐系统大规模特征工程与FEDB的Spark基于LLVM优化

weixin_39541212·2023-12-03 18:05

Javalin：一个轻量的Web Framework

Javalin最初是SparkJava的一个分支，后来受到JavaScript框架koa.js的

Java精选·2023-12-03 18:23

ApacheCN 数据科学译文集 20210313 更新

数据科学和机器学习实践指南零、前言一、入门二、统计和概率回顾和Python实践三、Matplotlib和高级概率概念四、预测模型五、Python机器学习六、推荐系统七、更多数据挖掘和机器学习技术八、处理真实数据九、ApacheSpark

布客飞龙·2023-12-03 14:48

基于Python和Spark的大数据音乐推荐系统的设计与实现

基于Python和Spark的大数据音乐推荐系统的设计与实现摘要随着科学技术的发展，人们对服务的要求也越来越高。为了能提高管理者的管理效能，现在的音乐推荐管理必须要脱离复杂的手工管理方式。

程序设计123·2023-12-03 13:55

IDEA -source 1.5 中不支持 lambda 表达式解决方法

一直在用scala编写Spark或者Flink代码，对于Java的lambda表达式一直认为没有前者一直点(".")下去方便，偶然用后者写代码中间出现一些小的设置问题，记录一下：示例代码finalLocalEnvironmentenv

架构师联盟·2023-12-03 12:29

2023_Spark_实验二十三：Kafka的安装与基本操作

Kafka的安装与基本操作一、前提工作二、Kafka安装三、Kafka基本操作一、前提工作必须安装了zookeeper单机可参考：zookeeper单机安装与配置集群可参考：zookeeper的集群安装二、Kafka安装上传kafka_2.11-2.4.1.tgz到/tools目录下解压安装到/opt/soft_installed/目录下tar-zvxfkafka_2.11-2.4.1.tgz-C

pblh123·2023-12-03 12:17

Spark经典案例分享

Spark经典案例链接操作案例二次排序案例链接操作案例案例需求数据介绍代码如下：packagebase.charpter7importorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.fs

pblh123·2023-12-03 12:45

element-ui 文件上传组件添加 MD5编码参数

md5编码使用的依赖为spark-md5.js参考了csdn上的一篇文章：基于vue框架下使用Element-UI获取文件MD5值并上传。

十万个维他奶·2023-12-03 11:31

【Spark基础】-- RDD、DataFrame 和 Dataset 的对比

目录一、简要介绍RDD、DataFrame和DataSet1、RDD1.1什么是RDD？1.2RDD的五大特性是什么？

high2011·2023-12-03 09:38

【数据中台】开源项目（5）-Amoro

AmoroisaLakehousemanagementsystembuiltonopendatalakeformats.WorkingwithcomputeenginesincludingFlink,Spark

码农丁丁·2023-12-03 08:05

domain参数错误导致讯飞星火大模型：发生错误，错误码为：10404

https://xinghuo.xfyun.cn/sparkapi解决星火1.5，2，3版本分别传general,generalv2,generalv3参考

shy_snow·2023-12-03 07:32

spark写入数据报错

报错信息如下：Exceptioninthread"main"org.apache.spark.sql.AnalysisException:Cannotoverwritetabledwd.dim_user_infothatisalsobeingreadfromatorg.apache.spark.sql.DataFrameWriter.saveAsTable

南城守护·2023-12-03 06:47

【SparkSQL】基础入门（重点：SparkSQL和Hive的异同、SparkSQL数据抽象）

【大家好，我是爱干饭的猿，本文重点介绍SparkSQL的定义、特点、发展历史、与hive的区别、数据抽象、SparkSession对象。

爱干饭的猿·2023-12-03 06:13

解码 SQL：深入探索 Antlr4 语法解析器背后的奥秘

你可能已经使用过诸如MySQL、Hive、ClickHouse、Doris、Spark和Flink等工具来编写SQL查询。

Light Gao·2023-12-03 06:21

黑猴子的家：Spark RDD 操作

所有这些操作主要针对两种类型的RDD:（1）数值RDD（2）键值对RDDRDD的所有转换操作都是懒执行的，只有当行动操作出现的时候Spark才会去真的运行,不同的RDD类型之间的转换，通过隐式转换完成，

黑猴子的家·2023-12-03 03:06

SparkStreaming 窗口操作

热点搜索词滑动统计，每隔10秒钟，统计最近60秒钟的搜索词的搜索频次，并打印出排名最靠前的3个搜索词以及出现次数普通SparkStreaming处理方式，如果将时间间隔设置成60s，无法每隔10s输出一次结果

printf200·2023-12-03 02:27

spark读取GBK文件的方法

spark读取GBK文件乱码spark的textFile方法默认写死了读UTF-8格式的文件，读其他格式的文件则会显示乱码。

NikolasNull·2023-12-03 02:31

AI创作ChatGPT源码+AI绘画（Midjourney绘画）+DALL-E3文生图+思维导图生成

一、AI创作系统SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。

白云如幻·2023-12-03 00:25

Spark Core源码精读计划#24：StaticMemoryManager——静态内存管理机制

目录前言MemoryManager的初始化静态内存管理器StaticMemoryManager构造方法计算堆内存储/执行内存总量内存申请方法静态内存管理布局图解总结前言在上一篇文章的最后，我们阅读了内存管理器MemoryManager抽象类的源码，并且提到它有两种实现：静态内存管理器StaticMemoryManager、统一内存管理器UnifiedMemoryManager。其中，StaticM

LittleMagic·2023-12-03 00:52

spark 操作 hbase 之读取 hbase

1通过scan读取hbase表应用场景：当想读取hbase表数据，做进一步数据处理或数据分析时，需要用scan读取HBASE表。读取方法：file直到读取数据的inputformat是TableInputFormat，filefilekeyin：ImmutableBytesWritablerowkeyvaluein：Result一行（rowkey）的数据file1.1scan全表packageda

海牛大数据_青牛老师·2023-12-02 21:13

Hadoop进阶学习---MapReduce分布式计算架构

1.单词统计流程(文字简单描述)已知文件内容:hadoophivehadoopsparkhiveflinkhivelinuxhivemysql计算每个单词出现的次数2.MR底层计算原理[重点]MAP阶段第一阶段是把输入目录下文件按照一定的标准逐个进行逻辑切片

Yan_bigdata·2023-12-02 19:30

Hdoop学习笔记（HDP）-Part.17 安装Spark2

目录Part.01关于HDPPart.02核心组件原理Part.03资源规划Part.04基础环境配置Part.05Yum源配置Part.06安装OracleJDKPart.07安装MySQLPart.08部署Ambari集群Part.09安装OpenLDAPPart.10创建集群Part.11安装KerberosPart.12安装HDFSPart.13安装RangerPart.14安装YARN+

这啥命啊·2023-12-02 19:45

spark - java 编程实现Word count

本文通过一个demon向读者展示，如何用spark实现wordcount功能。

良人与我·2023-12-02 11:37

Antlr4 - 自定义SparkSQL解析

Antlr4是一个强大的解析器的生成器，可以用来读取、处理、执行或翻译结构化文本，ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器，最出名的Spark计算引擎2.x就是用它来解析SQL的，是一个牛到没朋友的家伙

大猪大猪·2023-12-02 11:03

【Spark数仓项目】需求八：MySQL的DataX全量导入和增量导入Hive

【Spark数仓项目】需求八：MySQL的DataX全量导入和增量导入Hive文章目录一、mysql全量导入hive[分区表]需求介绍：二、mysql增量导入hive1.增量导入的第一种实现方法2.另一种方法是时间字段

程序终结者·2023-12-02 10:22

spark RDD与DataFrame的相互转换

一、RDD与DataFrame的区别RDD转DataFrame原因及方式可以将RDD转成DataFrame之后，借用sparksql和sql以及HQL语句快速方便的使用sql语句统计和查询，比如说分组排名

火树银花之处·2023-12-02 10:47

Spark---DataFrame存储、Spark UDF函数、UDAF函数

四、DataFrame存储+SparkUDF函数1、储存DataFrame1）、将DataFrame存储为parquet文件2）、将DataFrame存储到JDBC数据库3）、将DataFrame存储到

30岁老阿姨·2023-12-02 10:46

Spark低版本适配Celeborn

Spark-3.5版本以下使用Celeborn时，无法使用动态资源，对于低版本的Spark，Celeborn提供了patch。

woloqun·2023-12-02 10:16

SparkSQL 学习笔记----将RDD转换成DataFrame

一、RDD转换成DataFrame1、为什么要将RDD转换成DataFrame转换成DataFrame之后就可以直接针对HDFS等任何可以构建为RDD的数据，进行SparkSQL进行SQL查询了。

PZ~浪味仙·2023-12-02 10:46

2023_Spark_实验二十四：Kafka集群环境搭建

Kafka集群环境搭建一、环境说明二、安装步骤一、环境说明目前的Kafka版本还是需要借助zookeeper来存储cluster、brokers、consumer等相关元信息，在当前版本即在本案例中，我们采用了外部的zookeeper，即搭建了三节点的集群zookeeper环境，以其作为Kafka2_12_3.1.0版本的元数据存储库。zookeeper环境配置如下：节点安装路径dataDir路径

pblh123·2023-12-02 10:44

【详解】Spark数据倾斜问题由基础到深入详解-完美理解-费元星

数据倾斜定义：顾名思义，就是大量相似或相同数据聚集在一个块的节点里，导致计算和资源分配不均导致的计算缓慢（长尾）问题。数据倾斜原因：count(distinctfield)groupbyNULL空值Shuffle(概率最高、发生最普遍的数据倾斜问题，本文重点讲述这个)###################################################先说解决方案：1.相同值打散各

未来星_狒狒·2023-12-02 10:44

使用Spark写入数据到数据库表

项目场景：使用Spark写入数据到数据库表问题描述Column"20231201"notfoundinschemaSome(StructType(StructField(sdate,IntegerType

用吉他弹奏摇滚乐·2023-12-02 10:14

推荐频道

.spark