大数据处理Spark 第30页

9.Spark Core-Spark经典案例之非结构数据处理

需求：根据tomcat日志计算url访问了情况，具体的url如下，要求：区别统计GET和POSTURL访问量结果为：访问方式、URL、访问量测试数据集：在CODE上查看代码片派生到我的代码片196.168.2.1--[03/Jul/2014:23:36:38+0800]“GET/course/detail/3.htmHTTP/1.0”200384350.038182.131.89.195--[03

__元昊__·2023-12-29 14:25

Spark集群- 连接hadoop、hive集群

目的使spark代码提交到集群运行时，能够操作hdfs、hive等保证所有spark机器都能解析hadoop集群的机器名称如果spark和hadoop部署在同样的集群，则可以省略这一步如果spark和hadoop

heichong·2023-12-29 13:59

大数据点滴·2023-12-29 09:29

seatunnel同步oracle到clickhouse问题

拷贝oracle的包ojdbc6-11.2.0.4.jar到/opt/spark-2.3.3/jar目录下##HowtosolvetheError`Exceptioninthread"main"java.lang.NoSuchFieldError

lin502·2023-12-29 09:58

spark数据分析（sogou500w数据集）

1.实验环境1.1操作系统macOSMojave10.14.11.2虚拟化软件VMwareFusion1.3虚拟机操作系统ubuntu18.0464位1.4数据sogou500w数据2.实验步骤和方法流程2.1安装jdk前往官网下载jdk1.8，安装位置为/home/kyle/env。2.1.2配置环境变量vsudovim/etc/profileexportJAVA_HOME=/home/kyle

pacmoc·2023-12-29 08:45

spark 并行度

并行度的解释：并行度：是一个spark应用中，每个stage之中的task的数目。什么是task:一个spark应用任务执行的最基本单位。

流砂月歌·2023-12-29 07:44

【Spark精讲】一文讲透Spark RDD

MapReduce的缺陷MR虽然在编程接口的种类和丰富程度上已经比较完善了，但这些系统普遍都缺乏操作分布式内存的接口抽象，导致很多应用在性能上非常低效。这些应用的共同特点是需要在多个并行操作之间重用工作数据集，典型的场景就是机器学习和图应用中常用的迭代算法(每一步对数据执行相似的函数)。RDDRDD是只读的。RDD五大属性：①分区、②依赖、③计算函数、④分区器、⑤首选运行位置。RDD则是直接在编程

话数Science·2023-12-29 07:36

【Spark精讲】一文讲透Spark宽窄依赖的区别

宽依赖窄依赖的区别窄依赖：RDD之间分区是一一对应的宽依赖：发生shuffle，多对多的关系宽依赖是子RDD的一个分区依赖了父RDD的多个分区父RDD的一个分区的数据，分别流入到子RDD的不同分区特例：cartesian算子对应的CartesianRDD，是通过创建了两个NarrowDependency完成了笛卡尔乘积操作，属于窄依赖。窄依赖搜索源码，RangeDependency只有UnionR

话数Science·2023-12-29 07:06

[spark] dataframe的数据导入Mysql5.6

在Spark项目中使用Scala连接MySQL5.6并将DataFrame中的数据保存到MySQL中的步骤如下：添加MySQL连接驱动依赖：在Spark项目中，你需要在项目的构建工具中添加MySQL连接驱动的依赖

言之。·2023-12-29 07:02

SparkStreaming与Kafka整合

1.3SparkStreaming与Kafka整合1.3.1整合简述kafka是做消息的缓存，数据和业务隔离操作的消息队列，而sparkstreaming是一款准实时流式计算框架，所以二者的整合，是大势所趋

Guff_hys·2023-12-29 06:55

【数据采集与预处理】数据接入工具Kafka

（一）Kafka核心组成（二）写入流程（三）Zookeeper存储结构（四）Kafka消费过程四、Kafka准备工作（一）Kafka安装配置（二）启动Kafka（三）测试Kafka是否正常工作五、编写SparkStreaming

Francek Chen·2023-12-29 06:55

字节跳动 MapReduce - Spark 平滑迁移实践

摘要：本文整理自字节跳动基础架构工程师魏中佳在本次CommunityOverCodeAsia2023中的《字节跳动MapReduce-Spark平滑迁移实践》主题演讲。

字节跳动云原生计算·2023-12-29 06:20

Spark权威指南(中文版)--第23章生产环境中的结构化流

SparkTheDefinitiveGuide(Spark权威指南)中文版。本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！

登峰大数据·2023-12-29 06:00

自动分区推断

SparkSQL中的Parquet数据源，支持自动根据目录名推断出分区信息。例如，如果将人口数据存储在分区表中，并且使用性别和国家作为分区列。

一个人一匹马·2023-12-29 05:04

2022-02-24-Spark-44(性能调优通用调优)

1.应用开发的原则原则一：坐享其成我们应该尽可能地充分利用Spark为我们提供的“性能红利”，如钨丝计划、AQE、SQLfunctions等等。

冰菓_lam·2023-12-29 03:14

Hive安装笔记——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

将下发的ds_db01.sql数据库文件放置mysql中12、编写Scala代码，使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info

Stitch .·2023-12-29 02:29

Hbase - 自定义Rowkey规则

中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制`TableInputFormat`来实现我们的需求了，我们还可以采用Flink的`DataSet`的方式读取,另外下面还有`Spark

kikiki5·2023-12-29 01:49

Spark 集群搭建

文章目录搭建前准备安装搭建解压并重命名环境变量配置配置文件yarn-site.xmlspark-env.sh官网求π(PI)案例启动spark-shell通过浏览器查看显示查看Spark的网页信息展示搭建前准备下载地址

撕得失败的标签·2023-12-29 00:42

Hive和Spark生产集群搭建（spark on doris）

bigdata-001bigdata-002bigdata-003bigdata-004bigdata-005MySQL-8.0.31mysqlDataxDataxDataxDataxDataxDataxSpark

tuoluzhe8521·2023-12-28 23:56

Hbase BulkLoad用法

要导入大量数据，Hbase的BulkLoad是必不可少的，在导入历史数据的时候，我们一般会选择使用BulkLoad方式，我们还可以借助Spark的计算能力将数据快速地导入。

kikiki2·2023-12-28 23:55

ClickHouse 单机安装及基础知识与 Spark 应用

什么是ClickHouse？ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。在传统的行式数据库系统中，数据按如下顺序存储：处于同一行中的数据总是被物理的存储在一起。常见的行式数据库系统有：MySQL、Postgres等。在列式数据库系统中，数据按如下的顺序存储：这些示例只显示了数据的排列顺序。来自不同列的值被单独存储，来自同一列的数据被存储在一起。不同的数据存储

月亮给我抄代码·2023-12-28 18:36

【大数据】Hudi HMS Catalog 完全使用指南

HudiHMSCatalog完全使用指南1.HudiHMSCatalog基本介绍2.在Flink中写入数据3.在FlinkSQL中查看数据4.在Spark中查看数据5.在Hive中查看数据1.HudiHMSCatalog

G皮T·2023-12-28 18:24

spark 应用编写时5个最需要避免的错误

https://www.slideshare.net/cloudera/top-5-mistakes-to-avoid-when-writing-apache-spark-applications

Bitson·2023-12-28 18:24

Actor模型与Akka Actor体系基础总结

前言最近用业余时间把Flink的RPC基础设施翻了个底朝天，又与之前分析过的SparkRPC机制做了一些对比，越发觉得Actor模型甚为精妙，值得简单记录一下，顺便也可作为日后解析FlinkRPC机制的基础入门

LittleMagic·2023-12-28 17:51

大数据处理各组件概念及作用

一、数据采集：1.1Flume集群：数据采集工具，如写脚本将不同源端的数据采集后进行数据存储，或推送至Kafka等；1.2FTP集群：文件传输工具；1.3Kafka集群：消息队列，未避免消息堵塞而将消息由Kafka统一管理，进行消息的接收和发布；1.4爬虫服务器：依据需求定时定向抓取页面数据；二、数据存储：2.1HDFS集群：（1）概念：分布式文件存储系统，做数据存储（理解为一个磁盘），相当于数据

p1i2n3g4·2023-12-28 17:11

Dbeaver，Hudi，Hive，Spark，Presto应用问题及解决措施梳理

问题1：基于Dbeaver工具，新建的Hudi表无法进行更新（即表结构，新增字段等）；解决措施：在Dbeaver中集成spark的包，通过sparkSQL的方式进行Hudi表的新建，解决表无法更新问题。

p1i2n3g4·2023-12-28 17:31

PingCAP 被评为 Translytical Data Platforms 2023 全球技术领导者

近日，PingCAP在全球化商业咨询公司QuadrantKnowledgeSolutions公布的SPARKMatrixforTranslyticalDataPlatforms中，被评为2023年全球TranslyticalDataPlatforms

TiDB_PingCAP·2023-12-28 16:40

macOS hadoop+spark+scala安装教程

macOShadoop+spark+scala安装教程环境搭建操作系统：macOS10.13.6JDK:1.8.0_201hadoop:2.8.5Spark:2.4.3Scala:2.13.0一、文件准备

飞翔客栈·2023-12-28 15:43

Flink 在有赞实时计算的实践

在这个部分，主要是Flink与Spark的structuredstreaming的一些对比和选择Flink的原因。第三个就是比较重点的内容，Flink在有赞的实践。

有赞技术团队·2023-12-28 15:11

Spark - 动态注册UDF

昨天有位大哥问小弟一个Spark问题，他们想在不停Spark程序的情况下动态更新UDF的逻辑，他一问我这个问题的时候，本猪心里一惊，Spark**还能这么玩?

kikiki2·2023-12-28 14:18

探究Presto SQL引擎(1)-巧用Antlr

从Hadoop生态的Hive,Spark,Presto,Kylin,Druid到非Hadoop生态的Clic

vivo互联网技术·2023-12-28 12:14

Hadoop安装笔记_单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

将下发的ds_db01.sql数据库文件放置mysql中12、编写Scala代码，使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info

Stitch .·2023-12-28 12:32

hadoop hive spark flink 安装

下载地址Indexof/distubuntu安装hadoop集群准备IP地址主机名称192.168.1.21node1192.168.1.22node2192.168.1.23node3上传hadoop-3.3.5.tar.gz、jdk-8u391-linux-x64.tar.gzJDK环境node1、node2、node3三个节点解压tar-zxvfjdk-8u391-linux-x64.tar

nsa65223·2023-12-28 11:59

如何利用数据分析快速解决企业出海业务中存在的问题？

AWS上的分析服务是包括了AWSS3（存储）ML（机器学习）AWSEMR（大数据处理）等一系列服务。AWS宣称其分析服务“从所有数据中获得对所有用户的解答的最快方式。”提供了广泛的分析服务选

九河云·2023-12-28 11:34

【头歌实训】PySpark Streaming 数据源

文章目录第1关：MySQL数据源任务描述相关知识PySparkJDBC概述PySparkJDBCPySparkStreamingJDBC编程要求测试说明答案代码第2关：Kafka数据源任务描述相关知识Kafka

撕得失败的标签·2023-12-28 11:24

[spark] RDD, DataFrame和DataSet是什么?如何相互转化

文章目录是什么如何转化是什么在ApacheSpark中，RDD（ResilientDistributedDataset）、DataFrame和Dataset是三个不同的数据抽象层，各自有不同的特点和用途

言之。·2023-12-28 11:53

[spark] SaveMode

https://spark.apache.org/docs/latest/api/java/index.html?

言之。·2023-12-28 11:53

Spark从入门到精通23：Spark SQL简介

SparkSQL是Spark专门用来处理结构化数据的一个模块，它提供了一个名为DataFrame的编程抽象，并且可以作为分布式SQL查询引擎来使用。本节就来介绍一下SparkSQL的相关知识。

金字塔下的小蜗牛·2023-12-28 09:20

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2023-12-28 03:49

Hadoop集成对象存储和HDFS磁盘文件存储

1.环境配置1.1版本说明组件版本是否必须其他事项Hadoop3.3.0+是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用sparksql，使用hive

tuoluzhe8521·2023-12-28 02:38

spark开发笔记(三、Spark SQL笔记)

基本概念Shark、SparkSQL和Hive之间的关系：Shark借用了Hive大部分的组件，包括词法分析、语法分析和逻辑分析阶段，只是在最后将逻辑执行计划转化为物理执行计划这一步，将底层的实现从MapReduce

眼君·2023-12-27 22:27

【头歌实训】Spark MLlib ( Python 版 )

文章目录第1关：基本统计编程要求测试说明答案代码第2关：回归编程要求测试说明参考资料答案代码第3关：分类编程要求测试说明参考资料答案代码第4关：协同过滤编程要求测试说明参考资料答案代码第5关：聚类编程要求测试说明参考资料答案代码第6关：降维编程要求测试说明参考资料答案代码第7关：特征提取与转化编程要求测试说明答案代码第8关：频繁模式挖掘编程要求测试说明参考资料答案代码第9关：评估指标编程要求测试说

撕得失败的标签·2023-12-27 20:26

【头歌实训】Spark 完全分布式的安装和部署

文章目录第1关：Standalone分布式集群搭建任务描述相关知识课程视频Spark分布式安装模式示例集群信息配置免密登录准备Spark安装包配置环境变量修改spark-env.sh配置文件修改slaves

撕得失败的标签·2023-12-27 20:56

【头歌实训】Spark 完全分布式的安装和部署（新）

文章目录第1关：Standalone分布式集群搭建任务描述相关知识课程视频Spark分布式安装模式主机映射免密登录准备Spark安装包配置环境变量修改spark-env.sh配置文件修改slaves文件分发安装包启动