Hadoop；Spark 第24页

毕业设计——基于spark的电影推荐系统，包括基于ALS、LFM的离线推荐、实时推荐

Python豆豆·2024-01-25 22:21

大数据｜Spark介绍

前文回顾：Hive和数据仓库目录为什么会有SparkSpark的基本架构和组件主要体系结构和组件Spark集群的基本结构Spark系统的基本结构Spark应用程序的基本结构Spark程序运行机制⭐️Spark

啦啦右一·2024-01-25 21:08

大数据技术之Spark

Spark概述1.1Spark是什么官方解释：Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

严同学正在努力·2024-01-25 21:38

大数据开发之Spark（spark streaming）

第1章：SparkStreaming概述1.1sparkstreaming是什么sparkstreaming用于流式数据的处理。

Key-Key·2024-01-25 21:07

年度案例大数据盘点之Spark篇

BAO7988·2024-01-25 21:06

大数据开发之Spark（完整版）

第1章：Spark概述1.1什么是spark回顾：hadoop主要解决，海量数据的存储和海量数据的分析计算。spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Key-Key·2024-01-25 21:05

Tonemapping不够用了：Local Tonemapping方案总结

【USparkle专栏】如果你深怀绝技，爱“搞点研究”，乐于分享也博采众长，我们期待你的加入，让智慧的火花碰撞交织，让知识的传递生生不息！

UWA·2024-01-25 21:21

Hadoop on Yarn 提交job失败：java.net.ConnectException：Connection refused

报错：INFOorg.apache.hadoop.service.AbstractService:ServiceNodeManagerfailedinstateSTARTED;cause:org.apache.hadoop.yarn.exceptions.YarnRuntimeException

Anthons·2024-01-25 20:58

Linux 安装 pySpark

1、安装Java和Scale。1.1、Java参考Java安装运行1.2、Scale安装1）下载并解压官网地址：https://www.scala-lang.org/download/wgethttps://downloads.lightbend.com/scala/2.13.1/scala-2.13.1.tgztar-zxvfscala-2.13.1.tgzmvscala-2.13.1scala

兰叶书·2024-01-25 20:00

sqoop之hive数据仓库和oracle数据库数据转换

sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres

Summer_1981·2024-01-25 20:37

spakr 提交任务

当前集群支持3中集群管理Standalone（spak框架自身拥有能力）ApacheMesosHadoopYARNKubernetes使用/spark-submit脚本提交任务，脚本后面可以接参数.

新鲜氧气·2024-01-25 19:55

spark 关联外部数据

importorg.apache.spark.rdd.RDDimportorg.apache.spark.

新鲜氧气·2024-01-25 19:54

Spark累加器LongAccumulator

Accumulator有两个性质：1、只会累加，合并即累加；2、不改变Spark作业懒执行的特点，即没有action操作触发job的情况下累加器的值有可能是初始值。o

新鲜氧气·2024-01-25 19:53

hadoop 问题集

1.org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException:TheauxService:mapreduce_shuffledoesnotexistyarn

Pure_Eyes·2024-01-25 17:18

pyspark排雷

问题执行计算时，抛出异常：...java.lang.IllegalArgumentException:Unsupportedclassfilemajorversion57...经过查询，发现时pysparkjar

_Rango_·2024-01-25 16:05

大数据分析组件Hive-集合数据结构

Hive的数据结构前言一、array数组类型二、map键值对集合类型三、struct结构体类型前言Hive是一个基于Hadoop的数据仓库基础设施，用于处理大规模分布式数据集。

Aimyon_36·2024-01-25 15:15

[AIGC 大数据基础]hive浅谈

Hive作为一个基于Hadoop的数据仓库基础设施，为用户提供了类SQL的查询语言和丰富的功能，使得处理大规模数据变得更加简单和高效。

程序员三木·2024-01-25 14:17

Flink1.17总结

1.Flink介绍1.Flink和SparkStreaming区别2.Flink分层API3.WordCount案例需求：写一个文本，统计出单词的个数1.使用flink批处理查看WordCountBatchDemo

asxyyjh·2024-01-25 14:29

hadoop集群部署

hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是一个存储系统+计算框架的软件框架，主要解决海量数据存储与计算的问题，是大数据技术中的基石。

Cat God 007·2024-01-25 12:45

Hadoop集群的部署，安装和管理（头歌）

示例集群信息以下表格为本教程所用示例集群节点信息：我们准备了三台虚拟服务器，连接方式如下：第一步我们需要在evassh服务器初始化虚拟服务器：cd/optwrapdockerulimit-funlimiteddockerload-iubuntu16-ssh.tardocker-composeup-d注意：请不要在各个虚拟服务器之间进行ssh登录，这种操作会导致无法保存配置数据。正确方法是：在虚拟服

小坏蛋儿&·2024-01-25 12:14

hadoop集群规划部署

一、集群规划三台硬件资源，部署hadoop版本，hadoop-3.3.5，部署后配置文件。Hadoop配置文件分两类：默认配置文件和自定义配置文件。

Snower_2022·2024-01-25 12:43

Hbase集群安装部署

安装好对应版本的hadoop集群，并启动安装好对应版本的zookeeper集群，并启动HBase集群安装部署下载安装包并上传到node01服务器安装包下载地址：http://archive.cloudera.com

我还不够强·2024-01-25 12:02

详解Linux运维工程师高级篇（大数据安全方向）.

hadoop安全目录：kerberos（已发布）elasticsearch（已发布）http://blog.51cto.com/chenhao6/2113873knoxoozierangerapachesentry

weixin_30588729·2024-01-25 10:14

大数据Hadoop/Hive学习笔记一（基础概念）

大数据Hadoop/Hive学习笔记一（基础概念）一，概念介绍：大数据：大数据一般用来描述一种数量庞大，复杂的数据集，传统数据处理应用程序难以应对。

lucky_myj·2024-01-25 09:46

【hudi学习笔记】hudi基础教程-hudi表设计

一.hudi表设计在较高的层次上，用于写Hudi表的组件使用了一种受支持的方式嵌入到ApacheSpark作业中，它会在支持DFS的存储上生成代表Hudi表的一组文件。

菜鸟老胡~·2024-01-25 09:13

Hudi学习笔记4 - Hudi配置之Spark配置

SparkDatasourceConfigs读配置配置项是否必须默认值配置说明as.of.instantYN/A0.9.0版本新增，时间旅行查询从哪儿开始，有两种格式的值：yyyyMMddHHmmss和

一见·2024-01-25 09:40

Hudi学习笔记2 - Hudi配置

https://hudi.apache.org/docs/configurationsHudi配置分类SparkDatasourceConfigsSparkDatasource的配置。

一见·2024-01-25 09:39

Hudi学习笔记1

使用SparkSQL创建hudi表时，默认设置：hoodie.da

一见·2024-01-25 09:09

Hudi学习笔记(一)

大数据发展背景Hudi用于管理分布式文件系统上大型分析数据集存储，支持Spark和Flink整合。它能够是DFS数据集在分钟级时延内支持变更，也支持下游系统对这个数据集的增量处理。

一一|一一一亅·2024-01-25 09:37

上万字详解Spark Core（建议收藏）

先来一个问题，也是面试中常问的：Spark为什么会流行？

废柴程序员·2024-01-25 09:06

Hadoop-HDFS写流程（从命令行到完成）

一、简单回顾下HDFS的架构如果不了解HDFS的可以看下我写的一篇博客，这里先贴下官网架构图：二、源码分析源码中写的肯定是最真实的，下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4

隔着天花板看星星·2024-01-25 09:23

Hadoop-HDFS高可用

原理参考官网介绍：ApacheHadoop3.3.6–HDFSHighAvailabilityUsingtheQuorumJournalManager二、背景在Hadoop2.0.0之前，NameNode

隔着天花板看星星·2024-01-25 09:52

Hadoop-MapReduce使用说明

下面让我们跟着官网来学习下吧ApacheHadoop3.3.6–MapReduceTutorial二、运行流程大致描述1、用户通过jo

隔着天花板看星星·2024-01-25 09:52

Hadoop-YARN概览

一、什么是YARNYetAnotherResourceNegotiator，另一种资源协调者，简称YARN。基本思想是将资源管理和作业调度/监视的功能拆分为单独的守护进程。其想法是拥有一个全局ResourceManager（RM）和每个应用程序的ApplicationMaster（AM）。可以支持单个作业，也可以支持多个作业的DAG。被称为另一种资源协调者，那就证明有一种比YARN更早的资源协调者

隔着天花板看星星·2024-01-25 09:52

Hadoop-HDFS读流程（从输入命令到回显）

一、简单回顾下HDFS的架构如果不了解HDFS的可以看下我写的一篇博客，这里先贴下官网架构图：二、静静的思考一会儿爱因斯坦说过：想象力比知识更重要。想象力推动世界，是知识进化的源泉。我们先不看源码，先通过官方架构图和我们对HDFS的了解来想象下读流程是什么样的。我要读HDFS上的一份文件，首先需要知道它在哪台节点上，HDFS上存储的文件都是以块的形式存放在各个DataNode节点上。因此需要知道这

隔着天花板看星星·2024-01-25 09:52

Hadoop-MapReduce-源码跟读-客户端篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧Indexof/dist/hadoop/core二、从WordCount进入源码用idea将源码加载进来后

隔着天花板看星星·2024-01-25 09:52

hadoop 三种运行方式

一、本地运行方式1创建在hadoop-3.3.5文件下面创建一个wcinput文件夹[antares@hadoop1hadoop-3.3.5]$mkdirwcinput[antares@hadoop1hadoop

Snower_2022·2024-01-25 09:51

Hadoop-MapReduce-跟着日志理解整体流程

一、数据准备viinput_01.txtviinput_02.txtviinput_03.txt文本内容如下：-----------------input_01.txt----------------javascalapythonc++javajsgogovbaccc++javascalapythonphpcsshtmljsjavajavascalavbac#.netRRRjava--------

隔着天花板看星星·2024-01-25 09:49

HBase学习五：运维排障之备份与恢复

HBase的所有文件都存储在HDFS上，因此只要使用Hadoop提供的文件复制工具distcp将HBASE目录复制到同一HDFS或者其他HDFS的另一个目录中，就可以完成对源HBase集群的备份工作copyTable

Studying！！！·2024-01-25 09:49

spark 3.2 reuse pvc 功能改造

背景sparkreusepvcfeaturePVC:PersistentVolumeClaim.APersistentVolumeClaim(PVC)isarequestforstoragebyauser.ItissimilartoaPod.PodsconsumenoderesourcesandPVCsconsumePVresources.Podscanrequestspecificlevelso

todd5167·2024-01-25 07:23

大数据平台组件日常运维操作说明（Hadoop/Zookeeper/Kafa/ES/Mysql/Spark/Flume/Logstash/Tomcat）

Hadoop日常运维操作说明hdfs生产环境hadoop为30台服务器组成的集群，统一安装配置，版本号为2.7.7部署路径：/opt/hadoop启动用户：hadoop配置文件：/opt/hadoop/

love6a6·2024-01-25 07:12

一个女人和一座公园

图片发自App后来知道这座公园有一个很阴柔的名字“Women‘sPark”。鉴于这是所知范围内最近的公园，所以似乎也没有更好的选择。于是这名孕妇经常踟蹰在这异国他乡清

七月的薰衣草天空·2024-01-25 07:13

基于CentOS7 Hadoop-2.7.2伪分布式部署

1、基本环境Linux版本：CentOS7.0JDK版本：jdk-7u79-linux-x64.tar.gzHadoop版本：hadoop-2.7.2.tar.gzjdk以及Hadoop安装在/usr目录下

程序员小H·2024-01-25 07:23

Hadoop HDFS 实现原理图文详解

一、HDFS体系结构1.1HDFS简介Hadoop分布式文件系统(HDFS)是运行在通用硬件(commodityhardware)上的分布式文件系统（DistributedFileSystem）。

禅与计算机程序设计艺术·2024-01-25 07:49

【Java Kubernates】Java调用kubernates提交Yaml到SparkOperator

考虑使用spark，sparkoperator也已经部署到k8s，现在需要定向提交sparksql到k8s的sparkoperator上，使用k8s资源执行sql。

秦拿希·2024-01-25 07:13

spark广播变量

-1-24广播变量特点BroadcastVariable会将使用到的变量，只会为每个节点拷贝一份，不会为每个task进行拷贝，能够优化性能（在task数量比较大体现更明显），减少网络传输及内存消耗通过SparkContext

新鲜氧气·2024-01-25 07:37

Hive运行机制与使用

hive介绍hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

小猪Harry·2024-01-25 05:09

SparkStreaming稽查布控/动态广播变量(处理电信数据)

SparkStreaming稽查布控/动态广播变量需求：1.在mysql中建表2.在虚拟机中使用指令：nc-lk88883.在IDEA中编写代码数据如下需求：1.在mysql中建表CREATETABLE

莫尼莫尼·2024-01-25 05:54

pyspark udf

目录简单的注册UDF自己定义函数UDFpysparkudf源码解析复杂数据类型：ArrayType、MapType、StructTypeArrayTypeMapTypeStructType简单的注册UDF

小赵要加油·2024-01-25 05:33

【spark】SparkSQL

目录SparkSQL01.快速入门什么是SparkSQL为什么学习SparkSQLSparkSQL的特点SparkSQL发展历史-前身Shark框架SparkSQL发展历史02.SparkSQL概述SparkSQL

小赵要加油·2024-01-25 05:00

推荐频道

Hadoop；Spark

毕业设计——基于spark的电影推荐系统，包括基于ALS、LFM的离线推荐、实时推荐

大数据｜Spark介绍

大数据技术之Spark

大数据开发之Spark（spark streaming）

年度案例大数据盘点之Spark篇

大数据开发之Spark（完整版）

Tonemapping不够用了：Local Tonemapping方案总结

Hadoop on Yarn 提交job失败：java.net.ConnectException：Connection refused

Linux 安装 pySpark

sqoop之hive数据仓库和oracle数据库数据转换

spakr 提交任务

spark 关联外部数据

Spark累加器LongAccumulator

hadoop 问题集

pyspark排雷

大数据分析组件Hive-集合数据结构

[AIGC 大数据基础]hive浅谈

Flink1.17总结

hadoop集群部署

Hadoop集群的部署，安装和管理（头歌）

hadoop集群规划部署

Hbase集群安装部署

详解Linux运维工程师高级篇（大数据安全方向）.

大数据Hadoop/Hive学习笔记一（基础概念）

【hudi学习笔记】hudi基础教程-hudi表设计

Hudi学习笔记4 - Hudi配置之Spark配置

Hudi学习笔记2 - Hudi配置

Hudi学习笔记1

Hudi学习笔记(一)

上万字详解Spark Core（建议收藏）

Hadoop-HDFS写流程（从命令行到完成）

Hadoop-HDFS高可用

Hadoop-MapReduce使用说明

Hadoop-YARN概览

Hadoop-HDFS读流程（从输入命令到回显）

Hadoop-MapReduce-源码跟读-客户端篇

hadoop 三种运行方式

Hadoop-MapReduce-跟着日志理解整体流程

HBase学习五：运维排障之备份与恢复

spark 3.2 reuse pvc 功能改造

大数据平台组件日常运维操作说明（Hadoop/Zookeeper/Kafa/ES/Mysql/Spark/Flume/Logstash/Tomcat）

一个女人和一座公园

基于CentOS7 Hadoop-2.7.2伪分布式部署

Hadoop HDFS 实现原理图文详解

【Java Kubernates】Java调用kubernates提交Yaml到SparkOperator

spark广播变量

Hive运行机制与使用

SparkStreaming稽查布控/动态广播变量(处理电信数据)

pyspark udf

【spark】SparkSQL