Hadoop；Spark 第15页

Hadoop大数据实战系列文章之Hive

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据可以将

测试帮日记·2024-02-04 05:45

spark运维问题记录

环境：spark-2.1.0-bin-hadoop2.71.Spark启动警告：neitherspark.yarn.jarsnotspark.yarn.archiveisset，fallingbacktouploadinglibrariesunderSPARK_HOME

lishengping_max·2024-02-04 05:11

Spark提交任务到yarn 报错提示虚拟内存不足解决办法

sparkcontext初始化失败ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalStateException

动若脱兔--·2024-02-04 05:11

解决“Spark context stopped while waiting for backend“ issue

在配置为4C16G的虚拟机上安装hadoop生态全家桶，在安装Spark2，使用了社区版2.3的版本。

江畔独步·2024-02-04 05:10

Spark context stopped while waiting for backend

目录报错信息解决办法解释报错信息Sparkcontextstoppedwhilewaitingforbackend翻译过来就是：Spark上下文在等待后端时停止解决办法通过在yarn-site.xml中添加如下配置项

十二点的泡面·2024-02-04 05:36

Spark Streaming实战：窗口操作，每10秒，把过去30秒的数据取出来(读取端口号1235中的数据)

1.需求：窗口操作，每10秒，把过去30秒的数据取出来窗口长度：30秒滑动距离：10秒2.代码：(1)pom.xmlorg.apache.sparkspark-core_2.112.1.0org.apache.sparkspark-sql

Movle·2024-02-04 05:52

大数据组件部署下载链接

Hadoop2.7下载连接:https://archive.apache.org/dist/hadoop/core/hadoop-2.7.6/Hive2.3.2下载连接：http://archive.apache.org

运维道上奔跑者·2024-02-04 05:13

【大数据开发运维解决方案】Hadoop+Hive+HBase+Kylin 伪分布式安装指南

Hadoop2.7.6+Mysql5.7+Hive2.3.2+Hbase1.4.9+Kylin2.4单机伪分布式安装文档注意：######################################

运维道上奔跑者·2024-02-04 05:43

Hadoop2.7.6+Mysql5.7+Hive2.3.2+zookeeper3.4.6+kafka2.11+Hbase1.4.9+Sqoop1.4.7+Kylin2.4单机伪分布式安装及官方案例测

####################################################################最新消息：关于spark和Hudi的安装部署文档，本人已经写完，连接

运维道上奔跑者·2024-02-04 05:43

pyspark_1_理论篇(RDD基础)

跟着Leo学习PySparkchapter1——rdd的基础编程指南一、准备工作1.背景介绍Spark是用scala编程语言实现的，为了使Spark支持Python，ApacheSpark社区发布了一个工具

NikolasNull·2024-02-04 04:50

2021-07-02

Hadoop集群构建配主机名vi/etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop012.配置IP映射vi/etc/hosts127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4

谢尔比比·2024-02-04 02:40

Kubernetes operator 如何根据自定义类型生成响应的代码的？

分享这篇文章的主要目的，是如何利用kubernetes来自定义类型，如SparkApplication，从而使用脚本，生成响应的代码的这些代码是专门为自定义的类型SparkApplication对象服务的

weixin_34109408·2024-02-04 00:09

Java Scala 混合编程导致编译失败，【找不到符号】问题解决

Failedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:3.1:compile(default-compile)onprojectspark-auth

0X码上链·2024-02-03 23:20

hadoop、spark、flink集群修改默认ssh端口号

大数据集群在实际搭建过程中，其默认ssh端口不一定都是22，这时需要根据各自的配置文件进行适配。ssh端口号默认为22，以centos7.x为例，可以在/etc/ssh/sshd_config中进行修改，如下示例将22改为22222：#IfyouwanttochangetheportonaSELinuxsystem,youhavetotell#SELinuxaboutthischange.#sem

0X码上链·2024-02-03 21:12

Zookeeper集群安装

简介ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。

万总有点菜·2024-02-03 21:14

Spark程序执行逻辑迷你版

再把Task发出去DAGScheduler的功能，将rdd转换逻辑切分stage，生成taskset然后模拟taskScheduler的功能，将这些task发到Executor上去执行（真正的发送逻辑sparksubmit

{BOOLEAN}·2024-02-03 21:21

2019-10-08 大数据开发进阶之路

市场需要的水平熟练掌握Linux、SQL与HiveSQL掌握Hadoop生态主流技术，如HDFS/MapRedunce/Yarn/HBase/Flume等掌握Spark生态核心技术，如Spark架构/RDD

红瓦李·2024-02-03 20:39

Spark常用Transformations算子(二)

joincogroupcartesianpiperepartitionAndSortWithinPartitionsglomrandomSplitzipzipWithIndexzipWithUniqueId(2)joinobjectJoinTest{defmain(args:Array[String]):Unit={valconf=newSparkCon

数据萌新·2024-02-03 20:03

大数据环境搭建(一)-Hive

1hive介绍由Facebook开源的,用于解决海量结构化日志的数据统计的项目本质上是将HQL转化为MapReduce、Tez、Spark等程序Hive表的数据是HDFS上的目录和文件Hive元数据metastore

xfchn多多学习学习·2024-02-03 20:42

Hadoop框架下MapReduce中的map个数如何控制

一个job的map阶段并行度由客户端在提交job时决定客户端对map阶段并行度的规划基本逻辑为：一、将待处理的文件进行逻辑切片（根据处理数据文件的大小，划分多个split），然后每一个split分配一个maptask并行处理实例二、具体切片规划是由FileInputFormat实现类的getSplits()方法完成切分规则如下：1.简单地按照文件的内容长度进行切片2.切片大小默认是datanode

piziyang12138·2024-02-03 20:13

【Spark】Spark作业执行原理--提交任务

本篇结构：创建Task创建TaskSetManager并向DriverEndpoint发送消息分配资源发送消息告诉Executor去执行Task一、创建Task当调度阶段运行后，在DAGScheduler的submitMissingTasks方法中会根据调度阶段Partition数量拆分对应个数任务。对于ResultStage，生成ResultTask，对于ShuffleMapStage生成Shu

w1992wishes·2024-02-03 19:17

Hadoop MapReduce 各阶段理解

Hadoop的MapReduce是一个很经典的分布式并行计算框架，一直对各个阶段的具体含义有些模糊。花时间看了下stackoverflow上的理解，记录一下。

phusFuNs·2024-02-03 16:10

spark WordCount

SparkWC.scalapackageday06importorg.apache.spark.rdd.RDDimportorg.apache.spark.

lehuai·2024-02-03 16:27

阿里云服务器2核16G、4核32G、8核64G配置最新收费标准及活动价格

2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8，这种配比的云服务器一般适用于数据分析与挖掘，Hadoop、Spark集群和数据库，缓存等内存密集型场景，因此，多为企业级用户选择，

阿里云最新优惠和活动汇总·2024-02-03 15:07

大数据组件笔记 -- Spark 入门

文章目录一、简介二、Spark运行模式2.1本地模式2.2集群角色2.3Standalone模式2.4Yarn模式2.5总结三、WordCount开发案例实操一、简介Spark是一种基于内存的快速、通用

L小Ray想有腮·2024-02-03 15:53

Spark大数据分与实践笔记（Scala语言基础-1）

目录1.1Scala概述1.1.1Scala的下载安装1.1.2在IDEA开发工具中下载安装Scala插件1.1.3开发第一个Scala程序Spark是专为大规模数据处理而设计的快速通用的计算引擎，它是由

妉妉师姐·2024-02-03 15:49

hadoop2.0之环境搭建详细流程

1、在安装hadoop2.0之前，需要准备好以下软件（如下图1）图1：然后将这两个软件共享到centos上（如下图2红箭头指向和图3红箭头指向所示）在vm这上面有个虚拟机，点击虚拟机后有个硬件和选项，点选项

hhf_Engineer·2024-02-03 14:51

hadoop使用公平调度器

数据量不大，做离线一个晚上就能轻松调度完，那时候使用的hadoop自带的调度器，容量调度器。但默认配置没有改，就会发生什么！root主leaf下面只有default。

向他一样rap·2024-02-03 13:22

SpringBoot或Jeecg 配置SSL实现https，http和https端口都要，http转发到https

如果没有阿里云腾讯云只是本地测试，可以参考https://www.cnblogs.com/SparkMore/p/14067340.html有阿里云购买域名域名备案购买服务器宽带收费和流量收费都可以域名绑定服务器

天海华兮·2024-02-03 12:05

初识Apache Paimon

第0章前言0.1主流数据湖工具Delta：由Spark背后商业公司Databricks出品，因此很多功能强兼容Spark，对其他计算引擎不是很友好。

Racin_01·2024-02-03 12:30

Docker容器中的Docker-compose的学习安装

本来今天想写下实战的教程的，但是下载spark的内容太慢了。

胖琪的升级之路·2024-02-03 10:42

PySpark笔记(三)：DataFrame

DataFrame是在Spark1.3中正式引入的一种以RDD为基础的不可变的分布式数据集，类似于传统数据库的二维表格，数据在其中以列的形式被组织存储。

Daisy丶·2024-02-03 10:31

Hbase - 自定义Rowkey规则

中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制TableInputFormat来实现我们的需求了，我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark

kikiki2·2024-02-03 10:05

AI+数据库——梳理Snowflake 和 Databricks 在峰会上的重要发布，快来看市值数百亿美金的数据巨头的贴身肉搏！

他们原本定位略有不同，Databricks是一个用于数据工程、数据科学和分析的集成环境，它构建在ApacheSpark之上，提供实

小猿姐·2024-02-03 10:51

【机器学习】3万字长文，PySpark入门级学习教程，框架思维

为什么要学习Spark？

风度78·2024-02-03 08:00

【数据开发】pyspark入门与RDD编程

【数据开发】pyspark入门与RDD编程文章目录1、pyspark介绍2、RDD与基础概念3、RDD编程3.1Transformation/Action3.2数据开发流程与环节1、pyspark介绍pyspark

小哈里·2024-02-03 08:58

Spark如何用repartition来提升执行效率

Spark如何用repartition来提升执行效率repartition是Spark中的一个转换操作，它可以用来增加或减少分区的数量。

HanhahnaH·2024-02-03 08:28

（四）hive的搭建2

1.元数据服务的方式1.1编辑hive-site.xmlsudovihive-site.xml在文件最后增加以下内容hive.metastore.uristhrift://hadoop-master:90831.2

调试大师·2024-02-03 08:18

（三）hadoop之hive的搭建1

下载访问官方网站https://hive.apache.org/点击downloads点击Downloadareleasenow!点击https://dlcdn.apache.org/hive/选择最新的稳定版复制最新的url在linux执行下载命令wgethttps://dlcdn.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz2.

调试大师·2024-02-03 08:48

hadoop 50070 无法访问问题解决汇总

解决办法1：[root@djt002hadoop]#vi/etc/selinux/config改为：SELINUX=disabled解决办法2：查看你的$HADOOP_HOME/etc/hadoop下的

無法複制·2024-02-03 08:13

Hadoop：学习HDFS，看完这篇就够了！

HDFS（HadoopDistributedFileSystem）是ApacheHadoop生态系统中的分布式文件系统，用于存储和处理大规模数据集。

爱写代码的July·2024-02-03 08:09

Hadoop：HDFS学习巩固——基础习题及编程实战

一HDFS选择题1.对HDFS通信协议的理解错误的是？A.客户端与数据节点的交互是通过RPC（RemoteProcedureCall）来实现的B.HDFS通信协议都是构建在IoT协议基础之上的C.名称节点和数据节点之间则使用数据节点协议进行交互D.客户端通过一个可配置的端口向名称节点主动发起TCP连接，并使用客户端协议与名称节点进行交互BHDFS通信协议构建在TCP/IP协议基础之上2.HDFS的

爱写代码的July·2024-02-03 08:09

hadoop 3.x 案例5:Flink SQL运行报错

文章目录一.问题描述二.解决方案参考:一.问题描述启动yarnsession后，运行FlinkSQL，报错。命令:--启动yarn-session/home/flink-1.15.2/bin/yarn-session.sh-d--在yarnsession模式下启动flinksql/home/flink-1.15.2/bin/sql-client.shembedded-syarn-session--

只是甲·2024-02-03 06:31

2019-03-16 Spark基本架构及运行原理

SparkCore:包含Spark的基本功能，包含任务调度，内存管理，容错机制等，内部定义了RDDs(弹性分布式数据集)，提供了很多APIs来创建和操作这些RDDs。为其他组件提供底层的服务。

做一只乐观的小猴子·2024-02-03 02:04

apache hadoop 2.4.0 64bit 在windows8.1下直接安装指南（无需虚拟机和cygwin）

工作需要，要开始搞hadoop了，又是大数据，自己感觉大数据、云，只是ERP、SOAP风潮之后与智能地球一起诞生的概念炒作。不过Apache是个神奇的组织，Java如果没有它也不会现在如火中天。

夜魔009·2024-02-03 00:56

Hadoop生态圈-组件介绍

Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点。Hadoop的核心组件是HDFS、MapReduce。

苏尔伯特·2024-02-03 00:19

测试环境搭建整套大数据系统（一：基础配置，修改hostname，hosts，免密，时间同步）

vim/etc/hostnamexdso-hadoop-test-001vim/etc/hosts192.168.50.60xdso-hadoop-test-001192.168.50.61xdso-ha

宇智波云·2024-02-03 00:15

搭建hadoop单机环境

hadoop笔记sbin:一些启动脚本【服务端的serverbin】logs:存放hadoop相关日志bin:客户端的脚本etc:hadoop相关的配置文件格式化文件系统配置免密码登录ssh-keygen-trsa-P

.Passion·2024-02-02 23:12

Hadoop单机环境搭建

Hadoop单机环境搭建一、jdk环境二、IP地址和主机名映射三、生成公私钥授权四、下载解压Hadoop五、配置Hadoop环境变量六、修改Hadoop配置文件七、关闭防火墙八、初始化九、启动十、Yarn

三暮辰·2024-02-02 23:42

推荐频道

Hadoop；Spark