E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop;Spark
Hadoop
大数据实战系列文章之Hive
hive是基于
Hadoop
的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据可以将
测试帮日记
·
2024-02-04 05:45
spark
运维问题记录
环境:
spark
-2.1.0-bin-
hadoop
2.71.
Spark
启动警告:neither
spark
.yarn.jarsnot
spark
.yarn.archiveisset,fallingbacktouploadinglibrariesunder
SPARK
_HOME
lishengping_max
·
2024-02-04 05:11
Spark
spark
Spark
提交任务到yarn 报错提示虚拟内存不足解决办法
spark
context初始化失败ERROR
spark
.
Spark
Context:Errorinitializing
Spark
Context.java.lang.IllegalStateException
动若脱兔--
·
2024-02-04 05:11
Spark
spark
大数据
scala
解决“
Spark
context stopped while waiting for backend“ issue
在配置为4C16G的虚拟机上安装
hadoop
生态全家桶,在安装
Spark
2,使用了社区版2.3的版本。
江畔独步
·
2024-02-04 05:10
Spark
bigdata
Spark
context stopped while waiting for backend
目录报错信息解决办法解释报错信息
Spark
contextstoppedwhilewaitingforbackend翻译过来就是:
Spark
上下文在等待后端时停止解决办法通过在yarn-site.xml中添加如下配置项
十二点的泡面
·
2024-02-04 05:36
大数据报错信息的解决
spark
大数据
分布式
Spark
Streaming实战:窗口操作,每10秒,把过去30秒的数据取出来(读取端口号1235中的数据)
1.需求:窗口操作,每10秒,把过去30秒的数据取出来窗口长度:30秒滑动距离:10秒2.代码:(1)pom.xmlorg.apache.
spark
spark
-core_2.112.1.0org.apache.
spark
spark
-sql
Movle
·
2024-02-04 05:52
大数据组件部署下载链接
Hadoop
2.7下载连接:https://archive.apache.org/dist/
hadoop
/core/
hadoop
-2.7.6/Hive2.3.2下载连接:http://archive.apache.org
运维道上奔跑者
·
2024-02-04 05:13
大数据
zookeeper
hbase
kafka
hadoop
hive
【大数据开发运维解决方案】
Hadoop
+Hive+HBase+Kylin 伪分布式安装指南
Hadoop
2.7.6+Mysql5.7+Hive2.3.2+Hbase1.4.9+Kylin2.4单机伪分布式安装文档注意:######################################
运维道上奔跑者
·
2024-02-04 05:43
大数据
hadoop
分布式
Hadoop
2.7.6+Mysql5.7+Hive2.3.2+zookeeper3.4.6+kafka2.11+Hbase1.4.9+Sqoop1.4.7+Kylin2.4单机伪分布式安装及官方案例测
####################################################################最新消息:关于
spark
和Hudi的安装部署文档,本人已经写完,连接
运维道上奔跑者
·
2024-02-04 05:43
分布式
hbase
zookeeper
hadoop
py
spark
_1_理论篇(RDD基础)
跟着Leo学习Py
Spark
chapter1——rdd的基础编程指南一、准备工作1.背景介绍
Spark
是用scala编程语言实现的,为了使
Spark
支持Python,Apache
Spark
社区发布了一个工具
NikolasNull
·
2024-02-04 04:50
2021-07-02
Hadoop
集群构建配主机名vi/etc/sysconfig/networkNETWORKING=yesHOSTNAME=
hadoop
012.配置IP映射vi/etc/hosts127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4
谢尔比比
·
2024-02-04 02:40
笔记
Kubernetes operator 如何根据自定义类型生成响应的代码的?
分享这篇文章的主要目的,是如何利用kubernetes来自定义类型,如
Spark
Application,从而使用脚本,生成响应的代码的这些代码是专门为自定义的类型
Spark
Application对象服务的
weixin_34109408
·
2024-02-04 00:09
Java Scala 混合编程导致 编译失败 ,【找不到符号】问题解决
Failedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:3.1:compile(default-compile)onproject
spark
-auth
0X码上链
·
2024-02-03 23:20
大数据
分布式技术
java
scala
开发语言
hadoop
、
spark
、flink集群修改默认ssh端口号
大数据集群在实际搭建过程中,其默认ssh端口不一定都是22,这时需要根据各自的配置文件进行适配。ssh端口号默认为22,以centos7.x为例,可以在/etc/ssh/sshd_config中进行修改,如下示例将22改为22222:#IfyouwanttochangetheportonaSELinuxsystem,youhavetotell#SELinuxaboutthischange.#sem
0X码上链
·
2024-02-03 21:12
大数据
分布式技术
ssh
hadoop
spark
flink
Zookeeper集群安装
简介ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是
Hadoop
和Hbase的重要组件。
万总有点菜
·
2024-02-03 21:14
Spark
程序执行逻辑迷你版
再把Task发出去DAGScheduler的功能,将rdd转换逻辑切分stage,生成taskset然后模拟taskScheduler的功能,将这些task发到Executor上去执行(真正的发送逻辑
spark
submit
{BOOLEAN}
·
2024-02-03 21:21
Spark
spark
大数据
java
2019-10-08 大数据开发进阶之路
市场需要的水平熟练掌握Linux、SQL与HiveSQL掌握
Hadoop
生态主流技术,如HDFS/MapRedunce/Yarn/HBase/Flume等掌握
Spark
生态核心技术,如
Spark
架构/RDD
红瓦李
·
2024-02-03 20:39
Spark
常用Transformations算子(二)
joincogroupcartesianpiperepartitionAndSortWithinPartitionsglomrandomSplitzipzipWithIndexzipWithUniqueId(2)joinobjectJoinTest{defmain(args:Array[String]):Unit={valconf=new
Spark
Con
数据萌新
·
2024-02-03 20:03
大数据环境搭建(一)-Hive
1hive介绍由Facebook开源的,用于解决海量结构化日志的数据统计的项目本质上是将HQL转化为MapReduce、Tez、
Spark
等程序Hive表的数据是HDFS上的目录和文件Hive元数据metastore
xfchn多多学习学习
·
2024-02-03 20:42
大数据
大数据
hive
hadoop
Hadoop
框架下MapReduce中的map个数如何控制
一个job的map阶段并行度由客户端在提交job时决定客户端对map阶段并行度的规划基本逻辑为:一、将待处理的文件进行逻辑切片(根据处理数据文件的大小,划分多个split),然后每一个split分配一个maptask并行处理实例二、具体切片规划是由FileInputFormat实现类的getSplits()方法完成切分规则如下:1.简单地按照文件的内容长度进行切片2.切片大小默认是datanode
piziyang12138
·
2024-02-03 20:13
【
Spark
】
Spark
作业执行原理--提交任务
本篇结构:创建Task创建TaskSetManager并向DriverEndpoint发送消息分配资源发送消息告诉Executor去执行Task一、创建Task当调度阶段运行后,在DAGScheduler的submitMissingTasks方法中会根据调度阶段Partition数量拆分对应个数任务。对于ResultStage,生成ResultTask,对于ShuffleMapStage生成Shu
w1992wishes
·
2024-02-03 19:17
Hadoop
MapReduce 各阶段理解
Hadoop
的MapReduce是一个很经典的分布式并行计算框架,一直对各个阶段的具体含义有些模糊。花时间看了下stackoverflow上的理解,记录一下。
phusFuNs
·
2024-02-03 16:10
spark
WordCount
Spark
WC.scalapackageday06importorg.apache.
spark
.rdd.RDDimportorg.apache.
spark
.
lehuai
·
2024-02-03 16:27
阿里云服务器2核16G、4核32G、8核64G配置最新收费标准及活动价格
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8,这种配比的云服务器一般适用于数据分析与挖掘,
Hadoop
、
Spark
集群和数据库,缓存等内存密集型场景,因此,多为企业级用户选择,
阿里云最新优惠和活动汇总
·
2024-02-03 15:07
大数据组件笔记 --
Spark
入门
文章目录一、简介二、
Spark
运行模式2.1本地模式2.2集群角色2.3Standalone模式2.4Yarn模式2.5总结三、WordCount开发案例实操一、简介
Spark
是一种基于内存的快速、通用
L小Ray想有腮
·
2024-02-03 15:53
BigData
Spark
大数据分与实践笔记(Scala语言基础-1)
目录1.1Scala概述1.1.1Scala的下载安装1.1.2在IDEA开发工具中下载安装Scala插件1.1.3开发第一个Scala程序
Spark
是专为大规模数据处理而设计的快速通用的计算引擎,它是由
妉妉师姐
·
2024-02-03 15:49
大数据-linux-spark
scala
spark
java
大数据
hadoop
2.0之环境搭建详细流程
1、在安装
hadoop
2.0之前,需要准备好以下软件(如下图1)图1:然后将这两个软件共享到centos上(如下图2红箭头指向和图3红箭头指向所示)在vm这上面有个虚拟机,点击虚拟机后有个硬件和选项,点选项
hhf_Engineer
·
2024-02-03 14:51
hadoop
使用公平调度器
数据量不大,做离线一个晚上就能轻松调度完,那时候使用的
hadoop
自带的调度器,容量调度器。但默认配置没有改,就会发生什么!root主leaf下面只有default。
向他一样rap
·
2024-02-03 13:22
kylin
hadoop
hadoop
大数据
分布式
SpringBoot或Jeecg 配置SSL实现https,http和https端口都要,http转发到https
如果没有阿里云腾讯云只是本地测试,可以参考https://www.cnblogs.com/
Spark
More/p/14067340.html有阿里云购买域名域名备案购买服务器宽带收费和流量收费都可以域名绑定服务器
天海华兮
·
2024-02-03 12:05
Java
EE
http
spring
boot
ssl
https
初识Apache Paimon
第0章前言0.1主流数据湖工具Delta:由
Spark
背后商业公司Databricks出品,因此很多功能强兼容
Spark
,对其他计算引擎不是很友好。
Racin_01
·
2024-02-03 12:30
apache
最新AI系统ChatGPT网站H5系统源码,支持Midjourney绘画局部编辑重绘,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-02-03 12:28
人工智能
软件源码
ChatGPT
人工智能
chatgpt
语音识别
midjourney
AI作画
Docker容器中的Docker-compose的学习安装
本来今天想写下实战的教程的,但是下载
spark
的内容太慢了。
胖琪的升级之路
·
2024-02-03 10:42
Py
Spark
笔记(三):DataFrame
DataFrame是在
Spark
1.3中正式引入的一种以RDD为基础的不可变的分布式数据集,类似于传统数据库的二维表格,数据在其中以列的形式被组织存储。
Daisy丶
·
2024-02-03 10:31
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有
Spark
kikiki2
·
2024-02-03 10:05
AI+数据库——梳理Snowflake 和 Databricks 在峰会上的重要发布,快来看市值数百亿美金的数据巨头的贴身肉搏!
他们原本定位略有不同,Databricks是一个用于数据工程、数据科学和分析的集成环境,它构建在Apache
Spark
之上,提供实
小猿姐
·
2024-02-03 10:51
人工智能
数据库
【机器学习】3万字长文,Py
Spark
入门级学习教程,框架思维
为什么要学习
Spark
?
风度78
·
2024-02-03 08:00
大数据
entity
opencl
spark
hadoop
【数据开发】py
spark
入门与RDD编程
【数据开发】py
spark
入门与RDD编程文章目录1、py
spark
介绍2、RDD与基础概念3、RDD编程3.1Transformation/Action3.2数据开发流程与环节1、py
spark
介绍py
spark
小哈里
·
2024-02-03 08:58
#
后端开发
python
spark
pyspark
后端
大数据
Spark
如何用repartition来提升执行效率
Spark
如何用repartition来提升执行效率repartition是
Spark
中的一个转换操作,它可以用来增加或减少分区的数量。
HanhahnaH
·
2024-02-03 08:28
Spark
spark
ajax
大数据
scala
(四)hive的搭建2
1.元数据服务的方式1.1编辑hive-site.xmlsudovihive-site.xml在文件最后增加以下内容hive.metastore.uristhrift://
hadoop
-master:90831.2
调试大师
·
2024-02-03 08:18
大数据
Hadoop
hive
hadoop
数据仓库
(三)
hadoop
之hive的搭建1
下载访问官方网站https://hive.apache.org/点击downloads点击Downloadareleasenow!点击https://dlcdn.apache.org/hive/选择最新的稳定版复制最新的url在linux执行下载命令wgethttps://dlcdn.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz2.
调试大师
·
2024-02-03 08:48
Hadoop
大数据
hadoop
hive
大数据
hadoop
50070 无法访问问题解决汇总
解决办法1:[root@djt002
hadoop
]#vi/etc/selinux/config改为:SELINUX=disabled解决办法2:查看你的$
HADOOP
_HOME/etc/
hadoop
下的
無法複制
·
2024-02-03 08:13
linux
hadoop
Hadoop
:学习HDFS,看完这篇就够了!
HDFS(
Hadoop
DistributedFileSystem)是Apache
Hadoop
生态系统中的分布式文件系统,用于存储和处理大规模数据集。
爱写代码的July
·
2024-02-03 08:09
大数据与云计算
hadoop
学习
hdfs
大数据
云计算
Hadoop
:HDFS学习巩固——基础习题及编程实战
一HDFS选择题1.对HDFS通信协议的理解错误的是?A.客户端与数据节点的交互是通过RPC(RemoteProcedureCall)来实现的B.HDFS通信协议都是构建在IoT协议基础之上的C.名称节点和数据节点之间则使用数据节点协议进行交互D.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互BHDFS通信协议构建在TCP/IP协议基础之上2.HDFS的
爱写代码的July
·
2024-02-03 08:09
大数据与云计算
hadoop
hdfs
学习
hadoop
3.x 案例5:Flink SQL运行报错
文章目录一.问题描述二.解决方案参考:一.问题描述启动yarnsession后,运行FlinkSQL,报错。命令:--启动yarn-session/home/flink-1.15.2/bin/yarn-session.sh-d--在yarnsession模式下启动flinksql/home/flink-1.15.2/bin/sql-client.shembedded-syarn-session--
只是甲
·
2024-02-03 06:31
大数据和数据仓库
#
Hadoop大数据平台
sql
hadoop
flink
2019-03-16
Spark
基本架构及运行原理
Spark
Core:包含
Spark
的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集),提供了很多APIs来创建和操作这些RDDs。为其他组件提供底层的服务。
做一只乐观的小猴子
·
2024-02-03 02:04
apache
hadoop
2.4.0 64bit 在windows8.1下直接安装指南(无需虚拟机和cygwin)
工作需要,要开始搞
hadoop
了,又是大数据,自己感觉大数据、云,只是ERP、SOAP风潮之后与智能地球一起诞生的概念炒作。不过Apache是个神奇的组织,Java如果没有它也不会现在如火中天。
夜魔009
·
2024-02-03 00:56
技术
windows8
hadoop
64bit
库
hdfs
Hadoop
生态圈-组件介绍
Hadoop
是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。
Hadoop
的核心组件是HDFS、MapReduce。
苏尔伯特
·
2024-02-03 00:19
测试环境搭建整套大数据系统(一:基础配置,修改hostname,hosts,免密,时间同步)
vim/etc/hostnamexdso-
hadoop
-test-001vim/etc/hosts192.168.50.60xdso-
hadoop
-test-001192.168.50.61xdso-ha
宇智波云
·
2024-02-03 00:15
大数据项目
大数据
搭建
hadoop
单机环境
hadoop
笔记sbin:一些启动脚本【服务端的serverbin】logs:存放
hadoop
相关日志bin:客户端的脚本etc:
hadoop
相关的配置文件格式化文件系统配置免密码登录ssh-keygen-trsa-P
.Passion
·
2024-02-02 23:12
hadoop
hadoop
hdfs
大数据
Hadoop
单机环境搭建
Hadoop
单机环境搭建一、jdk环境二、IP地址和主机名映射三、生成公私钥授权四、下载解压
Hadoop
五、配置
Hadoop
环境变量六、修改
Hadoop
配置文件七、关闭防火墙八、初始化九、启动十、Yarn
三暮辰
·
2024-02-02 23:42
Hadoop
hadoop
大数据
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他