E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop;Spark
CentOS7 + JDK8 虚拟机安装与
Hadoop
+
Spark
集群搭建实践
前言在大数据时代,
Hadoop
和
Spark
是两种非常重要的分布式计算框架。
簌簌曌
·
2025-06-08 11:02
hadoop
spark
大数据
Spark
on Hive表结构变更
Spark
onHive表结构变更1、表结构变更概述1、表结构变更概述在
Spark
onHive架构中,表结构(Schema)变更是一个常见且重要的操作。
对许
·
2025-06-08 11:32
#
Spark
#
Hive
Java大数据
spark
hive
大数据
hadoop
集群datanode启动显示init failed,不能解析hostname
三个datanode集群,有一个总是起不起来。去查看log显示InitializationfailedforBlockpoolBP-1920852191-192.168.115.154-1749093939738(DatanodeUuid89d9df36-1c01-4f22-9905-517fee205a8e)servicetonode154/192.168.115.154:8020Datanod
yyf960126
·
2025-06-08 03:38
hadoop
大数据
人机交互系统(2
基于分布式存储以后,数据被分布式存储在不同的服务器上,那么我们就可以使用分布式计算框架(比如MapReduce,
Spark
等)来进行并行计算(或者说是分布式计算),即:每个服务器上分别统计自己存储的数据中关键字出现的次数
2401_84049040
·
2025-06-08 02:30
程序员
人机交互
从零开始学大数据:数据工程入门指南
从数据工程的基础架构与核心组件出发,逐步解析数据采集、清洗、转换、存储、集成的全流程技术原理,结合Python代码实现与分布式计算框架实战,帮助读者掌握
Hadoop
、
Spark
等主流工具的应用方
AI天才研究院
·
2025-06-08 01:55
ChatGPT
AI大模型应用入门实战与进阶
大数据
ai
JobHistory Server的配置和启动
在
Hadoop
集群里,JobHistory Server(JHS)负责为所有已完成的 MapReduce 作业提供元数据与Web 可视化;只有它启动并配置正确,开发者才能通过 http://:19888
Bug Spray
·
2025-06-07 22:02
hadoop
Hadoop
复习(一)
Hadoop
复习文章目录
Hadoop
复习前言一、简要描述如何安装配置apache的一个开源
Hadoop
二、
Hadoop
中需要哪些配置文件和其作用1.core-site.xml:2.
hadoop
-env.sh
·
2025-06-07 20:49
Hadoop
复习(十)
需要提前在关系数据库创建对应的数据表正确错误问题2判断题2/2分Sqoop利用MapReduce实现数据导入时可以不涉及ReduceTask的处理正确错误问题3单项选择2/2分Sqoop底层使用_____实现数据的导入与导出MapReduce
Spark
HivesQLSQL
丸卜
·
2025-06-07 20:47
hadoop
大数据
分布式
大数据平台搭建与数据分析
关键词:大数据平台;数据分析;
Hadoop
;
Spark
;机器学习一、引言随着互联
喜欢编程就关注我
·
2025-06-07 15:23
大数据
数据分析
数据挖掘
大数据平台
搭建与数据分析
代码
Spark
写文件
Repartition
Spark
输出文件数量假设每个Task的输出数据都包含了全部8个分区值,那么最终的文件生成情况如下:总文件数=Task数量×分区组合数假设:Task数量:200分区组合数:8个(from_cluster
zhixingheyi_tian
·
2025-06-07 14:13
spark
spark
大数据
分布式
spark
java dataframe_
Spark
DataFrame简介(一)
1.DataFrame本片将介绍
Spark
RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会介绍DF有哪些限制。
克勒kk
·
2025-06-07 14:42
spark
java
dataframe
征服
Spark
as a Service
Spark
是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,
Spark
成功的构建起了一体化、多元化的大数据处理体系,在“OneStacktorulethemall”思想的引领下,
Spark
wangruoze
·
2025-06-07 14:42
Spark
Spark课程
Spark培训
Spark企业内训
Spark讲师
一天征服
Spark
!
Spark
是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,
Spark
成功的构建起了一体化、多元化的大数据处理体系,在“OneStacktorulethemall”思想的引领下,
Spark
wangruoze
·
2025-06-07 14:11
Spark
Spark课程
Spark培训
Spark企业内训
Spark讲师
py
spark
依赖环境设置
pyp
spark
异常py49-protocol.Py433avaError:Anerroroccurredwhilecalling0117.sql.org.apache.
spark
.
Spark
Exception
·
2025-06-07 14:41
hdp hive创建表失败:Duplicate entry ‘tmp_xw_order_infos_channel-41‘ for key ‘UNIQUETABLE
Duplicateentry‘tmp_xw_order_infos_channel-41’forkey'UNIQUETABLE通过hive创建表时候报:异常Error,returncode1fromorg.apache.
hadoop
.hive.ql.exec.DDLTask.MetaException
·
2025-06-07 14:11
spark
driver: Failed to allocate
异常
spark
driver端包括:pageallocationfailure,分析:由于
spark
driver开启broadcast后,应发driverjvm大小从最小128m向设置最大内存申请,但由于存在
qq_40841339
·
2025-06-07 14:11
spark
amabri
hive
spark
java
大数据
分布式
hive 创建表获取mysql锁超时
项目场景:hive执行创建表:返回异常Lockwaittimeoutexceeded;tryrestartingtransaction)问题描述returncode1fromorg.apache.
hadoop
.hive.ql.exec.DDLTask.MetaException
qq_40841339
·
2025-06-07 14:11
大数据
hive
bigdata
Spark
SQL DataFrame 算子
Spark
SQLDataFrame算子DataFrame与DatasetAPI提供了简单的、统一的并且更富表达力的API,简言之,与RDD与算子的组合相比,DataFrame与DatasetAPI更高级
猫猫姐
·
2025-06-07 13:08
Spark实战
spark
sql
大数据
spark
执行 hive sql数据丢失
spark
-sql丢失数据1.通过
spark
执行hivesql的时候,发现hive四条数据,
spark
执行结果只有两条数据目标对应的两条数据丢失selectdate,user_id,payfromdim.isr_pay_failedwhereuser_id
qq_40841339
·
2025-06-07 13:38
spark
hive
hadoop
spark
hive
sql
Kafka02 - Kafka快速入门
快速入门文章目录Kafka快速入门一:安装部署1:集群规划2:集群部署3:集群启停脚本二:Kafka命令行操作1:topic命令行操作2:生产者命令行操作3:消费者命令行操作一:安装部署1:集群规划服务器
hadoop
102
是小崔啊
·
2025-06-07 00:06
#
Kafka
kafka
分布式
ELK高级搜索七Spring boot 接入Elasticsearch
的操作步骤查询文档测试异步查询文档测试分页查询文档信息创建文档测试异步创建文档编辑文档删除文档创建索引异步创建索引索引是否存在删除索引Javaapi实现文档管理es技术比较特殊,不像其他分布式、大数据课程,haddop、
spark
yangyanping20108
·
2025-06-06 13:23
搜索
elk
spring
boot
elasticsearch
分布式
微服务
Spring Boot 2.x :通过 spring-boot-starter-hbase 集成 HBase
HBase是在
Hadoop
分布式文件系统(简称:HDFS)之上的分布式面向列的数据库。而且是2007最初原型,历史悠久。那追根究底,
Hadoop
是什么?
Hadoop
是一个分布式环境存储并处理大数据。
weixin_43770982
·
2025-06-06 13:22
java
Spring
职场
Spring
Boot
java
java程序员
hdfs 文档存储服务器,HDFS分布式文档系统
HDFS(
Hadoop
DistributedFileSystem)分布式文档系统HDFS的关键组件有两个Datanode和NameNode1.DataNode负责文档数据的存储和读写操作,HDFS将文档数据分割成若干数据块
哈奇明
·
2025-06-06 11:05
hdfs
文档存储服务器
java对hdfs文件的拉取和上传操作
Configuration对象二、创建FileSystem对象三、打开hdfs文件四、FileSystem的一些方法五、完整示例1、拉取文件2、上传文件一、创建Configuration对象org.apache.
hadoop
.conf.ConfigurationConfigurationconf
yogima
·
2025-06-06 10:00
SSM
hdfs
hadoop
java
Hive SQL优化实践:提升大数据处理效率的关键策略
在大数据生态中,Hive作为基于
Hadoop
的数据仓库工具,广泛应用于海量数据的离线分析场景。然而,随着数据量的指数级增长和业务复杂度的提升,低效的HiveSQL可能导致资源浪费和查询性能瓶颈。
weixin_47233946
·
2025-06-06 04:20
hive
sql
hadoop
记一次·
Spark
读Hbase
记一次·
Spark
读Hbase一、背景过年回来,数仓发现hive的一个表丢数据了,需要想办法补数据。这个表是flume消费kafka写hive。
·
2025-06-06 00:55
记录一次
spark
本地运行时的org.apache.
hadoop
.io.nativeio.NativeIO问题
最近换了新的电脑,好久不用的win10系统,安装了maven,jdk,idea之后,从git上下载了代码库,希望可以本地调试运行
spark
代码,安装好系统环境后,代码可以运行起来了,代码就是很简单的将系统字符存储到当前文件中
一颗小草333
·
2025-06-06 00:22
hadoop
大数据
hadoop
记一次运行
spark
报错
提交
spark
任务运次报错06/0318:27:50INFOClient:SettingupcontainerlaunchcontextforourAM25/06/0318:27:50INFOClient
不吃饭的猪
·
2025-06-05 23:49
spark
大数据
分布式
读数据自助服务实践指南:数据开放与洞察提效16查询优化服务
1.查询优化服务1.1.好查询和坏查询之间的差别非常明显1.2.重复且长时间运行的查询是需要调优的1.3.痛点1.3.1.像
Hadoop
、
Spark
和Presto这样的查询引擎有太多的旋钮1.3.1.1
·
2025-06-05 19:22
iceberg整合hive(从hive读取iceberg表数据)实践02
目录实现目标:1,创建
hadoop
catalog在zeppelin创建
hadoop
catalog2,创建基于
hadoop
_catalog的iceberg表3,从
hadoop
_catalog来创建hive
黄瓜炖啤酒鸭
·
2025-06-05 17:08
数据湖相关
Flink实时数仓
zeppelin
iceberg
hive查询iceberg表
hive
iceberg整合
如何在IDE中通过
Spark
操作Hive
在IDE中通过
Spark
操作Hive是一项常见的任务,特别是在大数据处理和分析的场景中。
yt94832
·
2025-06-05 17:04
ide
spark
hive
Spark
SQL 优化实操
一、基础优化配置1.资源配置优化#提交
Spark
作业时的资源配置示例
spark
-submit\--masteryarn\--executor-memory8G\--executor-cores4\--num-executors10
社恐码农
·
2025-06-05 16:00
spark
sql
Hadoop
集群启动没有Datanode
本人搭建的伪分布式集群,
Hadoop
集群启动没有Datanode,一开始以为是配置问题,检查了发现没什么问题,后来发现是Datanode与Namenode之间的ClusterID不一致导致的。
程序员在线炒粉
·
2025-06-05 14:45
hadoop
hdfs
虚拟机
hadoop
集群启动时DataNode进程缺失
虚拟机
hadoop
集群启动时DataNode进程缺失1.出现问题:在Linux命令窗口中输入Jps查询
hadoop
启动项目时缺少DataNode进程;2.问题原因:使用格式化命令之后又再次进行格式化,导致
Magicalapologize
·
2025-06-05 14:15
hadoop
linux
大数据
企业项目实战
hadoop
篇---HBase高可用集群部署(四)
高可用集群部署一.Hbase分布式部署二.故障切换一.Hbase分布式部署hbase配置解压hbase压缩包tarzxfhbase-1.2.4-bin.tar.gz配置hbase环境变量,加入java、
hadoop
张一不二
·
2025-06-05 04:07
hadoop
linux学习
hadoop
大数据
分布式
hbase
java
【赵渝强老师】
Hadoop
生态圈组件
下图为大家展示了
Hadoop
生态圈体系中的主要组件以及它们彼此之间的关系。 视频讲解如下:
Hadoop
生态圈组件【赵渝强老师】
Hadoop
生态圈组件 这里先简单说明每一个组件的作用功能。
赵渝强老师
·
2025-06-04 22:17
大数据技术
hadoop
大数据
分布式
计算机毕业设计
Hadoop
+
Spark
+DeepSeek-R1大模型民宿推荐系统 hive民宿可视化 民宿爬虫 大数据毕业设计(源码+LW文档+PPT+讲解)
一、项目简介本项目基于
Hadoop
、
Spark
、DeepSeek-R1构建一个高效的大数据民宿推荐系统,涵盖数据爬取、存储、处理、分析、可视化、AI推荐等完整流程,并提供Hive可视化分析及大数据爬虫,
金枝玉叶9
·
2025-06-04 19:51
程序员知识储备1
程序员知识储备2
程序员知识储备3
hadoop
大数据
课程设计
试试时序数据库 TDengine ×
Spark
的组合拳
现在,TDengine正式开放与Apache
Spark
的无缝集成通道。一个是高性能、低成本的时序数据库,一个是横扫大数据世界的分析
·
2025-06-04 14:42
WeClone:用微信聊天记录克隆数字分身
语音克隆:结合微信语音消息和
Spark
-TTS模型,实现高质量的声音克隆,增强数字分身的真实感。隐
开源项目精选
·
2025-06-04 13:36
微信
【面试宝典】70道Hive高频题库整理(附答案背诵版)
Hive是一个基于
Hadoop
的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
想念@思恋
·
2025-06-04 10:11
数据仓库
面试宝典
面试
hive
职场和发展
面试专区|【68道Hbase高频题整理(附答案背诵版)】
换句话说,Hbase是Apache
Hadoop
生态系统中的一部分,可以为大数据应用提供快速的随机读写访问。
尺小闹
·
2025-06-04 10:40
面试专区
面试
hbase
职场和发展
70道Hive高频题整理(附答案背诵版)
Hive是一个基于
Hadoop
的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
编程大全
·
2025-06-04 09:08
面试题
Hive
Hive面试题
java中文问答系统_基于知识图谱的问答系统
基于知识图谱的问答系统发布时间:2018-06-1021:27,浏览次数:561基于知识图谱的问答系统一.准备工作:1.下载好java8,并用mysql创建好数据库–重点在于存储数据2.
spark
安装–
Dolaan Zon
·
2025-06-03 22:45
java中文问答系统
hive的数据库操作
前言基于
hadoop
集群搭建hive仓库,
hadoop
集群搭建和hive数据仓库搭建。关于hive的表和数据库详细操作。一、数据库操作1.创建数据库语法格式如下。
Supplant
·
2025-06-03 15:24
hive
数据库
hadoop
Hadoop
学习笔记
(1)
Hadoop
概述
Hadoop
是一个开源的分布式计算和存储框架,用于处理大规模数据集(大数据)的并行处理。
wyn20001128
·
2025-06-03 12:06
hadoop
学习
笔记
HDFS 读写流程代码级深度解析
HDFS读写流程代码级深度解析基于
Hadoop
3.3.4源码,聚焦关键类与方法实现一、HDFS写入流程核心代码解析1.客户端初始化写入流//客户端创建文件输出流FileSystemfs=FileSystem.get
北漂老男人
·
2025-06-03 12:35
HDFS
hdfs
hadoop
大数据
python 大数据框架-马士兵python大数据和java架构
hadoop
-大数据启蒙-初识HDFS【回放】
hadoop
-大数据启蒙-初识HDFS(6月11日20:00-22:00)免费试学02
hadoop
-HDFS理论基础读写流程【回放】
hadoop
-HDFS理论基础读写流程
weixin_39938724
·
2025-06-03 12:35
通过一个对数据的存储和分析的简单实例初识
Hadoop
对于一个刚刚接触
Hadoop
的菜鸟来说,
Hadoop
的概念还是挺抽象的,而且这个技术刚刚兴起,除了阿里巴巴,腾讯、中国移动这些技术实力非常强而且需要对数据进行海量存储的公司对
Hadoop
技术有一些初步应用以外
weixin_34377065
·
2025-06-03 12:35
大数据
Hadoop
大数据启蒙:初识 HDFS
Hadoop
大数据启蒙:初识HDFS(含命令与架构详解)关键词:
Hadoop
、HDFS、分布式存储、NameNode、DataNode、大数据入门一、什么是HDFS?
北漂老男人
·
2025-06-03 12:01
HDFS
hadoop
大数据
hdfs
JOIN使用的注意事项
JOIN的使用要求在
Spark
SQL/HQL中,使用JOIN进行表关联时,需要注意以下要求:空值处理,多个表进行JOIN取值,在非INNERJOIN的情况下大多会取到NULL空值,对这些空值在必要情况下需要进行空值处理
对许
·
2025-06-02 19:59
#
Hive
#
Spark
sparksql
hivesql
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他