E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop(HDFS
大数据技术全景解析:Spark、
Hadoop
、Hive与SQL的协作与实战
本文将通过通俗类比+场景化拆解,带你深入理解四大关键技术:
Hadoop
、Hive、Spark和SQL,揭秘它们如何像“仓储-物流-管理”系统一样协同工作。
V文宝
·
2025-05-08 12:32
机器学习
大数据
hadoop
spark
hadoop
中的序列化和反序列化(2)
2.为什么需要序列化序列化在分布式系统中非常重要,尤其是在
Hadoop
这样的大数据处理框架中。以下是序列化的主要用途:数据存储:将对象持久化到磁盘文件中。网络传输:将对象通过网络发送到其他节点。
洋芋爱吃芋头
·
2025-05-08 12:31
hadoop
大数据
分布式
scala连接mongodb_Spark教程(二)Spark连接MongoDB
如何导入数据数据可能有各种格式,虽然常见的是
HDFS
,但是因为在Python爬虫中数据库用的比较多的是MongoDB,所以这里会重点说说如何用spark导入MongoDB中的数据。
weixin_39688035
·
2025-05-08 09:13
scala连接mongodb
spark读取mongodb数据配置
/omrapollo/article/details/66968147引入依赖创建方法见上一篇博客:Spark+IntelliJIDEA创建项目引入如下依赖:实现代码importorg.apache.
hadoop
.conf.Configurationimportorg.apache.log4j
Maximilian_M
·
2025-05-08 09:41
Spark学习之路
mongodb
spark
intellij
idea
数据分析项目中的关键技术与工具
大数据技术:涵盖
Hadoop
(
HDFS
)、Hive、Spark、Fli
王子良.
·
2025-05-08 03:12
经验分享
数据分析
数据挖掘
大数据毕业设计PySpark+
Hadoop
航班延误预测系统 航班可视化
(2)意义提高乘客购票决策:基于
Hadoop
的飞机票价格预测能够提供乘客准确的价格预测信息,帮助他们选择合适的购票时间和最优的价
QQ21503882
·
2025-05-08 01:24
javaweb
大数据
课程设计
hadoop
《大数据: Spark Standalone 模式配置历史服务器》
8081虽然能看到日志和结果,但是体验非常差2.spark-shell本身就是客户端模式,这个是改不了为cluster模式,并且运行时候日志打印是有,但是一旦退出了再也没地方看到日志了yexiang@
hadoop
2
HarkerYX
·
2025-05-08 00:52
Spark 配置历史服务器
类似
Hadoop
,Spark也有自己的historyserver,这里我们就来配置下:修改spark-defaults.conf.template文件名为spark-defaults.confmvspark-defaults.conf.templatespark-defaults.conf
涵sir
·
2025-05-08 00:51
spark配置历史服务
Logcpspark-defaults.conf.templatespark-defaults.conf在spark-defaults.conf文件中,添加如下内容:spark.eventLog.enabledtruespark.eventLog.dir
hdfs
都教授2000
·
2025-05-08 00:51
大数据
spark
Spark集群搭建之Yarn模式
什么是SparkONYarn模式SparkonYARN(YetAnotherResourceNegotiator)是Spark框架在
Hadoop
集群中运行的一种部署模式,它借助
Hadoop
YARN来管理资源和调度任务
lix的小鱼
·
2025-05-07 23:46
spark
大数据
分布式
中企跨境上市技术全栈解析:从数据合规到估值模型的代码级解决方案
我们用三行代码破局:python#数据脱敏流水线raw_data=load_from_
hdfs
('/user/raw_data')masked
Ashlee_code
·
2025-05-07 14:44
python
java
c语言
编辑器
数据结构
sqlite
json
Spark应用部署模式实例
Local模式新启动一个终端SparkSubmit#pyspark命令启动的进程,实际上就是启动了一个Spark应用程序SparkStandalone模式讲解:6321SecondaryNameNode#
hadoop
qrh_yogurt
·
2025-05-07 14:43
spark
大数据
分布式
hdfs
的客户端操作
客户端的理解
hdfs
的客户端有多种形式:网页形式命令行形式客户端在哪里运行,没有约束,只要运行客户端的机器能够跟
hdfs
集群联网文件的切块大小和存储的副本数量,都是由客户端决定!
AI耽误的大厨
·
2025-05-07 12:29
Hadoop
hadoop
hive
hbase
spark
storm
Spark读取
HDFS
加密区数据乱码问题解决
因为项目需求,需要启用
hdfs
加密区,为了验证对现有程序的影响,我在自己的集群上配置了加密区,并测试spark和java程序读取数据。
蹩脚法师
·
2025-05-07 11:58
bug解决
spark
hadoop
hdfs
spark
加密解密
虚拟机启动
hdfs
、spark命令
说明:用的案例是一个master,两个worker,开启三台虚拟机的情况,已配置好
hadoop
和spark。
一只菜鸟A
·
2025-05-07 11:28
hdfs
spark
eclipse
通过proxy实现外部网络访问Docker集群内部服务
由于在本地搭建了docker
hadoop
集群,要想通过docker容器端口映射的方式访问多个服务节点的状态实在麻烦,并且需要为每个服务分配唯一的端口。
楓葉也
·
2025-05-07 10:50
docker
hadoop
大数据
java
揭秘大数据 | 16、OLAP 那些事儿
OLAP阵营主要有两大主流,一大主流是基于MapReduce而构建的
Hadoop
生态圈,另一大主流是MPP数据库阵营。
XAI嬴图
·
2025-05-07 09:44
大数据
Newsql
nosql
图数据库
hadoop
【大数据】服务器上部署Apache Paimon
Hadoop
或对象存储(可选):如果需要将数据存储到分布式文件系统(如
HDFS
)或云存储(如AWSS3),请提前配
大数据追光猿
·
2025-05-07 09:43
大数据开发
大数据
服务器
apache
docker
架构
Spark,所用几个网页地址
hadoop
的三大组成:1.
HDFS
:存储。文件上传,下载2.MapReduce:计算。
Amu_Yalo
·
2025-05-07 07:33
spark
大数据
分布式
二、
Hadoop
狭义和广义的理解
作者:IvanCodes日期:2025年5月6日专栏:
Hadoop
教程
Hadoop
的双重身份:核心框架与生态系统在大数据领域,
Hadoop
是一个广为人知的概念,但它并非单指某一个软件,而是涵盖了两个层面的含义
IvanCodes
·
2025-05-06 20:55
Hadoop教程
hadoop
大数据
分布式
Hive安装与配置教程
Hive安装与配置教程1.环境准备1.1系统要求Java8或更高版本
Hadoop
2.x或更高版本MySQL或其他关系型数据库(用于存储元数据)1.2安装依赖#安装Javasudoaptupdatesudoaptinstallopenjdk
爱编程的王小美
·
2025-05-06 14:55
hive
hadoop
数据仓库
本地连接hive
第一步:我们要将相对应集群的三个文件拷贝到本地来,就这三个位置在/etc/
hadoop
/conf和/etc/hive/conf下第二步:要注意core-site.xml中的fs.defaulfFs这个配置项是默认文件系统的名称
向往太空的鱼
·
2025-05-06 14:24
spark
hive
Hadoop
总结
目录大数据概述
Hadoop
大数据开发平台资源管理YARN分布式文件系统
HDFS
非关系型数据库NOSQL分布式数据库HBASE批处理和MapReduce数据仓库查询分析和Hive基于内存计算的Spark流计算和
Ajekseg
·
2025-05-06 14:52
面试
学习路线
阿里巴巴
android
前端
后端
HDFS
与云计算:部署
HDFS
onAWSAzure和GCP
HDFS
与云计算:部署
HDFS
onAWS、Azure和GCP1.背景介绍在大数据时代,海量数据的存储和处理成为了企业和研究机构面临的主要挑战。
AI天才研究院
·
2025-05-06 03:36
AI大模型企业级应用开发实战
AI大模型应用入门实战与进阶
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
大数据存储解决方案:
HDFS
vs NoSQL全面对比
大数据存储解决方案:
HDFS
vsNoSQL全面对比关键词:
HDFS
、NoSQL、大数据存储、分布式文件系统、非关系型数据库、数据模型、扩展性摘要:本文深入对比分析
HDFS
(分布式文件系统)与NoSQL数据库在大数据存储领域的核心差异
大数据洞察
·
2025-05-05 20:25
CSDN
大数据
hdfs
nosql
ai
Hadoop
1.x设计理念解析
Hadoop
1.x虽然是二十年前的,但
hadoop
生态系统中的一些组件如今还在广泛使用,如
hdfs
和yarn,当今流行spark和flink都依赖这些组件通过学习它们的历史设计,首先可以让我们对它们的了解更加深刻
逆袭的小学生
·
2025-05-05 15:49
hadoop
大数据
分布式
Cannot find a valid baseurl for repo: centos-sclo-rh
[root@
hadoop
1redis-6.0.10]#sudoyuminstalldevtoolset-7-gcc*已加载插件:fastestmirror,refresh-packagekit,security
努力的Java开发者
·
2025-05-05 13:11
Linux
linux
配置集群-日志聚集操作
在
Hadoop
和Spark集群中,日志聚集是一项重要的功能,下面分别介绍如何在这两个集群中配置日志聚集操作。
Aaaa小嫒同学
·
2025-05-04 08:59
eclipse
java
ide
配置集群-编写
hadoop
启动停止脚本
为了方便启动和停止
Hadoop
集群,可以编写脚本实现一键式操作。以下分别给出Linux系统下启动和停止
Hadoop
集群的脚本示例,同时包含了脚本代码和详细解释。
Aaaa小嫒同学
·
2025-05-04 08:29
hadoop
java
大数据
spark和
hadoop
之间的关系对比
1处理速度
Hadoop
:
Hadoop
MapReduce基于磁盘进行数据处理,数据在Map和Reduce阶段会频繁地写入磁盘和读取磁盘,这使得数据处理速度相对较慢,尤其是在处理迭代式算法和交互式查询时,性能会受到较大影响
锅包肉的九珍
·
2025-05-04 07:52
spark
hadoop
大数据
Offer来了 Java面试核心知识点 框架篇
并发编程、数据结构和算法、网络与负载均衡★深入挖掘数据库与分布式事务、分布式缓存原理及应用、设计模式原理及实现★快速掌握Spring、SpringCloud、Netty、ZooKeeper、Kafka、
Hadoop
泡泡Java
·
2025-05-04 04:36
面试
java
面试
java
经验分享
spring
boot
spring
cloud
用MapReduce把
hdfs
数据写入HBase中
1.使用Map+Reduce方式publicclassMapReduceImport{/***Mapper*/staticclassHMapperextendsMapper{Textv2=newText();protectedvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsjava.io.IOException,InterruptedE
Java海洋
·
2025-05-04 02:54
Hadoop
【
hadoop
】案例:MapReduce批量写入HBase
1.需求分析我们仍然以美国各个气象站每年的气温数据集为例,现在要求使用MapReduce读取该数据集,然后批量写入HBase数据库,最后利用HBaseshell根据行键即席查询气温数据。2.数据集准备数据集的文件名为temperature.log,里面包含美国各个气象站每年的气温数据,数据的第一列为气象站ID,第二列为年份,第三列为气温值。具体样本数据如下所示:03103,1980,4103103
火龙谷
·
2025-05-04 02:53
hadoop
hadoop
mapreduce
hbase
Spark(19)Yarn-tool接口
(二)Tool接口定义org.apache.
hadoop
.util.Tool是Apache
Hadoop
框架里的一个接口,其用途是协助开发可通过命令行运行的
Hadoop
应用程序。
北随琛烬入
·
2025-05-04 00:40
spark
大数据
如何搭建spark yarn 模式的集群
安装并配置好
Hadoop
集群,因为YARN是
Hadoop
的资源管理系统。
漂流瓶666666
·
2025-05-04 00:09
spark
eclipse
大数据
流量统计--Maven依赖
新建项目Flow创建依赖,在pm.xml里添加如下内容:org.apache.
hadoop
hadoop
-client3.1.3新建一个log.txt.,编写数据,如:126111133335568976126121133331123908713787653490234578641502788987655676138897645368879
漂流瓶666666
·
2025-05-04 00:39
maven
java
深入解析MapReduce:大数据处理的经典范式
Hadoop
生态中的MapReduce框架应运而生,以其“分而治之”的思想解决了大规模数据的并行计算问题。本文将从原理、核心组件到实战案例,带你全面理解这一经典计算模型。
widder_
·
2025-05-03 22:26
hadoop入门学习指南
mapreduce
大数据
Spark-小练试刀
任务1:
HDFS
上有三份文件,分别为student.txt(学生信息表)result_bigdata.txt(大数据基础成绩表),result_math.txt(数学成绩表)。
o不ok!
·
2025-05-03 20:11
前端
javascript
开发语言
计算机毕业设计之基于随机森林的糖尿病预测研究与实现
该系统是一款基于B/S架构的web应用,其它技术还包括python,
hadoop
,spark,vue,Echarts,pandas等。用户首先可
bishe18是微
·
2025-05-03 20:39
随机森林
算法
机器学习
hadoop
存储数据文件原理
Hadoop
是一个开源的分布式计算框架,可以用于存储和处理大规模数据集。
酷爱码
·
2025-05-03 19:37
经验分享
hadoop
大数据
分布式
hadoop
数据清洗
packagecom.root.mapreduce.weblog;importjava.io.IOException;importorg.apache.
hadoop
.io.LongWritable;importorg.apache
富能量爆棚
·
2025-05-03 18:29
java
hadoop
如何搭建spark yarn 模式的集群集群
-安装并配置好
Hadoop
集群,YARN作为
Hadoop
的资源管理器,SparkYARN模式需要依赖
Hadoop
环境。
晴空下小雨.
·
2025-05-03 18:29
spark
大数据学习(115)-hive与impala
一、Apache
Hadoop
中的角色Impala和Hive都是Apache
Hadoop
生态系统中的重要组件,用于处理大规模数据
viperrrrrrr
·
2025-05-03 15:36
大数据
学习
hive
impala
【大数据分析工具】使用
Hadoop
、Spark进行大数据分析
大数据分析工具使用
Hadoop
、Spark进行大数据分析引言在当今数据驱动的世界中,处理和分析大规模数据已经成为许多企业和研究机构的核心需求。
爱技术的小伙子
·
2025-05-03 14:36
数据分析
hadoop
spark
Impala原理与代码实例讲解
1.2Impala的诞生Impala是由Cloudera公司开发的一款开源的MPP(大规模并行处理)SQL查询引擎,可以直接在
Hadoop
的存储层(如
HDFS
、HB
AI天才研究院
·
2025-05-03 14:35
AI大模型企业级应用开发实战
AI大模型应用入门实战与进阶
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
【jceks】使用keytool和
hadoop
credential生成和解析jceks文件(无密码storepass)
com.xxx.test'version='1.0-SNAPSHOT'repositories{mavenCentral()}dependencies{implementation("org.apache.
hadoop
lisacumt
·
2025-05-03 14:34
hadoop
大数据
分布式
Spark和
hadoop
的区别与联系
一、Spark和
Hadoop
的联系:1.同属大数据生态体系二者均为Apache旗下的大数据处理框架,服务于大规模数据的存储与计算,共同构成了大数据技术栈的核心。
Amu_Yalo
·
2025-05-03 14:02
spark
hadoop
大数据
如何搭建spark yarn模式的集群
2.安装
Hadoop
下载
Hadoop
:从Apache
Hadoop
官网下载合适版本的
Hadoop
。解压安装:将
Hadoop
解压到指定目录,例如/opt/
hadoop
。
rylshe1314
·
2025-05-03 10:40
spark
大数据
分布式
Spark与Hive的数据分区与分桶策略详解
Apache
Hadoop
作为首个成熟的开源分布式计算框架,为大规模数据
AI天才研究院
·
2025-05-03 08:25
AI大模型企业级应用开发实战
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
spark简介和核心编程
Shark基于Hive开发,提升了SQL-on-
Hadoop
的性能,但对Hive的过度依赖制约了Spark发展。
小名叫咸菜
·
2025-05-03 06:06
spark
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他