Hadoop；Spark 第2页

输入hadoop version时，解决Cannot execute /home/hadoop/libexec/hadoop-config.sh.的方法

在ubuntu用hadoopversion遇到了一个错误：Cannotexecute/home/hadoop/hadoop2.8/libexec/hadoop-config.sh.解决方法：在/etc/

有奇妙能力吗·2025-07-02 21:45

Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景

一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析

·2025-07-02 13:45

Hadoop WordCount 程序实现与执行指南

HadoopWordCount程序实现与执行指南下面是使用Python实现的HadoopWordCount程序，包含完整的Mapper和Reducer部分。

·2025-07-02 00:07

SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？

同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全

·2025-07-01 18:24

spark数据处理练习题番外篇【上】

一.单选题（共23题，100分）1.(单选题)maven依赖应该加在哪个文件中？A.pom.xmlB.log4j.propertiesC.src/main/scala.resourceD.src/test/scala.resource正确答案:A:pom.xml;Maven依赖应该添加在pom.xml文件中，这是Maven项目的核心配置文件。解释：pom.xml(ProjectObjectMode

·2025-07-01 17:48

centos 7+hadoop 2.7.3

安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-

mozhw·2025-06-30 16:05

基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等)

博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等

阿勇学长·2025-06-30 14:22

spark写入hive表问题

1、httpclient发送post请求，当返回的数据过大时，报错socketclosed这个原因是客户端主动将连接关闭，根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果，在b方法中进行解析虽然在b方法中没有关闭closeableResponse，但是在a方法中返回closeableResponse后，会进行httppost.real

qq_42265026·2025-06-29 21:30

spark解析压缩包数据，写入到hive表中

spark解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件，zip里面是json文件。

dbbigdata·2025-06-29 21:59

MapReduce概述

1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。

Tate小白·2025-06-29 14:08

【SequoiaDB】4 巨杉数据库SequoiaDB整体架构

数据库实例模块则作为协议与语法的适配层，用户可根据需要创建包括MySQL、PostgreSQL与SparkSQL在内的结构化数据实例；支持JSON语法的MongoD

Alen_Liu_SZ·2025-06-28 17:05

App Store暗藏虚假抖音，内含间谍软件窃取照片和加密货币

卡巴斯基网络安全研究人员近日发现名为SparkKitty的新型间谍软件活动，该恶意程序已感染苹果AppStore和谷歌Play官方商店的多个应用。

FreeBuf-·2025-06-27 22:29

【笔记-软考】大数据架构-Lambda与Kappa架构对比

1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来

我叫白小猿·2025-06-27 17:53

试试时序数据库 TDengine × Spark 的组合拳

现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析

·2025-06-27 11:21

Spark Streaming 与 Flink 实时数据处理方案对比与选型指南

SparkStreaming与Flink实时数据处理方案对比与选型指南实时数据处理在互联网、电商、物流、金融等领域均有大量应用，面对海量流式数据，SparkStreaming和Flink成为两大主流开源引擎

浅沫云归·2025-06-27 02:10

HDFS（Hadoop分布式文件系统）总结

文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode（辅助名称节点）三、数据存储机制1.数据块（Block）设计2.复制策略（默认复制因子=3）3.数据完整性校验四、文件读写流程1.写入流程2.读取流程五、高可用性（HA）机制1.单点故障解决方案2.

Cachel wood·2025-06-26 22:40

Spark教程3：SparkSQL最全介绍

文章目录SparkSQL最全介绍一、SparkSQL概述二、SparkSession：入口点三、DataFrame基础操作四、SQL查询五、SparkSQL函数六、与Hive集成七、数据源操作八、DataFrame

Cachel wood·2025-06-26 22:10

Spark教程1：Spark基础介绍

文章目录一、Spark是什么？

Cachel wood·2025-06-26 21:37

讯飞星火（iFlytek Spark）：科大讯飞打造的国产AI大模型平台

1.产品概述讯飞星火（iFlytekSpark）是科大讯飞自主研发的认知大模型，定位于通用人工智能（AGI）平台，集成了文本生成、语言理解、知识问答、逻辑推理、数学计算、代码生成和多模态交互等核心能力。

明似水·2025-06-26 17:09

Hadoop的部分用法

前言Hadoop是一个由Apache基金会开发的开源框架，它允许跨多个机器使用分布式处理大数据集。

覃炳文20230322027·2025-06-26 16:30

Netty4.1 - TCP粘包拆包解决方案及案例代码

它已经得到了成百上千的商业项目的验证，例如Hadoop的RPC框架Avro就使用了Netty作为底层通信框架，其他的业界主流RPC框架，例如：Dubbo、Google开源的gRPC、新浪微博开源的Motan

wwyh520·2025-06-26 14:18

Storm核心概念与实战详解

作者：禅与计算机程序设计艺术1.简介2010年Hadoop项目开源后，Storm项目也随之走向人气爆棚。

AI天才研究院·2025-06-26 13:43

基于Hadoop大数据分析应用场景与实战

一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。

跨过山河大海·2025-06-26 12:38

Hadoop 发展过程是怎样的？

2004年，Google发布了第一版Hadoop项目，定位是

AI天才研究院·2025-06-26 11:06

深度剖析无感刷新Token：领码SPARK平台赋能微服务认证的智能实践

本文结合领码SPARK融合平台的iPaaS和aPaaS优势，深刻解析无感刷新Token的实现原理、典型场景、安全风险及AI赋能智能防护，系统阐述实现无感刷新Token的最佳实践。通过流程

领码科技·2025-06-26 09:16

Spark 之 UT

AQEOFFpartitionpruninginbroadcasthashjoinswithaliases==OptimizedLogicalPlan==Project[date_id#5283,pid#5281,sid#5282]+-JoinInner,(si

zhixingheyi_tian·2025-06-26 07:36

Spark eventlog 、Event、SparkListener

SparkListenerSQLExecutionStartcaseclassSparkListenerSQLExecutionStart(executionId:Long,//iftheexecutionisaroot

zhixingheyi_tian·2025-06-26 07:06

从Spark 执行计划中获取数据血缘

从Spark执行计划中获取数据血缘->关注清哥聊技术公众号，了解更多技术文章因为数据处理任务会涉及到数据的转换和处理，所以从数据任务中解析血缘也是获取数据血缘的渠道之一，Spark是大数据中数据处理最常用的一个技术组件

张永清-老清·2025-06-26 07:02

Spark 之 QueryPlan

sameResultsrc/main/scala/org/apache/spark/sql/catalyst/plans/QueryPlan.scala/***Returnstruewhenthegivenqueryplanwillreturnthesameresultsasthisqueryplan

zhixingheyi_tian·2025-06-26 06:30

Python与大数据：Spark和PySpark实战教程

ApacheSpark作为新一代大数据计算引擎，以其高性能、易用性和强大的生态系统，成为数据工程师和分析师的首选工具。

天天进步2015·2025-06-26 01:58

现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态

本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro

讲文明的喜羊羊拒绝pua·2025-06-26 00:46

通过CDH安装Spark的详细指南

通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。

暴躁哥·2025-06-25 20:48

Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析

Hadoop版本hadoop1.x版本由三部分组成Common(辅助工具)HDFS(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能，成为了系统的最大瓶颈采用了

拾光师·2025-06-25 18:02

Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践

HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储

拾光师·2025-06-25 18:30

order、sort、distribute和cluster by（Spark/Hive）

1.abstractORDERBY：完整查询结果的全局行排序。与SORTBY、CLUSTERBY、DISTRIBUTEBY互斥，不能同时使用。示例SELECT*FROMtable_nameORDERBYcolumn_name;SORTBY：只在每个分区内排序，局部排序结果不是全局有序。与ORDERBY、CLUSTERBY互斥，不能同时指定。示例SELECT*FROMtable_nameSORTBY

有数的编程笔记·2025-06-25 15:07

合并小文件汇总（Hive/Spark）

合并小文件的原因：过多的小文件会导致HDFS上元数据负载增加。并且小文件也会导致计算性能下降。1.使用hive时1.1.使用hive.merge参数，开启文件合并--控制在map阶段结束后合并输出的小文件，默认值为trueSEThive.merge.mapfiles=true;--控制在reduce阶段结束后合并输出小文件，默认值为falseSEThive.merge.mapredfiles=tr

有数的编程笔记·2025-06-25 15:06

基于pyspark的北京历史天气数据分析及可视化_离线

基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2

大数据CLUB·2025-06-25 08:48

Spark底层原理详细解析

Spark简介ApacheSpark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群

JavaShark·2025-06-25 02:39

Java EDW三剑客：如何让数据从“沼泽”变身“报告神器”？手把手教你玩转企业数据仓库！

今天我们就用JDBC+ApacheSpark+Thymeleaf三剑客，教你如何让Java在EDW中将“数据沼泽”炼成“报告神器”！从“数

墨瑾轩·2025-06-24 20:50

Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践

HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储

·2025-06-24 13:14

基于pyspark的北京历史天气数据分析及可视化_实时

基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2

大数据CLUB·2025-06-24 12:54

《从零开始：Hadoop 3.3.0 全分布式环境搭建与运行详解（含自动化配置）》

Hadoop3.3.0全分布并环境搭建与运行部署详解一、准备工作1.1环境要求三台Linux主机，如node1、node2、node3配置推荐:内存大于4GB，CPU大于2核，磁盘空间大于40GB1.2

李哈哈敲代码·2025-06-24 02:51

Hadoop等大数据处理框架的Java API

Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。

扬子鳄008·2025-06-23 05:00

python--将mysql建表语句转换成hive建表语句

importjsonimportsysimportpymysqldefqueryDataBase(tablename):#连接数据库并查询列信息conn=pymysql.connect(user='root',password='123456',host='hadoop11

呆呆不呆～·2025-06-23 01:30

Pyspark中的int

在PySpark中，整数类型（int）与Python或Pandas中的int有所不同，因为它基于SparkSQL的数据类型系统。

闯闯桑·2025-06-23 00:27

手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」

SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核

AAA建材批发王师傅·2025-06-22 20:31

Python 工程师迈向大数据时代： Hadoop 与 Spark 框架深度解析与实战指南

Python工程师迈向大数据时代：Hadoop与Spark框架深度解析与实战指南引言亲爱的Python工程师们，欢迎来到大数据时代！

清水白石008·2025-06-22 14:52

实战Spark从入门到精通（五）：Spark开发实操，先搞定Spark集群规划！

系列文章目录实战Spark从入门到精通（一）：一文带你全面了解Spark大数据处理框架实战Spark从入门到精通（二）：Spark急速上手，给小白的3分钟入门指南实战Spark从入门到精通（三）：深入理解

元飞聊技术·2025-06-22 13:09

【Spark征服之路-2.9-Spark-Core编程（五）】

RDD行动算子：行动算子就是会触发action的算子，触发action的含义就是真正的计算数据。1.reduce➢函数签名defreduce(f:(T,T)=>T):T➢函数说明聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据valrdd:RDD[Int]=sc.makeRDD(List(1,2,3,4))valreduceResult:Int=rdd.reduce(_+_)printl

·2025-06-22 12:36

Spark Streaming 原理与代码实例讲解

SparkStreaming原理与代码实例讲解1.背景介绍1.1实时流数据处理的重要性在当今大数据时代,海量的数据正以前所未有的速度不断产生。

AI智能应用·2025-06-22 12:35

推荐频道

Hadoop；Spark

输入hadoop version时，解决Cannot execute /home/hadoop/libexec/hadoop-config.sh.的方法

Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景

Hadoop WordCount 程序实现与执行指南

SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？

spark数据处理练习题番外篇【上】

centos 7+hadoop 2.7.3

基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等)

spark写入hive表问题

spark解析压缩包数据，写入到hive表中

MapReduce概述

【SequoiaDB】4 巨杉数据库SequoiaDB整体架构

App Store暗藏虚假抖音，内含间谍软件窃取照片和加密货币

【笔记-软考】大数据架构-Lambda与Kappa架构对比

试试时序数据库 TDengine × Spark 的组合拳

Spark Streaming 与 Flink 实时数据处理方案对比与选型指南

HDFS（Hadoop分布式文件系统）总结

Spark教程3：SparkSQL最全介绍

Spark教程1：Spark基础介绍

讯飞星火（iFlytek Spark）：科大讯飞打造的国产AI大模型平台

Hadoop的部分用法

Netty4.1 - TCP粘包拆包解决方案及案例代码

Storm核心概念与实战详解

基于Hadoop大数据分析应用场景与实战

Hadoop 发展过程是怎样的？

深度剖析无感刷新Token：领码SPARK平台赋能微服务认证的智能实践

Spark 之 UT

Spark eventlog 、Event、SparkListener

从Spark 执行计划中获取数据血缘

Spark 之 QueryPlan

Python与大数据：Spark和PySpark实战教程

现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态

通过CDH安装Spark的详细指南

Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析

Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践

order、sort、distribute和cluster by（Spark/Hive）

合并小文件汇总（Hive/Spark）

基于pyspark的北京历史天气数据分析及可视化_离线

Spark底层原理详细解析

Java EDW三剑客：如何让数据从“沼泽”变身“报告神器”？手把手教你玩转企业数据仓库！

Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践

基于pyspark的北京历史天气数据分析及可视化_实时

《从零开始：Hadoop 3.3.0 全分布式环境搭建与运行详解（含自动化配置）》

Hadoop等大数据处理框架的Java API

python--将mysql建表语句转换成hive建表语句

Pyspark中的int

手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」

Python 工程师迈向大数据时代： Hadoop 与 Spark 框架深度解析与实战指南

实战Spark从入门到精通（五）：Spark开发实操，先搞定Spark集群规划！

【Spark征服之路-2.9-Spark-Core编程（五）】

Spark Streaming 原理与代码实例讲解