E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop;Spark
输入
hadoop
version时,解决Cannot execute /home/
hadoop
/libexec/
hadoop
-config.sh.的方法
在ubuntu用
hadoop
version遇到了一个错误:Cannotexecute/home/
hadoop
/
hadoop
2.8/libexec/
hadoop
-config.sh.解决方法:在/etc/
有奇妙能力吗
·
2025-07-02 21:45
ubuntu
hadoop
hdfs
linux
大数据
分布式
Hadoop
、
Spark
、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景
Hadoop
-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析
·
2025-07-02 13:45
Hadoop
WordCount 程序实现与执行指南
Hadoop
WordCount程序实现与执行指南下面是使用Python实现的
Hadoop
WordCount程序,包含完整的Mapper和Reducer部分。
·
2025-07-02 00:07
SeaTunnel 社区月报(5-6 月):全新功能上线、Bug 大扫除、Merge 之星是谁?
同时,近100个修复与优化PR合入,涵盖
Spark
引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
·
2025-07-01 18:24
数据库
spark
数据处理练习题番外篇【上】
一.单选题(共23题,100分)1.(单选题)maven依赖应该加在哪个文件中?A.pom.xmlB.log4j.propertiesC.src/main/scala.resourceD.src/test/scala.resource正确答案:A:pom.xml;Maven依赖应该添加在pom.xml文件中,这是Maven项目的核心配置文件。解释:pom.xml(ProjectObjectMode
·
2025-07-01 17:48
centos 7+
hadoop
2.7.3
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[
hadoop
@localhost~]$rpm-qa|grepjavajava-
mozhw
·
2025-06-30 16:05
c/c++
linu/unix
java
基于django+
Spark
+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等)
博主介绍:✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
阿勇学长
·
2025-06-30 14:22
大数据项目实战案例
Java精品毕业设计实例
Python数据可视化项目案例
大数据
django
spark
国漫推荐与可视化平台
毕业设计
Java
spark
写入hive表问题
1、httpclient发送post请求,当返回的数据过大时,报错socketclosed这个原因是客户端主动将连接关闭,根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果,在b方法中进行解析虽然在b方法中没有关闭closeableResponse,但是在a方法中返回closeableResponse后,会进行httppost.real
qq_42265026
·
2025-06-29 21:30
spark
hive
大数据
spark
解析压缩包数据,写入到hive表中
spark
解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件,zip里面是json文件。
dbbigdata
·
2025-06-29 21:59
spark
大数据
hive
MapReduce概述
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“
Hadoop
的数据分析应用”的核心框架。
Tate小白
·
2025-06-29 14:08
大数据学习
mapreduce
【SequoiaDB】4 巨杉数据库SequoiaDB整体架构
数据库实例模块则作为协议与语法的适配层,用户可根据需要创建包括MySQL、PostgreSQL与
Spark
SQL在内的结构化数据实例;支持JSON语法的MongoD
Alen_Liu_SZ
·
2025-06-28 17:05
巨杉数据库
SequoiaDB架构
编目节点
协调节点
数据节点
巨杉数据库
App Store暗藏虚假抖音,内含间谍软件窃取照片和加密货币
卡巴斯基网络安全研究人员近日发现名为
Spark
Kitty的新型间谍软件活动,该恶意程序已感染苹果AppStore和谷歌Play官方商店的多个应用。
FreeBuf-
·
2025-06-27 22:29
TikTok
App
Store
iOS
Android
【笔记-软考】大数据架构-Lambda与Kappa架构对比
1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制;Lambda架构在提出初期面向小范围业务,直接将成熟离线处理技术(
Hadoop
)和实时处理技术(Storm)相结合,用View模型将二者处理后得到的输出结果结合起来
我叫白小猿
·
2025-06-27 17:53
软考
软考
架构
大数据
Kappa
Lambda
试试时序数据库 TDengine ×
Spark
的组合拳
现在,TDengine正式开放与Apache
Spark
的无缝集成通道。一个是高性能、低成本的时序数据库,一个是横扫大数据世界的分析
·
2025-06-27 11:21
Spark
Streaming 与 Flink 实时数据处理方案对比与选型指南
Spark
Streaming与Flink实时数据处理方案对比与选型指南实时数据处理在互联网、电商、物流、金融等领域均有大量应用,面对海量流式数据,
Spark
Streaming和Flink成为两大主流开源引擎
浅沫云归
·
2025-06-27 02:10
后端技术栈小结
spark-streaming
flink
real-time
HDFS(
Hadoop
分布式文件系统)总结
文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode(名称节点)2.DataNode(数据节点)3.Client(客户端)4.SecondaryNameNode(辅助名称节点)三、数据存储机制1.数据块(Block)设计2.复制策略(默认复制因子=3)3.数据完整性校验四、文件读写流程1.写入流程2.读取流程五、高可用性(HA)机制1.单点故障解决方案2.
Cachel wood
·
2025-06-26 22:40
大数据开发
hadoop
hdfs
大数据
散列表
算法
哈希算法
spark
Spark
教程3:
Spark
SQL最全介绍
文章目录
Spark
SQL最全介绍一、
Spark
SQL概述二、
Spark
Session:入口点三、DataFrame基础操作四、SQL查询五、
Spark
SQL函数六、与Hive集成七、数据源操作八、DataFrame
Cachel wood
·
2025-06-26 22:10
大数据开发
spark
大数据
分布式
计算机网络
AHP
需求分析
Spark
教程1:
Spark
基础介绍
文章目录一、
Spark
是什么?
Cachel wood
·
2025-06-26 21:37
大数据开发
spark
大数据
分布式
计算机网络
数据库
数据仓库
讯飞星火(iFlytek
Spark
):科大讯飞打造的国产AI大模型平台
1.产品概述讯飞星火(iFlytek
Spark
)是科大讯飞自主研发的认知大模型,定位于通用人工智能(AGI)平台,集成了文本生成、语言理解、知识问答、逻辑推理、数学计算、代码生成和多模态交互等核心能力。
明似水
·
2025-06-26 17:09
AI
人工智能
Hadoop
的部分用法
前言
Hadoop
是一个由Apache基金会开发的开源框架,它允许跨多个机器使用分布式处理大数据集。
覃炳文20230322027
·
2025-06-26 16:30
hadoop
hive
大数据
分布式
Netty4.1 - TCP粘包拆包解决方案及案例代码
它已经得到了成百上千的商业项目的验证,例如
Hadoop
的RPC框架Avro就使用了Netty作为底层通信框架,其他的业界主流RPC框架,例如:Dubbo、Google开源的gRPC、新浪微博开源的Motan
wwyh520
·
2025-06-26 14:18
IO编程
netty
Storm核心概念与实战详解
作者:禅与计算机程序设计艺术1.简介2010年
Hadoop
项目开源后,Storm项目也随之走向人气爆棚。
AI天才研究院
·
2025-06-26 13:43
Python实战
自然语言处理
人工智能
语言模型
编程实践
开发语言
架构设计
基于
Hadoop
大数据分析应用场景与实战
一、
Hadoop
的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。
跨过山河大海
·
2025-06-26 12:38
Hadoop
发展过程是怎样的?
2004年,Google发布了第一版
Hadoop
项目,定位是
AI天才研究院
·
2025-06-26 11:06
Python实战
自然语言处理
人工智能
语言模型
编程实践
开发语言
架构设计
深度剖析无感刷新Token:领码
SPARK
平台赋能微服务认证的智能实践
本文结合领码
SPARK
融合平台的iPaaS和aPaaS优势,深刻解析无感刷新Token的实现原理、典型场景、安全风险及AI赋能智能防护,系统阐述实现无感刷新Token的最佳实践。通过流程
领码科技
·
2025-06-26 09:16
低代码
实战篇
无感刷新Token
领码SPARK
微服务认证
AI安全
双Token机制
Spark
之 UT
AQEOFFpartitionpruninginbroadcasthashjoinswithaliases==OptimizedLogicalPlan==Project[date_id#5283,pid#5281,sid#5282]+-JoinInner,(si
zhixingheyi_tian
·
2025-06-26 07:36
spark
spark
大数据
分布式
Spark
eventlog 、Event、
Spark
Listener
Spark
ListenerSQLExecutionStartcaseclass
Spark
ListenerSQLExecutionStart(executionId:Long,//iftheexecutionisaroot
zhixingheyi_tian
·
2025-06-26 07:06
spark
spark
大数据
分布式
从
Spark
执行计划中获取数据血缘
从
Spark
执行计划中获取数据血缘->关注清哥聊技术公众号,了解更多技术文章因为数据处理任务会涉及到数据的转换和处理,所以从数据任务中解析血缘也是获取数据血缘的渠道之一,
Spark
是大数据中数据处理最常用的一个技术组件
张永清-老清
·
2025-06-26 07:02
大数据
spark
大数据
分布式
Spark
之 QueryPlan
sameResultsrc/main/scala/org/apache/
spark
/sql/catalyst/plans/QueryPlan.scala/***Returnstruewhenthegivenqueryplanwillreturnthesameresultsasthisqueryplan
zhixingheyi_tian
·
2025-06-26 06:30
spark
spark
大数据
分布式
Python与大数据:
Spark
和Py
Spark
实战教程
Apache
Spark
作为新一代大数据计算引擎,以其高性能、易用性和强大的生态系统,成为数据工程师和分析师的首选工具。
天天进步2015
·
2025-06-26 01:58
python
大数据
python
spark
现代数据湖架构全景解析:存储、表格式、计算引擎与元数据服务的协同生态
本文全面剖析现代数据湖架构的核心组件,深入探讨对象存储(OSS/S3)、表格式(Iceberg/Hudi/DeltaLake)、计算引擎(
Spark
/Flink/Presto)及元数据服务(HMS/Amoro
讲文明的喜羊羊拒绝pua
·
2025-06-26 00:46
大数据
架构
数据湖
Spark
Iceberg
Amoro
对象存储
通过CDH安装
Spark
的详细指南
通过CDH安装
Spark
的详细指南简介ClouderaDistributionof
Hadoop
(CDH)是一个企业级的大数据平台,它集成了多个开源组件,包括
Hadoop
、
Spark
、Hive等。
暴躁哥
·
2025-06-25 20:48
大数据技术
spark
大数据
分布式
Hadoop
版本进化论:从 1.0 到 2.0,架构革命全解析
Hadoop
版本
hadoop
1.x版本由三部分组成Common(辅助工具)HDFS(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能,成为了系统的最大瓶颈采用了
拾光师
·
2025-06-25 18:02
大数据
后端
Hadoop
RPC 分层设计的哲学:高内聚、低耦合的最佳实践
Hadoop
RPC
Hadoop
RPC主要分为四个部分,分别是序列化层、函数调用层、网络传输层和服务器端处理框架,实现机制为:序列化层:主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储
拾光师
·
2025-06-25 18:30
大数据
后端
order、sort、distribute和cluster by(
Spark
/Hive)
1.abstractORDERBY:完整查询结果的全局行排序。与SORTBY、CLUSTERBY、DISTRIBUTEBY互斥,不能同时使用。示例SELECT*FROMtable_nameORDERBYcolumn_name;SORTBY:只在每个分区内排序,局部排序结果不是全局有序。与ORDERBY、CLUSTERBY互斥,不能同时指定。示例SELECT*FROMtable_nameSORTBY
有数的编程笔记
·
2025-06-25 15:07
Spark/Hive
spark
hive
大数据
合并小文件汇总(Hive/
Spark
)
合并小文件的原因:过多的小文件会导致HDFS上元数据负载增加。并且小文件也会导致计算性能下降。1.使用hive时1.1.使用hive.merge参数,开启文件合并--控制在map阶段结束后合并输出的小文件,默认值为trueSEThive.merge.mapfiles=true;--控制在reduce阶段结束后合并输出小文件,默认值为falseSEThive.merge.mapredfiles=tr
有数的编程笔记
·
2025-06-25 15:06
Spark/Hive
hive
spark
hadoop
基于py
spark
的北京历史天气数据分析及可视化_离线
基于py
spark
的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、
hadoop
3.2.0、
spark
3.1.2
大数据CLUB
·
2025-06-25 08:48
spark数据分析可视化
数据分析
数据挖掘
hadoop
大数据
spark
Spark
底层原理详细解析
Spark
简介Apache
Spark
是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将
Spark
部署在大量硬件之上,形成集群
JavaShark
·
2025-06-25 02:39
spark
big
data
hadoop
Java EDW三剑客:如何让数据从“沼泽”变身“报告神器”?手把手教你玩转企业数据仓库!
今天我们就用JDBC+Apache
Spark
+Thymeleaf三剑客,教你如何让Java在EDW中将“数据沼泽”炼成“报告神器”!从“数
墨瑾轩
·
2025-06-24 20:50
Java乐园
java
数据仓库
开发语言
Hadoop
RPC 分层设计的哲学:高内聚、低耦合的最佳实践
Hadoop
RPC
Hadoop
RPC主要分为四个部分,分别是序列化层、函数调用层、网络传输层和服务器端处理框架,实现机制为:序列化层:主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储
·
2025-06-24 13:14
后端
基于py
spark
的北京历史天气数据分析及可视化_实时
基于py
spark
的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、
hadoop
3.2.0、
spark
3.1.2
大数据CLUB
·
2025-06-24 12:54
spark数据分析可视化
数据分析
数据挖掘
spark
hadoop
大数据
《从零开始:
Hadoop
3.3.0 全分布式环境搭建与运行详解(含自动化配置)》
Hadoop
3.3.0全分布并环境搭建与运行部署详解一、准备工作1.1环境要求三台Linux主机,如node1、node2、node3配置推荐:内存大于4GB,CPU大于2核,磁盘空间大于40GB1.2
李哈哈敲代码
·
2025-06-24 02:51
学习经验
分布式
hadoop
自动化
大数据
linux
Hadoop
等大数据处理框架的Java API
Hadoop
是一个非常流行的大数据处理框架,主要用于存储和处理大规模数据集。
Hadoop
主要有两个核心组件:HDFS(
Hadoop
DistributedFileSystem)和MapReduce。
扬子鳄008
·
2025-06-23 05:00
Java
hadoop
java
大数据
python--将mysql建表语句转换成hive建表语句
importjsonimportsysimportpymysqldefqueryDataBase(tablename):#连接数据库并查询列信息conn=pymysql.connect(user='root',password='123456',host='
hadoop
11
呆呆不呆~
·
2025-06-23 01:30
spark
python
mysql
hive
spark
Py
spark
中的int
在Py
Spark
中,整数类型(int)与Python或Pandas中的int有所不同,因为它基于
Spark
SQL的数据类型系统。
闯闯桑
·
2025-06-23 00:27
python
spark
pandas
大数据
手把手教你玩转 Sqoop:从数据库到大数据的「数据搬运工」
SQL+
Hadoop
,直接告诉你核心技能:在关系型数据库(比如MySQL)和
Hadoop
家族(HDFS、Hive、HBase)之间疯狂倒腾数据!核
AAA建材批发王师傅
·
2025-06-22 20:31
数据库
sqoop
大数据
hive
hdfs
Python 工程师迈向大数据时代:
Hadoop
与
Spark
框架深度解析与实战指南
Python工程师迈向大数据时代:
Hadoop
与
Spark
框架深度解析与实战指南引言亲爱的Python工程师们,欢迎来到大数据时代!
清水白石008
·
2025-06-22 14:52
python
Python题库
大数据
python
hadoop
实战
Spark
从入门到精通(五):
Spark
开发实操,先搞定
Spark
集群规划!
系列文章目录实战
Spark
从入门到精通(一):一文带你全面了解
Spark
大数据处理框架实战
Spark
从入门到精通(二):
Spark
急速上手,给小白的3分钟入门指南实战
Spark
从入门到精通(三):深入理解
元飞聊技术
·
2025-06-22 13:09
实战Spark从入门到精通
spark
大数据
分布式
linux
centos
【
Spark
征服之路-2.9-
Spark
-Core编程(五)】
RDD行动算子:行动算子就是会触发action的算子,触发action的含义就是真正的计算数据。1.reduce➢函数签名defreduce(f:(T,T)=>T):T➢函数说明聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据valrdd:RDD[Int]=sc.makeRDD(List(1,2,3,4))valreduceResult:Int=rdd.reduce(_+_)printl
·
2025-06-22 12:36
Spark
Streaming 原理与代码实例讲解
Spark
Streaming原理与代码实例讲解1.背景介绍1.1实时流数据处理的重要性在当今大数据时代,海量的数据正以前所未有的速度不断产生。
AI智能应用
·
2025-06-22 12:35
AI大模型应用入门实战与进阶
Python入门实战
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他