E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop;Spark
Java编程之学习技巧
技术大牛推荐还是通过搜索引擎得到,或者另有出处如、技术交流群、技术论坛或社区或订阅一些IT报刊,此外还可以通过一些大厂或新兴行业公司招聘信息获取新兴技术优选官网熟悉比如Spring官网、Redis官网、
Spark
IT小神
·
2025-05-27 19:12
Java
java
spring
hadoop
Spark
实时流数据处理实例(
Spark
Streaming通话记录消息处理)
所用资源:通过网盘分享的文件:
spark
-streaming-kafka-0-8-assembly_2.11-2.4.8.jar等4个文件链接:https://pan.baidu.com/s/1zYHu29tLgDvS_L2Ud
qrh_yogurt
·
2025-05-27 16:20
spark
python
pycharm
Spark
SQL进阶:解锁大数据处理的新姿势
目录一、
Spark
SQL,为何进阶?
£菜鸟也有梦
·
2025-05-27 12:00
大数据基础
大数据
spark
sql
hadoop
hive
Hugging Face +
Spark
:打造高效的 NLP 大数据处理引擎(一)
在自然语言处理(NLP)领域,HuggingFace是不可或缺的处理库,而
Spark
则是大数据处理的必备工具。将两者的优势结合起来,可以实现高效的NLP大数据处理。
·
2025-05-27 10:21
数据仓库基础知识总结
分别是:数据仓库技术、
Hadoop
。当数据为
数字天下
·
2025-05-27 09:40
数据仓库
大数据技术全景解析:HDFS、HBase、MapReduce 与 Chukwa
于是,以
Hadoop
生态系统为代表的大数据技术应运而生。本文将带你走进大数据的世界,重点介
coding随想
·
2025-05-27 08:04
大数据
大数据
hdfs
hbase
Hadoop
生态系统中的大数据基础知识教程
作者:禅与计算机程序设计艺术1.简介“
Hadoop
”是一个开源的分布式计算框架,基于云计算平台构建,提供海量数据的存储、分析处理和计算能力,广泛应用于金融、电信、互联网、移动通信等领域。
AI天才研究院
·
2025-05-26 22:39
自然语言处理
人工智能
语言模型
编程实践
开发语言
架构设计
Hive实战讲解-1
Hive是基于
Hadoop
的一个数据仓库工具,它构建在HDFS(
Hadoop
分布式文件系统)之上,提供了类SQL的查询语言HiveQL,允许用户以类似操作关系型数据库的方式处理和分析大规模数据集,将结构化的数据文件映射为一张数据库表
数字化与智能化
·
2025-05-26 11:04
Hive数据仓库
hive
使用MapReduce统计TopN数据
二、实验内容使用
Hadoop
生态组件(文件系统HDFS,处理引擎MapReduce),基于机票销售记录数据集,完成特定数据分析任务。
PhoneMeWhenNecessary
·
2025-05-26 09:20
hadoop
大数据
mapreduce
数据结构
Spark
面试问题总结
阿里面试:https://www.jianshu.com/p/11578fd6e272https://www.jianshu.com/p/c8a271448dcd大数据开发面试-MMMM:https://www.jianshu.com/p/fec32e92e06cOGGCDC读取oracle日志-Mhttps://blog.csdn.net/dkl12/article/details/804471
大数据侠客
·
2025-05-26 07:12
spark相关问题汇总及解决
spark
面试
大数据
3.8.1 利用RDD实现词频统计
在本次实战中,我们通过
Spark
的RDD实现了词频统计功能。首先,准备了包含单词的文件并上传至HDFS。
酒城译痴无心剑
·
2025-05-25 16:30
Spark
3.x
基础学习笔记
SparRDD
词频统计
《
Hadoop
大数据技术原理与应用》(第2版)黑马程序员的课后习题答案
《
Hadoop
大数据技术原理与应用(第2版)》课后习题答案第1章初始
Hadoop
一、填空题1.半结构化数据、非结构化数据2.多样、低价值密度、高速3.Nutch4.高容错性、高效率、高扩展性二、判断题1
一只破豆豆
·
2025-05-25 14:15
大数据
hadoop
分布式
Spark
基础学习笔记:搭建
spark
on yarn 集群
一、
Spark
OnYARN架构
Spark
OnYARN模式遵循YARN的官方规范,YARN只负责资源的管理和调度,运行哪种应用程序由用户自己实现,因此可能在YARN上同时运行MapReduce程序和
Spark
Connie_2022
·
2025-05-25 14:44
spark
学习
big
data
YARN与
Spark
组件架构关系及交互机制:从ResourceManager到Executor的层级、依赖与通信链路解析
管理所有NodeManager(NM)└──每个NM管理多个物理节点└──每个节点上运行Container(逻辑资源单元)├──分配固定内存/CPU资源└──运行具体进程(如AM、Executor)2.
Spark
WZMeiei
·
2025-05-25 13:42
Spark
spark
架构
大数据
分布式
【赵渝强老师】Scala编程语言
学习Scala编程语言,将为后续学习
Spark
和Flink奠定基础。视频讲解如下:https://www.bilibili.com/video/BV1wdUWYeEcS/
·
2025-05-25 13:22
《
Spark
/Flink/Doris离线&实时数仓开发》目录
欢迎加入《
Spark
/Flink/Doris离线&实时数仓开发》付费专栏!
大模型大数据攻城狮
·
2025-05-25 12:32
spark
flink
大数据
数据面试
离线数仓
实时数仓
调度器
解锁
Spark
MLlib与分布式策略
Langchain系列文章目录01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块:四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain:从核心链条构建到动态任务分配的实战指南04-玩转LangChain:从文档加载到高效问答系统构建的全程实战05-玩转LangChain:深度评估问答系统的三种高效方法(示例生成、手
吴师兄大模型
·
2025-05-25 07:27
0基础实现机器学习入门到精通
机器学习
大数据
spark-ml
人工智能
深度学习
pytorch
sklearn
【
Spark
Streaming】面试题
Spark
Streaming是Apache
Spark
提供的一个扩展模块,用于处理实时数据流。它使得可以使用
Spark
强大的批处理能力来处理连续的实时数据流。
言之。
·
2025-05-25 05:47
大数据
[
Hadoop
学习笔记 1]
Hadoop
伪分布式环境部署(OpenSUSE 15.6 + Oracle JDK 8)
一、安装JDK本文所搭建
Hadoop
伪分布式环境将使用OracleJDK8,将从OracleJavaSE8ArchiveDownloads页面中下载Linux版本的JDK,下载地址如下:JavaArchiveDownloads-JavaSE8u211andlater
狼鸭-使银狼永远伟大
·
2025-05-24 21:26
Hadoop学习笔记
分布式
hadoop
学习
java
大数据
hdfs
yarn
Flink基于Yarn多种启动方式详解
Flink与Yarn深度集成后,不仅充分利用
Hadoop
生态资源,还能灵活应对各种作业调度和资源隔离需求。本文将系统介绍FlinkonYarn的多种启动方式、适用场景、配置方法及常见问题。
北漂老男人
·
2025-05-24 19:42
Flink
flink
java
大数据
HDFS&Hive介绍
HDFSHDFS:
Hadoop
分布式文件存储系统HDFS架构包含Client、NameNode和DataNode。可以简单的认为有一个NameNode和多个DataNode。
正则化
·
2025-05-24 17:32
数据存储
大数据领域 Hive 与
Spark
的集成应用
大数据领域Hive与
Spark
的集成应用关键词:Hive,
Spark
,大数据集成,数据处理,分布式计算,元数据管理,性能优化摘要:本文深入探讨ApacheHive与Apache
Spark
在大数据处理中的集成应用
AI天才研究院
·
2025-05-24 17:02
ChatGPT
AI大模型应用入门实战与进阶
大数据
hive
spark
ai
Hadoop
中HDFS、Hive 和 HBase三者之间的关系
HDFS(
Hadoop
DistributedFileSystem)、Hive和HBase是
Hadoop
生态系统中三个重要的组件,它们各自解决了大数据存储和处理的不同层面的问题。
[听得时光枕水眠]
·
2025-05-24 17:02
hadoop
hdfs
hive
centOS7系统虚拟机节点的搭建
配置node02和node03环境7.配置映射8.关闭防火墙9.关闭SElinux10.Xshell连接linux11.免密登录总结前言随着计算机的发展,越来越多的人认识到大数据的优点,这时就不得不提
Hadoop
在山海相见
·
2025-05-24 15:50
大数据
centos
linux
实战
Spark
从入门到精通(二):
Spark
急速上手,给小白的3分钟入门指南
系列文章目录实战
Spark
从入门到精通(一):一文带你全面了解
Spark
大数据处理框架文章目录系列文章目录前言快速上手
Spark
的第一步:了解Scala基础
Spark
的灵魂:
Spark
Context3分钟上手
元飞聊技术
·
2025-05-24 00:33
实战Spark从入门到精通
spark
大数据
分布式
Hadoop
系列二
写在前面生产上,集群的机器,总内存的75%,25%留给系统、Linux机制、以及防止OOM-killer。oom-killer机制当LInux服务器某个进程使用内存超标,Linux机器为了保护自己,主动杀死你的进程,释放内存。tmp目录30天机制数据本地化生产上部署一般遵循存储技术一体,就是计算时发现本节点有数据不需要网络传输,这种一般叫做数据本地化。2.1container容器container
qiyong7578
·
2025-05-23 12:38
hadoop
hadoop
资源管理器yarn的简单介绍
一.什么是yarnApache
Hadoop
YARN(YetAnotherResourceNegotiator,另一种资源协调者)是一种新的
Hadoop
资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度
永远不要矫情
·
2025-05-23 12:37
yarn
hadoop
Hive 开发提效必备技巧:当前数据库显示与本地化模式配置
在大数据处理领域,Hive作为
Hadoop
生态中重要的数据仓库工具,广泛应用于离线数据分析场景。
线条1
·
2025-05-23 12:36
hive
数据库
Hive 复杂数据类型实战:从 Array 到 Struct,一篇搞懂集合类数据处理
在数据仓库领域,Hive作为基于
Hadoop
的分布式数据存储与计算工具,经常需要处理多样化的业务数据。
线条1
·
2025-05-23 12:36
hive
hadoop
数据仓库
深入理解
Hadoop
核心组件 Yarn:架构、配置与实战
一、
Hadoop
三大件概述
Hadoop
作为大数据领域的基石,其核心由三大组件构成:HDFS(分布式文件系统):负责海量数据的分布式存储,通过数据分块和副本机制保障可靠性,是大数据存储的基础设施。
线条1
·
2025-05-23 11:36
hadoop
架构
大数据
68道Hbase高频题整理(附答案背诵版)
换句话说,Hbase是Apache
Hadoop
生态系统中的一部分,可以为大数据应用提供快速的随机读写访问。
编程大全
·
2025-05-23 10:51
面试题
hbase
数据库
大数据
Hive 内部表与外部表深度解析:数据管理的最佳实践
在大数据处理领域,Hive作为基于
Hadoop
的数据仓库工具,为结构化数据提供了类SQL查询能力。
自然术算
·
2025-05-23 05:49
Hive面试100篇
hive
hadoop
数据仓库
大数据
spark
向mysql中写数据,报错不能连接mysql
使用
spark
读取hive中数据,计算后将结果写入mysql,报错如下:猜想可能是驱动包版本不兼容所致。经检查,mysql数据库是8.0.12版本,而项目使用的驱动包是5.1.27版本。
etastgrehyjrt
·
2025-05-23 03:07
spark
mysql
大数据
Spark
和
Hadoop
的区别与联系
一、核心定位与架构
Hadoop
•定位:分布式系统基础架构,主要解决海量数据的存储和计算问题。核心组件:HDFS(分布式文件系统):负责数据存储,提供高吞吐量的海量数据存储能力。
Freedom℡
·
2025-05-23 03:36
spark
hadoop
大数据
Spark
,连接MySQL数据库,添加数据,读取数据
以下是使用
Spark
/
Spark
SQL连接MySQL数据库、添加数据和读取数据的完整示例(需提前准备MySQL驱动包):一、环境准备1.下载MySQL驱动-下载mysql-connector-java-
Eternity......
·
2025-05-23 03:06
spark
大数据
深入浅出
Hadoop
:大数据时代的“瑞士军刀”
深入浅出
Hadoop
:大数据时代的“瑞士军刀”在当今这个数据爆炸的时代,每天产生的数据量已经远超人类的想象。
coding随想
·
2025-05-22 22:10
大数据
大数据
hadoop
分布式
82: Zookeeper高可用集群 、 分布式消息队列Kafka 、 搭建高可用
Hadoop
集群、总结和答疑
TopNSDARCHITECTUREDAY05案例1:组建zookeeper集群案例2:测试集群的远程管理和高可用案例3:在node节点上搭建3台kafka案例4:准备实验环境案例5:配置namenode与resourcemanager高可用案例6:启动服务,验证高可用1案例1:组建zookeeper集群1.1问题本案例要求:组建zookeeper集群1个leader2个follower1个obs
河北王承志
·
2025-05-22 12:10
达内云计算培训笔记
linux
Hadoop
高可用 ------ 介绍及部署搭建
NameNode高可用NameNode是HDFS的核心配置,HDFS又是
Hadoop
的核心组件,NameNode在
Hadoop
集群中至关重要namenode机器宕机,将导致集群不可用,如果namenode
受益于开源 回馈于开源
·
2025-05-22 12:39
hadoop
3.8.2 利用RDD计算总分与平均分
在本次实战中,我们利用
Spark
的RDD完成了成绩文件的总分与平均分计算任务。首先,准备了包含学生成绩的文件并上传至HDFS。
酒城译痴无心剑
·
2025-05-22 12:08
Spark
3.x
基础学习笔记
Spark
RDD
计算总分与平均分
Hadoop
-HA高可用集群启动nameNode莫名挂掉,排错解决
Hadoop
-HA高可用集群启动nameNode莫名挂掉,排错解决nameNode错误日志2025-05-2116:14:12,218INFOorg.apache.
hadoop
.ipc.Client:Retryingconnecttoserver
岁月的眸
·
2025-05-22 12:36
大数据
#
hadoop
hadoop
大数据
分布式
Spark
入门秘籍
目录一、
Spark
是什么?1.1内存计算:速度的飞跃1.2多语言支持:开发者的福音1.3丰富组件:一站式大数据处理平台二、
Spark
能做什么?
£菜鸟也有梦
·
2025-05-22 11:35
大数据基础
spark
大数据
分布式
HDFS NameNode 联邦机制与高可用方案解析
一、HDFS单节点NameNode的瓶颈困境在
Hadoop
分布式文件系统(HDFS)中,NameNode作为核心元数据管理者,承担着文件系统命名空间管理、文件与块映射关系维护等关键任务。
线条1
·
2025-05-22 07:03
hdfs
hadoop
大数据
使用Terraform创建azure databrick
它是基于Apache
Spark
的分析平台,可帮助用户以更高效的方式进行数据处理、数据分析和机器学习任务。
云攀登者-望正茂
·
2025-05-22 07:01
azure
云原生devops
terraform
azure
云原生
Spark
----
Spark
Context解析
Spark
Context解析
Spark
Context是用户通往
Spark
集群的唯一入口,任何需要使用
Spark
的地方都需要先创建
Spark
Context,那么
Spark
Context做了什么?
XiaodunLP
·
2025-05-22 03:05
Spark
Spark
集群搭建:Standalone 模式详解
在大数据处理领域,
Spark
凭借其高效的内存计算能力广受青睐。搭建一个稳定、高效的
Spark
集群是充分发挥其性能的关键。本文将详细讲解如何搭建
Spark
Standalone集群。
麻芝汤圆
·
2025-05-22 03:34
spark大数据分析
spark
大数据
分布式
hadoop
mapreduce
开发语言
Spark
Context介绍
目录1.集群管理接口2.RDD操作中枢3.任务分发引擎4.执行环境配置5.性能监控枢纽
Spark
Context是Apache
Spark
的核心组件,其作用可概括为以下五个关键维度:1.集群管理接口作为与集群管理器
大数据知识搬运工
·
2025-05-22 03:03
spark学习
hadoop
spark
sparkcontext
Spark
大数据分析案例(pycharm)
pwd=22dj提取码:22dj复制这段内容打开「百度网盘APP即可获取」工具:
Spark
下安装的pycharm5.202.窗口操作(
Spark
SQL)在处理数据时,经常会遇到数据的分类
qrh_yogurt
·
2025-05-21 23:08
spark
数据分析
pycharm
spark
-shuffle 类型及其对比
1.HashShuffle原理:将数据按照分区键进行哈希计算,将相同哈希值的数据发送到同一个Reducer中。特点:实现简单,适用于数据分布均匀的场景。但在数据分布不均匀时,容易导致某些Reducer处理的数据量过大,产生性能瓶颈。适用场景:当数据分布相对均匀时,可以使用HashShuffle。2.SortShuffle原理:在Map端对数据进行排序,然后按照排序后的顺序将数据发送到Reducer
大数据知识搬运工
·
2025-05-21 18:03
spark学习
spark
大数据
分布式
spark
调度系统核心组件
Spark
Context、DAGSchedul、TaskScheduler介绍
目录1.
Spark
Context2.DAGScheduler3.TaskScheduler4.协作关系5TaskSet的定义1.
大数据知识搬运工
·
2025-05-21 18:33
spark学习
spark
ajax
javascript
TasksetManager冲突导致
Spark
Context异常关闭
背景介绍当正在悠闲敲着代码的时候,业务方兄弟反馈接收到大量线上运行的
spark
streaming任务的告警短信,查看应用的web页面信息,发现
spark
应用已经退出了,第一时间拉起线上的应用,再慢慢的定位故障原因
liujianhuiouc
·
2025-05-21 18:30
spark
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他