E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop;Spark
Spark
Context的初始化
Spark
Context的初始化步骤如下:1创建
Spark
执行环境
Spark
Env1.2什么是
Spark
Env?
张之海
·
2025-05-21 17:00
Spark
SparkContext
源码
构造
详解
在
hadoop
中实现序列化与反序列化
在
Hadoop
分布式计算环境中,序列化与反序列化是数据处理的核心机制之一。
谁偷了我的炒空心菜
·
2025-05-21 17:28
hadoop
eclipse
大数据
开发语言
Hadoop
hadoop
.tmp.dir这个路径是干什么的
hadoop
官网给的提示可知,这个路径是一切路径的基石,比如跑MR时生成的临时路径本质上其实就是生成在它的下面,当然如果你不想也可以去更改mapred-site.xml文件再比如,如果你不配置namenode
尘世壹俗人
·
2025-05-21 14:12
大数据Hadoop技术
编程上的疑难杂症
hadoop
hadoop
.proxyuser.代理用户.授信域 用来干什么的
在
Hadoop
的core-site.xml文件中存在三个可选配置,如下
hadoop
.proxyuser.root.hosts*
hadoop
.proxyuser.root.groups*<name
尘世壹俗人
·
2025-05-21 14:40
编程上的疑难杂症
大数据Hadoop技术
hadoop
大数据
分布式
手把手教你搭建
Hadoop
Namenode 高可用集群(HA)
路径一致性:所有节点的
Hadoop
安装路径、数据目录需完全一致。端口冲突:检查9820、9870、8485等端口是否被占用。ZooKeeper集群:确保ZK集群稳定运行,至少3个节点避免脑裂。
线条1
·
2025-05-21 12:27
hadoop
大数据
分布式
hadoop
集群搭建-克隆虚拟机,安装jdk,
hadoop
2.2
hadoop
运行环境的搭建2.2.1环境准备1)安装模板虚拟机,IP地址192.168.10.100,主机名
hadoop
100,内存41GB,硬盘50GB2)虚拟机配置首先测试虚拟机是否可以正常上网
花不完根本花不完
·
2025-05-21 11:16
大数据
hadoop
java
linux
spark
自定义分区器实现
前言:为什么我们要进行自定义分区当
spark
进行数据处理key-value类型数据时,会遇到数据由于key值的分布不均倾斜的情况,为了使得资源的合理布置我们会进行重分区,根据
spark
内部提供的分区器HashPartitioner
盈欢
·
2025-05-21 00:39
大数据
hive
big
data
maven
spark
自定义分区器
*模仿自带分区器,自定义分区器*自定义,哪个分区放什么数据*/objectTest{defmain(args:Array[String]):Unit={val
spark
Conf=new
Spark
Conf
月笼纱lhz
·
2025-05-21 00:39
spark大数据分析
spark
big
data
Spark
_自定义分区器
自定义分区器:继承Partitioner重写方法val
spark
Conf:
Spark
Conf=new
Spark
Conf().setMaster("local[*]").setAppName("
spark
EmoGP
·
2025-05-21 00:38
Spark
spark
javascript
ajax
Spark
中自定义分区器实现shuffle
Spark
中实现了两种类型的分区函数,一个是基于哈希的HashPartitioner,另外一个是基于范围的RangPartitioner。
自由幻想的人儿
·
2025-05-21 00:38
spark
Spark自定义分区器
Partitioner
URL对象转换
Spark
自定义分区器
packagetest.wyh.wordcountimportorg.apache.
spark
.
QYHuiiQ
·
2025-05-21 00:08
大数据之Spark
spark
大数据
分布式
spark
的处理过程-转换算子和行动算子
(一)RDD的处理过程【老师讲授,画图】
Spark
使用Scala语言实现了RDD的API,程序开发者可以通过调用API对RDD进行操作处理。
Eternity......
·
2025-05-21 00:37
大数据
spark
linux下载py
spark
并修改默认python版本
使用deadsnakesPPA(适用于旧版Ubuntu)如果官方仓库没有Python3.8,可通过第三方PPA安装。步骤1:添加PPA仓库bash复制下载sudoadd-apt-repositoryppa:deadsnakes/ppasudoaptupdate步骤2:安装Python3.8bash复制下载sudoaptinstallpython3.8设置Python3.8为默认版本(可选)如果需要
yishan_3
·
2025-05-20 18:30
chrome
前端
【大数据、数据开发与数据分析面试题汇总(含答案)】
试题目录大数据、数据开发与数据分析高频面试题解析1.数据仓库分层架构设计2.维度建模与范式建模的区别3.MapReduce的Shuffle阶段详解4.Hive数据倾斜的优化方法5.
Spark
比MapReduce
花架ギ
·
2025-05-20 17:26
数分数开
数据分析
数据挖掘
数据开发
面试试题
Spark
处理过程-转换算子和行动算子
这种惰性计算的方式可以让
Spark
对操作进行优化,例如合并多个转换操作,减少数据的传输和处理量。行动算子行动算子是立即执行的。
zxfgdjfjfjflfllf
·
2025-05-20 10:40
spark
大数据
分布式
谷歌 NotebookLM 即将推出
Spark
s 视频概览:Gemini 与 Deep Research 加持,可生成 1 - 3 分钟 AI 视频
近期,谷歌旗下的NotebookLM即将推出一项令人瞩目的新功能——
Spark
s视频概览。
Icoolkj
·
2025-05-20 09:09
人工智能
人工智能
音视频
计算机视觉
Spark
--->转换算子
Spark
--->转换算子flatMap:数据的拆分、转换(一对多)map:转换(一对一)filter:过滤算子sort:排序算子mapPartitionsmapPartitionsWithIndexsample
飝鱻.
·
2025-05-20 09:08
Spark
spark
大数据
hadoop
java
Spark
SQL数据提取和保存
11,name,age12,xiaoming,2413,小花,19importorg.apache.
spark
.sql.
Spark
Sessionimportjav
古拉拉明亮之神
·
2025-05-20 09:06
大数据
spark
Spark
SQL 之 Analyzer
Spark
SQL之Analyzer//SpecialcaseforProjectasitsupportslateralcolumnalias.casep:Project=>valresolvedNoOuter
zhixingheyi_tian
·
2025-05-20 07:22
spark
spark
sql
大数据
Scala与
Spark
:原理、实践与技术全景详解
Scala与
Spark
:原理、实践与技术全景详解一、引言在大数据与分布式计算领域,Apache
Spark
已成为事实标准的计算引擎,而Scala作为其主要开发语言,也逐渐成为数据工程师和后端开发者的必备技能
北漂老男人
·
2025-05-20 06:20
Spark
scala
spark
开发语言
大数据
学习方法
Spark
SQL基本操作
以下是
Spark
SQL的基本操作总结,涵盖数据读取、转换、查询、写入等核心功能:一、初始化
Spark
Sessionscalaimportorg.apache.
spark
.sql.
Spark
Sessionval
spark
Eternity......
·
2025-05-20 06:16
spark
大数据
HDFS分布式文件系统
HDFS(
Hadoop
DistributedFileSystem)是Apache
Hadoop
框架的核心组件之一,是一种分布式文件系统,专为处理大规模数据集在廉价硬件上运行而设计。
Wlq0415
·
2025-05-20 00:03
信息化与大数据
hdfs
hadoop
大数据
Hive数据库操作
createdatabasechengzhi;如果出现如下错误:hive>createdatabasedb_hive;FAILED:ExecutionError,returncode1fromorg.apache.
hadoop
.hive.ql.exec.DDLTask.Databasedb_hivealreadyexiSts
干饭小龚
·
2025-05-19 22:20
hive
数据库
hadoop
梦开始的地方(Java)
Java能干啥:手机游戏,安卓开发,桌面游戏开发,大数据分析平台(
Hadoop
)。
漂泊老猫
·
2025-05-19 19:56
Java后端
java
开发语言
关于
Spark
Shell的使用
Spark
带有交互式的Shell,可在
Spark
Shell中直接编写
Spark
任务,然后提交到集群与分布式数据进行交互,并且可以立即查看输出结果。
2301_78557870
·
2025-05-19 16:37
spark
大数据
分布式
Spark
缓存-persist
importorg.apache.
spark
.storage.StorageLevelimportorg.apache.
spark
.
帅气而伟大
·
2025-05-19 15:34
spark
缓存
大数据
Spark
,数据提取和保存
以下是使用
Spark
进行数据提取(读取)和保存(写入)的常见场景及代码示例(基于Scala/Java/Python,不含图片操作):一、数据提取(读取)1.读取文件数据(文本/CSV/JSON/Parquet
Freedom℡
·
2025-05-19 15:03
数据库
spark
hadoop
Spark
处理过程----行动算子
行动算子是触发
Spark
计算的“触发点”,因为
Spark
的RDD是懒惰计算的,只有在执行行动算子时,才会真正开始计算。行动算子中的常见算子:1.collect算子作用:用于将分布式存储在集群中各个节点
小萌新~~~~
·
2025-05-19 15:33
spark
大数据
分布式
spark
缓存--cache和persist
importorg.apache.
spark
.storage.StorageLevelimportorg.apache.
spark
.
刘翔在线犯法
·
2025-05-19 15:03
spark
缓存
大数据
李开复:苹果发布AI应用的价值
recently,ApplehasannouncedaseriesofAIapplicationsthathave
spark
edwidespreadinterestanddiscussionintheindustry.Thi
AGI大模型与大数据研究院
·
2025-05-19 13:18
AI大模型应用开发实战
java
python
javascript
kotlin
golang
架构
人工智能
【人工智能】
Hadoop
和
Spark
使用教程
目录一、
Hadoop
使用教程1.1安装
Hadoop
1.2启动
Hadoop
服务1.3使用HDFS1.4编写MapReduce程序二、
Spark
使用教程2.1安装
Spark
2.2启动
Spark
服务2.3使用
大雨淅淅
·
2025-05-19 06:29
人工智能
人工智能
hadoop
spark
【
Spark
】使用
Spark
集群搭建-Standalone
以下是使用
Spark
Standalone模式搭建集群的详细步骤:环境准备集群规划假设有3台服务器:主节点(Master):
spark
-master(192.168.1.100)工作节点(Worker):
元633
·
2025-05-19 03:43
spark
大数据
HDFS与MapReduce
HDFS(
Hadoop
DistributedFileSystem)和MapReduce是Apache
Hadoop
生态系统中的两个核心组件,它们共同支持大规模数据处理和存储。
CoderIsArt
·
2025-05-18 22:09
架构设计研究
hdfs
mapreduce
hadoop
【MapReduce】一个完整MR程序案例教你如何用IDEA打包及运行
我们假设已经安装配置好了
Hadoop
。我们要做的就是在IDEA里写MapReduce代码并打包后放到我们的集群上执行。
大数据技术部落
·
2025-05-18 21:09
HDFS全方位实战
计算引擎
HBase全方位实战
mapreduce
Standalone模式介绍
Spark
Standalone是Apache
Spark
自带的集群管理器,无需依赖外部系统(如
Hadoop
YARN或Kubernetes),可直接部署
Spark
集群。
姬激薄
·
2025-05-18 21:36
spark
mapreduce
(一)MapReduce基本介绍MapReduce是一个分布式运算程序的编程框架,是用户开发“基于
Hadoop
的数据分析应用”的核心框架。
懒羊羊大王-O
·
2025-05-18 21:06
前端
MapReduce打包运行
例如,一个简单的WordCount程序:javaimportjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.
hadoop
.conf.Configuration
姬激薄
·
2025-05-18 21:36
mapreduce
大数据
spark
mysql多表查询_scala
spark
2.0
spark
sql 连接mysql8.0 操作多表 使用 dataframe 及RDD进行数据处理...
1、配置文件packageconfigimportorg.apache.
spark
.sql.
Spark
Sessionimportorg.apache.
spark
.
驴放屁
·
2025-05-18 20:58
spark
mysql多表查询
【ERROR: org.apache.
hadoop
.hbase.PleaseHoldException: Master is initializi】HBase单机模式意外退出导致后续创建崩溃的解决方法
错误提示信息如下ERROR:org.apache.
hadoop
.hbase.PleaseHoldException:Masterisinitializing错误背景错误原因:按照林子雨的大数据教程搭建好
一只程序猿林
·
2025-05-18 20:58
hbase
hadoop
apache
Hive组成架构和工作原理
ApacheHive是一个基于
Hadoop
的数据仓库工具,主要用于处理和分析大规模结构化数据。
Cynthiaaaaalxy
·
2025-05-18 19:18
hive
架构
hadoop
运行一个mapreduce实例
importjava.io.IOException;importjava.util.Iterator;importjava.util.StringTokenizer;importorg.apache.
hadoop
.conf.Configuration
有梦想的人运气不太差
·
2025-05-18 08:35
Hadoop
mapreduce
实例
Hadoop
之MapReduce命令
概述所有的
Hadoop
命令都通过bin/mapred脚本调用。在没有任何参数的情况下,运行mapred脚本将打印该命令描述。
iteye_14970
·
2025-05-18 08:32
大数据
java
c/c++
Spark
SQL-数据提取和保存
在mysql中创建数据表,特别注意字符编码的问题编写
spark
代码:读入csv文件到dataFramedataFrame做数据筛选dataFrame做数据写入到mysql(三)核心步骤1.在mysql中创建数据表
心碎土豆块
·
2025-05-18 07:59
spark中的问题分析
大数据
ide
Spark
SQL操作Mysql
(一)准备mysql环境我们计划在
hadoop
001这台设备上安装mysql服务器,(当然也可以重新使用一台全新的虚拟机)。
心碎土豆块
·
2025-05-18 07:59
spark中的问题分析
mysql
adb
数据库
hadoop
中创建MySQL新数据库数据表
在
Hadoop
环境中创建MySQL数据库和数据表,通常需要通过MySQL命令行工具来完成,而不是直接在
Hadoop
中操作。以下是具体步骤:1.登录MySQL首先,需要登录到MySQL服务器。
rylshe1314
·
2025-05-18 04:31
hadoop
mysql
Spark
---宽窄依赖
RDD论文:第11页原文摘录Thisdistinctionisusefulfortworeasons.First,narrowdependenciesallowforpipelinedexecutionononeclusternode,whichcancomputealltheparentpartitions.Forexample,onecanapplyamapfollowedbyafiltero
Shall潇
·
2025-05-18 04:31
spark
spark
Spark
大数据分析案例
目录案例概述环境搭建1.
Spark
单机环境2.
Spark
集群环境数据集数据预处理
Spark
作业编写提交
Spark
作业数据可视化可能遇到的问题及解决方法1.数据导入失败2.内存不足3.集群节点失效4.数据倾斜问题
闲人编程
·
2025-05-18 04:30
大数据集群部署教程
spark
数据分析
大数据
单机
集群
探索高效流处理利器:
Spark
-Util_1.6
探索高效流处理利器:
Spark
-Util_1.6去发现同类优质开源项目:https://gitcode.com/在这个大数据时代,实时数据处理成为核心竞争力之一。
明俪钧
·
2025-05-18 04:30
Spark
自定义分区器-基础
在
Spark
中,RDD(弹性分布式数据集)的分区器决定了数据在各个分区的分布方式。
睎zyl
·
2025-05-18 04:30
spark
大数据
分布式
【
Spark
】-- DAG 和宽窄依赖的核心
目录
Spark
DAG和宽窄依赖的核心一、什么是DAG?
oo寻梦in记
·
2025-05-18 04:00
Apache
Spark
spark
大数据
分布式
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他