E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark*hadoop学习
元戎启行最新战略RoadAGI:所有移动智能体都将被AI驱动
会上,公司CEO周光发表了技术主题演讲,展示了公司的最新战略布局RoadAGI,并发布道路通用人工智能平台——AI
Spark
(以下简称”
Spark
平台”)。
·
2025-03-19 16:16
量子位
Spark
SQL编程-RDD、DataFrame、DataSet
三者之间的关系在
Spark
SQL中
Spark
为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?
早拾碗吧
·
2025-03-19 14:24
Spark
spark
hadoop
大数据
sparksql
How
Spark
Read Sftp Files from Hadoop SFTP FileSystem
GradleDependenciesimplementation('org.apache.
spark
:
spark
-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j
IT•轩辕
·
2025-03-19 13:18
Cloudy
Computation
spark
hadoop
大数据
py
spark
遇到**Py4JJavaError** Traceback (most recent call last) ~\AppData\
1401292359.pyin---->1feat_df.show(5,vertical=True)D:\Anaconda3\envs\recall-service-cp4\lib\site-packages\py
spark
2pi
·
2025-03-19 12:44
spark
python
中电金信25/3/18面前笔试(需求分析岗+数据开发岗)
MapReduce
Spark
StormFlink解析:Hadoop的核心组件是HDFS(分布式文件系统)和MapReduce(分布式计算框架)。
苍曦
·
2025-03-19 12:43
需求分析
前端
javascript
Spark
集群启动与关闭
Hadoop集群和
Spark
的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启
陈沐
·
2025-03-18 23:17
spark
spark
hadoop
big
data
Spark
解析_
spark
.
spark
Context.getConf().getAll()
spark
.
spark
Context.getConf().getAll()是Apache
Spark
中的一段代码,用于获取当前
Spark
应用程序的所有配置项及其值。
闯闯桑
·
2025-03-18 21:03
spark
大数据
分布式
Pandas与Py
Spark
混合计算实战:突破单机极限的智能数据处理方案
Py
Spark
虽能处理PB级数据,但在开发效率和局部计算灵活性上存在不足。
Eqwaak00
·
2025-03-18 19:52
Pandas
pandas
学习
python
科技
开发语言
自定义
Spark
启动的metastore_db和derby.log生成路径
1.进入安装
spark
目录的conf目录下2.复制
spark
-defaults.conf.template文件为
spark
-defaults.conf3.在
spark
-defaults.conf文件的末尾添加一行
节昊文
·
2025-03-18 15:53
spark
大数据
分布式
介绍 Apache
Spark
的基本概念和在大数据分析中的应用
Apache
Spark
是一个开源的集群计算框架,最初由加州大学伯克利分校的AMPLab开发,用于大规模数据处理和分析。
佛渡红尘
·
2025-03-18 13:31
apache
从“笨重大象”到“敏捷火花”:Hadoop与
Spark
的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与
Spark
的大数据技术进化之路说起大数据技术,Hadoop和
Spark
可以说是这个领域的两座里程碑。
Echo_Wish
·
2025-03-18 12:57
大数据
大数据
hadoop
spark
Hive 与
Spark
SQL 的语法差异及性能对比
在大数据处理领域,Hive和
Spark
SQL都是极为重要的工具,它们为大规模数据的存储、查询和分析提供了高效的解决方案。
自然术算
·
2025-03-18 09:22
Hive
hive
hadoop
大数据
spark
Spark
任务读取hive表数据导入es
使用elasticsearch-hadoop将hive表数据导入es,超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建
spark
conf
小小小小小小小小小小码农
·
2025-03-17 18:25
hive
elasticsearch
spark
java
Spark
sql 中row的用法
在Apache
Spark
中,Row是一个表示一行数据的类。它是
Spark
SQL中DataFrame或Dataset的基本数据单元。
闯闯桑
·
2025-03-17 18:53
spark
sql
大数据
开发语言
Spark
Sql 简单校验的实现
在网上参考了很多资料,都是要依赖
Spark
session,这个需要
spark
环境,非常不友好,jdk版本也不好控制。
小小小小小小小小小小码农
·
2025-03-17 17:50
spark
sql
java
Py
Spark
安装及WordCount实现(基于Ubuntu)
在Ubuntu上安装Py
Spark
并实现WordCount,需要以下步骤:安装Py
Spark
:安装Java:Py
Spark
需要Java运行环境。
uui1885478445
·
2025-03-17 12:11
ubuntu
linux
运维
大数据手册(
Spark
)--
Spark
安装配置
若安装包下载缓慢,可复制链接到迅雷下载,亲测极速~准备工作
Spark
的安装过程较为简单,在已安装好Hadoop的前提下,经过简单配置即可使用。
WilenWu
·
2025-03-16 20:09
数据分析(Data
Analysis)
大数据
spark
分布式
国内外AI搜索产品盘点
序号AISearch产品名简介网站开发者1Perplexity强大的对话式AI搜索引擎https://www.perplexity.aiPerplexity2Gen
spark
AIAgent搜索引擎https
Suee2020
·
2025-03-16 11:38
人工智能
HIVE开窗函数
面试高频考点——HIVE开窗函数(基础篇)目录标题ETL,SQL面试高频考点——HIVE开窗函数(基础篇)一,窗口函数介绍二,开窗函数三,分析函数分类1,排序分析函数:实列解析对比总结2.聚合分析函数3.用
spark
Cciccd
·
2025-03-16 02:31
sql
hive
Hive MR &
Spark
& Yarn参数优化总结
一、hivemr参数调优:sethive.optimize.ppd=true;--开启谓词下推。--动态分区参数sethive.exec.mode.local.auto=true;sethive.exec.dynamic.partition.mode=nonstrict;--默认是strict,表示至少有一个静态分区,nonstri
大数据侠客
·
2025-03-16 02:31
hive相关问题汇总及解决
hive
spark
mr
yarn
参数
优化
Spark
中创建 DataFrame 的2种方式对比
spark
.createDataFrame(data).toDF("name","age")和
spark
.createDataFrame(
spark
.
spark
Context.parallelize(data
闯闯桑
·
2025-03-15 20:20
spark
大数据
分布式
scala
python手写kmeans算法
kmean聚类是最基础和常见的算法,工程上使用比较常见,
spark
,sklearn都有实现,本文手写实现kmeans#!
菜鸟懿
·
2025-03-15 09:26
机器学习
聚类
算法
python
数据分析大数据面试题大杂烩01
处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时
SPARK
爱学习的菜鸟罢了
·
2025-03-15 09:19
大数据
flink
大数据
面试
hive
hadoop
kafka
doris:SQL 方言兼容
提示从2.1版本开始,Doris可以支持多种SQL方言,如Presto、Trino、Hive、PostgreSQL、
Spark
、Clickhouse等等。
向阳1218
·
2025-03-15 01:07
大数据
doris
25年大数据开发省赛样题第一套,离线数据处理答案
省赛样题一,数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算,在题目中要求进行全量抽取,并新增etl-date字段进行分区,日期为比赛前一天importorg.apache.
spark
.sql.
Spark
Sessionimportjava.util.PropertiesobjectTask1
Tometor
·
2025-03-15 00:01
大数据
spark
scala
spark
ML入门,通俗解释机器学习的框架和算法
一、机器学习的整体框架(类比烹饪)假设你要做一道菜,机器学习的过程可以类比为:步骤-->烹饪类比-->机器学习对应1.确定目标|想做什么菜(红烧肉/沙拉)|明确任务(分类/回归/聚类)2.准备食材|买菜、洗菜、切菜|数据收集与预处理3.设计食谱|决定烹饪步骤和调料|选择算法和模型设计4.试做并尝味道|调整火候和调味|模型训练与调参5.最终成品|端上桌的菜|模型部署与应用二、机器学习的核心流程1.数
Tometor
·
2025-03-13 11:53
spark-ml
机器学习
算法
回归
数据挖掘
人工智能
scala
大数据面试之路 (三) mysql
将
Spark
SQL加工后的数据存入MySQL通常基于以下几个关键原因:1.数据应用场景适配OLTP与OLAP分工:
Spark
SQL擅长处理大数据量的OLAP(分析型)任务,而MySQL作为OLTP(事务型
愿与狸花过一生
·
2025-03-12 16:38
大数据
面试
职场和发展
如何使用
Spark
LLM 进行自然语言处理
iFLYTEK开发的
Spark
LLM便是这样一个大规模认知模型。通过学习大量文本、代码和图像,
Spark
LLM能够理解和执行基于自然对话的任务。
shuoac
·
2025-03-12 04:36
python
RDD 行动算子
在Apache
Spark
中,RDD(弹性分布式数据集)是核心数据结构之一。行动算子会触发实际的计算并返回结果或执行某些操作。
阿强77
·
2025-03-12 03:02
RDD
Spark
讲一下
Spark
的shuffle过程
首先
Spark
的shuffle是
Spark
分布式集群计算的核心。
Spark
的shuffle可以从shuffle的阶段划分,shuffle数据存储,shuffle的数据拉取三个方面进行讲解。
冰火同学
·
2025-03-11 20:29
Spark
spark
大数据
分布式
Spark
常见面试题目(1)
Spark
有哪几种部署的方式,谈谈方式都有哪些特点第一种是local本地部署,通常就是一台机器用于测试。
冰火同学
·
2025-03-11 20:58
Spark
spark
面试
大数据
Spark
数据倾斜的问题
Spark
数据倾斜业务背景
Spark
数据倾斜表现
Spark
的数据倾斜,包括
Spark
Streaming和
Spark
SQL,表现主要有下面几种:1、Excutorlost,OOM,Shuffle过程出错2
冰火同学
·
2025-03-11 20:58
Spark
spark
大数据
分布式
Py
Spark
实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析
编写Py
Spark
代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段,一个度量字段的数据,根据这两个维度字段的数据分组统计,计算度量字段的数据的分组总计值
weixin_30777913
·
2025-03-11 19:55
python
spark
数据分析
云计算
Hadoop、
Spark
和 Hive 的详细关系
Hadoop、
Spark
和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架,用于分布式存储和处理大规模数据集。
夜行容忍
·
2025-03-11 18:46
hadoop
spark
hive
大数据技术生态圈:Hadoop、Hive、
Spark
的区别和关系
大数据技术生态圈:Hadoop、Hive、
Spark
的区别和关系在大数据领域中,Hadoop、Hive和
Spark
是三个常用的开源技术,它们在大数据处理和分析方面发挥着重要作用。
雨中徜徉的思绪漫溢
·
2025-03-11 17:07
大数据
hadoop
hive
大数据面试之路 (一) 数据倾斜
Spark
/MapReduce作业卡在某个阶段(如reduce阶段),日志显示少数Task处理大量数据。资源利用率不均衡(如CPU、内存集中在某些节点)。
愿与狸花过一生
·
2025-03-11 17:34
大数据
面试
职场和发展
scala针对复杂数据源导入与分隔符乱码处理
和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时(如,、|、\t混合使用),可采用以下方法:1.1动态检测分隔符//示例:自动检测前100行的常用分隔符valsampleLines=
spark
.read.text
Tometor
·
2025-03-11 11:45
scala
javascript
后端
java
数据结构
Spark
-TTS:基于大模型的文本语音合成工具
GitHub:https://github.com/
Spark
Audio/
Spark
-TTS
Spark
-TTS是一个先进的文本到语音系统,它利用大型语言模型(LLM)的强大功能进行高度准确和自然的语音合成
CITY_OF_MO_GY
·
2025-03-10 13:35
魅力语音
语音识别
深度学习
人工智能
数据湖架构与实时数仓实践:Hudi、Iceberg、Kafka + Flink +
Spark
1.引言:数据湖与数据仓库的融合趋势在大数据时代,传统的数据仓库(DataWarehouse,DW)因其强一致性和高效查询能力,一直是企业数据分析的核心。然而,随着数据量和数据类型的爆炸式增长,传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题,数据湖(DataLake)概念应运而生。数据湖能够存储原始数据,支持半结构化和非结构化数据,提供更灵活的计算框架,但其缺乏事务管理和数据一致性
晴天彩虹雨
·
2025-03-10 03:22
架构
kafka
flink
数据仓库
大数据实战:
Spark
+ Hive 逐笔计算用户盈亏
简介本文将通过使用
Spark
+Hive实现逐笔计算区块链上用户交易数据的盈亏需求。
WuJiWeb3
·
2025-03-10 00:56
区块链链上数据分析
从0到1搭建区块链大数据平台
spark
hive
大数据
web3
区块链
hadoop
分布式计算入门(Py
Spark
处理NASA服务器日志)
目录分布式计算入门(Py
Spark
处理NASA服务器日志)1.引言2.分布式计算概述2.1分布式计算的基本概念2.2Apache
Spark
与Py
Spark
3.NASA服务器日志数据集介绍3.1数据背景3.2
闲人编程
·
2025-03-09 19:16
Python数据分析实战精要
服务器
运维
统计分析
日志
NASA服务器
分布式计算
PySpark
Apache
Spark
: 大数据处理的利器对比与应用实例
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学,从基础到精通不断进阶深入,后续还有实战项目,轻松应对面试,专栏订阅地址:https://blog.csdn.net/mrdeam/category_12647587.html优点:订阅限时19.9付费专栏,私信博主还可进入全栈VIP答疑群,作者优先解答机会(代码指导、远程服务),群里大佬众多可以
步入烟尘
·
2025-03-09 19:45
Python超入门指南全册
apache
spark
大数据
spark
yum配置
yum配置Yum是一个linux工具,用来从网络上下载安装软件到CentOS操作系统中。先要确保虚拟机的网络是通畅的。(1)查看源yum中的源是指它从哪里去下载软件。把yum想象成你自己开的一家商场,那么yum的源就是你的供货商。通过yumrepolist命令可以去查看当前的供货商信息。(如果显示源信息是mirrorlist.centos.org(默认源),那就不能使用了。这个源已经失效了,就是你
Amu_Yalo
·
2025-03-09 19:42
spark
Hadoop、
Spark
、Flink Shuffle对比
一、Hadoop的shuffle前置知识:Map任务的数量由Hadoop框架自动计算,等于分片数量,等于输入文件总大小/分片大小,分片大小为HDFS默认值128M,可调Reduce任务数由用户在作业提交时通过Job.setNumReduceTasks(int)设置数据分配到Reduce任务的时间点,在Map任务执行期间,通过Partitioner(分区器)确定每个键值对的目标Reduce分区。默认
逆袭的小学生
·
2025-03-09 10:55
hadoop
spark
flink
Scala_
Spark
_RDD_parttwo
只做记录不展示结果(部分结果放在了代码的注释中):package
spark
_rddimportorg.apache.
spark
.sql.
Spark
Sessionobjectrdd_fiveextendsApp
Gadaite
·
2025-03-09 07:53
Spark基础
scala
spark
big
data
Spark
scala api(一)RDD编程
基础初始化
spark
valconf=new
Spark
Conf().setAppName("wordcount")valsc=new
Spark
Context(conf)转化操作和行动操作的区别在于
spark
weixin_42521881
·
2025-03-09 07:50
spark学习
Scala 中生成一个RDD的方法
在Scala中,生成RDD(弹性分布式数据集)的主要方法是通过
Spark
Context(或
Spark
Session)提供的API。
闯闯桑
·
2025-03-09 06:35
scala
开发语言
大数据
大数据Flink(六十四):Flink运行时架构介绍_flink中涉及到的大数据组件
从以Greenplum为代表的MPP(MassivelyParallelProcessing,大规模并行处理)架构,到Hadoop、
Spark
为代表的批处理架构,再到Storm、Flink为代表的流处理架构
2401_84181942
·
2025-03-09 03:39
程序员
大数据
flink
架构
大数据运维实战指南:零基础入门与核心技术解析(第一篇)
)系列文章目录第一篇:大数据运维概述与核心技能体系第二篇:Hadoop生态体系与集群部署实战第三篇:分布式存储系统运维与优化第四篇:资源调度框架YARN/K8s深度解析第五篇:实时计算框架Flink/
Spark
emmm形成中
·
2025-03-09 01:19
大数据
运维
spark
集群,kafka集群和zookeeper的docker集群快速搭建
准备操作安装docker(宿主机)yuminstalldocker(宿主机时centos用yum管理包)systemctldaemon-reload(重加载deamon服务,是docker的核心)systemctlrestartdocker.service(重启docker服务)docker常用命令dockerps-a查看所有容器dockersearchUbuntu寻找Ubuntu的镜像docke
醉与浮
·
2025-03-08 15:05
tools
docker
spark
kafka
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他