E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark编程入门
数据分析大数据面试题大杂烩01
处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时
SPARK
爱学习的菜鸟罢了
·
2025-03-15 09:19
大数据
flink
大数据
面试
hive
hadoop
kafka
doris:SQL 方言兼容
提示从2.1版本开始,Doris可以支持多种SQL方言,如Presto、Trino、Hive、PostgreSQL、
Spark
、Clickhouse等等。
向阳1218
·
2025-03-15 01:07
大数据
doris
25年大数据开发省赛样题第一套,离线数据处理答案
省赛样题一,数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算,在题目中要求进行全量抽取,并新增etl-date字段进行分区,日期为比赛前一天importorg.apache.
spark
.sql.
Spark
Sessionimportjava.util.PropertiesobjectTask1
Tometor
·
2025-03-15 00:01
大数据
spark
scala
Ubuntu18.04系统新手入门
Ubuntu之灵魂:命令行语句常用启动终端的方法:我的Ubuntu18.04系统入门下载支持Linux系统的deb文件并安装Linux文件管理对比Windows系统常用Linux系统快捷键Ubuntu
编程入门
第一个
糖糖不是堂
·
2025-03-13 21:35
ubuntu
linux
ubuntu
解析 | 为什么我学了Python还是不会编程
前言Python是一门使用非常广泛的语言,很容易入门,也被大家首推为
编程入门
的最佳语言。知数堂有幸邀请到DevOps开发专业人士:章文炳老师,和他一块聊了一下学习Python的一些疑惑。
小知_知数堂
·
2025-03-13 14:46
python
spark
ML入门,通俗解释机器学习的框架和算法
一、机器学习的整体框架(类比烹饪)假设你要做一道菜,机器学习的过程可以类比为:步骤-->烹饪类比-->机器学习对应1.确定目标|想做什么菜(红烧肉/沙拉)|明确任务(分类/回归/聚类)2.准备食材|买菜、洗菜、切菜|数据收集与预处理3.设计食谱|决定烹饪步骤和调料|选择算法和模型设计4.试做并尝味道|调整火候和调味|模型训练与调参5.最终成品|端上桌的菜|模型部署与应用二、机器学习的核心流程1.数
Tometor
·
2025-03-13 11:53
spark-ml
机器学习
算法
回归
数据挖掘
人工智能
scala
大数据面试之路 (三) mysql
将
Spark
SQL加工后的数据存入MySQL通常基于以下几个关键原因:1.数据应用场景适配OLTP与OLAP分工:
Spark
SQL擅长处理大数据量的OLAP(分析型)任务,而MySQL作为OLTP(事务型
愿与狸花过一生
·
2025-03-12 16:38
大数据
面试
职场和发展
学习笔记 -《量子计算与
编程入门
》- 量子程序
文章目录1量子计算原理1.1酉变换1.2矩阵的指数函数1.3单量子比特逻辑门1.3.1泡利矩阵1.3.2常见逻辑门以及含义·Hadamard(H)门·Pauli-X门·Pauli-Y门·Pauli-Z门·旋转门(rotationoperators)1.4多量子比特逻辑门·控制非门(Control-NOT)(CNOT门)·控制相位门(Controlledphasegate)(CR/CPhase门)·
诸葛思颖
·
2025-03-12 05:18
量子计算与编程入门
机器学习
如何使用
Spark
LLM 进行自然语言处理
iFLYTEK开发的
Spark
LLM便是这样一个大规模认知模型。通过学习大量文本、代码和图像,
Spark
LLM能够理解和执行基于自然对话的任务。
shuoac
·
2025-03-12 04:36
python
RDD 行动算子
在Apache
Spark
中,RDD(弹性分布式数据集)是核心数据结构之一。行动算子会触发实际的计算并返回结果或执行某些操作。
阿强77
·
2025-03-12 03:02
RDD
Spark
讲一下
Spark
的shuffle过程
首先
Spark
的shuffle是
Spark
分布式集群计算的核心。
Spark
的shuffle可以从shuffle的阶段划分,shuffle数据存储,shuffle的数据拉取三个方面进行讲解。
冰火同学
·
2025-03-11 20:29
Spark
spark
大数据
分布式
Spark
常见面试题目(1)
Spark
有哪几种部署的方式,谈谈方式都有哪些特点第一种是local本地部署,通常就是一台机器用于测试。
冰火同学
·
2025-03-11 20:58
Spark
spark
面试
大数据
Spark
数据倾斜的问题
Spark
数据倾斜业务背景
Spark
数据倾斜表现
Spark
的数据倾斜,包括
Spark
Streaming和
Spark
SQL,表现主要有下面几种:1、Excutorlost,OOM,Shuffle过程出错2
冰火同学
·
2025-03-11 20:58
Spark
spark
大数据
分布式
Py
Spark
实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析
编写Py
Spark
代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段,一个度量字段的数据,根据这两个维度字段的数据分组统计,计算度量字段的数据的分组总计值
weixin_30777913
·
2025-03-11 19:55
python
spark
数据分析
云计算
Hadoop、
Spark
和 Hive 的详细关系
Hadoop、
Spark
和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架,用于分布式存储和处理大规模数据集。
夜行容忍
·
2025-03-11 18:46
hadoop
spark
hive
大数据技术生态圈:Hadoop、Hive、
Spark
的区别和关系
大数据技术生态圈:Hadoop、Hive、
Spark
的区别和关系在大数据领域中,Hadoop、Hive和
Spark
是三个常用的开源技术,它们在大数据处理和分析方面发挥着重要作用。
雨中徜徉的思绪漫溢
·
2025-03-11 17:07
大数据
hadoop
hive
大数据面试之路 (一) 数据倾斜
Spark
/MapReduce作业卡在某个阶段(如reduce阶段),日志显示少数Task处理大量数据。资源利用率不均衡(如CPU、内存集中在某些节点)。
愿与狸花过一生
·
2025-03-11 17:34
大数据
面试
职场和发展
scala针对复杂数据源导入与分隔符乱码处理
和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时(如,、|、\t混合使用),可采用以下方法:1.1动态检测分隔符//示例:自动检测前100行的常用分隔符valsampleLines=
spark
.read.text
Tometor
·
2025-03-11 11:45
scala
javascript
后端
java
数据结构
Spark
-TTS:基于大模型的文本语音合成工具
GitHub:https://github.com/
Spark
Audio/
Spark
-TTS
Spark
-TTS是一个先进的文本到语音系统,它利用大型语言模型(LLM)的强大功能进行高度准确和自然的语音合成
CITY_OF_MO_GY
·
2025-03-10 13:35
魅力语音
语音识别
深度学习
人工智能
数据湖架构与实时数仓实践:Hudi、Iceberg、Kafka + Flink +
Spark
1.引言:数据湖与数据仓库的融合趋势在大数据时代,传统的数据仓库(DataWarehouse,DW)因其强一致性和高效查询能力,一直是企业数据分析的核心。然而,随着数据量和数据类型的爆炸式增长,传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题,数据湖(DataLake)概念应运而生。数据湖能够存储原始数据,支持半结构化和非结构化数据,提供更灵活的计算框架,但其缺乏事务管理和数据一致性
晴天彩虹雨
·
2025-03-10 03:22
架构
kafka
flink
数据仓库
大数据实战:
Spark
+ Hive 逐笔计算用户盈亏
简介本文将通过使用
Spark
+Hive实现逐笔计算区块链上用户交易数据的盈亏需求。
WuJiWeb3
·
2025-03-10 00:56
区块链链上数据分析
从0到1搭建区块链大数据平台
spark
hive
大数据
web3
区块链
hadoop
分布式计算入门(Py
Spark
处理NASA服务器日志)
目录分布式计算入门(Py
Spark
处理NASA服务器日志)1.引言2.分布式计算概述2.1分布式计算的基本概念2.2Apache
Spark
与Py
Spark
3.NASA服务器日志数据集介绍3.1数据背景3.2
闲人编程
·
2025-03-09 19:16
Python数据分析实战精要
服务器
运维
统计分析
日志
NASA服务器
分布式计算
PySpark
Apache
Spark
: 大数据处理的利器对比与应用实例
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学,从基础到精通不断进阶深入,后续还有实战项目,轻松应对面试,专栏订阅地址:https://blog.csdn.net/mrdeam/category_12647587.html优点:订阅限时19.9付费专栏,私信博主还可进入全栈VIP答疑群,作者优先解答机会(代码指导、远程服务),群里大佬众多可以
步入烟尘
·
2025-03-09 19:45
Python超入门指南全册
apache
spark
大数据
spark
yum配置
yum配置Yum是一个linux工具,用来从网络上下载安装软件到CentOS操作系统中。先要确保虚拟机的网络是通畅的。(1)查看源yum中的源是指它从哪里去下载软件。把yum想象成你自己开的一家商场,那么yum的源就是你的供货商。通过yumrepolist命令可以去查看当前的供货商信息。(如果显示源信息是mirrorlist.centos.org(默认源),那就不能使用了。这个源已经失效了,就是你
Amu_Yalo
·
2025-03-09 19:42
spark
Hadoop、
Spark
、Flink Shuffle对比
一、Hadoop的shuffle前置知识:Map任务的数量由Hadoop框架自动计算,等于分片数量,等于输入文件总大小/分片大小,分片大小为HDFS默认值128M,可调Reduce任务数由用户在作业提交时通过Job.setNumReduceTasks(int)设置数据分配到Reduce任务的时间点,在Map任务执行期间,通过Partitioner(分区器)确定每个键值对的目标Reduce分区。默认
逆袭的小学生
·
2025-03-09 10:55
hadoop
spark
flink
QGIS-Python
编程入门
教程
QGIS-Python
编程入门
教程qgis-python-course项目地址:https://gitcode.com/gh_mirrors/qg/qgis-python-course项目基础介绍该项目是一个开源的
戴玫芹
·
2025-03-09 09:53
Scala_
Spark
_RDD_parttwo
只做记录不展示结果(部分结果放在了代码的注释中):package
spark
_rddimportorg.apache.
spark
.sql.
Spark
Sessionobjectrdd_fiveextendsApp
Gadaite
·
2025-03-09 07:53
Spark基础
scala
spark
big
data
Spark
scala api(一)RDD编程
基础初始化
spark
valconf=new
Spark
Conf().setAppName("wordcount")valsc=new
Spark
Context(conf)转化操作和行动操作的区别在于
spark
weixin_42521881
·
2025-03-09 07:50
spark学习
Scala 中生成一个RDD的方法
在Scala中,生成RDD(弹性分布式数据集)的主要方法是通过
Spark
Context(或
Spark
Session)提供的API。
闯闯桑
·
2025-03-09 06:35
scala
开发语言
大数据
大数据Flink(六十四):Flink运行时架构介绍_flink中涉及到的大数据组件
从以Greenplum为代表的MPP(MassivelyParallelProcessing,大规模并行处理)架构,到Hadoop、
Spark
为代表的批处理架构,再到Storm、Flink为代表的流处理架构
2401_84181942
·
2025-03-09 03:39
程序员
大数据
flink
架构
大数据运维实战指南:零基础入门与核心技术解析(第一篇)
)系列文章目录第一篇:大数据运维概述与核心技能体系第二篇:Hadoop生态体系与集群部署实战第三篇:分布式存储系统运维与优化第四篇:资源调度框架YARN/K8s深度解析第五篇:实时计算框架Flink/
Spark
emmm形成中
·
2025-03-09 01:19
大数据
运维
spark
集群,kafka集群和zookeeper的docker集群快速搭建
准备操作安装docker(宿主机)yuminstalldocker(宿主机时centos用yum管理包)systemctldaemon-reload(重加载deamon服务,是docker的核心)systemctlrestartdocker.service(重启docker服务)docker常用命令dockerps-a查看所有容器dockersearchUbuntu寻找Ubuntu的镜像docke
醉与浮
·
2025-03-08 15:05
tools
docker
spark
kafka
大数据计算框架深入:
Spark
SQL、DataFrame、RDD 性能优化
1.引言Apache
Spark
是当前最流行的大数据计算框架之一,其中
Spark
SQL、DataFrame和RDD(ResilientDistributedDataset)是数据处理的三大核心API。
晴天彩虹雨
·
2025-03-08 10:48
大数据
spark
big
data
Spark
单机伪分布式环境搭建、完全分布式环境搭建、
Spark
-on-yarn模式搭建
搭建
Spark
需要先配置好scala环境。三种
Spark
环境搭建互不关联,都是从零开始搭建。如果将文章中的配置文件修改内容复制粘贴的话,所有配置文件添加的内容后面的注释记得删除,可能会报错。
遇安.YuAn
·
2025-03-06 17:06
Spark
大数据平台组件搭建
hadoop
大数据
Spark
scala
环境搭建
(一)
spark
是什么?
1.
spark
是什么?
spark
是一个用来实现快速,通用的集群计算平台
spark
适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理,迭代算法,交互式查询,流处理。
一智哇
·
2025-03-05 11:21
大数据框架学习
spark
big
data
大数据
spark
hdfs 常用命令
目录lsrmgettext以下按照使用频率和使用先后顺序排序(纯个人习惯)ls列出hdfs文件系统路径下的目录和文件hdfsdfs-ls列出hdfs文件系统路径下所有的目录和文件hdfsdfs-ls-Rrmhadoopfs-rm...hadoopfs-rm-r...每次可以删除多个文件或目录getlocalfile不能和hdfsfile名字不能相同,否则会提示文件已存在,没有重名的文件会复制到本地
毛球饲养员
·
2025-03-05 11:19
spark
spark
hdfs
常用
spark
命令
--
spark
启动localhost$
spark
-sql--masteryarn启动主节点yarn模式--查看hdfs文件hdfsdfs-ls/
spark
/myDatabase.db查看我们建的表其实是是建立在
会拉小提琴的左脚
·
2025-03-05 11:19
大数据
spark
hadoop
hdfs
Spark
详解二
八、
Spark
部署模式1、Local本地模式:运行于本地
spark
-shell--masterlocal[2](local[2]是说,执行Application需要用到CPU的2个核)2、Standalone
卢子墨
·
2025-03-05 11:13
Spark原理
实战
总结
spark
Spark
基本命令
一、
spark
所在目录cdusr/local/
spark
二、启动
spark
/usr/local/
spark
/sbin/start-all.sh启动Hadoop以及
Spark
:bash.
chenworeng5605
·
2025-03-05 10:42
大数据
scala
shell
spark
vi基本使用
打开文件与创建文件是Linux的内置命令,以命令的方式来运行。命令格式:vi/路径/文件名注意以下两种情况:1.如果这个文件不存在,此时就是新建文件,编辑器的左下角会提示:newfile2.如果文件已存在,此时就打开这个文件,进入命令模式。把文本内容添加到一个全新的文件的快捷方式:echo1>>1.txt三种模式vi编辑器有三种工作模式,分别为:命令模式,输入模式,底线模式。命令模式:所敲按键编辑
忧伤火锅麻辣烫
·
2025-03-05 10:09
笔记
Spark
是什么?可以用来做什么?
Apache
Spark
是一个开源的分布式计算框架,专为处理大规模数据而设计。它最初由加州大学伯克利分校开发,现已成为大数据处理领域的核心工具之一。
Bugkillers
·
2025-03-05 10:37
大数据
spark
大数据
分布式
spark
常见操作命令
配置虚拟机配置即让自己的虚拟机可以联网,和别的虚拟机通讯一、配置vm虚拟机网段。具体设置为:虚拟机左上角点击编辑→虚拟网络编辑器选择VMnet8,要改动两个地方(注意:它会需要管理员权限):1.子网IP改成192.168.10.02.NAT设置→192.168.10.2让所有的VM配置的虚拟机使用NAT时,它们的网段都是一致的。注意:这里的第三个部分的10并不是固定的,我们自己可以约定,但是
小冻梨!!!
·
2025-03-05 10:07
spark
Py
Spark
实现获取S3上Parquet文件的数据结构,并自动在Snowflake里建表和生成对应的建表和导入数据的SQL
Py
Spark
实现S3上解析存储Parquet文件的多个路径,获取其中的数据Schema,再根据这些Schema,参考以下文本,得到创建S3路径Stage的SQL语句和上传数据到Snowflake数据库的
weixin_30777913
·
2025-03-05 08:25
python
aws
sql
spark
37.索引生命周期管理—kibana 索引配置
37.1背景引入索引生命周期管理的一个最重要的目的就是对大量时序数据在es读写操作的性能优化如通过
spark
streaming读取Kafka中的日志实时写入es,这些日志高峰期每天10亿+,每分钟接近100w
大勇任卷舒
·
2025-03-04 23:42
ELK
elasticsearch
大数据
big
data
通过
spark
-redshift工具包读取redshift上的表
spark
数据源API在
spark
1.2以后,开始提供插件诗的机制,并与各种结构化数据源整合。
stark_summer
·
2025-03-04 22:02
spark
spark
redshift
parquet
api
数据
大数据面试临阵磨枪不知看什么?看这份心理就有底了-大数据常用技术栈常见面试100道题
4
Spark
和HadoopMapReduce的区别是什么?5如何在
Spark
中实现数据的持久化?6
Spark
Streaming的工作原理是什么?7如何优化
Spark
作业的性能?
大模型大数据攻城狮
·
2025-03-04 21:59
大数据
面试
职场和发展
面试题
数据仓库
算法
Spark
复习八:简述
Spark
运行流程以及
Spark
分区以及简述
Spark
Context
1.简述
Spark
运行流程:1.构建
Spark
Application的运行环境,启动
Spark
Context2.
Spark
Context向资源管理器(可以是Standalone,Mesos,Yarm)申请运行
IT change the world
·
2025-03-04 21:28
spark
spark
大数据
面试
hadoop
zookeeper
Spark
使用Parqute存储方式有什么好处
列式存储:压缩效率和查询效率谓词下推存储层:查询数据块生态兼容性高:
Spark
,hadoop等都兼容
冰火同学
·
2025-03-04 21:27
Spark
spark
初学者如何用 Python 写第一个爬虫?
大数据技术:涵盖Hadoop(HDFS)、Hive、
Spark
ADFVBM
·
2025-03-04 16:19
面试
学习路线
阿里巴巴
python
爬虫
开发语言
Spark
架构都有那些组件
Spark
组件架构主要采用主从结构,分别是driver驱动器,Excutor执行器,和clusterManager集群管理器这个三个架构组件其中driver驱动器主要负责
spark
执行Excutor的任务分配
冰火同学
·
2025-03-04 11:37
Spark
spark
架构
大数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他