E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
——Spark
Spark
学习(5)-
Spark
Core之RDD
1RDD详解1.1为什么需要RDD分布式计算需要:分区控制Shuffle控制数据存储\序列化\发送数据计算API等一系列功能这些功能,不能简单的通过Python内置的本地集合对象(如List\字典等)去完成。我们在分布式框架中,需要有一个统一的数据抽象对象,来实现上述分布式计算所需功能。这个抽象对象,就是RDD。1.2什么是RDD?1.2.1RDD含义RDD(ResilientDistribute
技术闲聊DD
·
2023-10-15 19:44
大数据
spark
学习
Spark
深入解析(五):
Spark
Core之RDD编程模型
学习目标编程模型RDD的创建编程模型 在
Spark
中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。
老王的小知识
·
2023-10-15 19:13
#
【大数据】Spark
spark
大数据
编程语言
RDD
spark
core编程
目录一、实验目的二、实验平台三、实验内容和要求四、实验过程记录1、
Spark
RDD实现单词计数2、
Spark
RDD实现分组求TopN2.1实现思路3、
Spark
RDD实现二次排序3.1实现思路3.2编写程序
又是被bug折磨的一天
·
2023-10-15 19:13
spark
2.
Spark
Core-RDD编程
二、RDD编程1、编程模型在
Spark
中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。
进击的小民工_97
·
2023-10-15 19:42
Spark
spark
scala
big
data
Spark
之
Spark
Core:RDD-数据核心/API【执行过程、编程模型:创建、转换、输出、运行过程】
RDD实践1、执行过程2、编程模型2.1RDD创建2.2RDD转换2.3RDD输出3、RDD运行过程1、执行过程1、读入外部的数据源(或者内存中的集合)进行RDD创建;2、RDD经过一系列的“转换”操作,每一次都会产生不同的RDD,供给下一个转换使用;3、最后一个RDD经过“行动”操作进行处理,并输出指定的数据类型和值。优点:惰性调用、管道化、不需要保存中间结果。RDD采用了惰性调用,即在RDD的
珞沫
·
2023-10-15 19:42
Hadoop
Spark
spark
RDD
Spark
_
Spark
Core_RDD
创建操作3.2转换操作3.2.1单value类型的转换算子3.2.2双value类型的转换算子3.2.3KV对类型的转换算子3.3行为操作3.4缓存操作4共享变量4.1累加器4.2广播变量5开发0参考列表
Spark
Core
若叶时代
·
2023-10-15 19:42
数据计算引擎
spark
Spark
Core之RDD编程(内容超详细)
2.1得到RDD(1)从数据源a:外部数据源:文件、数据库、hive…b:从scala集合得到:带序列的集合都可以得到RDD2.2RDD的转换在RDD上支持2种操作:transformation:从一个已知的RDD中创建出来一个新的RDD例如:map就是一个transformation.action:在数据集上计算结束之后,给驱动程序返回一个值根据RDD中数据类型的不同,整体分为2种RDD:Val
Alfred_XiaJL
·
2023-10-15 19:41
Spark
spark
scala
big
data
Spark
Core之RDD编程模型与RDD的创建
编程模型在
Spark
中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。
小刘同学-很乖
·
2023-10-15 19:41
#
SparkCore
spark
大数据
hadoop
java
python
spark
core分区_
Spark
Core——RDD编程
RDD编程RDD编程模型在
Spark
中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。
low sapkj
·
2023-10-15 19:10
sparkcore分区
Spark
SQL编程之RDD-RDD转换
背景本文使用idea编程
spark
版本2.11.82.2.02.11备注
Spark
中,只有遇到action,才会执行RDD的计算(即延迟计算)RDD创建创建方式从集合中创建RDD从外部存储创建RDD从其他
涟漪海洋
·
2023-10-15 19:08
高性能编程
spark
scala
RDD
SparkCore
Spark
Core之RDD详解
1.什么是RDD简介:RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是
Spark
中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
LBJ_小松鼠
·
2023-10-15 19:08
Spark
SQL编程之RDD-概述
RDD简述RDD(ResilientDistributedDataset)叫做分布式数据集,是
Spark
中最基本的数据抽象。
涟漪海洋
·
2023-10-15 19:37
SparkCore
RDD
rdd
scala
spark
Spark
Core编程RDD
RDD概述中文名为弹性分布式数据集,是数据处理基本单位。代表一个弹性的,不可变,可分区,里面的数据可并行计算的集合。RDD和HadoopMR的区别:RDD是先明确数据处理流程,数据在行动算子执行前实际上并未被修改MR本质上是摸石头过河,每一步操作时,数据本体已经被修改了,无法恢复。RDD特性:一组分区:标记数据是哪个分区的一个计算每个分区的函数RDD之间的依赖关系一个分区器:即RDD的分片函数一个
十七✧ᐦ̤
·
2023-10-15 18:04
spark
java
scala
Spark
的createDstream和createDirectStream区别
spark
读取kafka数据流提供了两种方式createDstream和createDirectStream。
吴国友
·
2023-10-15 15:21
Codeforces 453A Little Pony and Expected Maximum
LittlePonyandExpectedMaximumtimelimitpertest1secondmemorylimitpertest256megabytesinputstandardinputoutputstandardoutputTwilight
Spark
lewasplayingLudowithherfriendsRainbowDash
bubbleoooooo
·
2023-10-15 15:58
codeforces
codeforces
A
Little
Pony
and
Ex
数学
cf
Py
spark
读取大文件的一个坑
最好把文件分割到10g以下,每次读取一个,否则会自动truncate,而且还不告诉你。400g的文件我一次性读入实测只有100多g读进去了,造成结果严重错误。当然应该跟memory有关系,但我已经设置得很大了,还是出现问题,最后选择分割成40个小文件。
杨康chin
·
2023-10-15 14:02
MapReduce Shuffle 和
Spark
Shuffle
Shuffle简介Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前,具体可以分为map端和reduce端前后两个部分。在shuffle之
longLiveData
·
2023-10-15 13:55
Hadoop——第三部份 Hadoop3.x之MapReduce
高扩展动态增加服务器高空错海量计算缺点不擅长实时计算(Mysql)不擅长流式计算(
Spark
streamingflink)不擅长DAG有向无环图计算(迭代)(
Spark
)二、Hadoop序列化序列化和反序列化将内存中
Cyang6
·
2023-10-15 12:40
#
大数据之Hadoop
hadoop
mapreduce
big
data
环境搭建
一、安装虚拟机后主要的设置1、先临时性设置虚拟机ip地址:ifconfigeth0192.168.31.248,在/etc/hosts文件中配置本地ip(192.168.31.248)到host(
spark
1
sunshine052697
·
2023-10-15 11:57
Apache
Spark
中的 RDD是什么
目录RDD容错性RDD进行迭代计算RDD是ResilientDistributedDataset的缩写,是Apache
Spark
中的一个关键概念。
Solitary_孤影照惊鸿
·
2023-10-15 09:57
Apache
Spark
语言/方式/工具/模型/软件
大赏
spark
大数据
分布式
Spark
Context 与
Spark
Context 之间的区别是什么
Spark
Context是
Spark
的入口点,它是所有
Spark
应用程序的主要接口,用于创建RDD、累加器、广播变量等,并管理与
Spark
集群的连接。
Solitary_孤影照惊鸿
·
2023-10-15 09:56
Apache
Spark
SparkContext
大数据产品深度与广度并举,腾讯云为数据价值释放带来最优解
从2021年Apache
Spark
和ConfluentKafka宣布支持Kubernetes,到腾讯云等云服务商积极推出多款云原生大数据产品,产业界近年来都在积极探索:如何利用高速发展的云原生技术去解决传统大数据平台的诸多问题
大数据在线
·
2023-10-15 08:41
云静思园
AI
大数据
腾讯云
云计算
云原生大数据
Hadoop
carbondata优化小姐
一,carbondata高效原因carbondata文件是hdfs的列式存储格式查询速度是
spark
SQL的10倍,通过多种索引技术和多次pushdown优化,对TB级别数据快速响应高效的压缩,使用轻量级和和重量级压缩组合的方式
不吃饭的猪
·
2023-10-15 08:54
大数据
Spark
Sql优化器引擎-CataLyst
Catalyst的工作流程:UnresolvedLogicalPlan:SQL语句首先通过sqlparser模块被分词,形成select,where,join等语句块,并将这些语句块行成语法树.此棵树称为UnresolvedLogicalPlanLogicalPlan:借助表的元数据将UnresolvedLogicalPlan解析为LogicalPlan.例如,上一步的逻辑执行框架有了基本骨架后,
lj72808up
·
2023-10-15 07:27
最新ai创作系统CHATGPT系统源码+支持GPT4.0+支持ai绘画(Midjourney)
一、AI创作系统
Spark
Ai创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统+AI绘画系统,支持OpenAIGPT全模型+国内AI全模型。
白云如幻
·
2023-10-15 06:23
网站源码
人工智能
ChatGPT
人工智能
chatgpt
AI作画
40、
Spark
内核源码深度剖析之DAGScheduler原理剖析与源码分析
流程图stage划分算法原理剖析.png源码入口//调用
Spark
Context,之前初始化时创建的dagScheduler的runJob()方法dagScheduler.runJob(rdd,cleanedFunc
ZFH__ZJ
·
2023-10-15 06:39
Spark
SQL case when用法:
30.
Spark
SQLcasewhen用法:https://
spark
byexamples.com/
spark
-case-when-otherwise-example/howtowritecasewithwhenconditionin
spark
sqlusingscala-StackOverflowscala-
SPARK
SQL
元元的李树
·
2023-10-15 05:29
Spark
carbondata测试报告
carbondata测试报告此文档是测试carbondata(1.4)与parquet(1.10)在
spark
sql搜索引擎上执行的对比情况硬件配置CPU:Intel(R)Xeon(R)CPUE5-2603v4
君子慎独焉
·
2023-10-15 03:27
Spark
启动java.lang.NoClassDefFoundError: com/fasterxml/jackson/databind/Module 报错
之前一直没有搞过
Spark
,这阵有时间,今天在搭建的过程中在启动
Spark
的时候发现了报错,之前以为是不是有什么配置自己没有搞清楚,最后搜索半天还是没有找到,自己试着找了一下包,Ok成功启动,在这里记下
徴心
·
2023-10-15 00:50
解决问题
spark
异常
从术语到
Spark
,10篇必读大数据学习资源
本文给想进入大数据领域的朋友提供了一系列的资源,由浅入深,比如“需要了解的51条大数据术语”、“学习python的四个理由”、“十一个必须要参加的大数据会议”等有趣的话题。相信各种背景的朋友都会在这篇文章中有所收获。之前,我们已就数据可视化进行了深入探讨。这次,我们将从更基本的概念讲起,以便在涉足更复杂的数据科学和商业智能之前能够真正理解大数据。文中会引领大家阅读介绍大数据的相关文章,研究网络上流
大数据的时代
·
2023-10-14 23:13
新一代大数据技术:构建PB级云端数仓实践
通过以Hadoop,
Spark
为代表的大数据技术来构建新型数据仓库,已经成为越来越多的企业应对数据挑战的方式。
腾讯云开发者
·
2023-10-14 23:07
给ChuanhuChatGPT 配上讯飞星火
spark
大模型V2.0(一)
ChuanhuChatGPT拥有多端、比较好看的Gradio界面,开发比较完整;刚好讯飞星火非常大气,免费可以领取大概20w(!!!)的token,这波必须不亏,整上。重要参考:川虎ChatChuanhuChat讯飞星火认知大模型文章目录1讯飞星火大模型1.1webapi申请1.2webapi调用1.3一些报错2川虎ChatChuanhuChat2.1配置要求1讯飞星火大模型1.1webapi申请
悟乙己
·
2023-10-14 23:35
LLM大模型
fastapi
大模型
讯飞
chuanhu
部署
spark
on k8s: master pod kube-proxy-mkbp7 Evicte -- The node was low on resource: ephemeral-storag
spark
onk8s集群发现kube-proxy-mkbp7异常,总是Evicted状态,其他node节点上pod正常。
merrily01
·
2023-10-14 19:35
报错记录
hutool 在scala 和java 的时间区别
最近在使用
spark
翻译mybatis的java代码的过程中,将java代码直接翻译到scala中,但是在对数的过程中,发现设计日期比较的都存在误差,在排除时间戳长度、异常处理等问题后,终于定位到hutool
炼数成器
·
2023-10-14 18:55
scala
java
开发语言
spark
java.lang.ClassCastException: java.lang.Double cannot be cast to java.lang.String
spark
:java.lang.ClassCastException:java.lang.Doublecannotbecasttojava.lang.Stringjava.lang.ClassCastException
炼数成器
·
2023-10-14 18:24
spark
大数据环境搭建-Hadoop伪分布式安装-
spark
安装-kafka安装
isoVMware-workstation-full-15.1.0-13591040.exeFileZilla_3.43.0_win64_sponsored-setup.exejdk1.8.0_171hadoop-2.7.3scala-2.12.1
spark
神秘人�
·
2023-10-14 17:47
大数据
大数据
hadoop
java
centos
linux
一文让你彻底了解大数据实时计算引擎 Flink
随着这些年大数据的飞速发展,也出现了不少计算的框架(Hadoop、Storm、
Spark
、Flink)。在网上有人将大数据计算引擎的发展分为四个阶段。
zhisheng_blog
·
2023-10-14 17:14
Yarn入门详解
我们可以从上图看出Hadoop2.x可以支持其他的分布式计算框架,在引入Yarn的Hadoop2.x之后同一套硬件集群中可以运行多个任务,例如:MR、
Spark
任务等Yarn包含三个组件:ResourceManager
林_恩国
·
2023-10-14 16:28
大数据
hadoop
yarn
分布式
hive on
spark
僵死问题分析
背景:最近大数据平台为租户经分系统提供运算及存储能力,经分的资源需求如下Memory:6TCPU:1600c存储:600T文件系统:HDFS运算组件:hiveon
spark
权限管理:sentry问题描述
baker_dai
·
2023-10-14 14:59
Spark
- 直接操作数据源 MySQL
答案就是使用
spark
的计算能力的,我们可以将mysql数据源接入到
spark
中。
kikiki2
·
2023-10-14 13:34
Spark
中的Driver、Executor、Stage、TaskSet、DAGScheduler等介绍
工作流程:Driver创建
Spark
Session并将应用程序转化为执行计划,将作业划分为多个Stage,并创建相应的TaskSet。
Young_IT
·
2023-10-14 13:26
大数据开发
spark
大数据
分布式
Spark
入门
目录
Spark
入门:概述+历史+概述
Spark
Core:RDD
Spark
SQL:
Spark
Streaming
Spark
内核调优
Spark
概述回顾:Hadoop=HDFS存储+MR分析计算+YARN调度Hadoop
十七✧ᐦ̤
·
2023-10-14 12:21
spark
大数据
分布式
[Idea 操作]-- Idea16使用maven命令clean、编译、打包jar或者war
------》“java-classpathjar所在路径main类名称”注意:使用idea16工具的maven命令生成的jar包可能不包含第三方依赖1、编写pom.xml文件4.0.0com.enn
spark
-jqz-predict1.0
m0_67391521
·
2023-10-14 12:19
java
intellij-idea
maven
jar
java
算法
最新AI创作系统源码ChatGPT网站源码/支持Midjourney,AI绘画/支持OpenAI GPT全模型+国内AI全模型
一、AI创作系统
Spark
Ai创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAIGPT全模型+国内AI全模型。
白云如幻
·
2023-10-14 12:09
人工智能
ChatGPT
AIGC
chatgpt
人工智能
AI写作
AI作画
midjourney
kafka简述
另外企业中离线业务场景实时业务场景都需要使用到kafka,Kafka具备数据的计算能力和存储能力,但是两个能力相对(MR/
SPARK
,HDFS)较弱,Kafka角色的角色与hbase
静看º一季花开花落
·
2023-10-14 10:10
中间件
kafka
py
spark
dataframe常用操作
py
Spark
DataFrames常用操作指南前1,2步是环境数据集操作,如果只想看常用操作请跳到31.运行环境配置欲善其功,必先利其器,通常来说光一个
spark
安装就可以出一个教程,在你看完安装教程填完坑后估计就不想继续看下去了
AsdilFibrizo
·
2023-10-14 10:29
2018-12-25
spark
-streaming消费kafka数据:首次消费截图:手动kill,再次启动:KafkaManager类:packageorg.apache.
spark
.streaming.kafkaimportkafka.common.TopicAndPartitionimportkafka.message.MessageAndMetadataimportkafka.serializer.Decode
宇智波_佐助
·
2023-10-14 09:07
最新AI创作系统ChatGPT源码+详细搭建部署教程,支持AI绘画/支持OpenAI-GPT全模型+国内AI全模型
一、AI创作系统
Spark
Ai创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统+AI绘画系统,支持OpenAIGPT全模型+国内AI全模型。
白云如幻
·
2023-10-14 07:35
人工智能
ChatGPT
软件源码
人工智能
AI写作
AI作画
chatgpt
prompt
第五篇|
Spark
-Streaming编程指南(2)
第四篇|
Spark
-Streaming编程指南(1)对
Spark
Streaming执行机制、Transformations与OutputOperations、
Spark
Streaming数据源(Sources
大数据技术与数仓
·
2023-10-14 04:36
Scala - 反射动态创建方法
有时候我们想定义一个字符串的方法,然后通过scala的动态创建class,然后反射调用方法,在很多情景下是在学有用的,比较动态自定义
spark
的mapParations,当然了,每个人的需求都不一样,但是底层原理是一样的
大猪大猪
·
2023-10-14 04:09
上一页
63
64
65
66
67
68
69
70
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他