E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
.spark
Spark
Streaming基础解析(四)
1、
Spark
Streaming概述1.1
Spark
Streaming是什么
Spark
Streaming用于流式数据的处理。
有语忆语
·
2024-01-05 10:05
大数据之Spark
SparkStreaming
Spark
内核解析-脚本解析2(六)
2、脚本解析在看源码之前,我们一般会看相关脚本了解其初始化信息以及Bootstrap类,
Spark
也不例外,而
Spark
中相关的脚本如下:%
SPARK
_HOME%/sbin/start-master.sh
有语忆语
·
2024-01-05 10:05
大数据之Spark
spark
ajax
大数据
Spark
内核解析-数据存储5(六)
1、
Spark
的数据存储
Spark
计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析
Spark
中存储子系统的构成,并以数据写入和数据读取为例,讲述清楚存储子系统中各部件的交互关系
有语忆语
·
2024-01-05 10:05
大数据之Spark
spark
microsoft
大数据
Spark
基础解析(一)
1、
Spark
概述1.1什么是
Spark
1.2
Spark
内置模块
Spark
Core:实现了
Spark
的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
有语忆语
·
2024-01-05 10:04
大数据之Spark
spark
大数据
分布式
2024.1.4
Spark
Core ,RDD ,算子
的五大特点四.算子五.分区算子,重分区算子,聚合算子,关联算子分区算子:重分区算子聚合算子关联算子:一.RDD(弹性分布式数据集)Resilent弹性Distrbuted分布式Dataset数据集1.rdd是
Spark
白白的wj
·
2024-01-05 10:01
spark
大数据
分布式
python
Spark
Core基础解析(二)
1、RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是
Spark
中最基本的数据抽象。
有语忆语
·
2024-01-05 10:58
大数据之Spark
spark
Sparkcore
RDD
Spark
内核解析-节点启动4(六)
Master作为Endpoint的具体实例,下面我们介绍一下Master启动以及OnStart指令后的相关工作1.1脚本概览下面是一个举例:/opt/jdk1.7.0_79/bin/java-cp/opt/
spark
有语忆语
·
2024-01-05 10:12
大数据之Spark
spark
java
ajax
【
Spark
精讲】RDD共享变量:广播变量与累加器
在
Spark
中,提供了两种类型的共享变量:广播变量(broadcastvariable)与累加器(accumulator)广播变量:主要用于在节点间高效分发大对象。
话数Science
·
2024-01-05 10:42
大数据
Spark精讲
Spark
spark
大数据
【
Spark
精讲】
Spark
on Hive性能优化
yarn.nodemanager.resource.memory-mbyarn.nodemanager.resource.cpu-vcoresyarn.scheduler.maximum-allocation-mbyarn.scheduler.minimum-allocation-mb第三章
Spark
话数Science
·
2024-01-05 10:10
Spark精讲
Spark
大数据
spark
大数据
面试
【大数据】
Spark
学习笔记
初识
Spark
Spark
和HadoopHadoop
Spark
起源时间20052009起源地MapReduceUniversityofCaliforniaBerkeley数据处理引擎BatchBatch编程模型
pass night
·
2024-01-05 09:16
学习笔记
java
spark
大数据
sql
Spark
内核解析-通信架构3(六)
3、
Spark
通信架构
Spark
作为分布式计算框架,多个节点的设计与相互通信模式是其重要的组成部分。
Spark
一开始使用Akka作为内部通信部件。
有语忆语
·
2024-01-05 08:42
大数据之Spark
spark
架构
大数据
大数据学习方向
一、大数据运维之Linux基础打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,
Spark
,Storm,docker,openstack等。
乐姐
·
2024-01-05 08:18
大数据
大数据
大数据学习
大数据开发
大数据入门
人工智能
【
Spark
精讲】性能优化:并行度
Reduce端并行度RDD:参数:
spark
.default.parallelism手动:groupByKey(10),10即为并行度
Spark
SQL:参数:
spark
.sql.shuffle.partitionsHiveon
Spark
话数Science
·
2024-01-05 07:58
Spark
Spark精讲
大数据
spark
大数据
Unity UGUI开发,0GC更新视图
【U
Spark
le专栏】如果你深怀绝技,爱“搞点研究”,乐于分享也博采众长,我们期待你的加入,让智慧的火花碰撞交织,让知识的传递生生不息!
UWA
·
2024-01-05 06:43
U
Sparkle
精华来稿
unity
游戏引擎
UGUI
UWA
字节跳动
Spark
支持万卡模型推理实践
摘要:本文整理自字节跳动基础架构工程师刘畅和字节跳动机器学习系统工程师张永强在本次CommunityOverCodeAsia2023中的《字节跳动
Spark
支持万卡模型推理实践》主题演讲。
字节跳动云原生计算
·
2024-01-05 06:09
spark
大数据
分布式
Python_Py
Spark
实战
1.Py
Spark
库的安装清华大学源:pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplepy
spark
2.构建Py
Spark
执行环境入口对象"""演示获取
Hooray11
·
2024-01-05 05:48
python自学
python
开发语言
linux增加用户
#linux创建账户并自动生成主目录和主目录下的文件useradd-d/home/
spark
-m
spark
#带有加入root组的创建方式useradd-d/home/
spark
-groot-m
spark
心在梦梦藏心
·
2024-01-05 05:47
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有
Spark
kikiki2
·
2024-01-05 00:48
Spark
SQL、RDD和DataFrame基本操作
1三者比较易操作程度
Spark
SQL>DataFrame>RDD2创建RDD、DataFrame和
Spark
SQL2.1创建RDDrawUserData=sc.textFile("file:/home/
路人乙yh
·
2024-01-04 23:39
金色麦芒的2023
通过学习Hadoop、
Spark
等框架,我掌握了大数据的存储、处理和分析技术,能够更高效地处理大规模数据集。同时,我也深入学习
溜达的大象
·
2024-01-04 22:44
程序人生
spark
资源动态释放
通过
spark
-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,yarn新版本默认已经支持了,我们使用的是HDP。
kikiki2
·
2024-01-04 21:46
RDD持久化
RDD(ResilientDistributedDataset)叫做弹性分布式数据集,的其中一个特性就是弹性存储的弹性:
spark
计算过程中中间结果会保存
万事万物
·
2024-01-04 19:33
aaaaaa
然后,在SimpleApp.scala代码文件中输入以下代码:/*SimpleApp.scala*/importorg.apache.
spark
.
Spark
Contextimportorg.apache.
spark
.
Spark
Context
SunsPlanter
·
2024-01-04 15:24
java
Spark
---RDD算子(单值类型Value)
文章目录1.RDD算子介绍2.转换算子2.1Value类型2.1.1map2.1.2mapPartitions2.1.3mapPartitionsWithIndex2.1.4flatMap2.1.5glom2.1.6groupBy2.1.7filter2.1.8sample2.1.9distinct2.1.10coalesce2.1.11repartition2.1.12sortBy1.RDD算子
肥大毛
·
2024-01-04 11:16
spark
大数据
spark
javascript
服务器
实时数据处理概述与
Spark
Streaming简介
Spark
Streaming是Apache
Spark
生态系统中的一个模块,专门用于实时数据处理。本文将深入探讨实时数据处理的概念,并介绍如何使用
Spark
Streaming来处理实时数据流。
晓之以理的喵~~
·
2024-01-04 11:16
Spark
spark
c#
大数据
2024.1.3
Spark
on Yarn部署方式与工作原理
目录
Spark
集群类型有以下几种:
Spark
的部署方式有以下几种:
Spark
onYARN的部署方式有两种:client模式和cluster模式。
白白的wj
·
2024-01-04 11:44
spark
大数据
分布式
开发语言
python
Spark
Streaming的DStream与窗口操作
实时数据处理已经成为当今大数据时代的一个重要领域,而
Spark
Streaming是Apache
Spark
生态系统中的一个关键模块,用于处理实时数据流。
晓之以理的喵~~
·
2024-01-04 11:42
Spark
spark
大数据
分布式
Java技术栈 —— Hadoop入门(一)
解析3.1Hadoop生态介绍3.1.1MapReduce-核心组件3.1.2HDFS-核心组件3.1.3YARN-核心组件3.1.4其它组件3.1.4.1HBase3.1.4.2Hive3.1.4.3
Spark
键盘国治理专家
·
2024-01-04 08:02
Java技术栈
java
hadoop
开发语言
Spark
二、
Spark
技术栈之
Spark
Core
Spark
Core
spark
核心:包括RDD、RDD算子、RDD的持久化/缓存、累加器和广播变量学习链接:https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ
eight_Jessen
·
2024-01-04 08:51
spark
scala
spark
大数据
分布式
2024.1.3
Spark
架构角色和提交任务流程
目录一.Yarn的角色回顾二、
Spark
提交任务流程1、
Spark
OnStandalone2.
Spark
onYarn三.
Spark
比MapReduce执行效率高的原因四.
Spark
的排序算子一.Yarn
白白的wj
·
2024-01-04 08:46
spark
大数据
分布式
python
开发语言
hdfs
mapreduce
mllib可扩展学习库java api使用
mllib可扩展学习库javaapi是使用Apache
Spark
构建的机器学习库,包括分类,聚类,特征提取和预处理等功能。本文将从以下几个方面详细介绍如何使用mllib可扩展学习库javaapi。
卖兔子的胡萝卜zz
·
2024-01-04 08:43
API接口开发系列
mllib
学习
java
Spark
- SQL查询文件数据
那么我们可以利用
spark
-sql直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会
spark
了,因为我就只会sql。使用方法csv
spark
.sql("select*fromcsv.
大猪大猪
·
2024-01-04 07:02
spark
资源动态释放
通过
spark
-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,yarn新版本默认已经支持了,我们使用的是HDP。
kikiki2
·
2024-01-04 07:35
【深度学习】02--框架
文章导读:•机器学习框架:•Scikit-Learn•
Spark
MLlib•深度学习框架•Theano蒙特利尔理工学院•TensorFlow谷歌•PytorchFacebook•Deeplearning4j
创造new_world
·
2024-01-04 06:55
Antlr4 - 自定义
Spark
SQL解析
Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的
Spark
计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙
大猪大猪
·
2024-01-04 04:40
Spark
RDD及其常用算子介绍
一、RDD介绍1.1什么是RDDRDD(ResilientDistributedDataSet),称作弹性分布式数据集,是
Spark
中最基本的数据抽象,表示一个不可变的,分区的,其中元素可以被并行计算的数据集合
文景大大
·
2024-01-03 23:40
Spark
---RDD介绍
文章目录1.
Spark
核心编程2.RDD介绍2.1.RDD基本原理2.2RDD特点1.弹性2.分布式:数据存储在大数据集群的不同节点上3.数据集:RDD封装了计算逻辑,并不保存数据4.数据抽象:RDD是一个抽象类
肥大毛
·
2024-01-03 23:34
spark
大数据
spark
学习
大数据
Spark
相关知识点(期末复习集锦)
嗨喽,最近小伙伴们快要期末考试了吧,下面是我对《
Spark
零基础实战》的总结,希望能帮助到你们。
夜をむかえる
·
2024-01-03 22:49
spark
大数据
分布式
from py
spark
.mllib.recommendation import Rating出错
进入py
spark
输入frompy
spark
.mllib.recommendationimportRating报错nomodulenamednumpy我的环境:centos6.5,python2.6显然是我的虚拟机系统里自带的
路人乙yh
·
2024-01-03 22:47
Spark
优化的小细节,堆和栈
堆和栈的使用。堆是内存存储对象,有较大的内存空间。栈是内存存储方法,内存空间分配较少。当程序多次调用一个方法时,可以将方法当做一个对象放入堆中,来减少栈内存的使用。降低CPU的占用,使更多内存分配到计算处理。
坐在你的树下
·
2024-01-03 22:38
Spark
向Hbase中写数据报异常:org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 5
解决:将第二行代码中的表名写全,并指定在哪个名称空间valtable:Table=con.getTable(TableName.valueOf("info:tb_order"))
夺命大翻斗
·
2024-01-03 22:12
spark
hbase
apache
数组索引越界异常
Causedby:org.apache.
spark
.
Spark
Exception:Jobabortedduetostagefailure:Task1instage0.0failed1times,mostrecentfailure
夺命大翻斗
·
2024-01-03 21:40
spark
学习大数据的第43天(python篇)——学习python第3天
Scipylibrary主要是积分运算,优化以及图形Matplotlib画图(二维图形)IPythonSympy用的不多pandas主要是数据分析,数据处理(比较重要)数据清洗,提供比较好的数据结构Dataframe(
spark
三岁清风
·
2024-01-03 21:18
maven
spring
mysql
python
简述
spark
的架构与作业提交流程
1.首先
spark
在yarn下的作业提交分两种,一种是yarn-cluster模式,一种是yarn-client模式。
scott_alpha
·
2024-01-03 18:48
【
Spark
精讲】RDD缓存源码分析
面试题:cache后面能不能接其他算子,它是不是action操作?能,不是action算子。源码解析RDD调用cache或persist之后,会指定RDD的缓存级别,但只是在成员变量中记录了RDD的存储级别,并未真正地对RDD进行缓存。只有当RDD计算的时候才会对RDD进行缓存。以HadoopRDD为例overridedefcompute(split:Partition,context:TaskC
话数Science
·
2024-01-03 18:08
Spark
Spark精讲
大数据
spark
大数据
【
Spark
精讲】
Spark
SQL Join选择逻辑
Spark
SQLJoin选择逻辑先看JoinSelection的注释Ifitisanequi-join,wefirstlookatthejoinhintsw.r.t.thefollowingorder:
话数Science
·
2024-01-03 18:37
大数据
Spark
Spark精讲
spark
大数据
面试
Spark
Streaming + Flume
Push,指的是Flume主动push数据给
Spark
Streaming。Pull,指的是
Spark
Streaming主动从Flume拉取数据。
歌哥居士
·
2024-01-03 18:53
Spark
分区器HashPartitioner和RangePartitioner/全局排序
Spark
分区器 在
Spark
中分区器直接决定了RDD中分区的个数,RDD中每条数据经过Shuffle过程属于哪个分区以及Reduce的个数。
K. Bob
·
2024-01-03 18:34
Spark
【大数据面试知识点】分区器Partitioner:HashPartitioner、RangePartitioner
Spark
HashParitioner的弊端是什么?
话数Science
·
2024-01-03 18:02
大数据
Spark
面试
大数据
spark
面试
Scala - 反射动态创建方法
有时候我们想定义一个字符串的方法,然后通过scala的动态创建class,然后反射调用方法,在很多情景下是在学有用的,比较动态自定义
spark
的mapParations,当然了,每个人的需求都不一样,但是底层原理是一样的
kikiki2
·
2024-01-03 17:07
上一页
20
21
22
23
24
25
26
27
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他