E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark从入门到放弃
【
Spark
精讲】
Spark
on Hive性能优化
yarn.nodemanager.resource.memory-mbyarn.nodemanager.resource.cpu-vcoresyarn.scheduler.maximum-allocation-mbyarn.scheduler.minimum-allocation-mb第三章
Spark
话数Science
·
2024-01-05 10:10
Spark精讲
Spark
大数据
spark
大数据
面试
【大数据】
Spark
学习笔记
初识
Spark
Spark
和HadoopHadoop
Spark
起源时间20052009起源地MapReduceUniversityofCaliforniaBerkeley数据处理引擎BatchBatch编程模型
pass night
·
2024-01-05 09:16
学习笔记
java
spark
大数据
sql
Spark
内核解析-通信架构3(六)
3、
Spark
通信架构
Spark
作为分布式计算框架,多个节点的设计与相互通信模式是其重要的组成部分。
Spark
一开始使用Akka作为内部通信部件。
有语忆语
·
2024-01-05 08:42
大数据之Spark
spark
架构
大数据
大数据学习方向
一、大数据运维之Linux基础打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,
Spark
,Storm,docker,openstack等。
乐姐
·
2024-01-05 08:18
大数据
大数据
大数据学习
大数据开发
大数据入门
人工智能
【
Spark
精讲】性能优化:并行度
Reduce端并行度RDD:参数:
spark
.default.parallelism手动:groupByKey(10),10即为并行度
Spark
SQL:参数:
spark
.sql.shuffle.partitionsHiveon
Spark
话数Science
·
2024-01-05 07:58
Spark
Spark精讲
大数据
spark
大数据
Unity UGUI开发,0GC更新视图
【U
Spark
le专栏】如果你深怀绝技,爱“搞点研究”,乐于分享也博采众长,我们期待你的加入,让智慧的火花碰撞交织,让知识的传递生生不息!
UWA
·
2024-01-05 06:43
U
Sparkle
精华来稿
unity
游戏引擎
UGUI
UWA
字节跳动
Spark
支持万卡模型推理实践
摘要:本文整理自字节跳动基础架构工程师刘畅和字节跳动机器学习系统工程师张永强在本次CommunityOverCodeAsia2023中的《字节跳动
Spark
支持万卡模型推理实践》主题演讲。
字节跳动云原生计算
·
2024-01-05 06:09
spark
大数据
分布式
Python_Py
Spark
实战
1.Py
Spark
库的安装清华大学源:pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplepy
spark
2.构建Py
Spark
执行环境入口对象"""演示获取
Hooray11
·
2024-01-05 05:48
python自学
python
开发语言
linux增加用户
#linux创建账户并自动生成主目录和主目录下的文件useradd-d/home/
spark
-m
spark
#带有加入root组的创建方式useradd-d/home/
spark
-groot-m
spark
心在梦梦藏心
·
2024-01-05 05:47
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有
Spark
kikiki2
·
2024-01-05 00:48
Spark
SQL、RDD和DataFrame基本操作
1三者比较易操作程度
Spark
SQL>DataFrame>RDD2创建RDD、DataFrame和
Spark
SQL2.1创建RDDrawUserData=sc.textFile("file:/home/
路人乙yh
·
2024-01-04 23:39
金色麦芒的2023
通过学习Hadoop、
Spark
等框架,我掌握了大数据的存储、处理和分析技术,能够更高效地处理大规模数据集。同时,我也深入学习
溜达的大象
·
2024-01-04 22:44
程序人生
spark
资源动态释放
通过
spark
-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,yarn新版本默认已经支持了,我们使用的是HDP。
kikiki2
·
2024-01-04 21:46
RDD持久化
RDD(ResilientDistributedDataset)叫做弹性分布式数据集,的其中一个特性就是弹性存储的弹性:
spark
计算过程中中间结果会保存
万事万物
·
2024-01-04 19:33
aaaaaa
然后,在SimpleApp.scala代码文件中输入以下代码:/*SimpleApp.scala*/importorg.apache.
spark
.
Spark
Contextimportorg.apache.
spark
.
Spark
Context
SunsPlanter
·
2024-01-04 15:24
java
Spark
---RDD算子(单值类型Value)
文章目录1.RDD算子介绍2.转换算子2.1Value类型2.1.1map2.1.2mapPartitions2.1.3mapPartitionsWithIndex2.1.4flatMap2.1.5glom2.1.6groupBy2.1.7filter2.1.8sample2.1.9distinct2.1.10coalesce2.1.11repartition2.1.12sortBy1.RDD算子
肥大毛
·
2024-01-04 11:16
spark
大数据
spark
javascript
服务器
实时数据处理概述与
Spark
Streaming简介
Spark
Streaming是Apache
Spark
生态系统中的一个模块,专门用于实时数据处理。本文将深入探讨实时数据处理的概念,并介绍如何使用
Spark
Streaming来处理实时数据流。
晓之以理的喵~~
·
2024-01-04 11:16
Spark
spark
c#
大数据
2024.1.3
Spark
on Yarn部署方式与工作原理
目录
Spark
集群类型有以下几种:
Spark
的部署方式有以下几种:
Spark
onYARN的部署方式有两种:client模式和cluster模式。
白白的wj
·
2024-01-04 11:44
spark
大数据
分布式
开发语言
python
Spark
Streaming的DStream与窗口操作
实时数据处理已经成为当今大数据时代的一个重要领域,而
Spark
Streaming是Apache
Spark
生态系统中的一个关键模块,用于处理实时数据流。
晓之以理的喵~~
·
2024-01-04 11:42
Spark
spark
大数据
分布式
Java技术栈 —— Hadoop入门(一)
解析3.1Hadoop生态介绍3.1.1MapReduce-核心组件3.1.2HDFS-核心组件3.1.3YARN-核心组件3.1.4其它组件3.1.4.1HBase3.1.4.2Hive3.1.4.3
Spark
键盘国治理专家
·
2024-01-04 08:02
Java技术栈
java
hadoop
开发语言
Spark
二、
Spark
技术栈之
Spark
Core
Spark
Core
spark
核心:包括RDD、RDD算子、RDD的持久化/缓存、累加器和广播变量学习链接:https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ
eight_Jessen
·
2024-01-04 08:51
spark
scala
spark
大数据
分布式
2024.1.3
Spark
架构角色和提交任务流程
目录一.Yarn的角色回顾二、
Spark
提交任务流程1、
Spark
OnStandalone2.
Spark
onYarn三.
Spark
比MapReduce执行效率高的原因四.
Spark
的排序算子一.Yarn
白白的wj
·
2024-01-04 08:46
spark
大数据
分布式
python
开发语言
hdfs
mapreduce
mllib可扩展学习库java api使用
mllib可扩展学习库javaapi是使用Apache
Spark
构建的机器学习库,包括分类,聚类,特征提取和预处理等功能。本文将从以下几个方面详细介绍如何使用mllib可扩展学习库javaapi。
卖兔子的胡萝卜zz
·
2024-01-04 08:43
API接口开发系列
mllib
学习
java
Spark
- SQL查询文件数据
那么我们可以利用
spark
-sql直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会
spark
了,因为我就只会sql。使用方法csv
spark
.sql("select*fromcsv.
大猪大猪
·
2024-01-04 07:02
spark
资源动态释放
通过
spark
-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,yarn新版本默认已经支持了,我们使用的是HDP。
kikiki2
·
2024-01-04 07:35
【深度学习】02--框架
文章导读:•机器学习框架:•Scikit-Learn•
Spark
MLlib•深度学习框架•Theano蒙特利尔理工学院•TensorFlow谷歌•PytorchFacebook•Deeplearning4j
创造new_world
·
2024-01-04 06:55
Antlr4 - 自定义
Spark
SQL解析
Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的
Spark
计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙
大猪大猪
·
2024-01-04 04:40
OpenHarmony
从入门到放弃
(二)
OpenHarmony
从入门到放弃
(一)一、HelloHarmonyOS打开DevEcoStudio选择CreateProject创建工程;选择Application->EmptyAbility,这里也可以选择其他的
Kevin写代码
·
2024-01-04 02:09
HarmonyOS
android
鸿蒙
鸿蒙系统
harmonyos
OpenHarmony
从入门到放弃
(一)
OpenHarmony
从入门到放弃
(二)一、OpenHarmony的基本概念和特性OpenHarmony是由开放原子开源基金会孵化及运营的开源项目,其目标是构建一个面向全场景、全连接、全智能的时代的智能终端设备操作系统
Kevin写代码
·
2024-01-04 02:39
HarmonyOS
鸿蒙
鸿蒙系统
harmonyos
ios
android
cka
从入门到放弃
无数次想放弃,最后选择了坚持监控pod日志监控名为foobar的Pod的日志,并过滤出具有unable-access-website信息的行,然后将写入到/opt/KUTR00101/foobar#解析监控pod的日志,使用kubectllogspod-namekubectllogsfoobar|grepunable-access-website>/opt/KUTR00101/foobar监控po
漫漫行程路
·
2024-01-04 01:01
kubernetes
Spark
RDD及其常用算子介绍
一、RDD介绍1.1什么是RDDRDD(ResilientDistributedDataSet),称作弹性分布式数据集,是
Spark
中最基本的数据抽象,表示一个不可变的,分区的,其中元素可以被并行计算的数据集合
文景大大
·
2024-01-03 23:40
Spark
---RDD介绍
文章目录1.
Spark
核心编程2.RDD介绍2.1.RDD基本原理2.2RDD特点1.弹性2.分布式:数据存储在大数据集群的不同节点上3.数据集:RDD封装了计算逻辑,并不保存数据4.数据抽象:RDD是一个抽象类
肥大毛
·
2024-01-03 23:34
spark
大数据
spark
学习
大数据
Spark
相关知识点(期末复习集锦)
嗨喽,最近小伙伴们快要期末考试了吧,下面是我对《
Spark
零基础实战》的总结,希望能帮助到你们。
夜をむかえる
·
2024-01-03 22:49
spark
大数据
分布式
from py
spark
.mllib.recommendation import Rating出错
进入py
spark
输入frompy
spark
.mllib.recommendationimportRating报错nomodulenamednumpy我的环境:centos6.5,python2.6显然是我的虚拟机系统里自带的
路人乙yh
·
2024-01-03 22:47
Spark
优化的小细节,堆和栈
堆和栈的使用。堆是内存存储对象,有较大的内存空间。栈是内存存储方法,内存空间分配较少。当程序多次调用一个方法时,可以将方法当做一个对象放入堆中,来减少栈内存的使用。降低CPU的占用,使更多内存分配到计算处理。
坐在你的树下
·
2024-01-03 22:38
Spark
向Hbase中写数据报异常:org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 5
解决:将第二行代码中的表名写全,并指定在哪个名称空间valtable:Table=con.getTable(TableName.valueOf("info:tb_order"))
夺命大翻斗
·
2024-01-03 22:12
spark
hbase
apache
数组索引越界异常
Causedby:org.apache.
spark
.
Spark
Exception:Jobabortedduetostagefailure:Task1instage0.0failed1times,mostrecentfailure
夺命大翻斗
·
2024-01-03 21:40
spark
学习大数据的第43天(python篇)——学习python第3天
Scipylibrary主要是积分运算,优化以及图形Matplotlib画图(二维图形)IPythonSympy用的不多pandas主要是数据分析,数据处理(比较重要)数据清洗,提供比较好的数据结构Dataframe(
spark
三岁清风
·
2024-01-03 21:18
maven
spring
mysql
python
简述
spark
的架构与作业提交流程
1.首先
spark
在yarn下的作业提交分两种,一种是yarn-cluster模式,一种是yarn-client模式。
scott_alpha
·
2024-01-03 18:48
【
Spark
精讲】RDD缓存源码分析
面试题:cache后面能不能接其他算子,它是不是action操作?能,不是action算子。源码解析RDD调用cache或persist之后,会指定RDD的缓存级别,但只是在成员变量中记录了RDD的存储级别,并未真正地对RDD进行缓存。只有当RDD计算的时候才会对RDD进行缓存。以HadoopRDD为例overridedefcompute(split:Partition,context:TaskC
话数Science
·
2024-01-03 18:08
Spark
Spark精讲
大数据
spark
大数据
【
Spark
精讲】
Spark
SQL Join选择逻辑
Spark
SQLJoin选择逻辑先看JoinSelection的注释Ifitisanequi-join,wefirstlookatthejoinhintsw.r.t.thefollowingorder:
话数Science
·
2024-01-03 18:37
大数据
Spark
Spark精讲
spark
大数据
面试
Spark
Streaming + Flume
Push,指的是Flume主动push数据给
Spark
Streaming。Pull,指的是
Spark
Streaming主动从Flume拉取数据。
歌哥居士
·
2024-01-03 18:53
Spark
分区器HashPartitioner和RangePartitioner/全局排序
Spark
分区器 在
Spark
中分区器直接决定了RDD中分区的个数,RDD中每条数据经过Shuffle过程属于哪个分区以及Reduce的个数。
K. Bob
·
2024-01-03 18:34
Spark
【大数据面试知识点】分区器Partitioner:HashPartitioner、RangePartitioner
Spark
HashParitioner的弊端是什么?
话数Science
·
2024-01-03 18:02
大数据
Spark
面试
大数据
spark
面试
Scala - 反射动态创建方法
有时候我们想定义一个字符串的方法,然后通过scala的动态创建class,然后反射调用方法,在很多情景下是在学有用的,比较动态自定义
spark
的mapParations,当然了,每个人的需求都不一样,但是底层原理是一样的
kikiki2
·
2024-01-03 17:07
大数据系列之:读取parquet文件统计数据量
大数据系列之:读取parquet文件统计数据量一、
Spark
读取parquet文件统计数据量二、parquet-tools统计parquet文件数据量三、实际应用案例一、
Spark
读取parquet文件统计数据量首先
最笨的羊羊
·
2024-01-03 16:49
日常分享专栏
大数据系列
读取parquet文件
统计数据量
推荐一个小孩儿学编程的App
code
spark
嗯嗯,当然这个软件本质上还是一个游戏,但是和其他游戏的区别在于它可以把我们的编程思想放到小孩玩游戏的过程当中。
花生草
·
2024-01-03 14:03
使用UDF扩展
Spark
SQL
Apache
Spark
是一个强大的分布式计算框架,
Spark
SQL是其一个核心模块,用于处理结构化数据。虽然
Spark
SQL内置了许多强大的函数和操作,但有时可能需要自定义函数来处理特定的数据需求。
晓之以理的喵~~
·
2024-01-03 12:08
Spark
spark
sql
大数据
性能优化:
Spark
SQL中的谓词下推和列式存储
Apache
Spark
是一个强大的分布式计算框架,
Spark
SQL是其一个核心模块,用于处理结构化数据。
晓之以理的喵~~
·
2024-01-03 12:02
Spark
性能优化
spark
sql
大数据实时项目必备技能二:kafka有话说
导读:Kafka是由LinkedIn开发并开源的分布式消息系统,因其分布式及高吞吐率而被广泛使用,现已与ClouderaHadoop,ApacheStorm,Apache
Spark
集成。
栀子花_ef39
·
2024-01-03 11:05
上一页
21
22
23
24
25
26
27
28
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他