E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark知识笔记
Spark
内核解析-脚本解析2(六)
2、脚本解析在看源码之前,我们一般会看相关脚本了解其初始化信息以及Bootstrap类,
Spark
也不例外,而
Spark
中相关的脚本如下:%
SPARK
_HOME%/sbin/start-master.sh
有语忆语
·
2024-01-05 10:05
大数据之Spark
spark
ajax
大数据
Spark
内核解析-数据存储5(六)
1、
Spark
的数据存储
Spark
计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析
Spark
中存储子系统的构成,并以数据写入和数据读取为例,讲述清楚存储子系统中各部件的交互关系
有语忆语
·
2024-01-05 10:05
大数据之Spark
spark
microsoft
大数据
Spark
基础解析(一)
1、
Spark
概述1.1什么是
Spark
1.2
Spark
内置模块
Spark
Core:实现了
Spark
的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
有语忆语
·
2024-01-05 10:04
大数据之Spark
spark
大数据
分布式
2024.1.4
Spark
Core ,RDD ,算子
的五大特点四.算子五.分区算子,重分区算子,聚合算子,关联算子分区算子:重分区算子聚合算子关联算子:一.RDD(弹性分布式数据集)Resilent弹性Distrbuted分布式Dataset数据集1.rdd是
Spark
白白的wj
·
2024-01-05 10:01
spark
大数据
分布式
python
Spark
Core基础解析(二)
1、RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是
Spark
中最基本的数据抽象。
有语忆语
·
2024-01-05 10:58
大数据之Spark
spark
Sparkcore
RDD
Spark
内核解析-节点启动4(六)
Master作为Endpoint的具体实例,下面我们介绍一下Master启动以及OnStart指令后的相关工作1.1脚本概览下面是一个举例:/opt/jdk1.7.0_79/bin/java-cp/opt/
spark
有语忆语
·
2024-01-05 10:12
大数据之Spark
spark
java
ajax
【
Spark
精讲】RDD共享变量:广播变量与累加器
在
Spark
中,提供了两种类型的共享变量:广播变量(broadcastvariable)与累加器(accumulator)广播变量:主要用于在节点间高效分发大对象。
话数Science
·
2024-01-05 10:42
大数据
Spark精讲
Spark
spark
大数据
【
Spark
精讲】
Spark
on Hive性能优化
yarn.nodemanager.resource.memory-mbyarn.nodemanager.resource.cpu-vcoresyarn.scheduler.maximum-allocation-mbyarn.scheduler.minimum-allocation-mb第三章
Spark
话数Science
·
2024-01-05 10:10
Spark精讲
Spark
大数据
spark
大数据
面试
【大数据】
Spark
学习笔记
初识
Spark
Spark
和HadoopHadoop
Spark
起源时间20052009起源地MapReduceUniversityofCaliforniaBerkeley数据处理引擎BatchBatch编程模型
pass night
·
2024-01-05 09:16
学习笔记
java
spark
大数据
sql
Spark
内核解析-通信架构3(六)
3、
Spark
通信架构
Spark
作为分布式计算框架,多个节点的设计与相互通信模式是其重要的组成部分。
Spark
一开始使用Akka作为内部通信部件。
有语忆语
·
2024-01-05 08:42
大数据之Spark
spark
架构
大数据
Lan的ScalersTalk第四轮新概念朗读持续力训练Day 250 20190614
练习材料:任务配置:L0+L1+L4
知识笔记
:utilitarianadj.实用的;功利的;实惠的;实用主义的;功利主义的;vicinityn.周围地区;邻近地区;附近;obstructionn.阻挡;
孙岚_9ff8
·
2024-01-05 08:49
大数据学习方向
一、大数据运维之Linux基础打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,
Spark
,Storm,docker,openstack等。
乐姐
·
2024-01-05 08:18
大数据
大数据
大数据学习
大数据开发
大数据入门
人工智能
【
Spark
精讲】性能优化:并行度
Reduce端并行度RDD:参数:
spark
.default.parallelism手动:groupByKey(10),10即为并行度
Spark
SQL:参数:
spark
.sql.shuffle.partitionsHiveon
Spark
话数Science
·
2024-01-05 07:58
Spark
Spark精讲
大数据
spark
大数据
Unity UGUI开发,0GC更新视图
【U
Spark
le专栏】如果你深怀绝技,爱“搞点研究”,乐于分享也博采众长,我们期待你的加入,让智慧的火花碰撞交织,让知识的传递生生不息!
UWA
·
2024-01-05 06:43
U
Sparkle
精华来稿
unity
游戏引擎
UGUI
UWA
字节跳动
Spark
支持万卡模型推理实践
摘要:本文整理自字节跳动基础架构工程师刘畅和字节跳动机器学习系统工程师张永强在本次CommunityOverCodeAsia2023中的《字节跳动
Spark
支持万卡模型推理实践》主题演讲。
字节跳动云原生计算
·
2024-01-05 06:09
spark
大数据
分布式
Python_Py
Spark
实战
1.Py
Spark
库的安装清华大学源:pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplepy
spark
2.构建Py
Spark
执行环境入口对象"""演示获取
Hooray11
·
2024-01-05 05:48
python自学
python
开发语言
linux增加用户
#linux创建账户并自动生成主目录和主目录下的文件useradd-d/home/
spark
-m
spark
#带有加入root组的创建方式useradd-d/home/
spark
-groot-m
spark
心在梦梦藏心
·
2024-01-05 05:47
模拟电路基础
知识笔记
,你想知道的都有,建议收藏!
大家总说模电知识总是学不会,IC修真院为大家整理了模拟电子基础知识,看看你掌握了多少,文末可以获取全部哦。文末可领全部文档1、PN结是晶体二极管的基本结构,也是一般半导体器件的核心。2、射极输出器没有电压放大能力,由于其输出电阻小,所以有较强的带负载能力。3、振荡器是一个具有选频网络的正反馈放大器。4、差动放大器的放大的信号有两种,即共模信号和差模信号,我们总是希望差模放大倍数大一些,而共模放大倍
IC修真院
·
2024-01-05 04:46
笔记
模拟IC
模电
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有
Spark
kikiki2
·
2024-01-05 00:48
知识笔记
(七十)———tp5中的增删改查(详细)
增添加多条数据添加多条数据直接向Db类的insertAll方法传入需要添加的数据即可$data=[['foo'=>'bar','bar'=>'foo'],['foo'=>'bar1','bar'=>'foo1'],['foo'=>'bar2','bar'=>'foo2']];Db::name('user')->insertAll($data);助手函数写法//添加单条数据db('user')->i
瑞崽崽崽
·
2024-01-05 00:32
笔记
java
前端
知识笔记
(六十八)———thinkphp,数据库中的链式操作
where方法的用法是ThinkPHP查询语言的精髓,也是ThinkPHPORM的重要组成部分和亮点所在,可以完成包括普通查询、表达式查询、快捷查询、区间查询、组合查询在内的查询操作。where方法的参数支持字符串和数组,虽然也可以使用对象但并不建议。table方法主要用于指定操作的数据表。alias用于设置当前数据表的别名,便于使用其他的连贯操作例如join方法等。field方法属于模型的连贯操
瑞崽崽崽
·
2024-01-05 00:01
笔记
知识笔记
(六十九)———缓冲区溢出攻击
1.什么是缓冲区溢出(1)缓冲区缓冲区是一块连续的计算机内存区域,用于在将数据从一个位置移到另一位置时临时存储数据。这些缓冲区通常位于RAM内存中,可保存相同数据类型的多个实例,如字符数组。计算机经常使用缓冲区来帮助提高性能,大多数现代硬盘驱动器都利用缓冲优势来有效地访问数据,并且许多在线服务也使用缓冲区。例如,在线视频传送服务经常使用缓冲区以防止中断。流式传输视频时,视频播放器一次下载并存储20
瑞崽崽崽
·
2024-01-05 00:01
笔记
Spark
SQL、RDD和DataFrame基本操作
1三者比较易操作程度
Spark
SQL>DataFrame>RDD2创建RDD、DataFrame和
Spark
SQL2.1创建RDDrawUserData=sc.textFile("file:/home/
路人乙yh
·
2024-01-04 23:39
金色麦芒的2023
通过学习Hadoop、
Spark
等框架,我掌握了大数据的存储、处理和分析技术,能够更高效地处理大规模数据集。同时,我也深入学习
溜达的大象
·
2024-01-04 22:44
程序人生
spark
资源动态释放
通过
spark
-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,yarn新版本默认已经支持了,我们使用的是HDP。
kikiki2
·
2024-01-04 21:46
玉米妈的Scalers Talk第四轮新概念朗读持续力训练Day46 20181122
练习材料:Lesson46:Expensiveanduncomfortable任务配置:L0+L1
知识笔记
:清辅音【ts】上下齿自然合拢,嘴唇张开不要太大。舌端贴住齿龈,堵住气流。
攀登的玉米妈
·
2024-01-04 20:59
RDD持久化
RDD(ResilientDistributedDataset)叫做弹性分布式数据集,的其中一个特性就是弹性存储的弹性:
spark
计算过程中中间结果会保存
万事万物
·
2024-01-04 19:33
咣咣咣的ScalersTalk第四轮新概念朗读持续力训练Day18 20181025
练习材料2-18任务配置L0+4
知识笔记
landlord店主练习感悟标准标题好长啊,标题比正文还长太傻了
推土机咣咣咣
·
2024-01-04 18:30
aaaaaa
然后,在SimpleApp.scala代码文件中输入以下代码:/*SimpleApp.scala*/importorg.apache.
spark
.
Spark
Contextimportorg.apache.
spark
.
Spark
Context
SunsPlanter
·
2024-01-04 15:24
java
Spark
---RDD算子(单值类型Value)
文章目录1.RDD算子介绍2.转换算子2.1Value类型2.1.1map2.1.2mapPartitions2.1.3mapPartitionsWithIndex2.1.4flatMap2.1.5glom2.1.6groupBy2.1.7filter2.1.8sample2.1.9distinct2.1.10coalesce2.1.11repartition2.1.12sortBy1.RDD算子
肥大毛
·
2024-01-04 11:16
spark
大数据
spark
javascript
服务器
实时数据处理概述与
Spark
Streaming简介
Spark
Streaming是Apache
Spark
生态系统中的一个模块,专门用于实时数据处理。本文将深入探讨实时数据处理的概念,并介绍如何使用
Spark
Streaming来处理实时数据流。
晓之以理的喵~~
·
2024-01-04 11:16
Spark
spark
c#
大数据
2024.1.3
Spark
on Yarn部署方式与工作原理
目录
Spark
集群类型有以下几种:
Spark
的部署方式有以下几种:
Spark
onYARN的部署方式有两种:client模式和cluster模式。
白白的wj
·
2024-01-04 11:44
spark
大数据
分布式
开发语言
python
Spark
Streaming的DStream与窗口操作
实时数据处理已经成为当今大数据时代的一个重要领域,而
Spark
Streaming是Apache
Spark
生态系统中的一个关键模块,用于处理实时数据流。
晓之以理的喵~~
·
2024-01-04 11:42
Spark
spark
大数据
分布式
Java技术栈 —— Hadoop入门(一)
解析3.1Hadoop生态介绍3.1.1MapReduce-核心组件3.1.2HDFS-核心组件3.1.3YARN-核心组件3.1.4其它组件3.1.4.1HBase3.1.4.2Hive3.1.4.3
Spark
键盘国治理专家
·
2024-01-04 08:02
Java技术栈
java
hadoop
开发语言
Spark
二、
Spark
技术栈之
Spark
Core
Spark
Core
spark
核心:包括RDD、RDD算子、RDD的持久化/缓存、累加器和广播变量学习链接:https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ
eight_Jessen
·
2024-01-04 08:51
spark
scala
spark
大数据
分布式
2024.1.3
Spark
架构角色和提交任务流程
目录一.Yarn的角色回顾二、
Spark
提交任务流程1、
Spark
OnStandalone2.
Spark
onYarn三.
Spark
比MapReduce执行效率高的原因四.
Spark
的排序算子一.Yarn
白白的wj
·
2024-01-04 08:46
spark
大数据
分布式
python
开发语言
hdfs
mapreduce
mllib可扩展学习库java api使用
mllib可扩展学习库javaapi是使用Apache
Spark
构建的机器学习库,包括分类,聚类,特征提取和预处理等功能。本文将从以下几个方面详细介绍如何使用mllib可扩展学习库javaapi。
卖兔子的胡萝卜zz
·
2024-01-04 08:43
API接口开发系列
mllib
学习
java
Spark
- SQL查询文件数据
那么我们可以利用
spark
-sql直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会
spark
了,因为我就只会sql。使用方法csv
spark
.sql("select*fromcsv.
大猪大猪
·
2024-01-04 07:02
spark
资源动态释放
通过
spark
-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,yarn新版本默认已经支持了,我们使用的是HDP。
kikiki2
·
2024-01-04 07:35
【深度学习】02--框架
文章导读:•机器学习框架:•Scikit-Learn•
Spark
MLlib•深度学习框架•Theano蒙特利尔理工学院•TensorFlow谷歌•PytorchFacebook•Deeplearning4j
创造new_world
·
2024-01-04 06:55
Antlr4 - 自定义
Spark
SQL解析
Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的
Spark
计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙
大猪大猪
·
2024-01-04 04:40
Spark
RDD及其常用算子介绍
一、RDD介绍1.1什么是RDDRDD(ResilientDistributedDataSet),称作弹性分布式数据集,是
Spark
中最基本的数据抽象,表示一个不可变的,分区的,其中元素可以被并行计算的数据集合
文景大大
·
2024-01-03 23:40
Spark
---RDD介绍
文章目录1.
Spark
核心编程2.RDD介绍2.1.RDD基本原理2.2RDD特点1.弹性2.分布式:数据存储在大数据集群的不同节点上3.数据集:RDD封装了计算逻辑,并不保存数据4.数据抽象:RDD是一个抽象类
肥大毛
·
2024-01-03 23:34
spark
大数据
spark
学习
大数据
Spark
相关知识点(期末复习集锦)
嗨喽,最近小伙伴们快要期末考试了吧,下面是我对《
Spark
零基础实战》的总结,希望能帮助到你们。
夜をむかえる
·
2024-01-03 22:49
spark
大数据
分布式
from py
spark
.mllib.recommendation import Rating出错
进入py
spark
输入frompy
spark
.mllib.recommendationimportRating报错nomodulenamednumpy我的环境:centos6.5,python2.6显然是我的虚拟机系统里自带的
路人乙yh
·
2024-01-03 22:47
Spark
优化的小细节,堆和栈
堆和栈的使用。堆是内存存储对象,有较大的内存空间。栈是内存存储方法,内存空间分配较少。当程序多次调用一个方法时,可以将方法当做一个对象放入堆中,来减少栈内存的使用。降低CPU的占用,使更多内存分配到计算处理。
坐在你的树下
·
2024-01-03 22:38
Spark
向Hbase中写数据报异常:org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 5
解决:将第二行代码中的表名写全,并指定在哪个名称空间valtable:Table=con.getTable(TableName.valueOf("info:tb_order"))
夺命大翻斗
·
2024-01-03 22:12
spark
hbase
apache
数组索引越界异常
Causedby:org.apache.
spark
.
Spark
Exception:Jobabortedduetostagefailure:Task1instage0.0failed1times,mostrecentfailure
夺命大翻斗
·
2024-01-03 21:40
spark
学习大数据的第43天(python篇)——学习python第3天
Scipylibrary主要是积分运算,优化以及图形Matplotlib画图(二维图形)IPythonSympy用的不多pandas主要是数据分析,数据处理(比较重要)数据清洗,提供比较好的数据结构Dataframe(
spark
三岁清风
·
2024-01-03 21:18
maven
spring
mysql
python
简述
spark
的架构与作业提交流程
1.首先
spark
在yarn下的作业提交分两种,一种是yarn-cluster模式,一种是yarn-client模式。
scott_alpha
·
2024-01-03 18:48
上一页
22
23
24
25
26
27
28
29
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他