E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
深入理解Spark
[
Spark
] 如何设置
Spark
资源
转自1.公众号[
Spark
学习技巧]如何设置
Spark
资源2.
Spark
性能优化篇一:资源调优
Spark
和YARN管理的两个主要资源:CPU和内存应用程序中每个
Spark
Executor都具有相同的固定数量的核心和相同的固定堆大小
LZhan
·
2024-01-31 10:07
java进阶
大数据史上最全Flink面试题,高薪必备,大数据面试宝典史上最全Hadoop面试题:尼恩大数据面试宝典专题1史上最全HBase面试题,高薪必备,架构必备史上最全Hive面试题,高薪必备,架构必备绝密100个
Spark
don't_know
·
2024-01-31 09:44
java
py
spark
学习-
spark
.sql.functions 聚合函数
https://
spark
.apache.org/docs/3.4.1/api/python/reference/py
spark
.sql/functions.html1.approx_count_distinct
heiqizero
·
2024-01-31 08:02
spark
spark
【
Spark
系列6】如何做SQL查询优化和执行计划分析
Apache
Spark
SQL使用Catalyst优化器来生成逻辑执行计划和物理执行计划。逻辑执行计划描述了逻辑上如何执行查询,而物理执行计划则是
Spark
实际执行的步骤。
周润发的弟弟
·
2024-01-31 08:01
spark
sql
大数据
【
Spark
系列5】Dataframe下常用算子API
Apache
Spark
DataFrameAPI提供了丰富的方法来处理分布式数据集。以下是一些常见的DataFrameAPI类别和方法,但这不是一个完整的列表,因为API非常广泛。
周润发的弟弟
·
2024-01-31 08:31
从零开始搞大数据
spark
大数据
分布式
(一)Py
Spark
3:安装教程及RDD编程(非常详细)
目录一、py
spark
介绍二、Py
Spark
安装三、RDD编程1、创建RDD2、常用Action操作①collect②take③takeSample④first⑤count⑥reduce⑦foreach⑧countByKey⑨saveAsTextFile3
唯余木叶下弦声
·
2024-01-31 08:57
大数据
python
python
spark
spark-ml
pyspark
Spark
性能调优
Spark
性能调优executor内存不足用`UNIONALL`代替`UNION`persist与耗时监控executor内存不足问题表现1:Containerxxisrunningbeyondphysicalmemorylimits.Currentusage
HanhahnaH
·
2024-01-31 08:26
Spark
spark
大数据
分布式
【Spring】Spring AOP原理
文章目录前言代理模式静态代理动态代理JDK动态代理CGLib动态代理总结前言前面我们学习了关于SpringAOP的使用,那么今天这篇文章,我们将
深入理解
SpringAOP的原理,也就是Spring是如何实现
不能再留遗憾了
·
2024-01-31 08:14
JavaEE
spring
java
后端
Spark
如何用累加器Accumulator收集日志
Spark
如何用累加器Accumulator收集日志Accumulator如何使用Accumulator收集日志
Spark
任务的实际运算是交由众多executor来执行的,如果再执行算子内部打印日志,是需要到对应的
HanhahnaH
·
2024-01-31 08:03
Spark
spark
大数据
分布式
分布式虚拟文件系统,如何实现多种存储系统的融合
随着大数据技术和人工智能技术的发展,各种框架应运而生,比如大数据领域中的MapReduce和
Spark
,人工智能领域中的TensorFlow和PyTorch等。
数据存储张
·
2024-01-31 07:20
分布式
深入理解
搜索引擎——搜索评价指标
搜索引擎,在做好query理解、索引召回以及排序模型之后,就能直接推上线了吗?答案是否定的,还需对其性能和质量进行评测。性能无非是对时间和空间的运行效率作评测,不细讲,今天讲讲搜索引擎的质量评测。通过质量评测,可根据评测结果不断的进行改进和研究,也可以验证搜索引擎在真实环境中运行时的实际效果。因此,搜索引擎的质量评测对于整个系统的研制和发展是至关重要的。那么有哪些指标可以评估搜索引擎的结果质量呢?
我是药老
·
2024-01-31 07:06
药老算法
搜索引擎
算法
机器学习
自然语言处理
数据挖掘
大数据-
Spark
-关于Json数据格式的数据的处理与练习
上一篇:大数据-MapReduce-关于Json数据格式的数据的处理与练习-CSDN博客16.7Json在
Spark
中的引用依旧利用上篇的数据去获取每部电影的平均分{"mid":1,"rate":6,"
王哪跑nn
·
2024-01-31 06:50
大数据
spark
大数据
spark
json
大数据开发:hadoop系统搭建以及
spark
编程
csdn这个坑先留着…传送门:https://github.com/louxinyao/Hadoop-
spark
墨染枫
·
2024-01-31 06:47
大数据开发
大数据
分布式
hadoop
spark
2024.1.25 Object_basic 用户画像标签开发过程 面向对象定义基类
/usr/bin/envpython#@desc:__coding__="utf-8"__author__="bytedance"frompy
spark
.sqlimport
Spark
Session,DataFramefrompy
spark
.sql.typesimportStringTypefr
白白的wj
·
2024-01-31 06:03
python
大数据
spark
database
elasticsearch
2024.1.20 用户画像标签开发,面向过程方法
/usr/bin/envpython#@desc:__coding__="utf-8"__author__="bytedance"frompy
spark
.sqlimport
Spark
Session,DataFramefrompy
spark
.sql.typesimportStringTypefromcom.bytedance.tag.base.parse_ruleimportEsMetaimpo
白白的wj
·
2024-01-31 06:32
python
大数据
hadoop
elasticsearch
spark
大数据存储与处理技术之
Spark
1、
Spark
简介•
Spark
最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序•2013年
Spark
小嘤嘤怪学
·
2024-01-31 05:28
spark
hadoop
2024.1.30
Spark
SQL的高级用法
目录1、如何快速生成多行的序列2、如何快速生成表数据3.开窗函数排序函数平分函数聚合函数向上向下窗口函数1、如何快速生成多行的序列--需求:请生成一列数据,内容为1,2,3,4,5仅使用select语句selectexplode(split('1,2,3,4,5',','))asnum;--需求:请生成一列数据,内容1~100python中有一个函数range(1,100)--SQL函数:http
白白的wj
·
2024-01-31 05:56
spark
sql
大数据
database
hive
数据仓库
数据库
Java入门高频考查基础知识8(腾讯18问1.5万字参考答案)
以下是几个面试技巧:
深入理解
核心概念:确保你对Java的核心概念,如对象、类、继承、多态、接口、异常处理和集合等有
深入理解
。你应该熟悉Java的基本语法和常用的类库。学习并掌
danci_
·
2024-01-31 03:04
JAVA后端-刷题
java
面试
职场发展
面试编程
腾讯java面试
程序人生
学习笔记
布局渲染流程与优化,CPU,GPU过渡绘制分析
这篇文章
深入理解
布局渲染流程与布局优化。
__素颜__
·
2024-01-31 01:38
Structured Streaming 基于 event-time 的窗口(Java语言)
在这种机制下,即不必考虑
Spark
陆续接收事件的顺序是否与事件发生的顺序一致,也不必考虑事件到达
Spark
的时间与事件发生时间的关系。因此,它在提高数据处理精度的同时,大大减少了开发者的工作量。
2301_79479951
·
2024-01-31 00:19
java
开发语言
spark
启动bin/
spark
-shell警告:WARN NativeCodeLoader: Unable to load native-hadoop library for your platform.
启动bin/
spark
-shell警告:WARNNativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable
2301_79479951
·
2024-01-31 00:18
spark
hadoop
大数据
捕捉儿童敏感期
敏感期得到充分发展的孩子,头脑清楚、思维开阔、安全感强、能
深入理解
事物的特性和
赤果果吖
·
2024-01-30 23:52
Emoji
深入理解
一,字符集,字符编码,Unicode,ASCII,UTF-16,大端序小端序
一疑问什么是Emoji,跟Unicode什么关系,要搞懂emoji为什么要先理解Unicode?什么是Unicode,跟ASCII什么关系?大端序小端序是什么概念?哪些机器用大端序,哪些机器用小端序、什么是编码?什么是码表?Java用的是什么编码?二编码字符集和字符编码表编码字符集(CodedCharacterSet即CCS)编码字符集的概念就是,给现实世界中的字符,对应的映射一个数字。这种映射,
木易白水君
·
2024-01-30 23:00
android
android
unicode
深入理解
Redis:如何设置缓存数据的过期时间及其背后的机制
目录Redis给缓存数据设置过期时间Redis是如何判断数据是否过期的呢?过期的数据的删除策略Redis内存淘汰机制Redis给缓存数据设置过期时间一般情况下,我们设置保存的缓存数据的时候都会设置一个过期时间。为什么呢?因为内存是有限的,如果缓存中的所有数据都是一直保存的话,分分钟直接Outofmemory。Redis自带了给缓存数据设置过期时间的功能,比如:127.0.0.1:6379>expk
无问287
·
2024-01-30 23:21
Redis
深入理解
Spring 事务原理
一、事务的基本原理Spring事务的本质其实就是数据库对事务的支持,没有数据库的事务支持,spring是无法提供事务功能的。对于纯JDBC操作数据库,想要用到事务,可以按照以下步骤进行:获取连接Connectioncon=DriverManager.getConnection()开启事务con.setAutoCommit(true/false);执行CRUD提交事务/回滚事务con.commit(
LiZhen798
·
2024-01-30 23:36
spring
微服务
数据库知识
数据库
spring
mysql
《
深入理解
计算机系统》实验三 —— Buf Lab
这是CSAPP的第三个实验,主要让我们熟悉GDB的使用,理解程序栈帧的结构和缓冲区溢出的原理。实验目的 本实验的目的在于加深对IA-32函数调用规则和栈结构的具体理解。实验的主要内容是对一个可执行程序“bufbomb”实施一系列缓冲区溢出攻击(bufferoverflowattacks),也就是设法通过造成缓冲区溢出来改变该可执行程序的运行内存映像,继而执行一些原来程序中没有的行为,例如将给定的
3561cc5dc1b0
·
2024-01-30 22:18
Python数值类型与数学函数:
深入理解
与高效应用
文章目录一、Python的数字1.数值类型1.1整型(int)1.2浮点型(float)1.3复数(complex)2.数字类型转换2.1int(x)2.2float(x)2.3complex(x)2.4complex(x,y)3.数字运算3.1round二、函数1.数学函数1.1abs(x)1.2ceil(x)1.3cmp(x,y)1.4exp(x)1.5fabs(x)1.6floor(x)1.
xiaobuding_QAQ
·
2024-01-30 21:35
Python学习
python
开发语言
003-90-16【
Spark
SQL&DF&DS】慈航寺庙山脚下八卦田旁油菜花海深处人家王二爷家女儿大红用GPT学习Rdd和Dataaset 以及DataFrame 的转换
003-90-16【
Spark
SQL&DF&DS】慈航寺庙山脚下八卦田旁油菜花海深处人家王二爷家女儿大红用GPT学习Rdd和Dataaset以及DataFrame的转换【
Spark
SQL&DF&DS】Dataset
一杯派蒙
·
2024-01-30 21:31
spark
gpt
学习
spark
大数据
分布式
Spark
SQL之函数解析
!!expr-Logicalnot.不的意思Examples:>SELECT!true;false>SELECT!false;true>SELECT!NULL;NULLSince:1.0.0!=expr1!=expr2-Returnstrueifexpr1isnotequaltoexpr2,orfalseotherwise.如果expr1不等于expr2则返回true,否则返回false。Argu
OnePandas
·
2024-01-30 21:00
Spark
spark
#启发日记#18:知之为知之,不知为不知,是知也。2021-04-08
知识点:
深入理解
的4个步骤那么,该怎么做才能“
深入理解
”呢?我用4个步骤介绍实践方法。
全無
·
2024-01-30 20:36
从术语到
Spark
,10篇必读大数据学习资源
本文给想进入大数据领域的朋友提供了一系列的资源,由浅入深,比如“需要了解的51条大数据术语”、“学习python的四个理由”、“十一个必须要参加的大数据会议”等有趣的话题。相信各种背景的朋友都会在这篇文章中有所收获。之前,我们已就数据可视化进行了深入探讨。这次,我们将从更基本的概念讲起,以便在涉足更复杂的数据科学和商业智能之前能够真正理解大数据。文中会引领大家阅读介绍大数据的相关文章,研究网络上流
大数据的时代
·
2024-01-30 20:34
C语言之指针篇【超详细讲解,带你层层
深入理解
指针】
目录一、关于指针二、指针类型1、整型指针的访问权限说明:2、字符指针的访问权限说明:3、指针的类型决定向前或向后一步走了多大距离三、野指针相关知识1、野指针的成因①指针未初始化②指针的越界访问③指针所指向的空间释放了2、如何规避野指针①指针要初始化②要注意指针越界的问题③指针所指向的空间及时置NULL④避免返回局部变量的地址⑤指针使用之前检查有效性四、常量指针和指针常量1、常量指针2、指针常量五、
青春_strive
·
2024-01-30 19:00
C语言
c语言
Spark
Submit提交时,Json字符串作为参数
今天遇到一个把json作为参数传入
spark
程序中的问题原因如下,
Spark
源码中会对把}}和{{替换掉@VisibleForTestingpublicstaticStringexpandEnvironment
南修子
·
2024-01-30 19:21
Spark
读取、写入时序数据库TDengine以及TDengine概述
一、TDengine是什么TDengine是一款高性能、分布式、支持SQL的时序数据库,其核心代码,包括集群功能全部开源(开源协议,AGPLv3.0)。TDengine能被广泛运用于物联网、工业互联网、车联网、IT运维、金融等领域。除核心的时序数据库功能外,TDengine还提供缓存、数据订阅、流式计算等大数据平台所需要的系列功能,最大程度减少研发和运维的复杂度。1.TDengine总结出了物联网
Alex_81D
·
2024-01-30 18:10
数据库
大数据基础
时序数据库
PDF如何提取页面
操作软件:旋风PDF编辑器下载地址:http://www.679
spark
le.com/pdfeditor1.下载旋风PDF编辑器安装完之后,点击右下角的打开文件按钮
六号_db7a
·
2024-01-30 18:24
Kafka 记录
推荐资源官网http://kafka.apache.org/Githubhttps://github.com/apache/kafka书籍《
深入理解
Kafka核心设计与实践原理》Kafka架构Kafka
Beth_Chan
·
2024-01-30 16:00
Java
数据
Kafka
Java
MQ
Message
Queue
如何接手一个大数据项目
以下是个人的一些思考总结:了解一个大数据系统,我认为需要从以下几个方面入手:宏观方面:1.了解系统的整体架构和技术栈:需要了解系统中使用的技术栈,包括各种大数据组件和工具,例如Hadoop、
Spark
、
Mmj666
·
2024-01-30 15:19
大数据
Spark
的核心RDD(Resilient Distributed Datasets弹性分布式数据集)
Spark
的核心RDD(ResilientDistributedDatasets弹性分布式数据集)铺垫在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念
fcyh
·
2024-01-30 15:46
Spark
Spark
RDD(弹性分布式数据集)
1.RDD1.1RDD是什么RDD(ResilientDistributedDataset):弹性分布式数据集,是
Spark
对数据集的抽象,代表一个只读、不可变、可分区、其中元素可进行并行计算的集合,并且是可跨越集群节点进行并行操作的有容错机制的集合
JOEL-T99
·
2024-01-30 15:15
BigData
spark
RDD
理解
Spark
中RDD(Resilient Distributed Dataset)
文章目录1RDD基础1.1分区1.2不可变1.3并行执行2RDD结构2.1
Spark
Context、
Spark
Conf2.2Partitioner2.3Dependencies2.4Checkpoint
小何才露尖尖角
·
2024-01-30 15:45
Spark
spark
RDD
弹性分布式数据集
依赖关系
RDD结构
Spark
RDD基础实战(弹性分布式数据集)
http://
spark
.apache.org/docs/latest/sql-data-sources-json.htmlhttp://jsonlines.org/examples/官网的准备的数据集合启动
蜗牛杨哥
·
2024-01-30 15:14
Spark
RDD编程实战指南
大数据
Spark
弹性分布式数据集(Resilient Distributed Dataset)
1.弹性分布式数据集RDD1.1.RDD概述1.1.1.什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是
Spark
中最基本的数据抽象,它代表一个不可变、可分区
你狗
·
2024-01-30 15:14
大数据
scala
Spark
——(RDD(弹性分布式数据集),RDD的创建和操作,Transformation 算子)
文章目录RDD(弹性分布式数据集)RDD的创建和操作常见的Transformation算子RDD(弹性分布式数据集)RDD(ResilientDistributedDataset)是
Spark
中的核心概念
想做CTO的任同学...
·
2024-01-30 15:12
Spark
spark
大数据
后端
开发语言
java
spark
学习笔记:弹性分布式数据集RDD(Resilient Distributed Dataset)
弹性分布式数据集RDD1.RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是
Spark
中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合
黄道婆
·
2024-01-30 15:39
bigdata
【
Spark
】之 RDD(Resilient Distributed Dataset)
文章目录RDD编程模型一、RDD之间的依赖关系(Dependency)如何生成RDD?二、RDD计算(1)RDD获得数据(2)RDD计算任务(3)RDD操作算子三、RDD容错(1)`Lineage`(2)`checkpoint`机制RDD编程模型需求:需要在多个并行操作之间重用工作数据集。典型场景:机器学习和图应用中常用的迭代算法(每一步对数据执行相似的函数)数据重用隐藏在系统实现背后,没有将重用
fanfan4569
·
2024-01-30 15:39
【Spark】
Spark
RDD
Spark
Core之RDD---弹性分布式数据集
不可变3.依赖关系4.缓存(cache)5.检测点(CheckPoint)四、RDD的创建1.通过并行化的方式创建RDD2.读取文件生成RDD3.通过其他RDD转换五、RDD运行过程RDD的设计与运行原理
Spark
孤独の√ 3
·
2024-01-30 15:09
大数据
#
spark
分布式
【
Spark
】RDD(Resilient Distributed Dataset)究竟是什么?
目录基本概念官方文档概述含义RDD出现的原因五大属性以单词统计为例,一张图熟悉RDD当中的五大属性解构图RDD弹性RDD特点分区只读依赖缓存checkpoint基本概念官方文档介绍RDD的官方说明:http://
spark
.apache.org
关于我转生变成程序猿这档事
·
2024-01-30 15:08
Spark
大数据
spark
RDD
弹性分布式数据集
大数据自学
横扫
Spark
之 - RDD(Resilient Distributed Dataset)弹性分布式数据集
概念二、理解1.弹性2.分布式3.数据集三、5个主要特性1.一个分区列表2.作用在每个分区上的计算函数3.一个和其他RDD的依赖列表4.一个分区器(可选)5.计算的最佳位置(可选)一、概念 RDD就是
Spark
阿年、嗯啊
·
2024-01-30 15:07
Spark
分布式
spark
大数据
RDD
RDD的5个主要特性
数据治理实践 | 小文件治理
背景小文件是如何产生的:日常任务及动态分区插入数据(使用的
Spark
2MapReduce引擎),产生大量的小文件,从而导致
语兴数据
·
2024-01-30 15:29
大数据
数据治理
小文件治理
数据仓库
django学科竞赛管理系统(程序+开题报告)
学科竞赛不仅能够激发学生的学习兴趣和热情,提高学生的实践能力和创新能力,还能够促进学科知识的
深入理解
和应用。然而,传统的学科竞赛管理方式存在着许多问题,如信息不对称、管理效率低下、数据混乱等。
暨阳程序
·
2024-01-30 14:26
django
python
后端
上一页
19
20
21
22
23
24
25
26
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他