E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark大数据平台
大数据之Py
Spark
的RDD介绍
文章目录前言一、RDD简介二、RDD的特性三、RDD的特点总结前言之前的文章主要介绍
Spark
基础知识,例如集群角色、
Spark
集群运行流程等,接下来会进一步讨论
Spark
相对核心的知识,让我们拭目以待
敲键盘的杰克
·
2024-01-09 07:11
Spark
大数据
spark
py
spark
mysql rdd_Py
Spark
之RDD操作
一、什么是RDDAResilientDistributedDataset(RDD),thebasicabstractionin
Spark
.Representsanimmutable,partitionedcollectionofelementsthatcanbeoperatedoninparallel
辉月有话说
·
2024-01-09 07:40
pyspark
mysql
rdd
Py
Spark
之
Spark
RDD的持久化
、cache()二、persist三、缓存级别四、释放缓存五、什么时候缓存数据当某个RDD被使用多次的时候,建议缓存此RDD数据当某个RDD来之不易,并且使用不止一次,建议缓存此RDD数据frompy
spark
import
Spark
Context
飞Link
·
2024-01-09 07:07
Spark计算引擎
spark
缓存
大数据
Py
Spark
-
Spark
SQL基本介绍
目录
Spark
SQL基本介绍
Spark
SQL特点
Spark
SQL与Hive的异同
Spark
SQL的数据结构
Spark
SQL的入门创建
Spark
Session对象DataFrame详解DataFrame基本介绍
Sisi525693
·
2024-01-09 07:37
spark
大数据
分布式
2024.1.8 Day04_
Spark
Core_homeWork
目录1.简述
Spark
持久化中缓存和checkpoint检查点的区别2.如何使用缓存和检查点?
白白的wj
·
2024-01-09 07:37
spark
大数据
分布式
python
hadoop
big
data
DataFrame相关的API
目录DataFrame的操作方案SQL相关的API创建一个视图/表DSL相关的APIDSL的传递方式SQL的函数库
Spark
SQL的综合应用直接基于DataFrame来处理SQL方式DSL方式基于RDD
Sisi525693
·
2024-01-09 07:06
python
大数据
人工智能
spark
-sql字段血缘实现
spark
-sql字段血缘实现背景Apache
Spark
是一个开源的大数据处理框架,它提供了一种高效、易于使用的方式来处理大规模数据集。
王糍粑的小夕
·
2024-01-09 07:32
spark
spark
sql
大数据
Spark
---RDD(双值类型转换算子)
1.1intersection对源RDD和参数RDD求交集后返回一个新的RDD函数定义:defintersection(other:RDD[T]):RDD[T]//建立与
Spark
框架的连接va
肥大毛
·
2024-01-09 07:32
大数据
spark
scala
spark
服务器
大数据
Py
Spark
的RDD持久化
RDD迭代链条中只有最新的RDD,旧RDD会销毁,节省内存空间追溯旧RDD是依照血缘关系,使用持久化技术->1.RDD缓存,把某个RDD保留,rdd.cache()缓存到内存,rdd.persist(StorageLevel.DISK_ONLY_2)缓存到本地硬盘上,2个副本,不支持存HDFS,保留血缘关系清理缓存:rdd.unpersist()缓存的原理是写到对应节点的服务器上的本地内存或磁盘上
February13
·
2024-01-09 07:32
java
开发语言
Spark
Core------算子介绍
RDD基本介绍什么是RDDRDD:英文全称ResilientDistributedDataset,叫做弹性分布式数据集,是
Spark
中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合
小希 fighting
·
2024-01-09 07:01
spark
大数据
分布式
Spark
中 BroadCast 导致的内存溢出(
Spark
FatalException)
背景本文基于
Spark
3.1.1open-jdk-1.8.0.352目前在排查
Spark
任务的时候,遇到了一个很奇怪的问题,在此记录一下。
鸿乃江边鸟
·
2024-01-09 07:31
spark
大数据
spark
大数据
分布式
Py
Spark
之RDD的持久化
主要作用:提升
Spark
程序的计算效率注意事项:RDD的缓存可以存储在内存或者是磁盘上,甚至可以存储在Executor进程的堆外内存中。主要是放在内存中,因此缓存的数据是不太稳定可靠。
Sisi525693
·
2024-01-09 07:30
python
spark
Hive基本操作
Hive是类SQL语法的数据查询、计算、分析工具,执行引擎默认的是MapReduce,可以设置为
Spark
、Tez。Hive分内部表和外部表,外部表在建表的同时指定一个
X晓
·
2024-01-09 06:45
hive
big
data
mysql
某大厂大数据开发-外包面试
4.
spark
用过吗,用到的开发工具5.数据量多少,服务器台数6.数仓每层做了什么事,为什么这样做?
劝学-大数据
·
2024-01-09 06:42
面试
职场和发展
大数据
大数据开发-某外包公司
1.用过那些组件2.说下HDFS读写流程3.说下varchar和char区别4.说下数据库的事务5.
spark
的部署模式有哪些6.数据库和数据仓库的区别7.内部表和外部表的区别8.说下数据中台、数据仓库和数据湖的区别
劝学-大数据
·
2024-01-09 06:10
个人面试真题记录
大数据
spark
读sqlserver出现的异常
前言
Spark
通过JDBC读取数据之前很早写过一篇博客,本以为所有通过jdbc读取的方式都一样,谁知道这次读sqlserver的时候竟然出现的很多异常,这里把异常的问题进行记录。
SunnyRivers
·
2024-01-09 06:39
spark
sqlserver
ssl
版本不匹配
Py
Spark
& Dask 分布式集群环境搭建(Linux)
Spark
分布式环境搭建_Linux版9.0具体思路:先进行单机配置,然后复制Linux虚拟机、分发配置好的框架。
蒲魔树的种子
·
2024-01-09 06:04
linux
分布式
运维
py
spark
引入虚拟环境依赖包以及向yarn集群提交任务攻略
以虚拟环境引入project_demo项目包,并向
spark
yarn提交
spark
任务为例:将project_demo安装到虚拟环境中1)virtualenvlocal_venv#创建虚拟环境2)sourcelocal_venv
阿君聊风控
·
2024-01-09 06:33
spark
anaconda创建虚拟环境
最近在做项目时需要提交py
spark
任务到公司的
Spark
集群上,由于没有集群节点的相关权限,打算采用anaconda创建py
spark
的虚拟环境来进行。
追梦菜鸟
·
2024-01-09 06:33
Spark
Python
anaconda
pyspark
python虚拟环境可以运行py
spark
_py
spark
与 python 环境配置
主要是解决包依赖问题,通过virtualenv来解决,需要打包环境和
spark
是slave端运行环境一致,通过anaconda来解决,则完全不需要保持与线上
spark
机环境一致,只需要是linux系统即可
weixin_39663729
·
2024-01-09 06:33
py
spark
打包依赖包&使用python虚拟环境
一、anaconda创建python环境anaconda创建python环境在这篇博客中,已经很清楚地描述了如何通过anaconda来创建你需要的python环境:即合适的python版本和包含你需要的依赖包。二、打包python环境假设我们的python环境名称为py_env,那么在anaconda的安装目录下,会有这么一个目录:envs/py_env在Windows下,直接将使用压缩软件,将其
我就算饿死也不做程序员
·
2024-01-09 06:33
Spark
python
spark
python
pyspark
anaconda
Linux 环境安装Py
spark
Anaconda安装1.Anaconda的下载前往官网下载Linux环境的Anaconda安装包:下载地址2.安装包上传安装1.将下载好的安装包上传到linux系统中2.解压安装包root@master:~/env/conda#sh./Anaconda3-2023.09-0-Linux-x86_64.sh按回车多次按空格,直到看到最后时候输入yes再次输入yes输入想要安装的路径,注意:最后一个a
LiyC;
·
2024-01-09 06:32
大数据
linux
运维
服务器
hadoop集群搭建、
spark
集群搭建、py
spark
搭建(linux+window)
1、前言本文记录学习过程中Hadoop、zookeeper、
spark
集群搭建,主要为py
spark
库服务(具体为window上py
spark
环境和py
spark
库,linux上
spark
框架、py
spark
Lfx_come on
·
2024-01-09 06:02
hadoop
linux
spark
python
windows+pycharm+py
spark
+linux远程开发环境搭建
Anacondaliunx版本下载Anaconda|TheWorld’sMostPopularDataSciencePlatformAnacondalinux版本安装上传文件到虚拟机安装目录下在安装目录下运行程序sh./Anaconda3-2021.11-Linux-x86_64.sh按回车继续,之后按空格一直到yes/no输入yes再之后输入需要安装的目录之后就等待安装完成Anaconda换源s
王小磊~
·
2024-01-09 06:02
Hadoop
Python学习之路
spark
pyspark
python
大数据
pycharm
linux创建py
spark
虚拟环境
一、创建虚拟环境condacreate-ntestpython=3.6.6二、注意添加镜像vi/root/.condarcchannels:-http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/-http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/-http://mirrors.us
Python伊甸园
·
2024-01-09 05:02
linux
pytorch
人工智能
Spark
streaming架构中的Driver和Executor
Driver在Driver中,有StreamContext作为
Spark
Streaming的入口,
Spark
Streaming的最终处理实际还是交给
Spark
Context。
她雅_b28e
·
2024-01-09 05:43
【
Spark
】
Spark
作业执行原理--获取执行结果
一、执行结果并序列化任务执行完成后,是在TaskRunner的run方法的后半部分返回结果给Driver的:overridedefrun():Unit={...//执行任务valvalue=try{valres=task.run(taskAttemptId=taskId,attemptNumber=attemptNumber,metricsSystem=env.metricsSystem)thre
w1992wishes
·
2024-01-09 00:59
流式湖仓增强,Hologres + Flink 构建企业级实时数仓
实时计算在企业
大数据平台
的比重也在不断提高,部分行业已经达到了50%。Hologres+Flink通过众多的丰富企业级能力,替换开源复杂的各类技术组件,减少多种技术栈学习、多种集群运维、
Elivis Hu
·
2024-01-08 22:52
数仓
flink
大数据
大学生如何当一个程序员——第三篇:热门专业学习之路4
第三篇:热门专业学习之路41.机器学习2.深度学习3.Python数据分析模块4.
Spark
MLlib机器学习库5.做一个人工智能项目6.数学各位小伙伴想要博客相关资料的话关注公众号:chuanyeTry
笛秋白
·
2024-01-08 20:29
程序员修炼
学习
pandas应用和学习
Pandas包,无论是在数据分析领域还是在大数据开发场景都具有显著优势:①Pandas是Python的一个第三方包,也是商业和工程领域最流行的结构化数据工具集,用于数据清洗,处理以及分析.②Pandas和
Spark
MSJ3917
·
2024-01-08 16:33
pandas
学习
Saprk SQL基础知识
一.
Spark
SQL基本介绍1.什么是
Spark
SQL
Spark
SQL是
Spark
多种组件中其中一个,主要是用于处理大规模的[结构化数据]
Spark
SQL的特点:1).融合性:既可以使用SQL语句,也可以编写代码
MSJ3917
·
2024-01-08 16:32
sql
数据库
Selenium 遇见伪元素该如何处理?
前言问题发生在很多前端页面中,大家会见到很多::before、::after元素,比如【百度流量研究院】:比如【百度疫情
大数据平台
】:以【百度疫情
大数据平台
】为例,“累计确诊”文本并没有显示在HTML源代码中
明月与玄武
·
2024-01-08 13:51
python
UI
环境部署
selenium
测试工具
Spark
基础原理
Spark
OnYarn
Spark
OnYarn的本质
Spark
专注于分布式计算,Yarn专注于资源管理,
Spark
将资源管理的工作交给了Yarn来负责
Spark
OnYarn两种部署方式
Spark
中有两种部署方式
小希 fighting
·
2024-01-08 13:09
spark
大数据
python
大数据 Yarn - 资源调度框架
Yarn并不是随Hadoop的推出一开始就有的,Yarn作为分布式集群的资源调度框架,它的出现伴随着Hadoop的发展,使Hadoop从一个单一的大数据计算引擎,成为一个集存储、计算、资源管理为一体的完整
大数据平台
善守的大龙猫
·
2024-01-08 10:48
大数据
大数据
ai人工智能的本质和未来_人工智能如何塑造音乐产业的未来
ai人工智能的本质和未来ArtificialIntelligenceisasubjectthat
spark
stheimagination—andsplitsopinion.Proponentspointtotheproblem-solvingpotentialofmachinelearning
weixin_26632369
·
2024-01-08 09:04
人工智能
python
机器学习
大数据
深度学习
Word2Vec
word2Vec
spark
描述:Word2Vec是一个Estimator(评估器),它采用表示文档的单词序列,并训练一个Word2VecModel,该模型将每个单词映射到一个唯一的固定大小向量.Word2VecModel
鬼古神月
·
2024-01-08 09:27
【技术问题】CDH无法下载之后
很多以前的文章、书籍中提到CDH
大数据平台
,都是会引用Cloudera官网下载地址,例如:https://archive.cloudera.com/p/cm5/redhat/6/x86_64/cm/RPM-GPG-KEY-clo
yestolife123
·
2024-01-08 08:14
笔记
olap/
spark
-tungsten:codegen
因为clickhouse没有codegen,这节课就拿我比较熟悉的
spark
的tungsten来当例子,tungsten会g
SakamataZ
·
2024-01-08 07:28
spark
大数据
分布式
2024 .1.7 Day05_
Spark
_HomeWork;
Spark
_SQL
目录1.简述
Spark
SQL与HIVE的对比2.
Spark
SQL是什么?3.代码题需求1直接基于DataFrame来处理,完成
Spark
SQL版的WordCount词频统计。
白白的wj
·
2024-01-08 07:24
spark
sql
大数据
python
分布式
数据库
开发语言
Spark
基础二
一.
Spark
入门案例总结1.读取文件:textFile(path):读取外部数据源,支持本地文件系统和hdfs文件系统.2.将结果数据输出文件上:saveAsTextFile(path):将数据输出到外部存储系统
MSJ3917
·
2024-01-08 07:52
spark
大数据
分布式
Spark
Core基础知识
一.RDD的基本介绍1.什么是RDDRDD:英文全称ResilientDistributedDataset,叫做弹性分布式数据集,是
Spark
中最基本的数据抽象,代表一个不可变,可分区,里面的元素可并行计算的集合
MSJ3917
·
2024-01-08 07:52
spark
大数据
分布式
Spark
Core进阶知识
小知识:大数据开发人员/数据分析人员,必须要对自己统计的指标结果负责!!!结果数据的核对方式:1-在离线文件中直接ctrl+F搜索关键内容核对(不常用)2-一般原始数据会存放在MySQL/Hive中一份,可以编写和代码逻辑完全一样的SQL来进行核对,可以通过如下方式来提高核对效率(常用):2.1-如果是分区表,挑选几个分区进行核对即可2.2-可以在SQL的where语句中,添加数据过滤条件,例如:
MSJ3917
·
2024-01-08 07:52
spark
大数据
分布式
Spark
基础知识
一.
SPark
基本介绍1.
Spark
是什么?
MSJ3917
·
2024-01-08 07:21
spark
大数据
分布式
2024.1.7
Spark
SQL , DataFrame
目录一.
Spark
SQL简介二.
Spark
SQL与HIVE的异同三.DataFrame1.创建DataFrame2.RDD转换DataFrame四.操作DataFrameSQL方式:DSL方式:一.
Spark
SQL
白白的wj
·
2024-01-08 07:17
spark
sql
大数据
python
etl
数据仓库
hadoop
【期末网页设计】基于HTML学生信息管理系统网页项目的设计与实现
获取更多优质源码】web前端期末大作业:【毕设项目精品实战案例(1000套)】程序员有趣的告白方式:【HTML七夕情人节表白网页制作(110套)】超炫酷的Echarts大屏可视化源码:【Echarts大屏展示
大数据平台
可视化
程序员-html网页设计
·
2024-01-08 04:09
网页设计与制作
html
课程设计
前端
dreamweaver
最新最全ChatGPT角色Prompt预设词教程
使用指南1、可直复制使用2、可以前往已经添加好Prompt预设的AI系统测试使用(可自定义添加使用)https://ai.
spark
aigf.com雅思写作考官我希望你假定自己是雅思写作考官,根据雅思评判标准
白云如幻
·
2024-01-08 03:26
人工智能
AIGC
ChatGPT
chatgpt
prompt
人工智能
最新ChatGPT网站系统源码+详细搭建部署教程+Midjourney绘画AI绘画
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-08 03:51
人工智能
ChatGPT
软件源码
人工智能
chatgpt
语音识别
midjourney
AI作画
Spark
_算子调优
算子调优一:mapPartitions普通的map算子对RDD中的每一个元素进行操作,而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的map算子,假设一个partition有1万条数据,那么map算子中的function要执行1万次,也就是对每个元素进行操作。图2-3map算子image.png图2-4mapPartitions算子image.png比如,当要把RDD中的
bigdata张凯翔
·
2024-01-08 02:23
Spark
基础内容
Spark
基本介绍
Spark
是什么定义Apache
Spark
是用于大规模数据(large-scaladata)处理的统一(unified)分析引擎.
Spark
与MapReduce对比mapreduce架构图如下
小希 fighting
·
2024-01-08 02:39
spark
大数据
分布式
深圳内推 | 腾讯
大数据平台
混元AIGC团队招聘文生3D方向算法实习生
合适的工作难找?最新的招聘信息也不知道?AI求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!腾讯腾讯混元大模型是由腾讯全链路自研的实用级大模型,拥有超千亿参数规模、预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。腾讯已将大模型技术深度应用到多个业务场景中,包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾
PaperWeekly
·
2024-01-08 02:08
大数据
AIGC
上一页
21
22
23
24
25
26
27
28
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他