E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
——Spark
Python快捷处理大数据:掌握Py
Spark
的基本原理和应用
在众多分布式计算框架中,Apache
Spark
是最受欢迎的之一,并且其Python版本——Py
Spark
也备受青睐。
ZP1008yy
·
2023-09-20 05:47
大数据
大数据
spark
scala
Python中统计单词出现的次数,包含(Py
Spark
方法)
'''思路:定义一个函数,使用open函数,将文本内容打开。定义一个空字典和空列表,进行循环及条件判断操作'''defcount_word(file_path):dict_data={}#定义一个空字典f=open(file_path,"r",encoding="UTF-8")list_data=f.read()list_data=list_data.split()#默认是空格为分隔符foriin
Jeff657
·
2023-09-20 05:16
python
开发语言
spark
3
spark
-sql explain 命令的执行过程
1.
Spark
SQLDriver对于每个SQL语句,除了CommandFactory定义的,如dfs之外,都创建一个
Spark
SQLDriver对象,然后调用他的init方法和run方法。
houzhizhen
·
2023-09-20 05:45
spark
spark
sql
[hive]搭建hive3.1.2hiveserver2高可用可hive metastore高可用
参考:Apachehive3.1.2从单机到高可用部署HiveServer2高可用Metastore高可用hiveon
spark
hiveserver2webUI高可用集群启动脚本_薛定谔的猫不吃猫粮的博客
胖胖学编程
·
2023-09-20 05:34
hive
hive
hadoop
数据仓库
简述
spark
SQL中RDD、DataFrame、DataSet三者的区别与联系
1.RDD优点:编译时类型安全;编译时就能检查出类型错误;面向对象的编程风格;直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销;无论是集群间的通信,还是IO操作都需要对对象的结构和数据进行序列化和反序列化;GC的性能开销,频繁的创建和销毁对象,势必会增加GC2.DataFrameDataFrame引入了schema和off-heapschema:RDD每一行的数据结构都是一样的,这个
scott_alpha
·
2023-09-20 04:32
Spark
常用算子详解(转换算子、行动算子、控制算子)
Spark
简介
Spark
是专为大规模数据处理而设计的快速通用的计算引擎;
Spark
拥有HadoopMapReduce所具有的优点,但是运行速度却比MapReduce有很大的提升,特别是在数据挖掘、机器学习等需要迭代的领域可提升
SUSUR_28f6
·
2023-09-20 03:33
py
spark
.sql.dataframe.DataFrame 怎么转pandas DataFrame
py
spark
.sql.dataframe.DataFrame怎么转pandasDataFrame要将Py
Spark
的py
spark
.sql.dataframe.DataFrame转换为PandasDataFrame
jp_666
·
2023-09-20 00:25
pandas
机器学习
人工智能
基于
Spark
的K-means快速聚类算法的优化
摘要1引言2相关研究2.1
Spark
计算框架2.2K-means算法2.3K-means++算法
Wzideng
·
2023-09-19 22:40
科研--论文--实验
机器学习
kmeans
聚类
算法
机器学习
人工智能
INFO org.apache.
spark
.scheduler.DAGScheduler: Missing parents: List(ShuffleMapStage 1)
Spark
调度器(DAGScheduler)在提交任务之前,主动解决了这个问题,并提交了具有没有缺失父阶段的ShuffleMapStage1。
墨卿风竹
·
2023-09-19 20:24
apache
spark
大数据
spark
的资源调整参数
–基础资源set
spark
.driver.memory=15g;set
spark
.driver.cores=3;set
spark
.driver.memoryOverhead=4096;set
spark
.executor.memory
墨卿风竹
·
2023-09-19 20:22
spark
大数据
分布式
大数据-
Spark
-
Spark
开发高频面试题
一、
spark
的内存分布堆内内存:在这使用堆内内存的时候,如果我们设置了堆内内存2个g的话,读取的数据也是两个g,此时又来两个g的数据,这样就会产生OOM溢出,因为处理完两个g的数据,并不会马上进行GC
zhou_hao_yan
·
2023-09-19 19:46
大数据
spark
分布式
Loki 日志系统分布式部署实践四 minio
Spark
、TensorFlow都可以使用对象存储,它也可以作为HDFS的代替者。minio出品自一个有着多年网络文件系统开发经验的团队
kong62
·
2023-09-19 18:49
spark
.read.option参数
参数解释sep默认是,指定单个字符分割字段和值encoding默认是uft-8通过给定的编码类型进行解码quote默认是“,其中分隔符可以是值的一部分,设置用于转义带引号的值的单个字符。如果您想关闭引号,则需要设置一个空字符串,而不是null。escape默认(\)设置单个字符用于在引号里面转义引号charToEscapeQuoteEscaping默认是转义字符(上面的escape)或者\0,当转
SYSU_BOND
·
2023-09-19 15:03
编程工具
spark
最新AI创作系统+ChatGPT商业运营源码+支持GPT4.0+支持国内AI模型/支持AI绘画
一、AI创作系统
Spark
Ai系统是基于很火的GPT提问进行开发的Ai智能问答系统。本期针对源码系统整体测试下来非常完美,可以说
Spark
Ai是目前国内一款的ChatGPT对接OpenAI软件系统。
白云如幻
·
2023-09-19 14:43
人工智能
教程
AIGC
人工智能
chatgpt
源码软件
AI作画
前端
spark
-sql sql on yarn --deploy-mode cluster 改造
前言众所周知,
spark
-sql不能提交到远端并且使用cluster进行部署:huangyichun@bigdata130023:~#
spark
-sql--masteryarn--deploy-modeclusterExceptioninthread"main"org.apache.
spark
.
Spark
Exception
青冬
·
2023-09-19 12:09
hadoop
spark
sql
大数据
【
Spark
】Py
Spark
DataFrame
1
Spark
Session执行环境入口2构建DataFrame2.1由rdd构建(StructType、StructField)2.2由pandas.DataFrame构建2.3由外部数据构建2.3.1text
rejudge
·
2023-09-19 12:09
Python
spark
【
Spark
】win10配置IDEA、saprk、hadoop和scala
我对这个效率不太满意,希望能快一点再快一点,这是学习
Spark
的前提。安装过程见:
spark
出py
spark
了,可直接用python调用。但是我想接触下scala。所以先装scala试试。
请给我一脚
·
2023-09-19 12:07
分布式
spark
intellij-idea
hadoop
实训笔记——
Spark
计算框架
实训笔记——
Spark
计算框架
Spark
计算框架一、
Spark
的概述二、
Spark
的特点三、
Spark
的安装部署(安装部署
Spark
的ClusterManager-资源调度管理器的)3.1本地安装--无资源管理器
cai-4
·
2023-09-19 10:19
实训
笔记
spark
大数据
AGV、RGV、四向车openTCS调度系统(五)openTCS WEB接口及扩展
接口使用
spark
-core包实现,
要这头发有何用·
·
2023-09-19 08:41
车辆调度系统
java
Flink相关
墨滴社区用Flink取代
Spark
Streaming!
丢雷劳谋
·
2023-09-19 07:24
大数据
flink
大数据
Hadoop+zookeeper+Flume+
Spark
+Kafka+Hbase大数据集群搭建
HadoopzookeeperFlume
Spark
KafkaHbase大数据集群搭建教程集群搭建流程一、环境的准备和必要软件的下载下载并安装vmvare虚拟机软件下载centos7系统镜像文件,下载链接下载
jjjkkkhhhggg
·
2023-09-19 07:42
开源项目观察8月报
hue1月19:4.11https://docs.gethue.com/releases/release-notes-4.11.0/支持iceberg数据源通过缓存Livysession中的信息来加速
Spark
SQL
xiaoliizi
·
2023-09-19 07:59
大数据
C++
golang
开源
大数据
Linux 的scp 指令提示:not a regular file
centos7下scp传文件时错误scp:/usr/local/
spark
/*:notaregularfile不能成功传送解决方案1:有可能没权限chmod7772:在使用scp时加上-r参数scp-
在奋斗的大道
·
2023-09-19 06:04
CentOS
随手笔记
Linux
指令学习
Spark
共享变量底层实现
Spark
一个非常重要的特性就是共享变量。 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中,此时每个task只能操作自己的那份变量副本。
Map_Reduce
·
2023-09-19 01:08
Flink与
Spark
的区别
三、Flink与
Spark
的区别3.1设计理念1、
Spark
的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时
Coding路人王
·
2023-09-18 16:48
flink
spark
hadoop
spark
flink
big
data
spark
->es快速导入数据
elasticsearch-
spark
提供了saveToEsapi以支持快速导入数据。但es集群线程池有限,在大量写入数据的同时,对cpu的压力非常大,影响线上es的查询服务。
Entry_1
·
2023-09-18 15:56
Netty(二)NIO-入门
Netty入门1.概述1.1NettyNetty是一个异步的,基于事件驱动的网络应用框架,用于快速开发可维护,高性能的网络服务器和客户端Cassandra,
Spark
,Hadoop,RocketMQ,ElasticSearch
xy294636185
·
2023-09-18 11:43
Netty
netty
Spark
-Shell的启动与运行
Spark
-Shell的启动与运行一、启动
spark
2.启动hadoop3.启动
spark
二、
Spark
Rdd的简单操作1.从文件系统加载数据创建ADD(1)从Linux本地文件系统加载数据创建RDD—
LMY~~
·
2023-09-18 08:40
spark
大数据
hadoop
spark
数据倾斜优化总结
一、数据倾斜产生原因数据倾斜就是部分task承担了过多的计算任务,导致整个stage都被卡。可能产生数据倾斜的场景如下操作场景join其中一个表比较小,但key值少join大表与大表,但key值中存在过多的特殊值,如0或nulljoinon条件包含key值过滤逻辑,导致部分数据被保留,部分被过滤,最终节点分布不均join多对多关系表join导致数据膨胀groupby某个组合数量特别多countdi
BugAngel233
·
2023-09-18 08:37
spark
大数据
分布式
spark
源码阅读之executor模块③
本文基于
Spark
1.6.3源码,采用一步一步深入的方式来展开阅读,本文是为了纪录自己在阅读源码时候的思路,看完一遍真的很容易忘记,写一篇文章梳理一遍可以加深印象。
invincine
·
2023-09-18 06:21
【DAY11 思考题】开头拆解:北航404名在校生被退学,博士痛失50万年薪,教育部:学生对自己不负责,就要付出代价
【我的昵称】
Spark
/火花君【爆款文链接】https://mp.weixin.qq.com/s?
最终抚慰
·
2023-09-18 04:58
基于
Spark
环境对比Python和Scala语言利弊
在数据挖掘中,Python和Scala语言都是极受欢迎的,本文总结两种语言在
Spark
环境各自特点。
A尚学堂Nancy老师
·
2023-09-18 01:13
calcite适配器
calcite是一个动态数据管理框架,它提供了SQL解析与校验,SQL优化,jdbc接口等能力,并且能够支持对不同数据源的适配以及对SQL语法的扩展等,目前被广泛用于
Spark
,Flink等大数据引擎中
无醉_1866
·
2023-09-18 01:15
HDP服务器上
spark
-sql联通hive元数据库
问题描述:金山云大数据平台(基于HDP)服务器上跑批数据加工脚本时,发现当中通过
spark
-sql执行的脚本没有执行,提示没有找到数据库;新打session窗口测试,通过
spark
-sql连接yarn后
NightFall丶
·
2023-09-17 23:44
#
Spark
#
hive
hive
数据库
服务器
IDEA Windows下
SPARK
连接Hive
IDEAWindows下
SPARK
连接Hive文章目录IDEAWindows下
SPARK
连接Hive一、本地Windows环境配置二、IDEA项目配置1.POM配置2.资源文件配置3.测试验证一、本地Windows
NightFall丶
·
2023-09-17 23:44
#
Spark
#
hive
#
Scala
hive
intellij-idea
windows
基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(二)
二、Hive、
Spark
SQL、Impala比较Hive、
Spark
SQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案,但又各有特点。
xuzhichao1231
·
2023-09-17 19:33
hadoop生态圈
hadoop
spark
数据可视化
数据仓库
生态圈
Spark
- SQL查询文件数据
那么我们可以利用
spark
-sql直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会
spark
了,因为我就只会sql。使用方法csv
spark
.sql("select*fromcsv.
大猪大猪
·
2023-09-17 19:17
Spark
对比MapReduce究竟提高了多少效率?
后起之秀
Spark
得益于其在迭代计算和内存计算上的优势,可以自动调度复杂的计算任务,避免中间结果的磁盘读写和资源申请过程,非常适合数据挖掘算法。腾讯TDW
Spark
平台基于社区最
丨程序之道丨
·
2023-09-17 19:28
【Flink实战系列】Flink如何提交任务到远程的集群
spark
在本地提交到远程的yarn集群上可以看这篇文章https://mp.weixin.qq.com/s/Rwz5uAI-TfnTBpppsMTfBgFlink提供了远程提交的环境createRemoteEnvironment
JasonLee实时计算
·
2023-09-17 17:39
Flink
实战系列
Flink
任务流调度工具AirFlow
知识点01:课程目标AirFlow介绍【了解】功能、特点架构角色、安装部署AirFlow使用【掌握】核心:调度脚本【Python|Shell】定时调度:LinuxCrontab表达式邮件告警:配置回顾
Spark
黑马程序员官方
·
2023-09-17 17:23
大数据
spark
分布式
最新AI系统ChatGPT源码+支持OpenAI全模型+国内AI模型+AI绘画
一、
Spark
AI智能创作系统
Spark
Ai创作系统是基于国外很火的ChatGPT进行开发的Ai智能问答系统。
只恨天高
·
2023-09-17 16:18
人工智能
程序源码
系统源码
chatgpt
人工智能
源码软件
AI作画
AIGC
最新AI创作系统ChatGPT源码/支持国内AI模型/支持GPT4.0/支持AI绘画
一、AI创作系统
Spark
Ai系统是基于国外很火的ChatGPT进行开发的Ai智能问答系统。
只恨天高
·
2023-09-17 16:48
人工智能
教程
系统源码
人工智能
chatgpt
源码软件
AI作画
AI写作
11.
Spark
Core-
Spark
运行原理
本文主要分以下章节:一、
Spark
专业术语定义二、
Spark
的任务提交机制一、
Spark
专业术语定义1、Application:
Spark
应用程序指的是用户编写的
Spark
应用程序,包含了Driver功能代码和分布在集群中多个节点上运行的
__元昊__
·
2023-09-17 16:24
2020-03-17
spark
学习笔记centos安装OracleVirtualBox:$sudoyuminstallkernel-develkernel-headersmakepatchgcc$sudowgethttps
陆寒晨
·
2023-09-17 16:12
Iceberg实战踩坑指南
目录第1章介绍第2章构建Iceberg第3章
Spark
操作3.1.配置参数和jar包3.2
Spark
sql操作3.2.1overwrite操作3.2.2动态覆盖3.2.3静态覆盖3.2.4删除数据3.2.5
数据与后端架构提升之路
·
2023-09-17 14:35
数据湖
大数据
Iceberg
flink
spark
Day69 Kafka 设计原理详解
Storm/
Spark
流式处理引擎web/nginx,访问日志消息服务开放统一接口给consumerhadoop,hbase等.装载到hadoop,数仓etl做离线分析和数据挖掘.ScreenShot2022
小周爱吃瓜
·
2023-09-17 12:39
安装Python第三方库
numpy库,科学计算领域Django库,web开发领域pandas库,数据分析领域py
spark
库,大数据领域等等…形成了Python的强大“生态
java1234_小锋
·
2023-09-17 11:17
Python
python
Apache
Spark
的基本概念和在大数据分析中的应用
Apache
Spark
是一个基于内存的分布式计算系统,可用于大规模数据处理、数据分析和机器学习。
指引拟态没
·
2023-09-17 10:42
开发语言
Spark
- 直接操作数据源 MySQL
答案就是使用
spark
的计算能力的,我们可以将mysql数据源接入到
spark
中。
大猪大猪
·
2023-09-17 10:16
(三十一)大数据实战——一键式DolphinScheduler高可用工作流任务调度系统部署安装
DolphinScheduler支持多种任务类型,包括Shell、SQL、
Spark
、Python、Sub-Process、HTTP、Flink等,同时也支持用户自定义任务类型。本节内容我
北溟溟
·
2023-09-17 10:12
大数据
大数据
上一页
76
77
78
79
80
81
82
83
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他