E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
——Spark
Big Data Tools完整攻略,一键连接Hadoop
BigDataTools完整攻略安装BigDataTools连HDFS连Hadoop连
Spark
写HDFS程序安装BigDataTools打开idea选择插件在Marketplace里面输入BigDataTools
轻夏
·
2023-10-14 02:50
hadoop
极致通俗
hadoop
大数据
spark
maven
linux
Hadoop-HA-Hive-on-
Spark
4台虚拟机安装配置文件
Hadoop-HA-Hive-on-
Spark
4台虚拟机安装配置文件版本号步骤hadoopcore-site.xmlhdfs-site.xmlmapred-site.xmlslavesworkersyarn-site.xmlhivehive-site.xml
spark
-defaults.conf
spark
hdfs-site.xmlhive-site.xmlslavesyarn-site.xmlsp
轻夏
·
2023-10-14 02:13
hadoop
hadoop
hive
spark
走进
Spark
什么是
Spark
是一个基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎,因为是基于内存的所以可以更快的完成任务离线计算:离线计算一般存储在HDFS中使用MapReduce
、小H
·
2023-10-14 01:52
spark
大数据
分布式
Flink笔记02——单词计数wc和集群部署
第一个Flink代码相信学过MR
Spark
的同学编写的第一个程序都是单词计数wordcount,同理这里南国也是以单词计数作为开始。
提灯寻梦在南国
·
2023-10-14 00:54
大数据
Flink
流计算单词计数
Standalone
Flink
on
Yarn
HA
Slot和paralism
Flink on K8s 在京东的持续优化实践
在2017年左右,我们实时计算是多个引擎并存的,包括Storm、
Spark
Streaming以及正在引入的新一代计算引擎Flink,其中St
pucheung
·
2023-10-14 00:53
网络
运维
大数据
分布式
编程语言
大数据 |
Spark
on K8S 在有赞的实践
转载自公众号:有赞Coder;原文链接:https://mp.weixin.qq.com/s/dcymNAco7P4IzuXA4pHezg一、前言随着近几年业务快速发展与迭代,大数据的成本也水涨船高,如何优化成本,建设低成本高效率的底层服务成为了有赞数据基础平台2020年的主旋律。本文主要介绍了随着云原生时代的到来,经历7年发展的有赞离线计算平台如何拥抱云原生,通过容器化改造、弹性伸缩、大数据组件
xyzhang2018
·
2023-10-14 00:21
数据库
大数据
spark
kubernetes
flink的架构原理常用代码实现
文章目录1.1什么是flink1.2flink特点1.3编程API二flink架构2.1架构图2.2含义三flink和其他框架对比3.1与
spark
角色对比3.2三大实时计算框架整体对比四flink环境搭建
清风竹雨
·
2023-10-14 00:49
#
Flink
flink
flink实时计算
flink异步io
watermark
flink架构原理
Spark
名词解释
程序外名词Application:应用程序应用程序就是用户编写的代码打包之后的jar包和相关的依赖Application=Driver+Executor(分布在集群中多个节点)Driver部分的代码:
Spark
Conf
他与理想国
·
2023-10-14 00:07
pycharm配置远程调试_重点
20221122打开服务器文件浏览器20220826经过堡垒机,也可以ide远程调试只需要管理员把ssh的新增一个端口,不用被堡垒机管控的端口20220718idea连接
spark
和hive20210923pycharm
weixin_ry5219775
·
2023-10-13 23:02
docker
pycharm
python
pip使用阿里云源加快安装
global]trusted-host=mirrors.aliyun.comindex-url=https://mirrors.aliyun.com/pypi/simple测试pipinstallpy
spark
行走于无形之中
·
2023-10-13 22:18
Spark
sql analyzer 过程解析
spark
sql为何要进行analyzer?
莱布尼茨不会求导
·
2023-10-13 16:13
py
spark
常用算子总结
欢迎关注微信公众号,更多优质内容会在微信公众号首发1.py
spark
中时间格式的数据转换为字符串格式的时间,示例代码fromdatetimeimportdatetimedate_obj=datetime
jp_666
·
2023-10-13 16:13
spark
Spark
Streaming
大纲1.
Spark
Streaming介绍2.
Spark
Streaming原理与架构3.DStream介绍4.DStream相关操作5.DStream操作实战6.DStream操作实战7.DStreams
c062197eecd2
·
2023-10-13 15:30
spark
SQL1.1入门
http://blog.csdn.net/book_mmicky/article/details/392887152014年9月11日,
Spark
1.1.0忽然之间发布。
laiwenqiang
·
2023-10-13 15:36
【Spark】
基于CentOS7、Hadoop2.7.7搭建
Spark
2.4.7、Zookeeper3.6.3并开启
spark
高可用模式
一.概述1.
spark
的三种部署模式1.1
Spark
onYARN
Spark
onYarn模式就是将
Spark
应用程序跑在Yarn集群之上,通过Yarn资源调度将executor启动在container中,
sirLateautumn
·
2023-10-13 15:56
#
大数据集群搭建
spark
zookeeper
spark
参数调优
Spark
在生成执行计划时会进行谓词下推的优化,对于内连接而言,过滤条件写在join中或者join后并没
wuli玉shell
·
2023-10-13 14:53
spark
ajax
javascript
spark
中的shuffle简述 那些会导致shuffle的算子
shuffle操作说白了就是重分区操作在Apache
Spark
中,任务之间的依赖关系主要分为两类:宽依赖(WideDependency)和窄依赖(NarrowDependency)。
电光火石尔
·
2023-10-13 14:19
spark
大数据
分布式
spark
中使用flatmap报错:TypeError: ‘int‘ object is not subscriptable
1、背景描述菜鸟笔者在运行下面代码时发生了报错:frompy
spark
import
Spark
Contextsc=
Spark
Context("local","apple1012")rdd=sc.parallelize
电光火石尔
·
2023-10-13 14:19
spark
javascript
前端
Spark
工作流程
Spark
的整个工作流程可以概括为以下步骤:创建
Spark
Session:应用程序首先需要创建一个
Spark
Session对象,它是与
Spark
的交互入口。
Young_IT
·
2023-10-13 14:46
大数据开发
spark
大数据
数据仓库
Spark
RDD简记
RDD概述1.什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是
Spark
中最基本的数据抽象。
Young_IT
·
2023-10-13 14:45
大数据开发
spark
大数据
分布式
spark
读取hive表字段,区分大小写问题
背景
spark
任务读取hive表,查询字段为小写,但Hive表字段为大写,无法读取数据问题错误:如何解决呢?
MrZhangBaby
·
2023-10-13 14:44
spark
hive
大数据
Spark
的主要组件及任务分工
Spark
是一个开源的分布式计算框架,旨在处理大规模数据集的快速计算和分析。
Young_IT
·
2023-10-13 14:12
大数据开发
spark
大数据
分布式
最新AI写作创作系统源码ChatGPT源码,支持AI绘画/支持OpenAI-GPT全模型+国内AI全模型
一、AI创作系统
Spark
Ai创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统+AI绘画系统,支持OpenAIGPT全模型+国内AI全模型。
白云如幻
·
2023-10-13 13:01
人工智能
ChatGPT
教程
人工智能
AI写作
AI作画
chatgpt
源码
Py
Spark
概述
Py
Spark
是Apache
Spark
的PythonAPI。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。它还提供了一个PySpar
菜鸟Octopus
·
2023-10-13 11:03
pyspark专栏
大数据
pyspark
计算机毕业设计之Python+
Spark
疫情大屏可视化 疫情爬虫可视化 疫情数据分析 大数据毕业设计
开发技术前端:vue.jsechartswebsocket后端API:springboot+
spark
+mybatis数据库:mysql爬虫:pythonchrome_driver创新点
Spark
大屏Python
计算机毕业设计大神
·
2023-10-13 11:08
Spark
性能优化-资源调优
Spark
性能优化分为四个方面:1、开发调优2、资源调优3、数据倾斜调优4、shuffle调优资源调优num-executors参数说明:该参数用于设置
Spark
作业总共要用多少个Executor进程来执行
Edison_Tu
·
2023-10-13 10:44
8.
Spark
Sql
定义
Spark
Sql是Apache
Spark
大数据框架的一部分,主要用于处理结构化数据和对
Spark
数据执行类sql的查询,
Spark
为其提供了一个称为DataFrame的编程抽象,充当分布式sql查询引擎功能集成
山间浓雾有路灯
·
2023-10-13 09:46
Spark
Hive 小文件合并
对于下游流程下游流程,不论是MR、Hive还是
Spark
,在划分分片(getSplits)的时候,都要从NN获取文件信息。这个过程的耗时与文件数成正比,同时受NN压力的影响。
longlovefilm
·
2023-10-13 08:26
spark
hive
spark
big
data
Spark
大数据平台
Apache
Spark
是专为大规模数据处理而设计的快速通用的计算引擎。
Hi~晴天大圣
·
2023-10-13 05:16
技术杂烩
spark
大数据
scala
spark
history网络流量占用高问题记录
生产环境遇到一台机器网络流量占用高告警由于监控只有机器总的网络流量,没有具体进程的于是只能登陆服务器,安装nethogs:yuminstallnethogs然后执行nethogs命令查看进程流量观察到主要是
spark
historyserver
Java小田
·
2023-10-13 05:46
#
spark
spark
history
spark
读取hive事务表
参考链接:
spark
通过JDBC读取hive事务表https://github.com/Gowthamsb12/BigData-Blogs/blob/master/
Spark
_ACIDimportorg.apache.
spark
.sql.jdbc.JdbcDialectobjectHiveDialectextendsJdbcDialect
Java小田
·
2023-10-13 05:44
备忘
spark
hive
big
data
All
Spark
火种链测评:不是Steem,高于Steem 原创内容确权,传播,价值变现的未来世界?
火种链官网:www.all
spark
chain.com火种链项目简介:All
Spark
火种链是一个基于Wanchain底层独立开发的一条行业公链,目的是打造“一个开放的内容网络”(引号
AllSpark社区
·
2023-10-13 03:28
spark
sql parse 过程
spark
sqlparse引擎ANTLR(ANotherToolforLanguageRecognition),kudu、presto、hive都是用ANTLR解析sql语句。
莱布尼茨不会求导
·
2023-10-13 03:57
centos
spark
单机版伪分布式模式
Spark
的部署方式包括Standalone、YARN、Mesos,在我们学习
Spark
编程的过程中,往往机器资源有限,于是可以采用伪分布式部署。
printf200
·
2023-10-13 03:32
zeppelin-0.7.3与
spark
2.3, hive, hbase配置
1.安装1.1下载页面会提供两种二进制包:zeppelin-0.7.3-bin-netinst.tgz默认只会提供
Spark
的Interpreterzeppelin-0.7.3-bin-all.tgz会提供各种各样的
尼小摩
·
2023-10-13 01:33
spark
2.4.3源码分析-Master、Worker启动
image.png1.Master源码分析1.查看${
SPARK
_HOME}/sbin/start-master.sh启动脚本启动的是org.apache.
spark
.deploy.maste
LancerLin_LX
·
2023-10-13 00:29
CoT 的方式使用 LLM 设计测试用例实践
前期准备import
Spark
Apiimportosfromdotenvimportload_dotenv,find_dotenv#以下密钥信息从控制台获取_=load_dotenv(find_dotenv
CrissChan
·
2023-10-13 00:45
AI系统的测试入门与实践
测试用例
一文理清Apache
Spark
内存管理脉络
Spark
作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解
Spark
内存管理的基本原理,有助于更好地开发
Spark
应用程序和进行性能调优。
weixin_34228387
·
2023-10-12 23:07
大数据
内存管理
运维
一文带你理清
Spark
Core调优的方方面面
前言本文的注意事项观看本文前,可以先百度搜索一下
Spark
程序的十大开发原则看看哦文章虽然很长,可并不是什么枯燥乏味的内容,而且都是面试时的干货(我觉得)可以结合PC端的目录食用,可以直接跳转到你想要的那部分内容图非常的重要
ZYQZXF
·
2023-10-12 23:58
PythonRDD[1] at RDD at PythonRDD.scala:53
运行
spark
程序时出现以下错误PythonRDD[1]atRDDatPythonRDD.scala:53解决方法原程序代码:frompy
spark
import
Spark
Conf,
Spark
Contextconf
阿龙的代码在报错
·
2023-10-12 21:07
报错锦集
spark分布式计算框架
数据分析
scala
开发语言
后端
RDD编程初级实践(基于python)
RDD编程初级实践(基于python)1.实验目的2.实验环境3.实验数据3.1py
spark
交互式编程(实验描述)3.2编写独立应用程序实现数据去重(实验描述)3.3编写独立应用程序实现求平均值问题(
不想掉头发啊!!
·
2023-10-12 21:36
大数据
spark
RDD(python
RDD创建从文件系统加载.textFile()支持本地文件系统分布式文件系统HDFS云端文件>>lines=sc.textFile("file:///usr/local/
spark
/mycode/rdd
KwokWyman
·
2023-10-12 21:01
python
hdfs
big
data
spark
driver 的功能是什么
1)一个
Spark
作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有
Spark
Context的实例,是程序的人口点;2)功能:负责向集群申请资源,向master注册信息,负责了作业的调度
浪漫の土狗
·
2023-10-12 20:22
spark
big
data
大数据
Spark
的Driver和Executor端代码划分
1.Driver、Executor端区分package
spark
Streamimportorg.apache.
spark
.sql.
Spark
Sessionimportorg.apache.
spark
.streaming.dstream.ReceiverInputDStreamimportorg.apache.
spark
.streaming
qwerdf@QAQ
·
2023-10-12 20:52
sparkCore
scala
spark
Spark
中的Driver
转自:http://www.jobplus.com.cn/article/getArticleDetail/30566
spark
的四种分布式运行模式如图所示,上方为
spark
的架构图,
spark
的组件可以分为四个部分
风是外衣衣衣
·
2023-10-12 20:21
spark
driver
spark
Spark
中Driver和Executor的个人理解
最近在学习
spark
,里面存在很多的概念,比较抽象。在这里说下个人对
Spark
中Driver和Executor的理解。
ShinonBo
·
2023-10-12 20:21
spark
对
Spark
中Driver的小研究
先说结论:1.Standalone模式中:client模式下,driver是
spark
-submit进程中开启的一个线程,然后通过反射执行driver代码的main方法。
程研板
·
2023-10-12 20:17
#
Spark原理与优化
spark
big
data
hadoop
Spark
源码(6) - 任务提交之 Driver 启动流程
一、Master处理Driver注册消息上次阅读到客户端发送了一个RequestSubmitDriver消息给Master,Master收到消息后开始处理。在Master类中搜索caseRequestSubmitDriver,可以看到具体的处理逻辑:首先创建了一个DriverInfo:valdriver=createDriver(description)newDriverInfo(now,newD
KK架构
·
2023-10-12 20:46
Spark
spark
源码
Driver
Spark
的driver理解和executor理解
Driver:Driver即运行Application的main()函数,并且创建
Spark
Context,创建
Spark
Context的目的是为了准备
Spark
应用程序的运行环境,在
Spark
中由
Spark
Context
一个大数据小菜鸟
·
2023-10-12 20:16
spark
大数据
big
data
Spark
的Driver节点和Executor节点
1.驱动器节点(Driver)
Spark
的驱动器是执行开发程序中的main方法的进程。它负责开发人员编写的用来创建
Spark
Context、创建RDD,以及进行RDD的转化操作和行动操作代码的执行。
郎er
·
2023-10-12 20:44
大数据
spark
上一页
64
65
66
67
68
69
70
71
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他