E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
——Spark
Spark
on Hive 和 Hive on
Spark
的区别与实现
1)
Spark
onHive
Spark
onHive是Hive只作为存储角色,
Spark
负责sql解析优化,执行。
Alex_81D
·
2023-10-19 02:53
大数据从入门到精通
big
data
Hive引擎MR、Tez、
Spark
Hive引擎包括:默认MR、Tez、
Spark
不更换引擎hive默认的就是MR。MapReduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
西奥斯
·
2023-10-19 02:23
大数据
hive
spark
hadoop
hadoop+
spark
整合
zookeeper安装zookeeper3.4.6安装
spark
高可用安装完成
spark
高可用安装hadoop安装hadoop安装整合hadoop+
spark
配置
spark
+hadoopHADOOP_CONF_DIR
葡小萄家的猫
·
2023-10-19 01:46
py
spark
对xgboost操作记录(待续)
1、连接py
spark
,配置xgboostpy
spark
版的xgboost下载链接链接:https://pan.baidu.com/s/15_4Fr6lZCVzxqp9eZ239LA提取码:9gs8里面的三个文件都放在此脚本的同级目录下
平原2018
·
2023-10-19 00:33
pyspark
算法
xgboost
spark
星火大模型简单 http api 服务端搭建
使用nginx搭建星火认知大模型http服务:https://github.com/xukeawsl/
Spark
_Http_Service
不太聪明的样子
·
2023-10-18 23:33
c++
c语言
http
spark
spark
在window上运行出现:java.io.IOException: (null) entry in command string: null chmod 0644
window上运行
spark
程序出现java.io.IOException:(null)entryincommandstring:nullchmod0644解决方法:下载hadoop.dll文件,拷贝到
仔仔H
·
2023-10-18 23:45
三、Flink常用的转换算子
Flink常用转换算子常用转换算子类型一、基本转换算子1、map2、filter3、flatMap二、键控流转换算子1、keyBy:分组聚合,类似
spark
的groupByKey算子,将相同的key存到同一个分区中
末名赶上
·
2023-10-18 21:20
flink学习
java
flink
spark
stream
lambda
windows 中 tree 命令的使用
.├─4BI│└─data├─4Cassandra│└─data├─4MySQL│└─data├─4
Spark
│└─data├─4Tomcat│├─data│└─scripts│├─scripts
GZMetrics
·
2023-10-18 21:45
Windows
windows
spark
application job自定义日志输出
前言
spark
默认采用log4j作为日志框架,并且采用${
SPARK
_HOME}/conf/log4j.properties作为默认的日志配置,默认如下:log4j.rootLogger=${root.logger
凡尔Issac
·
2023-10-18 18:30
Python利用boto3以及Py
spark
操作AWS S3
文章目录一、需求背景二、Py
spark
S3的读写1.Py
spark
读取hive表数据写入s3:2.Py
spark
读取s3数据写入hive表:三、Boto3读写s3上的文件1.Boto3读写2.其他用法Reference
建微知筑
·
2023-10-18 17:56
数据分析
aws
hive
big
data
Flink SQL 时区
大数据技术AIFlink/
Spark
/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料95篇原创内容公众号TIMESTAMPvsTIMESTAMP_LTZTIMESTAMP类型TIMESTAMP
hyunbar
·
2023-10-18 17:38
Flink
大数据
分布式
java
大数据
数据分析小结:使用流计算 Oceanus(Flink) SQL 作业进行数据类型转换
将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程(即ETL过程),则需要开发人员则需要掌握
Spark
、Flink等技能,使用的技术语言则是Java、Sc
腾讯云大数据
·
2023-10-18 17:38
字符串
可视化
大数据
python
java
Spark
集群运行xgboost4j-
spark
总结
最近搞了2个周的xgboost4j-
spark
,整个人都不好了!太难了!下面说说自己遇到的主要问题吧,希望对刚开始使用xgboost4j-
spark
的朋友有一定的帮助。
泉水豆花儿
·
2023-10-18 16:16
Hadoop和Spark
spark
xgboost4j
2021-10-02
今天是国庆的第二天,按照昨天的计划做了很多事,如下:1.安装hadoop环境2.安装
spark
环境,并使用
spark
contxt的readFile读取文件,使用了dataset的filter,map,count
Sophie12138
·
2023-10-18 14:23
Spark
Streaming 如何整合 Kafka
Kafka回顾核心概念图解Broker:安装Kafka服务的机器就是一个brokerimageProducer:消息的生产者,负责将数据写入到broker中(push)Consumer:消息的消费者,负责从kafka中拉取数据(pull),老版本的消费者需要依赖zk,新版本的不需要Topic:主题,相当于是数据的一个分类,不同topic存放不同业务的数据–主题:区分业务Replication:副本
染墨安然
·
2023-10-18 14:20
ubuntu16.04
spark
连接hadoop配置
1.
spark
配置historyserver2.hadoop配置yarn3.hadoop添加配置cd/usr/share/hadoop/hadoop-2.7.7/etc/hadoop配置yarn-site.xmlsudovimyarn-site.xmlyarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-service
WJXZ
·
2023-10-18 13:05
Hive 中级练习题(40题 待更新)
前言最近快一周没更了,主要原因是最近在忙另一件事情(关于JavaFX桌面软件开发),眼看大三上一半时间就要过去了,抓紧先学Hive,完了把
Spark
剩下的补了,还有Kafka、Flume,任务还是不少的
让线程再跑一会
·
2023-10-18 11:04
hive
hadoop
数据仓库
基于内存的分布式NoSQL数据库Redis(五)数据存储与RDB设计
Spark
的RDD数据怎么保证安全性?解决磁盘存储:数据存储在硬盘上特点:容量大、安全性高、读写速度上相对不如内存解决:副本备份内存存储
大模型Maynor
·
2023-10-18 10:24
#
Redis
分布式
nosql
redis
关于
Spark
Rdd和
Spark
Sql的几个指标统计,scala语言,打包上传到
spark
集群,yarn模式运行
需求:❖要求:分别用
Spark
RDD,
Spark
SQL两种编程方式完成下列数据分析,结合webUI监控比较性能优劣并给出结果的合理化解释.1、分别统计用户,性别,职业的个数:2、查看统计年龄分布情况(按照年龄分段为
宇文智
·
2023-10-18 09:58
scala
spark
开发语言
Spark
Sql中多个Stage的并发执行
写一篇水水的技术文,总结一下
spark
sql中不同stage的并行执行相关,也是来自于一位群友的提问:我们群里有很多技术很棒并且很热心的大佬,哈哈~Hive中Job并发执行hive中,同一sql里,如果涉及到多个
小萝卜算子
·
2023-10-18 07:59
spark源码精读分析系列
hive
大数据
hadoop
spark
数据仓库
【
Spark
】RDD执行原理
目录什么是RDD执行原理1)启动Yarn集群环境2)
Spark
通过申请资源创建调度节点和计算节点3)
Spark
框架根据需求将计算逻辑根据分区划分成不同的任务4)调度节点将任务根据计算节点状态发送到对应的计算节点进行计算什么是
sdbhewfoqi
·
2023-10-18 07:58
Hive
&
Sql
&
Spark
Spark
核心概念(一)
1.什么是分布式计算分布式程序:Mapreduce,
Spark
程序1)多进程:一个程序由多个进程共同实现,不同进程可以运行在不同的机器上2)每个进程负责计算的数据是不一样的,都是整体数据的某一部分分布式资源
在上树的路上
·
2023-10-18 07:57
Spark
大数据
hadoop
yarn
spark
mapreduce
Spark
核心原理
文章目录1.
Spark
核心原理2.消息通信原理2.1.
Spark
运行时消息通信2.2.作业执行原理2.2.1.总述2.2.2.提交Job2.2.3.划分stage2.2.4.提交stage2.2.5.提交
SunnyZ-L
·
2023-10-18 07:56
Spark
spark
big
data
大数据
[
Spark
]
Spark
核心概念
Spark
概述1.
Spark
orHadoop?Hadoop的MapReduce和
Spark
同为计算框架,使用时如何选择?
bone_ds
·
2023-10-18 07:25
Spark
spark
big
data
hadoop
Spark
核心理解(一)
一基本术语Application:基于
Spark
的用用户程序,包含了Driver程序和集群上的Executor.DriverProgram:运行行main函数并且新建
Spark
Context的程序.ClusterManager
远方yf
·
2023-10-18 07:54
大数据处理框架学习
spark
集群
Spark
工作原理及基础概念(超详细!)
目录一、
Spark
概述(1)概述(2)
Spark
整体架构(3)
Spark
特性(4)
Spark
与MR(5)
Spark
Streaming与Storm(6)
Spark
SQL与Hive二、
Spark
基本原理(1
bhegi_seg
·
2023-10-18 07:21
面试
学习路线
阿里巴巴
spark
big
data
scala
c++
java
关于
Spark
中的多任务并发处理(Concurrency)
文章目录
Spark
中的多任务处理一个顺序作业的例子一个有缺陷的并发作业的例子一个优化过的并发作业的例子参考资料
Spark
中的多任务处理
Spark
的一个非常常见的用例是并行运行许多作业。
abc33880238
·
2023-10-18 07:21
大数据
scala
java
【
Spark
基础】
Spark
核心模块组成与功能概述
Spark
基于
Spark
Core开发了多种组件。开发人员可以基于这些组件,轻松完成多种不同场景的计算任务。
小强不吃菜
·
2023-10-18 07:20
spark
大数据
Spark
学习(二)---
Spark
运行架构和核心概念
1.
Spark
运行架构
Spark
框架的核心是一个计算引擎,它采用了master-slave的结构。图形中的Driver表示master,负责管理整个集群中的作业任务调度。
肥大毛
·
2023-10-18 07:50
spark
spark
学习
架构
py
spark
读取hdfs文件并导入到hive中
01.创建对象,设定日志级别frompy
spark
.sqlimport
Spark
Session
spark
=
Spark
Session.builder.config("
spark
.driver.host",
Gadaite
·
2023-10-18 07:31
SQL基础
Spark基础
hdfs
hadoop
big
data
java 从 HDFS 读取数据到本地文件
场景描述算法模型是java代码使用
spark
-submityarncluster运行的,输出结果存储在了HDFS上,可能因为数据结构比较复杂吧,所以没有选择将结果存储在hive表中。
骑着蜗牛向前跑
·
2023-10-18 07:31
Spring
Boot学习笔记
大数据
java
hdfs
hadoop
读取数据
本地
Spark
SQL连接获取MySQL、Hive、HDFS上的数据
本篇所有操作在Idea上完成
Spark
ToMySQL首先要在pom.xml中添加依赖包(根据的自己的使用的版本修改,不清楚的可以去maven官网查找自己对应版本的代码),对项目创建不清楚的可以:点击这里
菜鸟也学大数据
·
2023-10-18 07:58
菜鸟也学大数据
Spark
mysql
hive
数据库
spark
hdfs
CDH5.15 安装
spark
2 ,启动报错,求解
[root@hadoop1csd]#
spark
2-shellExceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop
秦记
·
2023-10-18 05:37
Spark
多维分析去重计数场景优化案例【BitMap精确去重的应用与踩坑】
关注交流微信公众号:小满锅场景前几天遇到一个任务,从前也没太注意过这个任务,但是经常破9点了,执行时长正常也就2个小时。看逻辑并不复杂,基本是几段SQL的JOIN操作,其中一个最耗时间的就是要根据底表数据Lateralviewexplode(array(字段,‘all’)),一共lateral了4个字段,相当于数据量要扩大16倍。并且可怕的场景,lateralview之后还对11个字段进行了去重。
小满锅lock
·
2023-10-18 04:05
spark
spark
数据仓库
etl
大数据
数据分析
海豚调度器初次使用 .......
二,先说说调用
spark
运行wordcount案例流程1,编写代码packagecom.sjb.exampleimportorg.apache.log4j.Loggerimportorg.apache.
spark
.rdd.RDDimportorg.apache.
spark
黄瓜炖啤酒鸭
·
2023-10-18 01:45
spark
spark
big
data
海豚调度器
dolphin
Scheduler
Seatunnel源码解析(4) - 启动
Spark
/Flink程序
Seatunnel源码解析(4)-启动
Spark
/Flink程序需求公司在使用Seatunnel的过程中,规划将Seatunnel集成在平台中,提供可视化操作。
張不惑
·
2023-10-18 01:13
数据传输
spark
flink
Seatunnel
Seatunnel源码解析(6)-Web接口启动Seatunnel2022-04-1309:07:15【張不惑】Seatunnel源码解析(6)-
Spark
Launcher启动Seatunnel
Spark
moooooze
·
2023-10-18 01:12
big
data
Spark
1.
Spark
概述1.1什么是
Spark
回顾:Hadoop主要解决,海量数据的存储和海量数据的分析计算。
Spark
是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
不吃香菜lw
·
2023-10-18 01:28
spark
scala
Hadoop on docker
一、这只是一个步骤说明,旨在教大家怎么在docker上搭建hadoop集群以及附着于hadoop的其他环境(hive,pig,hbase,
spark
……)。
帅哥家的猫
·
2023-10-18 00:39
安装centOS7报未知错误
U盘安装由于鼓捣Hadoop和
Spark
,使用U盘刻录方式安装CentOS7.1,但是发现安装初始化时候发生错误,本以为是U盘刻录或者是镜像的问题,但是反复刻录多遍仍然出错。
半度、
·
2023-10-17 19:00
linux
Spark
常用算子
转换算子value类型算子名称作用Map映射a->bflatMap扁平化[[a,b],[c,d]]->[a,b,c,d],二维变一维groupBy分组[1,2,3,4]->[[1,3],[2,4]],一维变二维filter过滤[1,2,3,4]->[2,4]符合条件进入,不符合去掉distinct去重[1,1,2,2]->[1,2]去重过程中存在shufflesortBy排序[1,3,2]->[1
十七✧ᐦ̤
·
2023-10-17 19:46
spark
java
服务器
Apache
Spark
的基本概念和在大数据分析中的应用
Apache
Spark
是一种快速、分布式的计算引擎,具有高度的可扩展性,能够以高效的方式处理大规模数据集。它是基于内存的计算框架,比传统的基于磁盘的HadoopMapReduce框架要快得多。
Roc-xb
·
2023-10-17 19:38
AI文章
spark
数据分析
大数据
记录一次hdfs存储异常
bash_operator.py:123}INFO-22/03/0209:54:52INFOstorage.BlockManagerInfo:Addedbroadcast_1_piece0inmemoryonhadoop-
spark
2
叫兽吃橙子
·
2023-10-17 17:15
SpringBoot整合IOTDB 基于SessionPool实现CRUD
它具有体量轻、性能高、易使用的特点,完美对接Hadoop与
Spark
生态,适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。
宁漂打工仔
·
2023-10-17 15:47
#
IoTDB
spring
boot
java
后端
2023_
Spark
_实验十六:编写LoggerLevel方法及getLocal
Spark
Session方法
一、搭建
Spark
项目结构在
Spark
Project模块的pom.xml文件中增加一下依赖,并等待依赖包下载完毕,如上图。
pblh123
·
2023-10-17 13:36
Spark实验
spark
大数据
分布式
【12】opencv图形绘制
参考:opencv——绘制图像(直线、矩形、椭圆、圆、填充)与文字_
Spark
!
MrMKG
·
2023-10-17 13:32
opencv学习笔记
opencv
计算机视觉
人工智能
测试Py
Spark
这篇文章旨在帮你写出健壮的py
spark
代码。在这里,通过它写py
spark
单元测试,看这个代码通过Py
Spark
built,下载该目录代码,查看JIRA
菜鸟Octopus
·
2023-10-17 13:53
pyspark专栏
pyspark
Spark
+smile项目(一):各种初探,包括文件读写,Bug解决等。
在IDEA构建了一个
spark
+smile的maven项目,用起来还是有各种bug。继续记录。
bensonrachel
·
2023-10-17 12:32
Spark
SQL访问Hive表数据
前提:Hive的元数据保存在MySQL中Hive配置文件hive-site.xml内容如下:javax.jdo.option.ConnectionURLjdbc:mysql://hadoop000:3306/hadoop_hive?createDatabaseIfNotExist=truejavax.jdo.option.ConnectionDriverNamecom.mysql.jdbc.Dri
温文尔雅的流氓
·
2023-10-17 10:24
Spark
Spark
SQL
spark
linux服务器日志信息,启动
Spark
历史记录服务器 - AWS Glue
启动
Spark
历史记录服务器您可以使用在EC2实例上托管服务器的AWSCloudFormation模板启动
Spark
历史记录服务器,也可以使用Docker在本地启动
Spark
历史记录服务器。
苗舰舰
·
2023-10-17 10:20
上一页
61
62
63
64
65
66
67
68
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他