E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark安装部署
Hadoop2.7.6+Mysql5.7+Hive2.3.2+zookeeper3.4.6+kafka2.11+Hbase1.4.9+Sqoop1.4.7+Kylin2.4单机伪分布式安装及官方案例测
####################################################################最新消息:关于
spark
和Hudi的
安装部署
文档,本人已经写完,连接
运维道上奔跑者
·
2024-02-04 05:43
分布式
hbase
zookeeper
hadoop
py
spark
_1_理论篇(RDD基础)
跟着Leo学习Py
Spark
chapter1——rdd的基础编程指南一、准备工作1.背景介绍
Spark
是用scala编程语言实现的,为了使
Spark
支持Python,Apache
Spark
社区发布了一个工具
NikolasNull
·
2024-02-04 04:50
Kubernetes operator 如何根据自定义类型生成响应的代码的?
分享这篇文章的主要目的,是如何利用kubernetes来自定义类型,如
Spark
Application,从而使用脚本,生成响应的代码的这些代码是专门为自定义的类型
Spark
Application对象服务的
weixin_34109408
·
2024-02-04 00:09
Java Scala 混合编程导致 编译失败 ,【找不到符号】问题解决
Failedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:3.1:compile(default-compile)onproject
spark
-auth
0X码上链
·
2024-02-03 23:20
大数据
分布式技术
java
scala
开发语言
hadoop、
spark
、flink集群修改默认ssh端口号
大数据集群在实际搭建过程中,其默认ssh端口不一定都是22,这时需要根据各自的配置文件进行适配。ssh端口号默认为22,以centos7.x为例,可以在/etc/ssh/sshd_config中进行修改,如下示例将22改为22222:#IfyouwanttochangetheportonaSELinuxsystem,youhavetotell#SELinuxaboutthischange.#sem
0X码上链
·
2024-02-03 21:12
大数据
分布式技术
ssh
hadoop
spark
flink
Spark
程序执行逻辑迷你版
再把Task发出去DAGScheduler的功能,将rdd转换逻辑切分stage,生成taskset然后模拟taskScheduler的功能,将这些task发到Executor上去执行(真正的发送逻辑
spark
submit
{BOOLEAN}
·
2024-02-03 21:21
Spark
spark
大数据
java
2019-10-08 大数据开发进阶之路
市场需要的水平熟练掌握Linux、SQL与HiveSQL掌握Hadoop生态主流技术,如HDFS/MapRedunce/Yarn/HBase/Flume等掌握
Spark
生态核心技术,如
Spark
架构/RDD
红瓦李
·
2024-02-03 20:39
Spark
常用Transformations算子(二)
joincogroupcartesianpiperepartitionAndSortWithinPartitionsglomrandomSplitzipzipWithIndexzipWithUniqueId(2)joinobjectJoinTest{defmain(args:Array[String]):Unit={valconf=new
Spark
Con
数据萌新
·
2024-02-03 20:03
大数据环境搭建(一)-Hive
1hive介绍由Facebook开源的,用于解决海量结构化日志的数据统计的项目本质上是将HQL转化为MapReduce、Tez、
Spark
等程序Hive表的数据是HDFS上的目录和文件Hive元数据metastore
xfchn多多学习学习
·
2024-02-03 20:42
大数据
大数据
hive
hadoop
【
Spark
】
Spark
作业执行原理--提交任务
本篇结构:创建Task创建TaskSetManager并向DriverEndpoint发送消息分配资源发送消息告诉Executor去执行Task一、创建Task当调度阶段运行后,在DAGScheduler的submitMissingTasks方法中会根据调度阶段Partition数量拆分对应个数任务。对于ResultStage,生成ResultTask,对于ShuffleMapStage生成Shu
w1992wishes
·
2024-02-03 19:17
ubuntu22.04
安装部署
01:禁用内核更新
一、前言ubunut22.04系统安装以后,内核更新会导致各种各样的问题,因此锁定初始安装环境特别重要,下面介绍如何锁定内核更新。二、操作方法2.1查看可用内核dpkg--list|greplinux-imagedpkg--list|greplinux-headersdpkg--list|greplinux-modules2.2方法1:禁用自动更新vi/etc/apt/apt.conf.d/10p
数据饕餮
·
2024-02-03 17:36
图说Python菜鸟版
Python
服务器
linux
运维
Kuboard(k8s)
安装部署
mysql8.0
1、打开进入要部署数据库的名称空间2、创建工作负载1、基本信息2、容器信息3、存储挂载4、高级设置5、服务/应用路由3、点击保存出现如下内容就表示安装成功
半个夏凉了秋
·
2024-02-03 16:36
kubernetes
容器
云原生
k8s之
安装部署
及kuboard发布应用
目录环境准备系统规划配置免密将桥接的IPv4流量传递到iptables的链系统基础配置安装docker安装docker及基础依赖配置docker的仓库下载地址部署k8s添加阿里云的k8s源安装kubeadm,kubelet和kubectl初始化masteer节点部署node节点部署flannel网络插件下载插件应用flannel文件查看flannel状态部署kuboard查看kuboard所需的镜
蜗牛其实也很努力
·
2024-02-03 16:05
docker
kubernetes
容器
云原生
spark
WordCount
Spark
WC.scalapackageday06importorg.apache.
spark
.rdd.RDDimportorg.apache.
spark
.
lehuai
·
2024-02-03 16:27
阿里云服务器2核16G、4核32G、8核64G配置最新收费标准及活动价格
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8,这种配比的云服务器一般适用于数据分析与挖掘,Hadoop、
Spark
集群和数据库,缓存等内存密集型场景,因此,多为企业级用户选择,
阿里云最新优惠和活动汇总
·
2024-02-03 15:07
大数据组件笔记 --
Spark
入门
文章目录一、简介二、
Spark
运行模式2.1本地模式2.2集群角色2.3Standalone模式2.4Yarn模式2.5总结三、WordCount开发案例实操一、简介
Spark
是一种基于内存的快速、通用
L小Ray想有腮
·
2024-02-03 15:53
BigData
K8S简介和
安装部署
详细教程
目录一、K8S简介Kubernetes集群组件逻辑图Master节点组件及功能Slave节点组件及功能
安装部署
二进制包kubeadm工具二、准备工作软硬件要求集群规划环境配置修改hosts配置配置SSH
猫吃了源码
·
2024-02-03 15:20
k8s
kubernetes
java
容器
k8s
Spark
大数据分与实践笔记(Scala语言基础-1)
目录1.1Scala概述1.1.1Scala的下载安装1.1.2在IDEA开发工具中下载安装Scala插件1.1.3开发第一个Scala程序
Spark
是专为大规模数据处理而设计的快速通用的计算引擎,它是由
妉妉师姐
·
2024-02-03 15:49
大数据-linux-spark
scala
spark
java
大数据
SpringBoot或Jeecg 配置SSL实现https,http和https端口都要,http转发到https
如果没有阿里云腾讯云只是本地测试,可以参考https://www.cnblogs.com/
Spark
More/p/14067340.html有阿里云购买域名域名备案购买服务器宽带收费和流量收费都可以域名绑定服务器
天海华兮
·
2024-02-03 12:05
Java
EE
http
spring
boot
ssl
https
初识Apache Paimon
第0章前言0.1主流数据湖工具Delta:由
Spark
背后商业公司Databricks出品,因此很多功能强兼容
Spark
,对其他计算引擎不是很友好。
Racin_01
·
2024-02-03 12:30
apache
最新AI系统ChatGPT网站H5系统源码,支持Midjourney绘画局部编辑重绘,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-02-03 12:28
人工智能
软件源码
ChatGPT
人工智能
chatgpt
语音识别
midjourney
AI作画
Docker容器中的Docker-compose的学习安装
本来今天想写下实战的教程的,但是下载
spark
的内容太慢了。
胖琪的升级之路
·
2024-02-03 10:42
Kubernetes
目录Kubernetes概述K8S其主要功能K8S的特性Kubernetes集群架构与组件Kubernetes的
安装部署
操作系统初始化配置部署docker引擎部署etcd集群准备签发证书环境部署Master
偷个月亮吗733
·
2024-02-03 10:01
kubernetes
容器
云原生
OpenStack
安装部署
OpenStack是一个美国国家航空航天局和Rackspace合作研发的,以Apache许可证授权,并且是一个自由软件和开放源代码项目。OpenStack主要包括以下几个子项目:OpenStackCompute(Nova)、云对象存储CloudObjectStorage(Swift)、镜像管理(Glance)、身份识别Identity(Keystone),网络连接管理NetworkConnecti
Joshua_lzy
·
2024-02-03 10:26
Py
Spark
笔记(三):DataFrame
DataFrame是在
Spark
1.3中正式引入的一种以RDD为基础的不可变的分布式数据集,类似于传统数据库的二维表格,数据在其中以列的形式被组织存储。
Daisy丶
·
2024-02-03 10:31
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有
Spark
kikiki2
·
2024-02-03 10:05
AI+数据库——梳理Snowflake 和 Databricks 在峰会上的重要发布,快来看市值数百亿美金的数据巨头的贴身肉搏!
他们原本定位略有不同,Databricks是一个用于数据工程、数据科学和分析的集成环境,它构建在Apache
Spark
之上,提供实
小猿姐
·
2024-02-03 10:51
人工智能
数据库
【机器学习】3万字长文,Py
Spark
入门级学习教程,框架思维
为什么要学习
Spark
?
风度78
·
2024-02-03 08:00
大数据
entity
opencl
spark
hadoop
【数据开发】py
spark
入门与RDD编程
【数据开发】py
spark
入门与RDD编程文章目录1、py
spark
介绍2、RDD与基础概念3、RDD编程3.1Transformation/Action3.2数据开发流程与环节1、py
spark
介绍py
spark
小哈里
·
2024-02-03 08:58
#
后端开发
python
spark
pyspark
后端
大数据
Spark
如何用repartition来提升执行效率
Spark
如何用repartition来提升执行效率repartition是
Spark
中的一个转换操作,它可以用来增加或减少分区的数量。
HanhahnaH
·
2024-02-03 08:28
Spark
spark
ajax
大数据
scala
ubuntu22.04
安装部署
02:禁用显卡更新
一、查看可用显卡驱动ubuntu-driversdevices二、查看显卡信息#-i表示不区分大小写lspci|grep-invidianvidia-smi三、查看已安装显卡驱动cat/proc/driver/nvidia/version四、锁定显卡升级使用cuda自带额显卡驱动,居然无法,找到如何锁定,留个问号。五、停止和自动更新和升级服务sudosystemctlstopapt-daily.s
数据饕餮
·
2024-02-03 07:27
Python
人工智能
2019-03-16
Spark
基本架构及运行原理
Spark
Core:包含
Spark
的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集),提供了很多APIs来创建和操作这些RDDs。为其他组件提供底层的服务。
做一只乐观的小猴子
·
2024-02-03 02:04
kafka-zookeeper集群架构可视化监控,Kafka-Eagle
安装部署
1、简介在kafka-zookeeper集群架构下,zookeeper管理kafka的元数据信息,如何监控这些信息,并且能够直观查看和管理kafka一些具体主题、分区等参数信息,是非常便于开发的,因此Kafka-Eagle是一个为监控kafka集群量身定制的一个项目。2、Kafka-Eagle下载安装2.1、Kafka-Eagle下载下载地址:EFAK2.2、Kafka-Eagle安装#1、解压t
知其_所以然
·
2024-02-03 00:06
kafka
java技术
kafka
zookeeper
架构
2021年11月23号 linux系统
安装部署
文字介绍(无命令)
linux
安装部署
1.安装虚拟机首先如果直接装机可以存到U盘里安装如果只是学习去网上找一下vm虚拟机的安装资源先装虚拟机2.去阿里云镜像找centos7的镜像文件iso并保存到指定目录打开虚拟机,找到对应
linux舟停江吹雪
·
2024-02-02 22:25
linux
运维
linux
服务器
运维
python01-
安装部署
一、下载python解释器官网:https://www.python.org/downloads/选择一个版本部署,本次选择当前最新的,选择downloads下载在downloads页面的最下方,选择你要部署什么系统中,点击下载即可二、部署python解释器2.1、运行python解释器EXE部署选择自定义安装,不用推荐的选择姜python添加到PATH环境中python可能会用到的工具,点击NE
Jerry00713
·
2024-02-02 20:44
#
python基础开发
java
开发语言
深度学习的开源分布式框架Deeplearning4j
该框架基本上是由Hadoop和
Spark
集成的分布式深度学习库组成的。在Hadoop和
Spark
的帮助下,我们可以轻松地分发模型和大数据集,并运行
weixin_43106248
·
2024-02-02 19:13
深度学习
Hadoop
深度学习开源分布式框架
deeplearning4j
golang实现简单的流式处理
实现一个最简单的类似
spark
的流式处理流程包含map和filter数据typeStreamstruct{data[]int}map函数func(sStream)Map(ffunc(int)int)Stream
nil_ddea
·
2024-02-02 18:24
QT研究笔记(二)Qt 5.14.2 简单使用-使用vs2022创建第一个QT项目
QT研究笔记(一)windows开发环境
安装部署
。从这篇文章开始,我们正式开始qt项目的研究学习,今天给大家带来的是使用vs2022创建第一个Qt项目。
w风雨无阻w
·
2024-02-02 17:42
QT
qt
笔记
开发语言
史上最全的
spark
面试题
1.
spark
中的RDD是什么,有哪些特性?
@毛毛
·
2024-02-02 13:12
面试题
spark
livy使用样例_livy提交
spark
应用
spark
-submit的使用shell时时灵活性较低,livy作为
spark
提交的一种工具,是使用接口或者java客户端的方式提交,可以集成到web应用中1.客户端提交的方式核心代码LivyClientclient
阿里聚安全
·
2024-02-02 13:11
livy使用样例
Py
Spark
(一)
Spark
原理介绍、Py
Spark
初体验及原理
Spark
简介Apache
Spark
是用于大规模数据(large-scaladata)处理的统一(unified)分析引擎,其特点就是对任意类型的数据进行自定义计算。
独憩
·
2024-02-02 13:11
PySpark
python
分布式
大数据
spark
生产环境_
Spark
找出两DataFrame之间的差集(技巧)
在生产作业中,经常在工作流中遇到前后两DataFrame的数据缺失,比如df1为410条,下一个节点的df2就变成409条了,用眼睛看很费劲,因此不得不做一个差集。代码:/假设df1和df2是你的两个DataFramevaldf1=xxxvaldf2=ccc//使用except操作找出df1中存在但df2中不存在的数据valonlyInDf1=df1.except(df2)//使用except操作
Matrix70
·
2024-02-02 13:10
轨迹大数据智能处理
Spark开发_工作
spark
大数据
分布式
浅谈
Spark
Livy
Spark
Livy什么是LivyLivy的特点Livy的运作流程阐述Livy的安装、启动、访问Livy的使用1.什么是Livylivy是cloudera开发的通过REST来连接、管理
spark
的解决方案
浅汐yt
·
2024-02-02 13:40
spark
大数据
spark
大数据
【
Spark
实践6】特征转换FeatureTransformers实践Scala版--补充算子
本节介绍了用于处理特征的算法,大致可以分为以下几组:提取(Extraction):从“原始”数据中提取特征。转换(Transformation):缩放、转换或修改特征。选择(Selection):从更大的特征集中选择一个子集。局部敏感哈希(LocalitySensitiveHashing,LSH):这类算法结合了特征转换的方面与其他算法。FeatureTransformersIndexToStri
周润发的弟弟
·
2024-02-02 13:39
Spark机器学习
spark
scala
大数据
spark
相关面试题总结
1.
spark
中的RDD是什么,有哪些特性?
专注于大数据技术栈
·
2024-02-02 13:39
spark
[Scala学习笔记]
Spark
开发小笔记
Spark
开发小笔记:从0开始的
Spark
建图生活持续更新中……0.开发平台Zeppelin支持多种语言,默认是scala(背后是
spark
shell),
Spark
SQL,Markdown和Shell。
Rinnki
·
2024-02-02 13:39
Scala笔记
学习笔记
Scala
Spark
图
Scala 与
spark
7.23
例如:@transientval
spark
Context:
Spark
Context,Scala多行字符串之stripMargin方法https://www.jianshu.com/
qq_34872215
·
2024-02-02 13:09
spark
生产环境踩坑系列::Hive on
Spark
的connection timeout 问题
起因7/16凌晨,钉钉突然收到了一条告警,一个公司所有业务部门的组织架构表的ETL过程中,数据推送到DIM层的过程中出现异常,导致任务失败。因为这个数据会影响到第二天所有大数据组对外的应用服务中组织架构基础数据,当然,我们的Pla-nB也不是吃素的,一旦出现错误,后面的权限管理模块与网关会自动配合切换前一天的最后一次成功处理到DIM中的组织架构数据,只会影响到在前一天做过组织架构变化的同事在系统上
dclar_
·
2024-02-02 13:08
Spark
Hive
spark
hive
【
Spark
ML实践5】特征转换FeatureTransformers实战scala版
本节介绍了用于处理特征的算法,大致可以分为以下几组:提取(Extraction):从“原始”数据中提取特征。转换(Transformation):缩放、转换或修改特征。选择(Selection):从更大的特征集中选择一个子集。局部敏感哈希(LocalitySensitiveHashing,LSH):这类算法结合了特征转换的方面与其他算法。本章节主要讲转换1FeatureTransformersTo
周润发的弟弟
·
2024-02-02 13:08
Spark机器学习
spark-ml
scala
开发语言
spark
livy hue
1.下载livylivy为
Spark
提供了REST接口,有如下特性:*提供交互式shell*批量提交*多用户使用用一个服务(用户模拟)*可以从任何地方使用REST的方式提交*无需对代码进行任何修改wgethttp
bigdataf
·
2024-02-02 13:08
livy-spark
hue
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他