E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
实时处理spark安装部署
2021年11月23号 linux系统
安装部署
文字介绍(无命令)
linux
安装部署
1.安装虚拟机首先如果直接装机可以存到U盘里安装如果只是学习去网上找一下vm虚拟机的安装资源先装虚拟机2.去阿里云镜像找centos7的镜像文件iso并保存到指定目录打开虚拟机,找到对应
linux舟停江吹雪
·
2024-02-02 22:25
linux
运维
linux
服务器
运维
python01-
安装部署
一、下载python解释器官网:https://www.python.org/downloads/选择一个版本部署,本次选择当前最新的,选择downloads下载在downloads页面的最下方,选择你要部署什么系统中,点击下载即可二、部署python解释器2.1、运行python解释器EXE部署选择自定义安装,不用推荐的选择姜python添加到PATH环境中python可能会用到的工具,点击NE
Jerry00713
·
2024-02-02 20:44
#
python基础开发
java
开发语言
深度学习的开源分布式框架Deeplearning4j
该框架基本上是由Hadoop和
Spark
集成的分布式深度学习库组成的。在Hadoop和
Spark
的帮助下,我们可以轻松地分发模型和大数据集,并运行
weixin_43106248
·
2024-02-02 19:13
深度学习
Hadoop
深度学习开源分布式框架
deeplearning4j
golang实现简单的流式处理
实现一个最简单的类似
spark
的流式处理流程包含map和filter数据typeStreamstruct{data[]int}map函数func(sStream)Map(ffunc(int)int)Stream
nil_ddea
·
2024-02-02 18:24
SpringBoot使用Kafka详解含完整代码
1.前言随着大数据和
实时处理
需求的增长,Kafka作为一种分布式流处理平台,与SpringBoot的集成变得尤为重要。
孤蓬&听雨
·
2024-02-02 18:27
知识库
spring
boot
kafka
MQ
消息队列
QT研究笔记(二)Qt 5.14.2 简单使用-使用vs2022创建第一个QT项目
QT研究笔记(一)windows开发环境
安装部署
。从这篇文章开始,我们正式开始qt项目的研究学习,今天给大家带来的是使用vs2022创建第一个Qt项目。
w风雨无阻w
·
2024-02-02 17:42
QT
qt
笔记
开发语言
史上最全的
spark
面试题
1.
spark
中的RDD是什么,有哪些特性?
@毛毛
·
2024-02-02 13:12
面试题
spark
livy使用样例_livy提交
spark
应用
spark
-submit的使用shell时时灵活性较低,livy作为
spark
提交的一种工具,是使用接口或者java客户端的方式提交,可以集成到web应用中1.客户端提交的方式核心代码LivyClientclient
阿里聚安全
·
2024-02-02 13:11
livy使用样例
Py
Spark
(一)
Spark
原理介绍、Py
Spark
初体验及原理
Spark
简介Apache
Spark
是用于大规模数据(large-scaladata)处理的统一(unified)分析引擎,其特点就是对任意类型的数据进行自定义计算。
独憩
·
2024-02-02 13:11
PySpark
python
分布式
大数据
spark
生产环境_
Spark
找出两DataFrame之间的差集(技巧)
在生产作业中,经常在工作流中遇到前后两DataFrame的数据缺失,比如df1为410条,下一个节点的df2就变成409条了,用眼睛看很费劲,因此不得不做一个差集。代码:/假设df1和df2是你的两个DataFramevaldf1=xxxvaldf2=ccc//使用except操作找出df1中存在但df2中不存在的数据valonlyInDf1=df1.except(df2)//使用except操作
Matrix70
·
2024-02-02 13:10
轨迹大数据智能处理
Spark开发_工作
spark
大数据
分布式
浅谈
Spark
Livy
Spark
Livy什么是LivyLivy的特点Livy的运作流程阐述Livy的安装、启动、访问Livy的使用1.什么是Livylivy是cloudera开发的通过REST来连接、管理
spark
的解决方案
浅汐yt
·
2024-02-02 13:40
spark
大数据
spark
大数据
【
Spark
实践6】特征转换FeatureTransformers实践Scala版--补充算子
本节介绍了用于处理特征的算法,大致可以分为以下几组:提取(Extraction):从“原始”数据中提取特征。转换(Transformation):缩放、转换或修改特征。选择(Selection):从更大的特征集中选择一个子集。局部敏感哈希(LocalitySensitiveHashing,LSH):这类算法结合了特征转换的方面与其他算法。FeatureTransformersIndexToStri
周润发的弟弟
·
2024-02-02 13:39
Spark机器学习
spark
scala
大数据
spark
相关面试题总结
1.
spark
中的RDD是什么,有哪些特性?
专注于大数据技术栈
·
2024-02-02 13:39
spark
[Scala学习笔记]
Spark
开发小笔记
Spark
开发小笔记:从0开始的
Spark
建图生活持续更新中……0.开发平台Zeppelin支持多种语言,默认是scala(背后是
spark
shell),
Spark
SQL,Markdown和Shell。
Rinnki
·
2024-02-02 13:39
Scala笔记
学习笔记
Scala
Spark
图
Scala 与
spark
7.23
例如:@transientval
spark
Context:
Spark
Context,Scala多行字符串之stripMargin方法https://www.jianshu.com/
qq_34872215
·
2024-02-02 13:09
spark
生产环境踩坑系列::Hive on
Spark
的connection timeout 问题
起因7/16凌晨,钉钉突然收到了一条告警,一个公司所有业务部门的组织架构表的ETL过程中,数据推送到DIM层的过程中出现异常,导致任务失败。因为这个数据会影响到第二天所有大数据组对外的应用服务中组织架构基础数据,当然,我们的Pla-nB也不是吃素的,一旦出现错误,后面的权限管理模块与网关会自动配合切换前一天的最后一次成功处理到DIM中的组织架构数据,只会影响到在前一天做过组织架构变化的同事在系统上
dclar_
·
2024-02-02 13:08
Spark
Hive
spark
hive
【
Spark
ML实践5】特征转换FeatureTransformers实战scala版
本节介绍了用于处理特征的算法,大致可以分为以下几组:提取(Extraction):从“原始”数据中提取特征。转换(Transformation):缩放、转换或修改特征。选择(Selection):从更大的特征集中选择一个子集。局部敏感哈希(LocalitySensitiveHashing,LSH):这类算法结合了特征转换的方面与其他算法。本章节主要讲转换1FeatureTransformersTo
周润发的弟弟
·
2024-02-02 13:08
Spark机器学习
spark-ml
scala
开发语言
spark
livy hue
1.下载livylivy为
Spark
提供了REST接口,有如下特性:*提供交互式shell*批量提交*多用户使用用一个服务(用户模拟)*可以从任何地方使用REST的方式提交*无需对代码进行任何修改wgethttp
bigdataf
·
2024-02-02 13:08
livy-spark
hue
Py
Spark
(二)RDD基础、RDD常见算子
目录RDDRDD五大特性RDD创建RDD算子常见的Transformation算子mapflatMapmapValuesreduceByKeygroupByfilterdistinctunionjoinintersectionglomgroupByKeygroupByKey和reduceByKey的区别?sortBysortByKey常见的action算子countByKeycollectredu
独憩
·
2024-02-02 13:07
PySpark
python
分布式
大数据
spark
【livy】
Spark
Livy深究
什么是livyLivy的特点Livycloudera开发通过REST来连接、管理
spark
的解决方案从任何地方提交job使用交互式的Scala、Python语言与远程的
spark
集群进行通信无需更改代码
小赵要加油
·
2024-02-02 13:07
livy
大数据
分布式
Python之Py
Spark
简单应用
文章目录一、介绍1.准备工作2.创建
Spark
Session对象:3.读取数据:4.数据处理与分析:5.停止
Spark
Session:二、示例1.读取解析csv数据2.解析计算序列数据map\flatmap
陈年小趴菜
·
2024-02-02 13:37
python
python
开发语言
大数据
【
Spark
ML实践4】Pipeline实战scala版
DataFrame:这个机器学习API使用来自
Spark
SQL的DataFrame作为机器学习数据集,它可以包含多种数据类型。例如,一个DataFrame可以有不同的列存
周润发的弟弟
·
2024-02-02 13:36
Spark机器学习
spark-ml
scala
开发语言
生产环境_
Spark
接收传入的sql并替换sql中的表名与解析_非常NB
背景开发时遇到一个较为复杂的周期需求,为了适配读取各种数据库中的数据并将数据库数据转换为DataFrame并进行后续的开发分析工作,做了如下代码。在爷们开发这段生产中的代码,可适配mysql,hive,hbase,gbase等等等等,基本涉及到数据库的情况基本可以进行。可以说是非常之NB!!!!!了数据流程:由于该代码片段主要关注数据处理流程,而非实际数据内容,,当然,我也不能把特殊数据给大家展示
Matrix70
·
2024-02-02 13:06
Spark开发_工作
轨迹大数据智能处理
spark
sql
ajax
GeoServer
安装部署
并发布图层
概况GeoServer是基于Java的软件服务器,允许用户查看和编辑地理空间数据。使用开放地理空间联盟(OGC)提出的开放标准,GeoServer在地图创建和数据共享方面具有极大的灵活性。这是官方的介绍,其实看它的名字,不难理解,是一种服务,它可以创建各种格式的地图,根据数据可以呈现为png/jpeg格式的图片,使数据可视化。接触地图,使用openlayers挺长时间,请求了很多GeoServer
朱凤丽
·
2024-02-02 13:23
Iceberg从入门到精通系列之二十四:
Spark
Structured Streaming
Iceberg从入门到精通系列之二十四:
Spark
StructuredStreaming一、StreamingReads二、StreamingWrites三、Partitionedtable四、流表的维护
最笨的羊羊
·
2024-02-02 12:52
日常分享专栏
Iceberg
从入门到精通系列之二十四
Spark
Structured
Streaming
Iceberg从入门到精通系列之二十三:
Spark
查询
Iceberg从入门到精通系列之二十三:
Spark
查询一、使用SQL查询二、使用DataFrame进行查询三、Timetravel四.Incrementalread五、检查表六、History七、元数据日志条目八
最笨的羊羊
·
2024-02-02 12:51
日常分享专栏
Iceberg
从入门到精通系列之二十三
Spark查询
Iceberg从入门到精通系列之二十一:
Spark
集成Iceberg
Iceberg从入门到精通系列之二十一:
Spark
集成Iceberg一、在
Spark
3中使用Iceberg二、添加目录三、创建表四、写五、读六、Catalogs七、目录配置八、使用目录九、替换会话目录十
最笨的羊羊
·
2024-02-02 12:20
日常分享专栏
Iceberg
从入门到精通系列之二十一
Spark集成Iceberg
实时数据湖:Flink CDC流式写入Hudi
点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜1.环境准备•Flink1.12.2_2.11•Hudi0.9.0-SNAPSHOT(master分支)•
Spark
2.4.5、Hadoop3.1.3
王知无(import_bigdata)
·
2024-02-02 12:01
spark
hadoop
hive
大数据
mysql
Flink CDC 详述实时数据湖
在构建实时数仓的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用
实时处理
引擎Flink和数据湖ApacheIceberg两种技术,来解决业务数据实时入湖相关的问题。
000X000
·
2024-02-02 12:01
实战
实时数仓
Apache
Flink
Flink
CDC
Flink
CDC
实时数据湖
flink
使用 Flink Hudi 构建流式数据湖
通过MR/
Spark
的
浪尖聊大数据-浪尖
·
2024-02-02 12:30
大数据
spark
hadoop
java
数据库
Iceberg从入门到精通系列之二十二:
Spark
DDL
Iceberg从入门到精通系列之二十二:
Spark
DDL一、
Spark
DDL二、
Spark
DDL-创建表三、
Spark
DDL-PARTITIONEDBY四、
Spark
DDL-CREATETABLE...
最笨的羊羊
·
2024-02-02 12:47
日常分享专栏
Iceberg
从入门到精通系列之二十二
Spark
DDL
py
spark
的安装及使用
jdk安装必须要求为jdk1.8版本JDK下载后环境变量配置新增系统变量JAVA_HOMEPath新增测试是否安装成功:javac-version
spark
安装官网下载,遇到加载不了选项框的情况可以尝试用手机打开网址获取下载链接后下载直接解压
a013067506e4
·
2024-02-02 11:56
Elasticsearch:集群故障排除和优化综合指南
它
实时处理
、分析和存储大量数据的能力使其成为当今快节奏的数字世界中不可或缺的工具。然而,与任何复杂的系统一样,Elasticsearch可能会遇到影响其性能和可靠性的问题。
Elastic 中国社区官方博客
·
2024-02-02 10:04
Elasticsearch
Elastic
elasticsearch
大数据
搜索引擎
运维
全文检索
spark
题06
6.列举
Spark
中常见的端口,分别有什么功能?8.
Spark
官网中,你常用哪几个模块?11.yarn的原理?14.看过源码?你熟悉哪几个部分的源码?
博弈史密斯
·
2024-02-02 09:59
Zabbix6.4安装文档,超简单超详细
Zabbix安装手册一、Zabbix
安装部署
1、Zabbix服务器安装准备Centos8系统,确实是不是centos8.5版本,否则dnf命令无法使用cat/etc/redhat-release如果版本不是
十年老运维在线炒粉
·
2024-02-02 09:11
zabbix
Kafka 入门
一、定义Kafka是一个分布式的基于发布/订阅模式的消息队列(messageQueue),主要用于大数据
实时处理
领域。
永恒的狼牙
·
2024-02-02 08:13
Kafka
kafka
Kafka入门
Kafka入门1.Kafka概述2.Kafka快速入门1.Kafka概述定义Kafka是一个分布式的基于发布/订阅模式的消息队列(MessageQueue),主要应用于大数据
实时处理
领域。
Kevin_琪琪
·
2024-02-02 08:39
bigdata
kafka
分布式
java
Ansible基础及常用模块
目录1.前言AnsibleAnsible的特性2.ansible环境
安装部署
管理端安装ansible(192.168.88.22)ansible目录结构配置主机清单配置密钥对验证3.ansible命令行模块
Ybaocheng
·
2024-02-02 08:53
ansible
Flink实现高斯朴素贝叶斯
Flink实现高斯朴素贝叶斯在之前的文章中提到了多项式的朴素贝叶斯,在
spark
的ML里也实现了多项式的朴素贝叶斯和伯努利朴素贝叶斯,在实际情况当中我们处理的变量除了离散型,还有连续型。
k_wzzc
·
2024-02-02 08:49
消息队列介绍与对比
一些业务并不需要
实时处理
;2、异步。不需要同步进行处理不同业务,可异步去处理;3、解耦。将不同业务进行分离,生产者和消费者相互独立。4、流量削峰,限流缓解高并发。
hbnn111
·
2024-02-02 08:41
消息队列
rocketmq
rabbitmq
kafka
Spark
GraphX原理介绍
背景现实应用中,数据内部可能存在较高的关联度,如图模型应用。在对这样的数据进行处理时,并行计算框架就会面临较大的挑战,会引入大量的数据连接(join)和聚合(aggregation)操作,带来大量的计算和数据迁移,严重消耗集群资源,因此对此类算法的优化就显得极为重要。互联网上网页权值计算的PageRank算法是一个典型的图模型问题,它依据网页之间的链接指向关系来判断网页的重要性,指向一个网页的链接
tanglizhe1105
·
2024-02-02 01:38
Spark
spark
GraphX
图计算
Neo4j
安装部署
(windows、docker)
文章目录Neo4j
安装部署
前言windows系统安装解压压缩包并进入bin目录查看neo4j的相关命令访问7474端口Docker安装Neodesktop安装Neo4j
安装部署
前言这篇blog所涉及的资源都可以在
拉霍拉卡
·
2024-02-02 01:20
Neo4j
neo4j
windows
docker
Java
Spark
Config
我们可以自己实现一个
Spark
Config默认配置工具以便统一管理packagecom.yzy.
spark
;importorg.apache.
spark
.
Spark
Conf;publicclass
Spark
Config
憨人Zoe
·
2024-02-02 00:43
介绍 Apache
Spark
的基本概念和在大数据分析中的应用
Apache
Spark
是一个开源的大数据处理框架,旨在提供高速、易用和通用的大数据分析平台。它所提供的一系列工具和库可以帮助用户处理大规模数据集,并支持复杂的数据分析任务。
做一个AC梦
·
2024-02-01 21:07
apache
spark
开发语言
性能超
Spark
100倍,算立方补上邦盛科技实时智能技术体系的关键拼图丨爱分析访谈
随着互联网和物联网的逐渐普及,各行业都开始源源不断产生单源或多源数据,这些高并发的数据具有高度的实时性和明显的时间序列,数据越热的时候处理,获得的业务价值越高。随着数字化转型的深入,企业都在积极建设数据能力,开发数据应用,以实现数据驱动业务。邦盛科技是一家专注于大数据实时智能领域的人工智能厂商,提出“时序中间态”技术体系,针对高并发的热数据可毫秒间完成计算。其核心技术之一是能够实时快速、高并发处理
ifenxi爱分析
·
2024-02-01 20:10
spark
科技
大数据
Spark
基础
Spark
基础几个重要的概念:RDD:是弹性分布式数据集(ResilientDistributedDataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型;DAG:是DirectedAcyclicGraph
cjyang
·
2024-02-01 19:23
【yarn】 kill 一个
spark
任务
要关闭一个正在运行的
Spark
任务,你可以使用以下命令来终止执行:yarnapplication-kill将替换为你要关闭的
Spark
应用程序的ID。
言之。
·
2024-02-01 17:54
spark
大数据
分布式
Kafka运维相关知识
它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/
spark
流式处理引擎。
全脂主妇
·
2024-02-01 17:31
消息组件
kafka
分布式
Java中List集合Stream流详解
它也不同于StAX对XML解析的Stream,也不是AmazonKinesis对大数据
实时处理
的Stream。
kim5659
·
2024-02-01 16:35
java
list
stream
list
stream
java
【运维
安装部署
】Linux安装Maven,以及基于Nexus安装Maven私有化仓库
【Linux基于Nexus安装Maven私有化仓库】1.安装maven(需要先安装java环境)1.在服务器创建一个存放maven数据的文件夹mkdir/mydata/mavencd/mydata/maven2.下载maven安装包我比较喜欢使用3.6.3版本,如果需要修改版本,那么只需要修改地址上两处的版本号即可wgethttps://dlcdn.apache.org/maven/maven-3
陈茂
·
2024-02-01 16:01
linux
运维
maven
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他