E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop;Spark
docker搭建单机
hadoop
docker搭建单机
hadoop
前言一、docker是什么?二、
hadoop
是什么?
阿桔是只猫
·
2024-02-02 23:41
大数据
hadoop
docker
大数据
手把手教
Hadoop
环境搭建,学不会你咬我~
之前后台小伙伴私信我想了解
hadoop
的单机环境安装,以方便用于
hadoop
学习,今天给大家安排上了,废话不多说,直接上干货。
程序IT圈
·
2024-02-02 23:11
hadoop
jdk
linux
centos
hdfs
hadoop
单机模式搭建
1.新建虚拟机给虚拟机命名,选择存放路径接着指定磁盘大小,因为我们不止搭建单机模式还要搭建伪分布模式,这里我们选择80G这里会看到创建虚拟机完成,我们点击自定义硬件,选择合适的内存,处理器,还有映像文件,这里我们用不到声卡和打印机可以给他移除根据自己电脑配置选择合适的,这里我们选择完之后是这样的然后我们开启虚拟机
H6666W
·
2024-02-02 23:10
hadoop
hadoop
java
大数据
HADOOP
_MAPRED_HOME=${full path of your
hadoop
distribution directory}
场景在
Hadoop
3.13的YARN上运行MapReduce报错信息终端界面提示FAILED:ExecutionError,returncode2fromorg.apache.
hadoop
.hive.ql.exec.mr.MapRedTask
小基基o_O
·
2024-02-02 23:10
Hadoop
单机搭建
hadoop
环境(包括hdfs、yarn、hive)
单机可以搭建伪分布式
hadoop
环境,用来测试和开发使用,
hadoop
包括:hdfs服务器yarn服务器,yarn的前提是hdfs服务器,在前面两个的基础上,课可以搭建hive服务器,不过hive不属于
howard_shooter
·
2024-02-02 23:39
大数据
hadoop
大数据
分布式
Hadopp未授权访问导致RCE
前言:
Hadoop
是一个开源的分布式计算框架,用于处理大规模数据集的存储和处理。
安鸾彭于晏
·
2024-02-02 22:27
web安全
安全
网络
6月11日第二十八次早课(sqoop)
主要用于在
Hadoop
与RDBMS间进行数据的传递2.sqoop分为哪两个分支,各最新版本是什么?
ly稻草
·
2024-02-02 19:55
深度学习的开源分布式框架Deeplearning4j
该框架基本上是由
Hadoop
和
Spark
集成的分布式深度学习库组成的。在
Hadoop
和
Spark
的帮助下,我们可以轻松地分发模型和大数据集,并运行
weixin_43106248
·
2024-02-02 19:13
深度学习
Hadoop
深度学习开源分布式框架
deeplearning4j
golang实现简单的流式处理
实现一个最简单的类似
spark
的流式处理流程包含map和filter数据typeStreamstruct{data[]int}map函数func(sStream)Map(ffunc(int)int)Stream
nil_ddea
·
2024-02-02 18:24
Linux配置jdk8错误:/usr/libexec/grepconf.sh: line 5: grep: command not found 导致Linux基础命令无法使用
shell窗口或者重启Linux的时候,又出现了找不到命令的错误,一直在查资料,类似的exportxxx命令都可以临时解决问题,却在根源上解决不了问题1.打开.bash_profile文件[`root@
hadoop
000
独恋彼岸花
·
2024-02-02 18:30
Linux环境变量配置
linux
vim
运维
Hive和Hbase的各自适用场景
一、区别:Hbase:
Hadoop
database的简称,也就是基于
Hadoop
数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。
yoku酱
·
2024-02-02 17:36
Hadoop
原理
Hadoop
框架分布式文件存储-HDFS即
Hadoop
内提供分布式数据存储的文件系统分布式计算框架-MapReduce即
Hadoop
内提供的进行分布式计算的组件分布式资源调度-YARN即
Hadoop
内提供的进行分布式资源调度的组件
我走之後
·
2024-02-02 14:25
hadoop
大数据
分布式
大数据技术之
Hadoop
相关导论大数据相关导论首先我们要知道一切皆数据数据的作用从海量数据中提取出有效的价值信息,实现数据的商业化,价值化,给企业的决策者或者运营人员提供数据支持或者分析性报告.更好的了解事与物的运行规律,给生活赋能.什么是大数据数据的体量比较大,2000年全球互联的概念提出及普及后,数据量开始快速增长....数据单位:bit,byte,kb,mb,gb,tb,pb,eb,zb,yb,bb,nb,db大数
我走之後
·
2024-02-02 14:54
大数据
hadoop
分布式
史上最全的
spark
面试题
1.
spark
中的RDD是什么,有哪些特性?
@毛毛
·
2024-02-02 13:12
面试题
spark
livy使用样例_livy提交
spark
应用
spark
-submit的使用shell时时灵活性较低,livy作为
spark
提交的一种工具,是使用接口或者java客户端的方式提交,可以集成到web应用中1.客户端提交的方式核心代码LivyClientclient
阿里聚安全
·
2024-02-02 13:11
livy使用样例
Py
Spark
(一)
Spark
原理介绍、Py
Spark
初体验及原理
Spark
简介Apache
Spark
是用于大规模数据(large-scaladata)处理的统一(unified)分析引擎,其特点就是对任意类型的数据进行自定义计算。
独憩
·
2024-02-02 13:11
PySpark
python
分布式
大数据
spark
生产环境_
Spark
找出两DataFrame之间的差集(技巧)
在生产作业中,经常在工作流中遇到前后两DataFrame的数据缺失,比如df1为410条,下一个节点的df2就变成409条了,用眼睛看很费劲,因此不得不做一个差集。代码:/假设df1和df2是你的两个DataFramevaldf1=xxxvaldf2=ccc//使用except操作找出df1中存在但df2中不存在的数据valonlyInDf1=df1.except(df2)//使用except操作
Matrix70
·
2024-02-02 13:10
轨迹大数据智能处理
Spark开发_工作
spark
大数据
分布式
浅谈
Spark
Livy
Spark
Livy什么是LivyLivy的特点Livy的运作流程阐述Livy的安装、启动、访问Livy的使用1.什么是Livylivy是cloudera开发的通过REST来连接、管理
spark
的解决方案
浅汐yt
·
2024-02-02 13:40
spark
大数据
spark
大数据
【
Spark
实践6】特征转换FeatureTransformers实践Scala版--补充算子
本节介绍了用于处理特征的算法,大致可以分为以下几组:提取(Extraction):从“原始”数据中提取特征。转换(Transformation):缩放、转换或修改特征。选择(Selection):从更大的特征集中选择一个子集。局部敏感哈希(LocalitySensitiveHashing,LSH):这类算法结合了特征转换的方面与其他算法。FeatureTransformersIndexToStri
周润发的弟弟
·
2024-02-02 13:39
Spark机器学习
spark
scala
大数据
spark
相关面试题总结
1.
spark
中的RDD是什么,有哪些特性?
专注于大数据技术栈
·
2024-02-02 13:39
spark
[Scala学习笔记]
Spark
开发小笔记
Spark
开发小笔记:从0开始的
Spark
建图生活持续更新中……0.开发平台Zeppelin支持多种语言,默认是scala(背后是
spark
shell),
Spark
SQL,Markdown和Shell。
Rinnki
·
2024-02-02 13:39
Scala笔记
学习笔记
Scala
Spark
图
Scala 与
spark
7.23
例如:@transientval
spark
Context:
Spark
Context,Scala多行字符串之stripMargin方法https://www.jianshu.com/
qq_34872215
·
2024-02-02 13:09
spark
生产环境踩坑系列::Hive on
Spark
的connection timeout 问题
起因7/16凌晨,钉钉突然收到了一条告警,一个公司所有业务部门的组织架构表的ETL过程中,数据推送到DIM层的过程中出现异常,导致任务失败。因为这个数据会影响到第二天所有大数据组对外的应用服务中组织架构基础数据,当然,我们的Pla-nB也不是吃素的,一旦出现错误,后面的权限管理模块与网关会自动配合切换前一天的最后一次成功处理到DIM中的组织架构数据,只会影响到在前一天做过组织架构变化的同事在系统上
dclar_
·
2024-02-02 13:08
Spark
Hive
spark
hive
【
Spark
ML实践5】特征转换FeatureTransformers实战scala版
本节介绍了用于处理特征的算法,大致可以分为以下几组:提取(Extraction):从“原始”数据中提取特征。转换(Transformation):缩放、转换或修改特征。选择(Selection):从更大的特征集中选择一个子集。局部敏感哈希(LocalitySensitiveHashing,LSH):这类算法结合了特征转换的方面与其他算法。本章节主要讲转换1FeatureTransformersTo
周润发的弟弟
·
2024-02-02 13:08
Spark机器学习
spark-ml
scala
开发语言
spark
livy hue
1.下载livylivy为
Spark
提供了REST接口,有如下特性:*提供交互式shell*批量提交*多用户使用用一个服务(用户模拟)*可以从任何地方使用REST的方式提交*无需对代码进行任何修改wgethttp
bigdataf
·
2024-02-02 13:08
livy-spark
hue
Py
Spark
(二)RDD基础、RDD常见算子
目录RDDRDD五大特性RDD创建RDD算子常见的Transformation算子mapflatMapmapValuesreduceByKeygroupByfilterdistinctunionjoinintersectionglomgroupByKeygroupByKey和reduceByKey的区别?sortBysortByKey常见的action算子countByKeycollectredu
独憩
·
2024-02-02 13:07
PySpark
python
分布式
大数据
spark
【livy】
Spark
Livy深究
什么是livyLivy的特点Livycloudera开发通过REST来连接、管理
spark
的解决方案从任何地方提交job使用交互式的Scala、Python语言与远程的
spark
集群进行通信无需更改代码
小赵要加油
·
2024-02-02 13:07
livy
大数据
分布式
Python之Py
Spark
简单应用
文章目录一、介绍1.准备工作2.创建
Spark
Session对象:3.读取数据:4.数据处理与分析:5.停止
Spark
Session:二、示例1.读取解析csv数据2.解析计算序列数据map\flatmap
陈年小趴菜
·
2024-02-02 13:37
python
python
开发语言
大数据
【
Spark
ML实践4】Pipeline实战scala版
DataFrame:这个机器学习API使用来自
Spark
SQL的DataFrame作为机器学习数据集,它可以包含多种数据类型。例如,一个DataFrame可以有不同的列存
周润发的弟弟
·
2024-02-02 13:36
Spark机器学习
spark-ml
scala
开发语言
生产环境_
Spark
接收传入的sql并替换sql中的表名与解析_非常NB
背景开发时遇到一个较为复杂的周期需求,为了适配读取各种数据库中的数据并将数据库数据转换为DataFrame并进行后续的开发分析工作,做了如下代码。在爷们开发这段生产中的代码,可适配mysql,hive,hbase,gbase等等等等,基本涉及到数据库的情况基本可以进行。可以说是非常之NB!!!!!了数据流程:由于该代码片段主要关注数据处理流程,而非实际数据内容,,当然,我也不能把特殊数据给大家展示
Matrix70
·
2024-02-02 13:06
Spark开发_工作
轨迹大数据智能处理
spark
sql
ajax
Iceberg从入门到精通系列之二十四:
Spark
Structured Streaming
Iceberg从入门到精通系列之二十四:
Spark
StructuredStreaming一、StreamingReads二、StreamingWrites三、Partitionedtable四、流表的维护
最笨的羊羊
·
2024-02-02 12:52
日常分享专栏
Iceberg
从入门到精通系列之二十四
Spark
Structured
Streaming
Iceberg从入门到精通系列之二十三:
Spark
查询
Iceberg从入门到精通系列之二十三:
Spark
查询一、使用SQL查询二、使用DataFrame进行查询三、Timetravel四.Incrementalread五、检查表六、History七、元数据日志条目八
最笨的羊羊
·
2024-02-02 12:51
日常分享专栏
Iceberg
从入门到精通系列之二十三
Spark查询
Iceberg从入门到精通系列之二十一:
Spark
集成Iceberg
Iceberg从入门到精通系列之二十一:
Spark
集成Iceberg一、在
Spark
3中使用Iceberg二、添加目录三、创建表四、写五、读六、Catalogs七、目录配置八、使用目录九、替换会话目录十
最笨的羊羊
·
2024-02-02 12:20
日常分享专栏
Iceberg
从入门到精通系列之二十一
Spark集成Iceberg
实时数据湖:Flink CDC流式写入Hudi
点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜1.环境准备•Flink1.12.2_2.11•Hudi0.9.0-SNAPSHOT(master分支)•
Spark
2.4.5、
Hadoop
3.1.3
王知无(import_bigdata)
·
2024-02-02 12:01
spark
hadoop
hive
大数据
mysql
使用 Flink Hudi 构建流式数据湖
通过MR/
Spark
的
浪尖聊大数据-浪尖
·
2024-02-02 12:30
大数据
spark
hadoop
java
数据库
Iceberg从入门到精通系列之二十二:
Spark
DDL
Iceberg从入门到精通系列之二十二:
Spark
DDL一、
Spark
DDL二、
Spark
DDL-创建表三、
Spark
DDL-PARTITIONEDBY四、
Spark
DDL-CREATETABLE...
最笨的羊羊
·
2024-02-02 12:47
日常分享专栏
Iceberg
从入门到精通系列之二十二
Spark
DDL
py
spark
的安装及使用
jdk安装必须要求为jdk1.8版本JDK下载后环境变量配置新增系统变量JAVA_HOMEPath新增测试是否安装成功:javac-version
spark
安装官网下载,遇到加载不了选项框的情况可以尝试用手机打开网址获取下载链接后下载直接解压
a013067506e4
·
2024-02-02 11:56
spark
题06
6.列举
Spark
中常见的端口,分别有什么功能?8.
Spark
官网中,你常用哪几个模块?11.yarn的原理?14.看过源码?你熟悉哪几个部分的源码?
博弈史密斯
·
2024-02-02 09:59
Flink实现高斯朴素贝叶斯
Flink实现高斯朴素贝叶斯在之前的文章中提到了多项式的朴素贝叶斯,在
spark
的ML里也实现了多项式的朴素贝叶斯和伯努利朴素贝叶斯,在实际情况当中我们处理的变量除了离散型,还有连续型。
k_wzzc
·
2024-02-02 08:49
Hadoop
环境搭建
目录一、简介1.1、概念1.2、优势1.3、
Hadoop
组成部分二、
Hadoop
运行环境搭建2.1安装VM(虚拟机管理环境)2.2VM网络设置2.3安装CentOS7系统2.4master主机进行网络配置
业里村牛欢喜
·
2024-02-02 07:24
hadoop
大数据
hdfs
Hadoop
-生产调优(更新中)
128*1024*1024*1024/150byte≈9.1亿GMBKBByte2)
Hadoop
2.x系列,配置NameNode内存NameNode内存默认2000m,如果内存服务器内存4G,NameNode
OnePandas
·
2024-02-02 07:47
Hadoop
hadoop
大数据
分布式
Hadoop
3.x基础(3)- MapReduce
MapReduce概述MapReduce定义MapReduce优缺点优点缺点MapReduce核心思想MapReduce进程常用数据序列化类型MapReduce编程规范WordCount案例实操本地测试提交到集群测试
Hadoop
魅美
·
2024-02-02 07:45
大数据基础
hadoop
(二)
hadoop
搭建
1.下载访问https://
hadoop
.apache.org/releases.html查看
hadoop
最新下载地址wgethttps://dlcdn.apache.org/
hadoop
/common
调试大师
·
2024-02-02 07:41
Hadoop
大数据
hadoop
大数据
分布式
(一)
hadoop
搭建之环境准备1
1.参考http://www.fogsvc.com/97.html文档设置三台虚拟机并固定ip192.168.1.10
hadoop
-master192.168.1.11
hadoop
-slave1192.168.1.12
hadoop
-slave22
调试大师
·
2024-02-02 07:40
大数据
Hadoop
hadoop
大数据
分布式
【Hive】配置
服务部署hiveserver2服务介绍部署启动远程连接1.使用命令行客户端beeline进行远程访问metastore服务运行模式部署其他常见配置显示当前表头和库日志配置Hive的JVM堆内存设置关闭
Hadoop
返返返
·
2024-02-02 07:33
大数据开发
hive
大数据
Hbase安装详解
node1、node2、node3(已在/etc/hosts文件里做好了ip和名字的映射)b、软件压缩包存储路径:/export/software/c、解压后安装包存储路径:/export/server/d、
hadoop
沉默鹰_90
·
2024-02-02 06:30
软件安装
hbase
大数据
linux
HBase详细安装指南
HBase–
Hadoop
Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在
嘎嘎嘎啊哈
·
2024-02-02 06:59
hadoop
hbase
big
data
Java技术栈 —— Hive与HBase
一、参考文章或视频链接[1]《Java技术栈——
Hadoop
入门(一)》-CSDN二、如何
键盘国治理专家
·
2024-02-02 06:23
Java技术栈
java
hive
hbase
Spark
GraphX原理介绍
背景现实应用中,数据内部可能存在较高的关联度,如图模型应用。在对这样的数据进行处理时,并行计算框架就会面临较大的挑战,会引入大量的数据连接(join)和聚合(aggregation)操作,带来大量的计算和数据迁移,严重消耗集群资源,因此对此类算法的优化就显得极为重要。互联网上网页权值计算的PageRank算法是一个典型的图模型问题,它依据网页之间的链接指向关系来判断网页的重要性,指向一个网页的链接
tanglizhe1105
·
2024-02-02 01:38
Spark
spark
GraphX
图计算
黑猴子的家:API 操作 HDFS 文件夹删除
1、Code->GitHubhttps://github.com/liufengji/
hadoop
_hdfs.git2、Code@TestpublicvoiddeleteAtHDFS()throwsException
黑猴子的家
·
2024-02-02 00:29
上一页
12
13
14
15
16
17
18
19
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他