E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop;Spark
Spark
难点 | Join的实现原理
Join背景当前
Spark
SQL支持三种join算法:ShuffleHashJoin、BroadcastHashJoin以及SortMergeJoin。
王知无
·
2024-01-25 03:35
大数据开发之
Spark
(累加器、广播变量、Top10热门品类实战)
1、累加器使用1)累加器定义(
spark
context.accumulator(in
Key-Key
·
2024-01-25 00:25
大数据
spark
分布式
大数据开发之
Spark
SQL
第1章:
spark
sql概述1.1什么是
spark
sql1、
spark
sql是
spark
用于结构化数据处理的
spark
模块1)半结构化数据(日志数据)2)结构化数据(数据库数据)1.2为什么要有
spark
sqlhiveon
spark
Key-Key
·
2024-01-25 00:24
大数据
hadoop
请手动写出wordcount的
spark
代码实现
valconf=new
Spark
Conf().setMaster("local[6]").setAppName("wordCount")valsc=new
Spark
Context(conf)sc.textFile
scott_alpha
·
2024-01-24 23:28
js快速计算文件hash值
1.通过requestIdleCallbackor
spark
-md5利用浏览器空闲时间切片计算文件hash值:requestIdleCallback简介:window.requestIdleCallback
舜岳
·
2024-01-24 22:01
vue
js设计模式
javascript
hash
spark-md5
Worker
【无标题】
Github:https://github.com/
Spark
DevNetwork/Rock详细介绍:点击查看145、用于自动化测试Windows应用程序的开
sophiemantela
·
2024-01-24 21:15
c#
学习笔记
.net
开源
Spark
基本架构及原理
Hadoop
和
Spark
的关系
Spark
运算比
Hadoop
的MapReduce框架快的原因是因为
Hadoop
在一次MapReduce运算之后,会将数据的运算结果从内存写入到磁盘中,第二次Mapredue
李飞_fd28
·
2024-01-24 20:50
最新AI系统ChatGPT网站H5系统源码,支持Midjourney绘画,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-24 17:09
ChatGPT
人工智能
软件源码
人工智能
chatgpt
语音识别
midjourney
AI作画
Spark
性能优化指南数据倾斜——高级篇
继基础篇讲解了每个
Spark
开发人员都必须熟知的开发调优与资源调优之后,本文作为《
Spark
性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。
吃胖点儿
·
2024-01-24 17:15
spark核心技术
2019-05-15
主流程1.关闭防火墙2.机器间实现免密3.zk部署4.
hadoop
部署实现流程2.免密登录ssh-keygen回车一直到最后(有3次)生成本机秘钥后,同步到自己机器和其他机器ssh-copy-idhostxshell
泡泡_bbb9
·
2024-01-24 15:54
通过
hadoop
jar命令运行提交MapReduce到YARN中
实现Wordcount大概流程:给定数据输入的路径,给定结果输出的路径;将输入路径内的数据中的单词进行计数,将结果写到输出路径如下:在
hadoop
下找
hadoop
-mapreduce-examples-
%HelloWorld%
·
2024-01-24 13:28
hadoop
大数据
分布式
MapReduce配置 & YARN集群部署
1:编辑mapred-env.sh;添加如下配置#设置jdk路径exportJAVA_HOME=/opt/module/jdk#设置JobHistoryServer进程内存为1Gexport
HADOOP
_JOB_HISTORYSERVER_HEAPSIZE
%HelloWorld%
·
2024-01-24 13:28
mapreduce
数据库
大数据
部署
Hadoop
集群
在node1节点执行,以root身份1:在VMware虚拟机集群上部署HDFS集群1)准备好
hadoop
安装包;目前最新3.3.4;了解:2)上传解压
hadoop
①:上传
hadoop
到node1节点;②
%HelloWorld%
·
2024-01-24 13:27
java
开发语言
Hive在VMware中部署
会在日志文件中生成root用户的一个随机密码,使用下面命令查看密码:如果你想设置简单密码,需要设置mysql密码安全级别:(进入mysql中实行)然后就可以简单密码了:(进入mysql中实行)步骤二:配置
hadoop
%HelloWorld%
·
2024-01-24 13:27
hive
hadoop
数据仓库
Kafka集群的安装与配置(二)
2.2.2生产者命令行操作1)查看操作生产者命令参数[atguigu@
hadoop
102kafka]$bin/kafka-console-producer.sh2)发送消息[atguigu@
hadoop
102kafka
ole_triangle_java
·
2024-01-24 12:59
kafka
linq
分布式
Spark
源码之CacheManager
Spark
源码之CacheManager篇CacheManager介绍1.CacheManager管理
spark
的缓存,而缓存可以基于内存的缓存,也可以是基于磁盘的缓存;2.CacheManager需要通过
小狼星I
·
2024-01-24 12:38
Hudi0.14.0 集成
Spark
3.2.3(IDEA编码方式)
本次在IDEA下使用Scala语言进行开发,具体环境搭建查看文章IDEA下ScalaMaven开发环境搭建。1环境准备1.1添加maven依赖创建Maven工程,pom文件:<projectxmlns="http://maven.apache.org/POM/4.0.0"
跟着大数据和AI去旅行
·
2024-01-24 11:46
大数据企业级实战
hudi
Windows下hive中insert语句报错
报错信息我的
hadoop
和hive版本都是3.0版本(建议
hadoop
3.x版本、hive2.x版本,我在使用中发现有些问题)[08S01][2]Errorwhileprocessingstatement
林园857
·
2024-01-24 10:27
hive
hadoop
数据仓库
Hudi0.14.0集成
Spark
3.2.3(
Spark
Shell方式)
1启动1.1启动
Spark
Shell#For
Spark
versions:3.2-3.4
spark
-shell--jars/path/to/jars/hudi-
spark
3.2-bundle_2.12-0.14.0
跟着大数据和AI去旅行
·
2024-01-24 08:11
大数据企业级实战
hudi
hbase 总结
HBase什么是HBasehbase是一个基于java、开源、NoSql、非关系型、面向列的、构建与
hadoop
分布式文件系统(HDFS)上的、仿照谷歌的BigTable的论文开发的分布式数据库。
l靠近一点点l
·
2024-01-24 08:24
大数据
hbase
Hbase原理、基本概念、基本架构
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于GoogleBigTable模型开发的,典型的key/value系统;HBase是Apache
Hadoop
生态系统中的重要一员,主要用于海量结构化数据存储
wyl9527
·
2024-01-24 08:24
Hbase
hbase
存储系统
HBase介绍及简易安装(转)
HBase介绍及简易安装(转)HBase简介HBase是Apache
Hadoop
的数据库,能够对大型数据提供随机、实时的读写访问,是Google的BigTable的开源实现。
weixin_33711647
·
2024-01-24 08:23
大数据
数据库
人工智能
Hadoop
集群(第12期)_HBase简介及安装
HBase简介HBase是Apache
Hadoop
的数据库,能够对大型数据提供随机、实时的读写访问,是Google的BigTable的开源实现。
weixin_30451709
·
2024-01-24 08:23
大数据
数据库
人工智能
HBase学习
HBase简介HBase是Apache
Hadoop
的数据库,能够对大型数据提供随机、实时的读写访问,是Google的BigTable的开源实现。
mm_bit
·
2024-01-24 08:20
HBase
大数据
数据库
HBase详细概述
不过在此之前,你可以先了解
Hadoop
生态系统,若想运行HBase,则需要先搭建好
Hadoop
集群环境,可以参考此文搭建5个节点的
hadoop
集群环境(CDH5)。好了,让我们来学习HBase吧!
a867901084
·
2024-01-24 08:49
大数据
数据库
运维
HBase简易安装和简介
HBase简介HBase是Apache
Hadoop
的数据库,能够对大型数据提供随机、实时的读写访问,是Google的BigTable的开源实现。
滑过的板砖
·
2024-01-24 08:49
Hbase
Hbase 基础理论
Hbase本身是属于NoSQL在
hadoop
的大数据集群框架中可以用来做数据的存储。Hbase本身是Google的Bigtable理论的开源实现。本篇文章
Allocator
·
2024-01-24 08:48
Hbase
hbase
Hudi0.14.0集成
Spark
3.2.3(
Spark
SQL方式)
1整合HiveForuserswhohave
Spark
-Hiveintegrationintheirenvironment,thisguideassumesthatyouhavetheappropriatesettingsconfiguredtoallow
Spark
tocreatetablesandregisterinHiveMetastore
跟着大数据和AI去旅行
·
2024-01-24 08:05
大数据企业级实战
hudi
H. Linux查找文件 whereis locate which
[root@
hadoop
01~]#whereiscatcat:/bin/cat/usr/share/man/man1/cat.1.gz[root@
hadoop
01~]#yuminstallmlocate
小猪Harry
·
2024-01-24 08:06
学习
Spark
遇到的问题
【报错】AttributeError:‘
Spark
Context’objecthasnoattribute‘setcheckpointDir’本人传参:conf=
Spark
Conf().setAppName
黄黄黄黄黄莹
·
2024-01-24 07:20
spark
Spark
详解(八):
Spark
容错以及高可用性HA
1.Executor容错
Spark
支持多种运行模式,这些运行模型中的集群管理器会为任务分配运行资源,在运行资源中启动Executor,由Ex
MasterT-J
·
2024-01-24 07:19
Spark框架
Spark框架
Spark框架
Spark
DataFrame:从底层逻辑到应用场景的深入解析
本文将深入探讨
Spark
DataFrame的底层逻辑、发展由来以及应用场景。通过了解DataFrame的底层逻辑,我们可以更好地理解其在
Spark
中的重要地位。
{BOOLEAN}
·
2024-01-24 07:18
spark
大数据
分布式
Apache
Spark
中的广播变量分发机制
Apache
Spark
中的广播变量提供了一种机制,允许用户在集群中共享只读变量,并且每个任务都可以访问这个变量,而不需要在每次任务之间重新发送该变量。
{BOOLEAN}
·
2024-01-24 07:18
spark
大数据
分布式
大数据开发之
Spark
(RDD弹性分布式数据集)
第1章:rdd概述1.1什么是rddrdd(resilientdistributeddataset)叫做弹性分布式数据集,是
spark
中最基本的数据抽象。
Key-Key
·
2024-01-24 07:17
大数据
分布式
spark
弹性分布式数据集
深入理解
Spark
编程中的map方法
在
Spark
的上下文
{BOOLEAN}
·
2024-01-24 07:47
spark
大数据
分布式
Spark
运行架构以及容错机制
Spark
运行架构以及容错机制1.
Spark
的角色区分1.1Driver1.2Excuter2.
Spark
-Cluster模式的任务提交流程2.1
Spark
OnYarn的任务提交流程2.1.1yarn相关概念
李姓门徒
·
2024-01-24 07:41
大数据
Spark
spark
架构
java
Flink(十五)【Flink SQL Connector、savepoint、CateLog、Table API】
1、常用Connector读写之前我们已经用过了一些简单的内置连接器,比如'datagen'、'print',其它的可以查看官网:Overview|ApacheFlink环境准备:#1.先启动
hadoop
my
hadoop
start
让线程再跑一会
·
2024-01-24 07:17
Flink
flink
大数据
spark
-flink设计思想之吸星大法-1
Spark
和Flink都是大数据处理框架,它们的设计思想有一些不同之处。以下是对它们设计思想的简要对比:数据模型和计算模型:
Spark
:
Spark
使用弹性分布式数据集(RDD)作为其核心数据结构。
{BOOLEAN}
·
2024-01-24 07:47
spark
flink
大数据
MySQL数据库在CentOS 6.8环境下的安装
二、步骤1、检查本地YUM源检查本地YUM中可用的与mysql相关的软件包[root@
hadoop
00~]#yumlist|grepmysql出现如图所示错误,需要重新挂载一下系统安装镜像[root@
hadoop
00
m0_69595107
·
2024-01-24 06:10
Hadoop
数据库
mysql
centos
大数据
hadoop
Hadoop
安装配置HBase
2、安装切换目录[root@
hadoop
00~]#cd/usr/local新建文件夹[root@
hadoop
00local]#mkdirhbase解压文件[root@
hadoop
00local]#tarzxvf
m0_69595107
·
2024-01-24 06:10
Hadoop
hadoop
hbase
大数据
分布式
centos
Hadoop
伪分布式安装配置
A、添加
hadoop
用户1、添加用户组[root@
hadoop
00~]#groupadd
hadoop
2、添加用户并分配用户组[root@
hadoop
00~]#useradd-g
hadoop
hadoop
3
m0_69595107
·
2024-01-24 06:09
Hadoop
分布式
hadoop
大数据
apache
centos
服务器
虚拟机网络配置及Moba工具的使用
A、设置IP和网关1、设置IP[root@
hadoop
00~]#vi/etc/sysconfig/network-scripts/ifcfg-eth0(修改如下标红内容,没有的就添加)DEVICE=eth0HWADDR
m0_69595107
·
2024-01-24 06:09
Hadoop
网络
database
hadoop
大数据
运维
服务器
Hadoop
中HBase命令行操作
HBase提供了Shell命令行,功能类似于Oracle、MySQL等关系库的SQLPlus窗口那样,用户可以通过命令行模式进行创建表、新增和更新数据,以及删除表的操作。采用的底层存储为HDFS。使用Hbase客户端操作,执行查看Hbase版本、状态、查看帮助命令。创建表、修改表、插入数据、删除数据、查询数据,清空表、退出Hbase命令行、停止HDFS服务。1.启动HDFS服务进程和hbase服务
m0_69595107
·
2024-01-24 06:05
Hadoop
hadoop
hbase
大数据
centos
大数据基础设施搭建 - Hbase
文章目录一、解压压缩包二、配置环境变量三、修改配置文件3.1修改hbase-env.sh3.2修改hbase-site.xml3.3修改regionservers四、解决HBase和
Hadoop
的log4j
m0_46218511
·
2024-01-24 06:04
大数据
hbase
数据库
reduceByKey应用举例
PhotobyStefanStefancikfromPexels在进行
Spark
开发算法时,最有用的一个函数就是reduceByKey。
学习之术
·
2024-01-24 05:16
有了金刚钻,不惧瓷器活 | 在数据文件上轻松使用SQL
当然,如果为了去英国美国,学个英语还算值,这就像学个Python、
Hadoop
,出去找工作也算是个技能。
小黄鸭呀
·
2024-01-24 04:41
Spark
- 动态注册UDF
>昨天有位大哥问小弟一个
Spark
问题,他们想在不停
Spark
程序的情况下动态更新UDF的逻辑,他一问我这个问题的时候,本猪心里一惊,
Spark
**还能这么玩?
kikiki4
·
2024-01-24 03:22
hadoop
集群搭建笔记
修改主机名字:hostnamectlset-hostname主机名称修改hosts文件进行解析:xxxx.xxxx.xxxx.xxxx主机名字ssh免密登录:ssh-keygen-trsa生成密钥ssh-copy-idslave1ssh-copy-idslave2每个节点都拷贝公钥ssh-copy-idmaster集群部署2、配置集群1、核心配置文件配置core-site.xmlfs.defaul
阿强的学习笔记
·
2024-01-24 03:42
Flink 架构--官网译文(v1.11)
它与所有常见的群集资源管理器(如
Hadoop
YARN,ApacheMesos和Kubernetes)集成,但也可以设置为作为独立群集甚至库运行。
LQC_gogogo
·
2024-01-24 02:53
Storm和
hadoop
对比及storm组件
storm
hadoop
实时流处理批处理无状态有状态使用zk协同的主从架构无主从zk架构每秒处理数万消息HDFS,MR数分钟,数小时不会主动停止终于完成的时候storm优点:跨语言,可伸缩,低延迟,秒级容错核心概念
smartjiang
·
2024-01-24 02:01
上一页
21
22
23
24
25
26
27
28
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他