E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop;Spark
HDFS HA 集群搭建 - 基于Quorum Journal Manager(
hadoop
2.7.1)
0、前置概念0.1checkpoint检查点在
Hadoop
分布式文件系统(HDFS)中,检查点(Checkpointing)是一个关键的过程,它涉及到将文件系统的命名空间状态持久化到磁盘。
Studying!!!
·
2024-01-16 06:36
中间件
hdfs
hadoop
大数据
flink1.14.5使用CDH6.3.2的yarn提交作业
使用CDH6.3.2安装了
hadoop
集群,但是CDH不支持flink的安装,网上有CDH集成flink的文章,大都比较麻烦;但其实我们只需要把flink的作业提交到yarn集群即可,接下来以CDHyarn
码道功成
·
2024-01-16 06:30
大数据
flink
flink
yarn
mac上搭建
hadoop
伪集群
1.
hadoop
介绍
Hadoop
是Apache基金会开发的一个开源的分布式计算平台,主要用于处理和分析大数据。
Hadoop
的核心设计理念是将计算任务分布到多个节点上,以实现高度可扩展性和容错性。
寂夜了无痕
·
2024-01-16 06:30
大数据
macos
hadoop
大数据
hadoop
- yarn启动后用jps查看没有resourcemanager
1.问题启动
hadoop
的yarn时发现jps并没有resourcemanager2.排查在
hadoop
-xxx-resourcemanager-.log日志文件中发现了报错日志日志内容如下contextlogs2024
寂夜了无痕
·
2024-01-16 06:30
大数据搭建问题
hadoop
大数据
分布式
yarn启动
Hadoop
分布式文件系统(三)
目录一、
Hadoop
1、MapReduce1.1、理解MapReduce思想1.2、分布式计算概念1.3、MapReduce介绍1.4、MapReduce特点1.5、MapReduce局限性1.6、MapReduce
杀神lwz
·
2024-01-16 06:57
大数据
hadoop
大数据
分布式
seatunnel 消费kafka数据写入clickhouse
SeaTunnel是一个非常易用、高性能、支持实时流式和离线批处理的海量数据集成平台,架构于Apache
Spark
和ApacheFlink之上,支持海量数据的实时同步与转换。
冰帆<
·
2024-01-16 05:41
seatunel
大数据
大数据
Hadoop
3.2.4 集群搭建详细图文教程
一、集群简介
Hadoop
集群包括两个集群:HDFS集群、YARN集群。两个集群逻辑上分离、通常物理上在一起;两个集群都是标准的主从架构集群。
༺࿈誓言࿈༻
·
2024-01-16 05:10
hadoop
大数据
分布式
大数据技术原理与应用 第三版 林子雨 期末复习(四) Hive
大数据技术原理与应用第三版林子雨期末复习(四)Hive概念数据仓库层次传统数据仓库面临的挑战Hive简介Hive与传统数据库对比概念Hive是一个基于
Hadoop
的数据仓库工具。
头发多多,肆意生长
·
2024-01-16 05:22
大数据技术
数据仓库
big
data
hive
大数据技术原理与应用 第三版 林子雨 期末复习(五) 第十章
SPARK
大数据技术原理与应用第三版林子雨期末复习(五)第十章
SPARK
简介
spark
特点
spark
与
Hadoop
对比
Hadoop
缺点
spark
优点RDDRDD概念RDD间存在依赖关系分为宽依赖与窄依赖RDD的两种常用操作简介
头发多多,肆意生长
·
2024-01-16 05:22
大数据技术
spark
big
data
hadoop
大数据技术原理与应用 第三版 林子雨 期末复习(二)
Hadoop
HDFS HBase
大数据技术原理与应用第三版林子雨期末复习(二)
Hadoop
HDFSHBase
Hadoop
生态系统HDFSHDFS结构块NameNode与SecondNameNode与DataNode数据冗余存储HDFS
头发多多,肆意生长
·
2024-01-16 05:21
大数据技术
hadoop
hdfs
hbase
大数据
大数据技术原理与应用期末复习(林子雨)
大数据技术原理与应用期末复习(林子雨)
Hadoop
的特性HBase编程实践NoSQL的四大类型键值数据库优点:缺点:列族数据库优点:缺点:文档数据库优点:缺点:图数据库优点:缺点:NoSQL的三大基石CAP
laowang357
·
2024-01-16 05:50
大数据
hadoop
spark
hive
Kafka部署及使用
broker、topic启动zk下载zkzookeeper-3.4.5-cdh5.7.0.tar.gz解压:tar-zxvfzookeeper-3.4.5-cdh5.7.0.tar.gz-C/home/
hadoop
Sx_Ren
·
2024-01-16 05:15
Spark
- 资源动态释放
>通过
spark
-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,yarn新版本默认已经支持了,我们使用的是HDP。##版本如下!
kikiki4
·
2024-01-16 03:58
Spark
MLlib ----- ALS算法
补充在谈ALS(AlternatingLeastSquares)之前首先来谈谈LS,即最小二乘法。LS算法是ALS的基础,是一种数优化技术,也是一种常用的机器学习算法,他通过最小化误差平方和寻找数据的最佳匹配,利用最小二乘法寻找最优的未知数据,保证求的数据与已知的数据误差最小。LS也被用于拟合曲线,比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y
创作者mateo
·
2024-01-16 02:54
spark
spark
MLlib
ALS
spark-ml
算法
ClickHouse - 01
与其特性在大数据处理场景中,流处理和批处理使用到的技术大致如下:大数据处理场景流程.png批处理会将源业务系统中的数据通过数据抽取工具(例如Sqoop)将数据抽取到HDFS中,这个过程可以使用MapReduce、
Spark
ArthurHC
·
2024-01-16 02:17
Python语法进阶学习--进程和线程
后续很快就要进入
Spark
的学习,在学习之前也是要铺垫一个知识点:进程是什么?线程是什么?两者有什么区别?又有什么关系?
Yan_bigdata
·
2024-01-15 23:34
python
学习
开发语言
并发和并行
进程和线程
互斥锁
守护进程
任务10:安装配置Java开发环境
开发工具Maven配置重点:安装配置Java开发工具IDEA为IDEA配置自定义Maven(国内源)内容:下载并配置JDK1.8下载安装IDEA为IDEA配置自定义MavenWindows环境安装配置
Hadoop
Dija-bl
·
2024-01-15 22:21
java
开发语言
任务12:使用
Hadoop
Streaming解压NCDC天气原始数据
任务描述知识点:NCDC原始的气象数据上传到HDFSMapReduce程序处理NCDC原始数据重点:熟练使用HDFS基础命令查看HDFS文件块的分布情况掌握Linux系统Shell脚本的编写熟练使用MapReduce程序解压缩文件使用MapReduce程序处理NCDC气象数据内容:NCDC气象数据上传至HDFS检查HDFS文件块的分布情况编写LinuxShell脚本生成input文件编写Shell
Dija-bl
·
2024-01-15 22:21
hadoop
npm
大数据
任务4:安装并配置JDK
:检查系统中是否自带OpenJDK卸载系统自带OpenJDK安装OracleJDK配置环境变量并使其生效将JDK分发至其他机器任务指导安装并配置OracleJDK过程1、安装配置OracleJDK概述
Hadoop
2.9.2
Dija-bl
·
2024-01-15 22:51
java
开发语言
任务3:配置SSH免密码连接--自用
任务描述知识点:掌握配置SSH免密连接重点:掌握SSH免密连接熟练使用Linux命令配置机器间的免密登陆内容:配置SSH免密登陆使用命令分发文件测试SSH免密登陆任务指导
Hadoop
分布式集群是由多个节点组成
Dija-bl
·
2024-01-15 22:21
ssh
运维
任务5:安装并配置
Hadoop
任务描述知识点:掌握
Hadoop
集群的搭建重点:掌握Linux基础命令在Linux系统下使用命令安装
Hadoop
集群内容:安装配置
Hadoop
集群配置
Hadoop
环境变量修改
Hadoop
配置文件部署
Hadoop
Dija-bl
·
2024-01-15 22:21
hadoop
大数据
分布式
ZooKeeper 简介
1、概念介绍ZooKeeper是一个开放源码的分布式应用程序协调服务,为分布式应用提供一致性服务的软件,由雅虎创建,是GoogleChubby的开源实现,是Apache的子项目,之前是
Hadoop
项目的一部分
HuaLuLemon
·
2024-01-15 21:37
ZooKeeper
zookeeper
分布式
云原生
CC00023.python——|
Hadoop
&Python.v01|——|Arithmetic.v01|Jupyter交互程序:Jupyter库安装|
一、安装jupyter库###---查看pip版本C:\Users\Administrator>pip--versionpip21.2.4fromD:\JAVA\Python310\lib\site-packages\pip(python3.10)###---在windows.dos下安装jupyter###---win+R:dos窗口###---安装jupyter库C:\Users\Admini
yanqi_vip
·
2024-01-15 19:36
pip
window
activemq
bt
openstack
flink02-安装
1standalone模式1.1安装解压缩flink-1.7.0-bin-
hadoop
27-scala_2.11.tgz修改flink/conf/flink-conf.yaml文件image.png修改
chen_666
·
2024-01-15 18:25
基于JavaWeb+BS架构+SpringBoot+Vue+
Hadoop
短视频流量数据分析与可视化系统的设计和实现
基于JavaWeb+BS架构+SpringBoot+Vue+
Hadoop
短视频流量数据分析与可视化系统的设计和实现文末获取源码Lun文目录前言主要技术系统设计功能截图订阅经典源码专栏Java项目精品实战案例
FREE技术
·
2024-01-15 14:51
架构
spring
boot
vue.js
计算机专业毕业设计
hadoop
初识
Hadoop
Hadoop
作为一个能够对大量数据进行分布式处理的软件框架,用户可以利用
Hadoop
生态体系开发和处理海量数据。由于
Hadoop
有可靠及高
一米八多的瑞兹
·
2024-01-15 14:08
Hadoop
hadoop
大数据
数据库
人工智能
数据分析
Hadoop
基础之初识大数据与
Hadoop
学习
Hadoop
有一个8020原则,80%都是在不断的配置配置搭建集群,只有20%写程序!
林尧彬
·
2024-01-15 14:37
数据库
操作系统
大数据
2022-01-03大数据学习日志——
Hadoop
离线阶段——
Hadoop
MapReduce、YARN、HA
学习目标理解分布式计算分而治之的思想学会提交MapReduce程序掌握MapReduce执行流程掌握YARN功能与架构组件掌握程序提交YARN交互流程理解YARN调度策略掌握
Hadoop
HA实现原理内容大纲
王络不稳定
·
2024-01-15 14:37
mapreduce
hadoop
yarn
Hadoop
(一)之初识大数据与
Hadoop
Hadoop
(一)之初识大数据与
Hadoop
阅读目录(Content)一、引言(大数据时代)1.1、从数据中得到信息1.2、大数据表象概念二、大数据基础2.1、什么是大数据?
筱若水qq
·
2024-01-15 14:04
hadoop
Hadoop
高手之路1—
Hadoop
简介
文章目录初识
Hadoop
1.大数据概述1.1什么是大数据1.2大数据的特征1.3研究大数据的意义2.大数据的应用场景2.1医疗行业的应用2.2金融行业的应用2.3零售行业的应用3.
Hadoop
的概述3.1
Hadoop
W_chuanqi
·
2024-01-15 14:31
Hadoop高手之路
hadoop
大数据
hdfs
初识
Hadoop
-概述与关键技术
一.大数据概述1.什么是大数据高速发展的信息时代,新一轮科技革命和变革正在加速推进,技术创新日益成为重塑经济发展模式和促进经济增长的重要驱动力量,而“大数据”无疑是核心推动力。那么,什么是“大数据”呢?如果从字面意思来看,大数据指的是巨量数据。那么可能有人会问,多大量级的数据才叫大数据?不同的机构或学者有不同的理解,难以有一个非常定量的定义,只能说,大数据的计量单位已经越过TB级别发展到PB、EB
僖僖cc
·
2024-01-15 14:58
hadoop
大数据
分布式
【
Spark
】
Spark
原理简述
发现一篇很好的文章,适合对
Spark
有一定了解的小伙伴阅读主要介绍下自己在学习
spark
当中的一些理解和学习过程中踩到的坑,对
spark
时间效率优化的点做个总结,各位大佬轻拍。
turboSniper
·
2024-01-15 14:57
大数据
spark
大数据
分布式
streaming 101
看之前就知道这是两篇能够提升你对流处理理解的文章,不是一般的提升,可以说是一种升华,因为他谈的不是一个具体的工具(
spark
streaming,flink等),而是谈流处理应该是怎么样的,流处理要打败批处理一统天下的话需要有什么特性
Bitson
·
2024-01-15 12:31
Hive导入数据的五种方法
不管路径在哪里,只有把数据文件移动到对应的表文件夹下面,Hive才能映射解析成功;最原始暴力的方式就是使用
hadoop
fs
冬瓜的编程笔记
·
2024-01-15 12:04
大数据
hive
hadoop
数据仓库
大数据开发之Hive(压缩和存储)
利用
Hadoop
的InputFormatAPI可以从不同数据源读取数据,使用OutputFormatAPI可以将数据写成不同的格式输出。
Key-Key
·
2024-01-15 12:34
大数据
hive
hadoop
大数据开发之HA
第1章:
Hadoop
HA高可用1.1HA概述所谓HA(HighAvailablity),即高可用(7*24小时不间断服务)。实现高可用最关键的策略是消除单点故障。
Key-Key
·
2024-01-15 12:03
大数据
hadoop
Zookeeper教程1
ZookeeperZookeeper概念Zookeeper是Apache
Hadoop
项目下的一个子项目,是一个树形目录服务。
暗雪之格
·
2024-01-15 09:56
Zookeeper
zookeeper
分布式
云原生
Zookeeper使用详解
介绍ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是
Hadoop
和Hbase的重要组件。
有梦想的攻城狮
·
2024-01-15 09:25
架构设计
zookeeper
分布式
云原生
Spark
原理——Shuffle 过程
Shuffle过程Shuffle过程的组件结构从整体视角上来看,Shuffle发生在两个Stage之间,一个Stage把数据计算好,整理好,等待另外一个Stage来拉取放大视角,会发现,其实Shuffle发生在Task之间,一个Task把数据整理好,等待Reducer端的Task来拉取如果更细化一下,Task之间如何进行数据拷贝的呢?其实就是一方Task把文件生成好,然后另一方Task来拉取现在是
我像影子一样
·
2024-01-15 09:47
Spark
大数据
spark
大数据
Spark
高级特性 (难)
Spark
高级特性(难)闭包/**编写一个高阶函数,在这个函数要有一个变量,返回一个函数,通过这个变量完成一个计算**/@Testdeftest():Unit={//valf:Int=>Double=closure
我像影子一样
·
2024-01-15 09:11
Spark
大数据
spark
大数据
分布式计算平台
Hadoop
简介
Hadoop
简介
Hadoop
是一种分析和处理大数据的软件平台,是一个用Java语言实现的Apache的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。
rookiexiong
·
2024-01-15 08:19
Hadoop学习
分布式
hadoop
大数据
Hadoop
实战 | 倒排索引 InvertedIndex
倒排索引概念倒排索引(InvertedIndex)是信息检索领域中的一种数据结构,它是一种反转(倒排)文档-词项关系的数据结构,以支持通过词项来查找相关文档。在倒排索引中,每个词项都被映射到包含该词项的文档列表。并且在实际应用中,还需要给每个文档添加一个权值,用以指出每个文档与搜索内容的相关度。与倒排索引相对应的是正向索引,即文档-词项关系的数据结构。当用户发起查询关键词时,需要扫描索引库中的所有
rookiexiong
·
2024-01-15 07:41
Hadoop学习
hadoop
c#
数据库
Hadoop
实战 | 词频统计WordCount
词频统计通过分析大量文本数据中的词频,可以识别常见词汇和短语,从而抽取文本的关键信息和概要,有助于识别文本中频繁出现的关键词,这对于理解文本内容和主题非常关键。同时,通过分析词在文本中的相对频率,可以帮助理解词在不同上下文中的含义和语境。"纽约时报"评论数据集记录了有关《纽约时报》2017年1月至5月和2018年1月至4月发表的文章上的评论的信息。月度数据分为两个csv文件:一个用于包含发表评论的
rookiexiong
·
2024-01-15 07:11
Hadoop学习
hadoop
大数据
分布式
[Docker] Docker为什么出现
环境配置十分麻烦,每一个机器都要部署环境(Redis,ES,
Hadoop
)费时费力项目带上配置环境安装打包。传统:开发jar,运维来做现在:开发打包部署上线,一套流程做完!
程序员三木
·
2024-01-15 06:09
网站部署
大后端
docker
容器
运维
spark
Streaming 连接kafka的方式
spark
Streaming消费kafak有两种方式1:receiver方式2:direct方式receiver方式:1:
spark
Streaming将kafka之中的数据读取到
spark
内存之中,然后对
流砂月歌
·
2024-01-15 06:59
Hadoop
2.9.2在windows上的安装
1、下载
hadoop
-2.9.2.tar.gz官网下载地址:http://archive.apache.org/dist/
hadoop
/common/
hadoop
-2.9.2/
hadoop
-2.9.2.
懵懂无知的蜗牛
·
2024-01-15 06:30
hadoop
java大数据
hadoop
2.92安装伪分布式文件系统
Apache
Hadoop
3.3.6–
Hadoop
:SettingupaSingleNodeCluster.1、解压缩到某个路径/usr/local/
hadoop
2、修改配置文件/usr/local/
hadoop
crud-boy
·
2024-01-15 06:29
java大数据
大数据
java
Java大数据
hadoop
2.9.2搭建伪分布式yarn资源管理器
1、修改配置文件cd/usr/local/
hadoop
/etc/
hadoop
cp./mapred-site.xml.template.
crud-boy
·
2024-01-15 06:29
java大数据
java
大数据
eclipse
java大数据
hadoop
2.92 Java连接操作
1、要想Java可以连接自己虚拟机的
hadoop
文件系统,需要给文件系统权限(1)需要在/usr/local/
hadoop
/etc/
hadoop
/core-site.xmlcore-site.xml文件配置具体
crud-boy
·
2024-01-15 06:29
java大数据
大数据
java
hadoop
java大数据
hadoop
2.9.2 Java编写
Hadoop
分析平均成绩
1、准备文件,例如score.txt,内容如下:zsk188lsk198wwk178zsk288lsk298wwk278zsk388lsk398wwk3782、创建maven项目org.apache.
hadoop
hadoop
-common2.9.2org.apache.
hadoop
hadoop
-client
crud-boy
·
2024-01-15 06:23
java大数据
大数据
hadoop
分布式
上一页
29
30
31
32
33
34
35
36
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他