E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop整理总结
2022-01-03大数据学习日志——
Hadoop
离线阶段——
Hadoop
MapReduce、YARN、HA
学习目标理解分布式计算分而治之的思想学会提交MapReduce程序掌握MapReduce执行流程掌握YARN功能与架构组件掌握程序提交YARN交互流程理解YARN调度策略掌握
Hadoop
HA实现原理内容大纲
王络不稳定
·
2024-01-15 14:37
mapreduce
hadoop
yarn
Hadoop
(一)之初识大数据与
Hadoop
Hadoop
(一)之初识大数据与
Hadoop
阅读目录(Content)一、引言(大数据时代)1.1、从数据中得到信息1.2、大数据表象概念二、大数据基础2.1、什么是大数据?
筱若水qq
·
2024-01-15 14:04
hadoop
Hadoop
高手之路1—
Hadoop
简介
文章目录初识
Hadoop
1.大数据概述1.1什么是大数据1.2大数据的特征1.3研究大数据的意义2.大数据的应用场景2.1医疗行业的应用2.2金融行业的应用2.3零售行业的应用3.
Hadoop
的概述3.1
Hadoop
W_chuanqi
·
2024-01-15 14:31
Hadoop高手之路
hadoop
大数据
hdfs
初识
Hadoop
-概述与关键技术
一.大数据概述1.什么是大数据高速发展的信息时代,新一轮科技革命和变革正在加速推进,技术创新日益成为重塑经济发展模式和促进经济增长的重要驱动力量,而“大数据”无疑是核心推动力。那么,什么是“大数据”呢?如果从字面意思来看,大数据指的是巨量数据。那么可能有人会问,多大量级的数据才叫大数据?不同的机构或学者有不同的理解,难以有一个非常定量的定义,只能说,大数据的计量单位已经越过TB级别发展到PB、EB
僖僖cc
·
2024-01-15 14:58
hadoop
大数据
分布式
Hive导入数据的五种方法
不管路径在哪里,只有把数据文件移动到对应的表文件夹下面,Hive才能映射解析成功;最原始暴力的方式就是使用
hadoop
fs
冬瓜的编程笔记
·
2024-01-15 12:04
大数据
hive
hadoop
数据仓库
大数据开发之Hive(压缩和存储)
利用
Hadoop
的InputFormatAPI可以从不同数据源读取数据,使用OutputFormatAPI可以将数据写成不同的格式输出。
Key-Key
·
2024-01-15 12:34
大数据
hive
hadoop
大数据开发之HA
第1章:
Hadoop
HA高可用1.1HA概述所谓HA(HighAvailablity),即高可用(7*24小时不间断服务)。实现高可用最关键的策略是消除单点故障。
Key-Key
·
2024-01-15 12:03
大数据
hadoop
Zookeeper教程1
ZookeeperZookeeper概念Zookeeper是Apache
Hadoop
项目下的一个子项目,是一个树形目录服务。
暗雪之格
·
2024-01-15 09:56
Zookeeper
zookeeper
分布式
云原生
Zookeeper使用详解
介绍ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是
Hadoop
和Hbase的重要组件。
有梦想的攻城狮
·
2024-01-15 09:25
架构设计
zookeeper
分布式
云原生
分布式计算平台
Hadoop
简介
Hadoop
简介
Hadoop
是一种分析和处理大数据的软件平台,是一个用Java语言实现的Apache的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。
rookiexiong
·
2024-01-15 08:19
Hadoop学习
分布式
hadoop
大数据
Hadoop
实战 | 倒排索引 InvertedIndex
倒排索引概念倒排索引(InvertedIndex)是信息检索领域中的一种数据结构,它是一种反转(倒排)文档-词项关系的数据结构,以支持通过词项来查找相关文档。在倒排索引中,每个词项都被映射到包含该词项的文档列表。并且在实际应用中,还需要给每个文档添加一个权值,用以指出每个文档与搜索内容的相关度。与倒排索引相对应的是正向索引,即文档-词项关系的数据结构。当用户发起查询关键词时,需要扫描索引库中的所有
rookiexiong
·
2024-01-15 07:41
Hadoop学习
hadoop
c#
数据库
Hadoop
实战 | 词频统计WordCount
词频统计通过分析大量文本数据中的词频,可以识别常见词汇和短语,从而抽取文本的关键信息和概要,有助于识别文本中频繁出现的关键词,这对于理解文本内容和主题非常关键。同时,通过分析词在文本中的相对频率,可以帮助理解词在不同上下文中的含义和语境。"纽约时报"评论数据集记录了有关《纽约时报》2017年1月至5月和2018年1月至4月发表的文章上的评论的信息。月度数据分为两个csv文件:一个用于包含发表评论的
rookiexiong
·
2024-01-15 07:11
Hadoop学习
hadoop
大数据
分布式
[Docker] Docker为什么出现
环境配置十分麻烦,每一个机器都要部署环境(Redis,ES,
Hadoop
)费时费力项目带上配置环境安装打包。传统:开发jar,运维来做现在:开发打包部署上线,一套流程做完!
程序员三木
·
2024-01-15 06:09
网站部署
大后端
docker
容器
运维
Hadoop
2.9.2在windows上的安装
1、下载
hadoop
-2.9.2.tar.gz官网下载地址:http://archive.apache.org/dist/
hadoop
/common/
hadoop
-2.9.2/
hadoop
-2.9.2.
懵懂无知的蜗牛
·
2024-01-15 06:30
hadoop
java大数据
hadoop
2.92安装伪分布式文件系统
Apache
Hadoop
3.3.6–
Hadoop
:SettingupaSingleNodeCluster.1、解压缩到某个路径/usr/local/
hadoop
2、修改配置文件/usr/local/
hadoop
crud-boy
·
2024-01-15 06:29
java大数据
大数据
java
Java大数据
hadoop
2.9.2搭建伪分布式yarn资源管理器
1、修改配置文件cd/usr/local/
hadoop
/etc/
hadoop
cp./mapred-site.xml.template.
crud-boy
·
2024-01-15 06:29
java大数据
java
大数据
eclipse
java大数据
hadoop
2.92 Java连接操作
1、要想Java可以连接自己虚拟机的
hadoop
文件系统,需要给文件系统权限(1)需要在/usr/local/
hadoop
/etc/
hadoop
/core-site.xmlcore-site.xml文件配置具体
crud-boy
·
2024-01-15 06:29
java大数据
大数据
java
hadoop
java大数据
hadoop
2.9.2 Java编写
Hadoop
分析平均成绩
1、准备文件,例如score.txt,内容如下:zsk188lsk198wwk178zsk288lsk298wwk278zsk388lsk398wwk3782、创建maven项目org.apache.
hadoop
hadoop
-common2.9.2org.apache.
hadoop
hadoop
-client
crud-boy
·
2024-01-15 06:23
java大数据
大数据
hadoop
分布式
put: .‘: No such file or directory:hdfs://bdp/user/root‘ Linux上传本地文件到HDFS中时,出现“No such file or dir“
1.首先在
hadoop
节点的网址上查看是否有自己需要把资料上传到的目标目录,比如我查看我需要上传文档到bdp,我查看我的
hadoop
是否有bdp这个目标目录。
YoYoYoWhatIsUp
·
2024-01-15 05:28
大数据学习
大数据
idea的big data tool 连接不上HDFS所有问题汇总:
1.OnWindowsyoushouldhave
HADOOP
_HOMEenvironmentvariabledefinedorJavaproperty
hadoop
.home.dir.Please,referto
Hadoop
Wikiformoredetails
YoYoYoWhatIsUp
·
2024-01-15 05:28
大数据学习
大数据
项目实战-知行教育大数据分析平台-01
2、什么是事实表与维度表3、事实表与维度表的分类4、维度建模的三种模型5、缓慢渐变维七、本项目数仓架构八、HUE的使用九、自动化调度工具介绍十、通过HUE操作oozie本文将利用前面所学的Linux,
Hadoop
吆喝的翅膀
·
2024-01-15 04:22
python+大数据学习
数据仓库
教育电商
hive
hadoop
cloudera
一,安装Linux
1,创建虚拟机:image.png2,继续安装:image.pngimage.pngimage.png可以起名为
hadoop
01,地址任选:image.png文件大小也可以为10G,也可以设置成单一文件
小猪Harry
·
2024-01-15 04:31
架构设计:远程调用服务架构设计及zookeeper技术详解
Hadoop
是一个技术生态圈,zookeeper是
hadoop
生态圈里一个非常重要的技术。
Java圈子
·
2024-01-15 01:15
HADOOP
大数据之HDFS管理与运维
HDFS分布式拷贝工具DistCp数据迁移使用场景:冷热集群数据同步、分类存储集群数据整体搬迁数据的准实时同步数据迁移要素考量带宽性能是否支持增量同步4、数据迁移的同步性image.pngDistCp是
Hadoop
奋斗的韭菜汪
·
2024-01-15 01:33
Hadoop
Dont's: What not to do to harvest
Hadoop
's full potential
We'veallheardthisstory.Allwasfineuntilonedayyourbossheardsomewherethat
Hadoop
andNo-SQLarethenewblackandmandatedthatthewholecompanyswitchoverwhateveritwasdoingtothe
Hadoop
etal.technologystack
hacker_zhb
·
2024-01-15 00:33
hadoop
数据库
大数据
【大数据进阶第三阶段之Hue学习笔记】Hue简介和架构介绍
1、Hue简介Hue是一个开源的Apache
Hadoop
UI系统,由ClouderaDesktop演化而来,最后Cloudera公司将其贡献给Apache基金会的
Hadoop
社区,它是基于PythonWeb
Allen_lixl
·
2024-01-15 00:56
大数据
Hue
大数据
学习
笔记
hadoop
hue
centos spark单机版伪分布式模式
1.2Spark部署依赖SparkStandalone的运行依赖于JDK、Scala,本来是不依赖于
Hadoop
的,但Spark自带的许多演示程序都依赖于
Hadoop
HDFS,因此我们也部署了伪分布式的
piziyang12138
·
2024-01-15 00:05
Hadoop
之mapreduce参数大全-6
126.指定Map任务运行的节点标签表达式mapreduce.map.node-label-expression是
Hadoop
MapReduce框架中的一个配置属性,用于指定Map任务运行的节点标签表达式
OnePandas
·
2024-01-14 22:07
Hadoop
hadoop
mapreduce
linux ssh免密登入配置
免密登入配置[
hadoop
@
Hadoop
001~]$ssh-keygenGeneratingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/
吃货大米饭
·
2024-01-14 16:53
HDFS的三大机制
文章目录概要整体架构流程技术名词解释技术细节小结概要HDFS(
Hadoop
DistributedFileSystem)的三大机制包括:心跳机制:DataNode会定期向NameNode发送心跳信号,以保持连接
听风细雨66
·
2024-01-14 14:17
hdfs
hadoop
大数据
架构
hadoop
java 创建文件夹 弹出窗口填写文件夹名称
在
Hadoop
中使用Java创建文件夹时,无法弹出窗口来填写文件夹名称,因为
Hadoop
是一个分布式系统,运行在多台计算机上,无法直接与用户交互。
酷爱码
·
2024-01-14 14:16
java技术教程
hadoop
java
大数据
Hadoop
HDFS集群 和 Yarn集群的架构
前言:
Hadoop
是一个用Java编写的Apache开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。
听风细雨66
·
2024-01-14 14:15
hadoop
hdfs
架构
yarn
Hadoop
命令
进程命令对
hadoop
集群的操作start-dfs.shstop-dfs.sh打开和关闭dfsstart-yarn.shstop-yarn.sh打开和关闭yarn
hadoop
单进程操作旧版本命令
hadoop
-daemon.shstart
CJ21
·
2024-01-14 14:25
大数据
Hadoop
3.0更新,到底改进了哪些新的特性呢
截止到目前,大数据
hadoop
已经更新到了3.0版本,那么相比较之前的版本,3.0到底在哪些方面做出了新的改变呢?到底做了哪些重大的改进呢?
尚学先生
·
2024-01-14 11:21
Spark-累加器
内存地址无法改变.你传你的,我传我的,没有把值给返回去双端对列当发送错误的时候要放回到要来头部对列一般是先进先出,要是发送错误,放回到尾部顺序就错了所以叫累加器不是很准确,叫采集器importorg.apache.
hadoop
.conf.Configurationimportorg.apache.
hadoop
.hbase
疯子@123
·
2024-01-14 09:00
大数据
Sqoop与其他数据采集工具的比较分析
SqoopSqoop是一个Apache项目,专门设计用于在
Hadoop
生态系统和关系型数据库之间传输数据。它提供了方便的命令行界面,支持从关系型数据库导入数据到
Hadoop
集群,
晓之以理的喵~~
·
2024-01-14 06:00
sqoop
sqoop
hadoop
hive
Hadoop
-HA高可用
一、集群规划二、HDFS高可用官方地址在opt目录下创建一个ha文件夹,将/opt/module/下的
hadoop
-3.1.3拷贝到/opt/ha目录下(记得删除data和log目录)配置core-site.xmlhdfs-site.xmldfs.namenode.name.dirfile
DIY……
·
2024-01-14 06:28
hadoop
大数据
分布式
hbase集群之间数据迁移_HBase集群数据迁移方案
2、采用
Hadoop
distcp方式,将以上目录的内容,迁移到另一个集群。使用add_table.rb进行恢复。
无畏道人
·
2024-01-14 06:14
hbase集群之间数据迁移
一种HBase数据备份及恢复方法
这里我们引入Hbase的一个API,hbaseorg.apache.
hadoop
.hbase.map
莫叫石榴姐
·
2024-01-14 06:42
Hbase
hbase
大数据
mac 上 ssh: connect to host localhost port 22: Connection refused
问题在搭建
hadoop
环境的时候发现sshlocalhost在报错2.解决打开系统设置->共享->->在左边服务中选择远程登录注意红框这些选项慎重选择!!!
寂夜了无痕
·
2024-01-14 05:50
软件工具一箩筐
macos
ssh
mac
ssh
ssh
localhost
mac上部署单体hbase
它是GoogleBigTable的开源实现,并且是Apache基金会的
Hadoop
项目的一部分1。
寂夜了无痕
·
2024-01-14 05:15
软件工具一箩筐
java
hbase
数据库
一:
Hadoop
初始化环境搭建-1
一:虚拟机和Linux的安装在搭建
Hadoop
集群环境之前,我们必须要进行如下的准备工作:01.安装虚拟机02.安装3台Linux03.修改主机名和IP地址对应关系04.SSH免密码登陆1.1:虚拟机的安装步骤
小葱_拌豆腐
·
2024-01-14 05:15
java开发,年薪15W的和年薪50W的差距
在这个IT系统动辄就是上亿流量的时代,Java作为大数据时代应用最广泛的语言,诞生了一批又一批的新技术,包括HBase、
Hadoop
、MQ、Netty、SpringCloud等等。
墨雨轩夏
·
2024-01-14 02:57
大数据调度框架Oozie,这个学习网站让你事半功倍!
它主要用于管理和调度Apache
Hadoop
作业,支持的任务类型包括
Hadoop
MapReduce、PigJobs等。Oozie的核心概念包括workflowjobs和coordinatorjobs。
知识分享小能手
·
2024-01-14 01:59
大数据
学习心得体会
大数据
学习
任务调度
基于Spark2.x新闻网大数据实时分析可视化系统项目
全套课程内容概述2.案例需求分析3.系统架构设计4.系统数据流程设计5.集群资源规划设计第二章:linux环境准备与设置1.Linux系统常规设置2.克隆虚拟机并进行相关的配置3.对集群中的机器进行基本配置第三章:
Hadoop
2
飞雪雪团队
·
2024-01-13 23:30
大数据
image.png
hadoop
主要解决海量数据的存储和海量数据的分析计算问题。
哈斯勒
·
2024-01-13 19:30
HBase 四种数据迁移方案
http://ballwql.cnblogs.com/一、前言HBase数据迁移是很常见的操作,目前业界主要的迁移方式主要分为以下几类:图1.HBase数据迁移方案从上面图中可看出,目前的方案主要有四类,
Hadoop
过往记忆
·
2024-01-13 18:21
大数据
hadoop
java
python
linux
3.
hadoop
HA-QJM 安装
目录概述实践一主两从解压配置文件
hadoop
-env.shcore-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xmlworkers分发环境变量格式化启动
流月up
·
2024-01-13 16:32
大数据
hadoop
大数据
QJM
HA
实践
开源大数据集群部署(四)Freeipa部署(kerberos+ldap)
将它与
Hadoop
服务进行集成便能够很好地解决安全性不足的问题。除了需要安装MITKerberos之外,我们还需要安装LDAP。
云掣YUNCHE
·
2024-01-13 14:15
开源大数据集群部署
开源
大数据
Hive安装部署
安装好对应版本的
hadoop
集群,并启动
hadoop
的HDFS以及YARN服务安装了MySQL服务,并启动MySQL的服务Hive的安装部署注意hive就是==一个构建数据仓库的工具==,只需要在==一台服务器上
我还不够强
·
2024-01-13 13:35
上一页
16
17
18
19
20
21
22
23
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他