E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
研磨hadoop
六款大数据采集平台的架构分析
六款大数据采集平台的架构分析》文中介绍了目前业界存在的六款数据采集平台,数据采集平台可以作为数据平台的日志采集系统,个人尝试过Flume+ES+Kibana这样的开源组合,为什么这么选,因为Flume非常灵活且无缝的支持
Hadoop
气自华
·
2023-10-08 09:21
java
数据采集
计算机毕业设计之Python+Spark+Scrapy新闻推荐系统 新闻大数据 新闻情感分析 新闻文本分类 新闻数据分析 新闻爬虫可视化
开发技术
Hadoop
、Spark、SparkSQL、Python、Scrapy爬虫框架、MySQL、协同过滤算法(双算法,基于用户、基于物品全实现)、阿里云短信、百度AI人工智能识别、支付宝沙箱支付、echarts
计算机毕业设计大神
·
2023-10-08 09:39
Spark—弹性分布式数据集RDD
1)RDD的起源
Hadoop
的数据存储模式为:从物理存储上加载数据、操作数据、然后写入物理存储设备。
「已注销」
·
2023-10-08 07:19
Spark
RDD
Spark弹性分布式数据集
Hadoop
----HDFS MapReduce
操作日志文件fsimage元数据文件SecondaryNameNode获取NameNode的数据延后将新的NameNode数据进行合并然后再次写入NameNode中DataNode负责数据的存储数据是按块存储的
hadoop
2
烟解愁、酒上头
·
2023-10-08 07:55
hadoop
分布式
离线数仓
hadoop
mapreduce
hdfs
分布式
大数据技术之
Hadoop
-HDFS架构
大数据技术之
Hadoop
-HDFS架构官方网站简介假设与目标硬件故障流式数据访问大数据集简单一致性模型“移动计算比移动数据便宜”跨异构硬件和软件平台的可移植性NameNode和DataNodes文件系统命名空间数据副本第一步
只要学不死就往死里学-致自己
·
2023-10-08 07:55
大数据技术之Hadoop
Hadoop
之HDFS及MapReduce详解,以及HA集群搭建
洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据的5V特点(IBM提出):Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度)Veracity(真实性)
Hadoop
Mayz梅子子子
·
2023-10-08 07:55
Hadoop
hadoop
mapreduce
hdfs
hadoop
之HDFS
一、背景1、企业存储系统a.存储设备硬盘·硬盘是计算机的主要存储硬件,可用来存储数据·市面上流行的硬盘多少是TB级·硬盘分类:机械硬盘HDD、固态硬盘SSD、混合硬盘SSHD机械硬盘的特点:体积大、价格便宜、读写速度慢、内部有马达和风扇、寿命长固态硬盘的特点:体积小、价格贵、读写速度快、寿命短RAID磁盘队列磁盘队列由很多独立磁盘组合成容量巨大的磁盘组,存储和容错性能提升b.存储架构类型DAS直连
测试开发知识积累
·
2023-10-08 07:53
技术类
大数据
大数据
BigData5:
Hadoop
之HDFS的Edits和Fsimage文件
Edits相关知识当执行格式化指令时,会在指定的tmp目录下,生成dfs/name目录。此目录是namenode服务器存储元数据的目录当格式化后,启动HFDS前,会生成一个最初的fsimage_0000000000000000000文件在dfs/data目录,这是datanode节点存储数据块的目录。元数据的存储目录和数据节点的目录的路径可以分开指定在dfs/name/in_use.lock,这个
程序员大魔王
·
2023-10-08 07:23
Hadoop
大数据学习
hdfs
hadoop
大数据
hadoop
系列(二)常用配置、启动方式、HDFS,YARN配置文件
Hadoop
(二)常用配置、启动方式、HDFS,YARN配置文件概述:来自
Hadoop
官网的介绍Nowyouarereadytostartyour
Hadoop
clusterinoneofthethreesupportedmodes
故山归梦远
·
2023-10-08 07:53
hadoop
hdfs
大数据
Hadoop
之hdfs简介
Hadoop
的hdfs简介
hadoop
2x三大核心:hdfs、yarn、mapreduce.
hadoop
四大模块:
Hadoop
Common:为其他
Hadoop
模块提供基础设施。
墙角的枫叶
·
2023-10-08 07:53
hadoop学习笔记
hdfs简介
Hadoop
详解系列——一文读懂HDFS
目录一、概述二、HDFS核心设计2.1、HDFS心跳机制2.2、HDFS安全模式(SafeMode)2.2.1、NameNode进入SafeMode的方式2.2.2、如何退出SafeMode2.2.3安全模式常用命令总结2.3、副本存放策略及机架感知2.3.1原理2.3.2、总结2.4、负载均衡三、HDFS工作机制3.1、HDFS的写流程3.1.1、流程概述3.1.2、步骤图详解3.1.3、详细文
iwen513
·
2023-10-08 07:22
Hadoop系列文章
hadoop
big
data
hdfs
hadoop
报错java.io.IOException: Incompatible clusterIDs in /usr/local/
hadoop
/tmp/dfs/data: namenode clu
问题陈述1.格式化namenode之后,启动
hadoop
,发现datanode没有启动2.查看日志,发现datanode和namenode的CID对不上问题原因1.namenode格式化次数过多,导致子节点
JSU_曾是此间年少
·
2023-10-08 07:52
hadoop
Hadoop
Hadoop
Hadoop
安装集群部署规划
hadoop
-3.1.3/etc/
hadoop
/core-site.xml
hadoop
-3.1.3/etc/
hadoop
/hdfs-site.xml
hadoop
-
FangSai_ovo
·
2023-10-08 07:51
大数据生态圈
hadoop
hdfs
big
data
【
Hadoop
】HDFS——分布式文件系统
文章目录一、
Hadoop
分布式文件系统架构1概念1.1文件存放在一个磁盘上效率低1.2字节数组1.3切分数据1.4拼接数据1.5偏移量1.6数据存储的原理2.Block拆分标准2.1拆分的数据块需要等大
嗯,哦,呵呵。
·
2023-10-08 07:21
大数据
大数据—
Hadoop
之HDFS架构
HDFS架构一、HDFS访问流程读取数据操作:用户进行读取数据请求,首先传入Namenode数据块,Namenode将读写信息传给Client,再由Client根据Namenode所给的信息找到数据所在的Datanode,进行读取。写入数据操作:用户进行写入数据请求,首先传入Namenode数据块,Namenode根据策略寻找出最合适的Datanode,并利用流返还给Client,再由Clien
擎宇T
·
2023-10-08 07:21
大数据
HDFS
大数据
Hadoop
分布式存储
Hadoop
-HDFS 基础回顾
一.blockHDFS作为一种文件系统,当然也需要有‘block’的概念。不过HDFS的block一般比较大,默认为128MB。与普通的管理单个磁盘的文件系统一样,HDFS也将文件分割成block,每个block都作为一个独立的单元分别保存。不同点在于,在HDFS中,小于block的文件不会占用一个block的空间。(比如,文件大小为1MB,那么它会占用一个HDFS的block,但是只使用底层磁盘
码虫码农
·
2023-10-08 07:50
hadoop
Hadoop
(6) HDFS
Hadoop
(6)HDFS文章目录
Hadoop
(6)HDFSHDFSHDFS介绍HDFS的定义HDFS的优缺点HDFS的应用场景HDFS的组成配置
Hadoop
开发环境HDFS的Shell命令HDFS操作
Alaskyed
·
2023-10-08 07:20
大数据
#
Hadoop
大数据
hadoop
hdfs
Hadoop
设置hdfs全局指令
在终端进入用户个人环境变量配置文件vim~/.bashrc然后添加如下内容exportPATH=$PATH:/usr/local/
hadoop
/bin添加到你的
hadoop
下载目录的bin目录为止就可以了重新激活一下配置文件
JSU_曾是此间年少
·
2023-10-08 07:20
hadoop
hdfs
大数据
Hadoop
原理:大数据
Hadoop
技术原理简介
在大数据技术体系当中,
Hadoop
技术框架无疑是重点当中的重点,目前主流的大数据开发任务,都是基于
Hadoop
来进行的。
加米谷大数据张老师
·
2023-10-08 06:05
大数据
大数据
hadoop
分布式
大数据与
Hadoop
入门理论
一、大数据的3种数据类型1、结构化数据可定义,有类型、格式、结构的强制约束如:RDBMS(关系型数据库管理系统)2、非结构化数据没有规律没有数据约束可言,很复杂难以解析如:文本文件,视频,音频,PDF文件,各种类型文件,图片,邮件等3、半结构化数据有一定的格式约束但是不多如:csv,xml,json,html文件,拥有开标签闭标签规定但是中间内容不确定二、大数据4V特征1、Volume大量性数据量
Agatha方艺璇
·
2023-10-08 06:00
Hadoop
大数据
大数据
hadoop
分布式
hive 优化
原文地址ApacheHive是一个类似SQL的软件,与
Hadoop
一起使用,使用户能够快速高效地使用自己的语言HiveQL执行类似SQL的查询。
熊_看不见
·
2023-10-08 05:56
Kafka详细原理总结
Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于
hadoop
犀牛_2046
·
2023-10-08 05:23
#
Kafka
Kafka详细总结
Kafka架构特性——知识总结
Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于
Hadoop
PineApple_Chan
·
2023-10-08 05:53
BigData
kafka
大数据
分布式
hadoop
Kafka史上最详细原理总结
Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于
hadoop
HighFace
·
2023-10-08 05:22
消息队列
kafka
kafka
kafka原理总结
Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于
hadoop
wilson_go
·
2023-10-08 05:51
kafka
kafka
big
data
Flume如何把日志写到HA的HDFS中
hadoop
框架已经把他们之间的集成做的非常便捷了。第一步复制
Hadoop
下的core-site.xml到flume的conf文件夹下。
明明德撩码
·
2023-10-08 04:02
sqoop
Sqoop背景:Sqoop是什么Sqoop是一个用于
Hadoop
和结构化数据存储(如关系型数据库)之间进行高效传输大批量数据的工具。
小小大数据
·
2023-10-08 01:52
Sqoop
sqoop
hadoop
大数据
分享好诗,我打碎了夕阳,看网友文采有多强
03我打碎了夕阳,夜色
研磨
成霜。繁星摇摇晃晃,跌落人间欢场。04我打碎了夕阳,落下满地霞光,一帧一画,皆为过往,只想夕阳赠我顷刻黄粱。05我打碎了夕阳,泻了一地橙黄。天边的火烧云,都在笑我荒唐。
惠风畅叙
·
2023-10-08 00:15
Windows Pycharm 下运行Spark 错误纪录
@file01.py@time:2022-10-29@OS:win7旗舰版
[email protected]
@版本:jdk:1.8.0-212;Scala:2.13.7Spark:3.3.1
Hadoop
leader_ww
·
2023-10-08 00:26
Python
windows
pycharm
spark
Python Pyspark 启动错误
file01.py@time:2022-10-2722:54@OS:win7旗舰版
[email protected]
@版本:jdk:1.8.0-212;Scala:2.13.7Spark:3.3.1
Hadoop
leader_ww
·
2023-10-07 23:55
Python
java
开发语言
解决:
hadoop
无法访问50070端口
前置整个环境下JDK正常,
hadoop
配置文件正常,各个守护进程正常启动,防火墙已关闭,但是启动后无法从浏览器中访问50070。
燕山北
·
2023-10-07 23:09
错误解决
Ubuntu 集群时间同步配置时间服务器及;error:Unit ntpd.service could not be found.
hadoop
@had
北方569
·
2023-10-07 22:06
ubuntu
服务器
linux
在Win10上安装linux并且配置
hadoop
和hbase
前置条件:
hadoop
-2.7.7hbase-2.1.3jdk-8u-11-linux-x64Ubuntu18.04第一步—安装Linux事先说一下,以下安装的Ubuntu,个人认为它只是对Windows10
吃土啦
·
2023-10-07 22:33
大数据 | Pyspark基本操作
它的优势有三个方面:通用计算引擎能够运行MapReduce、数据挖掘、图运算、流式计算、SQL等多种框架;基于内存数据可缓存在内存中,特别适用于需要迭代多次运算的场景;与
Hadoop
集成能够直接读写HDFS
RichardsZ_
·
2023-10-07 21:10
机器学习
大数据
Hbase-2.0.5
数据模型1.2.1HBase逻辑结构1.2.2HBase物理存储结构1.2.3数据模型1.3HBase基本架构第2章HBase快速入门2.1HBase安装部署2.1.1Zookeeper正常部署2.1.2
Hadoop
旧城里的阳光
·
2023-10-07 18:23
大数据
hbase2.0.5
大数据
hbase
Spark基础
复杂的逻辑需要大量的样板代码(2)处理效率低Map中间结果写磁盘,Reduce写HDFS,多个Map通过HDFS交换数据任务调度与启动开销大(3)不适合迭代处理、交互式处理和流式处理Ⅱ、Spark是类
Hadoop
MapReduce
罗刹海是市式市世视士
·
2023-10-07 17:51
spark
大数据
分布式
大数据软件系统开发框架
1.Apache
Hadoop
:
Hadoop
是一个开源的分布式数据存储和处理框架,它包括
Hadoop
分布式文件系统(HDFS)和MapReduce编程模型。
Hadoop
可以处理大规模数据集的
defdsdddev
·
2023-10-07 15:54
大数据
Hadoop
2.7.4 HDFS+YRAN HA部署
实验环境主机名称IP地址角色统一安装目录统一安装用户sht-sgm
hadoop
nn-01172.16.101.55namenode,resourcemanager/usr/local/
hadoop
(软连接
天为我蓝
·
2023-10-07 11:10
大数据
java
运维
浅析HDFS FairCallQueue
背景
Hadoop
服务组件,尤其是NameNode,处理来自Client的RPC请求时,往往承受较重的负载。
yukikaze_nanoda
·
2023-10-07 11:10
大数据
java
开发语言
大数据笔/面试题
一.
Hadoop
1.hdfs写流程2.hdfs读流程3.hdfs的体系结构4.一个datanode宕机,怎么一个流程恢复5.
hadoop
的namenode宕机,怎么解决6.namenode对元数据的管理
四月天03
·
2023-10-07 11:09
大数据(其他)
hadoop
hdfs
big
data
Hadoop
公平调度队列FairCallQueue的优化设想
文章目录前言优化点一:FairCallQueue对于不同RPCCost的度量优化优化点二:FairCallQueue下的资源预留支持引用前言
Hadoop
在早期实现了一种公平调度队列取代统一大队列的模式,
Android路上的人
·
2023-10-07 11:09
Hadoop
Hadoop
Common
分布式系统
fair
call
queue
rpc
拥塞控制
那些在CDH5中是bug,到了CDH6版本就修复了的问题
涉及到
Hadoop
、HDFS、YARN、HBASE、hive、hue、impala、kudu、oozie、solr、spark、kafka、parquet、zookeeper等组件。
ClouderaHadoop
·
2023-10-07 11:09
Cloudera
impala
hdfs
大数据
hadoop
spark
大数据学习,涉及哪些技术?
分布式存储系统:如
Hadoop
HDFS、AmazonS3、GoogleCloudStorage等。数据仓库:如AmazonRedshift
金木讲编程
·
2023-10-07 08:14
大数据
学习
Python数据攻略-
Hadoop
集群中PySpark数据处理
Hadoop
是一个开源的分布式存储和计算框架。它让我们可以在多台机器上存储大量的数据,并且进行高效的数据处理。
Mr数据杨
·
2023-10-07 08:33
Python
数据攻略
python
hadoop
开发语言
Linux免密ssh自身不成功怎么解决,centos配置ssh免密码登录后仍要输入密码的解决方法...
前言在搭建linux集群服务的时候,主服务器需要启动从服务器的服务,如果通过手动启动,集群内服务器几台还好,要是像阿里1000台的云梯
Hadoop
集群的话,轨迹启动一次集群就得几个工程师一两天时间,是不是很恐怖
蒲玉恩
·
2023-10-07 07:16
一文快速学会
Hadoop
伪分布式环境搭建,很详细
文章目录一、准备工作二、配置ssh免密登录三、修改
hadoop
的配置文件四、格式化namenode节点,启动hdfs,启动yarn一、准备工作配置
hadoop
模板虚拟机(学习篇)CentOS7安装jdkcentos7
小雨凉如水
·
2023-10-07 06:12
hadoop
hadoop
分布式
hdfs
Hadoop
分布式集群搭建教程(2023在校生踩坑版)
博主本人,数据科学与大数据技术双非民办本科在读生,学的很差,配置
Hadoop
过程中,遇到了好多好多坑,Linux操作系统使用还是比较熟练的,所以大部分遇到的问题都是因为课本上的知识已经更新换代,网上找到的教程也杂乱无章
袁既望
·
2023-10-07 06:11
Hadoop学习历程
分布式
hadoop
大数据
Hadoop
伪分布式安装搭建教程
文章目录安装VMware虚拟机下载Ubuntu18.04镜像,并在VMware中新建虚拟机安装VMwaretools搭建
Hadoop
伪分布式1、安装VMware虚拟机1.安装VMwareWorkstation14Pro
雨晴9043
·
2023-10-07 06:11
hadoop
分布式
hdfs
ubuntu
linux
【linux】CentOS8
Hadoop
伪分布式环境搭建(三台节点机)
二、安装
Hadoop
三、伪分布式环境搭建四、添加两个节点机五、启动
hadoop
前言1.本篇文章主要参考博客:点击进入,整合了伪分布的环境搭建和一些踩坑事项。
Sillyhumans
·
2023-10-07 06:41
linux
hadoop
分布式
linux
Hadoop
伪分布式环境搭建过程
1.下载解压安装
hadoop
,JDK2.配置SSH免密码登录3.将JDK和
hadoop
的安装目录添加到环境变量中4.配置
hadoop
-env.sh5.配置core-site.xml6.配置hdfs-site.xml7
SELECT *
·
2023-10-07 06:11
hadoop
分布式
hdfs
上一页
86
87
88
89
90
91
92
93
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他