E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分布式文件系统HDFS
大数据编程期末大作业
目录一、Hadoop基础操作二、RDD编程三、SparkSQL编程四、SparkStreaming编程五、Flume的安装配置一、Hadoop基础操作按要求完成以下操作:1、在
HDFS
中创建目录/user
Francek Chen
·
2024-01-01 14:50
Spark编程基础
spark
大数据
分布式
2024任务驱动Hadoop应用讲课提纲
Hadoop集群任务1:搭建完全分布式Hadoop集群1.思路解析2.编程实现3.知识点讲解4.总结提高任务2:搭建高可用Hadoop集群(HA模式)1.思路解析2.编程实现3.知识点讲解4.总结提高项目二:
HDFS
howard2005
·
2024-01-01 13:41
Hadoop分布式入门
hadoop
大数据
分布式
安装Hadoop:Hadoop的单机模式、伪分布式模式——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项
前言Hadoop包括三种安装模式:单机模式:只在一台机器上运行,存储是采用本地文件系统,没有采用
分布式文件系统
HDFS
;伪分布式模式:存储采用
分布式文件系统
HDFS
,但是,
HDFS
的名称节点和数据节点都在同一台机器上
Stitch .
·
2024-01-01 10:09
我的大学笔记
Hadoop
分布式
大数据
hadoop
笔记
linux
mysql
hive
【2023Hadoop大数据技术应用期末复习】填空题题型整理
大数据的4V特征包含()()()()答案:大量、多样、高速、价值Hadoop三大组件包含()()()答案:
HDFS
、MapReduce、YarnHadoop2.x版本中的
HDFS
是由()()()组成答案
Lacszer
·
2024-01-01 10:23
大数据
分布式文件系统
的介绍
什么是
分布式文件系统
跨越多个服务器或者多个位置的文件系统。
旅僧
·
2024-01-01 07:27
#
计算机组成原理
大数据
分布式
计算机毕业设计hadoop+spark+hive知识图谱酒店推荐系统 酒店数据分析可视化大屏 酒店爬虫 高德地图API 酒店预测系统 大数据毕业设计
爬取去哪儿网全站旅游数据约10万+,存入mysql;2.使用pandas+numpy/hadoop+mapreduce对mysql中旅游数据进行数据清洗,使用高德API计算地理信息,最终转为.csv文件上传
hdfs
计算机毕业设计大神
·
2024-01-01 06:52
Python使用
hdfs
存放文件时报Proxy error: 502 Server dropped connection解决方案
Python3使用
hdfs
分布式文件储存系统frompy
hdfs
import*client=
Hdfs
Client(hosts="test
hdfs
.org,50070",user_name="web_crawler
Python之战
·
2024-01-01 05:11
缘起:BigTable
2003年的GFS:GFS是一个可扩展的
分布式文件系统
,主要解决传统单机文件系统中磁盘小,数据存储无冗余等问题
一纸微言
·
2024-01-01 03:22
大数据 - Hadoop系列《二》- Hadoop组成
目录3.1hadoop组成3.1
HDFS
架构概述1.NameNode(nn):编辑2.DataNode(dn):3.SecondaryNameNode(2nn):3.2YARN架构概述3.3MapReduce
王哪跑nn
·
2023-12-31 22:50
大数据
大数据
hadoop
分布式
大数据的核心工作
以数据为生活赋能大数据软件生态(数据存储,数据计算,数据传输)1.大数据的核心工作存储:妥善保存海量待处理数据计算:完成海量数据的价值挖掘传输:协助各个环节的数据传输2.大数据软件生态存储:ApacheHadoop
HDFS
PGl63
·
2023-12-31 22:42
hadoop
数据库
数据库架构
安装与部署Hadoop
一、前置安装准备1、机器2、java3、创建hadoop用户二、安装Hadoop三、环境配置1、workers2、hadoop-env.sh3、core-site.xml4、
hdfs
-site.xml5
mapyking
·
2023-12-31 20:48
大数据-Hadoop
hadoop
大数据
分布式
sqoop的导入命令详解
sqoop的背景sqoop是一个配合大数据hadoop做数据底层的导入导出操作,需要配合hive及
分布式文件系统
(
hdfs
或blob)一起使用,在大数据ETL应用领域,sqoop占据主流。
夜空痕
·
2023-12-31 13:55
使用Java API对
HDFS
进行如下操作:文件的创建、上传、下载以及删除等操作
HDFS
-JAVA接口:上传文件将一个本地文件(无具体要求)上传至
HDFS
中的/
hdfs
-test路径下(如无此路径,新建一个)。
马龙强_
·
2023-12-31 09:50
java
hdfs
hadoop
解锁大数据世界的钥匙——Hadoop
HDFS
安装与使用指南
目录1、前言2、Hadoop
HDFS
简介3、Hadoop
HDFS
安装与配置4、Hadoop
HDFS
使用5、结语1、前言大数据存储与处理是当今数据科学领域中最重要的任务之一。
凛鼕将至
·
2023-12-31 07:25
hadoop
hdfs
大数据
往
hdfs
中上传文件
一开始出现错误,是权限的问题,这部分问题呢,如果深究起来就麻烦了,所以最后直接在
hdfs
里面把这些个东西给关掉了。然后这样就实现了,即使是
VChao
·
2023-12-31 06:23
FastDFS集群搭建
FastDFS是一个开源的轻量级
分布式文件系统
,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。
fanlcwowo
·
2023-12-31 03:39
linux
服务器
运维
架构 - 理解架构的演进
架构-理解架构的演进架构演进初始阶段的网站架构应用服务和数据服务分离使用缓存改善网站性能使用应用服务器集群改善网站的并发处理能力数据库读写分离使用反向代理和CDN加上网站相应使用
分布式文件系统
和分布式数据库使用
小小兔在普陀山走神啊
·
2023-12-31 00:30
#
架构基础
架构
MR实战:实现数据去重
文章目录一、实战概述二、提出任务三、完成任务(一)准备数据文件1、在虚拟机上创建文本文件2、上传文件到
HDFS
指定目录(二)实现步骤1、Map阶段实现(1)创建Maven项目(2)添加相关依赖(3)创建日志属性文件
howard2005
·
2023-12-30 12:55
Hadoop分布式入门
mr
数据去重
Hadoop开发环境搭建
文章目录第1关:配置开发环境-JavaJDK的配置第2关:配置开发环境-Hadoop安装与伪分布式集群搭建hadoop-env.sh配置yarn-env.sh配置core-site.xml配置
hdfs
-site.xml
柔雾
·
2023-12-30 09:42
hadoop
大数据
分布式
IDEA使用
HDFS
的JavaApi
1.准备工作1.1创建测试类创建测试类,并定义基本变量publicclass
HDFS
JAVAAPI{//定义后续会用到的基本变量publicfinalString
HDFS
_PATH="
hdfs
://hadoop00
向之 所欣
·
2023-12-30 07:59
Hadoop
intellij-idea
hdfs
java
在CentOS7上安装Hadoop分布式系统
Hadoop由分布式存储
HDFS
和分布式计算MapReduce两部分组成。
HDFS
是一个master/slave的结构,就通常的部署来说,在master上只运行一个Namenode
栗子艾李子
·
2023-12-30 07:26
hadoop
linux
hdfs
分布式
Hadoop架构概述
HDFS
架构概述
HDFS
(HadoopDistributedFileSystem)的架构概述NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的
青涩的芒果汁
·
2023-12-30 06:31
技术分享
linux查询kafka日志,利用Rsyslog进行日志收集到Kafka
项目需要将日志收集起来做存储分析,数据的流向为rsyslog(收集)->kafka(消息队列)->logstash(清理)->es、
hdfs
;今天我们先将如何利用rsyslog进行日志收集到kafka。
李玉北
·
2023-12-30 05:37
linux查询kafka日志
Hbase详解
HDFS
为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案
武昌库里写JAVA
·
2023-12-30 05:41
高手面试
hbase
数据库
大数据
GFS
分布式文件系统
(详解与配置)
存储存储是计算机系统中用于保留数据、程序和信息的过程和设备。它包括了数据的永久性保存,以便在需要时可以检索、读取和操作。存储可以分为多种类型,包括:存储类型主存储(RAM-RandomAccessMemory)用于存储正在运行的程序、操作系统和当前需要的数据。是临时性的,失去电源时数据会丢失。辅助存储硬盘驱动器(HDD):常见的机械式存储设备,以磁盘存储数据。固态驱动器(SSD):使用闪存技术,速
木合杉
·
2023-12-30 01:32
系统
系统架构
开源轻量级
分布式文件系统
FastDFS本地部署并实现远程访问服务器
文章目录前言1.本地搭建FastDFS文件系统1.1环境安装1.2安装libfastcommon1.3安装FastDFS1.4配置Tracker1.5配置Storage1.6测试上传下载1.7与Nginx整合1.8安装Nginx1.9配置Nginx2.局域网测试访问FastDFS3.安装cpolar内网穿透4.配置公网访问地址5.固定公网地址5.1保留二级子域名5.2配置二级子域名6.测试访问固定
一棵西兰花
·
2023-12-29 23:38
cpolar
开源
服务器
运维
cpolar
内网穿透
三、 Flume-案例二:实时读取本地文件到
HDFS
.type=execa2.sources.r2.command=tail-F/opt/tmpa2.sources.r2.shell=/bin/bash-c#3sinka2.sinks.k2.type=
hdfs
a2
一种依耐丶从未离开
·
2023-12-29 21:46
HDFS
常用命令
1.
hdfs
dfs与hadoopfs命令的形式:
hdfs
dfs-linux命令这与linux中命令操作是一样的。
langzitianya
·
2023-12-29 21:15
大数据
hdfs
hadoop
大数据
分布式存储考点梳理 + 高频面试题
面试中如何考察分布式存储广义的分布式存储根据不同的应用领域,划分为以下的类别:分布式协同系统
分布式文件系统
分布式任务调度框架分布式NoSQL存储分布式关系数据库各种消息队列MQ流式计算框架当然,这只是一种划分方式
小小哭包
·
2023-12-29 21:15
分布式
分布式
分布式存储
阿里终面:10亿数据如何快速插入MySQL?
假设和面试官明确后,有如下约束10亿条数据,每条数据1Kb数据内容是非结构化的用户访问日志,需要解析后写入到数据库数据存放在
Hdfs
或S3分布式文件存储里10亿条数据并不是1个大文件,而是被近似切分为100
Young丶
·
2023-12-29 17:45
面试精选
mysql
数据库
面试
Hive讲课笔记:内部表与外部表
什么是内部表1.1.1内部表的定义1.1.2内部表的关键特性1.2创建与操作内部表1.2.1创建并查看数据库1.2.2在park数据库里创建student表1.2.3在student表插入一条记录1.2.4通过
HDFS
WebUI
howard2005
·
2023-12-29 13:34
数仓技术Hive入门
hive
内部表
外部表
Spark集群- 连接hadoop、hive集群
目的使spark代码提交到集群运行时,能够操作
hdfs
、hive等保证所有spark机器都能解析hadoop集群的机器名称如果spark和hadoop部署在同样的集群,则可以省略这一步如果spark和hadoop
heichong
·
2023-12-29 13:59
简单的 MapReduce 程序的示例代码,用于统计 HBase 中的成绩表中的单科排名和总分排名,并将结果上传到
HDFS
中。...
下面是一个简单的MapReduce程序的示例代码,用于统计HBase中的成绩表中的单科排名和总分排名,并将结果上传到
HDFS
中:```importjava.io.IOException;importorg.apache.hadoop.conf.Configuration
weixin_42601702
·
2023-12-29 10:19
hbase
hdfs
mapreduce
hadoop
大数据
统计 HBase 中的成绩表中的单科排名和总分排名,并将结果上传到
HDFS
中的完整代码...
这是一个使用HBaseJavaAPI统计成绩表中的单科排名和总分排名的完整代码示例。首先,你需要在pom.xml中添加HBase依赖:org.apache.hbasehbase-client2.3.2
轮胎技术Tyretek
·
2023-12-29 10:18
hbase
hdfs
hadoop
大数据
分布式
读取HBase的表数据,然后将数据写入到
hdfs
上面去
读取HBase的表数据,然后将数据写入到
hdfs
上面去1、Mapperpublicstaticclassmap
Hdfs
extendsTableMapper{@Overrideprotectedvoidmap
a大数据yyds
·
2023-12-29 10:48
HBase
hbase
MR实战:统计总分与平均分
文章目录一、实战概述二、提出任务三、完成任务(一)准备数据1、在虚拟机上创建文本文件2、上传文件到
HDFS
指定目录(二)实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建成绩映射器类
howard2005
·
2023-12-29 10:42
Hadoop分布式入门
mr
成绩统计
MR实战:分科汇总求月考平均分
文章目录一、实战概述二、提出任务三、完成任务(一)准备数据1、在虚拟机上创建文本文件2、上传文件到
HDFS
指定目录(二)实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建学生实体类
howard2005
·
2023-12-29 10:42
Hadoop分布式入门
mr
分科汇总求月考平均分
datax
DataXDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括MySQL、SQLServer、Oracle、PostgreSQL、
HDFS
、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能
jerry-89
·
2023-12-29 09:24
DorisDB
database
Hadoop用户权限管理及
hdfs
权限管理
1.创建用户student1,所属分组为studentschown-Rstudent1:students/home/hadoop/hadoop-2.7.6root用户将hadoop的相关操作权限授予student12.修改Hadoop目录的权限chmod-R755/home/hadoop/hadoop-2.7.63.hadoopfs-mkdir/user/student1_home在hadoop上
临界爵迹
·
2023-12-29 09:35
大数据
hadoop
Spark 集群搭建
yarn-site.xmlspark-env.sh官网求π(PI)案例启动spark-shell通过浏览器查看显示查看Spark的网页信息展示搭建前准备下载地址:Indexof/dist/spark(apache.org)配置好hadoop环境,
hdfs
撕得失败的标签
·
2023-12-29 00:42
大数据技术
spark
大数据
分布式
hadoop
yarn
hdfs
Hive的DataBase数据定义操作语言
1,官网提供的创建数据库格式CREATE(DATABASE|SCHEMA)[IFNOTEXISTS]database_name[COMMENTdatabase_comment][LOCATION
hdfs
_path
BABA_777
·
2023-12-28 23:43
巧妙实现四大实时功能 | Linkis与Hudi结合的数据湖构建实践
近段时间,我们也调研和实现了hudi作为我们数据湖落地的方案,他帮助我们解决了在
hdfs
上进行实时upsert的问题,让我们能够完成诸如实时ETL,实时对账等项目。hudi作为一个数据湖的实
康月牙
·
2023-12-28 20:02
【
HDFS
联邦(1)】ViewFs与联邦理论知识详解
路径使用逻辑三.新世界–联邦与ViewFs1.HowTheClustersLook2.使用ViewFs为每个集群创建全局的Namespace2.路径使用逻辑3.路径使用最佳实践(ing)本文主要想讨论
HDFS
ViewFs
roman_日积跬步-终至千里
·
2023-12-28 19:12
hadoop
实战
hdfs
npm
hadoop
大数据处理各组件概念及作用
;1.2FTP集群:文件传输工具;1.3Kafka集群:消息队列,未避免消息堵塞而将消息由Kafka统一管理,进行消息的接收和发布;1.4爬虫服务器:依据需求定时定向抓取页面数据;二、数据存储:2.1
HDFS
p1i2n3g4
·
2023-12-28 17:11
大数据
kafka
分布式
大数据
百度沧海文件存储CFS推出新一代Namespace架构
随着移动互联网、物联网、AI计算等技术和市场的迅速发展,数据规模指数级膨胀,对于
分布式文件系统
作为大规模数据场景的存储底座提出了更高的要求。
大隐隐于野
·
2023-12-28 15:48
存储专栏
cfs
filesystem
【
HDFS
联邦(2)】
HDFS
Router-based Federation官网解读:
HDFS
RouterFederation的架构、各组件基本原理
文章目录一.介绍二、
HDFS
Router-basedFederation架构1.示例说明2.Router2.1.Federatedinterface2.2.Routerheartbeat2.3.NameNodeheartbeat2.4
roman_日积跬步-终至千里
·
2023-12-28 15:41
hadoop
实战
hdfs
架构
hadoop
【HBase】——安装部署
1规划&前提Zookeeper、
HDFS
正常部署规划如下2解压并重命名cd/opt/software/tar-zxvfhbase-2.4.11-bin.tar.gz-C/opt/module/cd/opt
那时的样子_
·
2023-12-28 14:59
hbase
数据库
大数据
关于netty kafka
hdfs
hbase性能调研记录
1.netty调研记录项目中准备用netty框架来实现socket接口,对于netty的性能做了个初步调研,大致过程如下:1.1调用socket接口的客户端为了让客户端快速发送数据,我们已经提前将需要传输的数据通过java的ObjectInputStream写数据到了一个文件,主要是节省客户端接口的编码,然后让客户端不断循环发送数据一段时间(比如20分钟,时间是可以指定),客户端代码如下:impo
aperise
·
2023-12-28 13:09
学习总结
netty
kafka
hadoop
netty
kafka
hdfs
hbase
调研
速度
HDFS
基于动态代理的客户端运行逻辑
RetryDecisionRetryInfo几种常见的RetryPolicy实现和使用场景FailoverOnNetworkExceptionRetryTryOnceThenFailRetryForeverRetryLimited
HDFS
小昌昌的博客
·
2023-12-28 13:39
大数据架构
实现
hadoop
open-source
hdfs
hadoop
大数据
HDFS
短路读的实现(全网最全面深入讲解)
文章目录前言1.知识准备1.1关于域套接字(DomainSocket)什么是DomainSocketDomainSocket通信在ShortCircuitRead中做了什么DomainSocket在Hadoop上的基本实现1.2关于内存映射(MMAP)什么是MMAPMMAP在ShortCircuit中的作用是什么1.3关于共享内存(SharedMemory)什么是共享内存共享内存在Hadoop短路
小昌昌的博客
·
2023-12-28 13:38
大数据架构
实现
hadoop
java
短路读
hdfs
ShortCircuit
hadoop
域套接字
Domain
Socket
mmap
上一页
12
13
14
15
16
17
18
19
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他