hdfs 第18页

Impala查询详解

而Impala可以说是一个MPP计算引擎，它需要处理的数据存储在HDFS、Hbase或者Kudu之上，这些存储引擎都是独立于Impala的，可以称之为第三方存储引擎，Impala使

weixin_34234823·2024-01-04 23:41

kudu NoSQL数据库详解

一、Hbase、Kudu和ClickHouse对比Hadoop生态圈中HDFS一直用来保存底层数据。

wespten·2024-01-04 23:09

备份kudu表数据（Kudu导入导出）

INSERTINTOTABLEsome_parquet_tableSELECT*FROMkudu_table方法一：(在Hue中进行即可）1,利用impala进行备份，将Kudu表结构转化为impala表结构(其数据存储在hdfs

冬瓜螺旋雪碧·2024-01-04 23:38

ceph存储

ceph一.存储分类1.本地存储的文件系统ext3ext4efsntfs2.网络存储nfs网络文件系统hdfs分布式网络文件系统glusterfs分布式网络文件系统3.传统存储(1).DASSAS,SATA

MoonSoin·2024-01-04 17:26

11111111

core-site.xml文件的内容如下：hadoop.tmp.dirfile:/usr/local/hadoop/tmpAbaseforothertemporarydirectories.fs.defaultFShdfs

SunsPlanter·2024-01-04 15:23

没脾气的周四

昨天所说的Sqoop由hdfs入Mysql主键重复的问题，今天去生产查了一下，并不像预料的那样，还是一筹莫展，对还是集群上主键没有重复，然后入Mysql报主键重复，很让人尴尬，又没有脾气，你想想如果春节期间

阳春没有雪·2024-01-04 13:50

Flume基础知识（四）：Flume实战之实时监控单个追加文件

1）案例需求：实时监控Hive日志，并上传到HDFS中2）需求分析：3）实现步骤：（1）Flume要想将数据输出到HDFS，依赖Hadoop相关jar包检查/etc/profile.d/my_env.sh

依晴无旧·2024-01-04 10:08

Flume基础知识（五）：Flume实战之实时监控目录下多个新文件

1）案例需求：使用Flume监听整个目录的文件，并上传至HDFS2）需求分析：3）实现步骤：（1）创建配置文件flume-dir-hdfs.conf创建一个文件vimflume-dir-hdfs.conf

依晴无旧·2024-01-04 10:08

Java技术栈 —— Hadoop入门（一）

Java技术栈——Hadoop入门（一）一、Hadoop第一印象二、安装Hadoop三、Hadoop解析3.1Hadoop生态介绍3.1.1MapReduce-核心组件3.1.2HDFS-核心组件3.1.3YARN

键盘国治理专家·2024-01-04 08:02

大数据-HDFS原理

什么是HDFS？

运维仙人·2024-01-04 07:00

【Hadoop-HDFS-S3】HDFS 和存储对象 S3 的对比

【Hadoop-HDFS-S3】HDFS和存储对象S3的对比1）可扩展性2）数据的高可用性3）成本价格4）性能表现5）数据权限6）其他限制虽然ApacheHadoop以前都是使用HDFS的，但是当Hadoop

bmyyyyyy·2024-01-04 07:25

利用python将excel文件转成txt文件，再将txt文件上传hdfs，最后传入hive中

将excel文件转成txt文件，再将txt文件上传hdfs，最后传入hive中1.利用python将excel转成txt文件#!

m0_37759590·2024-01-04 06:03

Hive08_分区表

一分区表1概念：分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。

程序喵猴·2024-01-04 02:00

从零开始了解大数据(七)：总结

系列文章目录从零开始了解大数据(一)：数据分析入门篇-CSDN博客从零开始了解大数据(二)：Hadoop篇-CSDN博客从零开始了解大数据(三)：HDFS分布式文件系统篇-CSDN博客从零开始了解大数据

橘子-青衫·2024-01-04 02:19

hdfs dfs 命令学习实践

1、hdfsdfs-ls查看目录或文件参数：[-C][-d][-h][-R][-t][-S][-r][-u][...]参数释义：-C仅显示文件和目录的路径-d目录列为普通文件-h以人类可读的方式显示文件大小

probtions·2024-01-03 23:25

Spark相关知识点（期末复习集锦）

一、Spark简介Spark，拥有hadoopMR所具有的优点，但不同于MR的是job中监测结果可以保存在内存中，从而不再需要读写HDFS，因此spark能够更好的适用于数据挖掘与机器学习等需要迭代的mr

夜をむかえる·2024-01-03 22:49

启动Hbase后HMaster老是掉的原因

1.启动Hbase之前先启动hdfs,zookeeper,再启动Hbase,但是隔一会就发现HMaster掉线了,但是hregionserver还在.2.解决:重新启动Hbase之前,先kill掉hregionserver

夺命大翻斗·2024-01-03 22:12

hive基本概念原理与底层架构

hadoop是一个开源框架，在分布式环境中存储和处理大型数据，他包括两个模块，一个是mapreduce,另一个是hdfs.mapreduce:他是一个并行编程模型在大型集群普通硬件可用于处理大型

byway_lyn·2024-01-03 20:22

大数据Hadoop入门学习线路图

Hadoop是系统学习大数据的必会知识之一，Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的

千_锋小小千·2024-01-03 19:12

电商数仓可视化1--数据导入

商品分类信息、商品信息、店铺信息、订单数据、订单支付信息、活动信息、物流信息等2、埋点数据埋点日志相对业务数据是用于数据分析、挖掘需求，一般以日志形式存储于日志文件中，随后通过采集落地分布式存储介质中如hdfs

bigdata从入门到放弃·2024-01-03 18:53

我的大数据之路：2023年度总结

同时对“数据治理”有了一定的实践经验：存储治理：HDFS基于纠删码的存储空间占用上优于多副本存储；冷数据使用对象存储可以大幅降低成本。

话数Science·2024-01-03 18:07

HDFS重温

今天被问到分布式，有些忘记，查资料回忆起分布式集群构建，现在重温集群搭建过程费话不多说，来个简图NameNode：HDFS群集包含单个NameNode（主服务器），它管理文件系统命名空间并控制客户端对文件的访问权限

zty_1995·2024-01-03 18:18

开源大数据集群部署（一）集群实施规划

8C16G操作系统版本CentOSLinuxrelease7.8.2003(Core)java版本javaversion“1.8.0_281”hadoop版本hadoop3.2.4集群版本规划集群组建版本HDFS3.2.4YARN3.2.4M

云掣YUNCHE·2024-01-03 15:42

HBASE基础

1、NoSQL非关系型数据库2、hbase是面向列存储结构，即类似于hashmap3、hbase是以hdfs作为基础存储4、官网http://hbase.apache.org/5、hbase的逻辑结构是由行与列族构成的

xinxinyydss·2024-01-03 12:25

HDFS之Offline Viewer

FileDistribution常用于查看hdfs文件大小分布，查看小文件的数量。hdfsoiv-pFileDistribution-maxSizemaxSize-step

zincooo·2024-01-03 09:16

Spark一：Spark介绍、技术栈与运行模式

1.2Spark作用中间结果输出Spark的Job中间输出结果可以保存在内存中，从而不再需要读写HDFSMapReduce的替代方案Spark比M

eight_Jessen·2024-01-03 09:11

Flume基础知识（一）：Flume组成原理与架构

Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS。2.Flume基础架构Flume组成架构如下图所示。

依晴无旧·2024-01-03 07:18

计算机毕业设计吊打导师hadoop+spark+hive知识图谱医生推荐系统医生数据分析可视化大屏医生爬虫医疗可视化医生大数据机器学习大数据毕业设计

万医生数据，最终存入mysql数据库；2.使用pandas+numpy/hadoop+mapreduce对mysql中的医生数据进行数据分析，使用高德地图解析地理位置，并将结果转入.csv文件同时上传到hdfs

计算机毕业设计大神·2024-01-03 07:53

纠删码ReedSolomon

随着大数据技术的发展，HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了数据的可靠性，HDFS通过多副本机制来保证。

旅僧·2024-01-03 07:14

Clojure 实战(4)：编写 Hadoop MapReduce 脚本

它是Apache基金会下的开源项目，受Google两篇论文的启发，采用分布式的文件系统HDFS，以及通用的MapReduce解决方案，能够在数千台物理节点上进行分布式并行计算。

张吉Jerry·2024-01-03 07:35

shell编程之find

-inameaa-user查找文件属主为hdfs的所有文件，不区分大小写find.-userhdfs-group查找文件属组为yarn的所有文件find.-groupyarnf文件find.

hemingkung·2024-01-03 06:13

python操作hdfs及hbase

操作HDFS创建目录client.makedirs("/tmp/ct/test51")默认权限755，用户名：dr.who可以创建多层级目录（类似mkdir-p）如果存在权限不足，可以通过命令行对上层目录权限进行修改

佛系小懒·2024-01-03 04:26

Hbase介绍以及Hive优势

因为HBase基于Hadoop的HDFS完成分布式存储，以及MapReduce完成分布式并行计算，所以它的一些特点与Hadoop相同，依靠横向扩展，通过不断增加性价比高的商业服务器来增加计算和存储能力。

毛毛虫同学·2024-01-02 14:38

HBase内容分享（五）：HBase读写性能优化

目录一、HBase读优化1.HBase客户端优化2.HBase服务器端优化3.HBase列族设计优化4.HDFS相关优化5.HBase读性能优化归纳二、HBase写优化1.写性能优化切入点2.写异常问题检查点一

之乎者也··2024-01-02 10:48

【Hadoop】如何启动和关闭Hadoop集群

启动Hadoop集群关闭Hadoop集群启动Hadoop集群参考官方文档ApacheHadoop3.3.6–HadoopClusterSetup要启动Hadoop集群，需要同时启动HDFS和YARN集群

不怕娜·2024-01-02 10:29

【Hadoop】集群配置之主要配置文件（hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml...）

Hadoop配置文件模板core-site.xmlhadoop-env.shhdfs-site.xmlyarn-env-shyarn-site.xmlmapred-site.xmlslavesHadoop

不怕娜·2024-01-02 10:27

Hive(二)之bash群起脚本

集群的启动启动HDFS启动namenode$/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/sbin/hadoop-daemon.shstartnamenode2.启动datanode

DarrenmondZhang·2024-01-02 07:45

大数据 - Hadoop系列《三》- HDFS（分布式文件系统）概述

5.1hdfs的概念HDFS分布式文件系统,全称为:HadoopDistributedFileSystem。

王哪跑nn·2024-01-02 06:06

【2023】hadoop基础介绍

目录Hadoop组成HDFSHDFS操作HDFS分布式文件存储NameNode元数据数据读写流程YARN和MapReduceMapReduce：分布式计算YARN：资源管控调度YARN架构提交任务到**

方渐鸿·2024-01-02 03:26

flink 连接 hdfs 读取文件配置

flink连接hdfs读取文件配置hadoop版本为2.7.3window系统本地运行flink程序读取hdfs文件配置1，请导入hadoop和httpclient的包org.apache.flinkflink-hadoop-fs

eagle隼·2024-01-02 02:06

2018-05-21

分别做什么hdfs是存储数据的，yarn是管理调度作业的，mr是计算处理的3.hdfs在部署时，要配置信任关系，请问root和hadoop用户部署时，区别是什么root的权限高，可以不用管，普通用户需要修改

CrUelAnGElPG·2024-01-01 23:55

hdfs数据完整性

hdfs会对写入的所有数据计算校验和，在数据通过不可靠通道传输的时候再次计算校验和，对比就能发现数据是否损坏，常用的通过32位循环冗余校验，在hadoop中，可以通过checksum命令得到想要的文件的校验和

文贞武毅·2024-01-01 20:45

详解大数据数据仓库分层架构

大数据数据仓库是基于HIVE构建的数据仓库，分布文件系统为HDFS，资源管理为Yarn，计算引擎主要包括MapReduce/Tez/Spark等，分层架构如下：1、数据来源层：日志或者关系型数据库，并通过

Alukar·2024-01-01 14:47

大数据编程期末大作业

目录一、Hadoop基础操作二、RDD编程三、SparkSQL编程四、SparkStreaming编程五、Flume的安装配置一、Hadoop基础操作按要求完成以下操作：1、在HDFS中创建目录/user

Francek Chen·2024-01-01 14:50

2024任务驱动Hadoop应用讲课提纲

Hadoop集群任务1：搭建完全分布式Hadoop集群1.思路解析2.编程实现3.知识点讲解4.总结提高任务2：搭建高可用Hadoop集群（HA模式）1.思路解析2.编程实现3.知识点讲解4.总结提高项目二：HDFS

howard2005·2024-01-01 13:41

安装Hadoop：Hadoop的单机模式、伪分布式模式——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项

前言Hadoop包括三种安装模式：单机模式：只在一台机器上运行，存储是采用本地文件系统，没有采用分布式文件系统HDFS；伪分布式模式：存储采用分布式文件系统HDFS，但是，HDFS的名称节点和数据节点都在同一台机器上

Stitch .·2024-01-01 10:09

【2023Hadoop大数据技术应用期末复习】填空题题型整理

大数据的4V特征包含（）（）（）（）答案：大量、多样、高速、价值Hadoop三大组件包含（）（）（）答案：HDFS、MapReduce、YarnHadoop2.x版本中的HDFS是由（）（）（）组成答案

Lacszer·2024-01-01 10:23

计算机毕业设计hadoop+spark+hive知识图谱酒店推荐系统酒店数据分析可视化大屏酒店爬虫高德地图API 酒店预测系统大数据毕业设计

爬取去哪儿网全站旅游数据约10万+，存入mysql;2.使用pandas+numpy/hadoop+mapreduce对mysql中旅游数据进行数据清洗，使用高德API计算地理信息，最终转为.csv文件上传hdfs

计算机毕业设计大神·2024-01-01 06:52

Python使用hdfs存放文件时报Proxy error: 502 Server dropped connection解决方案

Python3使用hdfs分布式文件储存系统frompyhdfsimport*client=HdfsClient(hosts="testhdfs.org,50070",user_name="web_crawler

Python之战·2024-01-01 05:11

大数据 - Hadoop系列《二》- Hadoop组成

目录3.1hadoop组成3.1HDFS架构概述1.NameNode（nn）：编辑2.DataNode(dn)：3.SecondaryNameNode(2nn)：3.2YARN架构概述3.3MapReduce

王哪跑nn·2023-12-31 22:50

推荐频道

hdfs