hdfshadoop大数据第3页

配置hive on spark

配置hiveonspark1、上传Spark纯净版jar包到HDFS：hdfsdfs-mkdir/spark-jarshdfsdfs-put/opt/spark/jars/*/spark-jars2、修改

空白格2519·2024-02-15 10:51

hive on spark配置经验

常规配置配置完，开启hadoop，开启spark（如果在hdfs上上传了纯净版的spark则不需要开启），开启hive注：当前节点一定要是namenode的active节点，因为hadoop长时间不用namenode

小五冲冲冲·2024-02-15 10:21

大数据集群环境启动总结

hadoop启动与停止单个节点逐一启动在主节点上使用以下命令启动HDFSNameNode：hadoop-daemon.shstartnamenode在每个从节点上使用以下命令启动HDFSDataNode

我还不够强·2024-02-14 23:04

HDFS用户及权限配置

HDFS用户及权限配置使用linux用户bruce，格式化hadoop的namenode，那么bruce成为hdfs的超级用户在bruce用户下运行命令：#创建/user/hadoop目录hadoopfs-mkdir-p

wpheternal·2024-02-14 21:42

Hadoop(HDFS)的超级用户

Hadoop(HDFS)的超级用户超级用户超级用户即运行namenode进程的用户。宽泛的讲，如果你启动了namenode，你就是超级用户。超级用户干任何事情，因为超级用户能够通过所有的权限检查。

zinger.wang·2024-02-14 21:12

0564-6.1.0-HDFS超级用户(Superuser)和HDFS管理员(Administrator)的区别

1文档编写目的在前面的文章《0550-6.1-如何将普通用户增加到HDFS的超级用户组supergroup》中Fayson介绍过如何将普通用户设置为HDFS的超级用户，从而可以让普通用户也可以执行如dfsadmin

Hadoop_SC·2024-02-14 21:41

HDFS的超级用户

一.解释原因HDFS(HadoopDistributedFileSystem)和linux文件系统管理一样，也是存在权限控制的。

重剑DS·2024-02-14 21:41

hive中的Load data 和 insert的区别

OVERWRITE]INTOTABLEtablename[PARTITION(partcol1=val1,partcol2=val2...)]local关键字：有，表示从本地文件系统中导入没有，表示从HDFS

日写BUG八百行·2024-02-14 19:10

学习总结 - swift适配器为 Hadoop 的存储层增加对 OpenStack Swift 的支持

虽然文档内所涉及的版本有点旧，但内容很精彩，值得推荐背景在Hadoop中有一个抽象文件系统的概念，它有多个不同的子类实现，由DistributedFileSystem类代表的HDFS便是其中之一。

天地不仁以万物为刍狗·2024-02-14 07:37

hadoop HDFS的API封装

FSDataInputStream和FSDataOutputStream：这两个类是HDFS中的输入输出流。

Cynicism_Kevin·2024-02-14 07:37

linux中du的常见用法和查看文件大小并排序

du-s应用在想知道目录具体有多大的时候du-h这样方便看，常常du-s查询的时候也可以加上-h但是有一种情况例外，就是如下这种查看文件大小并排序前两天我想看下有个目录下（HDFS的和linux的用法一样

早点起床晒太阳·2024-02-13 23:18

利用 Docker 安装 Hadoop 集群并通过 Java API 访问 HDFS

前言最近刚好在学习Hadoop，在安装过程中遇到了一些小麻烦，正好将此次过程记录并分享出来，希望能对准备学习本块内容的读者们有所帮助。本次操作在Ubuntu中完成，如何安装Ubuntu本文不再赘述。本文所涉及到的代码及配置文件可在微信公众号「01二进制」后台回复「hadoop」获取。在Ubuntu中安装配置Docker使用官方安装脚本自动安装安装命令如下：curl-fsSLhttps://get.

qq_33419925·2024-02-13 21:38

hadoop 分布式集群安装与原理

我们分享一套能让您轻松完成集群搭建的方法，包括Hadoop的源码编译、企业级环境安装与配置和常用大数据组件的基本原理，请点击下面连接按笔记顺序进行学习服务器基础环境批量操作多台服务器zookeeper编译hadoop源码高可用（HA）HDFS

海牛大数据_青牛老师·2024-02-13 12:44

分区表

分区表：分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。

incover·2024-02-12 22:34

Hadoop-MapReduce-Yarn集群搭建

搭建的部署节点图如下：hdfs和yarn是两个不同概念，两者搭建不会冲突。注意一点是DataNode和NodeManager必须要部署在同一台机器，它们的比例是1比1关系的。

qq_2368521029·2024-02-12 07:44

搭建 Hadoop-3.1.3 HA 集群

本文目录1.集群部署分布规划2.Zookeepr集群安装3.HDFS-HAⅠ.配置core-site.xmlⅡ.配置hdfs-site.xmlⅢ.配置分发4.YARN-HAⅠ.配置yarn-site.xmlⅡ

扛麻袋的少年·2024-02-12 07:43

Hadoop-HA高可用集群部署

HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。

魔笛Love·2024-02-12 07:13

org.apache.hadoop.fs.ChecksumException: Checksum error: file:/root/test.txt at 0

上传文件到集群遇到以下异常：org.apache.hadoop.fs.ChecksumException:Checksumerror:file:/root/test.txtat0[root@master~]#hdfsdfs-puttest.txt

橙汁啤酒厂·2024-02-12 05:24

Flume总结

1.概述2.角色（source、Channel、sink、event)3.使用（1）监控端口（2）实时读取本地文件到HDFS（3）实时读取目录文件到HDFS（4）Flume与Flume之间数据传递：单Flume

我是嘻哈大哥·2024-02-12 01:56

clickhouse之表引擎

对于ck来说,目前位置包含了以下部分引擎:1.集成外部系统的表引擎,支持方式有kafka,JDBC,ODBC,HDFS等2.合并树家族(最为常用且重要)3.日志

落花流水i·2024-02-11 22:53

HBase知识点总结

是建立在HDFS之上，提供高可靠性、高性能、列存储、可伸缩、实时读写NoSql的数据库系统。

·2024-02-11 17:17

【大数据】Flume-1.9.0安装➕入门案例

目录前言一、Flume概述Flume基础架构二、Flume-1.9.0安装➕入门案例1.下载1.9.0解压2.监控端口数据官方案例3.实时读取本地文件（hive.log）到HDFS案例4.实时读取目录文件到

欧叶冲冲冲·2024-02-11 09:34

大数据入门--Flume（一）安装教程与案例

Flume（一）安装教程与案例安装教程案例监控端口数据官方案例(netcat-logger)实时监控单个追加文件(exec-hdfs)进阶版存在的问题实时监控目录下多个新文件(taildir)实时监控目录下多个新文件

许中宝·2024-02-11 09:34

Hive与ClickHouse的区别

Hive的存储引擎使用HDFS，计算引擎使用MapReduce或Spark。Hive本质上是一个元数据管理平台，通过对存储于HDFS上的数据文件附加元数据，赋予HDFS上的文件以数据库表的语义。

晓之以理的喵~~·2024-02-11 08:18

Hadoop（三）通过C#/python实现Hadoop MapReduce

MapReduceHadoop中将数据切分成块存在HDFS不同的DataNode中，如果想汇总，按照常规想法就是，移动数据到统计程序：先把数据读取到一个程序中，再进行汇总。

dotNET跨平台·2024-02-11 08:17

ClickHouse的特征,性能,优点,缺点,应用场景以及什么是OLAP,Clickhouse的相关优化

可以存储海量数据;因为clickhouse是分布式存储海量数据,所以解决了高并发的问题;clickhouse中的数据底层是列式存储clickhouse不仅可以管理自己的数据,也可以读取别人的数据,比如masql,hdfs

晓晓很可爱·2024-02-11 08:15

Spark编程题

现有100W+条数据存储在hdfs中的userinfo文件夹中的多个文件中,数据格式如下：张三|男|23|未婚|北京|海淀李四|女|25|已婚|河北|石家庄求：1.数据中所有人的平均年龄2.数据中所有男性未婚的人数和女性未婚人数

不愿透露姓名的李某某·2024-02-11 07:09

C#系列-C#访问hadoop API（9）

在C#中访问Hadoop通常涉及到与Hadoop分布式文件系统（HDFS）进行交互，以及可能执行MapReduce作业或其他Hadoop生态系统组件（如HBase或Hive）。

管理大亨·2024-02-10 22:27

大数据测试-Hive DML语句与函数使用2

一、HiveSQLDML语法之加载数据HiveSQL-DML-Load加载数据回顾在Hive中建表成功之后，就会在HDFS上创建一个与之对应的文件夹，且文件夹名字就是表名；文件夹父路径是由参数hive.metastore.warehouse.dir

Yasar.l·2024-02-10 22:55

hadoop-HDFS

架构图在这里插入图片描述2.读写的流程图在这里插入图片描述2.操作1.使用MAVEN集成对应的jar包org.apache.hadoophadoop-common2.7.1org.apache.hadoophadoop-hdfs2.7.12

炽热_3a57·2024-02-10 22:45

报表任务治理计划

先给大家介绍我们我们公司的报表产出组件图：报表产出图底层平台由HDFS、Yarn分别提供存储和计算支持在这之上我们提供了一套支持MR、Spark任务开发、依赖执行的调度系统BI业务同学利用调

liujianhuiouc·2024-02-10 12:46

计算机毕业设计PyFlink+Hadoop+Hive民宿数据分析可视化大屏民宿推荐系统民宿爬虫民宿大数据知识图谱机器学习大数据毕业设计

流程1.selenium自动化爬虫框架采集民宿数据约10万条存入.csv文件作为数据集；2.使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；3

计算机毕业设计大神·2024-02-10 10:56

HDFS常用命令

HDFS常用命令hdfs命令最常用的就是：hdfsdfs-[linux的命令]通过查看Hadoop的命令与hdfs的命令并不相同，且不存在包含关系。仅仅是hadoopfs与hdfsdfs可以等价。

昱东i·2024-02-10 06:30

could only be replicated to 0 nodes instead of minReplication (=1). There are 1 datanode(s) running

学习使用Hadoop-3.2.2APIIDEA中使用Java向hdfs写入文件时出现如下错误：couldonlybereplicatedto0nodesinsteadofminReplication(=

昱东i·2024-02-10 06:30

京东面试总结

2hdfs上传文件有哪几种方式？3Hive的优化问题？4Hive的数据倾斜问题？5数据分析？概念和总结6Django源码？7python的浅拷贝和深拷贝？

小小少年Boy·2024-02-09 21:45

hdfs支持lzo压缩配置

1安装linux的lzo库需要在集群的每一个节点都安装lzo库，假定都64位的机器。1）安装lzo操作如下：wgethttp://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz2）解压tar-zxvflzo-2.10.tar.gz3.进入解压后的目录：cdlzo-2.104.编译参数配置：本例lzo安装在/usr/local/lz

机灵鬼鬼·2024-02-09 20:28

Spark SQL（十一）：与Spark Core整合

1、筛选出符合查询条件（城市、平台、版本）的数据2、统计出每天搜索uv排名前3的搜索词3、按照每天的top3搜索词的uv搜索总次数，倒序排序4、将数据保存到hive表中3、实现思路：1、针对原始数据（HDFS

雪飘千里·2024-02-09 06:34

No.2大数据入门 | 环境搭建：jdk1.8安装及环境配置

Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem)，简称HDFS，Hadoop的框架最核心的设计就是:HDFS和MapReduce：HDFS为海量的数据提供了存储

滚滚红尘_8133·2024-02-08 11:43

Hadoop多次格式化后如何解决

产生原因我们在配置hadoop中的hdfs时，会设置元数据的存储位置，如图所示要想解决此问题，先停止所有启动的服务stop-all.sh然后删除上图画出来的配置文件，这里三台机器都要删，最后进入hadoop

(((φ(◎ロ◎;)φ)))牵丝戏安·2024-02-08 11:50

Hadoop生态漏洞修复记录

Hadoop常用端口介绍HDFSNameNode50070dfs.namenode.http-addresshttp服务的端口50470dfs.namenode.https-addresshttps服务的端口

不会吐丝的蜘蛛侠。·2024-02-08 08:30

Hadoop2.7配置

core-site.xmlfs.defaultFShdfs://bigdata/ha.zookeeper.quorum192.168.56.70:2181,192.168.56.71:2181,192.168.56.72

不会吐丝的蜘蛛侠。·2024-02-08 08:59

HDFS执行balance报错：hdfs balance java.io.IOException: Another Balancer is running.. Exiting

现象：1、大数据Hadoop集群，HDFS扩容后，为了使各节点数据均衡，执行balance操作。2、启动hdfsbalance时，一直出现其他的balance在执行中，其实并没有执行。

不会吐丝的蜘蛛侠。·2024-02-08 08:29

hadoop调优-hdfs配置优化

配置文件hdfs-site.xml生产环境建议优化：dfs.permissions.enabledtruedfs.namenode.handler.count90dfs.ha.automatic-failover.enabledtrue

不会吐丝的蜘蛛侠。·2024-02-08 08:28

hive自定义UDF依赖第三方jar包

上传jar包到HDFS上hdfsdfs-putxxxx.jar/tmp/hive/创建永久函数：createfunctionmy_funas'com.test.TestUDF'usingjar'hdfs

不会吐丝的蜘蛛侠。·2024-02-08 08:28

spark运行失败The directory item limit of /spark_dir/spark_eventLogs is exceeded: limit=1048576 items=104

报错：org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$MaxDirectoryItemsExceededException

不会吐丝的蜘蛛侠。·2024-02-08 08:58

删除和清空Hive外部表数据

外部表和内部表区别未被external修饰的是内部表（managedtable），被external修饰的为外部表（externaltable）；区别：内部表数据由Hive自身管理，外部表数据由HDFS

SunnyRivers·2024-02-08 08:53

sqoop导入数据到hdfs

Sqoop是apache旗下的一款”Hadoop和关系数据库之间传输数据”的工具导入数据：将MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据：从Hadoop

鲲鹏猿·2024-02-08 06:40

2024-02-07（Sqoop，Flume）

1.Sqoop的增量导入实际工作中，数据的导入很多时候只需要导入增量的数据，并不需要将表中的数据每次都全部导入到hive或者hdfs中，因为这样会造成数据重复问题。

陈xr·2024-02-08 06:35

2023大数据必看面试题

1、请讲述HDFS输入文件的具体步骤？

东方同学·2024-02-08 05:38

hive之DDl数据定义

1.Hive在HDFS上的默认存储路径Hive的数据都是存储在HDFS上的，默认有一个根目录，在hive-site.xml中，由参数hive.metastore.warehouse.dir指定。

嚄825·2024-02-07 19:32

推荐频道

hdfshadoop大数据