Hadoop大数据学习第53页

hadoop 配置历史服务器开启历史服务器查看 hadoop (十)

1.配置了三台服务器，hadoop22,hadoop23,hadoop242.hadoop文件路径:/opt/module/hadoop-3.3.43.hadoop22机器配置历史服务器的配置文件：文件路径

不努力就种地~·2023-11-21 11:43

hadoop 日志聚集功能配置 hadoop(十一)

图更加直观1.首先需要配置历史服务器配置，才可以配置日志聚集功能：hadoop配置历史服务器开启历史服务器查看hadoop(十)-CSDN博客2.配置了三台服务器，hadoop22,hadoop23,hadoop243

不努力就种地~·2023-11-21 11:43

Hadoop-- hdfs

1、HDFS中的三个进程：NameNode（NN）、DataNode(DN)、SecondNameNode(SNN)2、NameNode（NN）1、作用：1、接收客户端的一个读、写的服务，在namenode上存储了数据文件和datanode的映射的关系。2、存储元数据信息，会将文件的一些属性、文件的大小、文件的权限都存储在namenode上面，和存储block的位置信息，在每次开启集群的时候dat

新手小农·2023-11-21 11:11

清华教授：这16条完整又系统的大数据学习路线才是未来的趋势

一份专业的大数据学习资料才是学习大数据的利刃。小编分享的这套大数据学习资料将从学习大纲、书籍、视频教程分别分享。

郭小姐520·2023-11-21 11:00

hadoop 编写开启关闭集群脚本， hadoop hdfs，yarn开启关闭脚本。傻瓜式hadoop脚本 hadoop(九)

1.三台机器：hadoop22,hadoop23,hadoop242.hdfs在22机器启动，yarn在hadoop23机器3.脚本需要hadoop用户启动才可以4.脚本必须在hadoop22机器运行。

不努力就种地~·2023-11-21 11:30

解决：hadoop-client和netty-all的jar包冲突

问题：java.lang.NoSuchMethodError:io.netty.util.AttributeKey.newInstance(Ljava/lang/String;)Lio/netty/util/AttributeKey;解决：可能是版本不同的问题，然后导入netty-all依赖版本分别使用了4.1.17和4.1.18两个版本,但还是报上面的错误，后来百度了下面的地址，换成4.1.13

Sam_L·2023-11-21 10:07

Spark读取mysql数据插入Hive表中

避免待会找不到hive数据库修改spark的配置文件,conf目录下的spark-env.shexportJAVA_HOME=/opt/soft/jdkexportSPARK_MASTER_HOST=hadoop1exportSPARK_MASTER_PORT

JAVA百练成神·2023-11-21 10:01

maven打包插件配置模板

org.apache.maven.pluginsmaven-shade-plugin3.2.4packageshadecom.google.code.findbugs:jsr305org.slf4j:*log4j:*org.apache.hadoop

诗风雅韵·2023-11-21 08:45

Hadoop伪分布式集群搭建

一、切换到root用户su-root二、关闭selinux：vim/etc/selinux/configSELINUX=disabled三、切换到hadoop用户，配置免密登陆。

皮卡丘要进化·2023-11-21 02:13

[YARN] 2.2 GB of 2.1 GB virtual memory used. Killing container.

在etc/Hadoop/yarn-site.xml文件中，修改检查虚拟内存的属性为false，如下：yarn.nodemanager.vmem-check-enabledfalse

白纸糊·2023-11-21 00:29

MapReduce-WritableComparable排序（From 尚硅谷）

该操作属于Hadoop的默认行为。任何应用程序中的数据会被排序，而不管逻辑上是

lavineeeen·2023-11-21 00:04

学习篇-Hadoop-MapReduce-流量统计

文章目录一、Hadoop-MapReduce-流量统计-需求分析二、Hadoop-MapReduce-流量统计-代码实现三、Hadoop-MapReduce-流量统计-Partitioner一、Hadoop-MapReduce

东东爱编码·2023-11-21 00:03

hadoop-MapReduce案例流量统计

MapReduce案例-流量统计需求一:统计求和统计每个手机号的上行数据包总和，下行数据包总和，上行总流量之和，下行总流量之和分析：以手机号码作为key值，上行流量，下行流量，上行总流量，下行总流量四个字段作为value值，然后以这个key，和value作为map阶段的输出，reduce阶段的输入Step1:自定义map的输出value对象FlowBeanpackageflow_count_dem

Xiaoweidumpb·2023-11-21 00:02

MapReduce-流量统计求和-排序-Mapper和Reducer编写

定义FlowMapperpackagecn.learn.mapreduce_sort;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text

Leon_Jinhai_Sun·2023-11-21 00:58

mapreduce--流量统计

FlowBeanpackagecom.atguigu.mr.flow;importorg.apache.hadoop.io.Writable;importjava.io.DataInput;importjava.io.DataOutput

芝士小熊饼干·2023-11-21 00:57

Flink 源码解析 —— 深度解析 Flink 是如何管理好内存的？

最着名的例子是ApacheHadoop，还有较新的框架，如ApacheSpark、ApacheDrill、ApacheFlink。

zhisheng_blog·2023-11-20 23:03

第四章 Ambari二次开发之自定义Flink服务源码剖析

1、Ambari架构剖析1.1、Ambari概述（1）Ambari目标①核心目标：解决Hadoop生态系统部署问题②实现方式：默认配置写入stack中，在开启时将stack总各个版本的config文件读入

随缘清风殇·2023-11-20 23:31

win10下编译Apache版本hadoop2.10.0，附资源

今天是三月尾巴了，然后博文还没打卡，今天临时编译了一下hadoop在window上的环境包，至于版本就不要纠结了，比如问为啥不用hadoop2.6或者hadoop3版本而用2.10.0版本。

辅猪之王·2023-11-20 23:19

Spark 之 format

hive表，走的是这里'defgetDefaultStorage(conf:SQLConf):CatalogStorageFormat={//Torespecthive-site.xml,itpeeksHadoopconfigurationfromexistingSparksession

zhixingheyi_tian·2023-11-20 21:08

【博学谷学习记录】超强总结，用心分享|Hive调优-本地模式

文章目录本地模式用案例测试本地模式的效果创建普通表加载数据到普通表创建分桶表查询普通表数据插入分桶表记录关闭本地模式的插入数据用时记录开启本地模式的插入数据用时记录关闭本地模式的查询数据用时记录开启本地模式的查询数据用时总结本地模式当数据量很大时，HadoopJob

熊猫同学呀·2023-11-20 20:29

hive01--hive的安装及配置

hive是基于Hadoop集群的，所以在安装hive之前需要先安装hadoop。

码到成龚·2023-11-20 20:58

Hive的安装部署--三种模式

Hive的安装部署Hive常用的安装分三种(注意：Hive会自动监测Hadoop的环境变量，如有就必须启动Hadoop)先从本地上传Hive安装文件apache-hive-2.1.1-bin.tar.gz

雨中禁火·2023-11-20 20:58

hadoop+hive本地模式配置

一、环境准备：操作系统：Ubuntu14.04.1x86_64hadoop：hadoop-2.7.6下载链接：https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop

戏台无戏子&youngthful·2023-11-20 20:25

hive安装——本地模式

步骤一、安装hive，配置环境变量1.上传hive安装包到/opt/software/,进行解压[hadoop@mastersoftware]$tar-zxvfapache-hive-1.2.1-bin.tar.gz-C

赛伊米·2023-11-20 20:24

Apache-Hive3.1.3安装

文章目录1Hive官方地址及安装包下载地址2安装Hadoop集群3Hive服务安装3.1Hive部署模式介绍3.1.1metadata、metastore3.1.2metastore配置方式3.1.3客户端

非晚の·2023-11-20 20:24

【Hive---03】Hive安装部署『 3种模式的元数据库配置 | 第三方可视化编程工具 IntelliJ IDEA』

文章目录1.元数据配置(metastore)的3种模式2.安装部署第一步：配置Hadoop能够接受任何代理第二步：上传hive安装包并解压第三步：配置环境变量第四步：移除hive的日志jar包第五步：将

ElegantCodingWH·2023-11-20 20:53

Hive-2.3.9的安装搭建

Hive的安装搭建Hive安装分类远程数据库模式安装远程元数据服务模式安装hive可以基于源码的方式安装，也可以使用二进制安装包安装，此文档基于二进制安装前期准备工作，完成hadoop集群的安装Hive

星瀚光晨·2023-11-20 20:23

Hive本地模式安装（详细）

Hive是建立在Hadoop文件系统上的数据仓库，它提供了一系列工具，能够对存储在HDFS中的数据进行数据提取、转换和加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的工具。

i阿极(暂时无法回复版)·2023-11-20 20:48

大数据学习（十五）维度建模步骤以及实例

一、维度建模概述（kimball）它将客观世界划分为度量和上下文。度量是常常是以数值形式出现，事实周围有上下文包围着，这种上下文被直观地分成独立的逻辑块，称之为维度。它与实体-关系建模有很大的区别，实体-关系建模是面向应用，遵循第三范式，以消除数据冗余为目标的设计技术。维度建模是面向分析，为了提高查询性能可以增加数据冗余，反规范化的设计技术。二、如何进行维度建模选择业务过程→声明粒度→确认维度→确

阿齐（努力打工版）·2023-11-20 20:40

retry.RetryInvocationHandler: java.net.NoRouteToHostException: No Route to Host from hadoop100/192.

-11-0722:31:59,334INFOretry.RetryInvocationHandler:java.net.NoRouteToHostException:NoRoutetoHostfromhadoop100

月亮给我抄代码·2023-11-20 20:40

分布式架构关键技术

Hadoop是一个基于Java实现的，开源的，分布式存储和计算的项目。作为这个领域最富盛名的开源项目，Hadoop实现的是分布式的文件系统HDFS，和分布式的计算（Map/Reduce）框架。

talentluke·2023-11-20 20:53

Hadoop -- 分布式文件系统

1、分布式文件系统的思想：文件切分的思想（分而治之）当文件存储在磁盘中，不仅效率比较低，并且文件的大小可能会超出单机的存储的范围。所以分而治之的思想就是：不管文件有多大，所有的文件都是由字节数组构成，当想要切分文件的时候，就是将一个字节数组切分成多份，当需要使用这份数据的时候，就可以根据偏移量将字节数据拼接在一起，此时数据又可以继续使用。2、Block的拆分标准：1、block是磁盘进行数据读/写

新手小农·2023-11-20 19:57

Hive 基于hadoop来构建数仓的工具(三) 概念及原理介绍

参数配置三种方式：配置文件（全局有效默认hive-default.xml自定义配置会覆盖默认配置）命令行参数（对hive启动实例有效bin/hive--hiveconf）参数声明（对hive连接的当前session有效set）注意：系统级别的参数，只能使用2和1，这些参数读取在session建立之前，例如log4j优先级：3>2>1hiveshell命令行bin/hive命令-i初始化hql文件-

章云邰·2023-11-20 19:55

java梳理复习篇一（复习路线）

复习路线：JavaSE数据库前端JavaWebSSM框架LinuxSpringBootSpringCloudHadoop注：以上大纲抄至狂神说Java，具体复习内容也会在后续逐渐完善，并依

Lwj.·2023-11-20 17:11

学了这篇 Zookeeper，分分钟钟写出分布式应用程序

前言本次专题我们要探讨的内容是使用zookeeper实现自己的分布式应用程序，相信大家也都了解过zookeeper，比如我们使用的分布式框架——Dubbo，就是用zookeeper实现的注册中心，再比如Hadoop

you的日常·2023-11-20 16:20

2023.11.19 hadoop之MapReduce

分布式计算框架-MapReduce3.mapreduce的步骤4.MapReduce底层原理map阶段shuffle阶段reduce阶段1.简介Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop

白白的wj·2023-11-20 16:07

Kafka 快速入门

Kafka快速入门安装部署集群规划hadoop102hadoop103hadoop104zkzkzkkafkakafkakafkajar包下载http://kafka.apache.org/downloads.html

SuperQiu~·2023-11-20 15:39

21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-11-20 13:18

【离线数仓-2-数据采集】

.用户行为日志数据模拟1.用户行为日志的介绍2.埋点有哪些3.用户行为日志内容4.用户行为日志格式5.用户行为日志数据采集1.节点之间配置免密登录2.linux环境变量说明3.用户行为日志模拟脚本4.Hadoop

Apache Minor Trend·2023-11-20 13:00

三十分钟学会Hive

Hive的概念与运用Hive是一个构建在Hadoop之上的数据分析工具（Hive没有存储数据的能力，只有使用数据的能力），底层由HDFS来提供数据存储，可以将结构化的数据文件映射为一张数据库表，并且提供类似

地球魔·2023-11-20 12:11

让你彻底学会HBase

让你彻底学会HBaseApacheHBase（HadoopDataBase）是一个开源的、高可靠性、高性能、面向列（这里指列族，非列式存储）、可伸缩、实时读写的分布式数据库。

地球魔·2023-11-20 12:11

HDFS完全分布式集群搭建与配置及常见问题总结

思路：1.准备3台虚拟机（静态IP，IP映射，主机名称，防火墙关闭，普通用户创建等等）2.安装JDK，配置环境变量3.安装Hadoop，配置环境变量4.配置免密登录5.编写同步脚本，配置集群(前三步已完成

HUNG4050·2023-11-20 12:03

dfs hdfs 修改文件名称_第五讲：hadoop的分布式存储HDFS常见操作

HDFS是一个分布式文件系统，像任何其它文件系统，允许用户使用shell命令操作文件系统。首先启动hdfs，启动方式可见上一个博文，或者单独启动hdfs，方式就是运行start-dfs.sh启动成功后，输入jps可以看到至少一个namenode和至少一个datanode和一个jps一、创建路径mkdir如果你的HDFShome目录不存在，则需要创建，我们后续都是用hdfs命令操作。首先cd命令进入

西岸先生·2023-11-20 12:31

HDFS常见API操作

1、put：文件上传对应hadoopfs-put(等同于hadoopfs-copyFromLocal)//上传文件@Testpublicvoidput()throwsIOException,InterruptedException

_小张要敲代码·2023-11-20 12:58

HDFS 常见的异常处理方式汇总

本专栏目录结构和参考文献请见大数据技术体系正文Hadoop由众多模块组成，哪一个出错，都会导致Hadoop整个系统出现异常。下面介绍下常见的Hadoop异常处理（不定期更新）。

Shockang·2023-11-20 12:21

四、hdfs文件系统基础操作-保姆级教程

1、启动Hadoop集群想要使用hdfs文件系统，就先要启动Hadoop集群。

弦之森·2023-11-20 12:20

五、hdfs常见权限问题

1、常见问题2、案例（1）问题（2）hdfs的超级管理员（3）原因没有使用Hadoop用户对hdfs文件系统进行操作。

弦之森·2023-11-20 12:48

HDFS 命令操作

常用命令一、hadoopfs（hdfsdfs）文件操作1)ls显示目录下的所有文件或者文件夹使用方法：hadoopfs-ls[uri形式目录]示例:hadoopfs–ls/显示根目录下的所有文件和目录显示目录下的所有文件可以加

ly稻草·2023-11-20 12:55

13-数据采集项目03

一、Hive上的数据导入##4.创建ods层[root@hadoophive-1.2.1]#beeline-ujdbc:hive2://caiji:10000-nroot-p123456-e"createdatabaseifnotexistsods_news

YuPangZa·2023-11-20 12:55

impala入门

mpala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。它是一个用C+和Java编写的开源软件。与其他Hadoop的SQL引擎相比，它提供了高性能和低延迟。

YuPangZa·2023-11-20 12:25

推荐频道

Hadoop大数据学习

hadoop 配置历史服务器 开启历史服务器查看 hadoop (十)