Hadoop大数据相关第24页

『HDFS』伪分布式Hadoop集群

博客引流本文是『Hadoop』MapReduce处理日志log(单机版)的旭文,maybe还有后续在搭建环境的时候发现很难搜到合适的教程，所以这篇应该会有一定受众伪分布式就是假分布式，假在哪里，假就假在他只有一台机器而不是多台机器来完成一个任务

gunjianpan·2024-01-09 04:31

Hadoop3.3.5云服务器安装教程-单机/伪分布式配置

系列文章目录华为云服务器试用领取领取的试用云服务器在哪Hadoop3.3.5云服务器安装教程-单机/伪分布式配置文章目录系列文章目录创建hadoop用户更新apt安装SSH、配置SSH无密码登陆安装Java

柔雾·2024-01-08 21:48

2021-11-22 Zookeeper Shell脚本

/bin/bashcase$1in"start"){foriinhadoop102hadoop103hadoop104doecho----------zookeeper$i启动------------ssh

不爱吃奶昔（zsl0）·2024-01-08 19:12

hadoop/etc/hadoop 下没有mapred-site.xml，只有mapred.xml.template

默认情况下，/usr/local/hadoop/etc/hadoop/文件夹下有mapred.xml.template文件，我们要复制该文件，并命名为mapred.xml，该文件用于指定MapReduce

比特小怪兽·2024-01-08 19:34

hadoop命令汇总

启动和关闭hadoop服务一键启动/停止start-hdf.shstop-hdf.sh单进程关闭启动hdfs--daemonstop/start/statusnamenode或者hadoop--daemonstop

你很棒滴·2024-01-08 19:17

数仓建设学习路线（一）

语兴数据·2024-01-08 18:57

HDFS常用命令（方便大家记忆版）

1.文件操作(1)列出HDFS下的文件/usr/local/hadoop$bin/hadoopdfs-ls(2)列出HDFS文件下名为in的文档中的文件/usr/local/hadoop$bin/hadoopdfs-lsin

姚兴泉·2024-01-08 18:01

Hidataplus-3.3.2.0-005公测版本基于openEuler release 22.03 (LTS-SP2)的测试

测试角色如下：hadoop、yarn、zookeeper、hive、impala。

杨航的技术博客·2024-01-08 16:35

给Hadoop初学者的一些建议

零基础学习hadoop,没有想象的那么困难，也没有想象的那么容易。从一开始什么都不懂，到能够搭建集群，开发。整个过程，只要有Linux基础，虚拟机化和java基础，其实hadoop并没有太大的困难。

丨程序之道丨·2024-01-08 15:29

大数据技术期末复习第七章——MapReduce练习

A、Map函数将输入的元素转换成形式的键值对B、Hadoop框架是用Java实现的，MapReduce应用程序则一定要用Java来写C、不同的Map任务之间不能互相通信D、MapReduce框架采用了Master

锦鲤儿·2024-01-08 12:01

Hadoop学习之路（四）HDFS 读写流程详解

1.HDFS写操作1.1图解HDFS读过程hdfs写操作流程图.pngimage.png1.2数据写入过程详解1、使用HDFS提供的客户端Client,向远程的NameNode发起RPC请求；2、NameNode会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功则会为文件创建一个记录，否则会让客户端抛出异常；3、当客户端开始写入文件的时候，客户端会将文件切分为多个packets，并在内

shine_rainbow·2024-01-08 12:21

Win10环境下Hadoop(单节点伪分布式)的安装与配置--bug(yarn的8088端口打不开+)

Win10环境下Hadoop(单节点伪分布式)的安装与配置--bug(yarn的8088端口打不开+)一、本文思路【1】、配置java环境–JDK12（Hadoop的底层实现语言是java,hadoop

老妹儿的·2024-01-08 11:19

实战Flink Java api消费kafka实时数据落盘HDFS

flink版本1.13kafka版本0.8hadoop版本3.1.42实验过程2.1启动服务程序为了完成Flink从Kafka消费数据

大数据程序终结者·2024-01-08 11:13

JanusGraph简介

JanusGraph支持Hadoop框架，并能够利用Hadoop对图进行大批量的处理和分

娃娃学软件·2024-01-08 10:15

大数据 Yarn - 资源调度框架

Hadoop主要是由三部分组成，除了前面我讲过的分布式文件系统HDFS、分布式计算框架MapReduce，还有一个是分布式集群资源调度框架Yarn。

善守的大龙猫·2024-01-08 10:48

Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】 (转)

我爱大海V5·2024-01-08 08:15

《深入理解Hadoop（原书第2版）》——2.4 Hadoop 2.0

本节书摘来自华章计算机《深入理解Hadoop（原书第2版）》一书中的第2章，第2.4节，作者[美]萨米尔·瓦德卡（SameerWadkar），马杜·西德林埃（MadhuSiddalingaiah），杰森

weixin_34174322·2024-01-08 08:44

Flume基础知识（十）：Flume 聚合实战

1）案例需求：hadoop100上的Flume-1监控文件/opt/module/group.log，hadoop101上的Flume-2监控某一个端口的数据流，Flume-1与Flume-2将数据发送给

依晴无旧·2024-01-08 08:23

Hadoop精选18道面试题(附回答思路)

1.简述Hadoop1和Hadoop2的架构异同HDFSHA(HighAvailablity)一旦Active节点出现故障，就可以立即切换到Standby节点，避免了单点故障问题。

Byyyi耀·2024-01-08 06:00

Unrecognized option: -v Error: Could not create the Java Virtual Mac

yarn报错Unrecognizedoption:-vError:CouldnotcreatetheJavaVirtualMac这是因为jdk和hadoop或者是其他的在环境变量path中，因为yarn.cmd

꧁“杂货店”꧂·2024-01-08 04:39

F. linux：帮助命令help、man、info

[root@hadoop01udisk]#ls--help[root@hadoop01udisk]#manls[root@hadoop01udisk]#infols

小猪Harry·2024-01-08 00:40

25、Spark核心编程之RDD持久化详解

不使用RDD持久化的问题首先看一段代码JavaRDDlinesRDD=javaSparkContext.textFile("hdfs://hadoop-100:9000/testdate/1.txt")

ZFH__ZJ·2024-01-07 23:21

Hive元数据迁移及升级方案

Hive的架构和工作原理简介Hive是基于Hadoop之上的数仓，便于用户可以基于SQL（HiveQL）进行数据分析，其架构图如下:从上图可知，Hive主要用来将建立结构化数据库和后端分布式结构化文件的映射

云原生大数据·2024-01-07 22:49

hadoop调优

hadoop调优1HDFS核心参数1.1NameNode内存生产配置1.1.1NameNode内存计算每个文件块大概占用150byte，如果一台服务器128G，能存储的文件块如下128(G)*1024(

健鑫.·2024-01-07 18:25

hadoop调优(二)

hadoop调优(二)1HDFS故障排除1.1NameNode故障处理NameNode进程挂了并且存储数据丢失了，如何恢复NameNode？

健鑫.·2024-01-07 18:25

大数据全套学习资料大数据学习视频大数据电子书大数据

伴随新一轮科技革命和产业变革蓄势待发，国家大数据战略和数字中国建设实施加快，我国亟需制定科学合理的人才战略，培养符合发展需求的大数据人才，为大数据相关领域发展提供支撑。

刘好看静静·2024-01-07 18:57

熟悉HDFS常用操作

1.利用Hadoop提供的Shell命令完成下列任务（1）向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件。#检查文件是否存在.

cwn_·2024-01-07 17:11

熟悉HBase常用操作

1.用Hadoop提供的HBaseShell命令完成以下任务（1）列出HBase所有表的相关信息，如表名、创建时间等。

cwn_·2024-01-07 17:11

惊心动魄的Hadoop-6小时350T数据恢复

Hadoop在调整前，将Hadoop进行关闭.stop-all.sh进行关闭我们在第一步进行关闭的时候这里就出现问题。

胖琪的升级之路·2024-01-07 17:17

Hive入门

一、Hive概述1.1Hive简介Hive是基于Hadoop的一个数据仓库工具，它可以将结构化或半结构化的数据文件转化为一张数据库表，并提供简单的sql查询功能。

爱过java·2024-01-07 17:04

linux下spark的python编辑_如何在Linux下构建Spark Python编程环境

火花编程环境Spark可以独立安装或与Hadoop一起使用.在安装Spark之前linux的python编程环境，首先请确保您的计算机上已安装Java8或更高版本.火花安装访问Spark下载页面，然后选择最新版本的

weixin_39543478·2024-01-07 13:10

linux下spark的python编辑_Linux下搭建Spark 的 Python 编程环境的方法

Spark编程环境Spark可以独立安装使用，也可以和Hadoop一起安装使用。在安装Spark之前，首先确保你的电脑上已经安装了Java8或者更高的版本。

weixin_39752800·2024-01-07 13:10

virtualbox的下载，打开.vdi文件并启动Hadoop系统

目录一、virtualbox的下载二、新建Ubuntu系统1、确定好镜像系统的位置2、新建虚拟系统三、Hadoop系统的启动1、启动Hadoop2、启动hbase3、启动spark4、启动hive5、hadoop

汤汤upup·2024-01-07 13:08

Linux系统下Spark的下载与安装（pyspark运行示例）

最近需要完成数据课程的作业，因此实践了一下如何安装并配置好spark1、版本要求由于我想要将hadoop和spark一起使用，因此必须确定好spark的版本Spark和Hadoop版本对应关系如下：Spark

汤汤upup·2024-01-07 13:06

【Java处理百万级数据的高效方法了解】

1.2分布式存储考虑使用分布式数据库（如HBase、Cassandra）或存储系统（如HadoopDistri

無飞·2024-01-07 12:21

Hadoop分布式文件系统(二)

目录一、Hadoop1、文件系统1.1、文件系统定义1.2、传统常见的文件系统1.3、文件系统中的重要概念1.4、海量数据存储遇到的问题1.5、分布式存储系统的核心属性及功能含义2、HDFS2.1、HDFS

杀神lwz·2024-01-07 11:19

【大数据进阶第三阶段之Hive学习笔记】Hive基础入门

Hive的优缺点2.1、优点2.2、缺点2.2.1、Hive的HQL表达能力有限2.2.2、Hive的效率比较低3、Hive架构原理3.1、用户接口：Client3.2、元数据：Metastore3.3、Hadoop3.4

伊达·2024-01-07 08:20

Hadoop集群三节点搭建（二）

一、克隆三台主机（hadoop102hadoop103hadoop104）以master为样板机克隆三台出来，克隆前先把master关机按照上面的步骤克隆其他两个就可以了，记得修改ip和hostname

DIY……·2024-01-07 07:35

个人笔记：分布式大数据技术原理（二）构建在 Hadoop 框架之上的 Hive 与 Impala

有了MapReduce，Tez和Spark之后，程序员发现，MapReduce的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言，虽然你几乎什么都能干了，但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了Pig和Hive。Pig是接近脚本方式去描述MapReduce，Hive则用的是SQL。它们把脚本和SQL语言翻译成MapReduce程序，丢给计

garagong·2024-01-07 07:16

【DataX】windows下本地DataX同步hive到mysql，hive带Kerberos认证

直接同步会报错：java.lang.RuntimeException:java.io.FileNotFoundException:java.io.FileNotFoundException:HADOOP_HOMEandhadoop.home.dirareunset

airyv·2024-01-07 06:44

基于Hadoop的豆瓣电影数据分析

Hadoop是一个开源的分布式计算框架，它提供了处理大规模数据集的能力。在本文中，我们将利用Hadoop框架对豆瓣电影数据进行分析。

数据科学探险导航·2024-01-07 05:07

大数据编程期末大作业

大数据编程期末大作业文章目录大数据编程期末大作业一、Hadoop基础操作二、RDD编程三、SparkSQL编程四、SparkStreaming编程一、Hadoop基础操作在HDFS中创建目录/user/

-北天-·2024-01-07 05:20

Hive的基本的概述即使用参考

1.Hive的概述√意义：在于大幅度降低工程师学习MapReduce的学习成本，让好用（计算速度快）的MapReduce更方便的使用（使用简单）√基本概念：Hive是基于Hadoop的一个数据仓库工具，

C8H11O2N_4cd4·2024-01-07 02:29

《PySpark大数据分析实战》-23.Pandas介绍DataFrame介绍

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2024-01-07 00:26

《PySpark大数据分析实战》-22.Pandas介绍Series介绍

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2024-01-07 00:25

《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2024-01-07 00:24

2024.1.5 Hadoop各组件工作原理,面试题

目录1.简述下分布式和集群的区别2.Hadoop的三大组件是什么?3.请简述hive元数据服务配置的三种模式?4.数据库与数据仓库的区别?5.简述下数据仓库经典三层架构?

白白的wj·2024-01-06 23:34

Flink常见核心概念

分布式缓存有时一些数据是通用的,就需要进行共享,可以放在文件、缓存、db中,可以放在文件中,先缓存到hadoop集群中,然后使用cachepublicclassCacheStream{publicstaticvoidmain

一生逍遥一生·2024-01-06 21:56

Hive 源码解析一：Driver

这是hive的架构图从架构图来看，黄颜色属于Hive范畴，蓝颜色属于Hadoop范畴，其中MetaStore可以说是独立Hive核心

小王是个弟弟·2024-01-06 17:25

《Hive系列》Hive详细入门教程

目录1Hive基本概念1.1什么是HiveHive简介Hive：由FaceBook开源用于解决海量结构化日志的数据统计工具Hive：基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表

DATA数据猿·2024-01-06 17:55

推荐频道

Hadoop大数据相关

『HDFS』伪分布式Hadoop集群

Hadoop3.3.5云服务器安装教程-单机/伪分布式配置

2021-11-22 Zookeeper Shell脚本

hadoop/etc/hadoop 下没有mapred-site.xml，只有mapred.xml.template

hadoop命令汇总

数仓建设学习路线（一）

HDFS常用命令（方便大家记忆版）

Hidataplus-3.3.2.0-005公测版本基于openEuler release 22.03 (LTS-SP2)的测试

给Hadoop初学者的一些建议

大数据技术期末复习第七章——MapReduce练习

Hadoop学习之路（四）HDFS 读写流程详解

Win10环境下Hadoop(单节点伪分布式)的安装与配置--bug(yarn的8088端口打不开+)

实战Flink Java api消费kafka实时数据落盘HDFS

JanusGraph简介

大数据 Yarn - 资源调度框架

Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】 (转)

《深入理解Hadoop（原书第2版）》——2.4 Hadoop 2.0

Flume基础知识（十）：Flume 聚合实战

Hadoop精选18道面试题(附回答思路)

Unrecognized option: -v Error: Could not create the Java Virtual Mac

F. linux：帮助命令help、man、info

25、Spark核心编程之RDD持久化详解

Hive元数据迁移及升级方案

hadoop调优

hadoop调优(二)

大数据全套学习资料 大数据学习视频 大数据电子书 大数据

熟悉HDFS常用操作

熟悉HBase常用操作

惊心动魄的Hadoop-6小时350T数据恢复

Hive入门

linux下spark的python编辑_如何在Linux下构建Spark Python编程环境

linux下spark的python编辑_Linux下搭建Spark 的 Python 编程环境的方法

virtualbox的下载，打开.vdi文件并启动Hadoop系统

Linux系统下Spark的下载与安装（pyspark运行示例）

【Java处理百万级数据的高效方法了解】

Hadoop分布式文件系统(二)

【大数据进阶第三阶段之Hive学习笔记】Hive基础入门

Hadoop集群三节点搭建（二）

个人笔记：分布式大数据技术原理（二）构建在 Hadoop 框架之上的 Hive 与 Impala

【DataX】windows下本地DataX同步hive到mysql，hive带Kerberos认证

基于Hadoop的豆瓣电影数据分析

大数据编程期末大作业

Hive的基本的概述即使用参考

《PySpark大数据分析实战》-23.Pandas介绍DataFrame介绍

《PySpark大数据分析实战》-22.Pandas介绍Series介绍

《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍

2024.1.5 Hadoop各组件工作原理,面试题

Flink常见核心概念

Hive 源码解析一：Driver

《Hive系列》Hive详细入门教程

大数据全套学习资料大数据学习视频大数据电子书大数据