hadoop学习日记第16页

Hadoop与Spark横向比较【大数据扫盲】

大数据场景下的数据库有很多种，每种数据库根据其数据模型、查询语言、一致性模型和分布式架构等特性，都有其特定的使用场景。以下是一些常见的大数据数据库：1.**NoSQL数据库**：这类数据库通常用于处理大规模、非结构化的数据。它们通常提供简单的查询语言，并强调水平扩展和高可用性。例如：-**键值存储**：如Redis，AmazonDynamoDB-**列式存储**：如ApacheCassandra，

super_journey·2024-01-27 07:51

Hadoop增加新节点环境配置（自用）

完成Hadoop集群增添一个新的节点配置（文中命名为）Hadoop106，没有进行继续为该节点分配身份职能的步骤1.在VMware中安装CentOS7新建虚拟机1.

革斤要加油·2024-01-27 07:50

Hadoop-MapReduce-MRAppMaster启动篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧Indexof/dist/hadoop/core二、上下文在上一篇中已经将到：作业提交到ResourceManager

隔着天花板看星星·2024-01-27 07:20

企业级大数据安全架构（六）数据授权和审计管理

作者：楼高本节详细介绍企业级大数据架构中的第六部分，数据授权和审计管理1.Ranger简介ApacheRanger是一款被设计成全面掌管Hadoop生态系统的数据安全管理框架，为Hadoop生态系统众多组件提供一个统一的数据授权和管理界面

云掣YUNCHE·2024-01-27 07:30

1分钟了解基于Hadoop的数据仓库工具Hive(附超实用示例)

Hive功能Hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL

yuyuyuyo·2024-01-27 05:53

Hbase2.1 集群搭建

>Hbase在大数据的体系中扮演着DB角色，不得不说是重要的一员，在上一篇，大猪已经给大家演示了[Hadoop3.2集群搭建](https://www.jianshu.com/p/3182aaff918d

kikiki5·2024-01-27 03:24

实时分析海量新数据的难点和解决方案

解决方案：使用分布式计算和存储技术，如Hadoop、Spark、Kafka等，将数据分散存储在多个节点上，同时进行分布式计算和处理，以实现数据的实时处理和分析。2.数据质量的保障：海量新

云台095·2024-01-27 03:40

「K8s 学习日记」Kubeadm 部署 kubernetes 集群

在Vultr上部署kubernetest集群原文地址https://elfgzp.cn/2020/04/11/k8s-%E5%AD%A6%E4%B9%A0%E6%97%A5%E8%AE%B0-kubeadm-%E9%83%A8%E7%BD%B2-kubernetes-%E9%9B%86%E7%BE%A4.html最近在学习kubernetest但是Google上有非常多的教程关于如何部署kuber

Gzp丶·2024-01-27 01:55

[AIGC 大数据基础] 浅谈hdfs

HDFS（HadoopDistributedFileSystem）是ApacheHadoop生态系统的一部分，是一个分布式文件系统。

程序员三木·2024-01-27 01:00

idea上搭建pyspark开发环境

1环境版本说明python版本：Anaconda3.6.5spark版本：spark-2.4.8-bin-hadoop2.7idea版本：2019.32环境变量配置2.1python环境变量配置将python.exe

jackyan163·2024-01-27 00:06

八.压缩和存储

8.1Hadoop源码编译支持Snappy压缩(了解)8.1.1资源准备1）CentOS联网配置CentOS能连接外网。

临时_01e2·2024-01-26 21:13

大数据开发必备工具——Hadoop及整体架构介绍

Hadoop是一个由Apache软件基金会开发的开源Java软件框架，专为大数据处理设计，支持在大量计算机组成的集群上进行数据存储和分布式计算。

love6a6·2024-01-26 21:03

hadoop-MR

1.MR执行原理1.MAP阶段在这里插入图片描述2.Reducer在这里插入图片描述3.shuffle阶段在这里插入图片描述2.实操1.导入maven配置org.apache.hadoophadoop-mapreduce-client-common2.7.1org.apache.hadoophadoop-mapreduce-client-core2.7.12

炽热_3a57·2024-01-26 19:06

Hadoop 3.1.1 HDFS 集群部署

Hadoop3.1.1HDFS集群部署依赖服务系统优化查看ZooKeeper集群状态创建路径配置/etc/profile配置$HADOOP_HOME/etc/hadoop/hadoop-env.sh配置

JP.Hu·2024-01-26 19:37

hadoop安装遇到的一些障碍

一.start-dfs.sh（开启不成功）原因：1.dadoop文件所属者与执行时登陆者不一致（权限不足）报错：WARNING:HADOOP_SECURE_DN_USERhasbeenreplacedbyHDFS_DATANODE_SECURE_USER.UsingvalueofHADOOP_SECURE_DN_USER.Startingnamenodeson

GetIdea·2024-01-26 18:30

指导手册05：MapReduce编程入门

指导手册05：MapReduce编程入门Part1:使用Eclipse创建MapReduce工程操作系统：Centos6.8,hadoop2.6.4情景描述：因为Hadoop本身就是由Java开发的，所以通常也选用

weixin_30655219·2024-01-26 17:56

Spark3学习笔记

文章目录一、Spark基础1、Spark概述1.1Spark简介1.2SparkVSHadoop1.3Spark特点1.4Spark入门Demo2、Spark运行模式2.1概述2.2Local模式2.3Standalone

魅Lemon·2024-01-26 15:38

3.8节日学习日记

今天就一个关键字“累”！！上午看着郭老师完善简化计算器系统，感觉吸收了很多新思路。下午回学校和老师讨论毕业设计。来回光路上就四个小时哎，毕业设计又有很多问题哎心也累。早睡早起！！加油加油…

刘芳铭CC·2024-01-26 13:57

Apache 辅助系统工具

一丶ApacheSqoop1.Sqoop的介绍：Sqoop的工作机制是将导入或者导出的命令翻译成MapReduce实现，Sqoop可以理解为：SQL到Hadoop或者Hadoop到SQL2.Sqoop的安装配置文件修改

月初，·2024-01-26 11:16

centos同步服务器时间

不同步互联网查看所有节点ntpd服务状态sudosystemctlstatusntpdsudosystemctlstartntpdsudosystemctlis-enabledntpd查询自己的网段ipaddr修改hadoop102

热爱技术的小陈·2024-01-26 10:39

Hadoop3.x源码解析

文章目录一、RPC通信原理解析1、概要2、代码demo二、NameNode启动源码解析1、概述2、启动9870端口服务3、加载镜像文件和编辑日志4、初始化NN的RPC服务端5、NN启动资源检查6、NN对心跳超时判断7、安全模式三、DataNode启动源码解析1、概述2、初始化DataXceiverServer3、初始化HTTP服务4、初始化DN的RPC服务端5、DN向NN注册6、向NN发送心跳四、

魅Lemon·2024-01-26 09:54

Hadoop3.x学习笔记

文章目录一、Hadoop入门1、Hadoop概述1.1简介1.2hadoop优势1.3hadoop组成1.4大数据技术生态体系2、环境准备(重点)2.1模板机配置2.2模板创建3、本地运行模式（官方WordCount

魅Lemon·2024-01-26 09:24

林浩然与Hadoop的奇幻数据之旅

林浩然与Hadoop的奇幻数据之旅LinHaoranandtheEnchantingDataJourneywithHadoop在一个名为“比特村”的地方，住着一位名叫林浩然的程序员大侠。

howard2005·2024-01-26 09:20

Hadoop YARN 在快手的应用实践与技术演进之路

yarn的背景yarn大家都比较熟悉了，是从Hadoop1.0分离到2.0的比较重要的特性，把原来的jobtracker集中式调度变成yarn的二级调度，解决集群扩展性的问题。

yoku酱·2024-01-26 08:32

RUST 学习日记第19课 ——函数(二)

RUST学习日记第19课——函数（二）0x00回顾与开篇上节初步了解了Rust的函数，这节课继续介绍Rust的高阶函数——函数作为参数和函数作为返回值的两种形式。

L我是小学生·2024-01-26 08:04

通过养猪给女朋友讲解Hadoop(一)

六、规章整治奈何桥程序员老王，阎王爷，黑白无常，牛头马面，孟婆。“铃铃铃~”刚躺下的老王又被电话吵醒了，老王接起电话，习惯性地说：“老板，又是哪个系统挂了啊。”“我不是你老板，我是阎王爷”电话那头传来沧桑的声音。“阎王爷，我上有老，下有小，我知道我这么加班不对，但我都是为了生计啊，恳请阎王爷再宽限我几年吧，我把房贷还完就下去报道。”老王哽咽地说着。“这次找你不是想结束你在人间的进程，只是想让你来地

程序员峰哥·2024-01-26 05:55

Flink1.13集成Hadoop3.x以上版本

文章目录背景说明出现问题问题分析问题解决解决展示参考资料背景说明在搭建Flink的HA高可用集群后，打不开webUI界面出现问题打开log日志查看org.apache.flink.core.fs.UnsupportedFileSystemSchemeException:Couldnotfindafilesystemimplementationforscheme'hdfs'.Theschemeisn

未来影子·2024-01-26 04:22

flink1.13.0 环境搭建

#flink部署1.standalone模式2.yarn模式session-cluster模式job-cluster模式3.k8s模式注：yarn模式需要依赖hadoop环境，搭建请参考：https:/

AinUser·2024-01-26 04:50

橘子皮的实习周记——第一周总结

一周小总结：目前入职上班时间一周，主要内容是对一个项目进行一些基础的添加操作(用领导A的话来说，就是熟悉一下业务)，我最头疼的就是使用kafkahbasehadoop这些技术，对MySQL内的数据进行一个同步

程序员橘子皮·2024-01-26 03:35

Flink1.13.x+iceberg环境搭建

1.安装hadooptar-zxvfhadoop-2.10.1.tar.gz配置JDK和Hadoop环境变量vi/etc/profileexportJAVA_HOME=/usr/lib/jvm/java

姚贤贤·2024-01-26 02:22

HDFS操作

文章目录主要内容1.编程实现以下指定功能，并利用Hadoop提供的Shell命令完成相同任务：一.shell命令行实现1.向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，则由用户来指定是追加到原有文件末尾还是覆盖原有的文件

K要努力·2024-01-26 02:43

Hbase伪分布式的安装和配置

一、版本信息和环境1、版本信息：jdk1.8.0_112hadoop-2.6.0zookeeper-3.4.6hbase-1.2.6.12、环境hadoop+zookeeper+hbase,hadoop

lukeyan·2024-01-26 00:41

大数据技术之Spark

1.2SparkandHadoopHadoop的MapReduce是大家广为熟知的计算框架，那为什么咱们还要学习新的计算框架Spark呢，这里简单说一下Spark和Hadoop的关系。

严同学正在努力·2024-01-25 21:38

大数据开发之Spark（完整版）

第1章：Spark概述1.1什么是spark回顾：hadoop主要解决，海量数据的存储和海量数据的分析计算。spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Key-Key·2024-01-25 21:05

Hadoop on Yarn 提交job失败：java.net.ConnectException：Connection refused

报错：INFOorg.apache.hadoop.service.AbstractService:ServiceNodeManagerfailedinstateSTARTED;cause:org.apache.hadoop.yarn.exceptions.YarnRuntimeException

Anthons·2024-01-25 20:58

sqoop之hive数据仓库和oracle数据库数据转换

sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres

Summer_1981·2024-01-25 20:37

spakr 提交任务

当前集群支持3中集群管理Standalone（spak框架自身拥有能力）ApacheMesosHadoopYARNKubernetes使用/spark-submit脚本提交任务，脚本后面可以接参数.

新鲜氧气·2024-01-25 19:55

hadoop 问题集

1.org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException:TheauxService:mapreduce_shuffledoesnotexistyarn

Pure_Eyes·2024-01-25 17:18

大数据分析组件Hive-集合数据结构

Hive的数据结构前言一、array数组类型二、map键值对集合类型三、struct结构体类型前言Hive是一个基于Hadoop的数据仓库基础设施，用于处理大规模分布式数据集。

Aimyon_36·2024-01-25 15:15

[AIGC 大数据基础]hive浅谈

Hive作为一个基于Hadoop的数据仓库基础设施，为用户提供了类SQL的查询语言和丰富的功能，使得处理大规模数据变得更加简单和高效。

程序员三木·2024-01-25 14:17

【项目日记(四)】第一层: 线程缓存的具体实现

博主CSDN主页:杭电码农-NEO ⏩专栏分类:项目日记-高并发内存池⏪ 代码仓库:NEO的学习日记 关注我带你做项目开发环境:VisualStudio2022项目日记1.前言2.ThreadCache

杭电码农-NEO·2024-01-25 13:41

hadoop集群部署

hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是一个存储系统+计算框架的软件框架，主要解决海量数据存储与计算的问题，是大数据技术中的基石。

Cat God 007·2024-01-25 12:45

Hadoop集群的部署，安装和管理（头歌）

示例集群信息以下表格为本教程所用示例集群节点信息：我们准备了三台虚拟服务器，连接方式如下：第一步我们需要在evassh服务器初始化虚拟服务器：cd/optwrapdockerulimit-funlimiteddockerload-iubuntu16-ssh.tardocker-composeup-d注意：请不要在各个虚拟服务器之间进行ssh登录，这种操作会导致无法保存配置数据。正确方法是：在虚拟服

小坏蛋儿&·2024-01-25 12:14

hadoop集群规划部署

一、集群规划三台硬件资源，部署hadoop版本，hadoop-3.3.5，部署后配置文件。Hadoop配置文件分两类：默认配置文件和自定义配置文件。

Snower_2022·2024-01-25 12:43

Hbase集群安装部署

安装好对应版本的hadoop集群，并启动安装好对应版本的zookeeper集群，并启动HBase集群安装部署下载安装包并上传到node01服务器安装包下载地址：http://archive.cloudera.com

我还不够强·2024-01-25 12:02

详解Linux运维工程师高级篇（大数据安全方向）.

hadoop安全目录：kerberos（已发布）elasticsearch（已发布）http://blog.51cto.com/chenhao6/2113873knoxoozierangerapachesentry

weixin_30588729·2024-01-25 10:14

大数据Hadoop/Hive学习笔记一（基础概念）

大数据Hadoop/Hive学习笔记一（基础概念）一，概念介绍：大数据：大数据一般用来描述一种数量庞大，复杂的数据集，传统数据处理应用程序难以应对。

lucky_myj·2024-01-25 09:46

Hadoop-HDFS写流程（从命令行到完成）

一、简单回顾下HDFS的架构如果不了解HDFS的可以看下我写的一篇博客，这里先贴下官网架构图：二、源码分析源码中写的肯定是最真实的，下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4

隔着天花板看星星·2024-01-25 09:23

Hadoop-HDFS高可用

原理参考官网介绍：ApacheHadoop3.3.6–HDFSHighAvailabilityUsingtheQuorumJournalManager二、背景在Hadoop2.0.0之前，NameNode

隔着天花板看星星·2024-01-25 09:52

Hadoop-MapReduce使用说明

下面让我们跟着官网来学习下吧ApacheHadoop3.3.6–MapReduceTutorial二、运行流程大致描述1、用户通过jo