Hadoop大数据相关第14页

Spark3学习笔记

文章目录一、Spark基础1、Spark概述1.1Spark简介1.2SparkVSHadoop1.3Spark特点1.4Spark入门Demo2、Spark运行模式2.1概述2.2Local模式2.3Standalone

魅Lemon·2024-01-26 15:38

python爬取可视化html_教你用Python爬网站数据，并用BI可视化分析！

作为一名在数据行业打拼了两年多的数据分析师，虽然目前收入还算ok，但每每想起房价，男儿三十还未立，内心就不免彷徨不已~两年时间里曾经换过一份工作，一直都是从事大数据相关的行业。

weixin_39824834·2024-01-26 13:04

Apache 辅助系统工具

一丶ApacheSqoop1.Sqoop的介绍：Sqoop的工作机制是将导入或者导出的命令翻译成MapReduce实现，Sqoop可以理解为：SQL到Hadoop或者Hadoop到SQL2.Sqoop的安装配置文件修改

月初，·2024-01-26 11:16

centos同步服务器时间

不同步互联网查看所有节点ntpd服务状态sudosystemctlstatusntpdsudosystemctlstartntpdsudosystemctlis-enabledntpd查询自己的网段ipaddr修改hadoop102

热爱技术的小陈·2024-01-26 10:39

Hadoop3.x源码解析

文章目录一、RPC通信原理解析1、概要2、代码demo二、NameNode启动源码解析1、概述2、启动9870端口服务3、加载镜像文件和编辑日志4、初始化NN的RPC服务端5、NN启动资源检查6、NN对心跳超时判断7、安全模式三、DataNode启动源码解析1、概述2、初始化DataXceiverServer3、初始化HTTP服务4、初始化DN的RPC服务端5、DN向NN注册6、向NN发送心跳四、

魅Lemon·2024-01-26 09:54

Hadoop3.x学习笔记

文章目录一、Hadoop入门1、Hadoop概述1.1简介1.2hadoop优势1.3hadoop组成1.4大数据技术生态体系2、环境准备(重点)2.1模板机配置2.2模板创建3、本地运行模式（官方WordCount

魅Lemon·2024-01-26 09:24

林浩然与Hadoop的奇幻数据之旅

林浩然与Hadoop的奇幻数据之旅LinHaoranandtheEnchantingDataJourneywithHadoop在一个名为“比特村”的地方，住着一位名叫林浩然的程序员大侠。

howard2005·2024-01-26 09:20

Hadoop YARN 在快手的应用实践与技术演进之路

yarn的背景yarn大家都比较熟悉了，是从Hadoop1.0分离到2.0的比较重要的特性，把原来的jobtracker集中式调度变成yarn的二级调度，解决集群扩展性的问题。

yoku酱·2024-01-26 08:32

通过养猪给女朋友讲解Hadoop(一)

六、规章整治奈何桥程序员老王，阎王爷，黑白无常，牛头马面，孟婆。“铃铃铃~”刚躺下的老王又被电话吵醒了，老王接起电话，习惯性地说：“老板，又是哪个系统挂了啊。”“我不是你老板，我是阎王爷”电话那头传来沧桑的声音。“阎王爷，我上有老，下有小，我知道我这么加班不对，但我都是为了生计啊，恳请阎王爷再宽限我几年吧，我把房贷还完就下去报道。”老王哽咽地说着。“这次找你不是想结束你在人间的进程，只是想让你来地

程序员峰哥·2024-01-26 05:55

Flink1.13集成Hadoop3.x以上版本

文章目录背景说明出现问题问题分析问题解决解决展示参考资料背景说明在搭建Flink的HA高可用集群后，打不开webUI界面出现问题打开log日志查看org.apache.flink.core.fs.UnsupportedFileSystemSchemeException:Couldnotfindafilesystemimplementationforscheme'hdfs'.Theschemeisn

未来影子·2024-01-26 04:22

flink1.13.0 环境搭建

#flink部署1.standalone模式2.yarn模式session-cluster模式job-cluster模式3.k8s模式注：yarn模式需要依赖hadoop环境，搭建请参考：https:/

AinUser·2024-01-26 04:50

橘子皮的实习周记——第一周总结

一周小总结：目前入职上班时间一周，主要内容是对一个项目进行一些基础的添加操作(用领导A的话来说，就是熟悉一下业务)，我最头疼的就是使用kafkahbasehadoop这些技术，对MySQL内的数据进行一个同步

程序员橘子皮·2024-01-26 03:35

Flink1.13.x+iceberg环境搭建

1.安装hadooptar-zxvfhadoop-2.10.1.tar.gz配置JDK和Hadoop环境变量vi/etc/profileexportJAVA_HOME=/usr/lib/jvm/java

姚贤贤·2024-01-26 02:22

HDFS操作

文章目录主要内容1.编程实现以下指定功能，并利用Hadoop提供的Shell命令完成相同任务：一.shell命令行实现1.向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，则由用户来指定是追加到原有文件末尾还是覆盖原有的文件

K要努力·2024-01-26 02:43

Hbase伪分布式的安装和配置

一、版本信息和环境1、版本信息：jdk1.8.0_112hadoop-2.6.0zookeeper-3.4.6hbase-1.2.6.12、环境hadoop+zookeeper+hbase,hadoop

lukeyan·2024-01-26 00:41

大数据技术之Spark

1.2SparkandHadoopHadoop的MapReduce是大家广为熟知的计算框架，那为什么咱们还要学习新的计算框架Spark呢，这里简单说一下Spark和Hadoop的关系。

严同学正在努力·2024-01-25 21:38

大数据开发之Spark（完整版）

第1章：Spark概述1.1什么是spark回顾：hadoop主要解决，海量数据的存储和海量数据的分析计算。spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Key-Key·2024-01-25 21:05

Hadoop on Yarn 提交job失败：java.net.ConnectException：Connection refused

报错：INFOorg.apache.hadoop.service.AbstractService:ServiceNodeManagerfailedinstateSTARTED;cause:org.apache.hadoop.yarn.exceptions.YarnRuntimeException

Anthons·2024-01-25 20:58

sqoop之hive数据仓库和oracle数据库数据转换

sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres

Summer_1981·2024-01-25 20:37

spakr 提交任务

当前集群支持3中集群管理Standalone（spak框架自身拥有能力）ApacheMesosHadoopYARNKubernetes使用/spark-submit脚本提交任务，脚本后面可以接参数.

新鲜氧气·2024-01-25 19:55

hadoop 问题集

1.org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException:TheauxService:mapreduce_shuffledoesnotexistyarn

Pure_Eyes·2024-01-25 17:18

大数据分析组件Hive-集合数据结构

Hive的数据结构前言一、array数组类型二、map键值对集合类型三、struct结构体类型前言Hive是一个基于Hadoop的数据仓库基础设施，用于处理大规模分布式数据集。

Aimyon_36·2024-01-25 15:15

[AIGC 大数据基础]hive浅谈

Hive作为一个基于Hadoop的数据仓库基础设施，为用户提供了类SQL的查询语言和丰富的功能，使得处理大规模数据变得更加简单和高效。

程序员三木·2024-01-25 14:17

hadoop集群部署

hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是一个存储系统+计算框架的软件框架，主要解决海量数据存储与计算的问题，是大数据技术中的基石。

Cat God 007·2024-01-25 12:45

Hadoop集群的部署，安装和管理（头歌）

示例集群信息以下表格为本教程所用示例集群节点信息：我们准备了三台虚拟服务器，连接方式如下：第一步我们需要在evassh服务器初始化虚拟服务器：cd/optwrapdockerulimit-funlimiteddockerload-iubuntu16-ssh.tardocker-composeup-d注意：请不要在各个虚拟服务器之间进行ssh登录，这种操作会导致无法保存配置数据。正确方法是：在虚拟服

小坏蛋儿&·2024-01-25 12:14

hadoop集群规划部署

一、集群规划三台硬件资源，部署hadoop版本，hadoop-3.3.5，部署后配置文件。Hadoop配置文件分两类：默认配置文件和自定义配置文件。

Snower_2022·2024-01-25 12:43

Hbase集群安装部署

安装好对应版本的hadoop集群，并启动安装好对应版本的zookeeper集群，并启动HBase集群安装部署下载安装包并上传到node01服务器安装包下载地址：http://archive.cloudera.com

我还不够强·2024-01-25 12:02

详解Linux运维工程师高级篇（大数据安全方向）.

hadoop安全目录：kerberos（已发布）elasticsearch（已发布）http://blog.51cto.com/chenhao6/2113873knoxoozierangerapachesentry

weixin_30588729·2024-01-25 10:14

大数据Hadoop/Hive学习笔记一（基础概念）

大数据Hadoop/Hive学习笔记一（基础概念）一，概念介绍：大数据：大数据一般用来描述一种数量庞大，复杂的数据集，传统数据处理应用程序难以应对。

lucky_myj·2024-01-25 09:46

Hadoop-HDFS写流程（从命令行到完成）

一、简单回顾下HDFS的架构如果不了解HDFS的可以看下我写的一篇博客，这里先贴下官网架构图：二、源码分析源码中写的肯定是最真实的，下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4

隔着天花板看星星·2024-01-25 09:23

Hadoop-HDFS高可用

原理参考官网介绍：ApacheHadoop3.3.6–HDFSHighAvailabilityUsingtheQuorumJournalManager二、背景在Hadoop2.0.0之前，NameNode

隔着天花板看星星·2024-01-25 09:52

Hadoop-MapReduce使用说明

下面让我们跟着官网来学习下吧ApacheHadoop3.3.6–MapReduceTutorial二、运行流程大致描述1、用户通过jo

隔着天花板看星星·2024-01-25 09:52

Hadoop-YARN概览

一、什么是YARNYetAnotherResourceNegotiator，另一种资源协调者，简称YARN。基本思想是将资源管理和作业调度/监视的功能拆分为单独的守护进程。其想法是拥有一个全局ResourceManager（RM）和每个应用程序的ApplicationMaster（AM）。可以支持单个作业，也可以支持多个作业的DAG。被称为另一种资源协调者，那就证明有一种比YARN更早的资源协调者

隔着天花板看星星·2024-01-25 09:52

Hadoop-HDFS读流程（从输入命令到回显）

一、简单回顾下HDFS的架构如果不了解HDFS的可以看下我写的一篇博客，这里先贴下官网架构图：二、静静的思考一会儿爱因斯坦说过：想象力比知识更重要。想象力推动世界，是知识进化的源泉。我们先不看源码，先通过官方架构图和我们对HDFS的了解来想象下读流程是什么样的。我要读HDFS上的一份文件，首先需要知道它在哪台节点上，HDFS上存储的文件都是以块的形式存放在各个DataNode节点上。因此需要知道这

隔着天花板看星星·2024-01-25 09:52

Hadoop-MapReduce-源码跟读-客户端篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧Indexof/dist/hadoop/core二、从WordCount进入源码用idea将源码加载进来后

隔着天花板看星星·2024-01-25 09:52

hadoop 三种运行方式

一、本地运行方式1创建在hadoop-3.3.5文件下面创建一个wcinput文件夹[antares@hadoop1hadoop-3.3.5]$mkdirwcinput[antares@hadoop1hadoop

Snower_2022·2024-01-25 09:51

Hadoop-MapReduce-跟着日志理解整体流程

一、数据准备viinput_01.txtviinput_02.txtviinput_03.txt文本内容如下：-----------------input_01.txt----------------javascalapythonc++javajsgogovbaccc++javascalapythonphpcsshtmljsjavajavascalavbac#.netRRRjava--------

隔着天花板看星星·2024-01-25 09:49

HBase学习五：运维排障之备份与恢复

HBase的所有文件都存储在HDFS上，因此只要使用Hadoop提供的文件复制工具distcp将HBASE目录复制到同一HDFS或者其他HDFS的另一个目录中，就可以完成对源HBase集群的备份工作copyTable

Studying！！！·2024-01-25 09:49

大数据平台组件日常运维操作说明（Hadoop/Zookeeper/Kafa/ES/Mysql/Spark/Flume/Logstash/Tomcat）

Hadoop日常运维操作说明hdfs生产环境hadoop为30台服务器组成的集群，统一安装配置，版本号为2.7.7部署路径：/opt/hadoop启动用户：hadoop配置文件：/opt/hadoop/

love6a6·2024-01-25 07:12

基于CentOS7 Hadoop-2.7.2伪分布式部署

1、基本环境Linux版本：CentOS7.0JDK版本：jdk-7u79-linux-x64.tar.gzHadoop版本：hadoop-2.7.2.tar.gzjdk以及Hadoop安装在/usr目录下

程序员小H·2024-01-25 07:23

Hadoop HDFS 实现原理图文详解

一、HDFS体系结构1.1HDFS简介Hadoop分布式文件系统(HDFS)是运行在通用硬件(commodityhardware)上的分布式文件系统（DistributedFileSystem）。

禅与计算机程序设计艺术·2024-01-25 07:49

Hive运行机制与使用

hive介绍hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

小猪Harry·2024-01-25 05:09

Spark基本架构及原理

Hadoop和Spark的关系Spark运算比Hadoop的MapReduce框架快的原因是因为Hadoop在一次MapReduce运算之后,会将数据的运算结果从内存写入到磁盘中,第二次Mapredue

李飞_fd28·2024-01-24 20:50

2019-05-15

主流程1.关闭防火墙2.机器间实现免密3.zk部署4.hadoop部署实现流程2.免密登录ssh-keygen回车一直到最后（有3次）生成本机秘钥后，同步到自己机器和其他机器ssh-copy-idhostxshell

泡泡_bbb9·2024-01-24 15:54

通过hadoop jar命令运行提交MapReduce到YARN中

实现Wordcount大概流程：给定数据输入的路径，给定结果输出的路径；将输入路径内的数据中的单词进行计数，将结果写到输出路径如下：在hadoop下找hadoop-mapreduce-examples-

%HelloWorld%·2024-01-24 13:28

MapReduce配置 & YARN集群部署

1：编辑mapred-env.sh；添加如下配置#设置jdk路径exportJAVA_HOME=/opt/module/jdk#设置JobHistoryServer进程内存为1GexportHADOOP_JOB_HISTORYSERVER_HEAPSIZE

%HelloWorld%·2024-01-24 13:28

部署Hadoop集群

在node1节点执行，以root身份1：在VMware虚拟机集群上部署HDFS集群1）准备好hadoop安装包；目前最新3.3.4；了解：2）上传解压hadoop①：上传hadoop到node1节点；②

%HelloWorld%·2024-01-24 13:27

Hive在VMware中部署

会在日志文件中生成root用户的一个随机密码，使用下面命令查看密码：如果你想设置简单密码，需要设置mysql密码安全级别：(进入mysql中实行)然后就可以简单密码了：(进入mysql中实行)步骤二：配置hadoop

%HelloWorld%·2024-01-24 13:27

Kafka集群的安装与配置（二）

2.2.2生产者命令行操作1）查看操作生产者命令参数[atguigu@hadoop102kafka]$bin/kafka-console-producer.sh2）发送消息[atguigu@hadoop102kafka

ole_triangle_java·2024-01-24 12:59

Windows下hive中insert语句报错

报错信息我的hadoop和hive版本都是3.0版本(建议hadoop3.x版本、hive2.x版本，我在使用中发现有些问题)[08S01][2]Errorwhileprocessingstatement

林园857·2024-01-24 10:27

推荐频道

Hadoop大数据相关

Spark3学习笔记

python爬取可视化html_教你用Python爬网站数据，并用BI可视化分析！

Apache 辅助系统工具

centos同步服务器时间

Hadoop3.x源码解析

Hadoop3.x学习笔记

林浩然与Hadoop的奇幻数据之旅

Hadoop YARN 在快手的应用实践与技术演进之路

通过养猪给女朋友讲解Hadoop(一)

Flink1.13集成Hadoop3.x以上版本

flink1.13.0 环境搭建

橘子皮的实习周记——第一周总结

Flink1.13.x+iceberg环境搭建

HDFS操作

Hbase伪分布式的安装和配置

大数据技术之Spark

大数据开发之Spark（完整版）

Hadoop on Yarn 提交job失败：java.net.ConnectException：Connection refused

sqoop之hive数据仓库和oracle数据库数据转换

spakr 提交任务

hadoop 问题集

大数据分析组件Hive-集合数据结构

[AIGC 大数据基础]hive浅谈

hadoop集群部署

Hadoop集群的部署，安装和管理（头歌）

hadoop集群规划部署

Hbase集群安装部署

详解Linux运维工程师高级篇（大数据安全方向）.

大数据Hadoop/Hive学习笔记一（基础概念）

Hadoop-HDFS写流程（从命令行到完成）

Hadoop-HDFS高可用

Hadoop-MapReduce使用说明

Hadoop-YARN概览

Hadoop-HDFS读流程（从输入命令到回显）

Hadoop-MapReduce-源码跟读-客户端篇

hadoop 三种运行方式

Hadoop-MapReduce-跟着日志理解整体流程

HBase学习五：运维排障之备份与恢复

大数据平台组件日常运维操作说明（Hadoop/Zookeeper/Kafa/ES/Mysql/Spark/Flume/Logstash/Tomcat）

基于CentOS7 Hadoop-2.7.2伪分布式部署

Hadoop HDFS 实现原理图文详解

Hive运行机制与使用

Spark基本架构及原理

2019-05-15

通过hadoop jar命令运行提交MapReduce到YARN中

MapReduce配置 & YARN集群部署

部署Hadoop集群

Hive在VMware中部署

Kafka集群的安装与配置（二）

Windows下hive中insert语句报错