大数据编程hadoop系列

《Hadoop系列》Docker安装Hadoop

文章目录Docker安装Hadoop1安装docker1.1添加docker到yum源1.2安装docker2安装Hadoop2.1使用docker自带的hadoop安装2.2免密操作2.2.1master节点2.2.2slave1节点2.2.3slave2节点2.2.4将三个容器中的authorized_keys拷贝到本地合并2.2.5将本地authorized_keys文件分别拷贝到3个容器中

DATA数据猿·2024-08-31 12:16

Spark Scala大数据编程实例

一、Scala1.1、Scala简介Scala是一门现代的多范式编程语言，平滑地集成了面向对象和函数式语言的特性，旨在以简练、优雅的方式来表达常用编程模式。Scala的设计吸收借鉴了许多种编程语言的思想，只有很少量特点是Scala自己独有的。Scala语言的名称来自于“可伸展的语言”，从写个小脚本到建立个大系统的编程任务均可胜任。Scala运行于Java平台（JVM，Java虚拟机）上，并兼容现有

一直de不完的bug·2024-02-07 06:38

Hadoop系列之-4、MapReduce分布式计算

技术武器库·2024-01-31 06:10

大数据 - Hadoop系列《四》- MapReduce（分布式计算引擎）的核心思想

上一篇：大数据-Hadoop系列《三》-MapReduce（分布式计算引擎）概述-CSDN博客目录13.1MapReduce实例进程13.2阶段组成13.4概述13.4.1Map阶段（映射）13.4.2Reduce

王哪跑nn·2024-01-31 06:02

【Hadoop系列】HDFS

Hadoop的前世今生什么是大数据各行各业都会产生大量的数据，比如社交网站的意见观点，电商平台人们浏览网页停留的时间，交通运输每天产生的数据等等。这些数据大多不是结构化的，一般来说都是半结构化或者非结构化的在以前，我们的处理能力达不到，所以很多数据要么没有存起来，要么没有利用起来。而现在数据越来越集中在云端的服务器上，并且计算能力已经今非昔比了，我们完全有能力对大数据进行存储和分析。所以所谓的大数

dy2903·2024-01-30 11:12

大数据 - Hadoop系列《三》- MapReduce（分布式计算引擎）概述

上一篇文章：大数据-Hadoop系列《三》-HDFS（分布式文件系统）概述-CSDN博客目录12.1针对MapReduce的设计构思1.如何对付大数据处理场景2.构建抽象编程模型3.统一架构、隐藏底层细节

王哪跑nn·2024-01-29 23:31

大数据 Hive - 实现SQL执行

文章目录MapReduce实现SQL的原理Hive的架构Hive如何实现join操作小结MapReduce的出现大大简化了大数据编程的难度，使得大数据计算不再是高不可攀的技术圣殿，普通工程师也能使用MapReduce

善守的大龙猫·2024-01-12 07:37

大数据编程期末大作业

大数据编程期末大作业文章目录大数据编程期末大作业一、Hadoop基础操作二、RDD编程三、SparkSQL编程四、SparkStreaming编程一、Hadoop基础操作在HDFS中创建目录/user/

-北天-·2024-01-07 05:20

大数据 - Hadoop系列《三》- HDFS（分布式文件系统）概述

5.1hdfs的概念HDFS分布式文件系统,全称为:HadoopDistributedFileSystem。它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。我一共三台linux服务器，每台机器内存60G，所以HDFS文

王哪跑nn·2024-01-02 06:06

大数据编程期末大作业

目录一、Hadoop基础操作二、RDD编程三、SparkSQL编程四、SparkStreaming编程五、Flume的安装配置一、Hadoop基础操作按要求完成以下操作：1、在HDFS中创建目录/user/root/你的名字。例如：李四同学/user/root/lisi，后同。首先需要启动hdfs，在终端输入如下命令：start-dfs.sh在终端输入如下命令创建目录：hdfsdfs-mkdir-

Francek Chen·2024-01-01 14:50

大数据 - Hadoop系列《二》- Hadoop组成

目录3.1hadoop组成3.1HDFS架构概述1.NameNode（nn）：编辑2.DataNode(dn)：3.SecondaryNameNode(2nn)：3.2YARN架构概述3.3MapReduce架构概述3.4HDFS、YARN、MapReduce三者关系3.5大数据技术生态体系3.5.1结构化数据与半结构化数据3.5.2图中涉及的技术名词解释：3.1hadoop组成HDFS(Hado

王哪跑nn·2023-12-31 22:50

Hadoop系列(8):数据存储之数据分区及放置策略

1、分区的定义及作用定义：将表、索引或索引编排细分为更小的段，数据库对象的每一个段称为区。作用：分区操作可以并行执行；分区之间相互独立，系统可用性高；查询操作可以仅查询部分分区而不是整个数据库。2、分区方式（1）范围分区范围分区：按照数据表中某个值得范围进行分区，根据值得范围决定数据所在分区。主要特点：能够根据数据的范围，将不同范围的数据存储在不同的分区。适用：按照时间范围存储数据的系统（日志）（

顾大静·2023-12-18 09:25

Hadoop系列 (四)：Yarn详细介绍

文章目录Hadoop系列文章Yarn简介Yarn基本架构Yarn组件介绍ResourceManagerNodeManagerApplicationMasterContainerYarn运行原理Yarn-HA

EricRae·2023-12-05 06:32

大数据编程技术基础实验八：Flume实验——文件数据Flume至HDFS

大数据编程技术基础实验八：Flume实验——文件数据Flume至HDFS文章目录大数据编程技术基础实验八：Flume实验——文件数据Flume至HDFS一、前言二、实验目的三、实验要求四、实验原理1、flume

-北天-·2023-11-28 16:13

3.hadoop系列之HDFS架构及文件上传下载

本文我们学习Hadoop中HDFS架构、优缺点、文件块大小、通过shell命令文件上传下载1.HDFS使用场景适合一次写入，多次读取。一个文件经过创建、写入和关闭之后就不需要改变2.HDFS优缺点2.1HDFS优点高容错性数据自动保存多个副本。通过增加副本的形式，提高容错性某一个副本丢失后可以自动恢复适合处理大数据数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据文件规模：能够处理百万规

沈健_算法小生·2023-11-25 05:43

21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-11-20 13:18

Hadoop入门指南之分组实战

Hadoop系列文章索引Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs

我辈岂是蓬蒿人225·2023-11-10 20:24

Hadoop入门指南之统计库存实战

Hadoop系列文章索引：Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs

我辈岂是蓬蒿人225·2023-11-10 20:54

Hadoop入门指南之分区、规约实战

Hadoop系列文章索引Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs

我辈岂是蓬蒿人225·2023-11-10 20:54

Hadoop入门指南之排序实战

Hadoop系列文章索引Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs

我辈岂是蓬蒿人225·2023-11-10 20:54

18、MapReduce的计数器与通过MapReduce读取/写入数据库示例

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-11-10 16:11

20、MapReduce 工作流介绍

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-11-10 16:41

大数据编程实验3 熟悉常用的HBase操作前期准备

一、实验目的（1）理解HDFS在Hadoop体系结构中的角色；（2）熟练使用HDFS操作常用的Shell命令；（3）熟悉HDFS操作常用的JavaAPI。二、实验平台1.操作系统：Linux（建议Ubuntu16.04或Ubuntu18.04）；2.Hadoop版本：3.1.3；3.HBase版本：2.2.2；4.JDK版本：1.8；5.JavaIDE：IDEA三、实验步骤实验前期准备sudota

Blossom i·2023-10-11 01:25

hadoop系列（二）常用配置、启动方式、HDFS，YARN配置文件

Hadoop（二）常用配置、启动方式、HDFS，YARN配置文件概述：来自Hadoop官网的介绍NowyouarereadytostartyourHadoopclusterinoneofthethreesupportedmodes:Local(Standalone)Mode–本地模式Pseudo-DistributedMode–伪分布式集群Fully-DistributedMode–完全分布式集群

故山归梦远·2023-10-08 07:53

hadoop系列安装小记

原文3年多前发表在私人站点，现迁移到当时装的是5.1.0，现在最新的版本是5.4.2，因为有在线业务使用，所以暂时不升级。cdh独立下载hadoop各个组件再安装比较繁琐(hdfs+yarn+hbsae+zk+hive)，没有选好版本可能会冲突，CDH的版本都是选定好的，安装和升级文档齐全,非常方便5.1.0各版本信息5.1.0安装文档升级文档安装前配置官方流程大致分一下3个步骤：1.配置cdh库

陈涛_滴滴·2023-10-06 10:26

13、HDFS Snapshot快照

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-09-12 09:28

2023年高校大数据实验室建设方案

泰迪打造国内领先的大数据人工智能及课程资源，包括：商务数据分析实训管理平台、云计算资源管理平台、大数据编程实训平台、商务数据分析编程实训平台、大数据综合实训平台等。

泰迪智能科技·2023-09-12 06:00

3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等）-java

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-09-06 01:44

10、HDFS小文件解决方案--Archive

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-08-31 07:56

泰迪大数据实训平台产品介绍

大数据产品包括：大数据实训管理平台、大数据开发实训平台、大数据编程实训平台等大数据实训管理平台泰迪大数据实训平台从课程管理、资源管理、实训管理等方面出发，主要解决现有实验室无法满足教学需求、传统教学流程和工具低效耗时和内部教学材料无法进行统一管理等问题

泰迪智能科技·2023-08-30 14:49

大数据技术概述(三)——编程语言的选择

文章目录1.6编程语言的选择1.6.1java和Scala1.6.2Python1.6.3SQL1.6编程语言的选择大数据编程一般会使用Java、Scala和python等编程语言，Flink目前也支持上述

ChlinRei·2023-08-28 14:21

【hadoop系列】-windows运行hadoop报没有找到winutils.exe

java.io.FileNotFoundException:CouldnotlocateHadoopexecutable:D:\tools\hadoop-3.3.3\bin\winutils.exe通过查询https://cwiki.apache.org/confluence/display/HADOOP2/WindowsProblems意思是：Hadoop需要Windows上的本地库才能正常工作

科学熊·2023-08-23 18:00

开源电子书

目录语言无关类操作系统智能系统分布式系统编译原理函数式概念计算机图形学WEB服务器版本控制编辑器NoSQLPostgreSQLMySQL管理和监控项目相关设计模式Web大数据编程艺术其它语言相关类AndroidAPPAWKC

weixin_30843605·2023-08-05 07:54

Kafka基础理论理解，欲走大数据之路必铺石阶，行走的kafka！2018-08-14

大数据编程理解，实际上是件很困难的事，大数据需要掌握的技能太多了，get到的技能点也实际更多！

飞上天的猫神·2023-08-03 00:48

大数据中台架构以及建设全流程一（Paas层设计）

目录设计背景问题点中台目标复用，赋能，降本增效中台整体架构Pass层技术选型实时存储平台----------->KAFKA（未来pulsar也不错）离线存储平台（Hadoop系列）Hadoop选型机架感知硬件选型

只会写demo的程序猿·2023-06-13 01:29

9、hadoop高可用HA集群部署及三种方式验证

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-06-12 12:36

16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-06-12 12:36

23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-06-12 12:36

1、hadoop3.1.4简单介绍及部署、简单验证

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-06-12 12:05

27.hadoop系列之50G数据清洗入库秒查询实践

1.项目背景目前本地有50G的企业年报csv数据,需要清洗出通信地址，并需要与原有的亿条数据合并以供业务查询最新的企业通信地址2.技术选型Hadoop+ClickHouse3.Hadoop数据清洗我们50G的数据无须上传至集群处理，上传目前带宽2M/S,巨慢，我直接在本地hadoop处理我们先看下数据格式，以@_@分割，最后一列是杂乱的数据315@_@102878404@_@91430802MA4

沈健_算法小生·2023-06-07 22:05

【Hadoop系列】（三）YARN的介绍及原理

YARN1，YARN概念YARN（YetAnotherResourceNegotiator）是自Hadoop2.0之后引入的一个新组件，统一负责集群的资源调度和管理，为MapReduce程序分配运算资源。2，YARN组件YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。ResourceManager作为资源管理的

林立可·2023-06-07 09:40

Hadoop系列——企业存储系统概述，HDFS概述day2-2

Hadoop系列——企业存储系统概述，HDFS概述day2-2企业存储系统数字经济产业互联网推动发展磁盘硬盘分类磁盘阵列（RAID）存储架构DAS存储架构NAS存储架构SAN存储架构文件系统文件名元数据文件系统分类海量数据存储出现的问题分布式文件存储问题解决海量数据存储问题解决海量数据文件查询问题解决大文件传输效率慢问题硬件故障导致数据丢失问题用户视角统一问题分布式文件系统

简明编程·2023-04-19 03:10

Hadoop系列-MapReduce架构和工作原理简介（十一）

一、MapReduce简介MapReduce是Hadoop生态下面的计算层，它把任务分割成小任务并分发到集群的机器上并行执行。您只需要按照MapReduce提供的编程接口开发业务逻辑代码即可，剩下的事情MapReduce框架会自动完成。比如，任务分割，任务分发等。MapReduce程序具有函数式风格，输入是数据列表，输出依然是数据列表。MapReduce是Hadoop的核心。Hadoop如此强大就

Just Jump·2023-04-15 15:42

大数据技术系列文章目录

ZookeeperHadoop系列之1、Zookeeper介紹Hadoop系列之2、Zookeeper实操HadoopHadoop系列之-1、大数据介绍Hadoop系列之-2、HDFS分布式文件系统Hadoop

技术武器库·2023-04-15 15:51

Hadoop系列-Hadoop高可用（三）

一、Hadoop高可用在Hadoop2.0以前的版本，NameNode面临单点故障风险（SPOF），也就是说，一旦NameNode节点挂了，整个集群就不可用了，而且需要借助辅助NameNode来手工干预重启集群，这将延长集群的停机时间。而Hadoop2.0版本支持一个备用节点用于自动恢复NameNode故障，Hadoop3.0则支持多个备用NameNode节点，这使得整个集群变得更加可靠。什么是H

Just Jump·2023-04-14 02:39

Hadoop系列之MR入门代码

提到hadoop上运行的MR程序，基本都知道由Map和Reduce两部分代码组成。这两部分代码是如何构成MR程序的基本框架，以及两者是如何协助实现基本功能的，本文在此做个基本的探索。一、MR程序基本思路以经典的wordcount为例，新建一个words文本：hi,mynameisjustinhello,thisisacathowoldareyouriamfinethankyouhi,youaref

wujustin·2023-04-12 05:44

Python大数据编程入门

4.Python大数据编程入门4.1Python操作MySQL4.2Spark与PySpark4.2.1PySpark基础4.2.2数据输入4.2.2.1Python数据容器转换为RDD对象4.2.2.2

MikeBennington·2023-04-11 12:41

2020-12-08

无论项目的目标是什么，Python都是易读性和统计分析能力强的大数据编程语言。Python是一种快速发展的编程语言，Python和BigData的

甜茸·2023-04-09 10:18

零基础学大数据编程需要哪些基础?

零基础学大数据编程需要哪些基础?程序员薪酬高、工作环境好，是很多同学向往的职业，让很多非计算机专业的同学羡慕不已。非计算机专业难道就不能成为程序员了吗?

cuijiao7259·2023-04-08 03:10

Hadoop系列-Hadoop架构、组件和生态简介（一）

Hadoop教程|Hadoop教程什么是HadoopHadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。Hadoop是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。Hadoop可以用单节点模式安装，但是只有多节点集群才能发挥Hadoop的优势，我们可

Just Jump·2023-04-03 20:28

推荐频道

大数据编程hadoop系列

《Hadoop系列》Docker安装Hadoop

Spark Scala大数据编程实例

Hadoop系列之-4、MapReduce分布式计算

大数据 - Hadoop系列《四》- MapReduce（分布式计算引擎）的核心思想

【Hadoop系列】HDFS

大数据 - Hadoop系列《三》- MapReduce（分布式计算引擎）概述

大数据 Hive - 实现SQL执行

大数据编程期末大作业

大数据 - Hadoop系列《三》- HDFS（分布式文件系统）概述

大数据编程期末大作业

大数据 - Hadoop系列《二》- Hadoop组成

Hadoop系列(8):数据存储之数据分区及放置策略

Hadoop系列 (四)：Yarn详细介绍

大数据编程技术基础实验八：Flume实验——文件数据Flume至HDFS

3.hadoop系列之HDFS架构及文件上传下载

21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件

Hadoop入门指南之分组实战

Hadoop入门指南之统计库存实战

Hadoop入门指南之分区、规约实战

Hadoop入门指南之排序实战

18、MapReduce的计数器与通过MapReduce读取/写入数据库示例

20、MapReduce 工作流介绍

大数据编程实验3 熟悉常用的HBase操作前期准备

hadoop系列（二）常用配置、启动方式、HDFS，YARN配置文件

hadoop系列安装小记

13、HDFS Snapshot快照

2023年高校大数据实验室建设方案

3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等）-java

10、HDFS小文件解决方案--Archive

泰迪大数据实训平台产品介绍

大数据技术概述(三)——编程语言的选择

【hadoop系列】-windows运行hadoop报没有找到winutils.exe

开源电子书

Kafka基础理论理解，欲走大数据之路必铺石阶，行走的kafka！2018-08-14

大数据中台架构以及建设全流程一（Paas层设计）

9、hadoop高可用HA集群部署及三种方式验证

16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN

23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化

1、hadoop3.1.4简单介绍及部署、简单验证

27.hadoop系列之50G数据清洗入库秒查询实践

【Hadoop系列】（三）YARN的介绍及原理

Hadoop系列——企业存储系统概述，HDFS概述day2-2

Hadoop系列-MapReduce架构和工作原理简介（十一）

大数据技术系列文章目录

Hadoop系列-Hadoop高可用（三）

Hadoop系列之MR入门代码

Python大数据编程入门

2020-12-08

零基础学大数据编程需要哪些基础?

Hadoop系列-Hadoop架构、组件和生态简介（一）