E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据编程hadoop系列
《
Hadoop系列
》Docker安装Hadoop
文章目录Docker安装Hadoop1安装docker1.1添加docker到yum源1.2安装docker2安装Hadoop2.1使用docker自带的hadoop安装2.2免密操作2.2.1master节点2.2.2slave1节点2.2.3slave2节点2.2.4将三个容器中的authorized_keys拷贝到本地合并2.2.5将本地authorized_keys文件分别拷贝到3个容器中
DATA数据猿
·
2024-08-31 12:16
Hadoop
Docker
docker
hadoop
Spark Scala
大数据编程
实例
一、Scala1.1、Scala简介Scala是一门现代的多范式编程语言,平滑地集成了面向对象和函数式语言的特性,旨在以简练、优雅的方式来表达常用编程模式。Scala的设计吸收借鉴了许多种编程语言的思想,只有很少量特点是Scala自己独有的。Scala语言的名称来自于“可伸展的语言”,从写个小脚本到建立个大系统的编程任务均可胜任。Scala运行于Java平台(JVM,Java虚拟机)上,并兼容现有
一直de不完的bug
·
2024-02-07 06:38
Hadoop
spark
大数据
hadoop
Hadoop系列
之-4、MapReduce分布式计算
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。大数据系列文章目录目录MapReduce计算模型介绍理解MapReduce思想HadoopMapReduce设计构思MapReduce编程规范及示例编写编程规范编程步骤WordCount示例编写MapReduce程序运行模式本地运行模式集群运行模式结束之前详细讲解了,Zookeeper和HDFS,从下面
技术武器库
·
2024-01-31 06:10
大数据专栏
hadoop
mapreduce
大数据 -
Hadoop系列
《四》- MapReduce(分布式计算引擎)的核心思想
上一篇:大数据-
Hadoop系列
《三》-MapReduce(分布式计算引擎)概述-CSDN博客目录13.1MapReduce实例进程13.2阶段组成13.4概述13.4.1Map阶段(映射)13.4.2Reduce
王哪跑nn
·
2024-01-31 06:02
hadoop
大数据
大数据
hadoop
mapreduce
【
Hadoop系列
】HDFS
Hadoop的前世今生什么是大数据各行各业都会产生大量的数据,比如社交网站的意见观点,电商平台人们浏览网页停留的时间,交通运输每天产生的数据等等。这些数据大多不是结构化的,一般来说都是半结构化或者非结构化的在以前,我们的处理能力达不到,所以很多数据要么没有存起来,要么没有利用起来。而现在数据越来越集中在云端的服务器上,并且计算能力已经今非昔比了,我们完全有能力对大数据进行存储和分析。所以所谓的大数
dy2903
·
2024-01-30 11:12
大数据 -
Hadoop系列
《三》- MapReduce(分布式计算引擎)概述
上一篇文章:大数据-
Hadoop系列
《三》-HDFS(分布式文件系统)概述-CSDN博客目录12.1针对MapReduce的设计构思1.如何对付大数据处理场景2.构建抽象编程模型3.统一架构、隐藏底层细节
王哪跑nn
·
2024-01-29 23:31
大数据
hadoop
大数据
hadoop
hdfs
大数据 Hive - 实现SQL执行
文章目录MapReduce实现SQL的原理Hive的架构Hive如何实现join操作小结MapReduce的出现大大简化了
大数据编程
的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用MapReduce
善守的大龙猫
·
2024-01-12 07:37
大数据
大数据
hive
sql
大数据编程
期末大作业
大数据编程
期末大作业文章目录
大数据编程
期末大作业一、Hadoop基础操作二、RDD编程三、SparkSQL编程四、SparkStreaming编程一、Hadoop基础操作在HDFS中创建目录/user/
-北天-
·
2024-01-07 05:20
大数据学习
大数据
课程设计
hadoop
大数据 -
Hadoop系列
《三》- HDFS(分布式文件系统)概述
5.1hdfs的概念HDFS分布式文件系统,全称为:HadoopDistributedFileSystem。它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。我一共三台linux服务器,每台机器内存60G,所以HDFS文
王哪跑nn
·
2024-01-02 06:06
大数据
大数据
hadoop
hdfs
大数据编程
期末大作业
目录一、Hadoop基础操作二、RDD编程三、SparkSQL编程四、SparkStreaming编程五、Flume的安装配置一、Hadoop基础操作按要求完成以下操作:1、在HDFS中创建目录/user/root/你的名字。例如:李四同学/user/root/lisi,后同。首先需要启动hdfs,在终端输入如下命令:start-dfs.sh在终端输入如下命令创建目录:hdfsdfs-mkdir-
Francek Chen
·
2024-01-01 14:50
Spark编程基础
spark
大数据
分布式
大数据 -
Hadoop系列
《二》- Hadoop组成
目录3.1hadoop组成3.1HDFS架构概述1.NameNode(nn):编辑2.DataNode(dn):3.SecondaryNameNode(2nn):3.2YARN架构概述3.3MapReduce架构概述3.4HDFS、YARN、MapReduce三者关系3.5大数据技术生态体系3.5.1结构化数据与半结构化数据3.5.2图中涉及的技术名词解释:3.1hadoop组成HDFS(Hado
王哪跑nn
·
2023-12-31 22:50
大数据
大数据
hadoop
分布式
Hadoop系列
(8):数据存储之数据分区及放置策略
1、分区的定义及作用定义:将表、索引或索引编排细分为更小的段,数据库对象的每一个段称为区。作用:分区操作可以并行执行;分区之间相互独立,系统可用性高;查询操作可以仅查询部分分区而不是整个数据库。2、分区方式(1)范围分区范围分区:按照数据表中某个值得范围进行分区,根据值得范围决定数据所在分区。主要特点:能够根据数据的范围,将不同范围的数据存储在不同的分区。适用:按照时间范围存储数据的系统(日志)(
顾大静
·
2023-12-18 09:25
分布式系统
Hadoop系列
(四):Yarn详细介绍
文章目录
Hadoop系列
文章Yarn简介Yarn基本架构Yarn组件介绍ResourceManagerNodeManagerApplicationMasterContainerYarn运行原理Yarn-HA
EricRae
·
2023-12-05 06:32
#
hadoop
hadoop
big
data
大数据编程
技术基础实验八:Flume实验——文件数据Flume至HDFS
大数据编程
技术基础实验八:Flume实验——文件数据Flume至HDFS文章目录
大数据编程
技术基础实验八:Flume实验——文件数据Flume至HDFS一、前言二、实验目的三、实验要求四、实验原理1、flume
-北天-
·
2023-11-28 16:13
大数据学习
大数据
hdfs
flume
3.
hadoop系列
之HDFS架构及文件上传下载
本文我们学习Hadoop中HDFS架构、优缺点、文件块大小、通过shell命令文件上传下载1.HDFS使用场景适合一次写入,多次读取。一个文件经过创建、写入和关闭之后就不需要改变2.HDFS优缺点2.1HDFS优点高容错性数据自动保存多个副本。通过增加副本的形式,提高容错性某一个副本丢失后可以自动恢复适合处理大数据数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据文件规模:能够处理百万规
沈健_算法小生
·
2023-11-25 05:43
大数据
hadoop
hdfs
架构
21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-11-20 13:18
#
hadoop专栏
mapreduce
hadoop
hdfs
大数据
big
data
Hadoop入门指南之分组实战
Hadoop系列
文章索引Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs
我辈岂是蓬蒿人225
·
2023-11-10 20:24
大数据
hadoop
Hadoop入门指南之统计库存实战
Hadoop系列
文章索引:Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs
我辈岂是蓬蒿人225
·
2023-11-10 20:54
大数据
hadoop
Hadoop入门指南之分区、规约实战
Hadoop系列
文章索引Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs
我辈岂是蓬蒿人225
·
2023-11-10 20:54
大数据
hadoop
Hadoop入门指南之排序实战
Hadoop系列
文章索引Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs
我辈岂是蓬蒿人225
·
2023-11-10 20:54
大数据
hadoop
18、MapReduce的计数器与通过MapReduce读取/写入数据库示例
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-11-10 16:11
#
hadoop专栏
mapreduce
数据库
hadoop
大数据
bigdata
20、MapReduce 工作流介绍
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-11-10 16:41
#
hadoop专栏
mapreduce
hadoop
大数据
bigdata
分布式
大数据编程
实验3 熟悉常用的HBase操作前期准备
一、实验目的(1)理解HDFS在Hadoop体系结构中的角色;(2)熟练使用HDFS操作常用的Shell命令;(3)熟悉HDFS操作常用的JavaAPI。二、实验平台1.操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04);2.Hadoop版本:3.1.3;3.HBase版本:2.2.2;4.JDK版本:1.8;5.JavaIDE:IDEA三、实验步骤实验前期准备sudota
Blossom i
·
2023-10-11 01:25
大数据编程
hbase
大数据
hadoop
hadoop系列
(二)常用配置、启动方式、HDFS,YARN配置文件
Hadoop(二)常用配置、启动方式、HDFS,YARN配置文件概述:来自Hadoop官网的介绍NowyouarereadytostartyourHadoopclusterinoneofthethreesupportedmodes:Local(Standalone)Mode–本地模式Pseudo-DistributedMode–伪分布式集群Fully-DistributedMode–完全分布式集群
故山归梦远
·
2023-10-08 07:53
hadoop
hdfs
大数据
hadoop系列
安装小记
原文3年多前发表在私人站点,现迁移到当时装的是5.1.0,现在最新的版本是5.4.2,因为有在线业务使用,所以暂时不升级。cdh独立下载hadoop各个组件再安装比较繁琐(hdfs+yarn+hbsae+zk+hive),没有选好版本可能会冲突,CDH的版本都是选定好的,安装和升级文档齐全,非常方便5.1.0各版本信息5.1.0安装文档升级文档安装前配置官方流程大致分一下3个步骤:1.配置cdh库
陈涛_滴滴
·
2023-10-06 10:26
13、HDFS Snapshot快照
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-09-12 09:28
#
hadoop专栏
hdfs
hadoop
大数据
bigdata
分布式
2023年高校大数据实验室建设方案
泰迪打造国内领先的大数据人工智能及课程资源,包括:商务数据分析实训管理平台、云计算资源管理平台、
大数据编程
实训平台、商务数据分析编程实训平台、大数据综合实训平台等。
泰迪智能科技
·
2023-09-12 06:00
大数据实验室
大数据
3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等)-java
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-09-06 01:44
#
hadoop专栏
hdfs
java
hadoop
mapreduce
大数据
10、HDFS小文件解决方案--Archive
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-08-31 07:56
#
hadoop专栏
hdfs
hadoop
大数据
bigdata
mapreduce
泰迪大数据实训平台产品介绍
大数据产品包括:大数据实训管理平台、大数据开发实训平台、
大数据编程
实训平台等大数据实训管理平台泰迪大数据实训平台从课程管理、资源管理、实训管理等方面出发,主要解决现有实验室无法满足教学需求、传统教学流程和工具低效耗时和内部教学材料无法进行统一管理等问题
泰迪智能科技
·
2023-08-30 14:49
大数据
大数据
大数据技术概述(三)——编程语言的选择
文章目录1.6编程语言的选择1.6.1java和Scala1.6.2Python1.6.3SQL1.6编程语言的选择
大数据编程
一般会使用Java、Scala和python等编程语言,Flink目前也支持上述
ChlinRei
·
2023-08-28 14:21
大数据
大数据
java
scala
python
【
hadoop系列
】-windows运行hadoop报没有找到winutils.exe
java.io.FileNotFoundException:CouldnotlocateHadoopexecutable:D:\tools\hadoop-3.3.3\bin\winutils.exe通过查询https://cwiki.apache.org/confluence/display/HADOOP2/WindowsProblems意思是:Hadoop需要Windows上的本地库才能正常工作
科学熊
·
2023-08-23 18:00
杂谈
hadoop
windows
hdfs
开源电子书
目录语言无关类操作系统智能系统分布式系统编译原理函数式概念计算机图形学WEB服务器版本控制编辑器NoSQLPostgreSQLMySQL管理和监控项目相关设计模式Web
大数据编程
艺术其它语言相关类AndroidAPPAWKC
weixin_30843605
·
2023-08-05 07:54
前端
设计模式
git
ViewUI
Kafka基础理论理解,欲走大数据之路必铺石阶,行走的kafka!2018-08-14
大数据编程
理解,实际上是件很困难的事,大数据需要掌握的技能太多了,get到的技能点也实际更多!
飞上天的猫神
·
2023-08-03 00:48
大数据中台架构以及建设全流程一(Paas层设计)
目录设计背景问题点中台目标复用,赋能,降本增效中台整体架构Pass层技术选型实时存储平台----------->KAFKA(未来pulsar也不错)离线存储平台(
Hadoop系列
)Hadoop选型机架感知硬件选型
只会写demo的程序猿
·
2023-06-13 01:29
spark
数仓
scala
spark
hadoop
9、hadoop高可用HA集群部署及三种方式验证
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-06-12 12:36
#
hadoop专栏
hadoop
hdfs
大数据
bigdata
分布式
16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-06-12 12:36
#
hadoop专栏
mapreduce
hadoop
大数据
big
data
分布式
23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-06-12 12:36
#
hadoop专栏
hadoop
mapreduce
大数据
性能优化
bigdata
1、hadoop3.1.4简单介绍及部署、简单验证
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-06-12 12:05
#
hadoop专栏
hadoop
大数据
big
data
hdfs
mapreduce
27.
hadoop系列
之50G数据清洗入库秒查询实践
1.项目背景目前本地有50G的企业年报csv数据,需要清洗出通信地址,并需要与原有的亿条数据合并以供业务查询最新的企业通信地址2.技术选型Hadoop+ClickHouse3.Hadoop数据清洗我们50G的数据无须上传至集群处理,上传目前带宽2M/S,巨慢,我直接在本地hadoop处理我们先看下数据格式,以@_@分割,最后一列是杂乱的数据315@_@102878404@_@91430802MA4
沈健_算法小生
·
2023-06-07 22:05
大数据
hadoop
大数据
分布式
【
Hadoop系列
】(三)YARN的介绍及原理
YARN1,YARN概念YARN(YetAnotherResourceNegotiator)是自Hadoop2.0之后引入的一个新组件,统一负责集群的资源调度和管理,为MapReduce程序分配运算资源。2,YARN组件YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。ResourceManager作为资源管理的
林立可
·
2023-06-07 09:40
大数据
hadoop
大数据
yarn
Hadoop系列
——企业存储系统概述,HDFS概述day2-2
Hadoop系列
——企业存储系统概述,HDFS概述day2-2企业存储系统数字经济产业互联网推动发展磁盘硬盘分类磁盘阵列(RAID)存储架构DAS存储架构NAS存储架构SAN存储架构文件系统文件名元数据文件系统分类海量数据存储出现的问题分布式文件存储问题解决海量数据存储问题解决海量数据文件查询问题解决大文件传输效率慢问题硬件故障导致数据丢失问题用户视角统一问题分布式文件系统
简明编程
·
2023-04-19 03:10
笔记
大数据splunk
Java学习
hadoop
hdfs
大数据
Hadoop系列
-MapReduce架构和工作原理简介(十一)
一、MapReduce简介MapReduce是Hadoop生态下面的计算层,它把任务分割成小任务并分发到集群的机器上并行执行。您只需要按照MapReduce提供的编程接口开发业务逻辑代码即可,剩下的事情MapReduce框架会自动完成。比如,任务分割,任务分发等。MapReduce程序具有函数式风格,输入是数据列表,输出依然是数据列表。MapReduce是Hadoop的核心。Hadoop如此强大就
Just Jump
·
2023-04-15 15:42
Hive
&
Hadoop
MapReduce工作原理
大数据技术系列文章目录
Zookeeper
Hadoop系列
之1、Zookeeper介紹
Hadoop系列
之2、Zookeeper实操Hadoop
Hadoop系列
之-1、大数据介绍
Hadoop系列
之-2、HDFS分布式文件系统
Hadoop
技术武器库
·
2023-04-15 15:51
大数据专栏
kafka
spark
hive
flink
hadoop
Hadoop系列
-Hadoop高可用(三)
一、Hadoop高可用在Hadoop2.0以前的版本,NameNode面临单点故障风险(SPOF),也就是说,一旦NameNode节点挂了,整个集群就不可用了,而且需要借助辅助NameNode来手工干预重启集群,这将延长集群的停机时间。而Hadoop2.0版本支持一个备用节点用于自动恢复NameNode故障,Hadoop3.0则支持多个备用NameNode节点,这使得整个集群变得更加可靠。什么是H
Just Jump
·
2023-04-14 02:39
Hive
&
Hadoop
hadoop生态系统高可用
Hadoop系列
之MR入门代码
提到hadoop上运行的MR程序,基本都知道由Map和Reduce两部分代码组成。这两部分代码是如何构成MR程序的基本框架,以及两者是如何协助实现基本功能的,本文在此做个基本的探索。一、MR程序基本思路以经典的wordcount为例,新建一个words文本:hi,mynameisjustinhello,thisisacathowoldareyouriamfinethankyouhi,youaref
wujustin
·
2023-04-12 05:44
Python
大数据编程
入门
4.Python
大数据编程
入门4.1Python操作MySQL4.2Spark与PySpark4.2.1PySpark基础4.2.2数据输入4.2.2.1Python数据容器转换为RDD对象4.2.2.2
MikeBennington
·
2023-04-11 12:41
Python3学习笔记
python
学习
大数据
2020-12-08
无论项目的目标是什么,Python都是易读性和统计分析能力强的
大数据编程
语言。Python是一种快速发展的编程语言,Python和BigData的
甜茸
·
2023-04-09 10:18
零基础学
大数据编程
需要哪些基础?
零基础学
大数据编程
需要哪些基础?程序员薪酬高、工作环境好,是很多同学向往的职业,让很多非计算机专业的同学羡慕不已。非计算机专业难道就不能成为程序员了吗?
cuijiao7259
·
2023-04-08 03:10
Hadoop系列
-Hadoop架构、组件和生态简介(一)
Hadoop教程|Hadoop教程什么是HadoopHadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。Hadoop是专为从单一服务器到上千台机器扩展,每个机器都可以提供本地计算和存储。Hadoop可以用单节点模式安装,但是只有多节点集群才能发挥Hadoop的优势,我们可
Just Jump
·
2023-04-03 20:28
Hive
&
Hadoop
hadoop
架构
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他