E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop开发运维
《PySpark大数据分析实战》-04.了解Spark
对大数据技术栈
Hadoop
、Hive、Spark、Kafka等有深入研究,对Data
wux_labs
·
2023-12-24 10:32
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
《PySpark大数据分析实战》-06.安装环境准备
对大数据技术栈
Hadoop
、Hive、Spark、Kafka等有深入研究,对Data
wux_labs
·
2023-12-24 10:32
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业
对大数据技术栈
Hadoop
、Hive、Spark、Kafka等有深入研究,对Data
wux_labs
·
2023-12-24 10:32
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
《PySpark大数据分析实战》-02.了解
Hadoop
对大数据技术栈
Hadoop
、Hive、Spark、Kafka等有深入研究,对Data
wux_labs
·
2023-12-24 10:02
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
《PySpark大数据分析实战》-01.关于数据
对大数据技术栈
Hadoop
、Hive、Spark、Kafka等有深入研究,对Data
wux_labs
·
2023-12-24 10:01
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
《PySpark大数据分析实战》-18.什么是数据分析
对大数据技术栈
Hadoop
、Hive、Spark、Kafka等有深入研究,对Data
wux_labs
·
2023-12-24 10:01
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
Flink数据类型&&序列化&&序列化器
2、一些RPC框架也提供序列化功能,比如:(1)最初用于
Hadoop
的【ApacheAvro】(2)Facebook开发
@可能
·
2023-12-24 08:50
flink
大数据高级开发工程师——
Hadoop
学习笔记(7)
文章目录
Hadoop
进阶篇YARN:
Hadoop
资源调度系统什么是YARNYARN架构剖析1.ResourceManager2.NodeManager3.Container4.ApplicationMaster5
讲文明的喜羊羊拒绝pua
·
2023-12-24 08:24
大数据
hadoop
big
data
mapreduce
yarn
Hadoop
学习笔记(一)分布式文件存储系统 —— HDFS
概念HDFS(
Hadoop
DistributedFileSystem),
Hadoop
分布式文件系统,用来存超大文件的。
zhang35
·
2023-12-24 08:54
大数据技术栈
大数据
分布式
Hadoop
入门
hdfs
大数据高级开发工程师——
Hadoop
学习笔记(1)
文章目录
Hadoop
基础篇
Hadoop
集群安装环境准备服务器准备设置时钟同步三台虚拟机添加普通用户三台虚拟机定义统一目录三台虚拟机
hadoop
用户设置免密登录三台虚拟机安装jdk
hadoop
集群安装环境部署规划安装包下载查看
讲文明的喜羊羊拒绝pua
·
2023-12-24 08:53
大数据
大数据
hadoop
hdfs
集群
zookeeper
Hadoop
入门学习笔记——二、在虚拟机里部署HDFS集群
pwd=5ay8
Hadoop
入门学习笔记(汇总)目录二、在虚拟机里部署HDFS集群2.1.部署node1虚拟机2.2.部署node2和node3虚拟机2.3.初始化并启动
Hadoop
集群(格
faith瑞诚
·
2023-12-24 08:23
大数据
学习笔记
hadoop
学习
笔记
Hadoop
学习笔记(3)——MapReduce入门
一、MapReduce介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。”map"负责分,即把复杂的任务分解为若干简单的任务来处理。前提是这些小任务可以并行计算,彼此间几乎没有依赖关系“Redude”负责合,即对map阶段的结果进行全局汇总1.MapReduce设计构思MapRed
今天有没有写代码
·
2023-12-24 08:53
大数据
hadoop
java
hadoop
大数据学习笔记
一、
Hadoop
的作用本质来说
hadoop
的作用是在多计算机集群环境中营造一个统一而稳定的存储和计算环境,并能为其他分布式应用服务提供平台支持。
驰宇爱吃鱼
·
2023-12-24 08:53
学习笔记
大数据
hadoop
学习
在虚拟机中执行Hive命令该如何操作呢?
前期准备配置hive环境启动hive#输入用户名密码,登录
hadoop
⽤户#启动集群[
hadoop
@node100
hadoop
]$start-all.sh#进⼊到hive安装⽬录[
hadoop
@node100ha
纪筱白
·
2023-12-24 08:53
Hive
linux及
hadoop
入门,
Hadoop
学习全程记录——
Hadoop
入门
开始学习
Hadoop
,从今天起,想把我学习
hadoop
全过程记录一下。我会记录在学习过程中碰到的问题、困难以及解决方法等等,如果你也是刚学
hadoop
,我们可以一起讨论。
weixin_39675926
·
2023-12-24 08:23
linux及hadoop入门
Hadoop
+Hive学习笔记-4
Hadoop
集群搭建配置三台虚拟机之间的免密登录1切换到root用户:crontab-e在第一行写入:*/5****/usr/sbin/ntpdatentp1.aliyun.com三台机器都一同操作,这一步让三台机器的时间服务器一致
fwings260
·
2023-12-24 08:22
Hadoop
Hive
hadoop
学习笔记(五)Hive安装部署
Hive安装部署Hive安装及配置配置已经完成,在此处启动
hadoop
集群Hive常用命令将本地文件导入Hive案例安装MySqlHive元数据配置到MySqlHive安装及配置下载地址:https:/
So.j
·
2023-12-24 08:22
hadoop学习笔记
大数据
hive
hadoop
Hadoop
学习之HDFS——小白入门笔记
一、分布式文件系统1.分布式文件系统解决问题:海量数据的高效存储2.分布式文件系统是将文件分布存储到多个计算机节点上。(此处的计算机为普通计算机)3.分布式文件系统的多个节点分为两类:名称节点(主节点):文件、目录的操作(创建、删除、重命名等),数据节点与文件块的映射关系数据节点(从节点):数据的读取与存储二、HDFS概念1.名称节点:管理分布式文件的命名空间。包含FsImage,Editlog两
cainiao22222
·
2023-12-24 08:52
hadoop
hdfs
hadoop
hdfs
SpringBoot 3 集成Hive 3
前提条件:运行环境:
Hadoop
3.*+Hive3.
在奋斗的大道
·
2023-12-24 07:46
springBoot学习笔记
Java架构专栏
hadoop
hive
hadoop
数据仓库
Hadoop
入门学习笔记——六、连接到Hive
pwd=5ay8
Hadoop
入门学习笔记(汇总)目录六、连接到Hive6.1.使用Hive的Shell客户端6.2.使用Beeline客户端连接HiveServer2操作Hive6.3.使用
faith瑞诚
·
2023-12-24 07:10
大数据
学习笔记
hadoop
学习
笔记
hive
大数据
Hadoop
入门学习笔记——五、在虚拟机中部署Hive
pwd=5ay8
Hadoop
入门学习笔记(汇总)目录五、在虚拟机中部署Hive5.1.在node1虚拟机安装MySQL5.2.配置
Hadoop
5.3.下载并加压Hive5.4.下载MySQL
faith瑞诚
·
2023-12-24 07:09
大数据
学习笔记
hadoop
学习
笔记
Hadoop
入门学习笔记——三、使用HDFS文件系统
pwd=5ay8
Hadoop
入门学习笔记(汇总)目录三、使用HDFS文件系统3.1.使用命令操作HDFS文件系统3.1.1.HDFS文件系统基本信息3.1.2.HDFS文件系统的2套命令体系
faith瑞诚
·
2023-12-24 07:39
大数据
学习笔记
hadoop
学习
笔记
Hadoop
入门学习笔记——四、MapReduce的框架配置和YARN的部署
pwd=5ay8
Hadoop
入门学习笔记(汇总)目录四、MapReduce的框架配置和YARN的部署4.1.配置MapReduce和YARN4.2.YARN集群启停脚本4.2.1.一键启停脚
faith瑞诚
·
2023-12-24 07:39
大数据
学习笔记
hadoop
学习
笔记
Hadoop
入门学习笔记——七、Hive语法
pwd=5ay8
Hadoop
入门学习笔记(汇总)目录七、Hive语法7.1.数据库相关操作7.1.1.创建数据库7.1.2.选择数据库7.1.3.描述数据库详细信息7.1.4.创建数据库并指
faith瑞诚
·
2023-12-24 07:37
大数据
学习笔记
hadoop
学习
笔记
hive
大数据
Hadoop
入门学习笔记——一、VMware准备Linux虚拟机
pwd=5ay8
Hadoop
入门学习笔记(汇总)目录一、VMware准备Linux虚拟机1.1.VMware安装Linux虚拟机1.1.1.修改虚拟机子网IP和网关1.1.2.安装Linux
faith瑞诚
·
2023-12-24 07:37
学习笔记
大数据
hadoop
学习
笔记
【zookeeper特点】
文章目录1.Zookeeper介绍2、ZooKeeper数据结构1.Zookeeper介绍ZooKeeper是一个开源的分布式协调框架,是Apache
Hadoop
的一个子项目,主要用来解决分布式集群中应用系统的一致性问题
向前再向前
·
2023-12-24 06:33
zookeeper
【kafka】在linux中安装并简单部署使用
消息代理下载本地伪分布式安装配置启动伪分布式集群创建主题消费者生产者简介分布式流处理平台:发布订阅消息队列、具有存储功能、一个流处理框架优势吞吐量好,性能好伸缩性好,支持在线扩展容错性和可靠性(容错性:一个消息存储三份)与大数据生态紧密结合,可无缝对接
hadoop
古枫桐
·
2023-12-24 05:35
linux
kafka
linux
Hadoop
一、大数据分布式1.1数据导论1.什么是数据?人类的行为及产生的事件的一种记录称之为数据2.数据有什么价值?对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律比如,购物的订单记录(数据)可以帮助平台更好的了解消费者,从而促进交易。1.2大数据诞生1.大数据的诞生是跟随着互联网的发展的当全球互联网逐步建成(2000年左右),各大企业或政府单位拥有了海量的数据亟待处理。基于这个前提
weixin_50458070
·
2023-12-24 05:33
hadoop
大数据
分布式
7000字超详细讲解
Hadoop
、Spark、Storm、YARN,建议收藏!
一、
Hadoop
1.1.概念就是一个大数据解决方案。它提供了一套分布式系统基础架构。核心内容包含hdfs和mapreduce。
套马杆的程序员
·
2023-12-24 04:49
数据同步利器之seatunnel篇
前言前面几篇文章分别介绍了
hadoop
生态圈的一些组件,但都是用来处理和接收消息的,虽然也具备同步数据的能力,但或多或少的都会涉及一些编程相关的知识,对于只是简单快速的数据同步需求来说,可能稍显麻烦,这时候就如果有一个数据同步的工具
以茉萱
·
2023-12-24 02:48
大数据
etl
hadoop
3.3.3集群安装部署
由于之前项目使用的都是成熟的大数据产品CDH或者HDP,里面封装了多个大数据组件,对于企业而言,无论是体验还是维护都比较友好,但对于开发人员来说,太过于集成,反而不太好了解各个组件具体的配置细节,本篇文章就从
hadoop
以茉萱
·
2023-12-24 02:18
hadoop
大数据
分布式
zookeeper3.7.1集群部署安装
[在这里插入图片描述](https://img-blog.csdnimg.cn/direct/05315462411f4157ad6f0bd72b288749.png)总结前言上篇内容关于
hadoop
集
以茉萱
·
2023-12-24 02:18
zookeeper
千亿级工业大数据的最优方案!智光电气的时序数据库应用
小T导读:此前,智光电气(股票代码:002169)子公司智光研究院在工业项目中使用基于Apache
Hadoop
的CDH集群来做时序业务数据的处理,但由于数据量级太大,处理占用了大量资源,导致集群有发生崩溃的风险
涛思数据(TDengine)
·
2023-12-24 01:25
用户案例
大数据
时序数据库
数据库
tdengine
【基础知识】大数据组件YARN简述
YARN是
Hadoop
系统的核心组件,主要功能包括负责在
Hadoop
集群中的资源管理,负责对作业进行调度运行以及监控。
偏振万花筒
·
2023-12-23 22:28
大数据
Hive文件存储与压缩
压缩和存储1、
Hadoop
压缩配置1)MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFAULT无DEFAULT.deflate否GzipgzipDEFAULT.gz否bzip2bzip2bzip2
新鲜氧气
·
2023-12-23 22:24
大数据
#
hive
#
hadoop
hive
hadoop
数据仓库
浅谈
Hadoop
容错机制
简单介绍一下
Hadoop
中数据存储的可靠性和完整性,其中包括HDFS的容错机制、NameNode(元数据结点)的单点失效解决机制、Block数据块的多副本存储机制、NameNode与DataNode之间的心跳检测机制
小小少年Boy
·
2023-12-23 15:19
Docker 学习笔记
开发–运维问题,环境配置是十分麻烦,每一个机器都要部署环境(Redis,Es,
Hadoop
)费时费力发布一个项目(jar+(RedisMysqljdkes))项目能不能都带上环境安装打包之前在服务器配置一个应用的环境
IT小学僧
·
2023-12-23 14:19
docker
docker
MINIO在java中的使用
对象存储可以充当主存储层,以处理Spark、Presto、TensorFlow、H2O.ai等各种复杂工作负载以及成为
Hadoop
HDFS的替代品--------引自官网的话。
IT小学僧
·
2023-12-23 14:48
MinIo
Java
java
spring
boot
通过HDFS API进行HDFS操作
HDFSJavaAPI位于org.apache.
hadoop
.fs包中,这些API能够支持的操作包括打开文件、读写文件、删除文件等。
Hadoop
类库中最终面向用户提供的接口类是FileSystem。
CDHong.it
·
2023-12-23 14:30
Hadoop大数据
Java基础
hadoop
hdfs
大数据
Hadoop
_HDFS_API 创建文件夹
创建文件夹在文件夹里输入代码,创建文件夹客户端代码常用套路1、获取一个客户端对象2、执行相关的操作指令3、关闭资源代码如下:packagecom.atguigu.hdfs;importorg.apache.
hadoop
.conf.Configuration
笨鸟先-森
·
2023-12-23 14:29
hadoop
hdfs
java
Hadoop
之HDFS的API操作
1、环境准备1.1、下载window版本的
hadoop
-3.1.01.2、配置
HADOOP
_HOME环境变量1.2、配置Path环境变量2、代码演示2.1、创建maven项目,导入pom坐标org.apache.
hadoop
hadoop
-client3.1.3junitjunit4.12org.slf4jslf4j-log4j121.7.302.2
后端技术那点事
·
2023-12-23 14:28
大数据系列
hadoop
hdfs
big
data
Hadoop
学习之HDFS(HDFS客户端及API操作)心得
HDFS客户端及API操作:一、准备条件:1.配置环境变量
HADOOP
_HOME(路径要求非中文)2.验证环境变量,双击winutils.exe(报错可能是缺少微软运行库MSVCR120.dll)3.在
顺其自然的济帅哈
·
2023-12-23 14:58
Hadoop
hadoop
hdfs
大数据—
Hadoop
(四)_ HDFS_03、客户端API
文章目录1、客户端环境准备1.1idea1.2window依赖2、HDFS的API案例实操2.1HDFS文件上传(测试参数优先级)2.1.1客户端代码常用套路2.1.2普通版2.1.3优化后2.1.4上传文件,修改@Test2.1.5补充:API参数优先级(由低到高)2.1.5.1hdfs-default.xml(最低)2.1.5.2hdfs-site.xml2.1.5.3代码中的配置(最高)2.
大数据之负
·
2023-12-23 14:58
Hadoop
hadoop
hdfs
大数据
Hadoop
中HDFS的API操作、客户端环境准备、配置
HADOOP
_HOME环境变量
文章目录7.HDFS的API操作7.1客户端环境准备7.1.1下载下面的Windows依赖文件夹,拷贝
hadoop
-3.1.0到非中文路径(比如d:\)7.1.2配置
HADOOP
_HOME环境变量7.1.3
Redamancy_06
·
2023-12-23 14:27
#
Hadoop
hadoop
hdfs
大数据
hadoop
02_HDFS的API操作
HDFS的API操作1HDFS核心类简介Configuration类:处理HDFS配置的核心类。FileSystem类:处理HDFS文件相关操作的核心类,包括对文件夹或文件的创建,删除,查看状态,复制,从本地挪动到HDFS文件系统中等。Path类:处理HDFS文件路径。IOUtils类:处理HDFS文件读写的工具类。2HDFS文件处理类FileSystem的核心方法介绍:1.FileSystemg
程序喵猴
·
2023-12-23 14:57
hadoop
hdfs
hadoop
大数据
Koordinator 支持 K8s 与 YARN 混部,小红书在离线混部实践分享
背景介绍Koordinator是一个开源项目,基于阿里巴巴在容器调度领域多年累积的经验孵化诞生,目前已经支持了K8s生态内的在离线混部,然而在K8s生态外,仍有相当数量的用户会将大数据任务运行在Apache
Hadoop
YARN
阿里云云原生
·
2023-12-23 13:28
kubernetes
容器
云原生
Koordinator
DBeaver连接hive
1.新建hive连接其中主机填写hive所在节点地址,端口10000为默认,数据库名不填则是默认default数据库,用户名密码填写
hadoop
集群中能操作hdfs的用户和密码。
sunweiking
·
2023-12-23 12:38
hive
hive
hadoop
数据仓库
Hadoop
之Yarn
Yarn是
Hadoop
2.0引入的集群资源管理系统。用户可以将各种服务框架部署在Yarn上,由Yarn进行统一地管理和资源分配。
TZX_0710
·
2023-12-23 12:27
【数仓_01】用户行为采集平台
具体版本1.6集群规模2、用户行为数据生成2.1目标数据2.2埋点3、模拟数据3.1使用说明3.2集群日志生成脚本4、用户行为数据采集模块4.1数据通道4.2环境准备4.2.1集群所有进程查看脚本4.3
Hadoop
温欣2030
·
2023-12-23 10:43
hadoop
hadoop
(十二)——自定义分区Partitioner
我们学习Partitioner不用举那么复杂的例子,就举一个简单的例子就好了,在第十二节课学习了一个DataCount的小例子,地址:http://blog.csdn.net/u012453843/article/details/52600313我们就在这个程序的基础上加上我们自定义的分区功能。我们先来看看DataCount这个程序最终的执行结果是什么样子的,在查看之前我们需要先启动hdfs和ya
文子轩
·
2023-12-23 08:05
上一页
29
30
31
32
33
34
35
36
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他