E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop入门笔记
Hadoop
Shuffle
Whentherearemultiplereducers,themaptaskspartitiontheiroutput,eachcreatingonepartitionforeachreducetask.Therecanbemanykeys(andtheirassociatedvalues)ineachpartition,buttherecordsforeverykeyareallinasing
SharlotteZZZ
·
2024-02-19 13:22
Flink 细粒度滑动窗口性能优化
大数据技术AIFlink/Spark/
Hadoop
/数仓,数据分析、面试,源码解读等干货学习资料118篇原创内容公众号1、概述1.1细粒度滑动的影响当使用细粒度的滑动窗口(窗口长度远远大于滑动步长)时,
hyunbar
·
2024-02-19 13:39
Flink
大数据
flink
java
数据库
【大数据面试题】006介绍一下Parquet存储格式的优势
同时一般查询使用时不会使用所有列,而是只用到几列,所以查询速度会更快压缩比例高因为是列式存储,所以可以对同一类型的一段做压缩,压缩比例高支持的平台和框架多在
Hadoop
,Spark,Presto,Python
Jiweilai1
·
2024-02-19 13:34
一天一道面试题
大数据
spark
hadoop
Sqoop 入门基础
简介Sqoop(SQLto
Hadoop
)是一个开源工具,用于在关系型数据库和
Hadoop
之间传输数据。
香菜的开发日记
·
2024-02-19 13:17
sqoop
hadoop
hive
hadoop
硬件配置 高可用 datanode namenode硬件配置
每个分布式文件系统分块在NameNode的内存中大小约为250个字节,此外还要加上文件和目录所需的250字节空间。500字节一个块假设我们有5000个平均大小为20GB的文件并且使用默认的分布式文件系统分块大小(64MB)同时副本因子为3,5000*20GB=102400000M=97T那么NameNode需要保存5千万个分块的信息,这些分块的大小加上文件系统的开销总共需要1.5GB的内存。但是一
xcagy
·
2024-02-19 13:07
HADOOP
K8S
hadoop硬件
田尚滨
【大数据】
HADOOP
-YARN-ContainerExecutor容器启动器详解
在NodeManager中,有三种运行Container的方式,它们分别是:DefaultContainerExecutorLinuxContainerExecutorDockerContainerExecutor从它们的名字中,我们就能看得出来,默认情况下,一定使用的是DefaultContainerExecutor。而一般情况下,DefaultContainerExecutor也确实能够满足我
笑起来贼好看
·
2024-02-19 11:38
Hadoop
大数据
hadoop
大数据
linux
学习篇-
Hadoop
-YARN-环境搭建
文章目录一、
Hadoop
-YARN-环境搭建一、
Hadoop
-YARN-环境搭建官网参考:https://
hadoop
.apache.org/docs/stable/
hadoop
-project-dist
东东爱编码
·
2024-02-19 11:08
hadoop
大数据
hadoop
【大数据】
HADOOP
-Yarn集群界面UI指标项详解(建议收藏哦)
目录首页(Cluster)节点信息SchedulerMetrics:集群调度信息节点信息详解(Nodes)应用列表信息(applications)队列详情页(Scheduler)指标详细说明(非常重要)首页(Cluster)集群监控信息指标详解AppsSubmitted:已提交的应用AppsCompleted:已完成的应用AppsRunning:正在运行的应用ContainersRunning:正
笑起来贼好看
·
2024-02-19 11:08
Hadoop
大数据
服务运维部署
大数据
hadoop
分布式
yarn
Hadoop
-Yarn-NodeManager都做了什么
一、源码下载下面是
hadoop
官方源码下载地址,我下载的是
hadoop
-3.2.4,那就一起来看下吧Indexof/dist/
hadoop
/core二、上下文在我的博客中已经简要的分析了NodeManager
隔着天花板看星星
·
2024-02-19 11:00
hadoop
大数据
分布式
【2019-04-28】
Hadoop
分布式文件系统
Hadoop
自带HDFS(
hadoop
distributefilesystem)。HDFS默认数据块128M。
BigBigFlower
·
2024-02-19 11:56
Hadoop
搭建之 start-yarn.sh 报错
在搭建伪分布式的
Hadoop
集群环境时,在配置基础环境了并成功开启了HDFS组件后,jps查看已运行的名称节点和数据节点进程,[
hadoop
@master
hadoop
]$jps8994NameNode10396Jps9087DataNode9279SecondaryNameNode
万里长江雪
·
2024-02-19 11:58
java
hadoop
hdfs
大数据
运维
网络
hadoop
-2.7.4-nodemanager无法启动问题解决方案
近期新配了
hadoop
-274版本的集群,发现有一个小问题,DataNode无法顺利启动。
半肉哥
·
2024-02-19 11:27
hadoop
hadoop
-yarn资源分配介绍-以及推荐常用优化参数
如果有什么不正确的欢迎大家一起交流学习~Yarn前言作为
Hadoop
2.x的一部分,YARN采用MapReduce中的资源管理功能并对其进行打包,以便新引擎可以使用它们。
Winhole
·
2024-02-19 11:26
hadoop
Linux
Hadoop
-Yarn-NodeManager如何计算Linux系统上的资源信息
NodeResourceMonitorImpl)时只是提了下SysInfoLinux,下面我们展开讲下SysInfoLinux是用于计算Linux系统上的资源信息的插件二、SysInfoLinux源码packageorg.apache.
hadoop
.util
隔着天花板看星星
·
2024-02-19 11:48
hadoop
大数据
linux
node命令yarn --version指向了java
问题描述本地安装了java、
hadoop
和nodejs,并配置了环境变量,但是
hadoop
的bin目录下存在yarn命令,所以使用nodejs的yarn命令启动项目会出现找不到类,此时键入yarn-version
码学弟
·
2024-02-19 11:43
前端
node.js
yarn
企业级大数据安全架构(一)平台安全隐患
1缺乏统一的访问控制机制大数据平台由
Hadoop
生态体系众多组件组成,而每个组件都会提供相应的WebUI界面和RESTful接口,例如Nam
·
2024-02-19 11:48
大数据企业级安全性
MapReduce
MapReduce定义mapReduce是一个分布式运算程序的编程框架,是用户开发基于
hadoop
的数据分析应用的核心框架。
诺冰1314
·
2024-02-19 10:46
大数据
haoop
MapReduce
hadoop
mapreduce
大数据
Hive入门,Hive是什么?
它是建立在
Hadoop
生态系统之上的,利用
Hadoop
的分布式存储和计算能力来处理和分析数据。
JayGboy
·
2024-02-19 10:31
hive
hadoop
数据仓库
Hive on Spark配置
pwd=66663、将Spark安装包通过xftp上传到/opt/software安装部署Spark1、解压spark-3.3.1-bin-without-
hadoop
.tgz进入安装包所在目录cd/opt
在下区区俗物
·
2024-02-15 10:51
hive
spark
hadoop
配置hive on spark
hdfsdfs-mkdir/spark-jarshdfsdfs-put/opt/spark/jars/*/spark-jars2、修改hive-site.xml文件,添加如下配置:spark.yarn.jarshdfs://
hadoop
空白格2519
·
2024-02-15 10:51
数据采集
big
data
hive
spark
hadoop
hive on spark配置经验
常规配置配置完,开启
hadoop
,开启spark(如果在hdfs上上传了纯净版的spark则不需要开启),开启hive注:当前节点一定要是namenode的active节点,因为
hadoop
长时间不用namenode
小五冲冲冲
·
2024-02-15 10:21
Spark
hive
spark
hadoop
(三十八)大数据实战——Atlas元数据管理平台的部署安装
本节内容是关于ApacheAtlas的部署安装,在开始安装Atlas之前我们需要提前安装好Atlas需要集成的组件,如
hadoop
、zo
厉害哥哥吖
·
2024-02-15 09:09
大数据
大数据
Hadoop
手把手逐级搭建 第二阶段:
Hadoop
完全分布式(full)
前置步骤:1).第一阶段:
Hadoop
单机伪分布(single)0.步骤概述1).克隆4台虚拟机2).为完全分布式配置ssh免密3).将
hadoop
配置修改为完全分布式4).启动完全分布式集群5).在完全分布式集群上测试
郑大能
·
2024-02-15 04:07
一面数据:
Hadoop
迁移云上架构设计与实践
背景一面数据创立于2014年,是一家领先的数据智能解决方案提供商,通过解读来自电商平台和社交媒体渠道的海量数据,提供实时、全面的数据洞察。长期服务全球快消巨头(宝洁、联合利华、玛氏等),获得行业广泛认可。公司与阿里、京东、字节合作共建多个项目,旗下知乎数据专栏“数据冰山”拥有超30万粉丝。一面所属艾盛集团(Ascential)在伦敦证券交易所上市,在120多个国家为客户提供本地化专业服务。公司在2
JuiceFS
·
2024-02-15 01:48
(免费领源码)Java#MySql#
hadoop
高校固定资产管理系统74965-计算机毕业设计项目选题推荐
摘要在信息飞速发展的今天,网络已成为人们重要的信息交流平台。高校部门每天都有大量的信息需要通过网络发布,为此,高校固定资产管理系统开发的必然性,所以本人开发了一个基于Tomcat(服务器)模式的高校固定资产管理系统,该系统以B/S/Java语言、MySql数据库等为开发技术,实现了添加、修改、查看、删除系统数据。本系统采取组件化的方式对系统进行拆分,并对数据库中各个表的增删查改、表与表之间的约束关
2301_3224142804
·
2024-02-15 00:42
java
mysql
hadoop
spring
boot
django
python
php
大数据集群环境启动总结
hadoop
启动与停止单个节点逐一启动在主节点上使用以下命令启动HDFSNameNode:
hadoop
-daemon.shstartnamenode在每个从节点上使用以下命令启动HDFSDataNode
我还不够强
·
2024-02-14 23:04
Hadoop
-3.0.3 安装
Hadoop
-3.0.3安装一下载安装包二配置
Hadoop
环境变量/etc/profile后面追加export
HADOOP
_HOME=/data/
hadoop
-3.0.3exportPATH=$
HADOOP
_HOME
火星机遇号
·
2024-02-14 23:52
HDFS用户及权限配置
HDFS用户及权限配置使用linux用户bruce,格式化
hadoop
的namenode,那么bruce成为hdfs的超级用户在bruce用户下运行命令:#创建/user/
hadoop
目录
hadoop
fs-mkdir-p
wpheternal
·
2024-02-14 21:42
hadoop笔记
hadoop
hdfs
Hadoop
(HDFS)的超级用户
Hadoop
(HDFS)的超级用户超级用户超级用户即运行namenode进程的用户。宽泛的讲,如果你启动了namenode,你就是超级用户。超级用户干任何事情,因为超级用户能够通过所有的权限检查。
zinger.wang
·
2024-02-14 21:12
大数据
hadoop
hdfs
HDFS的超级用户
一.解释原因HDFS(
Hadoop
DistributedFileSystem)和linux文件系统管理一样,也是存在权限控制的。
重剑DS
·
2024-02-14 21:41
大数据
hdfs
hadoop
大数据
Hadoop
+Spark+MongoDB+MySQL+C#大数据开发项目最佳实践
一、前言随着IT技术的飞速发展,各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务。目前,医疗IT系统收集了大量极具价值的数据,但这些历史医疗数据并没有发挥出其应有的价值。为此,本文拟利用医院现有的历史数据,挖掘出有价值的基于统计学的医学规则、知识,并基于这些信息构建专业的临床知识库,提供诊断、处方、用药推荐功能,基于强大的关联推荐能力,极大地提高医疗服务质量,减轻医疗人员的工作强度。二、
yiyidsj
·
2024-02-14 07:08
大数据
人工智能
互联网
spark
Hadoop
MySQL
大数据开发
大数据学习
学习总结 - swift适配器 为
Hadoop
的存储层增加对 OpenStack Swift 的支持
虽然文档内所涉及的版本有点旧,但内容很精彩,值得推荐背景在
Hadoop
中有一个抽象文件系统的概念,它有多个不同的子类实现,由DistributedFileSystem类代表的HDFS便是其中之一。
天地不仁以万物为刍狗
·
2024-02-14 07:37
分布式解决方案
C#
Hadoop
学习笔记
记录一下学习地址http://www.360doc.com/content/14/0607/22/3218170_384675141.shtml转载于:https://www.cnblogs.com/TF12138/p/4170558.html
第八个猴子
·
2024-02-14 07:37
大数据
hadoop
HDFS的API封装
Configuration类:该类的对象封装了客户端或者服务端的配置。FileSystem类:该类的对象是一个文件系统对象,可以用该队想的一些方法来对文件进行操作。FSDataInputStream和FSDataOutputStream:这两个类是HDFS中的输入输出流。基本流程:得到Configuration对象得到FileSystem对象进行文件操作(读写、删除、改名)所需引入的库import
Cynicism_Kevin
·
2024-02-14 07:37
大数据
java
hadoop
hdfs
Hive的小文件问题
Reduce的数量3.2已存在的小文件合并3.2.1方式一:insertoverwrite(推荐)3.2.2方式二:concatenate3.2.3方式三:使用hive的archive归档3.2.4方式四:
hadoop
getmerge
爱吃辣条byte
·
2024-02-14 06:11
#
Hive
hive
数据仓库
从
Hadoop
框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)
从
Hadoop
框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)前言几周前,当我最初听到,以致后来初次接触
Hadoop
与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣
Dimple七
·
2024-02-14 06:41
大数据开发之Sqoop详细介绍
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop(SQL-to-
Hadoop
)项目旨在协助RDBMS与
Hadoop
之间进行高效的大数据交流。
只是甲
·
2024-02-14 01:17
Ubuntu16.04下HBase安装笔记
基础准备JDK
Hadoop
SSHServer下载HBasehttps://hbase.apache.org/tar-zxvfhbase-1.4.2-bin.tar.gzsudomvhbase-1.4.2
bluexiii
·
2024-02-13 22:48
利用 Docker 安装
Hadoop
集群并通过 Java API 访问 HDFS
前言最近刚好在学习
Hadoop
,在安装过程中遇到了一些小麻烦,正好将此次过程记录并分享出来,希望能对准备学习本块内容的读者们有所帮助。本次操作在Ubuntu中完成,如何安装Ubuntu本文不再赘述。
qq_33419925
·
2024-02-13 21:38
docker
hadoop
linux
java
大数据
hadoop
(十三)—自定义排序
这节课我们一起学习
Hadoop
的自定义排序,
Hadoop
是有一套默认的排序规则的,但是这往往不能满足我们多样化的需求,为了让排序更多样化,这就需要用到我们本节课所要学习的自定义排序功能。
文子轩
·
2024-02-13 20:13
YARN体系结构指南
1.简介
hadoop
-0.23引入的新体系结构将JobTracker的两个主要功能:资源管理和作业生命周期管理分为不同的组件。
盗梦者_56f2
·
2024-02-13 16:45
大数据处理为何选择Spark,而不是
Hadoop
Spark的各个组件2.
Hadoop
Had
嘿嘿海海
·
2024-02-13 14:00
hadoop
分布式集群安装与原理
对很多人来说,学习大数据都止步于集群搭建,即使是那些工作过很多年的JAVA程序员也不例外,我们分享一套能让您轻松完成集群搭建的方法,包括
Hadoop
的源码编译、企业级环境安装与配置和常用大数据组件的基本原理
海牛大数据_青牛老师
·
2024-02-13 12:44
小猿圈之
Hadoop
优化
Hadoop
框架是现在最主流的的框架之一,越来越多的人去学习,那么你对
hadoop
的理解是什么?
hadoop
一定要会优化,那怎么优化呢,小猿圈今天说一下,感兴趣的朋友可以看看小猿圈写的这篇文章。
小猿圈加加
·
2024-02-13 05:38
Kafka
入门笔记
课程地址概述定义Kafka是一个分布式的基于发布/订阅模式的消息队列(MQ)发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接受感兴趣的消息消息队列消息队列应用场景:缓存/消峰、解耦、异步通信消峰:秒杀系统:10亿人发请求(数据量约为1T)全部存入消息队列,服务端只取前100条数据处理,避免了服务端压力过大解耦:异步通信:发布订阅模式:Kafka基
Daniel_187
·
2024-02-13 05:49
其他
kafka
笔记
分布式
大数据
Java从入门到精通
JavaSE,掌握Java语言本身、Java核心开发技术以及Java标准库的使用;2、如果继续学习JavaEE,那么Spring框架、数据库开发、分布式架构就是需要学习的;3、如果要学习大数据开发,那么
Hadoop
nightluo
·
2024-02-13 01:52
基础学习
java
开发语言
Datax ETL工具源码研究
Kittle优点:与大数据
Hadoop
结合比较好,功能比较齐全,强大,支持数据库,文件数据读写,界面拖拽方式操作;缺点:
Spring1985
·
2024-02-13 01:57
2018-07-19 sqoop
sqoop:数据从传统数据库到到
hadoop
的导入,导出安装:1.解压2.修改配置文件cdSQOOP_HOME/conf$mvsqoop-env-template.shsqoop-env.sh打开sqoop-env.sh
江江江123
·
2024-02-12 20:10
【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource
=spark.read.format("com.mongodb.spark.sql.DefaultSource").load() File"/home/cisco/spark-2.4.1-bin-
hadoop
2
能白话的程序员♫
·
2024-02-12 19:33
Spark
spark
Hadoop
分布式系统架构-MapReduce-02
1、MapReduce介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。MapRedu
一直上上签X
·
2024-02-12 16:41
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他