E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop;hdfs
win10 spark scala 本地运行wordcount
注意每次修改环境变量都要重启cmd本机运行需要
hadoop
common,可以从github下载zip,解包以后设置
HADOOP
_HOME环境变量指向它,然后在PATH里加上
HADOOP
_HOME\bin
疯琴
·
2024-02-07 06:06
大数据
java/scala
flink/spark
同是ZooKeeper,你和架构师的理解差在哪里?
Dubbo,Kafka,
Hadoop
等等项目里都能看到它的影子。但是你真的了解ZooKeeper吗?如果面试官让你给他讲讲ZooKeeper是个什么东西,你能回答到什么地步呢?
l鹿狸i
·
2024-02-07 06:12
Hadoop
-IDEA开发平台搭建
1.安装下载
Hadoop
文件1)
hadoop
-3.3.5将下载的文件保存到英文路径下,名称一定要短。
Snower_2022
·
2024-02-07 05:02
hadoop
eclipse
大数据
【实验1】分布式模式的CentOS 6上安装
Hadoop
(1个master节点,2个slave节点)
实验环境:二、实验内容与步骤(过程及数据记录):1.安装VMWareWorkstation162.VMWare10安装CentOS62.1CentOS系统安装2.2CentOS系统安装中的关键问题2.3克隆
Hadoop
Slave3
-借我杀死庸碌的情怀-
·
2024-02-07 05:31
分布式
centos
hadoop
在多台阿里云服务器上部署
Hadoop
分布式系统及WordCount实验
一、实现master与slave之间无密码连接分别在master及slave上生成rsa密钥:mkdir~/.sshcd~/.sshssh-keygen-t-rsa一路回车(选择默认设置),此时,ssh文件夹中生成了id_rsa.pub和id_rsa两个,然后使用scp命令将公钥(id_rsa.pub)分别拷到对方机器中scpid_rsa.pubh1@对方机器IP:~/.ssh/authorize
Clearlove灬Star
·
2024-02-07 05:01
大数据
阿里云
Hadoop
分布式
Wordcount
合肥工业大学2022大数据技术实验二
实验序号及名称:实验二在
Hadoop
平台上部署WordCount程序实验时间∶2022年5月14日预习内容一、实验目的和要求∶在
Hadoop
平台上部署WordCount程序。
一头骇人鲸
·
2024-02-07 05:00
大数据技术
大数据
hadoop
java
hadoop
wordcount代码分析
输入输出文件异常类importjava.util.Iterator;Iterator是迭代器类importjava.util.StringTokenizer;用来对字符串进行切importorg.apache.
hadoop
.fs.Path
姹紫_嫣红
·
2024-02-07 05:57
大数据hadoop
Java
【实验2】在
Hadoop
平台上部署WordCount程序
文章目录实验内容一、实验环境:二、实验内容与步骤(过程及数据记录):5.分布式文件系统
HDFS
上的操作5.1利用Shell命令与
HDFS
进行交互5.2利用Web界面管理
HDFS
6.分布式文件系统
HDFS
-借我杀死庸碌的情怀-
·
2024-02-07 05:27
hadoop
npm
大数据
centos
分布式
如何将日志文件和二进制文件快速导入
HDFS
?
日志数据在应用程序中一直很常见,
Hadoop
能够处理生产系统生成的大量日志数据,比如网络设备、操作系统、Web服务器和应用程序的日志数据。
weixin_34159110
·
2024-02-07 05:36
大数据
数据库
python
数据仓库-Hive基础(二)Hive 的基本概念
什么是HiveHive是基于
Hadoop
的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
做个合格的大厂程序员
·
2024-02-07 03:42
Spark Chapter 8 Spark SQL
DB2,SQLServer在大数据平台上实现大数据计算:Hive/SparkSQL/SparkCore直接使用SQL语句进行大数据分析hive的问题:底层MR,2.x之后可以用spark应用场景SQLon
Hadoop
深海suke
·
2024-02-07 01:34
Hadoop
集群(第10期副刊)_常用MySQL数据库命令
1、系统管理1.1连接MySQL格式:mysql-h主机地址-u用户名-p用户密码举例:例1:连接到本机上的MySQL。首先在打开DOS窗口,然后进入目录mysqlbin,再键入命令"mysql–uroot–p",回车后提示你输密码,如果刚安装好MySQL,超级用户"root"是没有密码的,故直接回车即可进入到MySQL中了,MySQL的提示符是:mysql>。例2:连接到远程主机上的MYSQL。
阿布2
·
2024-02-07 00:08
Hadoop学习之道
hadoop集群
hadoop
mapreduce
集群
数据挖掘
2024-02-06(Sqoop)
1.SqoopApacheSqoop是
Hadoop
生态体系和RDBMS(关系型数据库)体系之间传递数据的一种工具。Sqoop工作机制是将导入或者导出命令翻译成MapReduce程序来实现。
陈xr
·
2024-02-06 23:29
随记日志
sqoop
大数据
分布式文件系统
HDFS
的组成架构,及相关知识点归纳。
1.每存一个文件,需要消耗150字节,不管你是1kb,还是128m,2.分布式文件系统
HDFS
的组成架构namenode——4个功能1-管理
hdfs
的名称空间2-配置副本策略3-管理数据块映射信息4-处理客户端的读写请求
小米的南瓜洲
·
2024-02-06 23:37
java推荐算法_基于内容的推荐算法实现
javapackagecom.oracle.moviecf;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.
hadoop
.conf.Configuration
RED韵
·
2024-02-06 19:54
java推荐算法
Spark简介
Spark作为第二代大数据处理工具,跟
hadoop
对比,它是基于内存的,所以在迭代计算方便速度有了很大提升。我用到的主要是SparkCore,SparkSQL,SparkStreaming。
麦克阿瑟99
·
2024-02-06 18:07
致IT领域那些忽悠过的概念
这里我要说的是:1:
Hadoop
是大数据解决方案之一,是个代名词,但是不是全部。2:除了少数公司,绝大多数(99.99%)的公
薛晓刚
·
2024-02-06 15:08
数据库
Hbase 数据迁移
Hbase数据迁移可选方案对比l已验证方案操作说明:nExport&importu导出命令及示例hbaseorg.apache.
hadoop
.hbase.mapreduce.Export“表名”文件路径导出至本地文件系统
运维那些事儿
·
2024-02-06 14:44
hbase
hbase
hadoop
大数据
flink学习记录
flink-conf.yaml配置文件:jobmanager.rpc.address:
hadoop
1jobmanager.rpc.port:6123jobmanager.heap.size:512mtaskmanager.heap.size
戏 剧
·
2024-02-06 14:34
flink
Hadoop
命令手册
翻译:http://
hadoop
.apache.org/docs/stable/
hadoop
-project-dist/
hadoop
-common/CommandsManual.html版本:2.9.0
金刚_30bf
·
2024-02-06 13:29
热数据存储在
HDFS
,冷备数据存储于对象存储中
1.场景分析生产环境均为腾讯云服务器,日志数据计划存储于
HDFS
中,由于日志数据较大(压缩后1T/天),不断扩充云盘成本消耗大。鉴于对象存储的存储成本较为低廉,但是日常频繁使用会产生流量费用。
tuoluzhe8521
·
2024-02-06 10:11
云原生
hdfs
hadoop
大数据
cos
对象存储
决胜大数据时代:
Hadoop
&Yarn&Spark企业级最佳实践(8天完整版脱产式培训版本)...
Hadoop
、Yarn、Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课。
weixin_30273931
·
2024-02-06 09:08
java
人工智能
移动开发
加速
hdfs
balance速度
hdfs
默认配置指定DataNode用于balancer的带宽为10Mdfs.datanode.balance.bandwidthPerSec1048576su
hdfs
hdfs
dfsadmin-setBalancerBandwidth104857600
迷茫_小青年
·
2024-02-06 09:05
linux安装
hadoop
详细步骤(伪分布式)
今天重装了下
hadoop
,特在此记录下!
红烧柯基
·
2024-02-06 08:28
linux
hadoop
linux
Hadoop
-Yarn-启动篇
一、源码下载下面是
hadoop
官方源码下载地址,我下载的是
hadoop
-3.2.4,那就一起来看下吧Indexof/dist/
hadoop
/core二、脚本部分1、start-yarn.sh如果我们想单独启动
隔着天花板看星星
·
2024-02-06 07:16
hadoop
大数据
分布式
想学大数据?先看完这几本书再说
除了这些技术领域,还有一些特定的技术和语言需要你继续研究:
Hadoop
,Spark,Python,和R等等,还有无数实现自动化的工具等等,这些工具几乎每天都会用到,这就需要你不断的学习。
yoku酱
·
2024-02-06 06:55
CentOS 8 安装配置
Hadoop
3.3.6 伪分布式安装方式(适用于开发和调试)
1.配置服务器ssh免密登录,否则后面启动会报错:尝试通过SSH连接到主机出现认证错误的提示配置服务器ssh免密登录:1.生成SSH密钥对(如果尚未生成):执行下面的命令生成密钥对,一直回车即可ssh-keygen-trsa出现下面的提示说明生成成功了:2.第二步,将公钥添加到~/.ssh/authorized_keys文件:cat~/.ssh/id_rsa.pub>>~/.ssh/authori
鱼大虾
·
2024-02-06 05:39
centos
linux
运维
HDFS
入门基础
HDFS
总结在现代的企业环境中,海量数据超过单台物理计算机的存储能力,分布式文件系统应运而生,对数据分区存储于若干物理主机,管理网络中跨多台计算机存储的文件系统。
nucty
·
2024-02-06 05:33
大数据
hdfs
hadoop
大数据
电商推荐系统
一、获取用户对商品的偏好值代码实现packagezb.grms;importorg.apache.
hadoop
.conf.Configuration;importorg.apache.
hadoop
.conf.Configured
nucty
·
2024-02-06 05:31
大数据
mapreduce
hadoop
Apache
Hadoop
Apache
Hadoop
_狭义上说,
Hadoop
指Apache一款java语言开发的开源框架,它的核心组件有:
HDFS
(分布式文件系统):解决海量数据存储YARN(作业调度和集群资源管理的框架):解决资源任务调度
VincentLeon
·
2024-02-06 05:28
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装1简介Ambari跟
Hadoop
等开源软件一样,也是ApacheSoftwareFoundation中的一个项目,并且是顶级项目。
WaiSaa
·
2024-02-06 02:53
关于Spark/
Hadoop
中Master/Slave IP不正确的问题
在配置SparkStandAloneMode的时候,我遇到了Slave无法向正确的MasterIP发送数据的问题。通常这类问题都来源于没有正确配置./conf/spark_env.sh文件,只要在这个文件里定义好了SPARK_LOCAL_IP和SPARK_MASTER_HOST,就可以解决这个问题。而我设置了configure文件之后问题依然存在。原因在于MasterNode上有多个网卡,每个网卡
ecce
·
2024-02-06 02:37
hbase基本命令
1、进入hbase的shellhbase提供了一个shell的终端给用户交互[root@
hadoop
3conf]#hbaseshell退出使用quit或者ctrl+c需要关闭
hadoop
的安全模式不然进行一些操作
小月半会飞
·
2024-02-06 01:52
shell中正则表达式
[atguigu@
hadoop
101shells]$cat/etc/passwd|grepatguigu1.常用特殊字符^$.*[]\^:匹配一行的开头$:匹配一行的结束.
看山不是山a
·
2024-02-05 23:07
Linux
正则表达式
linux
运维
大数据之 ZooKeeper原理及其在
Hadoop
和HBase中的应用
链接:https://blog.csdn.net/zhang123456456/article/details/78008626ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是GoogleChubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介ZooKeep
yangfhit
·
2024-02-05 20:29
Hadoop
Start(1) ——Google与
Hadoop
的前世今生
参考文档:《
Hadoop
权威指南(第4版)》网址:http://
hadoop
.apache.org/[1]
HDFS
:
Hadoop
DistributionFileSystem
Hadoop
分布式文件系统[2
bclz
·
2024-02-05 18:41
HDFS
的 DataNode 工作机制
1DataNode工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个
求学旅途
·
2024-02-05 16:41
Java大数据
hdfs
datanode
hadoop
大数据
java
【
HDFS
实战】
HDFS
上的数据均衡
HDFS
上的数据均衡简介文章目录
HDFS
上的数据均衡简介重新平衡多DN之间的数据相关命令重新平衡单DN内磁盘间的数据相关命令PlanExecuteQueryCancelReport相关配置调试
HDFS
上的
顧棟
·
2024-02-05 16:09
hdfs
hadoop
大数据
如何对
HDFS
进行节点内(磁盘间)数据平衡
1.文档编写目的当
HDFS
的DataNode节点挂载多个磁盘时,往往会出现两种数据不均衡的情况:1.不同DataNode节点间数据不均衡;2.挂载数据盘的磁盘间数据不均衡。
格格巫 MMQ!!
·
2024-02-05 16:39
hadoop
hdfs
hdfs
hadoop
大数据
HDFS
源码解析---Balancer
概述在输入启动命令的那台机器上会启动一个进程,为了避免给namenode带来过大的负担,整个balance过程由balanceserver而不是namenode来控制。Balancer的最终结果是namenode上记录的一个block的一个副本从一个datanode转移到另一个datanode上。PS:副本放置策略第2个副本存放于不同于第1个副本所在的机架第3个副本存放于第2个副本所在的机架,但是
请叫我算术嘉
·
2024-02-05 16:38
Hadoop
HDFS
balancer
hdfs
java
hadoop
调优-
HDFS
集群数据不均衡处理
hdfs
balancer
查看当前的数据分布情况:
hdfs
dfsadmin-report现象一:集群上经常会增添新的DataNode节点,或者人为干预将数据的副本数降低或者增加。
不会吐丝的蜘蛛侠。
·
2024-02-05 16:08
Hadoop
hadoop
hdfs
big
data
大数据技术应用场景
大数据技术产品大数据技术产品大数据技术分类:存储,计算,资源管理1.存储:(1)最基本的存储技术是
HDFS
:比如在企业应用中,会把通过各种渠道得到的数据,比如关系数据库的数据、日志数据、应用程序埋点采集的数据
大数据基础入门教程
·
2024-02-05 16:08
大数据
大数据应用场景
所有
HDFS
磁盘数据存储不均情况的终极处理方案
一、多节点存储不均1、现有多节点存储不均:1、先设置带宽
hdfs
dfs-setBalancerBandwith字节数2、然后执行脚本start-balancer.sh-thresholdn或者
hdfs
balancer-thresholdn
二百四十九先森
·
2024-02-05 16:08
Hadoop核心技术
磁盘
存储
不均
wordcount
单词计数
HDFS
BALANCER
介绍
Hadoop
的
HDFS
集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。
风筝Lee
·
2024-02-05 16:07
hadoop
hdfs
balancer
Hadoop
-
HDFS
的DataNode介绍及原理
DataNodeDataNode工作机制1、一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2、DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3、心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机
魔笛Love
·
2024-02-05 16:07
hadoop
大数据
HDFS
DataNode高密度存储机型的探索尝试
这里就涉及到了数据存储能力的问题,需要存储的数据越多,其实意味着我们需要更多的机器来扩增
HDFS
集群存储的总capacity。但是机器数量的变多另外一方面带来的则是机器费用成本的巨大开销。
Android路上的人
·
2024-02-05 16:05
Hadoop
HDFS
hadoop
big
data
hdfs
CDH使用Disk Balancer平衡磁盘
HDFS
数据
文章目录前言启用磁盘平衡器生成磁盘平衡器任务执行磁盘平衡任务查询磁盘平衡任务是否完成参考来源前言当集群磁盘空间不足时,需要增加新硬盘到机器,此时新加入的磁盘空间基本为空,而旧磁盘则已占用很多。网上则是通过增减副本的方式达到磁盘平衡方式,但如果磁盘空间大小本身不一致,通过该方法平衡后,磁盘空间不平衡情况依然存在。从CDH5.8.2开始,ClouderaManager提供了一个全面的存储容量管理解决方
Alderaan
·
2024-02-05 16:05
Cloudera
CDH
cloudera
hdfs
disk
balancer
绝对完美解决
hdfs
datanode数据和磁盘数据分布不均调整(
hdfs
balancer )——经验总结
Hadoop
集群Datanode数据倾斜,个别节点
hdfs
空间使用率达到95%以上,于是新增加了三个Datenode节点,由于任务还在跑,数据在不断增加中,这几个节点现有的200GB空间估计最多能撑20
ZhaoYingChao88
·
2024-02-05 16:05
Hadoop
hdfs
Hudi学习6:安装和基本操作
目录1编译Hudi1.1第一步、Maven安装1.2第二步、下载源码包1.3第三步、添加Maven镜像1.4第四步、执行编译命令1.5第五步、HudiCLI测试2环境准备2.1安装
HDFS
2.2安装Spark3
hzp666
·
2024-02-05 14:59
Hudi
学习
hudi
Hudi学习1:概述
Hudi概念Hudi跟hive很像,不存储数据,只是管理
hdfs
数据。
hzp666
·
2024-02-05 14:59
Hudi
学习
hudi
数据湖
湖仓一体
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他