HDFS学习笔记

Hadoop—HDFS学习笔记

文章目录

Hadoop---HDFS学习笔记
- 引言 --- Big Data
- - Big Data特点
  - 大数据面临的问题？
- Hadoop
- - Apache Hadoop由来:
  - Hadoop Eco System (hadoop的生态系统圈)
  - 大数据分析方案哪些?
- HDFS 环境搭建(伪分布式单机-测试|学习)
- - 1. 准备
  - 2. 安装JDK并配置JAVA环境
  - 3. 配置主机名和IP映射关系
  - 4. 关闭防火墙服务
  - 5. 配置主机SSH免密码认证(密匙)
  - 6. 安装Hadoop并且配置HADOOP_HOME环境变量
  - 7. 修改 core-site.xml 配置文件
  - 8. 修改 hdfs-site.xml 配置文件
  - 9. 修改 slaves 配置文件
  - 10. 格式化namenode
  - 11. 启动hdfs
  - 12. 测试
- HDFS
- - HDFS架构篇
  - HDFS常⻅问题
  - - HDFS为什么不擅⻓⼩⽂件的存储？
    - NameNode和Secondary Namenode的关系?
  - 常⽤指令
  - - 1. 格式化⼀个新的分布式⽂件系统
    - 2. 启动 NameNode 守护进程和 DataNode 守护进程
    - 3. 浏览 NameNode 的⽹络接⼝
    - 4.HDFS Shell
    - 5. mkdir
    - 6. ls
    - 7. put
    - 8. get
    - 9.appendToFile
    - 10. cat || tail || text
    - 11. checksum
    - 12. chmod || chgrp || chown
    - 13. copyFromLocal/copyToLocal
    - 14. cp
    - 15. moveFromLocal|moveToLocal
    - 16. rm
    - 17. mv
    - 18. touchz
    - 19. distcp

引言 — Big Data

Big Data特点

Big Data（大数据），或称巨量资料，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。Big Data大数据，谈的不仅仅是数据量，其实包含了数据量(Volume)、时效性(Velocity)、多样性(Variety)、可疑性(Veracity)。

Volume：数据量，大量数据的产生、处理、保存,谈的就是Big Data就字面上的意思,就是谈海量数据。
Velocity：时效性，就是处理的时效,既然前头提到Big Data其中一个用途是做市场预测,那处理的时效如果太长就失去了预测的意义了,所以处理的时效对Big Data来说也是非常关键的,500万笔数据的深入分析,可能只能花5分钟的时间。
Variety[vəˈraɪɪti]：多变性指的是数据的形态,包含文字、影音、网页、串流等等结构性、非结构性的数据。
Veracity[vəˈræsɪti]：可疑性指的是当数据的来源变得更多元时,这些数据本身的可靠度、质量是否足够,若数据本身就是有问题的,那分析后的结果也不会是正确的。

大数据面临的问题？

存储：单机存储有限,如何解决海量数据存储?

分析：如何在合理时间范围内对数据完成节本运算?

分布式：通常将跨机器/跨进程/跨虚拟机架构称为分布式架构，因为硬件垂直提升成本较高且不可控，相比较提升硬件水平横向扩展成本较低，能够使得投入和产出趋近于线性。

Hadoop

Apache Hadoop由来:

2003年谷歌发表三篇论文(不开源) ：
    GFS：Google File System，为大数据集的存储而生，
    Map-Reduce：并行计算框架，
    Big Table：大表，存储海量的结构化数据
hadoop创始人Doug Cutting基于google论文提供了其开源实现（山寨版）
    GFS —> HDFS(Hadoop distributed File System)
    Map-Reduce —> MapReduce
    Big Table —> HBase(基于列存储的NOSQL数据库)
2006年 hadoop正式诞生
2008年加入Apache开源基金会，成为其顶级项目之一。

hadoop作为开源软件，拥有可靠，可扩展，分布式计算（存储和并行计算）的能力。apache hadoop 软件库是一个框架，允许使用简单的编程模型分布式处理大型的数据集（GB\TB级）跨机器处理。hadoop集群的规模支持扩展，可以有一台或者上千台服务器构成，集群中的每一台服务器都提供了本地计算和存储能力。通过软件检测处理错误，因为hadoop集群可以构建在廉价的服务器硬件基础之上，廉价就意味着硬件不稳定，主要通过软件弥补这些缺陷。

Hadoop Eco System (hadoop的生态系统圈)

HDFS：分布式存储系统
MapReduce：并行计算框架
Hbase：基于HDFS之上一款NoSQL数据库(名符其实海量数据存储解决方案)
hive：一款SQL的解析引擎,可以将SQL翻译成MapReduce任务,将任务提交给MapReduce框架.
flume：分布式日志采集系统,用于搜集海量数据,并且存储到HDFS/Hbase.
Kafka：分布式消息系统,实现分布系统间解耦和海量数据的缓冲.
zookeeper：分布式协调服务,用于服务注册中心/配置中心/集群选举/状态监测/分布式锁

大数据分析方案哪些?

MapReduce:代表基于磁盘离线大数据静态批处理框架-延迟较高30分钟+
Spark:代表基于内存近实时(离线)大数据静态批处理框架-几乎是Map Reduce的10~100倍速度
Storm|Spark Streaming| Flink|Kafka Stream:实时的流(流程)处理框架,达到对记录级别的数据显示毫秒级处理.

HDFS 环境搭建(伪分布式单机-测试|学习)

1. 准备

一台安装Linux操作系统的虚拟机，JDK安装包，Hadoop HDFS安装包

VMWARE虚拟机安装64位CentOS,IntelVTx处于禁用状态解决方式：
https://blog.csdn.net/yuzongtao/article/details/44700927

资源下载地址：http://www.apache.org/dist/hadoop/common/

2. 安装JDK并配置JAVA环境

[root@CentOS ~]# rpm -ivh jdk-8u171-linux-x64.rpm 
 # 用户变量
[root@CentOS ~]# vi /root/.bashrc
	JAVA_HOME=/usr/java/latest
	PATH=$PATH:$JAVA_HOME/bin
	CLASSPATH=.
	export JAVA_HOME
	export PATH
	export CLASSPATH
[root@CentOS ~]# source /root/.bashrc 
#查看java环境
[root@CentOS ~]# jps
1495 Jps

尝试[root@CentOS ~]# yum install lrzsz -y组件,如果用户将JAVA_HOME配置在系统变量中/etc/profile需要在安装hadoop时候额外配置etc/hadoop/hadoop-env.sh,因此推荐配置在用户变量中.

3. 配置主机名和IP映射关系

[root@CentOS ~]# vi /etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
# 添加主机名和IP映射关系
192.168.169.139 CentOS

在分布式系统中很多服务都是以主机名标示节点,因此配置IP和主机名的映射关系.用户可以查看以下文件

[root@CentOS ~]# cat /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=CentOS

4. 关闭防火墙服务

# ContOS 6 关闭防火墙服务
[root@CentOS ~]# service iptables stop 
iptables: Setting chains to policy ACCEPT: filter [  OK  ]
iptables: Flushing firewall rules: [  OK  ]
iptables: Unloading modules: [  OK  ]

# ContOS 7 关闭防火墙服务
[root@CentOS ~]#  systemctl stop firewalld

# ContOS 6 关闭防火墙服务开机自起
[root@CentOS ~]# chkconfig iptables off

# ContOS 7 关闭防火墙服务开机自起
[root@hdfs ~]# systemctl disable firewalld
Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.
Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.

因为搭建分布式服务之间可能会产生相互的调度,为了保证正常的通信,一般需要关闭防火墙

5. 配置主机SSH免密码认证(密匙)

SSH 为 Secure Shell 的缩写，⼀种加密的⽹络传输协议，提供免密远程登录系统功能。Hadoop通过SSH执⾏指令远程管理Hadoop集群。SSH 为建立在应用层基础上的安全协议，专为远程登录会话和其他网络服务提供安全性的协议。

基于口令的安全验证：基于口令 用户名/密码

基于密匙的安全验证：
需要依靠密匙，也就是你必须为自己创建一对密匙，并把公用密匙放在需要访问的服务器上。如果你要连接到SSH服务器上，客户端软件就会向服务器发出请求，请求用你的密匙进行安全验证。服务器收到请求之后，先在该服务器上你的主目录下寻找你的公用密匙，然后把它和你发送过来的公用密匙进行比较。如果两个密匙一致，服务器就用公用密匙加密“质询”（challenge）并把它发送给客户端软件。客户端软件收到“质询”之后就可以用你的私人密匙解密再把它发送给服务器。

[root@node1 ~]# ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
[root@node1 ~]# cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
[root@node1 ~]# chmod 0600 ~/.ssh/authorized_keys

6. 安装Hadoop并且配置HADOOP_HOME环境变量

参考:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

[root@centos ~]# tar -zxf hadoop-2.6.0_x64.tar.gz -C /usr/

进入 hadoop-2.6.0/lib/native
使用file命令：
	file libhadoop.so.1.0.0
可查看当前hadoop版本的位数

	# tree可以不安装，主要用于结构化显示目录内容
[root@centos ~]# yum install -y tree
[root@centos ~]# tree -L 1 /usr/hadoop-2.6.0/
/usr/hadoop-2.6.0/
 |-- bin -- 基础指令 hadoop、hdfs指令
 |-- etc -- 配置⽬录(重要)
 |-- include
 |-- lib
 |-- libexec
 |-- LICENSE.txt
 |-- NOTICE.txt
 |-- README.txt
 |-- sbin -- 系统命令 start|stop-dfs|yarn.sh|hadoop-daemon.sh
 |-- share -- hadoop依赖jar⽂件
7 directories, 3 files

	# 配置HADOOP_HOME
[root@centos ~]# vi .bashrc
HADOOP_HOME=/usr/hadoop-2.6.0
JAVA_HOME=/usr/java/latest
CLASSPATH=.
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME
export CLASSPATH
export HADOOP_HOME
export PATH

	# 是配置生效
[root@centos ~]# source .bashrc
	# 查看是否配置成功
[root@centos ~]# hadoop classpath
/usr/hadoop-2.6.0/etc/hadoop:/usr/hadoop2.6.0/share/hadoop/common/lib/*:/usr/hadoop2.6.0/share/hadoop/common/*:/usr/hadoop-2.6.0/share/hadoop/hdfs:/usr/hadoop2.6.0/share/hadoop/hdfs/lib/*:/usr/hadoop-2.6.0/share/hadoop/hdfs/*:/usr/hadoop2.6.0/share/hadoop/yarn/lib/*:/usr/hadoop-2.6.0/share/hadoop/yarn/*:/usr/hadoop-2.6.0/share/hadoop/mapreduce/lib/*:/usr/hadoop2.6.0/share/hadoop/mapreduce/*:/usr/hadoop2.6.0/contrib/capacity-scheduler/*.jar

HADOOP_HOME环境变量被第三方产品所依赖例如:hbase/hive/flume/Spark在集成Hadoop的时候,是通过读取HADOOP_HOME环境变量确定HADOOP位置.

7. 修改 core-site.xml 配置文件

	# 进入hadoop安装目录对core-site.xml进行编辑
[root@centos hadoop-2.6.0]# vim etc/hadoop/core-site.xml

	# 将节点名node1，修改为对应的主机IP

	 fs.defaultFS
	 hdfs://node1:9000

	# 元数据存储目录

	 hadoop.tmp.dir
	 /usr/hadoop-2.6.0/hadoop-${user.name}

8. 修改 hdfs-site.xml 配置文件

	# 进入hadoop安装目录对hdfs-site.xml进行编辑
[root@centos hadoop-2.6.0]# vim etc/hadoop/hdfs-site.xml


 	dfs.replication
 	# 数字表示数据复制几份
 	1

# 用户访问数据是权限释放方面的配置

 	dfs.permissions.enabled
 	false

# HDFS DataNode对它将在任何时间服务的文件数量有一个上限

  dfs.datanode.max.transfer.threads
  4096

9. 修改 slaves 配置文件

	# 进入hadoop安装目录对 slaves 进行编辑
[root@centos hadoop-2.6.0]# vim etc/hadoop/slaves

node1

10. 格式化namenode

[root@centos hadoop-2.6.0]# bin/hdfs namenode -format

namenode格式化只需要在初次使⽤hadoop的时候执⾏，以后⽆需每次启动执⾏

11. 启动hdfs

[root@centos hadoop-2.6.0]# sbin/start-dfs.sh

12. 测试

[root@centos ~]# jps
2151 Jps
2049 SecondaryNameNode
1915 DataNode
1809 NameNode

或者
⽤户可以访问http://ip:50070访问namenode的web-ui

HDFS

HDFS是Hadoop的分布式⽂件系统（Hadoop Distributed File System ），类似于其它的分布式⽂件，如FastDFS。
HDFS⽀持⾼度容错，可以部署在廉价的硬件设备上，特别适宜于⼤型的数据集的分布式存储。

HDFS架构篇

HDFS采⽤master/slave架构。⼀个HDFS集群是由⼀个Namenode和⼀定数⽬的Datanodes组成。

Namenode是⼀个中⼼服务器，负责管理⽂件系统的名字空间(namespace)以及客户端对⽂件的访问。

集群中的Datanode⼀般是⼀个节点⼀个，负责管理它所在节点上的存储。HDFS暴露了⽂件系统的名字空间，⽤户能够以⽂件的形式在上⾯存储数据。从内部看，⼀个⽂件其实被分成⼀个或多个数据块，这些块存储在⼀组Datanode上。Namenode执⾏⽂件系统的名字空间操作，⽐如打开、关闭、重命名⽂件或⽬录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理⽂件系统客户端的读写请求。在Namenode的统⼀调度下进⾏数据块的创建、删除和复制。

Namenode: 存储系统元数据、namespace、管理datanode、接受datanode状态汇报
Datanode: 存储块数据，响应客户端的块的读写，接收namenode的块管理指令
Block: HDFS存储数据的基本单位（块），默认值是128MB，实际块⼤⼩0~128MB
Rack: 机架，对datanode所在主机的物理标识，标识主机的位置，优化存储和计算

namenode：存储系统的元数据(用于描述数据的数据,内存),例如文件命名空间/block到datanode的映射.负责管理datanode

datanode：用于存储数据块的节点.负责响应客户端对块的读写请求,向namenode汇报自己块信息.

block：数据块,是对文件拆分的最小单位,表示一个切分尺度默认值128MB,每个数据块的默认副本因子是3，通过dfs.replication进行配置，用户可以通过dfs.blocksize设置块大小

rack：机架,使用机架对存储节点做物理编排,用于优化存储和计算.
查看机架：

[root@CentOS ~]# hdfs dfsadmin -printTopology
Rack: /default-rack
   192.168.169.139:50010 (CentOS)

HDFS常⻅问题

HDFS为什么不擅⻓⼩⽂件的存储？

文件	namenode占用(内存)	datanode占用磁盘
128MB 单个文件	1个block元数据信息	128MB * 副本因子
128MB 10000个文件	10000个block元数据信息	128MB * 副本因子

原因：

小文件过多会浪费namenode资源 (杀鸡用牛刀)

HDFS适⽤于⾼吞吐量，⽽不适合低时间延迟的访问。⽂件过⼩，寻道时间⼤于数据读写时间，这不符合HDFS的设计

NameNode和Secondary Namenode的关系?

Namenode主要维护两个⽂件，⼀个是 fsimage ，⼀个是 editlog。

fsimage保存了最新的元数据检查点，包含了整个HDFS⽂件系统的所有⽬录和⽂件的信息。
对于⽂件来说包括了数据块描述信息、修改时间、访问时间等；对于⽬录来说包括修改时间、
访问权限控制信息(⽬录所属⽤户，所在组)等。

editlog主要是在NameNode已经启动情况下对HDFS进⾏的各种更新操作进⾏记录，HDFS客户
端执⾏所有的写操作都会被记录到editlog中。

为了避免editlog不断增⼤，secondary namenode会周期性合并fsimage和edits成新的fsimage。

所以secondary namenode辅助NameNode整理Edits和Fsimage文件,加速NameNode启动过程。
secondary namenode与NameNode 存在联系，但并不是主备关系

疑惑：namenode 存在单点故障问题？伪分布式环境下确实存在
完全分布式HDFS集群中支持namenode主备不存在单点故障

常⽤指令

1. 格式化⼀个新的分布式⽂件系统

 [root@CentOS ~]#  hdfs namenode -format

2. 启动 NameNode 守护进程和 DataNode 守护进程

 [root@CentOS ~]# start-dfs.sh

Hadoop 守护进程的⽇志写⼊到 $HADOOP_LOG_DIR ⽬录（默认是 $HADOOP_HOME/logs ）

3. 浏览 NameNode 的⽹络接⼝

 [root@CentOS ~]# NameNode - http://ip地址:50070/

4.HDFS Shell

	# 帮助
    [root@CentOS ~]# hdfs dfs -help
    Usage: hadoop fs [generic options]
    	[-appendToFile  ... ]
    	[-cat [-ignoreCrc]  ...]
    	[-checksum  ...]
    	[-chmod [-R]  PATH...]
    	[-copyFromLocal [-f] [-p] [-l]  ... ]
    	[-copyToLocal [-p] [-ignoreCrc] [-crc]  ... ]
    	[-cp [-f] [-p | -p[topax]]  ... ]
    	[-get [-p] [-ignoreCrc] [-crc]  ... ]
    	[-help [cmd ...]]
    	[-ls [-d] [-h] [-R] [ ...]]
    	[-mkdir [-p]  ...]
    	[-moveFromLocal  ... ]
    	[-moveToLocal  ]
    	[-mv  ... ]
    	[-put [-f] [-p] [-l]  ... ]
    	[-rm [-f] [-r|-R] [-skipTrash]  ...]
    	[-rmdir [--ignore-fail-on-non-empty]  ...]
    	[-tail [-f] ]
    	[-text [-ignoreCrc]  ...]
    	[-touchz  ...]
    	[-usage [cmd ...]]

5. mkdir

	# 创建⽬录
  [root@CentOS ~]# hdfs dfs -mkdir -p path

6. ls

		# 展示指令⽬录内容清单
  [root@CentOS ~]# hdfs dfs -ls path

7. put

	# ⽂件上传
[root@CentOS ~]# hdfs dfs -put localsrc dst

8. get

	# ⽂件下载
[root@CentOS ~]# hdfs dfs -get src localdst

9.appendToFile

    [root@CentOS ~]# hdfs dfs -appendToFile /root/install.log /aa.log

10. cat || tail || text

		# 查看内容
     [root@CentOS ~]# hadoop fs -cat /aa.log
     [root@CentOS ~]# hdfs dfs -tail path
     [root@CentOS ~]# hdfs dfs -text /cc.log

11. checksum

    [root@CentOS ~]# hdfs dfs -checksum /aa.log
    /aa.log	MD5-of-0MD5-of-512CRC32C	000002000000000000000000fa622ce196be3efd11475d6b55af76d2

12. chmod || chgrp || chown

		# 权限相关
	[root@CentOS ~]# hdfs dfs -chgrp [-R] GROUP PATH...
	[root@CentOS ~]# hdfs dfs -chmod [-R]  PATH
	[root@CentOS ~]# hdfs dfs -chown [-R] [OWNER][:[GROUP]] PATH

13. copyFromLocal/copyToLocal

    [root@CentOS ~]# hdfs dfs -copyFromLocal|-put install.log /  # 上传
    [root@CentOS ~]# hdfs dfs -copyToLocal|-get /install.log ~/  # 下载

14. cp

    [root@CentOS ~]# hdfs dfs -mkdir -p /demo/dir
    # 复制
    [root@CentOS ~]# hdfs dfs -cp /install.log /demo/dir

15. moveFromLocal|moveToLocal

    [root@CentOS ~]# hdfs dfs -moveFromLocal ~/install.log  /
    [root@CentOS ~]# ls
    anaconda-ks.cfg  hadoop-2.6.0_x64.tar.gz  install.log.syslog
    [root@CentOS ~]# hdfs dfs -moveToLocal /install.log  ~/ # 目前还没有实现
    moveToLocal: Option '-moveToLocal' is not implemented yet.

16. rm

		# ⽂件删除
    [root@CentOS ~]# hdfs dfs -rm -r -f /install.log

17. mv

	# 移动
    [root@CentOS ~]# hdfs dfs -mv /install.log  /bb.log

18. touchz

    [root@CentOS ~]# hdfs dfs -touchz /cc.log

19. distcp

    [root@CentOS ~]# hadoop distcp hdfs://CentOS:9000/aa.log hdfs://CentOS:9000/demo/dir^C

更多参考:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/FileSystemShell.html#appendToFile

你可能感兴趣的:(Hadoop,HDFS)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
【HDFS】【HDFS架构】【HDFS Architecture】【架构】资源存储库 hdfs 架构 hadoop
目录1Introduction介绍2AssumptionsandGoals假设和目标HardwareFailure硬件故障StreamingDataAccess流式数据访问LargeDataSets大型数据集SimpleCoherencyModel简单凝聚力模型“MovingComputationisCheaperthanMovingData”“移动计算比移动数据更便宜”PortabilityAc
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hdfs启动流程 weixin_44352020 hadoop hdfs hadoop
Namenode1.init()namenode初始化，执行加载配置文件等操作2.loadFsImage()开始加载元数据将FsImage护额徐为目录树，保存在内存中FsImage中主要包含了问价你和数据块的对应关系3.loadEditlog()加载Editlog，将Editlog中记录的元数据修改应用到内存中；4.saveCheckpoint()将内存中最新的目录树持久化为新的FsImage到磁
hdfs开机启动流程鸭梨山大哎 hadoop hdfs
第一步：加载name目录下最新的那个fsimage_xxx019文件，将里面存储的元数据（目录树结构）维护到内存中，但是还不是关机前的状态第二步：将关机前的最后使用的edits_inprogress_xxxx0160进行重命名edits_0000000000000000160-0000000000000000169操作，然后生成一个最新的edits_inprogress_xxx170文件，并修改s
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【HDFS主从集群】存在两个独立的问题和解决方案流辉fglow 大数据 #HDFS hdfs java hadoop 大数据分布式学习
主从集群存在两个独立的问题和解决方案单点“主”的两个独立的问题以下是解决方案HA高可用方案：解决单点故障导致集群整体不可用问题Federation联邦机制：解决NN压力过大问题总结一般很多技术都是主从结构（最简单的结构）优点：结构相对简单，主与从协作“主”是单点，好处有，缺点也有好处：单点NameNode，数据一致性好掌握因为一个人管，说一不二的单点“主”的两个独立的问题关键词：独立：两套独立
【HDFS】角色的架构设计流辉fglow #HDFS 大数据 hdfs hadoop 大数据学习分布式
HDFS角色的架构设计前置知识：Windows与Linux文件系统的差异HDFS中的角色及功能HDFS的架构NameNodeDataNodeNameNode元数据的持久化说明：/表示两个词是同一语义，方便你理解的前置知识：Windows与Linux文件系统的差异Windows&LInux虽然都有硬盘/分区、目录，但感受很不同的是：Windows：有很强的分区概念，要先通过不同的“盘符”去找文件在命
HDFS的启动过程 ffbc2020 HDFS HDFS
HDFS的启动过程HDFS的启动过程分为四个阶段：第一阶段：NameNode读取包含元数据信息的fsimage文件，并加载到内存；第二阶段：NameNode读取体现HDFS最新状态的edits日志文件，并加载到内存中第三阶段：生成检查点，SecondaryNameNode将edits日志中的信息合并到fsimage文件中第四阶段：进入安全模式，检查数据块的完整性HDFS的安全模式什么是安全模式安全
集群hdfs启动 sxu~源 hdfs hadoop big data
1）各个模块分开启动/停止（配置ssh是前提）常用（1）整体启动/停止HDFSstart-dfs.sh/stop-dfs.sh（2）整体启动/停止YARNstart-yarn.sh/stop-yarn.sh2）各个服务组件逐一启动/停止（1）分别启动/停止HDFS组件hdfs--daemonstart/stopnamenode/datanode/secondarynamenode（2）启动/停止Y
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号