Vics异地我就

hadoop离线day02--Apache Hadoop

内容大纲

#Apache Hadoop入门
    介绍概念  狭义  广义
    hadoop起源
    hadoop特性优点
#Apache Hadoop搭建
    hadoop集群 主从架构
        hdfs集群 yarn集群
    集群角色 集群规划
    集群配置
    format初始化
    启停脚本
    webUI页面
    hadoop初体验   现象与疑惑 后续学习方向
#Apache hadoop辅助功能
    jobhistory服务 查看历史执行记录
    文件系统垃圾桶机制 回收站

Apache Hadoop入门

介绍
- 狭义上：hadoop指的是Apache一款java开源软件，是一个大数据分析处理平台。
  - Hadoop ==HDFS：分布式文件系统==。解决了海量数据存储问题。
```
Hadoop Distributed File System (HDFS™)
```
  - Hadoop ==MapReduce：分布式计算框架==。解决海量数据计算问题。
```
A framework for job scheduling and cluster resource management.
```
  - Hadoop ==YARN：集群资源管理和任务调度==。
- 广义上：Hadoop指的是==hadoop生态圈==。
```
提供了大数据的几乎所有软件。
采集、存储、导入、分析、挖掘、可视化、管理...
```
Hadoop起源发展
- Hadoop之父--==Doug Cutting== 卡大爷
- 起源项目Apache Nutch。致力于构建一个==全网搜索引擎==。
```
1、爬取互联网网页 --->存储在哪里？ 海量数据存储问题

2、基于网页创建倒排索引。--->如何计算？  海量数据计算问题
```
- Google也在做搜索，也遇到这些问题，内部解决了。
  - ==google==不想开源，但是又憋的难受，写论文。
  - 前后写了==3篇论文==（谷歌是使用c实现的）。
```
谷歌分布式文件系统（GFS）------>HDFS
谷歌版MapReduce 系统------>Hadoop MapReduce
bigtable---->HBase
```
  - 基于论文的影响 Nutch团队实现了相应的java版本开源组件。
- Nutch团队把HDFS和MapReduce抽取独立成为单独软件在==2008年贡献给了Apache==。开源。
- Doug Cutting 看到他儿子在牙牙学语时，抱着黄色小象，亲昵的叫hadoop，他灵光一闪，就把这技术命名为 Hadoop，而且还用了黄色小象作为标示 Logo。

Hadoop特性优点

==分布式、扩容能力==

不再注重单机能力 看中的是集群的整体能力。
动态扩容、缩容。

==成本低==

在集群下 单机成本很低 可以是普通服务器组成集群
意味着大数据处理不一定需要超级计算机。

==高效率并发能力==
==可靠性==

==通用性==

hadoop精准区分技术和业务。

做什么?(what need to do)---->业务问题（20%）
怎么做?(how to do)----->技术问题（80%）

Hadoop把技术实现了 用户负责业务问题。

原来大数据这么简单 可以这么玩。

Apache Hadoop集群搭建

发行版本
- ==官方社区版本== Apache基金会官方
  - 版本新功能最全的
  - 不稳定兼容性需要测试 bug多
- ==商业版本== 商业公司在官方版本之上进行商业化发行。著名：==Cloudera==、hotonWorks、MapR
  - 稳的一批兼容性极好技术支持本地化支持一键在线安装
  - 版本不一定是最新的辅助工具软件需要收费
```
Cloudera发行的hadoop生态圈软件叫做CDH版本。
Cloudera’s Distribution Including Apache Hadoop。

https://www.cloudera.com/products/open-source/apache-hadoop/key-cdh-components.html

Hortonworks Data Platform (HDP)
```
- 本课程中使用的是==Apache 2.7.5==稳定版本。

Hadoop本身版本变化

hadoop 1.x

只有hdfs mapreduce. 架构过于垃圾 性能不高 当下企业中没人使用了。

==hadoop 2.x==

hdfs MapReduce  yarn  尤其2.x高系列版本 2.6~2.9 当下企业中使用最多。

hadoop 3.x
```
架构和2一样 性能做了优化
```

Hadoop集群
- 通常是有==hdfs集群==和==yarn集群==组成。两个集群都是标准的==主从架构==集群。
- 两个集群逻辑上分离物理上在一起。
- HDFS集群：解决了海量数据存储分布式存储系统
  - 主角色：namenode（NN）
  - 从角色：datanode（DN）
  - 主角色辅助角色"秘书角色"：secondarynamenode （SNN）
- YARN集群：集群资源管理任务调度
  - 主角色：resourcemanager（RM）
  - 从角色：nodemanager（NM）

Hadoop部署模式

单机模式 Standalone

一台机器，所有的角色在一个java进程中运行。 适合体验。

一台机器 每个角色单独的java进程。 适合测试

==分布式 cluster==

多台机器  每个角色运行在不同的机器上  生产测试都可以

高可用集群 HA

在分布式的模式下 给主角色设置备份角色  实现了容错的功能 解决了单点故障
保证集群持续可用性。

Hadoop集群的规划

根据==软件和硬件的特性合理的安排==各个角色在不同的机器上。

有冲突的尽量不部署在一起
有工作依赖尽量部署在一起
nodemanager 和datanode是好基友

node1: namenode  datanode                    | resourcemanager  nodemanger
node2:           datanode   secondarynamenode|                  nodemanger
node3:           datanode                    |                  nodemanger

Q：如果后续需要扩容hadoop集群，应该增加哪些角色呢？

node4:  datanode  nodemanger
node5:  datanode  nodemanger
node6:  datanode  nodemanger
.....

Hadoop源码编译

源码下载地址

https://archive.apache.org/dist/hadoop/common/

hadoop-2.7.5-src.tar.gz    source 源码包
hadoop-2.7.5.tar.gz        官方编译后安装包

对应java语言开发的项目软件来说，所谓的==编译==是什么？
```
xxx.java(源码)---->xxx.class(字节码)---->jar包
```
正常来说，官方网站提供了安装包，可以直接使用，为什么要自己编译呢？
- ==修改源码==之后需要重新编译。
- 官方提供的最大化编译满足在各个平台运行，但是不一定彻底==兼容本地环境==。
- 某些软件，官方只提供源码。
```
native library 本地库。
官方编译好的 adoop的安装包没有提供带 C程序访问的接口。主要是本地压缩支持、IO支持。
```

怎么编译？

在源码的根目录下有编译相关的文件BUILDING.txt 指导如何编译。
使用maven进行编译 联网jar.

可以使用课程提供编译好的安装包
```
hadoop-2.7.5-with-snappy-centos7.tar.gz
```

Hadoop具体安装部署

服务器基础环境准备

ip、主机名
hosts映射 别忘了windows也配置（C:\Windows\System32\drivers\etc\hosts）   
防火墙关闭
时间同步
免密登录  node1---->node1 node2 node3
JDK安装

安装包目录结构

#上传安装包到/export/server 解压

 bin    #hadoop核心脚本 最基础最底层脚本
 etc    #配置目录
 include
 lib
 libexec
 LICENSE.txt
 NOTICE.txt
 README.txt
 sbin  #服务启动 关闭 维护相关的脚本
 share #官方自带实例  hadoop相关依赖jar

配置文件的修改

https://hadoop.apache.org/docs/r2.7.5/

第一类 1个 ==hadoop-env.sh==

[root@node1 hadoop]# pwd
/export/server/hadoop-2.7.5/etc/hadoop

export JAVA_HOME=/export/server/jdk1.8.0_65

第二类 4个 ==core|hdfs|mapred|yarn-site.xml==

site表示的是用户定义的配置，会覆盖default中的默认配置。

==core-site.xml== 核心模块配置



        fs.defaultFS
        hdfs://node1:8020



        hadoop.tmp.dir
        /export/data/hadoopdata

==hdfs-site.xml== hdfs文件系统模块配置



        dfs.namenode.secondary.http-address
        node2:50090

==mapred-site.xml== MapReduce模块配置

mv mapred-site.xml.template mapred-site.xml
vi mapred-site.xml




        mapreduce.framework.name
        yarn

yarn-site.xml yarn模块配置



    yarn.resourcemanager.hostname
    node1

    


    yarn.nodemanager.aux-services
    mapreduce_shuffle




  yarn.log-aggregation-enable
  true




  yarn.log-aggregation.retain-seconds
  604800

第三类 1个 ==slaves==
- 指定各个从角色位置信息便于==一键启动==的时候读取。
- 配合hadoop安全管理 ==黑白名单机制==。
- 一行写一个IP或者主机名
```
node1
node2
node3
```

scp安装包到其他机器

[root@node1 hadoop]# cd /export/server/
[root@node1 server]# scp -r hadoop-2.7.5/ root@node2:$PWD
[root@node1 server]# scp -r hadoop-2.7.5/ root@node3:$PWD

vim vim /etc/profile

export HADOOP_HOME=/export/server/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

#scp环境变量文件给其他机器
[root@node1 server]# scp /etc/profile node2:/etc/
[root@node1 server]# scp /etc/profile node3:/etc/

#3台机器统一的source环境变量
source /etc/profile

hadoop namenode format

format准确来说翻译成为==初始化==比较好。对namenode工作目录、初始文件进行生成。

通常在namenode所在的机器执行 ==执行一次。首次启动之前==

hadoop namenode -format

#执行成功 日志会有如下显示
21/05/23 15:38:19 INFO common.Storage: Storage directory /export/data/hadoopdata/dfs/name has been successfully formatted.

[root@node1 server]# ll /export/data/hadoopdata/dfs/name/current/
total 16
-rw-r--r-- 1 root root 321 May 23 15:38 fsimage_0000000000000000000
-rw-r--r-- 1 root root  62 May 23 15:38 fsimage_0000000000000000000.md5
-rw-r--r-- 1 root root   2 May 23 15:38 seen_txid
-rw-r--r-- 1 root root 207 May 23 15:38 VERSION

Q：如果不小心初始化了多次，如何？

现象：主从之间互相不识别。

解决

#企业真实环境中    呵呵~ ！！！所以只能设置一次！ 一次！ 一次！

#学习环境
#删除每台机器上hadoop.tmp.dir配置指定的文件夹/export/data/hadoopdata。 重新format。
#本方法会导致所有数据丢失，仅适合学习使用。

Hadoop集群启动
- 单节点单进程逐个手动启动
  - HDFS集群
```
hadoop-daemon.sh start|stop  namenode|datanode|secondarynamenode
```
  - YARN集群
```
yarn-daemon.sh start|stop resourcemanager|nodemanager
```
  - 优点：精准的控制每个角色每个进程的启停。PS总不能每次都全部启停吧~ 机器多了怎么办启停一下花一整天嘛~~
- 脚本一键启动
  - 前提：配置好免密登录。ssh
  - HDFS集群
```
start-dfs.sh 
stop-dfs.sh 
```
  - YARN集群
```
start-yarn.sh
stop-yarn.sh
```
  - 更狠的
```
start-all.sh
stop-all.sh

[root@node1 ~]# start-all.sh 
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
```

集群进程确认和错误排查

确认是否成功

[root@node1 ~]# jps
8000 DataNode
8371 NodeManager
8692 Jps
8264 ResourceManager
7865 NameNode
#node2，和node3的jps应该都不一样，需要结合本次设置来看，具体请看上面的hadoop的集群规划我贴图在下面对应看就好啦

我是集群规划的贴图

如果进程不在看启动运行日志！！！！！！！！！！！！！

#默认情况下 日志目录
cd /export/server/hadoop-2.7.5/logs/

#注意找到对应进程名字 以log结尾的文件

Hadoop初体验

Hadoop Web UI页面
- HDFS集群 http://namenode_host:50070
- YARN集群 http://resourcemanager_host:8088
  
  （如果是根据我的配置安安分分配置的小伙伴可以直接用node1:50070|node1:8088直接网页登录啦~~~）
初体验
- 体验HDFS文件系统：本质就是存储文件的，和标准文件系统一样吗？
  - 也是有目录树结构，也是从根目录开始的。
  - 文件是文件、文件夹是文件夹
  - 和linux很相似
  - 上传小文件好慢。==为什么慢？和分布式有没有关系？==
- 体验MapReduce+yarn
  - MapReduce是分布式程序 yarn是资源管理给程序提供运算资源。 Connecting to ResourceManager
```
[root@node1 mapreduce]# pwd
/export/server/hadoop-2.7.5/share/hadoop/mapreduce

hadoop jar hadoop-mapreduce-examples-2.7.5.jar pi  2 2
```
  - MapReduce程序本质是java程序意味着后面你要写代码。
  - MR程序运行首先连接YRAN ResourceManager，连接它干什么的？==要资源==。
  - MR程序好像是两个阶段，==先Map 再Reduce==。
  - 数据量这么小的情况下，为什么MR这么慢？ MR适合处理大数据场景还是小数据场景？

Hadoop辅助功能

MapReduce jobhistory服务

背景

默认情况下，yarn上关于MapReduce程序执行历史信息  一旦yarn重启 就会消失。

功能

保存yarn上MapReduce的历史信息。

配置

因为需求修改配置。==重启hadoop集群==才能生效。

vim mapred-site.xml


    mapreduce.jobhistory.address
    node1:10020



    mapreduce.jobhistory.webapp.address
    node1:19888

scp同步给其他机器

scp /export/server/hadoop-2.7.5/etc/hadoop/mapred-site.xml node2:/export/server/hadoop-2.7.5/etc/hadoop/

scp /export/server/hadoop-2.7.5/etc/hadoop/mapred-site.xml node3:/export/server/hadoop-2.7.5/etc/hadoop/

重启hadoop集群

自己手动启停jobhistory服务。

[root@node1 ~]# mr-jobhistory-daemon.sh start historyserver
starting historyserver, logging to /export/server/hadoop-2.7.5/logs/mapred-root-historyserver-node1.itcast.cn.out

[root@node1 ~]# jps
13794 JobHistoryServer
13060 DataNode
12922 NameNode
13436 NodeManager
13836 Jps
13327 ResourceManager


mr-jobhistory-daemon.sh stop historyserver

HDFS 垃圾桶机制

背景在windows叫做回收站后悔药

在默认情况下 hdfs没有垃圾桶 意味着删除操作直接物理删除文件。

[root@node1 ~]# hadoop fs -rm /itcast/1.txt
21/05/23 16:49:42 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /itcast/1.txt

功能：和回收站一种在删除数据的时候先去垃圾桶如果后悔可以复原。

配置

在core-site.xml中开启垃圾桶机制

指定保存在垃圾桶的时间。


    fs.trash.interval
    1440

集群同步配置重启hadoop服务。

[root@node1 hadoop]# pwd
/export/server/hadoop-2.7.5/etc/hadoop
[root@node1 hadoop]# scp core-site.xml node2:$PWD
core-site.xml                                              100% 1027   898.7KB/s   00:00    
[root@node1 hadoop]# scp core-site.xml node3:$PWD
core-site.xml

垃圾桶使用

配置好之后再删除文件直接进入垃圾桶

[root@node1 ~]# hadoop fs -rm /itcast.txt
21/05/23 16:55:25 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 1440 minutes, Emptier interval = 0 minutes.
21/05/23 16:55:25 INFO fs.TrashPolicyDefault: Moved: 'hdfs://node1:8020/itcast.txt' to trash at: hdfs://node1:8020/user/root/.Trash/Current/itcast.txt

垃圾桶的本质就是hdfs上的一个隐藏目录。
```
hdfs://node1:8020/user/用户名/.Trash/Current
```

后悔了需要恢复怎么做？

hadoop fs -cp /user/root/.Trash/Current/itcast.txt /

就想直接删除文件怎么做？

hadoop fs -rm -skipTrash /itcast.txt
 
[root@node1 ~]#  hadoop fs -rm -skipTrash /itcast.txt
Deleted /itcast.txt

扩展

配置web UI页面访问身份

core-site.xml



    hadoop.http.staticuser.user
    root

关于Hadoop源码编译
- 核心：联网下载jar pom的能力。

你可能感兴趣的:(Hadoop)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1