大数据入门之大数据简介及Hadoop环境的搭建(一)

一,大数据的概念

  • 从字面上可以理解,大数据就是数据量比较大,用传统的工具处理不了。
  • 大数据的数据量复杂,多样性。例如 数据包括 图片,视频,文字等。
  • 速度快。通过分布式存储,分布式计算,云计算等工具进行快速的处理。
  • 具有高度分析的新价值。通过海量的数据,进行分析判断,为个人或者企业的行动作出决策。

二,大数据带来的技术变革

  • 存储:文件存储==》分布式存储
  • 计算:单机==》分布式计算
  • 网络:万兆
  • 数据库:关系型数据库==》nosql(Redis,Mogodb…)
  • 数据采集:Flume,Sqoop
  • 数据存储,分析,挖掘,处理:Hadoop,Spark,Flink…

三,Hadoop介绍

  • Hadoop命名的由来。作者的孩子给一个玩具起的名字,读音比较好记。
  • Hadoop是一个适合大数据分布式存储(HDFS),分布式计算(MapReduce)和资源调度平台(YARN)。它主要实现下面的三个模块。
  • 分布式文件系统:HDFS实现将文件分布式存储在很多的服务器上。
    1,支持大规模文件存储 一个大文件可以拆分成若干个文件块,不同的文件块分发到不同的节点上。
    2,简化系统设计 因为文件块大小是固定的,容易计算出一个节点能存储多少文件块;其次方便了元数据的管理。
    3,适合数据备份 每个文件块可以冗余存储到多个节点上,提高系统的容错性和可用性。
  • 分布式计算框架:MapReduce实现在很多机器上分布式并行计算。
    1,采用分而治之的思想,将一个大任务分成多个子任务(Map阶段),并行执行后,合并结果(Reduce阶段)
  • 分布式资源调度框架:YARN实现集群资源管理以及作业的调度。
    1,扩展性,容错性,多框架资源统一调度

四 hadoop运行环境的搭建

一,工具。linux ,jdk1.8,hadoop-2.6.0-cdh5.15.1。
1,linux环境搭建。这里我选择的是 CentOS-7-x86_64-DVD-1810.iso 版本,下载地址:https://opsx.alibaba.com/mirror。下载完镜像,通过VM虚拟机启动linux。需要设置好linux的网关。和本地的Windows ping通。ping不通以下几个原因?1,防火墙没关2,linux桥连接没开3,没有设置在同一网段4,360屏蔽局域网ping。
2,修改 /etc/hosts。设置地址映射。
大数据入门之大数据简介及Hadoop环境的搭建(一)_第1张图片

2,jdk1.8版本。下载地址:https://www.oracle.com/technetwork/java/javase/downloads/index.html。在解压到linux目录里面。
命令如下: tar -zvxf 文件名字 -c~ /app/。如图所示
大数据入门之大数据简介及Hadoop环境的搭建(一)_第2张图片
解压完成后把jdk配置到环境变量之中。输入命令:vi .bash_profile进入编辑页面,设置自己的jdk所在目录。如下图所示:
大数据入门之大数据简介及Hadoop环境的搭建(一)_第3张图片
编辑完成后,输入 命令 source .bash_profile让刚才配置的文件生效。
输入命令 echo $JAVA_HOME (打印当前的字符串),java —version (查看当前jdk版本 )来检测安装是否完成。
3,hadoop。下载地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.1.tar.gz。hadoop配置过程类似于jdk,这里不再重复。
二,hadoop文件配置。
1,了解hadoop各个目录的含义。
大数据入门之大数据简介及Hadoop环境的搭建(一)_第4张图片
2,添加JAVA变量到Hadoop下面的etc/hadoop/hadoop-env.sh
大数据入门之大数据简介及Hadoop环境的搭建(一)_第5张图片
3,修改 etc/hadoop/core-site.xml: 设置默认地址
大数据入门之大数据简介及Hadoop环境的搭建(一)_第6张图片

etc/hadoop/hdfs-site.xml:设置节点为1个 现在是单节点操作 以后多结点 再修改
etc/hadoop/hdfs-site.xml:修改hadoop产生数据的路径,不是临时文件
大数据入门之大数据简介及Hadoop环境的搭建(一)_第7张图片
三,安装ssh。
直接输入ssh,显示找不到命令,意味着没有安装,输入命令 sudo yum install ssh。进行安装。安装的时候要在管理员用户,如果是普通用户的话,需要前面加上sudo。

你可能感兴趣的:(大数据,云计算,人工智能,大数据,Hadoop,Hadoop环境搭建)