[学习笔记]黑马程序员-Hadoop入门视频教程

文章目录

  • 参考资料
  • 第一章:大数据导论(p1-5)
    • 1.1 企业数据分析方向
    • 1.2 数据分析基本流程步骤
      • 明确分析的目的和思路
      • 数据收集
      • 数据处理
      • 数据分析
      • 数据展现
      • 报告攥写
    • 1.3 大数据时代
      • 大数据定义
      • 大数据的5V特征
      • 应用场景
    • 1.4 分布式与集群
      • 概念
      • 应用
  • 第二章:Linux操作系统概述
    • 2.1 操作系统概念与分类
      • 操作系统概念
      • 操作系统分类
      • Linux起源与发展
      • Linux内核(Kernel)
      • Linux发行版本
  • 第三章:
    • 3.1 VMware虚拟机概念与安装
      • VMware介绍
      • VMvare功能、组件
      • 网络架构图
    • 3.2 Centos操作系统的虚拟机导入
    • 3.3 VMware虚拟机常规使用
    • 3.4 FinalShell介绍使用

参考资料

黑马程序员大数据Hadoop入门视频教程,适合零基础自学的大数据Hadoop教程

目录
大数据导论与Linux基础
大数据导论
Linux操作系统概述
VMware Workstation虚拟机使用
Linux常用基础命令
Linux常用系统命令
vi/vim文本编辑器基础使用

学习目标
1.理解大数据基本概念
2.掌握数据分析基本步骤
3.理解分布式、集群概念
4.学会VMware虚拟机的导入与使用
5.掌握Linux常用操作命令使用
6.掌握vi/vim编辑器基础使用

第一章:大数据导论(p1-5)

1.1 企业数据分析方向

数据分析是为了把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。数据分析在”企业日常经营“分析中主要有三大方向:现状分析->原因分析->预测分析

  • 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动
  • 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做成调整优化
  • 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势

离线分析(Batch Processing):面向过去,面向历史,分析已有的数据;在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理
[学习笔记]黑马程序员-Hadoop入门视频教程_第1张图片
实时分析(Real Time Processing | Streaming)
面向当下,分析实时产生的数据;所谓的实时是指从数据产生到数据分析与数据应用的时间间隔很短,可细分秒级、毫秒级。实时分析又称为流式处理(Streaming)。
[学习笔记]黑马程序员-Hadoop入门视频教程_第2张图片
机器学习(Machine Learning)
基于历史数据和当下产生的实时数据预测未来发生的事情;侧重于数学算法的运用,如分类、聚类、关联、预测。
[学习笔记]黑马程序员-Hadoop入门视频教程_第3张图片

1.2 数据分析基本流程步骤

数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑;
张文霖老师在《数据分析六部曲》中提到,典型的数据分析应该包含以下几个步骤:
明确分析目的和思路->数据收集->数据处理->数据分析->数据展现->报告攥写

明确分析的目的和思路

  • 目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;
  • 思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;
  • 数据分析方法论是一些营销管理相关理论,比如用户行为理论、PEST分析法、5W2H分析法等

数据收集

  • 数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据
  • 数据传输搬运的过程:比如采集数据库数据到数据分析平台

常见的数据源和种类:

  • 业务数据(RDBMS)
  • 日志数据(服务器、应用日志)
  • 爬虫数据(爬虫数据库)
  • 互联网公开数据(行业、政府网站)

数据处理

  • 准确来说,应该称之为数据预处理
  • 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗数据转化数据提取数据计算
  • 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据

思考:

  1. 当下的企业中用于分析的数据是侧重文本数据多一些,还是侧重于图片、视频数据多一些?
    答案:文本数据多一点
  2. 什么叫干净规整的结构化数据?有非结构化数据?
    答案:结构化数据,专业来说就是二维表的数据,行列对应

数据分析

  • 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
  • 需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;

数据展现

  • 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
  • 数据可视化(Data Visualization)属于数据应用的一种;
  • 注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。

报告攥写

  • 数据分析报告是对整个数据分析结过程的一个总结与呈现
  • 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
  • 需要有明确的结论,最好有建议或解决方案

1.3 大数据时代

大数据定义

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特征

5个V开头的单词,从5个方面准确、生动、形象地介绍了大数据特征。

  • Volume:数据体量大
    采集数据量大;存储数据量大;计算数据量大;TB、PB级别起步
  • Variety:种类、来源多样化
    种类:结构化、半结构化、非结构化
    来源:日志文本、图片、音频、视频
  • Value:低价值密度
    信息海量但是价值密度低
    深度复杂的挖掘分析需要机器学习参数
  • Velocity:速度快
    数据增长速度快
    获取数据速度快
    数据处理速度快
  • Veracity:数据的质量
    数据的准确性
    数据的可信赖度

应用场景

电商领域:精准广告位、个性化推荐、大数据杀熟
传媒领域:精准营销、猜你喜欢、交互推荐
金融方面:理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品,推荐相应的投资理财产品。
交通领域:拥堵预测、智能红绿灯、导航最优规划
电信领域:基站选址优化、舆情监控、客户用户画像
安防领域:犯罪预防、天网监控
医疗领域:智慧医疗、疾病预防、病源追踪

1.4 分布式与集群

概念

分布式、集群是两个不同的概念,但口语中经常混淆 二者。
分布式是指”多台机器,每台机器上部署不同组件“。
集群是指”多台机器,每台机器上部署相同组件“。

分布式示意图:
例如:去京东买东西,京东背后是多台服务器,不同服务器承担不同的服务。
[学习笔记]黑马程序员-Hadoop入门视频教程_第4张图片

集群示意图:
例如:访问百度,百度背后也有多台服务器,多台服务器都来提供搜索服务(再配合负载均衡),防止某台宕机。
[学习笔记]黑马程序员-Hadoop入门视频教程_第5张图片

应用

数据大爆炸,海量数据处理场景面临问题
如何存储?单机存储有瓶颈,多台机器分布式存储
如何计算(高效)?单台计算能力有限,多台机器分布式计算

第二章:Linux操作系统概述

2.1 操作系统概念与分类

操作系统概念

  • 操作系统(operating system, 简称OS)是管理计算机硬件与软件资源的程序,需要处理如:管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务;
  • 没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。
  • 操作系统也提供一个让用户与系统交互的操作界面

操作系统分类

操作系统发展至今,种类繁多,可以根据应用的不同领域进行划分:

  • 桌面操作系统:所谓的桌面是指图形化操作页面。
    Mac os(Apple)、Windows(Microsoft)、Linux三足鼎立。
  • 服务器操作系统:一般指的是安装在大型计算机上的操作系统。比如Web服务器、应用服务器和数据库服务器等,是企业IT系统的基础架构平台。
    主要分为四大流派:Unix、LinuxWindows Server和Netware。
  • 嵌入式操作系统:是一种完全嵌入受控器内部,为特定应用而设计的专用计算机系统。
    如嵌入式Linux、WinCE(微软嵌入式、移动计算平台)、RTOS(嵌入式实时操作系统、军事航空领域)等;在工业、军事、航空等领域使用较多。
  • 移动设备操作系统:主要应用在智能手机、平板等智能设备上。
    主要有Android(谷歌)、ios(苹果)、Symbian(诺基亚)、BlackBerry OS(黑莓)、windows mobile(微软)、Harmony(华为鸿蒙)等。

Linux起源与发展

  • Unix系统是较早被广泛使用的计算机操作系统之一,油Ken Thompsonb在AT&T贝尔实验室发现,后续发展中,因开源、版权等问题陷入不断纠纷,延伸出不同Unix版本;
  • 1991年芬兰学生Linus Torvalds发布Linux系统第一版本,遵循GPL协议(通用公共许可证),开源免费
  • Linux是一个类似Unix的操作系统,Linux的初衷就是要替代Unix,并在功能和用户体验上进行优化,所以Linux模仿了Unix(但并没有抄袭Unix的源码),使得Linux在外观和交互上与Unix非常类似。

Linux内核(Kernel)

  • 操作系统的核心部分简称内核,Linux第一版本独立内核由Linus Torvalds开发实现,约10000行代码;
  • 后续Linus Torvalds公开了Linux内核代码,并邀请他人一起完善Linux;现在只有2%的Linux核心代码是由Linus Torvalds自己编写,但是仍然拥有Linux内核且保留了选择新代码和需要合并的新方法的最终裁定权
  • Linux操作系统 = Linux Kernel + GNU软件及系统软件 + 必要的应用程序
  • Linux选择企鹅图案作为Logo,其含义是:开放源代码的Linux像企鹅一样为全人类共同所有。

Linux发行版本

  • Linux发行版就是由Linux内核与各种常用软件的集合产品,如今全球大约有数百款的Linux发行版本。
  • 从大的方面来说,Linux发行版可大致分为个人桌面版企业服务器版
  • 个人桌面版中,Ubuntu成熟度颇高较受欢迎,而Redhat(红帽系列)及其延伸版本(Centos)凭借稳定的性能在企业服务器中占比很大。

第三章:

3.1 VMware虚拟机概念与安装

VMware介绍

  • VMware Workstation是一款虚拟机软件,允许用户将Linux、Windows等多个操作系统作为虚拟机在单台PC上运行
  • 用户可以在虚拟机上重现服务器、桌面和平板电脑环境,无需重新启动即可跨不同操作系统同时运行应用。

VMvare功能、组件

  • 通过对个人笔记本(PC)硬件资源的虚拟,在一台PC上运行其他隔离操作系统;
  • 隔离出来的操作系统虽然是虚拟的,但是硬件组成与功能上与物理实体机完全一致
  • VMware虚拟组件包括:网卡、交换机、DHCP、NAT设备等,此处不做深入探究。

网络架构图

3.2 Centos操作系统的虚拟机导入

3.3 VMware虚拟机常规使用

3.4 FinalShell介绍使用

你可能感兴趣的:(数据分析师,学习,hadoop,大数据)