01大数据导论与Linux基础

一、大数据导论

1.1 企业数据分析方向

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2…”、“阴、雨、下降”、“学生的档案记录、货物的运输情况”等都是数据。

企业数据分析方向是把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。数据分析在企业日常经营分析中主要有三大方向:

  • 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动;

  • 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做出调整优化;

  • 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势。

1.2 数据分析基本步骤

典型的数据分析应该包含以下几个步骤

  • 明确分析目的和思路

目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法、5W2H分析法等。

  • 数据收集

  • 数据处理

准确来说,应该称之为数据预处理。数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗、数据转化、数据提取、数据计算;数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据。

  • 数据分析

用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;

  • 数据展现

数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;数据可视化(Data Visualization)属于数据应用的一种;注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。

  • 报告攥写

数据分析报告是对整个数据分析过程的一个总结与呈现,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考,需要有明确的结论,最好有建议或解决方案

1.3 大数据时代

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特征可以简称为5V特征

  • Volume:数据体量大

  • Variety:种类、来源多样化

  • Value:低价值密度

  • Velocity:速度快

  • Veracity:数据的质量

1.4 分布式与集群

分布式、集群是两个不同的概念,但口语中经常混淆二者

  • 分布式指的是多台机器,每台机器上部署不同组件

  • 集群指的是多台机器,每台机器上部署相同组件

它们主要解决数据大爆炸,海量数据处理场景面临问题

二、Linux常用基础命令

2.1 Linux文件系统基础知识

操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称文件系统;文件系统的结构通常叫做目录树结构,从斜杠/根目录开始;Linux号称“万物皆文件”,意味着针对Linux的操作,大多数时间是在针对Linux文件系统操作。

几乎主流的文件系统都是从/根目录开始的,Linux也不例外,而windows文件系统会以盘符来区分不同文件系统;目录树中节点分为两个种类:目录(directory)、文件(file);从根目录开始,路径具有唯一性;只有在目录下才可以继续创建下一级目录,换句话说目录树到文件终止蔓延。

  • 当前路径:也叫当前工作目录,当下用户所属的位置;

  • 相对路径:相对当前工作目录开始的路径,会随当前路径变化而变化;

  • 绝对路径:不管工作目录在哪,绝对路径都是从/根目录开始,唯一不重复。

常见的符号有

  • . 目录或者文件名字以.开始表示是隐藏的文件,如果路径以.开始表示当前路径

  • .. 当前目录的上一级目录

  • ~ 当前用户的home目录,比如root用户home目录是/root

  • / 根目录

2.2 Linux常用操作命令

Tab键可以实现自动补全和提示,要合理使用;

history命令可以显示历史执行记录,或者使用方向键来切换前后执行过的命令;

2.2.1 显示目录内容

  • ls(list files)命令:用于显示指定工作目录下之内容(列出目前工作目录所含之文件及子目录)。

    • -a 显示所有文件及目录(.开头的隐藏文件也会列出)

    • -l 除文件名称外,亦将文件型态、权限、拥有者、文件大小等资讯详细列出注意ls -l = ll

2.2.2 切换目录

  • cd(change directory)命令:用于切换当前工作目录。切换的路径可为绝对路径或相对路径。若路径省略,则变换至使用者的home目录。

    • ~也表示为home目录的意思

    • .则是表示目前所在的目录

    • ..则表示目前目录位置的上一层目录

2.2.3 创建、删除

  • mkdir(make directory)命令:用于创建目录。

    • -p 确保父目录名称存在,不存在的就建一个。
  • touch 命令:创建一个空文件,无任何内容。

  • rm(remove)命令:用于删除一个文件或者目录。

    • -f 强制直接删除,无需用户确认。

    • -r 将目录及以下所有递归逐一删除。

2.2.4 复制、移动

  • cp(copy file)命令:用于复制文件或目录。

    • -r:若给出的源文件是一个目录文件,此时将复制该目录下所有的子目录和文件。
  • mv(move file)命令:用来为文件或目录改名、或将文件或目录移入其它位置。

2.2.5 文件内容查看

  • cat(concatenate)命令:用于连接文件并打印到标准输出设备如console控制台上。适合小文件内容查看。

  • more 命令:类似cat,不过会以一页一页的形式显示,更方便使用者逐页阅读,翻页结束自动退出。适合大文件查看。按space键翻下一页,按b往回(back)上一页

  • tail命令:用于查看文件的结尾部分的内容。

    • -n用于显示行数,默认为10,即显示10 行的内容。

    • -f 用于实时显示文件动态追加的内容。会把文件里的最尾部的内容显示在屏幕上,并且不断刷新,只要文件有更新,就可以看到最新的文件内容。

2.2.6 解压缩命令

  • tar(tape archive )命令:常用于备份文件。是用来建立,还原备份文件的工具程序,它可以加入,解开备份文件内的文件。

    • -c 或--create 建立新的备份文件。

    • -x 或--extract或--get 从备份文件中还原文件。

    • -v 或--verbose 显示指令执行过程。

    • -f <备份文件>或--file=<备份文件> 指定备份文件。

    • 在打包备份或者解包的过程中,可以通过指定压缩算法,对打包的文件进行压缩,解压的时候也需要指定相应的算法。-z 或--gzip或--ungzip 通过gzip指令处理备份文件。

2.2.7 其他

  • |管道命令:将前一个命令执行的结果作为内容交给下一个命令处理。可以形成多级管道操作。

  • echo命令:用于内容的输出,将内容输出到console控制台上。

  • /> 输出重定向(覆盖)命令:command > file 执行command然后将输出的内容存入file,file内已经存在的内容将被新内容覆盖替代。

  • />> 输出重定向(追加)命令:command >> file 执行command然后将输出的内容存入file,新内容追加在文件末尾。

2.3 Linux常用系统命令

2.3.1 时间、日期查看

  • date命令:用来显示或设定系统的日期与时间,在显示方面,使用者可以设定欲显示的格式,格式设定为一个加号后接数个标记。

  • cal(calendar)命令:用于用于显示当前或者指定日期的公历。

2.3.2 内存、磁盘使用率查看

  • free命令:用于显示内存状态。会显示内存的使用情况,包括实体内存,虚拟的交换文件内存,共享内存区段,以及系统核心使用的缓冲区等。

  • df(英文全拼:disk free)命令:用于显示目前在Linux 系统上的文件系统磁盘使用情况统计。

2.3.3 进程查看

  • ps (英文全拼:process status)命令:用于显示当前进程的状态,类似于windows 的任务管理器。

  • jps命令:这是JDK自带的命令,专门用于查看本机运行的java进程情况。

2.4 vi/vim文本编辑器

vi是一款很多unix及其延伸系统内置的文本编辑器,具有强大的文本编辑能力。vim是从vi发展出来的一个文本编辑器,可以理解为vi编辑器的增强版。vim中代码补完、编译及错误跳转等方便编程的功能特别丰富。vi/vim编辑器的核心设计思想:让程序员的手指始终保持在键盘的核心区域, 就能完成所有的编辑操作。

image

2.4.1 打开与新建文件

命令:vim /path/file

  • 如果打开的文件不存在,此时就是新建文件,编辑器左下角会提示new file

  • 如果文件已经存在,此时就打开这个文件,进入命令模式

2.4.2 vim编辑器3种工作模式

  • 命令模式(Command mode):命令模式下,所敲的按键编辑器都理解为命令,以命令驱动执行不同的功能。此模型下,不能自由进行文本编辑。

  • 输入模式(Insert mode):也就是所谓的编辑模式、插入模式。此模式下,才可以对文件内容进行自由编辑。

  • 底线命令模式(Last line mode):以:开始,通常用于文件的保存、退出。

图片.png

2.4.3 vim基本操作命令

  • 方向键控制移动

  • 翻页pageup pagedown

  • 行首(home 0)行尾(end $)

  • 跳到文件的最后一行G

  • 跳到文件的第一行gg

  • 复制

    • yy 复制光标当前所在行内容

    • nyy 复制当前行往下n行

  • 粘贴

    • p 当前行的下一行粘贴

    • P 当前行的上一行粘贴

  • 删除命令

    • dd 删除光标所在当前行内容

    • ndd 删除当前行往下n行

  • 撤销、反撤销

    • u 撤销上一步的操作(后悔药)

    • ctrl+r反撤销

你可能感兴趣的:(01大数据导论与Linux基础)