【大数据从0-1打卡-day1】
1、简单了解一些关于大数据的概念
数据:数据就是对客观事件进行记录并可以鉴别的符号。他不仅仅是指数字,还可以是有一定意义的字母、文字、符号、语音、文字、图画、视频或者这些元素的结合等。
企业数据分析方向:现状分析:离线分析
原因分析:实时分析
预测分析:机器学习
数据分析基本流程:采集、处理、分析、应用
大数据:大数据(big data),指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。简单来说就是大量的数据,通过进行处理得到一些结论或规律。
分布式与集群:相同点是与单机对立,都是由多机所组成的。不同点是分布式是多操作系统的,集群是单操作系统的。
操作系统分类:桌面操作系统:mac、Windows、Linux
嵌入式操作系统:多用于军事、工业、航空
服务器操作系统:Unix、Linux、Windows 、netware
移动设备操作系统:Android、ISO、harmony等
2、Linux:内核:系统的核心部分
发行版本:内核与各种常用软件的集合产品 常用的版本有Ubuntu、Redhat、centos等
Linux是最初始的操作系统,现在大部分的开发还是在Linux系统中进行。
3、vm虚拟机的安装及centos操作系统的导入
4、虚拟机的常规使用和快照
基本操作:启动、停止、重启、挂起
快照:用于记录某一点的状态,用于备份恢复 注意:如果需要快照跳转恢复,自己电脑的所有虚拟机都要进行同时恢复,避免虚拟机处于多种不同状态。
5、finalshell
ssh协议:用户加密实现远程登录、服务器之间的免 密登录。
finalshell的下载安装以及与Linux的连接(可以更好的操作Linux系统)
6、Linux文件系统概念
Linux系统不同于我们常用的Windows系统,Linux是以根目录为起点,下设其他文件夹,形成文件夹树类的系统,不再有盘的概念。
路径:当前路径、相对路径、绝对路径
如果路径以.开始则表示当前路径,如果名字上以.开始代表此文件处于隐藏中
..代表当前路径的上一级 ~代表当前目录的home目录 /代表根目录
7、Linux常用操作命令
小技巧:熟能生巧、tab键可以自动补全和提示、history可以查看历史操作
ls:显示指定工作目录下的内容 -a 查看所有文件(包括隐藏文件) -l显示当前目录下文件及详细属性 -la 显示所有文件及详细信息
cd:用于切换当前工作目录
pwd:查看当前路径
mkdir:创建目录 -p 可以连创两级目录,如/root/home
touch:创建空文件,无任何内容
rm:用于删除一个文件或目录 -f 强制删除,无需用户确认 -r 将目录及以下所有递归逐一删除
-rf 直接删除目录下所有东西 -rf /* 删除根目录下所有东西(谨慎)
cp:用于复制文件或目录 -r 若给出的文件是目录,会复制该目录下所有的目录和文件
mv:用来为文件或目录改名,或者移动文件或目录
cat:用于连接文件并显示文件全部内容(适用于小文件)
more:用于翻页查看文件 space下翻 b上翻 (适用于大文件)
tail:用于查看文件的结尾部分的内容 -n 用于显示行数,默认为10 -f 用于实时显示文件动态追加的内容 (如数据采集)
echo:用于输出内容到console控制台上
|:管道命令:将前一个命令的结果给到第二个命令继续执行 命令1 | 命令2
>:输出重定向覆盖命令 commend > file
>>:输出重定向追加命令 commend >> file
tar: -c 创建新的备份文件(打包) -x 解包 -v显示指令执行过程 -f 指定备份文件
-z 指定压缩算法gzip算法 -xvf -cvf -C解压到指定目录 -zcvf XXXX.tar.gz -zxvf