python+大数据学习打卡day1

【大数据从0-1打卡-day1】

1、简单了解一些关于大数据的概念

数据:数据就是对客观事件进行记录并可以鉴别的符号。他不仅仅是指数字,还可以是有一定意义的字母、文字、符号、语音、文字、图画、视频或者这些元素的结合等。

企业数据分析方向:现状分析:离线分析

原因分析:实时分析

预测分析:机器学习

数据分析基本流程:采集、处理、分析、应用

大数据:大数据(big data),指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。简单来说就是大量的数据,通过进行处理得到一些结论或规律。

分布式与集群:相同点是与单机对立,都是由多机所组成的。不同点是分布式是多操作系统的,集群是单操作系统的。

操作系统分类:桌面操作系统:mac、Windows、Linux

嵌入式操作系统:多用于军事、工业、航空

服务器操作系统:Unix、Linux、Windows 、netware

移动设备操作系统:Android、ISO、harmony等

2、Linux:内核:系统的核心部分

发行版本:内核与各种常用软件的集合产品 常用的版本有Ubuntu、Redhat、centos等

Linux是最初始的操作系统,现在大部分的开发还是在Linux系统中进行。

3、vm虚拟机的安装及centos操作系统的导入

4、虚拟机的常规使用和快照

基本操作:启动、停止、重启、挂起

快照:用于记录某一点的状态,用于备份恢复 注意:如果需要快照跳转恢复,自己电脑的所有虚拟机都要进行同时恢复,避免虚拟机处于多种不同状态。

5、finalshell

ssh协议:用户加密实现远程登录、服务器之间的免 密登录。

finalshell的下载安装以及与Linux的连接(可以更好的操作Linux系统)

6、Linux文件系统概念

Linux系统不同于我们常用的Windows系统,Linux是以根目录为起点,下设其他文件夹,形成文件夹树类的系统,不再有盘的概念。

路径:当前路径、相对路径、绝对路径

如果路径以.开始则表示当前路径,如果名字上以.开始代表此文件处于隐藏中     

..代表当前路径的上一级    ~代表当前目录的home目录         /代表根目录

7、Linux常用操作命令

小技巧:熟能生巧、tab键可以自动补全和提示、history可以查看历史操作

ls:显示指定工作目录下的内容     -a  查看所有文件(包括隐藏文件)  -l显示当前目录下文件及详细属性   -la  显示所有文件及详细信息

cd:用于切换当前工作目录

pwd:查看当前路径

mkdir:创建目录      -p  可以连创两级目录,如/root/home

touch:创建空文件,无任何内容

rm:用于删除一个文件或目录   -f 强制删除,无需用户确认   -r 将目录及以下所有递归逐一删除

-rf 直接删除目录下所有东西         -rf /* 删除根目录下所有东西(谨慎)

cp:用于复制文件或目录    -r  若给出的文件是目录,会复制该目录下所有的目录和文件

mv:用来为文件或目录改名,或者移动文件或目录

cat:用于连接文件并显示文件全部内容(适用于小文件)

more:用于翻页查看文件  space下翻   b上翻    (适用于大文件)

tail:用于查看文件的结尾部分的内容    -n  用于显示行数,默认为10     -f 用于实时显示文件动态追加的内容   (如数据采集)

echo:用于输出内容到console控制台上

|:管道命令:将前一个命令的结果给到第二个命令继续执行      命令1 | 命令2

>:输出重定向覆盖命令      commend > file

>>:输出重定向追加命令     commend >> file

tar: -c 创建新的备份文件(打包)    -x 解包     -v显示指令执行过程   -f 指定备份文件

-z  指定压缩算法gzip算法   -xvf   -cvf   -C解压到指定目录   -zcvf XXXX.tar.gz    -zxvf   

你可能感兴趣的:(big,data,学习)