大数据开发-第一章 大数据概论

第一章 大数据概论

大数据开发:
数据分析师:python+可视化+SQL
大数据做----数据处理
python做----数据分析(python+机器学习/人工智能)

定义
数据: 世界的本质就是数据
大数据:有价值的海量数据。无法在一定时间范围内用常规软件工具进行捕获、管理、处理的数据集合。因此需要新的处理模式,该处理模式就是大数据

大数据开发-第一章 大数据概论_第1张图片
bit – Byte – k千–MB兆–G吉–T太
1条数据 =0.2kb-2kb 之间

大数据处理问题:存储问题+计算问题
大数据特点:大、多、值、快、信
大数据开发-第一章 大数据概论_第2张图片
种类:
结构化数据:文字,数字
非结构化数据:图片、音频、视频
半结构化:json

来源:
excel中一个sheet页最多存储6万条
mysql单表达到百万数据列后,会非常卡、慢
所以,数据量太大,MySQL处理不了—大数据来了

应用:
银行里给用户打标签—人物画像—逻辑回归算法
广告营销,让互联网更懂你
落地的产品–大数据干不了–算法团队来做个性化推荐
spark中也自带一些算法,但是通用性的

大数据分析流程
大数据开发-第一章 大数据概论_第3张图片
岗位
大数据开发-第一章 大数据概论_第4张图片
Linux必学,所有组件都是Linux搭建的

第一章 Linux

硬件:键盘、鼠标、内存条。。主要是CPU、存储、输入输出设备
软件:指程序。系统软件:window10 应用软件:手机里的APP
操作系统OS :控制和管理硬件与软件

Linux创始人:林纳斯 吉祥物:企鹅

虚拟机:虚拟出来的计算机,将Linux安装在虚拟机上面
VMware 兼容性很强,快照功能

为什么用CRT远程连接工具–不能一直呆在机房里
Linux文件系统没有盘符的概念,就是没有C盘D盘,都是从根目录进
自带的目录不要动
常见的目录介绍:
大数据开发-第一章 大数据概论_第5张图片
大数据开发-第一章 大数据概论_第6张图片

Linux常用命令

命名格式: command -options paramaters

绝对路径or相对路径
绝对路径:从根目录开始
相对路径:从当前目录开始

ls :

list 的缩写 。列出指定目录(文件夹)的内容。
‘指定’是指可以写目录
ls /root
ls /root /home --同时查看多个目录
ls --查看正常文件夹
蓝色-文件夹 黑色-文件
ls -a —查看当前目录下的非隐藏+隐藏文件夹 (a指all)
ls -l —以列表形式显示文件(l指list)-----简写成ll
d----direction 目录,-文件
-h :显示大小,带单位,与-l结合使用—ls -l -h ll -h

pwd : 显示当前目录的绝对路径

cd :change direcory 切换目录

cd… --切换到上级目录
大数据开发-第一章 大数据概论_第7张图片
从big59的test1----到 bigdata_59的test1
绝对路径:cd /bigdata_59/test1
相对路径:cd …/…/bigdata_59/test1

cd --回到登录用户的家
itcast用户登录,回到/home/itcase (如果普通用户回到home)
root 用户登录,回到/root

cd 目录 --切换到该目录地方

mkdir:make directory 创建文件夹

mkdir 目录 :不能跨级创建文件夹
-p :递归创建有层级的文件夹,先检查后创建
test11与test111都不存在时
mkdir test1/test11/test111 报错
mkdir -p test1/test11/test111 先检查后创建,test11不存在就先创建,test11创建后接着创建test11

Linux环境下是区分大小写的

回顾:

ls :list

  • ls-l
  • ls-a
  • ls -l-h

pwd
cd

  • cd …
  • cd - 临近的两个目录间切换

mkdir

  • mkdir -p 目录

rm :remove,删掉到垃圾桶

rm 文件名 --删除文件名
rm -r 文件夹名 -删文件夹
rm 文件 -f ----强制删除(f指force)
rm -f 文件夹名 —强制删除文件夹(不要在根目录下删)

CTRL+c 终止当前

你可能感兴趣的:(大数据开发,大数据)