1.1、Linux基础--大数据简介

1.大数据定义:
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.大数据技术体系
(1)开发语言:scala、Java、Python
存储:PB
(2)大户据的业务处理流程:
数据源
数据清洗
数据存储
数据分析
数据结果展示
(3)大数据主要技术构成
数据源(Flume)
数据清洗(Hive(MapReduce))
数据存储(HDFS、Hive、Impala、HBase)
数据分析(Hive、Impala、Spark)
数据结果展示,数据迁移(Sqoop)
大数据协调框架ZK、Oozie/Azk
项目实战
(4)大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
3.机器学习定义:
机器学习就是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型测试其他数据,最终获得满意的经验来处理其他数据。
学习主题:大数据环境和理解大数据相关概念
学习目标:
一、安装大数据环境
1、虚拟机的安装、linux安装
1.自定义
2.硬件兼容性:Workestation 11.0
3.稍后安装操作系统
4.选择客户机操作系统:Linux
5.命名虚拟机
6.处理器配置:2 2 4
7.虚拟机内存不能小于1024(设置的太大电脑带不动)
8.网络类型:使用网络地址转换(NAT)(E)
9.选择I/O控制器类型:LSI Logic
10.选择磁盘类型:SCSI(s)
11.选择磁盘:创建新虚拟磁盘
12.指定磁盘内容20GB(有的是100GB)
13.指定磁盘文件hadoop01.vmdk
14下一步就要装系统了:
双击CD:
使用ISO映像文件(mini)
15.确定–》开启虚拟机–》点击enter
16.点击skip–》ok
17.选择中文
18.选择美式英语
19.选择基本存储设备
20.选择:是,忽略所有数据
21命名主机名:hadoop01
22.地区选择中国上海
23.根密码:123456
24.使用所有空间–》点击重新引导
25.验证一下:
重启之后:用户名:root
密码:123456
ls
1.1、Linux基础--大数据简介_第1张图片
意味着系统安装成功。
2.配置网络环境
虚拟网络的配置:
输入ifconfig:
1.1、Linux基础--大数据简介_第2张图片
输入:cd /etc/sysconfig/network-scripts/(注意cd后面是空格)
输入:ls(作用就是展示目录)
输入vi ifcfg-eth0
1.1、Linux基础--大数据简介_第3张图片
删除第二行:HWADDR=…(如果无法删除,按INS(A1)键)
修改ONBOOT=yes
修改BOOTPROTO=static
添加IPADDR=192.168.33.3(最后这个数字是3-254之间)
添加NETMASK=255.255.255.0
添加GATEWAY=192.168.33.2
DNS1=114.114.114.114
DNS2=8.8.8.8
点击ESC键–》:wq按回车
再跳转目录:cd /etc/udev/rules.d/
输入ls:出现四个文件:
1.1、Linux基础--大数据简介_第4张图片
输入删除指令:rm -f 70-persistent-net.rules
在输入ls查看是否删除
输入poweroff关闭虚拟机
配置成功后查看
打开虚拟机之后输入
用户名:root
密码:123456
ifconfig(这是查看IP地址的)
出现:
1.1、Linux基础--大数据简介_第5张图片
输入ping www.baidu .com
1.1、Linux基础--大数据简介_第6张图片
按CTRL+c停止运行。
3.大数据
大数据的定义:
麦肯锡全球研究所:
一种规模大到获取、存储、管理、分析方面大大超出了传统和读数据库软件工具能力范围的数据集合。
数据多到爆表(PB级别)
数据单位:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
大数据的特点:
大数据的5V特点(IBM提出):
Volume(大量):PB级别
Velocity(高速):获取数据速度和分析数据的速度
Variety(多样):来源复杂
Value(低价值密度):高价值
Veracity(真实性)。
大数据的结构:
(1)结构化数据:
简单来说就是数据库
是由二维表结构来逻辑表达和实现的数据
(2)非结构化数据:(比较多,在大数据中操作的数据基本上是非结构化数据)
数据结构不规则或不完整
没有预定的数据类型
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据
1.1、Linux基础--大数据简介_第7张图片
我们身边那些是大数据:
电信数据:通信数据、短信数据、手机浏览数据
银行数据:
微信聊天数据:
大数据为我们带来了什么;
(1)数据挖掘
用户画像
知识图谱
(2)人工智能
Google的“阿尔法狗”
IBM的“沃森”
阿里巴巴的“ET”
百度的“无人驾驶技术”
(3)区块链
数字货币
物联网
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:

特征
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
种类(Variety):数据类型的多样性;
速度(Velocity):指获得数据的速度;
可变性(Variability):妨碍了处理和有效地管理数据的过程。
真实性(Veracity):数据的质量
复杂性(Complexity):数据量巨大,来源多渠道
价值(value):合理运用大数据,以低成本创造高价值

你可能感兴趣的:(Linux基础)