技术学习|CDA level I 数据库应用(数据库相关概念)

1、数据库是存储、调用、分析数据的仓库,主要分为关系数据库和非关系数据库。数据库负责数据收集、数据整合、数据调用等工作。

2、数据库是表的集合,一个表是多个字段的集合,一个字段是由字段名和记录组成的一列数据。用于建立、使用和维护数据库的大型软件称为数据库管理系统(DBMS)

3、数据库分类

  • 关系数据库:关系数据库是用来存放结构化数据的数据库,关系数据库以行和列的形式存储数据,这一系列的行和列被称为表,一组表组成了数据库。结构化查询语言(SQL)是所有关系数据库的操作语言,可以对关系数据库进行数据收集、数据整合、数据加工等操作。

    • DB2(非开源、付费)、Oracle(非开源、付费)、MySQL(开源免费)、SQL Server(非开源、付费)

  • 非关系数据库:非关系数据库是用来存放非结构化数据的数据库,不像关系数据库那样局限于固定的结构,而是采取开放式结构来存储数据,其标准也不像关系数据库那样统一,常用的存储标准有键值对,即键(Key)对应值(Value),且对应的值可以采取不同的长度和类型。

    • 非关系型数据库不如关系型数据库应用较为统一,其类型非常多,操作语言也并不统一,其类型非常多,操作语言也并不统一,且针对不同的应用场景有不同的数据库应用系统。

    • 主流的非关系数据库有MongoDB、HBase等。

4、数据库的应用在整个业务描述性分析流程中主要解决第二步(数据获取),以及第三步(数据处理)。应用数据库进行数据的获取及处理的过程可以分为业务理解、数据理解、数据清洗及信息输出(或数据输出)4个环节。

在关系数据库中,数据库是按照字段、数据表、数据库的结构来存储和调用数据库的。

5、数据库、数据库管理系统和SQL之间的关系:数据库是存储、调用、分析相关数据的仓库。数据库管理系统是用于管理数据库(Oracle、MySQL、DB2、SQL Server等)的软件,一个数据库管理系统可以管理多个数据库。SQL(Structure Query Language,结构化查询语言)是对数据库进行存储、计算、查询、更新、管理等操作的语言。

6、SQL可以独立完成数据库生命周期的全部活动,根据不同的操作类型,SQL可以分为以下4类:

  • 数据定义语言(DDL):用于创建、修改、删除数据库中的各种对象(数据库、表、视图、索引等)。对于业务分析人员来说,可以使用DDL完成分析逻辑的自用数据库的建设和修改。常用的命令有create、alter、drop

  • 数据操作语言(DML):用于操作数据库中的记录,业务分析人员如果在分析中需要添加其他数据源的数据或者在删除不符合分析条件的数据时可以使用DML。常用的命令有insert、update、delete

  • 数据查询语言(DQL):用于查询数据库表中的记录,是业务分析人员最常用的语言类型,贯穿信息获取、数据获取、数据理解、数据清洗等多个环节,其主体结构为select <字段名> from <表或视图名> where <查询条件>

  • 数据控制语言(DCL):用于定义数据库访问权限和安全等级。业务分析人员通常不涉及该类型命令的使用,它常用于数据库管理员为业务分析人员开数据库相关权限。常用的命令有grant、revoke

7、SQL特点:对缩进、换行、大小写均不敏感;用英文的分号结尾

-- 单行注释
# 单行注释
/*多行注释*/

8、数据仓库

数据仓库(Data Warehouse)是一个面向主题(Subject Oriented)的、集成(Integrate)的、稳定(Non-Volatile)的、反映历史变化(Time Variant)的数据集合。

数据仓库侧重于数据分析工作,数据库中的数据按照一定的主题进行组织和存储,会对原有分散的数据库数据经过系统加工、整理、消除源数据中的不一致性。

数据仓库根据其作用的不同,最少分为3个层级,即ODS(Operational Data Store)层、DSA(Data Staging Area)层和EDW(Enterprise Data Warehouse)层。其中ODS层用来存储业务数据库在一个时间范围内新增或更新的数据,相当于业务数据库的一个非实时的缓存,因此其结构与原表结构类似,会对来自不同业务系统产生的数据进行初步的整理,如筛选分析所需的字段、统一不同来源数据的编码等;DSA层用于存储ODS层数据经过了抽取、清洗、转换等流程后所产生的格式和类型统一的数据;EDS层用于存储DSA层数据在根据维度和度量对数据进行重新抽象和冗余化简之后有利于分析数据抽取和展示的库表。

9、数据库与数据仓库的区别

实际上就是OLTP与OLAP的区别。操作型处理称为联机事务处理(On-Line Transaction Processing,OLTP),也可以称为面向交易的处理系统,针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发的支持用户数等问题。

分析型处理称为联机分析处理(On-Line Analytical Processing,OLAP),这种分析处理是针对事后的,它需要关注时间段内发生的所有有效数据,通过对数据进行分析来判断操作业务的过程是否正常,流程是否有优化的地方。

你可能感兴趣的:(CDA数据分析,数据分析,学习,信息可视化)