一、什么是表结构数据
表结构数据指的是数据库结构的数据:
• 以整列数据为基本计算单位
• 无法对某一个特定值进行操作
• 无法在行上进行操作
• 表中的行称做“记录”
• 表中的列称作“字段”
• 在数据库中,字段的集合为表,表的集合为数据库
二、表结构数据特征
• 一个字段只能有一种数据类型
• 用字段名来定位字段(就像excel表格结构数据中的列号)
• 表中所有字段的总行数一致
• 用表名来定义表
• 一般一个表中有一个主键,主键的特点是每一行记录中都没有空值与重复值,主键是表的记录单位,表中所有其他字段都是围绕主键展开的、主键用来识别定位表中的不同行(就像excel表格结构数据中的行号)
• 在记录中可以没有值,但没有值也占一行记录,没有值的地方在程序中被识别为null值,null值是人与计算机都无法识别的经常需要做替换空值的处理
三、表结构数据优势
• 优势1:可非常轻松地关联并整合多种不同数据源数据
• 优势2:可对大规模数据进行批量计算,其速度远大于表格结构数据
• 优势3:可在不同表间建立关联关系,让所有不同维度数据表整合为一个完整的多维数据模型
• 优势4:可对零散数值进行不同维度下的汇总观测
• 优势5: 多数表结构数据处理工具记录的是运算过程而非计算结果,所以一旦记录好一次完整、准确的运算过程,便可反复利用,可大幅减少在Excel传统工作表中进行的重复性工作。
四、关键知识点
①、一个表只能有一个主;一个主键可以有多个字段构成,为复合主键,一个字段构成的为单一主键;拿到一张表先识别主键是哪些字段
②、表格结构数据与表结构数据最明显的缺点是因没有主键特性,无法整合多维度数据
③、数据透视由维度、度量、汇总方法三部分组成;维度包含汇总维度(即观察维度,行列字段)和筛选维度(即观察条件,切片器);度量即值字段;汇总方法含求和、求平均、计数、最大值、最小值等5种常见聚合方法
④、有序型变量和名义型变量可以当作纬度;连续型变量当作度量,不可当作主键,若连续型变量需要作为纬度,需先通过分组转为有序型变量
⑤、两表横向连接结果通过三个属性决定
- 方向性:在SQL语句中写在前边的表为左表、写在后边的表为右表
- 主附关系:主表要出所有的数据范围,附表与主表无匹配项时标记为null,
内连接时无主附表之 分
- 对应关系:关键字段中有重复值的表为多表,没有重复值的表为一表
⑥、出维度的表作为主表时可以保证维度信息完整;出度量的表作为主表时可以保证度量值的准确。当选择维度和度量值哪方需要完整准确时,除特殊情况外一般以保证度量的完整为原则;除特殊情况外,两表连接汇总时,谁是多表谁出度量,谁出度量谁作为主表使用,所以多表出度量是主表,一表出维度是附表
五、注意事项:
①、维度的汇总是将原始数据中相同的多行值变为一行值的过程
②、度量的汇总是将原始数据中相同维度值对应的多个度量值按照汇总规则计算为一个值的过程
③、维度值和度量值是一对一的关系时,除计数汇总规则结果都是1外,其他汇总规则的结果和原始数据相同,所以以主键分组一般没有意义
④、两表合并后,一表出度量进行汇总时,汇总值会在多表重复项下翻倍
⑤、如果两表是多对多的连接关系,不管哪个表出度量都会在另一个表的重复项下翻倍
⑥、excel使用单引号''引用表名,方括号[]引用字段名
⑦、is null 来查找空值,数值型数据是空值,可以用0、算术平均数、中位数、0-1归化等填充,文本型数据需要与业务部门核对如何处理