数据库三范式原则:1NF:字段不可分; 2NF:有主键,非主键字段依赖主键; 3NF:非主键字段不能相互依赖;解释:
1NF:原子性 字段不可再分,否则就不是关系数据库;
2NF:唯一性 一个表只说明一个事物;
3NF:每列都与主键有直接关系,不存在传递依赖;
数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策
ETL是Data抽取(ExtraCt)、convert(Transform)、加载(Load )的简写,它是指:将OLTPSystam中的Data抽取出来,并将不同Data源的Data进行convert和整合,得出一致性的Data,然后加载到Data仓库中
ETL过程中四个基本的过程:分别是抽取(extract)、清洗(clean)、一致性处理(confirm)和交付(delivery),简称为ECCD。
数据库:是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度的特点、是与应用程序彼此独立的数据集合
数据集市:也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。
孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。
OLTP:OLTP为联机事务处理的缩写,OLAP是联机分析处理的缩写。前者是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据进行查询和增、删、改等处理。
OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。
粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。
多维数据集:多维数据集是联机分析处理 (OLAP) 中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术。多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。
维度:是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类的有组织层次结构(级别)。这些分类和级别描述了一些相似的成员集合,用户将基于这些成员集合进行分析。
度量值:在多维数据集中,度量值是一组值,这些值基于多维数据集的事实数据表中的一列,而且通常为数字。此外,度量值是所分析的多维数据集的中心值。即,度量值是最终用户浏览多维数据集时重点查看的数字数据。您所选择的度量值取决于最终用户所请求的信息类型。一些常见的度量值有 sales、cost、expenditures 和 production count 等。
元数据:不同 OLAP 组件中的数据和应用程序的结构模型。元数据描述 OLTP 数据库中的表、数据仓库和数据集市中的多维数据集这类对象,还记录哪些应用程序引用不同的记录块。
级别:级别是维度层次结构的一个元素。级别描述了数据的层次结构,从数据的最高(汇总程度最大)级别直到最低(最详细)级别。
数据挖掘:数据挖掘使您得以定义包含分组和预测规则的模型,以便应用于关系数据库或多维 OLAP 数据集中的数据。之后,这些预测模型便可用于自动执行复杂的数据分析,以找出帮助识别新机会并选择有获胜把握的机会的趋势。
多维 OLAP (MOLAP):MOLAP 存储模式使得分区的聚合和其源数据的复本以多维结构存储在分析服务器计算机上。根据分区聚合的百分比和设计,MOLAP 存储模式为达到最快查询响应时间提供了潜在可能性。总而言之,MOLAP 更加适合于频繁使用的多维数据集中的分区和对快速查询响应的需要。
关系 OLAP (ROLAP):ROLAP 存储模式使得分区的聚合存储在关系数据库的表(在分区数据源中指定)中。但是,可为分区数据使用 ROLAP 存储模式,而不在关系数据库中创建聚合。
混合 OLAP (HOLAP):HOLAP 存储模式结合了 MOLAP 和 ROLAP 二者的特性。
粒度:数据汇总的层次或深度。
聚合|聚集:聚合是预先计算好的数据汇总,由于在问题提出之前已经准备了答案,聚合可以改进查询响应时间。
切块:由多个维的多个成员限定的分区数据,称为一个切块。
切片:由一个维的一个成员限定的分区数据,称为一个切片。
数据钻取:最终用户从常规多维数据集、虚拟多维数据集或链接多维数据集中选择单个单元,并从该单元的源数据中检索结果集以获得更详细的信息,这个操作过程就是数据钻取。
数据挖掘模型:数据挖掘使您得以定义包含分组和预测规则的模型,以便应用于关系数据库或多维 OLAP 数据集中的数据。之后,这些预测模型便可用于自动执行复杂的数据分析,以找出帮助识别新机会并选择有获胜把握的机会的趋势。
数据规范化:指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。
关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。
数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
ROLAP:是基于关系数据库存储方式的,在这种结构中,多维数据被映像成二维关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。
MOLAP:是基于类似于“超立方”块的OLAP存储结构,由许多经压缩的、类似于多维数组的对象构成,并带有高度压缩的索引及指针结构,通过直接偏移计算进行存取。
数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
遗传算法:是一种优化搜索算法,它首先产生一个初始可行解群体,然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体,并最终达到全局最优。
聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。
决策树:是用样本的属性作为结点,用属性的取值作为分支的树结构。它是分类规则挖掘的典型方法,可用于对新样本进行分类。
频繁项集:指满足最小支持度的项集,是挖掘关联规则的基本条件之一。
支持度:规则A→B的支持度指的是所有事件中A与B同地发生的的概率,即P(A∪B),是AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。
可信度:规则A→B的可信度指的是包含A项集的同时也包含B项集的条件概率
贷款五级形态:贷款五级分类制度是根据内在风险程度将商业贷款划分为正常、关注、次级、可疑、损失五类。贷款五级分类制是银行主要依据借款人的还款能力,即最终偿还贷款本金和利息的实际能力,确定贷款遭受损失的风险程度,其中后三类称为不良贷款。此前的贷款四级分类制度是将贷款划分为正常、逾期、呆滞、损失四类。
信用卡催收:分为银行内催和委外催收两种,内催通常是指逾期三个月以内的客户一般由银行客服提醒(M0期间)或电催部门电联(M1、2期间)或各营业网点办事处上门(M3期间)进行逾期款项催缴;委外催收主要指信用卡中心对于一些难处理,有问题,失去联系或者小金额的客户群在经过内部催收无果后委托给专业从事催收行业的公司(部分是律师事务所)进行催缴。
贷款展期:贷款到期不能归还,经批准办理延长归还时间的手续。贷款到期就要归还,是企业必须遵守的信用原则,也是银行加速信贷资金周转的前提条件。如企业遇有特殊情况,确实无法按期还款时,应提出申请,说明情况,经银行审查同意后,可延长还款时间,但需办理转期手续,否则按逾期贷款处理。
动账交易:动帐指的是开通网银的帐户在网上发生业务.包括支付转帐,内部转帐、转存,网上缴费,买卖基金\股票等等。
计提:计算和提取。按规定的比率与规定的基数相乘计算提取,列入某科目。