/*
大学生一枚,只为分享知识别无他求,有兴趣一起交流,相互激励,共同进步
关注个人微信公众号:飞享
文中相应链接都是对应知识点补充说明
*/
数据仓库
1.数据仓库:面向主题的,集成的,稳定的,反映历史变化的数据集合,通常用于辅助决策支持。
2.元数据:描述数据仓库内数据的结构和建立方法的数据。
3.元数据是数据仓库运行和维护的中心内容,数据仓库系统对数据的存取和更新都需要元数据信息。
4.根据元数据用途的不同可将元数据分为技术元数据和业务元数据。
5.访问工具:用户访问数据仓库提供的手段,数据查询和报表工具,应用开发工具,数据挖掘工具,数据分析工具。
6.数据仓库数据库:数据信息存放的地方,对海量数据进行存取和检索支持。
7.数据抽取工具:把数据从各种各样的存取环境中提取出来,进行必要的转化,整理,再存放到数据仓库内。
8.数据转换内容:删除对决策分析没有意义的数据,转换到统一的数据名称和定义,计算统计和衍生数据,填补缺失数据,统一不同的数据定义方式。
9.数据集市:为了特定的应用目的,从数据仓库中独立出来的一部分数据,也称为部门数据或主题数据。
10.数据仓库管理:包括安全和权限管理,数据更新的跟踪,数据质量的检查,元数据的管理与更新,数据仓库的使用状态的监测与审计,数据复制与删除,数据分割与分发,数据备份与恢复,数据存储管理。
11.信息发布系统:用于把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。
12.数据挖掘:从大量数据中获取有效的,新颖的,潜在有用的,最终可理解的模式的过程。就是从大量数据中提取和挖掘知识。
13.数据处理分两类:联机事务处理(OLTP),联机分析处理(OLAP)
14.数据挖掘步骤:
a.数据清理:消除噪声数据
b.数据集成:多种数据组合在一起
c.数据选择:选择相关数据
d.数据变换:汇总等操作将数据变换成适合挖掘的数据
e.数据挖掘:对数据进行操作
f.模式评估:根据某种模式来评估其价值
g.知识表示:可视化表现
15.数据仓库的粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。
16.数据仓库与数据挖掘的区别:数据仓库是一种存储技术,适应于不同用户对不同决策需要提供所需的数据和信息。数据挖掘研究各种方法和技术,从大量信息中挖掘出有用的信息和知识。
17.多维数据模型:星型模型,雪花模型,星网模型,第三范式
18.ETL过程:数据仓库的数据获取需要经过抽取,转换,装载三个过程。
19.基本多维数据分析的基本操作:切片,切块,旋转,钻取。
20.粒度:数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,层次级别越低;数据综合度越高,粒度越大,层次级别越高。
21.数据仓库关键环节:数据抽取,数据存储与管理,数据表现。
22.商业智能:商业智能以数据库为基准,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速准确的决策。
23.数据仓库是一个作为决策支持和联机分析应用系统数据源的结构化数据环境,数据仓库要研究和解决的就是从数据库中获取信息的问题。
24.数据仓库组成:数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统。
25.数据仓库体系结构模型:两层体系结构,基于独立数据集市的体系结构,基于依赖型数据集市和ODS的体系结构,基于逻辑型数据集市的实时数据仓库体系结构。
26.操作型数据存储:集成的,面向主题的,可更新的,当前值的,企业级的,详细的数据,也叫运营数据存储。
27.实时数据仓库:意味着源数据系统,决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。
28.数据仓库发展演变的5个阶段:以报表为主,以分析为主,以预测为主,以营运导向为主,以实时数据仓库和自动决策为主。
数据仓库与数据存储
1.调和数据是存储在企业级数据仓库和操作型数据仓库中的数据
2.数据仓库中的数据分为状态数据和事件数据
3.数据抽取:从不同网络,不同的操作平台,不同的数据库及数据格式,不同的应用中抽取数据。
4.数据转换:数据转化,数据的重新格式化和计算,关键数据的重新构建,数据汇总,数据定位。
5.数据加载:将数据加载到目标数据仓库,通常需要跨网络,跨操作平台进行加载。
6.数据的ETL过程就是将操作型数据转换成调和数据的过程。
7.ETL过程:抽取,清洗,转换,加载和索引。
8.数据抽取的类型分为静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
9.使用星型模式可以从一定程度上提高查询效率,星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。
10.维度表一般由主键,分类层次,描述属性组成。主键分自然键和代理键。
11.雪花模型是对星型模式维表的进一步层次化和规范化来消除冗余数据。
12.数据仓库中存在不同综合级别的数据。分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。
13.数据结构的三层结构:
数据从企业内外部的各业务处理系统流向企业级数据仓库或操作型数据存储区,根据企业的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层将数据引入导出数据层,形成满足各类需求的数据集市。
14.星型模式中,事实表居中,多个维表呈辐射状分布于四周,并与事实表连接。位于星型中心的实体是事实表,是用户最关心的基本实体和查询活动中心,为数据仓库的查询活动提供定量数据。位于星型模式四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围。每个维表都有自己的属性,维表和事实表通过关键字相连。
15.时间总是数据仓库或数据集市的维,因为数据仓库或数据集市的数据总是历史的数据,需要时间维来区别。
数据仓库的建立
1.数据仓库的概念模型通常采用信息包图法来进行设计,五个组成部分:名称,维度,类别,层次,度量。
2.数据仓库的逻辑模型通常采用星型图法来设计。
3.按照事实表中度量的可加性,事实表对应的事实分为四种类型:事务事实,快照事实,线性项目事实,事件事实。
4.确定数据仓库的粒度模型之后,为提高数据仓库的使用性能,还需要根据用户需求设计聚合。
5.在项目实施时,根据事实表的特点和用户查询需求,可以选用时间,业务类型,区域和下属组织等多种数据分割类型。
6.当维表中的主键在事实表中没有与外界关联时,这样的维称为退化维。
7.维度可以根据变化快慢分为:无变化维度,缓慢变化维度,剧烈变化维度。
8.数据仓库的数据量一般很大,且数据更新很少,可以通过设计和优化索引结构来提高数据存储性能。
9.信息包图法:也叫用户需求表,在一张平面表格上描述元素的多维性,其中的每一个维度用平面表格的一列表示,通常的维度如时间,地点,产品和顾客等;而细化本列的对象就是类别,例如时间维度可以细化到年月日等;平面表格的最后一行即为指标度量值。创建信息包图需确定最高层和最底层的信息需求,以便最终设计出包含各个层次需要的数据仓库。
10.数据仓库设计过程:收集分析和确认业务需求,分析理解主题和元数据、事实及其度量、粒度和维度的选择与设计、数据仓库的物理存储方式的设计。
11.数据仓库系统设计过程:
a.收集和分析业务需求
b.建立数据模型和数据仓库的物理设计
c.定义数据源
d.选择数据仓库技术和平台
e.从操作型数据库中抽取,清洗,转换数据到数据仓库。
f.原则访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件
g.更新数据仓库
https://wenku.baidu.com/view/0b0d44785bcfa1c7aa00b52acfc789eb172d9e1b.html?rec_flag=default&sxts=1560318635557
补充
1.雪花模型:雪花模型中某些维表是规范化的,因而把数据进一步分解到附加的表中,模式图形成了类似雪花的形状。通过最大限度的减少数据存储量以及联合较小的维表来改善查询性能。雪花模型增加了用户必须处理的表的数量,增加了某些查询的复杂性,但同时提高了灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。
2.OLAP:联机分析处理,是使分析人员,管理人员或执行人员能狗从多角度对信息进行快速,一致,交互的存取,从而获得对数据的更深入了解的一类软件技术。支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
3.决策树:将训练集函数表示成树结构,通过他来近似离散值的目标函数。是一种有向树,以训练集的一个属性做节点,属性所对应的一个值做边。决策树一般都是自上而下的来生成的。
4.元数据管理在数据仓库中的运用:
元数据能支持系统对数据的管理和维护,五类系统管理功能:
a.描述哪些数据在数据仓库中
b.定义要进入数据仓库中的数据和数据仓库产生的数据
c.记录根据业务数据发生而随之进行的数据抽取工作时间安排。
d.记录并检测系统数据一致性的要求和执行情况。
e.衡量数据质量。
5.数据挖掘对聚类的数据的要求:
a.可伸缩性
b.处理不同类型属性的能力
c.发现任意形状的聚类
d.使输入参数的领域知识最小化
e.处理噪声数据的能力
f.对于输入顺序不敏感
g.高维性
h.基于约束的聚类
i.可解释性和可利用性
6.aprior算法思想:
第一步:迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阈值的项
第二步:利用第一步检索出的烦琐项集构造出满足用户最小信任度的规则
7.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为中心和辐射架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。
8.运营数据存储,ODS:是一个集成的,面向主题的,可更新的,当前值的,企业级的,详细的数据库。
9.贝叶斯网络的两部分组成:网络结构和条件概率表
10.数据仓库常见的存储优化方法:
a.表的归并与簇文件
b.反向规范化,引入冗余
c.表的物理分割
https://wenku.baidu.com/view/8c08ad5976eeaeaad0f3307a.html
一.关联规则https://blog.csdn.net/sealyao/article/details/6460578
1.经典关联规则算法:Apriori算法和FP-growth算法
2. Apriori算法:多次扫描交易数据库,每次利用候选频繁集产生频繁集;
3. FP-growth算法:利用树形结构,无须产生候选频繁集而是直接得到频繁集,大大减小扫描交易数据库的次数,从而提高算法效率。
4.关联规则:发现隐含的关联关系,并用规则的形式表现出来。反映一个事物与其他事物之间的相互依存性和关联性。
5.关联规则分为产生频繁集和产生规则两个步骤
a.找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集
b.利用频繁项集生成所需要的关联规则,根据用户设定的最小可信度进行取舍,产生强关联规则
6.关联规则分为:一维和多维关联规则,单层和多层关联规则,布尔型和数值型关联规则
7.项集:项目元素的集合
8.支持度:项集出现的次数除以总的记录数
9.置信度:在X出现的条件下,Y发生的概率
10.频繁集:支持度大于等于最小支持度的项集称为频繁项集
11.强关联规则:支持度和可信度分别大于最小支持度和最小可信度
二.数据分类
1.分类:把数据样本映射到一个事先定义的类中的学习过程,即给定一定输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。
2.数据集通过描述属性(连续或离散数据)和类别属性(离散数据)来表示
3.分类的过程:获取数据,预处理,分类器的设计,分类决策
获取数据:包括物理数据和逻辑数据
预处理:去除噪声数据,对空缺值进行处理。数据集成或者变换。
分类器设计:划分数据集(训练集和测试集),分类器构造,分类器测试
分类决策:利用该分类器对未知类标号的数据样本进行实际的分类决策
4.评价准则:精确度,查全率,查准率,F-measure,几何均值的计算
5.支持向量机常用核函数:多项式核函数,径向核函数,S型核函数
6.ID3构造决策树
三.数据聚类
1.聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程。聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。
2.聚类算法的分类:划分聚类方法,层次聚类方法,基于密度的聚类方法,基于网格的聚类方法
3.数据样本之间的相似度通常用样本间的距离来表示,而距离是通过数据样本的描述属性的具体取值来计算的。
4.聚类分析包括:连续型,二值离散型,多值离散型,混合类型四种类型描述属性的相似度计算方法。
5.连续型属性的数据样本之间的距离有:欧式距离,曼哈顿距离,明考斯基距离。
6.划分聚类方法对数据集进行聚类时包含三个要点:选定某种距离作为数据样本间的相似性度量,选择评价聚类性能的准则函数,选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。
7.层次聚类的方法包括:凝聚型层次聚类,分解型层次聚类
8.数据挖掘技术对聚类分析的要求:可伸缩性,处理不同类型属性的能力,发现任意形状聚类的能力,减小对先验知识和用户自定义参数的依赖,处理噪声数据的能力,可解释性和实用性。
四.贝叶斯网络
1.先验概率:根据历史资料或主观判断所确定的各种事件发生的概率,该概率没有经过实验证实,属于检验前的概率。
2.后验概率:通过贝叶斯公式,结合调查等方式获取了新的附加信息,对先验概率修正后得到的更符合实际的概率。
3.条件概率:当条件确定后,某事件发生的条件概率。
4.贝叶斯网络:信念网络,因果网络,是描述随机变量之间依赖关系的一种图形模式,是一种用来推理的模型。
5.贝叶斯网络通过有向图的形式来表示随机变量间的因果关系,并通过条件概率将这种关系数量化,可以包含随机变量集的联合概率分布,是一种将因果知识和概率知识相结合的信息表示框架,使得不确定性推理在逻辑上变得更为清晰,理解性更强。
6.贝叶斯网络由网络结构和条件概率表两部分组成。
7.贝叶斯网络三个议题:预测,诊断,学习。
8.基于贝叶斯网络的学习包括:结构学习,参数学习
五.粗糙集
1.粗糙集:粗糙集理论是一种新型处理不完整和不确定性问题的数学工具,它能对不完整资料进行分析,推理,学习和发现,具有很强的知识获取能力。
2.决策表:具有条件属性集和决策属性集的知识表达系统称为决策表。
3.等价关系:关系是自反的,对称的,传递的。
六.神经网络
1.神经网络类型:前向型,反馈型,随机型,自组织竞争型。
2.神经元:神经网络的基本计算单元,又称为处理单元或结点,一般是多个输入,一个输出的非线性单元,可以有一个内部反馈和阈值。
3.神经网络中的特性函数:分段线性特性函数,阈值特性函数,S型逻辑特型函数
4.神经网络通常包括一个输入层和一个输出层,以及若干隐藏神经元组成的隐层。无隐层为单层神经网络,否则称为多层神经网络。
5.神经网络按照是否有反馈层,分为前馈神经网络和反馈神经网络。
6.网络结构包括神经元数目,隐含层数目,连接方式等。
7.前馈网络和递归网络的本质区别是网络的某些输出是否循环作为网络的输入。前馈网络的所有输出都不能作为输入,而递归网络的某些输出可以循环作为网络的输入。
8.多层前馈网络中隐藏神经元的作用是增强网络的适应能力,通过隐藏层,多层前馈网络可以逼近系统中任意非线性的成分。
9.在BP算法中,总体误差对网络输出的偏导数和有序导数始终一致。因为总体误差与网络输出变量之间没有中间变量。总体误差对网络输入的偏导数和有序导数是不一致的。因为总体误差和输入变量之间是有中间变量。
七.遗传算法
八.统计分析
九.文本和web挖掘
1.web挖掘的三个主要类别:web内容挖掘,web结构挖掘,web使用挖掘
web内容挖掘:文本挖掘,多媒体挖掘
web结构挖掘:超链接挖掘,页面结构挖掘
web使用挖掘:用户访问模式挖掘,分析定制web站点
2.查准率:检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性。
查全率:检索出的文档中的相关文档占全部相关文档的百分比,他所衡量的是检索系统的全面性。
3.信息检索:用户从包含各种信息的文档集中查找所需要的信息或知识的过程。
4.信息模型建立方法:布尔模型,向量模型,概率模型
5.检索模型三要素:文本集,用户提问,文本与用户提问相匹配
6.关联分析对文本数据库进行语法分析,抽取词根等预处理,生成关键字向量,根据关键字查询向量与文档向量之间的相关度比较结果,输出文本结果,然后调用关联挖掘算法。
7.文本挖掘两个阶段:关联挖掘阶段,规则生成阶段
8.文本聚类步骤:获取结构化的文本集;执行聚类算法,获得聚类谱系图;选取合适的聚类阈值。
9.自动摘要信息系统构成:信息的理解,主题信息的提取,摘要生成
10.自动摘要步骤:对文档的预处理;过滤;分词
11.搜索引擎组成:搜索器,索引器,检索器,用户接口
算法逻辑题:
1.k-means聚类
2.层次聚类
3.aprior关联规则算法
4.FP-tree关联
https://www.cnblogs.com/pinard/p/6307064.html
5.决策树ID3算法分类
https://blog.csdn.net/qq_28697571/article/details/84678889
6.近邻分析与k近邻分析算法分类
数据仓库:
https://blog.csdn.net/ycy258325/article/details/52811013
https://blog.csdn.net/jack0511/article/details/3863501
https://blog.csdn.net/weixin_40449300/article/details/87384104
//欢迎关注个人微信公众号:飞享