1
1.1
数据分析的定义
数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据分析的目的
数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出研究对象的内在规律。
数据分析的六大步骤
明确目的和思路(先决条件、提供项目方向)、数据收集(数据库建立)、数据处理(清洗、转化、提取、计算)、数据分析(数据统计、数据挖掘)、数据展现(图标、表格、文字)、报告撰写(结构清晰,明确结论、提出建议)
数据分析中数据来源的四种方式
数据库、第三方统计工具、统计年鉴或报告、市场调查
数据分析的类型和各个类型的定义
描述性数据分析:自一组数据中,可以摘要并且描述这份数据的集中和离散情形
验证性数据分析:验证科研假设,测试所需的条件是否达到,以保证验证性分析的可靠性。
探索性数据分析:从海量数据中找出规律并产生分析模型和研究假设
注:探索性数据分析侧重于在数据中探索新的特征,验证性数据分析侧重于验证之前假设的真伪性;探索性数据分析以及验证性数据分析属于高级分析方法,常见的分析方法有相关分析、因子分析、回归分析等。
常用的数据分析方法
聚类分析、回归分析、方差分析、对应分析、因子分析、相关分析
数据挖掘的过程
A、数据清理(消除噪声和删除不一致数据)。
B、数据集成(多种数据源可以组合在一起)。
C、数据选择(从数据库中提取与分析任务相关的数据)。
D、数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)。
E、数据挖掘(基本步骤,使用智能方法提取数据模式)。
F、模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式。
G、知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
1.2
4V
Volume(大量化)、Variety(多样化)、Velocity(快速化)、Value(商业价值高、价值密度低)
3.
数据预处理的主要任务及目的
数据清洗、数据集成、数据规约、数据变换
数据清洗:填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致
数据集成:多个数据库, 数据立方体, 或文件的集成(合并多个数据源中的数据,存入一个一致的数据存储中)
数据规约:得到数据的归约表示, 它小得多, 但产生相同或类似的分析结果:维度规约、数值规约、数据压缩
数据变换:规范化和聚集
数据预处理解决的问题
数据清洗:去除脏数据(可以具体点,比如什么样的脏数据,包括离群数据)
数据集成:合并多个数据源中的数据,存入一个一致的数据存储中。数据规约:数据归约(消减)技术用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性。这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同。
数据集成涉及的问题
主要涉及模式集成(在中介模式与源数据模式上建立映射关系)、属性冗余(可以分局协相关系数、视觉散点图、卡方检验等方法判断两个属性之间的相关性)、实体识别、去除重复数据、数据值冲突的检测与处理(表示、比例或编码不同)
数据归约的常见方法
数据立方体聚集:数据立方体是数据的多维建模和表示,由维和事实组成。
维规约:减少所考虑的随机变量或属性的个数(去除无关的属性,找出最小属性子集并确保属性子集的分布接近原来数据集的概率分布)
数值规约:用替代的、较小的数据表示形式替换原数据。这些技术可以是参数的或非参数的:
参数方法而言,使用模型估计数据,使得一般只需要存放模型参数,而不是实际数 据(离群点可能也要存放)。回归和对数-线性模型就是例子。
非参数方法包括直方图、聚类、抽样和数据立方体聚集。
数据压缩:使用变换,以便得到原数据的归约或“压缩”表示,分为有损和无损压缩,维归约和数值归约也可以视为某种形式的数据压缩。
离散化与概念分层生成:
3-4-5规则:
如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(72,3,2)
如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;
如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;
将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;
对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间(如 5%-95%),越出顶层分段的特别高和特别低的采用类似的方法形成单独的区间。
数据转换常用的技术
光滑(去除噪声,如分箱、聚类、回归)、聚集(avg、sum。。。。)、属性构造(长和宽构造面积)、数据概化(泛化)、规范化(最大最小规范化、Z-score规范化(又叫零-均值规范化,数据与均值的差再比上数据集的方差)、小数定标规范化(移动小数点)
4.
OLTP的特点
主要任务是进行事物处理(OLTP),它所关注的是事物处理的及时性、完整性与正确性,而在数据的分析处理方面,则存在着不足,主要体现在:集成性的缺乏、主题不明确、分析处理效率低
数据仓库的概念
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented )、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策和信息的全局共享。
面向主题的:在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象;在逻辑意义上,它对应企业中某一宏观分析领域所涉及的分析对象
集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的
反映历史变化: 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
数据仓库的目的
数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持 。
传统数据库与数据仓库的比较
比较项目 传统数据库 数据仓库
总体特征 围绕高效的事务处理 以提供决策为目标
存储内容 以当前数据为主 历史、存档、归纳
面向用户 普通业务处理人员 高级决策管理人员
功能目标 面向业务操作,注重实时 面向主题,注重分析
汇总情况 原始数据 多层次汇总,数据细节损失
数据结构 结构化程度高,适合运算 结构化程度适中
数据仓库数据组织的四个粒度
早期细节级、当前细节级、轻度综合级、高度综合级
源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合 从而进入轻度综合级及至高度综合级。
老化的数据将进入早期细节级。
数据分割
将数据分散到各自的物理单元中, 以便能分别独立处理,以提高数据处理效率。(可以按照地理位置、业务类型、时间等进行分割)
数据仓库的构建方式
自顶向下:从总体设计和规划开始,先建造企业数据仓库,再从企业数据仓库中建造数据集市。
优:系统的解决方法,能最大限度地减少集成问题。
缺:费用高、费时长,缺乏灵活性, 因为整个企业的共同数据仓库模型要达到一致 很困难。
自底向上:由实验和原型开始,从设计和实现各个独立数据集市开始,先建立部门数据集市,逐步扩展到企业数据仓库。
优:花费少、灵活性高、能快速回报投资
却:将分散的数据集市集成为一个一致的企业仓库可能很困难。
数据仓库的三种模型
企业仓库:收集跨越整个企业的所有主题的信息。
提供全企业范围的数据集成,数据通常来自多个操作形数据库和外部信息的提供者,并且跨多个功能范围。
企业仓库通常包含详细数据和汇总数据,一般在传统的大型机上实现,如UNIX超级服务器或并行结构平台。
数据集市:包含对特定用户有用的、企业范围数据的一个子集, 其范围限于选定的主题。
按数据来源可为两种:
依赖的数据集市: 数据来自中央数据仓库, 可满足部门的数据分析的需要, 而且与中央数据仓库数据一致。
独立的数据集市: 数据直接来自业务系统。
虚拟仓库:操作型数据库上视图的集合。
为有效处理查询,仅一些可能的汇总视图被物化。
虚拟仓库易建立,但要操作型数据库服务器有剩余能力。
数据仓库与数据集市的区别
范围:企业级;部门级
主题:企业主题;部门或特殊的分析主题
数据粒度:最细的粒度;较粗的粒度
历史数据:大量的历史数据;适度的历史数据
优化:处理海量数据、数据探索;便于访问和分析、快速查询
概念模型设计————ER模型
在建模之前定义数据模型的边界,
然后建立企业内不同群体的实体-联系模型,
最后进行集成企业的总体概念模型。
逻辑模型设计————星型、雪花模型
(1)进行概念模型(E—R图)到逻辑模型(星型模型)的转换
(2)粒度层次划分
(3)关系模式定义
(4)定义记录系统
物理数据模型————物理模型(包括存储结构、存储方法、索引结构、存储分配等)
创建数据仓库的基本步骤
(1) 收集运营环境文档。
(2) 选择数据仓库的实现技术。
(3) 设计数据仓库模型。
(4) 创建数据准备区。
(5) 创建数据仓库数据库。
(6) 从操作型系统中抽取数据。
(7) 清理和转换数据。
(8) 将数据载入数据仓库数据库。
(9) 准备显示数据。
(10) 将数据分发到数据集市。
ETL
ETL是数据从业务系统抽取转化到数据仓库的过程,包括4个子过程:数据抽取、数据转换、数据清洗、数据装载
作用:解决数据分散问题 、 解决数据不清洁问题 、方便企业各部门构筑数据集市
5
OLAP是什么
联机分析处理是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。是跨越部门、面向主题的。特点:
基础数据来源于信息系统中的操作数据;
响应时间合理;
用户数量相对较少,主要是业务决策与管理人员;
数据库的各种操作不能完全基于索引进行。
OLTP是什么
联机事务处理系统,它是事件驱动、面向应用的。特点:
对响应时间要求非常高;
用户数量非常庞大,主要是操作人员;
数据库的各种操作基于索引进行
关系数据库满足了联机事务处理(OLTP)的要求
OLTP与OLAP的比较
OLAP与数据仓库的关系
数据仓库与OLAP的关系是互补的,现代OLAP系统一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。
OLAP分析与数据仓库的关系十分紧密。数据仓库的建立,解决了依据主题进行数据存储的问题,提高了数据的存取速度,而OLAP分析构成了数据仓库的表现层,将数据仓库中的数据通过不同的维和指标,灵活地展现出来,提高了数据的展现能力,进而提高了数据的分析能力。
OLAP对数据仓库具有很强的依赖性,没有数据仓库,OLAP将很难实现。同样,在数据仓库选择主题时,也要参考OLAP分析的维度、指标,这样数据仓库才能够更好地为信息进行服务,并为决策者进行业务分析提供依据。否则数据将因为无法展现,而成为黑盒子中的“死"数据,无法为决策分析服务。
数据立方体
给定若干个维构造出方体的格称为数据立方体。在数据仓库研究界, 把数据立方体称为方体。
其中每一个方体都表示在不同的概括层次上的汇总
顶点方体: 最顶层的方体; 它是0维方体, 代表最高的概括层, 即求所有所有数据的总和;
基本方体: 最低层的方体; 存放最低层汇总数据。
其余每个点通称为方体, 代表一个普通的数据立方。
多维数据集
通常被形象地称作立方体。多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构
度量
度量值是多维数据集的核心值,是进行OLAP操作的用户所要观察分析的数据,如: 销售量、库存量等; 可对它们进行统计, 聚集操作等。
维
是人们观察数据的特定角度。多维数据集是按照这些分析角度来进行组织数据。例: 一个电子公司的销售从三个方面(三个维)分析销售额(时间维、地区维、产品维)
典型的OLAP操作
上卷 (drill-up,roll up): 概括数据
通过沿一个维的概念分层向上攀升或者通过维归约,对数据立方进行聚集
下钻 (Drill down ,roll down): 上卷的逆操作
从高层概括到底层概括,从不太详细到更加详细的数据
给数据添加更多细节,添加新的维到立方体来实现
切片和切块(Slice and dice):投影和选择 :在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况
转轴或旋转(Pivot or rotate):
转换立方体的视角, 可视化, 从3D 到 2D 平面序列
其他操作
钻过(drill across): 涉及多个事实表的查询
钻透(drill through): 钻透立方体的底层,到后端关系表 (using SQL)
MOLAP:(专有的多维数据库,不通过SQL访问)、快速响应,主要通过预处理的数据完成分析操作。灵活性不高(维数难以动态变化)、 对数据变化的适应能力差、处理大量细节数据的能力差、安全性差
ROLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批实视图作为表也存储在关系数据库中。最终用户的多维分析请求通过ROLAP服务器动态翻译成SQL请求,然后交给RDBMS服务器来处理SQL,最后查询结果经多维处理(将以关系表存放的结果转换为多维视图)后返回给用户。
6.
数据挖掘的类别
描述性挖掘:以简洁概要的方式描述数据,并提供数据的一般性质。(数据泛化就是一种描 述性数据挖掘)
预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。(分类、 回归分析)
多路数组聚集方法
实现:将最小的平面放在内存中,对最大的平面每次只是取并计算一块、
作用:避免重复扫描数据库,减少内存的使用(即IO次数),加速计算效率
特征化:提供给定数据汇集的简洁汇总,例如按专业的成绩分布表(是面向属性的归纳)
使用关系数据库查询收集任务相关的数据
通过考察任务相关数据中每个属性的不同值的个数进行泛化,方法是属性删除或者是属性泛化
通过合并相等的,泛化的广义元组,并累计他们对应的计数值进行聚集操作
通过与用户交互,将广义关系以图表或规则等形式,提交给用户
比较:提供两个或多个数据集的比较描述,如男生与女生的对比。
数据泛化:属性删除和属性泛化
属性删除的适用规则:对初始工作关系中具有大量不同值的属性,符合以下情况,可使 用属性删除:在此属性上没有泛化操作符(比如该属性没有定义相关的概念分层); 该属性的较高层概念用其他属性表示,如street,其高层次概念用属性 (city,province,country)等描述,可删除
属性泛化的使用规则:如果初始工作关系中的某个属性具有大量不同值,且该属性上存 在泛化操作符,则使用该泛化操作符对该属性进行数据泛化操作。(属性泛化阈值 控制、泛化关系阈值控制(不同元组的个数的最大值))
类比较的过程
数据收集
通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类
维相关分析
如果存在较多的维,则应当对这些类进行维相关分析,仅选择高度相关的维进行进一步分析。(可以使用基于熵的度量)
同步泛化
同步的在目标类和对比类上进行泛化,泛化到维阈值控制的层,得到主目标类 关系/方体 和 主对比类 关系/方体
导出比较的表示
用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间的比较 (e.g count%)
7.
支持度S是指事务集D中包含AB的百分比(项集AUB在事务数据库DB中出现的次数占总事务的百分比叫做项集的支持度)
置信度c是指D中在出现A的前提下同时包含A,B的事务的百分比(包含A和B的事务数/包含A的事务数)
关联规则挖掘中变量的类别:布尔型、量化型
性别=“女”=>职业=“秘书” ,是布尔型关联规则;
性别=“女”=>avg(月收入)=2300,涉及的收入是数值类型,所以是一个量化型关联规则。
基于规则中数据的抽象层次:单层的关联规则、多层的关联规则
基于规则中涉及到的数据的维数:单维关联规则、多维关联规则
Apriori算法
一、寻找频繁项集:先找出所有的频繁1-项集,以此为基础,由它们来产生候选的2- 项集,通过观察数据(扫描数据库)来计算它们的频度,从而找出真正的频繁2- 项集。以此类推,得到其它K-项集。为压缩候选k项集,可以用以下办法使用Apriori 性质:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集。因此,如果一个 候选k-项集的(k-1)-子集不在Lk-1中,则该候选也不可能是频繁的,从而可以由 候选k项集中删除。
公理:如果一个项集S是频繁的(项集S的出现频度大于最小频度),那么S的任意非 空子集也是频繁的。反之,如果一个项集S的某个非空子集不是频繁的,则这个项 集也不可能是频繁的。
FP——Growth
FP树的创建
创建树的根节点,用null标记;
将每个事务中的项按递减支持度计数排列,并对每个事务创建一个分枝;
当为一个事务考虑增加分枝时,沿共同前缀上的每个节点的计数加1,为跟随前缀后的项创建节点并连接
创建一个项头表,以方便遍历,每个项通过一个节点链指向它在树中的出现。
挖掘FP-Tree
构造FP-Tree时是按照1-项集频度的降序进行的,对构造后的FP-Tree进行挖掘时,需要按照1-项集频度的升序进行。
对于每一个1-项集,首先构造它的条件模式基。
所谓条件模式基,是一个“子数据库”,由FP-Tree中与该1-项集一起出现的前缀路径组成。
具体实现:从数据项头表中首先找到该1-项集,然后顺着链表找到它在树中出现的位置,每找到一个位置,则得到从树根到该位置的一条路径,该路径就构成了条件模式基中的一部分。
构造该初始后缀模式的条件FP树,并递归的在该树上实现挖掘。模式增长通过后缀模式与条件FP树产生的频繁模式连接实现。
8.
KNN
通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。
如果k过于小,那么将会对数据中存在的噪声过于敏感
如果k过大,邻居中可能包含其他类的点
一个经验的取值法则为k≤ ,q为训练元组的数目。商业算法通常以10作为默 认值。
决策树
决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。(每一步选择中都采取在当前状态下最好/优的选择)
ID3:采用信息增益来选择能够最好地将样本分类的属性
信息增益:信息增益被定义为原始分割的熵与划分以后各分割的熵累加得到的总熵之间 的差。即划分前后进行正确预测所需的信息量之差。
例题:
可知应选择天气作为当前分类节点
决策树的剪枝:先剪枝方法、后剪枝方法
先剪枝方法:提前停止树的构造,一旦停止,节点成为树叶。
确定阈值法:如果在一个节点划分样本将导致低于预定义阀值的分裂,则给定子集的进 一步划分将停止。
测试组修建法:在使用训练组样本产生新的分岔时,就立刻使用测试组样本去测试这个 分岔规则是否能够再现,如果不能,就被视作过度拟合而被修剪掉,如果能够 再现,则该分岔予以保留而继续向下分岔。
决策树到达一定高度就停止树的生长
到达该结点的实例个数小于某一个阈值也可停止树的增长
后剪枝方法:由“完全生长”的树剪去分枝。通过删除节点的分枝,剪掉叶节点。
案例数阈值:根据最小案例数阀值,将案例数小于阀值的树节点剪掉。
成本复杂性修剪法:当决策树成长完成后,演算法计算所有叶节点的总和错误率,然后 计算去除某一叶节点后的总和错误率,当去除该叶节点的错误率降低或者不变时, 则剪掉该节点。反之,保留。
贝叶斯分类:统计学方法,通过计算给定样本属于一个特定类的概率来对给定样本进行分类。
条件:如果可获得的训练集的数目比较多 、 属性之间有条件的独立
朴素贝叶斯的优缺点
分类器评价方式
真正(TP):判定ti在Cj中,实际在其中
假正(FP):判定ti在Cj中,实际不在其中。
真负(TN):判定ti不在Cj中,实际不在其中。
假负(FN):判定ti不在Cj中,实际在其中。
召回率(正确识别的真正百分比)= TP/P
特效性:正确识别的负元组(真负)百分比,特效性 = TN/N
准确率 =(TP+TN)/(P+N)
错误率=(FP+FN)/(P+N)
精度: 精确性的度量,即标记为正类元组实际为正类所占的百分比 = TP/(TP+FP)
F度量(F分数):把精度和召回率集中到一个度量中 2精度召回率/(精度+召回率)
测试数据的划分
保持法:三分之一数据分配到训练集、其余三分之二分配到测试集
交叉验证:先把数据随机分成不相交的n份,每份大小基本相等,训练和测试都进行n 次。最后把所有数据放在一起建立一个模型,模型的错误率为上面10个错误率的平均。
9.聚类分析
三大聚类方法:分裂(k-means)、分层(AGANES)、基于密度的方法(DBSCAN)
聚类间的距离
K-means:首先初始化k个中心
AGNES
DBSCAN:每个簇为密度相连点的最大集合
直接密度可达:给定一个对象集合D,如果p是在q的ε-邻域内,而q是一个核心对 象,我们说对象p从对象q出发是直接密度可达的。
密度可达的:存在 一个从p到q的DDR(直接密度可达的)对象链。即如果存在一个对 象链p1,p2,…,pn,p1=q,pn=p,对pi∈D,(1<=i<=n),pi+1是从pi关于ε 和MitPts直接密度可达的,则对象p是从对象q关于ε和MinPts密度可达的。
密度相连的:如果对象集合D中存在一个对象o,使得对象p和q是从o关于ε和MinPts 密度可达的,那么对象p和q是关于ε和MinPts密度相连的。
噪音:不在任何簇中的对象
边界对象:不是核心对象,但在簇中,即至少从一个核心对象直接可达
12.1推荐算法
三种主要方法:基于用户的协同过滤推荐算法、基于物品的协同过滤推荐算法、基于内容 的推荐算法
基于用户的协同过滤算法:
.基本思想:基于用户对物品的偏好找到相邻邻居用户,然后将邻居用户喜欢的推荐给 当前用户
计算方法:将一个用户对所有物品的偏好作为一个向量 来计算用户之间的相似度, 找到 K 邻居后,根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没 有偏好的未涉及物品,计算得到一个排序的物品列表作为推荐。
相似度距离可以使用:
缺点:
基于商品的协同过滤算法:
1.基本思想:与基于用户的CF类似,计算邻居时采用物品本身,而不是从用 户的角度,即基于用户对物品的偏好找到相似的物品,然后根据用户的 历史偏好,推荐相似的物品给他
2.计算方法:所有用户对某个物品的偏好作为一个向量来计算物品之间的相 似度,得到物品的相似物品后,根据用户历史的偏好预测当前用户还没 有表示偏好的物品,计算得到一个排序的物品列表作为推荐
优缺点:
实现协同过滤算法的步骤
12.2数据流
数据流的概念: 一个实时的、连续的、潜在无界的、不确定的、随时间变化的(隐 含的通过到达时间或者明确的时间戳)数据项的序列,又称流数据或流式数据。
数据流特点:
①数据流中的数据元素是联机实时、快速到达的;
②系统无法控制将被处理的数据元素的到达次序;
③数据规模宏大, 不可能把所有的数据都放入内存甚至是硬盘
④数据流中的数据元素一旦被处理,要么丢弃,要么存档。除非显示地存储在内存 里,否则很难检索,因为内存相对于数据流的尺寸要小得多。
数据流处理的特点:一次存取、持续处理、有限存储、近似结果、快速响应
DGIM算法
将整个窗口划分成多个桶 ,每个桶中包含
(1) 最右部的时间戳 ( 即最近的时间戳 );
(2) 桶中1的数目,该数目必须是2的幂,我们将该数称为桶的大小;
更新:
实例:
估计1的个数:
补充:数据挖掘框架
注:因为是整理来用于二遍复习的,所以比较粗略,建议在看完ppt后作为参考使用