隐私保护的数据挖掘综述

前言

对于人嘛,总是将事情想象的多么美好,这不。到自己真正的接触了学术研究,才发现那无尽的代码才能带来真正快乐源泉(虽然没有深层次的技术含量)。但是,为了自己选择的路,即使作为一名科研狗也得走下去。

综述论文素材

前辈们都会谦虚的说,做学问论文不是过程,而是结果。自然在接下来长达三年的日子里我知道了我将与论文接下不解之缘。我仰慕它、研读它,最终将它融会于心。
据说新手刚接触研究论文,可以多看看综述。这是笔者找的。

  • 数据挖掘隐私保护算法研究综述
  • 数据挖掘隐私保护综述
  • 隐私保护数据挖掘研究的简要综述

待掌握知识

概念

数据挖掘隐私保护(Privacy Preserving Data Mining,简称 PPDM)

隐私保护数据挖掘流程

隐私保护数据挖掘的流程主要包括以下几步:
( 1 ) 明确数据挖掘目标 。
( 2 ) 数据清洗 。即剔除或者隐藏 原始数据中的敏感数据。
( 3 ) 数据预处理 。 即对清洗后的数据进行转换和加密 。
( 4 ) 数据挖掘。 选择合适的数据挖掘算法进行数据挖掘 。
( 5 ) 效果评估 。度量指标主要包括 : 隐私性 , 即非法识别隐私信的可能性大小 ; 有效性 , 即数据挖掘得到的最终结果的准确性 ; 复杂性 , 即算法的时间复杂性和空间复杂性 。
( 6 ) 可视化表示 。用可视化工具对挖掘结果进行知识表示 。
如下图所示:
隐私保护的数据挖掘综述_第1张图片

隐私保护数据挖掘流程图

相关算法问题

当然对于总多科研大佬提出的各个分支下面的算法未表明,原因很简单,这只是初步概况。后期嘿嘿嘿

  • 扰动算法
    包括随机化扰动算法(随机添加噪声、数据转换矩阵、k-means和多重随机哈)和乘法扰动算法(旋转扰动算法和投影扰动算法)。
  • k匿名算法
    k匿名的两种主要算法是泛化和抑制化。
  • 关联规则隐藏算法
    常见的关联规则隐藏算法包括启发式算法、基于边界的算法和精准式算法。

通用评价指标

( 1 ) 数据质量 , 在进行有隐私保护的数据挖掘中 , 通常要对数据进行 一些处理 , 而这些处理对于数据可能是有损的 , 故而进一步对挖掘前后的数据集造成偏差 。但是不会对数据挖掘的的结果造成影响或者影响很小 。通常就精准度 、一致性和完整性等来度量数据质量的好坏。
( 2 ) 性能代价 , 归根结底隐私保护数据挖掘依然是数据挖掘 , 性能仍然是对于挖掘方法的重要考量 。通过对于时间复杂度以及空间负责度的评估来度量性能的好坏 。
( 3 ) 伸缩性 , 通常指的是对目标数据集进行相关的放大以及缩小的操作时 , 如何有效的保护数据集的属性 , 并 具有 良好的性能指标 。
( 4 ) 隐私 程度 , 这是最核心 的指标 , 也是最难衡量 的指标 。 基于信息嫡的研究有大量的成果 , 也是比较被接受的方法 。Agrawal 和Agarwal最早提出刚信息嫡的方法 , Berino等进行了有效的扩展。

后记

无论如何路是自己选的,是进还是退。亦或者在学术的过程中去追寻那想要的一切,这一切都待继续努力才行。

你可能感兴趣的:(隐私保护的数据挖掘综述)