数据挖掘与个人信息隐私保护

数据挖掘与个人信息隐私保护

阴红志

 

摘要:本文介绍了数据挖掘、商业智能和个人信息隐私权,并结合案例分析了在利用数据挖掘技术分析个人信息时,会侵害个人信息隐私权。针对这个问题,本文从法律、行业自律和技术三个角度概述和分析了解决该问题的基本方法。

关键词: 数据挖掘 数据仓储 个人信息隐私 信息道德

引言

随着计算机应用技术的快速发展,令各行各业收集数据的能力大大提升,随之也带来了"数据爆炸"现象。如何将这些海量的数据存储与分析,转换成信息和知识,辅助决策管理,已成为亟待解决的问题。由此,数据仓库与数据挖掘技术应运而生,并已在保险业务、电子商务管理、金融风险预测、基因工程研究、产品产量、质量分析和石油工业等领域中得到了成功应用。

数据挖掘技术近年来发展迅速,随着反恐和国家安全问题的日益凸现,数据挖掘中的隐私保护愈发引起人们的注意。数据挖掘可以用来检测异常模式、恐怖活动和欺诈行为,但同时也意味着一般人都可以应用这些数据挖掘工具到资料数据库或者个人档案中挖掘分析出他们感兴趣的私人信息。我们搜集的各种个人的信息都可能被应用数据挖掘,从而数据挖掘技术可能成为个人隐私和公民自由的威胁[1]。所以,个人信息隐私保护成为数据挖掘要面对的一个重要问题。为此,相关专家和科技工作者正在积极开发有关研究方法,隐私保护已经成为一个新兴的,并且非常热门的研究领域。

数据挖掘

2.1 数据挖掘

数据挖掘[2](Data Mining,DM)是指从大量的、不完全的、有噪声的、模糊的数据中提取出隐含在其中的、人们事先未知的有用信息和知识的过程。简而言之就是,从已知的数据中发现隐含的有用的新颖的信息或知识。数据挖掘[3],可以为决策者的决策分析提供智能的、自动化的辅助手段,在零售业、金融保险业等多个领域都有很好的应用。

2.2 用户信息的数据挖掘

数据挖掘不是一个新词,比如微软、雅虎,他们都是数据挖掘的高手,甚至有一条数字管理神经。数据挖掘的真正含义是,他们就像水质检测仪,面对一个数亿级的消费群,谁能把握消费之水的流动,谁就掌握了规则。所以,目前研究最多,应用也最普遍的是对用户信息的数据挖掘。通过对用户的个人信息进行数据分析与挖掘,最后得出关于用户兴趣的挖掘报告。因而,正确有用的组织、个人或其他事物的信息是数据挖掘的基础,也是其成功的关键。

例如,一些业内人士分析认为,腾讯最具门槛性的核心竞争力是"数据挖掘系统",就是从大量数据中获取有效的、新颖的、潜在可用的、最终可理解的信息,以辅佐公司战略的数字神经系统。2007年,腾讯成立了研究院,研究院共有六大研究方向,数据挖掘正是其中之一。对用户的数据挖掘后来在腾讯网络游戏的崛起中发挥了大作用。腾讯从2003年开始运营网络游戏,曾遭遇挫折,直到2008年,腾讯才在多个细分市场找到了合适的韩国游戏作品,在代理韩国游戏的过程中,腾讯提出来要介入所代理游戏的研发,例如对《穿越火线》中子弹射出后的弹道设置,腾讯根据对用户的挖掘数据认为,韩方原本设计的逼真效果对中国用户并不合适,用户对腾讯设计出的"比较爽快的,节奏快的,鲜明的"的弹道设计更加兴奋。最后的结果表明,腾讯是对的。

用户数据挖掘与个人信息隐私权

3.1 个人信息隐私权

1890年,美国私法学者布兰戴斯和沃伦在《哈佛法学评论》(《Harvard Law Review》)上发表了《论隐私权》一文,首次提出了隐私权(the right to privacy)的概念。此后近百年的时间里,隐私权作为公民人格权利的重要内容逐渐得到法律上的确认和保护,并呈现出国际统一化的趋势。隐私权,即个人依照法律规定保护自己的隐私不受侵害的权利[4]。

个人信息隐私指在信息中涉及的与个人身份及特征密切相联系的信息[5]。主要内容为: 1) 个人数据:如姓名、性别、年龄、身高、体重、个人身世、血型、指纹、出生日期与地点、种族、身份证号、家庭地址、工作单位、学历、生活经历与习惯、健康状况等。2) 私人信息:如个人存款账号及密码、工资单及账号、股东卡账号及证券交易密码、信用卡号及密码、社会保险号码、私人财务清单、电话、费清单、个人债务、购物习惯及偏好、消费者的信用和财产状况等。3) 个人领域:公民的电话号码、手机号码、传呼号码、QQ号码、通信地址、E-mail地址及个人计算机内存储的信息等。4) 个人网络活动踪迹。如IP地址、浏览踪迹、活动内容,均属个人信息的隐私。美国国会1974年《个人隐私法》规定,公民个人有权决定在何种程度上公开自己的个人信息,未经许可的披露、公开、使用都构成对公民隐私权的侵犯。

3.2案例与分析

案例1:某市英语四六级报名,每个报考人员需填上自己的姓名、住址、联系电话等。不久后,他们的手机经常收到莫名其妙的短信。在有些学校里,大二、大三的学生宿舍还经常收到报考四六级辅导班的资料、无线耳机的出售等。后来经查实,是他们这次报考的个人资料包括电话等个人隐私遭外泄,被与人事部门无关的企业及辅导班知道,他们通过对考生所填信息的分析与挖掘,研究考生的居住聚集地,以便向其做宣传等商业用途。

案例2:2005年7月12日,《今日说法》栏目报道《手机号码泄密案》指出,近来在网上公开叫卖《2005中国老板手机号码大全》的网站,它的制作方是天津杰瑞科技发展有限公司,上面有全国各地私企老板的手机号码68万个,个人只需要200—300元就可以购得任何地区的私企老板电话号码。在公司的数据库里,有北京老板手机号码4.9177万个,上海老板手机号码4.106万个,天津老板手机号码1.3万多个。如此庞大的信息是他用专门的数据挖掘软件从网上挖掘、整理后存入数据库,然后在网上销售。

从这两个案例我们可以看出,在科技日益发达的今天,人们在不时的承受个人隐私被泄露和生活受到骚扰的苦恼。随着数据挖掘技术的发展,它可能对个人信息隐私和安全构成威胁,公开分析大量的私人数据还可能造成对个人隐私的侵犯。

个人信息隐私保护

早在1998年,Ann Cavoukian发表了一篇题为《数据挖掘:以破坏隐私为代价》的报告,该报告剖析了数据挖掘和隐私的关系,指出数据挖掘可能是个人隐私提倡者未来10年所要面对的"最根本的挑战",从那时起隐私问题就成为让数据挖掘窘迫的雷区。当前,世界各国纷纷重视信息中隐私权保护的问题,各国根据自己的国情构建了"立法规制"和"行业自律"这两类模式[6],分别以欧盟和美国为比较突出的代表:

第一,以欧盟为代表的立法规制模式[7]。1995年10月欧盟通过了《个人数据保护指令》,并于1998年10月生效。该指令是欧盟立法保护个人信息隐私权的典型代表。欧盟这种保护个人信息隐私权的法律制度将隐私权作为一项基本人权加以保护,提高了保护隐私权的重要性,对其以后的立法产生了深远的影响。

  法律规制为主导的模式可以为个人数据的收集、储存、处理、传输和使用建立一套完整的行为规范,从而有效的遏制侵害个人隐私权的行为。但僵化的立法可能束缚网络经济的发展,妨碍技术的进步,挫伤行业发展的积极性。

第二,以美国为代表的行业自律模式[8]。所谓行业自律是指业界通过采取自律措施来规范自己在个人资料的收集、利用、交换方面的行为,达到保护隐私权的目的。

行业自律为主导的模式可以给网络和电子商务的发展营造一个比较宽松的环境,制定比较宽松的政策,减少对行业发展的限制,调动行业发展的积极性,从而对信息业的发展起到促进的作用。但由于其缺乏有利的执行措施和保障手段,没有强制力,所以难以使个人信息隐私权的保护收到实效。笔者结合本人所学专业和研究领域,尝试从技术角度分析解决个人信息隐私保护问题的现状和可行性。

为了保护顾客的隐私,R.Agrawal[9]等人在2000年提出隐私保护数据挖掘的新算法,Chris. Clifton等人合作研究了分布式数据挖掘来保护信息用户的隐私权。目前,数据挖掘中的隐私保护方法研究主要有:在挖掘算法中建立隐私约束规则、在应用挖掘算法之前对挖掘数据集应用随机化方法、对隐私建立度量评估、取代本样本真实数据、对记录进行交换等,同时还有在分布式环境下的数据挖掘(数据元组水平分布和属性垂直分布) 隐私保护以及通过对原始数据的混乱或扭曲进行隐私保护、敏感数据隐藏算法、规则混乱、取样法等方面[9] 。在众多的数据挖掘隐私保护研究中,由旅美华人张骏教授领导的美国肯塔基大学数据挖掘与分析实验室首先提出的将矩阵分解技术应用于大型数据的隐私保护方法已经在社会各领域得到了广泛的应用。

结束语

个人信息隐私保护问题已成为数据挖掘中的一个"雷区",并且对该问题的研究正在成为一个新的交叉学科的研究领域,笔者希望本文能够起到抛砖引玉的作用,让更多的人重视和研究该问题。

 

 

参考文献:

[1] Bhavani Thuraisingham. Data Mining, National Security, Privacy and Civil Liberties [J].SIGKDD Exploration, 2002, 4(2):1-5.

[2] 韩家炜,数据挖掘概念与技术第二版,北京:机械工业出版社,2006年

[3] http://www.dataminig.com.cn

[4] 张秀兰,网络隐私权保护研究,北京:北京图书馆出版社,2006年

[5] 马海群,信息法学,科学出版社,2002年

[6] 殷国伟,陆慧,论网络隐私权的立法保护,行政与法,2007年

[7] 王媛媛,网络繁荣时代背后的网络隐私权法律保护,理论学刊,2007(01):90-91

[8] 赵秋雁,网络隐私权保护模式的构建,求是学刊,2005(03):79-82

[9] R. Agrawal,R Srikant. Privacy Preserving Data Mining [A]. SIGMOD 2007

转载于:https://www.cnblogs.com/bestzhi/archive/2010/02/19/1669451.html

你可能感兴趣的:(数据库)