数据挖掘的隐私边界 【转自《中欧商业评论》】

数据挖掘的隐私边界  [2012年07月号总第51期]
http://www.ceibsonline.com/commentary/show/index/classid/4/id/1967
周庭锐
中国人民大学商学院教授、博导, 北京盛德大业国际管理咨询首席顾问

“夜来皓月才当午,重帘悄悄无人语。”
古人之所以设下“重帘”,是为了防人耳目,保护隐私。中国古代相术之发达,大概也和这种偏好有关,所谓相由心生。如果单看相貌就可以窥知人心,那么它的威力不亚于今日的数据挖掘技术。
有形的重帘容易布置,人类通过行为不知不觉泄露的心事却难防。人类有意识地想要保护自己的隐私,但受制于心智负荷(mental workload)的有限容量,并不能很有效地进行自我监控(self-monitoring)。在不经意间,处处透露自己并不愿为人所知的心事。

无处遁逃的隐私

笔者1996年刚从英国读完博士回台湾,连续几年受邀为统一集团以及台湾连锁店暨加盟协会进行大规模消费者调研,故意在问卷中植入关于性别的两道问题:先询问填答问卷的人性别为何,然后隐藏在靠后的题项里出其不意地询问,亲密的性伴侣性别为何?如此得出四个象限的答案:男男、女女、男女、女男。于是计算得知,当时台湾都会地区的同性恋人口比例大约为7%。问卷填答者不小心泄露了他们绝不轻易告诉别人的秘密。这种调研是匿名的,仅止于对总体现象的观察。
今天,由于信息技术的飞跃发展,不论是政府、企业,还是具备技术条件的个人,窥人隐私的能力已经大大增强。厂商有能力随时随地掌握着消费者在任何时候的选择行为,甚至是起心动念!SoLoMo(social, local, and mobile)的概念,就在描绘这么一个新世界。我们所有的互联网行为都必然留下足迹。这是由于,互联网的 http(超文本传送协议)在本质上是一种“敲门-开门”的设计,用户端先送出一段自我介绍的信息,寻求服务器端的访问许可,然后由服务器判断是否同意接受这个用户的访问。所以互联网的浏览行为基本上是种愿打愿挨的活动。
这些来自零售端点与互联网、移动互联网里的海量数据,都可以通过数据挖掘技术进行深度分析。比如京东或淘宝,如果愿意的话,完全可以指名道姓地分析出任何一位顾客,在某个特定的时间日期订购了哪些特殊商品,这些特殊商品的寄送地点是不是自己家里。当然,除了合法拥有这些数据的厂商外,不拥有这些数据的其他竞争企业或个人也可能通过诸如“网络爬虫”这类技术来获取这些足以识别特定个人的隐私信息。
所以这里涉及两种道德边界的问题:第一,厂商如何挖掘并使用那些获得消费者授权拥有的私人信息;第二,在非授权的情形下,厂商与个人如何利用私人信息。

各种模糊地带

实际上,我们还可以延伸出更多更复杂的问题来。
首先是获得授权的情形  消费者当时的授权是为了完成特定的交易。那么,在超越这个特定交易目的之外,厂商还可以使用这个信息吗?因为不同理由而分别获得授权的信息,厂商可以通过数据挖掘技术加以合并匹配,来获得对消费者更深入的理解吗?这其实天天都在发生,例如所谓的“人肉”:不管是企业行为还是个人行为,都默认私人存放在互联网上的任何信息是允许被任意匹配挖掘的。但细究其本质,这些行为是否合法、是否合乎道德,其实仍值得思考。
非授权的情形包含非授权拥有与非授权使用 “非授权使用”比较单纯,也就是说,即使是获得授权取得的信息,厂商使用这些信息的授权也可能是受到限制的,包括不能公之于众、不能私下贩卖,等等。但笔者猜测,私人信息被私相授受的情形可能十分普遍。最常见的是关系企业之间的信息流通。原本隐秘的私人信息可以很容易地在关系企业里分享、合并、挖掘,藉以创造集团的额外盈利。其次是贩卖信息。例如我们可以很容易地买到各种企业资料、用户名单、电子邮箱、手机号码甚至身份证号等,其中应该有不少是合法取得信息授权但非法出卖信息的情形。个人认为,这超出了我们可以接受的道德边界。
非授权拥有信息的情况比较复杂。其中黑客行为明显属于犯罪,自然是不道德的。比较模糊的地带是网络数据挖掘。在研究消费者的线上行为时,可以通过所谓的网络爬虫来爬取消费者遗留在互联网上的足迹。就服务器端来看,与一般用户的正常浏览没有区别,同样是个愿打愿挨的过程。不同在于,网络爬虫的目标是爬取全部消费者在这个网络上的全部资料与足迹,所以构成网络爬虫的脚本会不厌其烦地、全面深入地、长时间持续地对服务器提出浏览的请求。构造网络爬虫的“大户”不是科研人员,更多的是竞争厂商。竞争厂商通过网络爬虫可以轻易复制对手电商的产品结构,或监视对手的商品售价。于是互联网上爬虫盛行,这对于存在商业目的的服务器来说,是计算上和流量上的极大负担。
争议出现了:网络爬虫合乎道德吗?个人意见是,对于使用正常 http 寻求浏览许可的爬虫应该是不违背道德边界的,因为在本质上,这与使用任何浏览器进行网页浏览并没有差异。但针对一些厂商伪造 http 过程里的自我识别内容,有意识地通过脚本里所设定的抓取频率、抓取时间、对所抓取信息进行解码、利用特殊脚本处理 ajax 等手段来和服务器斗智,以爬取网页上大量公开信息的行为是否合理,笔者没有答案。
互联网上大部分的私人信息是厂商通过网络爬虫取得的,厂商并没有任何原始授权来拥有这些信息,更不具备使用这些信息的权利。因此使用网络爬虫可能存在道德瑕疵。但如果换个视角看,我们是否可以将任何允许公开浏览的信息都当作公共财产?那么使用网络爬虫就不存在道德问题了。
信息的分析与展露  在以上的论述里,其实都仅止于探讨拥有与使用私人信息的道德问题,还没有触及信息分析与信息展露。诚如前面所说,不论是服务器里的数据,还是通过网络爬虫而得的数据,都可能包含可以识别个人身份的信息。而数据挖掘技术已经发展到相当的高度,在一定程度上能够轻易突破道德边界。
举例来说,在笔者所提供的企业咨询服务里,就包含了为企业话务中心(call center)分析客户回应的语音资料(须转成文本)。通过中文切词技术(或模糊语义识别技术),可以从数以百万笔的电话录音里提取语义,构造语义结构,甚至分析语义调性,得出海量客户对企业的批评、抱怨、赞美。这样的处理过程自然不涉及道德问题。但就技术而言,由于所有的通话记录都存在客户个人的识别编码,企业完全有能力识别哪些语义是哪个特定客户说的。将这种技术用在通过网络爬虫得来的社交网络讨论、论坛贴吧言论上,就完全可以掌握特定言论的始作俑者、传播路径、相关受众等。数据分析与展示到这种细节程度上,是否仍然合乎道德,就很值得争议了。

*****

在日新月异的互联网技术威胁下,个人隐私获得保障了吗?人民网对此曾经开展过一次调查,结果显示,90%的网友曾遭遇个人信息被泄露的情形;94%的网友认为当前个人信息遭到泄露的问题非常严重。事实上,任何触及道德边界的问题,最终可能还是需要通过法律手段来加以解决。但中国在这方面显然相对滞后。
对于信息保护,最起码应该尊重个人隐私的保密权。也就是说,法律应该能够保护“足以识别特定个人”的隐私。法律边界的重点要放在限制私人信息的展露上,不管信息取得过程是否合法,分析技术多么高超,都不应该在未经授权的情形下,以公开或不公开的任何手段展露足以识别个人的私人信息。而在信息拥有、信息使用、信息分析上,基于这些行为的隐晦本质,法律很难加以监管,只能依赖从事数据挖掘的个人或厂商自己去把握道德尺度,不要轻易逾越边界。

转载于:https://www.cnblogs.com/todoit/archive/2012/07/21/2602170.html

你可能感兴趣的:(爬虫,人工智能)