小数据(iData)的大时代:数据革命的下一个前沿阵地(蔡凯龙)



刚才开车回来,在路上bloomberg广播,说美国大IT行业,Google . Facebook Twitter,Apple. Microsoft. AOL, Linkedlin, Yahoo联名给国会和总统写信。要求制定政府窃取个人隐私的详细策略,并且要求有独立第三方来监督,这个呼吁是跟Snowden的泄露的棱镜计划有关,因为在他泄露的计划里曾经说到美国政府公开或者非公共入侵所有美国大科技公司的数据库,监控所有的信息。美国总统今天出来讲话,说政府不会偷看美国公民的个人信息,只是为了反恐和监测海外活动,不会违反宪法,一定会尽力保护美国公民隐私。他提到的个人隐私,和我今天要和大家交流的小数据有关。


(一) 小数据的介绍和定义


数据革命的最终目的,就是给每个人都配备类似于美国总统的白宫级别的服务。这不是科幻,这是数据革命即将开创的另一个前沿阵地,小数据的大时代。


小数据(iData), 指的是围绕个人为中心全方位的数据,及其配套的收集,处理,分析,和对外交互的综合系统。人的一举一动,一分一秒,产生的数据,包括生活习惯,身体状况,社交,财务,喜好,情绪,行为的等等,全部被收集和利用和分析,并对外形成一个富有个人色彩的数据系统,统一执行交换数据,保护隐私等多项对外功能。


小数据跟大数据的根本区别在于,小数据以单个人为唯一的对象,重点在于深度,对个人数据全方位全天候深入精确的挖掘利用,大数据则侧重在某个领域方面,大范围大规模全面数据收集处理分析, 侧重在于广度。小数据只有围绕一个人,你就是小数据世界里的美国总统,小数据就是你的白宫办公室,它听命于你,收集关于你全方位信息,提供给你最贴心最完整的数据服务,同时担任对外界大数据的唯一接口。小数据并不是大数据老酒装新瓶,把大数据思维操作模式简单套在小数据上并不适用。 接下来我具体从小数据的成因, 特性,发展前景和问题,这四个方面来谈谈小数据是怎样作为大数据的互补和延伸的。


(二) 小数据产生的原因


1. 大数据对隐私无止境的侵犯和个人对主动保护隐私的需求。


1993年《纽约客》刊登了一副漫画:标题是:“互联网上,没有人知道你是一条狗”。经过20年互联网,移动互联网和社交网络以及大数据的快速发展,我们已经毫无隐私成为透明人了。现在这句话应该改成:“不要说互联网另一端是一个人,即使是一条狗,我甚至能知道它身上有没有跳蚤”。 在数据为王的时代,个人隐私遭到肆意的践踏和侵犯。 你上网买个东西,或者在社交网上发个言,很简单一个动作,瞬间同时的在政府网络监控,电话上网公司, 买东西网站,社交网,搜索网站, 信用卡银行,还有专门收集资料的爬虫系统。。等等,留下你详细的个人资料。更可怕的是,这些都是永久的,任何时候都不知道会被谁调用,会被人肉搜索到。大数据的基因里有对数据无限的渴求。因此以企业为主的大数据,在追求最大商业利益的同时,是不可能主动保护个人隐私的。可以说,大数据和个人隐私保护是天生不可调和的根本矛盾。


随着隐私被侵犯的弊端逐渐浮现, 各国都有不同程度的立法来保护个人隐私。但是至今为止,实际收效甚微,我们对隐私大规模被侵犯仍然束手无策。不过想想连德国总理默克尔,这么一个大国最高领导人的手机都会被窃听,我们这些普通大众的隐私在国家利益和商业利润面前,又怎么能够被真正被保护呢?难怪Steven Rambam, 一个互联网隐私专家曾经说过一句让人很绝望的话:"Privacyis dead --- get over it." “隐私已死,爱怎么着怎么着吧”


这时候,迫切需要从技术上,让个人主动而不是被动的保护自己的隐私。小数据就能很好解决个人隐私和大数据的矛盾。小数据对内是一切个人数据的集合,对外是个人数据的唯一接口。任何对外的数据输出,都需通过预先设定授权程序。 而外面大数据其实不是真的对你的隐私感兴趣,就比如说大数据要分析用户对一个新车的市场, 他需要同时知道你年龄性别收入等等,但是大数据最终目的不是要拿这些隐私,而是拿这些作为大数据分析模型必须的素材,最后分析出你喜欢或者不喜欢这辆车。其实小数据在这方面更有优势,甚至细微到主人喜欢什么颜色,买车主要目的是上班还是休闲等,只要把小数据分析结果而不是隐私内容,通知给大数据。 这样既能保护个人隐私,又能提供大数据最准确的信息。完美解决大数据和隐私之间的矛盾。


同时小数据还能在保护隐私的监控上掌握主动。我们都知道,注册登记任何社交网,都要求你同意密密麻麻天书一般的法律条文。我相信没有人会真正认真去看这些条文,因为用脚后跟想都知道,里面法律术语晦涩难懂,看懂了你又能怎么样,还不得乖乖"I Agree"我同意。 这都是企业合法用你数据资料的同时,用来规避法律责任的保护伞。这可是企业雇佣庞大律师团队花巨资写出来的,我们个人在保护隐私上完全被动而且势单力薄。如果有了小数据,这下我们从被动变主动。你企业要用我小数据,好,没问题,数据是我的,我控制能给你什么,不能给你什么。比如你问我喜不喜欢这辆新车,我告诉你我喜欢,但我不告诉你我年龄和家里存款。同时外部使用我的小数据是有前提的,如果医疗健康类企业,要知道我身高体重,没问题,需要根据我制定的规则办事,你要"I Agree"我的数据使用条款,不能到处传播。同时,还规定使用时间和使用范围,比如给你3个月只能用于某个特定医疗设备研究,用完就得永久删除,否则被我小数据监测到,可以依照里面的法律条文,咱们法庭上见。 小数据让个人作为个体信息的真正拥有着,通过小数据,制定个人信息的使用范围和授权,以及监督机制。任何企业组织甚至政府,都要事先同意遵守我定的规则才能使用。


设想有个名人想要美国总统奥巴马约个吃饭时间,他该先和白宫办公室联系,同意白宫办公室的条件:不能和外界事先透露总统行踪后。同时,白宫只能跟回答比如说晚上7点总统有没有空,喜不喜欢吃牛排,而不是把总统的全部的行程安排包括总统吃什么药片都告诉对方,这个可是最高国家机密。小数据让你享受总统待遇,你的个人信息就是你的小数据王国里的最高国家机密。


小数据还能做到绝对隐私, 比如那天你累了想彻底清净一段时间,或者你要和情人老婆老公有私人空间,你跟小数据系统下指令,彻底停止所有个人数据监测,这下就清净了,你在数据世界就真的有一段时间人间蒸发了。


2. 对统一全面管理分析个人数据的巨大需求。


小数据的产生还有一个主要原因,对统一全面管理分析个人数据的巨大需求。信息时代,我们被铺面而来的信息狂轰滥炸,我们面对的问题是信息太多,不是太少。我们最大的挑战是如何能快速,方便,一目了然的定位有用的信息,如何从纷繁复杂的数据中提炼出有价值的信息,从而真正解放个人,让自己多点时间去思考,去创作,多陪小孩家人,多去体验生活。小数据通过对个人信息的全面收集,反馈,整理,分析,能提供最贴心的数据服务,提供最有价值的决策支持,甚至比你还了解你自己。 你问问奥巴马谁最了解他,答案不是他太太还是他父母,一定是白宫工作人员。


我举个亲身体会的很小的例子来说明未来小数据的价值。 纽约这边水表都实现电子自动读数,隔几个小时家里的水表自动发送数据到自来水公司,可以上网查看。这个是个很原始很简单的数据,看起来没有任何价值。有天,我突发奇想,用大数据的思维,把这些数据下载下来,结合我家的出行旅游时间记录,发现了个问题。这水表显示没人在家的时候继续不断地用水,3年来一直如此。 我进一步挖掘,把家里每天使用水的大概时间拿来对照,最后断定,一定是某个地方悄悄的持续的漏水。经过排查,终于在不经常去的地下室洗手间里的抽水马桶盖子里,找到一个阀门没旋紧,从这里漏水直接进下水道。3年多来从来没被发现。如果没有数据分析,这么隐蔽的地方不可能被发现。 我计算一下,这3年来这个阀门浪费了600多美金的水费,如果我在这里住10年,这个简单的数据分析就能省下我2000美金的无端水浪费。 这个就是小数据的个一个很简单的案例。我进一步把我可以找到的个人数据:当地温度历史,电气水历史用量,财务数据,健康数据,统统有机结合起来(当然数据收集废了好一番功夫)。这个很原始的小数据给我展现出我从来没有看到过的一面,在我决策过程中提供非常多有价值的分析。而这只是一个雏形,一个开始,如果有成熟的小数据系统,真正全面的把个人全部数据有机结合起来, 其能发挥潜在价值不可估量。


(三)小数据的特性和大数据的对比


小数据和大数据有者本质的区别,虽然以创造数据价值为目的思维和大数据是相类似的,但是在具体方式上,还有以下几点不同


1. 数据处理方式:大数据强调标准化,只有数据标准化,才能大规模采集,以后的数据处理概率统计才有了可能。可是数据一标准化,就失去了其数据产生时的特性和背景 。而小数据的用户数据的最大特点,就是来源和使用者是同一个人,只不过存和取时间和背景不一样而已,这就让数据标准化失去存在的理由。为什么要用标准化来抹去我对数据的主观色彩呢和背景呢。比如我说“喜欢吃的这家店的臭豆腐”。这个信息,存在我小数据的数据库里,不能单单只存标准数据:比如时间,臭豆腐形状臭豆腐店地址等。这些还不够,还要把我喜欢的程度和重要性:是非吃不可否则活不下去呢,还是一般的喜欢过两天就忘记了。还有当时的语境:是我陪老婆去吃她喜欢我也跟着喜欢,还是我恭维臭豆腐店老板,因为他是我一个朋友呢。这些都是小数据需要处理的信息, 而大数据的标准化方式是无法做到的。


国外这方面已经有初步的研究, Dr. Ofer Bergman 在2003年最先提出“用户主观方式”(User Subjective Approach )来存储个人信息。2009年他在这方面开创性研究在美国信息技术学院(American Socieity for Information Science and Techonology )一发表获得极大轰动。 被美国图书馆协会(The American Library Association)评为当代十大科技前沿的研究方向之一


2.人的作用:在大数据模式下, 数据从人身上产生被收集后,接下来的数据处理分析,就再也跟数据的主人无关了。而在小数据里, 所有数据都是围绕一个人, 所以人在系统的发挥中心的作用。就比如说白宫团队再怎么庞大,都要根据总统的旨意,很多重要决策,还得总统拍板定夺。虽然小数据里不可避免要使用人工智能来提供帮助, 但是人工智能如今发展还没有大的跨越,远远不能胜任代替人脑的作用。这个有利有弊,坏处就是人还要不时的参与决策。好处就是,使用者比较放心,因为这些数据就是你的全部信息,你放心让一个人工智能代替你做重要决定吗?要我选,我还真不放心,我选择后者。



3.其他数据性质的区别:比如是小数据数据量相对比大数据的数据量小。小数据对数据不全部需要快速反应,比如说你的胆固醇,一个月收集分析一次就够了,而大数据对数据的反应要快。小数据更加注重非结构化数据的之间的关联,重深度挖掘, 而大数据重在包容所有个体的数据重在广度。

综上所述,小数据不是简单大数据的小型化,而是大数据的补充和延伸


(四)小数据发展的广阔前景


小数据解决大数据无法克服的保护个人隐私矛盾。在主动保护个人隐私的同时,小数据提供给大数据最直接数据传输,避免了大数据的重复收集和模糊预测,提高数据使用效率和价值。同时小数据利用全面的个人数据优势,结合外部大数据,提供给个人最个性化,最独特,最有价值的数据服务。


Amazon的名言“最成功书籍推荐应该只有一本书,就是用户要买的下一本书”,即使大数据的先行者如Amazon,预测用户要买的下一本书并不容易。它最多能根据你在amazon的交易记录,和有限的片面的个人信息来模糊预测。如果有小数据,身为最了解主人的个人数据系统,amazon只要跟个人小数据接口查询:”你的主人最有可能买下一本书是什么?”小数据先查查主人设定,是否同意和amazon交流,在不泄露个人重要隐私的前提下, 做完个人分析,看看主人最近最关心什么,最需要什么类知识,列出主人最有可能买的1本书,告诉amazon。 第二天,主人一开门,发现门口摆了一本自己最需要的书,上面写着:“Amazon通过和您的小数据系统交流,得知您最可能需要这本书,把书给您送来了,需要就拿去,我会跟你小数据系统结账。" 多方便,多和谐的一个过程啊。


再拿一个大数据里被津津乐道的一个案例来说, Target 超市用孕妇怀孕可能购买的商品用户购买记录,通过构建模型分析购买者行为的相关性,能推断出孕妇的具体临盆时间。这是在大数据模式下。 如果大数据和小数据配合,小数据在主人授权下,直接把主人临盆告诉Target的大数据不就得了, Target可以根据接受的小数据的临盆时间,加上小数据愿意透露的主人年龄和对商品的个人偏好,能更加准确无误预测个体的购买情况。这其实已经超越预测,应该叫洞察了把。


大数据很多时候被运用在广告投放的目标客户的分析上:到底这个广告对这个人来说,是雪中送炭还是让人讨厌。大数据时代这只能从用户以往的购买历史,旁敲侧击。然而在小数据时代,小数据直接告诉大数据, 主人喜欢这个品牌那个颜色,如果不是符合主人口味的广告,就不要来骚扰。在这种精确无误的洞察,就好比给决策者一个清晰透视未来的水晶球。用户,企业和政府可以最大限度的的利用大小数据的配合,进行所有的数据活动:个人财务投资分析,个人健康监控,个人疾病治疗,企业策划营销,企业战略分析,政府宏观调控,公共卫生安全防范,预防犯罪等等。


小数据和大数据的完美结合,必将让市场营销人员, 理财投资分析师(对不起啊,我的同行们, :-)),房地产中介,医生, 律师等等专业服务人员全部失业。 可以这么说 ,大小数据,双剑合璧,天下无敌。


小数据还有一个意想不到,却让人想想就睡不着觉的用途:数字永生!


小数据精确记录从出生到死亡,无时不刻,细致入微的所有细节,它就是数字化的你,是你在虚拟世界最真实的数字投影 。你的世界被数据化了, 因此复制你的世界成为可能。 这就涉及到人类永恒的梦想:永生。 肉体的永生还有待科技水平的提高,但是数字化个人的永生,在小数据时代就变成可能。你的小数据,就是你在数字世界里最真实的载体,即使肉体的消失,你的小数据还能依据一生的数据历史分析,可以对外界信息做出反应(当然这个反应只能是依照历史,不能主动创新,否则就可怕了)。对于别人来说,你的数据载体,将永恒的停止在肉体消失的一刻。 如果思念一个逝去的亲人,你可以和她留下来的小数据聊天,问她问题,向她倾诉,听她讲她的过去,小数据会根据历史记录,最完整的呈现出逝去的亲人的一举一动一颦一笑,包括她所说和所做的,甚至推断出她所想的。如果未来机器人和人体仿生的的进一步发展,制造出一个一模一样的人作为小数据物理载体也不是不可能。这个是不是想想就让人激动不已!


(五)小数据的发展最需解决的三个大问题:


1.个人数据处理的进一步研究和开发。虽然“用户主观方式”(User Subjective Approach )来存储个人信息是一个重大突破,但其研究也只是理论上的初步构架,到真正实现还要有一段时间,需要科学家进一步探索和完善,加快其现实的运用。同时,国家要把小数据和大数据一样,作为国家的战略核心资产来投入和研发,并在法律法规上保驾护航。


2. 安全保护,小数据如果安全不到位,这个问题大了,这个好比在数据世界被人绑架了。所以小数据对安全级别要求很高,这不是一个企业组织有足够的信誉和能力能做到的,需要提到国家层面,需要国家统一规划。但是即使在很高级的安全保护算法里,只要是算法,都会有漏洞,所以,人的参与就成了拟补算法漏洞的法宝。


3. 人工智能在小数据系统里占有至关重要的作用,在白宫里的地位相当于总统办公室主任,整体处理白宫各个方面大小事务。人工智能的发展至今裹足不前,需要国家把它提升为战略地位进行科研开发和投入。


人,是一切数据存在的根本。人的需求是所有科技变革发展的动力。可以预见,不远的将来,数据革命下一步将进入以人为本的小数据的大时代。

你可能感兴趣的:(小数据(iData)的大时代:数据革命的下一个前沿阵地(蔡凯龙))