数据挖掘的三大趋势——专访SAS首席技术顾问张磊


        数据挖掘的英文是Data Mining,直译就是数据挖掘。韩家炜教授在《数据挖掘:概念与技术》一书中介绍过数据挖掘一词的来源。在科研界,最初一直沿用“数据库中的知识发现”,即KDD,Knowledge Discovery in Database。在第一届KDD国际会议中,委员会曾经展开讨论,是继续沿用KDD,还是改名为Data Mining(数据挖掘)。最后大家决定投票表决,采纳票数多的一方的选择。投票结果颇有戏剧性,一共14名委员,其中7位投票赞成KDD,另7位赞成Data Mining。最后一位元老提出“数据挖掘这个术语过于含糊,做科研应该要有知识”,于是在科研界便继续沿用KDD这个术语。而在商用领域,因为“数据库中的知识发现”显得过于冗长,就普遍采用了更加通俗简单的术语——“数据挖掘”。
        我个人认为,数据挖掘就是从数据里找规律。规律这样讲很抽象,以电信公司为例。国际几家大的运营商经常面临的问题就是客户流失。因此电信公司就需要了解哪些客户容易流失,原因是什么,能不能在流失之前就找到他们,建立预警系统,分析流失客户和忠诚客户的差别是什么,我们称之为流失特征。例如每月打电话时长递减,投诉后没有反馈等。通过数据挖掘找出这些特征后,就可以选出可能会流失的客户,争取挽留。那么规律,作为一种复杂的模式,在这个案例中就体现为流失特征。
        再比如企业通过分析销售数据,得出销售高峰出现在春节等节假日,这也算一种规律,可以帮助企业决定何时进行资源储备,人员配备以及营销活动等。但是这种规律不需要通过复杂的数据挖掘,通过看销售数字就可以得出来。
        所以,我个人觉得对于规律没有严格的界限,只要这个规律对于公司业务的理解和未来业务规划预测有帮助,我认为这都可以算作数据挖掘。如果单指通过统计模型得出的结论才算数据挖掘,我认为有些狭义。实际上,数据挖掘是一个涵盖商业智能、人工智能、统计分析、经济学等的大概念。
        我认为数据挖掘分析可以分为8个层级,常规报表、即席查询、多维分析、警报、统计分析、预报、预测性建模和优化。不同的企业,发展阶段的不同,会有不同的数据挖掘需求。这主要取决于三点。首先是企业数据准备的程度。统计学很重要的一个出发点就是过去发生的事情在未来会重现。否则,没有分析的必要。那么拥有一个月的数据和过去三十年的数据,分析的结果是天壤之别。因此企业内部需要有足够的数据量作支撑。其次,数据质量要有保证。我曾经总结过一个三个月的数据挖掘项目,其实做模型只用了两周,其余时间都是整理数据。如果数据质量不过关,就会出现挖掘结果不合常理,或者在业务上解释不通的情况。最后从系统流程角度,如果商业智能这些方法都不能解决企业问题的话,就可以考虑引入数据挖掘。当然还需要企业从业务流程,内部政策上针对数据挖掘的结果作出相应改进才行。很多时候我们发现预测模型没有和企业的流程挂钩。项目进行期间,企业会采用数据挖掘的结果,但是一旦项目结束,就又按照原来的套路了。理想的流程,以客户流失为例,是每月做一次下月流失预测,将结果交给业务部门,由业务部门作出相应的挽留行动。但是很多企业都是在月底看下流失率,如果流失太多就会告诉下属下个月要注意,下属就自己想尽办法把流失率降下来。因此要在流程上作出改进,使数据挖掘观念嵌入在公司业务体系中,这样才能使数据挖掘结果为企业带来有效持久的效果。
        天时地利人和造就数据挖掘发展
        数据挖掘现在受到广泛关注是产业不断发展的结果。在2000年到2005年,业界讨论最多的是数据仓库的概念。而在2000年以前,大家对数据仓库也不了解。因此,关于数据的发展是一个渐进的过程。
        首先,我们已经具备足够的数据量。数据挖掘一定要基于庞大数据量的基础才能分析。以前企业的客户可能只有一两百,通过人眼就可以看出用户的特点。但是现在企业动辄就有几百万,甚至上亿的用户群体,这时就需要数据挖掘技术帮助公司分析。
        其次是行业精细化管理的需求。以前企业的管理属于粗放型,即使客户数量多,数据量足够,也不需要对用户和市场进行深入分析,就可以盈利。这种情况在垄断行业比较常见。领导很多时候只要拍拍脑袋,自己出个政策或者决定就可以了。但是现在随着市场的成熟,竞争程度加剧,迫使许多企业从粗放型向精细化发展,因此对数据挖掘更加重视。
        第三,企业的管理者观点发生了转变。这种转变需要一个过程。以前我和企业老板沟通的时候,谈到数据挖掘,他们都觉得这个概念很好,但是对于如何应用于自己公司的业务流程中,完全没有概念。及时我和他们分享了国外成功的案例,他们还是认为企业暂时不需要。这与前面提到的数据量和管理方式有关。经过几年不断和客户的沟通,介绍和培训,管理者对于数据挖掘越来越了解,也看到了同行业的一些实际的效果,因此决定将数据挖掘提上企业发展日程。
        此外,信息技术的发展也培育了数据研究成熟的沃土。2000年以前,大家使用网络的行为还非常简单,只是单纯浏览有限的网页,但是现在热门对网络的依赖性越来越强。日常生活的许多事情都转移到网络上进行,比如网上购物。Web2.0也使得人们通过网络进行协同工作,这种频繁的在线互动使得我们以前很难获得的数据都可以通过技术手段得到。从以前只需要企业内部的数据库转化为需要关注社会网络与企业之前的联系。例如在一些网上理财论坛,网民会讨论银行的服务,以及各家银行产品的优缺点等,那么银行就会关心用户的态度趋势,我们称之为“情感分析”。国外一些大银行例如花旗、汇丰、美国银行等都会在网上搜集用户的态度信息,每天绘制趋势图,客户对银行的意见爆发集中在哪些方面,或者进来关注什么功能,有什么业务需求等,从而决定采取何种措施满足客户需要。甚至还有人在twitter里通过分析与股市相关的评论来预测未来股价的走势,结果相关性达到70%。因此,信息技术的发展也使得数据挖掘发挥的作用越来越大。
        数据量有多少才算够?
        阿基米德曾说过,给我一个支点,我就可以撬动地球。也就是说,只要具备方法和技术,我就可以解决各种各样的问题。但是就数据挖掘来讲,不仅仅是一种工具,还需要具备数据量。大家经常会谈到股票走势预测,从非常机械的理论层面看,如果掌握行业发展的情况,全球经济的走势,某只股票企业的运营和交易状况,内部信息,专家观点等这些全部的信息,那么就可以成功预测它的未来发展。关键是没有人能够完全掌握这些信息。因此有些数据挖掘可以做,有些不行。这取决于我们手里掌握的数据量有多少。如果信息量不够,本身存在一部分数据缺失,这个对结果有很大影响,单纯依靠调节数据建模型,永远不可能真正有效地解决问题,在电信行业,客户流失会分为主动流失和被动流失。前者是指主动告诉电信公司自己的号不用,要销号。但是更多的人会直接将卡扔掉,我们称之为拆机。如果电信公司要建立模型,预测客户流失情况,那么面临的最大困难是主动流失的人群太少,如果流失率是5%,那么主动流失可能也就1%,甚至千分之一。而数据挖掘是基于一定的数据量找流失特征,若果主动流失人群太少,那么根本找不到他们与普通用户的差别,或者找到的差别没有那么明显。因为样本量太少。
        因此大家经常会担心数据量是否足够。其实有许多手段能帮助我们验证信息是否足够、有效。比如我们可以根据手头掌握的信息构建模型,做一些初步的预测和分析,检验这些得出的规律是否正确和稳定。如果是,那么证明我们目前拿到的信息满足挖掘要求。但是如果有些数据真的非常重要,而我们又得不到,这种情况其实对于做科研的人比较常见,而对于商业应用并不是很多。如果做电信运营商或者银行的项目,客户都会给我们需要的全部内部数据。通过大量成功的案例,证明这些数据对于企业内的数据挖掘模型已经足够了。当然这些企业也会希望用到外部的信息,有可能我们拿不到,这对模型的影响并不大。其实数据挖掘本身就不是非常严谨,它不像数学,有成体系的公式、定理、推理过程。我们做的预测,检验,实际上都没有很精确的证明方法,包括统计检验最后得出的结果也是类似说找不到证据证明这两者存在差异。为什么不能用通俗的方法说两者一样呢,而是采用这么拗口的方式?因为统计本身不能通过精密的,无懈可击的推理过程找出两者一样的证据。它只能通过大量的数据,得出一些规律,找到一些可能有用的特征或者模式。
        SAS在性能、成功案例方面居于领先地位
        数据挖掘的算法已经发展了几十年,目前已经相当成熟,不同的软件算法都是相同的。但是对于软件,算法一样并不代表结果一样,因为性能也就是处理数据的能力同样很重要。现在我们的数据量越来越大,甚至出现TB量级。SAS一个很突出的优点就是性能好。在处理大数据的时候,有些软件可能会出现运行慢或者死机的情况,但是SAS不会。此外,针对数据挖掘的八种能力,SAS全部支持。一些软件可能支持其中一部分,例如SPSS就不支持前四种,即常规报表、即席查询、多维分析和警报的功能,更多的偏向后四种侧重统计的能力。数据挖掘的目的就是解决企业的业务问题,那么如果通过相对简单的操作就能发现问题,就不需要复杂的数据挖掘了。客户不用搭配不同公司的几种软件,而只用SAS提供的八种能力就可以,这在很大程度上避免了不同软件的整合,优化了用户使用。
        其次,SAS成功案例的数量远远领先于同行业者。我曾经比较过SAS和SPSS的客户数量。在SAS全球官方网站列出的可对外公布成功案例里,银行业有200多个,其中中国7个。而SPSS全球不到十个,中国没有。这也反映了大家不同的侧重点。SPSS主要的客户以政府、教育机构为主。而SAS偏向以银行、电信、制造业以及医疗卫生为主的商业领域。
        数据挖掘可以应用的领域很多,从金融到制造行业,因此对于研究人员的素质要求也比较高。首先需要数据挖掘建模的方法技能,学会使用工具,这是一个基础。其次,要有业务的感觉。不只是简单看到数据,而是能看出它代表的客户的业务行为,与业务相关的联系。最后还需要具备积极的探索精神。我经常看到有人掌握了技术,也懂得数据的含义,但是建模模型之后,看起来差不多就开始用了。或者跑了几个模型,都没有出结果就放弃了。但实际上,数据挖掘并不是一门严谨的科学,它需要不断进行尝试,更像一门实验性的科学,就像在实验室做实验一样,不能保证每次实验的结果都满意,或者达到你期望的结果。数据挖掘模型必须经过多次的测试,不断地调整和改善,这样挖掘出来的结果才能真正促进业务的增长。
        一个研究人很难同时具备以上三种素质,特别是对于业务的理解。因此在一个团队中,我们会分为业务专家,建模专家,IT专家(专门负责整理数据)等。建模结果出来后,会和业务人员讨论,看这种规律能够从业务角度解释通,如果解释不通,就算模型再好,也不能用。但是实际工作中,建模人员不能一遇到业务问题就问业务人员,因此他也需要具备一定的业务知识,不能完全不了解。随着接触项目越多,会慢慢积累出对于某一行业的专业知识。
        数据挖掘是侦探,也是警察
        现在数据挖掘已经不仅仅停留在概念的层面,而是被广泛的应用在各种领域,最早是电信行业较多,现在主要是金融行业。从应用目的看,数据挖掘起初主要与营销相关,但是近年来它越来越多被应用在客户关系管理方面,特别是银行的风险管理,包括反欺诈、反洗钱等方面。欺诈在保险业务中最常见。例如车辆索赔,保险公司经常发现在车辆损坏进行保险理赔时,车主经常和修理厂串通,夸大损坏程度,只要花100元维修却谎报500元。这种情况很常见,而利用数据挖掘就可以发现索赔是否属于欺诈行为。此外,医保中也会出现有人去医院看病开许多很贵的药,但实际自己没有病。通过将要转手卖给别人从中赚取差价。这种利用职权滥用福利的问题就属于欺诈,这是风险管理方面很关键的一个问题。在金融行业,数据挖掘还被用在监测洗钱行为。虽然国家出台了反洗钱法,但是目前的监管体系还不足以把所有洗钱的行为都甄别出来。例如在以前,转账的金额如果超过10万会划归在大额交易范畴,银行定期出具大额交易报告,违法分子很容易被发现。但是如果将大额交易分成多次小额转账,那么这种情况银行很难发现。就需要数据挖掘分析建模的方法,帮助银行筛选可疑交易。
        谈到数据挖掘典型的案例,最广为人知的是啤酒与尿布的案例。但是关于这个故事是真是假也存在很多争辩。但不论如何它体现了数据挖掘优于其他方法的能力。类似交叉销售方面,例如汇丰银行通过细分客户,划定客户特征,依据兴趣爱好等分成不同组群,再通过产品关联分析做营销预测。最后将这个成熟的体系应用前台业务系统中。客户到汇丰银行网点办理业务,在常规业务办理完毕后,柜员的电脑会自动弹出窗口,提示这个客户属于哪一个类型,投资理财偏向,以及推荐产品建议。这样柜员就可以顺便询问客户需不需要某种理财产品,它可能更适合客户的需求等。我们称之为Next Best Offer(最佳对你合适的产品)。
        我还听说过国外有一个这样的案例。格洛斯特郡是英格兰西部的一个郡,大约有五十多万人口。在有一段时间内,发生了多起抢劫案,民众不再感觉到安全,对郡警察局的舆论压力也陡然增加了,强烈要求及时破获这些案件,并避免案件的进一步发生。警方一方面在加快破案的同时,也在努力思考怎么样才可以降低发案率。按照传统的做法,一般会采取这样的措施:锁定抢劫案的多发地区,加派警力进行巡逻,对行为异常的人员加强盘查等等。然而,格洛斯特郡警察局发现,这些措施的收效甚微,发案率依然居高不下,因为抢劫案的发案地点并不集中,分散在多个不同的街区,这让巡逻警力的安排显得捉襟见肘,难以全面顾及。此时,来自警察局内部的分析系统却有了新的发现。系统中保存了多年的案件和案犯的卷宗信息,通过利用数据挖掘等分析技术,揭示出最近这段时间的抢劫犯具有一些非常显著的特征:他们大多是没有固定住所,无家可归,而且也没有稳定的工作。另外,在很多抢劫案发生前,这些罪犯都吸食了毒品。正是在毒品的刺激作用下,他们失去了自控能力,临时见财起意,对单身女性或情侣实施抢劫。 新的发现给警察局带来了新的思路,警方当机立断,对原来的增加警力加强巡逻的做法进行了调整,改为采取如下措施:一是加强对无业人员和有吸毒前科人员的管理,并通过社会福利机构对他们实施救助;然后,加强了对毒品交易易发场所的严打和治理,从源头上掐断毒品的供应。 治理得到了良好的效果,抢劫案的发案率迅速降低,格洛斯特郡的人们又重新恢复了平静的生活。
        数据挖掘未来的三大趋势
        趋势一:大数据,大分析
        近两年关于数据挖掘出现了“大数据”这个概念,一些电子商务网站的数据量增长尤其明显。大数据会影响数据挖掘的工具以及方法。针对这种情况,SAS提出“大分析”的概念。光有大数据,没有一套匹配的技术来配合也不行。SAS基于大分析的趋势提出高性能计算的解决策略。
        高性能计算,主要针对大数据量提高分析挖掘的速度。主要有三种实现方式,库内计算,内存计算以及网格计算。库内分析:大数据一般存储在企业的数据仓库内,以前用数据挖掘工具,需要将数据从数据仓库拿出来,在外面做完分析再放回去。但是随着数据量的增大,搬数据的代价非常高,因此库内分析就是指在数据仓库的内部放入建模的功能,直接在数据库内进行分析。我们目前和许多数据仓库厂商都有合作。第二种方式是内存计算。即使采用库内计算,还存在数据读取处理的问题。在数据仓库里面需要大量的磁盘读写工作。建模结束回看过程,会发现大概有80%的时间在读数据,而20%CPU在做计算。通过加内存条的方式,比如500T的数据,插入800T的内存,就可以将数据放在内存里,这样每次读写数据都可以直接在内存里进行,保证每次运算速度都非常快,避免磁盘读写。第三种方式是网格计算。一台服务器,性能再高,都有一个限度,不能无限加内存。通过多台服务器,形成一个服务器网路,实现分布式计算。每一台服务器成为一个节点,节点之间通过管理软件联系起来。一旦建立模型之后,再把模型分解,不同服务器负责不同的部分,各自计算,算完再结合起来。这样就保证了速度。
        趋势二:非结构化数据的海洋
        非结构化数据的数据量增加越来越快,我认为它与结构化数据就像海洋和陆地的比例。以前我们只看陆地上的数据,但是实际上海洋里面很多资源没有被有效利用。在非结构化数据发展中,要点是如何从非结构化向结构化转变,做结构化处理。这里面涉及了文本挖掘、自然语言处理等更细化的技术实现手段。此外,非结构化数据与结构化数据结合也将是一个发展热点,单纯依靠其一都不可靠。
        针对自然语言文本的非结构化的信息,最典型的做法是抓取关键词。但是文本挖掘技术的不断成熟,产生了计算语言学,即让语言可以计算,可以进行量化处理,通过大量语料库辅助研究人员对非结构化数据进行分析。
        事实上,SAS目前处理非结构化数据还是将文字先转化为与数据库类似的结构化数据,然后再按照结构化数据的方式进行处理。但是转化的这步比较难。但是这些不会阻碍大家对于非结构化数据的挖掘,毕竟它的数据量非常庞大,舍弃不用实在是非常浪费。虽然目前这种技术还不算非常成熟,达不到结构化数据的程度,但是已经可以在商用系统里应用了。
        在未来,结构化数据仍然是主流,这毋庸置疑。毕竟它的数据是相对最准确的,底层的数据质量有保证。但是全球数据是以几何级数增长,其中75%为非结构化数据,因此未来将以结构化数据挖掘为核心,非结构化数据会变得越来越重要。二者是相辅相成的关系,不会只通过某一个方面的分析就得出结论做决策。
        例如,汽车的4S店维修店会把车主经常容易损坏的零件放在库存备用,以前企业会定期定量补充配件,但是有时候会出现某段时间某一种配件突然需求很多,而其他一些需求下降的情况。长期没用的零件会挤占库存空间。而如果备的零件不够客户又会不满意,认为企业服务质量不高。到底要备多少库存量就会用到数据挖掘的需求预报应用。这是结构化数据的应用。另一方面,客户也会通过电话来做咨询或者投诉,车厂的呼叫中心会将事故现场信息,索赔等以文字形式录入系统中,通过针对这些文字的非结构化分析,我们也可以发现车辆经常出哪些事故,哪些零件易损等。这些信息时无法通过结构化数据分析的,因为它都存在于文字描述中。这时候就需要利用非结构化和结构化数据挖掘共同发挥作用。
        趋势三:社会化分析
        社会化分析主要涉及社会媒体分析和社会网络分析。社会媒体分析比较典型的如博客微博,网民会在这种平台上发表各种各样的观点,我们要分析大家对产品服务的态度等。社会网络分析是目前非常火的话题。特别是微博的出现,引发了一个爆发式的分析热潮。在微博上,熟人和陌生人都可以彼此互相关注,信息被评论、转发又会不断扩展、发散,逐渐放大。企业会关注人们在微博上的动向,政府也会关心言论的走向。对于普通用户,也会涉及到自己交往圈、关系圈。在圈子里面哪些人是影响者,哪些是跟随者,哪些是边缘人,找到这些关键点,对营销会有很大帮助。

你可能感兴趣的:(数据挖掘,趋势)