介绍Kaggle上各种数据挖掘应用的文章

转载一篇介绍Kaggle上各种数据挖掘应用的文章


假设你想知道价格上涨5%之后会导致多少顾客流失,或者是预测市场对大量抛售股票的反应,又或者是估算一下借款人拖欠还款的可能性,试试卡歌网(Kaggle)吧。这是一家位于美国旧金山的初创企业,在线经营商业模式的竞赛。该网站在2010年启动,获得了1,100万美元的风险投资。网站让参与竞赛的人根据一系列的数据提交预测运算法则,并且将预测结果与实际的历史数据进行对比。最优秀的建模者能将奖金纳入囊中(奖金由那些需要情报的公司提供),而且有机会提供咨询服务。卡歌网在组织这些竞赛时会向企业收取费用。今年28岁的戈德布卢姆(Anthony Goldbloom)是卡歌网的创始人兼首席执行官,他说:“这就像是职业高尔夫球巡回赛,我们寻找数据科学世界里面的伍兹(Tiger Woods)。”

以下是那些捣鼓数字的人处理的部分难题。

预测保险索赔情况

好事达保险公司(Allstate)希望能更好地预测与汽车相关的伤害索赔情况,以便更精确地制定价格。竞争者们根据2005年到2007年的数据(包括具体的汽车情况、以及每辆车相关的赔偿支出次数和数量)进行建模,并将它们应用到2008年至2009年的数据上。澳大利亚悉尼的保险精算顾问卡尔(Matthew Carle)使用决策树形式的运算法则来告诉计算机如何进行学习,借此获得了6,000美元的头等奖。它的精确程度比好事达保险公司的模型要高出340%。

测量医院病人流

根据美国卫生保健研究与质量管理处(Agency for Healthcare Research and Quality)的数据,美国医疗保健体系在可预防的住院医疗上要烧掉300亿美元。HPN(Heritage Provider Network)是一家位于加利福尼亚州的医疗保健机构,它希望能够帮助医生们更快速地确诊,从而控制成本。它赞助的竞赛内容是,根据36个月内的一系列数据来预测哪些病人将会需要住院治疗。该项竞赛的头奖金额为300万美元(卡歌网上奖金额最高的项目)。比赛从2011年5月份开始,将在2013年4月份结束。截至目前,已经有1,400支队伍提交了近1万份运算法则。

对旅游业进行预测

航空公司高管、旅馆经营者以及餐馆经营者都迫切想知道他们需要多少燃料、食品和员工才能让顾客们感到满意。2010年,《国际预测杂志》(International Journal of Forecasting)赞助了一场竞赛,挑战一个已经发表的基于不同时期和不同地点旅游活动的预测公式。获胜者是霍华德(Jeremy Howard)和贝克(Lee Baker)。他们开发的模型可以精确地考虑到一次性事件的影响,例如恶劣的暴风雨。他们获得了500美元的奖金,以及发表建模结果的机会。霍华德本人之后继续努力,还赢得了卡歌网组织的其他竞赛,如今成为了该公司的总裁兼首席科学家。

对国际象棋手进行排名

所谓的伊诺排名算法(Elo rating system),根据国际象棋手过去的表现来分析对弈两人的实力强弱。卡歌网组织了两场竞赛,旨在对该算法进行改进。其中一场竞赛的赞助人是国际棋联组织(World Chess Federation,FIDE)和专业咨询服务机构德勤公司(Deloitte),在这场竞赛中,组织方向参赛者提供5.4万人在11年里近200万局国际象棋比赛的情况,然后将他们的预测模型应用于此后进行的10万局比赛,以验证预测结果的精确性。萨利曼斯(Tim Salimans)拔得了头筹。在他的模型中,有些变量的权重相比更大,例如棋手最近的表现、对手的技巧、以及他在单日里必须进行的棋局数量等。萨利曼斯获得的奖金是1万美元。


原文见:http://www.forbeschina.com/review/201203/0015583.shtml


你可能感兴趣的:(算法,数据挖掘,医疗,咨询,NetWork,旅游)