本文整理了20个天池、DataCastle、DataFountain等中出现的,可使用分类算法处理的问题场景实例。
1 O2O优惠券使用预测
以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。
现有O2O场景相关的丰富数据,希望通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。
2 市民出行选乘公交预测
基于海量公交数据记录,希望挖掘市民在公共交通中的行为模式。以市民出行公交线路选乘预测为方向,期望通过分析广东省部分公交线路的历史公交卡交易数据,挖掘固定人群在公共交通中的行为模式,分析推测乘客的出行习惯和偏好,从而建立模型预测人们在未来一周内将会搭乘哪些公交线路,为广大乘客提供信息对称、安全舒适的出行环境,用数据引领未来城市智慧出行。
3待测微生物种类判别
DNA是多数生物的遗传物质,DNA上的碱基(A,T,C和G)就储藏了遗传信息,不同物种的DNA序列在序列长度和碱基组成上差异显著。所以我们能够通过DNA序列的比较分析,来判断DNA序列是来自哪些物种。由于测序技术限制,我们只能得到一定长度的DNA序列片段。通过DNA序列片段与已知的微生物DNA序列进行比较,可以确定DNA片段的来源微生物,进而确定待测微生物种类。
期望在相关数据基础上,建立分析方法,在计算资源消耗尽量小的情况下,尽可能快地给出准确的结果,以满足临床诊断需求。
4 基于运营商数据的个人征信评估
运营商作为网络服务供应商,积累了大量的用户基本信息及行为特征数据,如终端数据、套餐消费数据、通信数据等等。实名制政策保证了运营商用户数据能与用户真实身份匹配,并真实客观的反映用户行为。广泛覆盖的网络基础设施提供了积累大量实时数据的条件,这些用户数据实时反馈着用户的各个维度的信息及特征。
在我国,个人征信评估主要通过引用央行个人征信报告,但对于很多用户没有建立个人信用记录的用户,金融机构想要了解他们的信用记录成本又较高,传统征信评估手段难以满足目前多种多样的新兴需求。金融业务不同于其他大数据业务,对数据的真实性、可信度和时效性要求较高,而这正是运营商数据的价值所在。
期望利用运营商用户数据,提供完善的个人征信评估。
5 商品图片分类
京东含有数以百万计的商品图片,“拍照购”“找同款”等应用必须对用户提供的商品图片进行分类。同时,提取商品图像特征,可以提供给推荐、广告等系统,提高推荐/广告的效果。
希望通过对图像数据进行学习,以达到对图像进行分类划分的目的。
6 广告点击行为预测
用户在上网浏览过程中,可能产生广告曝光或点击行为。对广告点击进行预测,可以指导广告主进行定向广告投放和优化,使广告投入产生最大回报。
希望基于100万名随机用户在六个月的时间范围内广告曝光和点击日志,包括广告监测点数据,预测每个用户在8天内是否会在各监测点上发生点击行为。
7 基于文本内容的垃圾短信识别
垃圾短信已日益成为困扰运营商和手机用户的难题,严重影响到人们正常生活、侵害到运营商的社会形象以及危害着社会稳定。而不法分子运用科技手段不断更新垃圾短信形式且传播途径非常广泛,传统的基于策略、关键词等过滤的效果有限,很多垃圾短信“逃脱”过滤,继续到达手机终端。
希望基于短信文本内容,结合机器学习算法、大数据分析挖掘来智能地识别垃圾短信及其变种。
8 中文句子类别精准分析
精确的语义分析是大数据必备技术,在分析句子时,不同句子类别即使用类似的关键词,表达的含义仍有很大差别,特别是在情感判断中。
希望通过新闻以及微博等文本数据,对其句子类别进行判断。
9 P2P网络借贷平台的经营风险量化分析
P2P网络借贷即点对点信贷,其风险情况始终触碰着投资人的神经。据网贷之家统计,截止今年9月份,出现问题的网贷平台一共有1008家,而仅仅今年就有641家平台出现问题,这说明了随着我国p2p行业的迅猛发展,P2P平台的风险预测已经成为一个至关重要的问题。P2P平台的风险主要是在运营过程中产生的,与运营数据有着密不可分的关系。P2P平台的风险预测并非无线索可寻,像借款期限和年化收益率等指标,就对P2P平台的风险预测有很重要的参考意义。
希望通过互联网数据,构建出P2P网贷平台的经营风险模型,从而能够比较准确的预测P2P网贷平台的经营风险,促进我国P2P行业向正规化方向发展。
10 国家电网客户用电异常行为分析
社会经济的发展使得社会用电量逐年增加,受利益驱使,窃电现象也日益严重。窃电行为不仅给供电企业造成了重大经济损失,也严重影响了正常的供用电秩序。根据国家电网公司统计,近年因窃电导致的损失达上千万元。近年来,窃电方式也由野蛮窃电发展到设备智能化、手段专业化、行为隐蔽化、实施规模化的高科技窃电,给反窃电工作进一步增加了很大的难度。随着电力系统升级,智能电力设备的普及,国家电网公司可以实时收集海量的用户用电行为数据、电力设备监测数据,因此,国家电网公司希望通过大数据分析技术,科学的开展防窃电监测分析,以提高反窃电工作效率,降低窃电行为分析的时间及成本。
希望基于国家电网公司提供的关于用户用电量、电能表停走、电流失流、计量们打开灯计量异常情况、窃电行为等相关数据,以及经过现场电工人员现场确认的窃电用户清单,希望参赛者利用大数据分析算法与技术,发现窃电用户的行为特征,形成窃电用户行为画像,准确识别窃电用户,以帮助系统更快速、准确地识别窃电用户,提高窃电监测效率,降低窃电损失。
11 自动驾驶场景中的交通标志检测
在自动驾驶场景中,交通标志的检测和识别对行车周围环境的理解起着至关重要的作用。例如通过检测识别限速标志来控制当前车辆的速度等;另一方面,将交通标志嵌入到高精度地图中,对定位导航也起到关键的辅助作用。交通标志的检测是一项非常有挑战的任务,精确的检测对后续识别,辅助定位导航起着决定性的作用。交通标志的种类众多,大小、角度不依,本身就很难做到精确检测,并且在真实的行车环境中,受到天气、光照等因素的影响,使得交通标志的检测更加困难。
希望机遇完全真实场景下的图片数据用于训练和测试,训练能够实际应用在自动驾驶中的识别模型。
12 大数据精准营销中搜狗用户画像挖掘
“物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了“聚类”和“人群”之间的内在联系。在现代数字广告投放系统中,以物拟人,以物窥人,才是比任何大数据都要更大的前提。在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。
希望基于用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。
13 基于视角的领域情感分析
情感分析是网络舆情分析中必不可少的技术,基于视角的领域情感分析更是情感分析应用于特定领域的关键技术。在对句子进行情感分析时,站在不同的视角,同一个句子的情感倾向判断结果将有所差别。
给定一个句子,如果该句子中包含“视角”词语,则应针对这一视角进行情感分析;如果句子中包含多个“视角”词语,则应对不同的视角进行单独的情感分析;如果句子中不包含视角,则不做情感判别处理。
14 监控场景下的行人精细化识别
随着平安中国、平安城市的提出,视频监控被广泛应用于各种领域,这给维护社会治安带来了便捷;但同时也带来了一个问题,即海量的视频监控流使得发生突发事故后,需要耗费大量的人力物力去搜索有效信息。行人作为视频监控中的重要目标之一,若能对其进行有效的外观识别,不仅能提高视频监控工作人员的工作效率,对视频的检索、行人行为解析也具有重要意义。
希望基于监控场景下多张带有标注信息的行人图像,在定位(头部、上身、下身、脚、帽子、包)的基础上研究行人精细化识别算法,自动识别出行人图像中行人的属性特征。标注的行人属性包括性别、头发长度和上下身衣着、鞋子及包的种类和颜色,并提供图像中行人头部、上身、下身、脚、帽子、包位置的标注。
15 用户评分预测
个性化推荐已经成为各大电子商务网站的必备服务。准确的推荐不仅可以提高商家的产品销量,更能为顾客提供优质快速的购物体验。推荐系统发展至今,已经有许多非常优秀的推荐算法,从各种不同的角度来为电子商务大厦添砖加瓦。迄今为止,已经有不少研究表明,用户在短期时间内会浏览相似的商品,但其兴趣可能会随时间发生些许变化。
希望通过训练带有时间标记的用户打分行为,准确地预测这些用户对其他商品的打分。
16 猫狗识别大战
有人说,猫与狗上千年历史的敌对状态,主要是由于在长期进化过程中迫于对生存资源进行争夺而造成的残酷竞争导致的;也有人说,是他们天生的交流方式不同导致的;今天猫狗大战开始了,为了避免被这些家伙拆房的危险,各位智慧的人类,请速来隔离高冷猫和憨厚狗。
希望从训练集里建立一个模型去识别测试集里的小狗来。
17 微额借款用户人品预测
互联网金融近年来异常火热,大量的资本和人才涌入这个领域发掘富藏价值。金融领域无论是投资理财还是借贷放款,风险控制永远是业务的核心基础。而在所有的互联网金融产品中,微额借款(借款金额500元~1000元)因其主要服务对象的特殊性,被公认为是风险最高的细分领域。
希望通过数据挖掘来分析”小额微贷“申请借款用户的信用状况,以分析其是否逾期。
18 验证码识别
使用各类验证码的训练集进行学习、编码与测试,形成验证码算法模型。
19 客户流失率预测
我国的移动通信行业经过了前几年的高速发展,近一段时间的发展速度逐渐缓慢下来。注册用户常常处于一种动态变化的状态,即不断有老客户离网,又不断有新客户入网。大量的低消费客户和大量老客户的离网使得移动通信公司无法快速向前发展。
希望建立客户流失模型,对新老客户进行分类。
20 汽车4S店邮件营销方案
直邮营销是直效行销的一种,是把传统邮件直接发送给消费者的营销方式涉及的行业主要是大型商场、大卖场、商业连锁店铺、专卖店等。一家汽车4S店,公司拥有完备的客户历史消费数据库,现公司准备举办一次高端品牌汽车的促销活动,为配合这次促销活动,公司计划为潜在客户寄去一份精美的汽车销售材料并附带一份小礼品。由于资源有限,公司仅有1000份材料和礼品的预算额度。
希望根据与这次促销活动类似的已经举办过的促销活动的历史消费数据,用过机器学习算法得到一个分类器,对新客户进行分类,生成正类客户的客户列表,向他们寄出材料和礼品。