【思考题】类滴滴顺风车业务的风险控制

0. 背景:

    1)滴滴顺风车业务在短期内出现多起司机杀害乘客事件

    2)专车、快车、顺风车对应的是不同定价水平的“黑车”,该市场长期存在,滴滴等网约车平台只是将其搬到线上。

    3)随着专车的网约车牌照审核要求不断提升,一些黑车司机选择顺风车作为获客的来源。同时中国存在许多城镇间交通,这类交通需求出租车、专车不愿意接(过去后很难找到返程的乘客)或者价格昂贵,大巴客运便捷性低速度慢,因此存在顺风车“黑车”的市场空间

    4)由于市场需求存在,关闭网约车平台并不能消灭“黑车”以及该市场带来的风险存在,将线下市场线上化,并进行有效监管,才能最终降低该市场的风险

    5)滴滴作为平台方,获得了该市场的收益,却不愿意付出风险控制的成本,有无法推卸的责任。简单来说,滴滴只要根据接单频次和固定线路变化情况,就可以挡掉大部分“黑车”司机,近期内出现的顺风车事件就可以避免。以下本文考虑的是“类滴滴顺风车业务”的风险控制,而非“滴滴顺风车业务”

    6)首先这是一个产品定位错位以及企业安全风险防范能力缺位的问题,然后才是技术问题。为了聚焦讨论,本文只考虑下述3个技术问题,不考虑更宽泛的风险控制机制的设计:

        a. 司机审核:司机犯罪倾向的计算,对高犯罪倾向司机进行下线、评审

        b. 成单前:计算派单安全性因子,作为特征加入派单排序系统

        c. 订单进行时:订单异常监测,诊断可能发生异常的订单

 

一、司机犯罪倾向的计算

    1)思路:

        a. 采用黑/白名单的方式做犯罪倾向计算,黑名单针对异常样本建模,白名单针对正常样本建模,黑/白名单的方式提高对潜在犯罪者的识别能力,也减少对正常司机的误伤

        b. 白名单:白名单是一个异常检测问题。由于正常样本数远远大于异常样本数,难以采用二分类建模的方法,因此考虑采用单分类模型(如one-class SVM、深度自编码机),学习单类样本的最小边界,边界外为异常样本;或者直接采用统计的方法,根据白名单样本得到正常司机的模式,与正常模式差异较大为异常样本。由于司机类别多样,白名单可以通过聚类的方法得到各种类别司机的模型,然后识别异常样本

        (参考:https://blog.csdn.net/u013382288/article/details/80460986,https://www.cnblogs.com/alisecurity/p/6378869.html)

        c. 黑名单:黑名单是一个lookalike问题,基于少量的犯罪司机样本,扩展到更多有较大犯罪倾向的司机。“犯罪司机样本”为历年已经有记录的司机样本,“犯罪倾向司机样本”需要人工标识,基于投诉率、投诉内容、乘客评价、平台外犯罪记录等信息,人工过滤出一批“犯罪倾向司机样本”。基于“正常样本”和“犯罪倾向司机样本”,训练二元分类模型,通过模型计算出每个司机的“犯罪倾向”。不同犯罪类型、犯罪动机的司机难以用一个分类器进行识别,可以针对不同犯罪类型/犯罪动机建立不同的分类器,然后对这些分类器用adaBoost方法集成

        (参考:https://blog.csdn.net/u013382288/article/details/80537167,http://bbs.qcloud.com/thread-10745-1-1.html)

        d. 歧视问题:黑/白名单模型可能会带来歧视问题,如性别歧视/地域歧视/职业歧视,模型歧视的来源是训练数据样本有偏,需要人工标注者注意样本的采样问题、以及一个样本多人标注的方式降低歧视(如有些标注者直接通过省份查找“疑似异常样本”,然后再进行标注,那么标注数据集中该省份的犯罪率就偏高)

        (参考:https://blog.csdn.net/u013382288/article/details/82178420,https://www.leiphone.com/news/201805/UPjA3tnsC9HY4SLx.html)

    2)特征工程:

        a. 基本个人信息:性别、年龄、职业、籍贯

        b. 违规/被投诉行为

        c. 评分:乘客对司机的综合评分,以及近期评分与往期评分的比值(如历史表现良好,近期突然下降,可能是别的司机冒用了该账号)

        d. 接单行为:总接单数、订单完成率、历史订单时长

        e. 单一手机号码使用时长

        f. 社会信誉:外部信息,包括芝麻信用、负债金额、P2P平台借款金额等(数据较难获取,但近期的两起顺风车事件中,司机均在P2P平台有较大额度的借款)

        g. 司机类型:上下班顺风车司机、职业顺风车司机(黑车司机)、社交属性顺风车司机(个人认为,后两者是钻法律空子,打着共享出行的旗号规避网约车的监管制度,应该直接取缔)

        f. 常用线路:某些线路投诉率较高,司机存在犯罪机会

        g. 社交关系:司机之间的联系关系,在社交关系网络中识别出小群体,某一类司机小群体具有较高的犯罪率(数据较难获取,需要卧底进入司机的微信群、qq群)

 

 

二、成单前:提高派单安全性

    1)思路:

        a. 建立二分类模型:根据投诉内容,将涉嫌性骚扰/暴力/勒索等订单找出,作为异常样本。基于正常订单样本和异常订单样本,训练二元分类模型

        b. 输出危险得分:匹配订单时,通过训练好的模型输出 司机-乘客-线路 三元组的危险得分,作为订单排序的一个指标,对于可能有危险的线路进行排序降权以及下线

    2)特征工程:

        a. 司机:可信任程度(见“一、司机犯罪倾向的计算”)

        b. 乘客:风险程度

            i1:个人信息,包括年龄、性别、职业等。(非性别歧视,只是模型对于女性、较低年龄的乘客,需要提高安全阈值,优先匹配信任程度更高的司机)

            i2:乘车行为,包括乘车次数、消费金额、笔单价等,能反映乘客对网约车业务的熟悉程度,以及乘客的财富水平

            i3:乘客评价,包括司机对乘客的评分、评论文本和标签

            i4:外部信息,包括手机设备型号(财富水平)

        c. 订单:

            i1:订单线路与司机常用线路的差异

            i2:地区人流程度(起点、路程中最小人流程度、终点)

            i3:订单预定时间

            i4:路程长度

            i5:是否跨城镇交通

 

 

三、订单异常诊断

    1)思路:

        a. 建立二分类模型:根据投诉内容,将涉嫌性骚扰/暴力/勒索等订单找出,作为异常样本。基于正常订单样本和异常订单样本,训练二元分类模型

        b. 输出危险得分:订单执行时,通过训练好的模型输出 司机-乘客-线路 三元组的危险得分,当分数超过一定阈值,人工介入询问乘客安全,输出乘客信息、司机信息、车辆信息,及时报警与提供支持

    2)特征工程:

        a. 司机:可信任程度(见“一、司机犯罪倾向的计算”)

        b. 乘客:风险程度

            i1:个人信息,包括年龄、性别、职业等。(非性别歧视,只是对于女性、较低年龄的乘客,需要提高安全阈值,优先匹配信任程度更高的司机)

            i2:乘车行为,包括乘车次数、消费金额、笔单价等,能反映乘客对网约车业务的熟悉程度,以及乘客的财富水平

            i3:乘客评价,包括司机对乘客的评分、评论文本和标签

            i4:外部信息,包括手机设备型号(财富水平)、

        c. 线路:

            i1:实际线路与导航线路的偏移程度

            i2:线路起点与终点

            i3:线路经过的地点(某些地点存在高犯罪率)

            i4:车辆非堵车下情况下,在某一地点长期停留的时间和地点

            i5:是否跨城镇交通

        d. 外部环境:

            i1:下单时间:

            i2:地区人流程度(起点、路程中最小人流程度、终点)

            i3:订单取消时间(判断是否司机让乘客上车后,取消订单,然后线下收费)

        e. 订单结束:

            i1:乘客的评分、评价(低分直接介入)

            i2:实际下车点与原始下车点的差异

            (参考https://mp.weixin.qq.com/s/wVKeuY9I6Ji61XDNTFq60A)

你可能感兴趣的:(思考)