作者:emma
0. 引言
每天早上醒来,眼睛一睁开就面临一个难题:今天穿什么?这时候脑海里往往会冒出很多选项,却都不能令我满意,纠结中经常想着想着就又睡着了。20分钟后发现睡过了惊醒,抓起文化衫和短裤套上就走,匆忙中身上还滴上了牙膏。
于是在同事眼中,我一直是个不修边幅的女程序员,我也的确没让大家失望,经常以文化衫拖鞋的形象出现,自诩反正都嫁人了,穿了给你们看没意思。
但是每天的早上我却从未轻言放弃,依旧会去想:今天穿什么? 这个问题。仿佛是一个我永远解决不了,却又不甘心绕过去的问题。
如何解决
数据分析和推荐做多了,看到什么都有了收集数据来解决问题的冲动。于是有了这个开脑洞的想法:用数据分析解决每天早上起床困扰我的事情,让我能够开心自信的去上班。
我梳理了工作上用数据解决问题的整体流程:
- 定义清楚需要解决的问题。
- 数据收集,清洗数据。
- 定义指标并进行统计计算。
- 对指标进行细分和下钻对比,观察数据得出结论。
- 拿出一些典型的case具体分析。
- 通过4和5的结论,优化策略。
- 使用优化后的策略,持续观察4中定义的指标。
中间还会存在很多细节问题,比如指标是否符合预期,遇到问题的假设和验证。
写出来,贴墙上,行动。每次开坑都有一种兴奋和紧张并存的复杂情感。
数据分析就是这样刺激的事情,脑海中会涌现出很多灵感。需要把他们梳理好,否则很容易中途跑偏。
不看到数据的时候,永远不知道有什么结论。跑出来的数据是否和自己的期待一样?如果不一样会是什么原因?不一样的话又要做何种假设和验证?
结果有时候兴奋,也经常避免不了失落。最怕的不是结论不符合预期,而是搜寻了半天没有发现什么有用的结论。只能接受暂时没有结论也是一种结论。把这些数据放在心里,也许哪天又有什么灵感去用。
真是一项逻辑理智和灵感碰撞的工作!
1. 定义清楚需要解决的问题
其实我并不是没有衣服,虽然算不上多的要命,但也塞满了半个衣柜。曾经刚刚开始自己赚钱的时候,也“挥霍”买了不少淘宝爆款。但是没有衣服穿的感觉貌似从来没有消失过。
梳理一下:
- 我对目前可选择的衣服经常觉得不满意
- 我不知道如何去买,似乎一直在买却还是不够
从推荐策略的角度,可以认为衣柜就是我们的候选池子。生活中的各种场合,各种季节代表不同特征用户(其实都是我,在不同情况下百变的我!)的需求。
如 (工作日,上班,春天,下班想去运动,希望简单明快,前几天穿过的序列(xxxxx),脏了洗了的序列(xxxxx)) 或者(周末,带孩子去公园,夏天,会跑跑跳跳拍照,希望方便行动上相,…..)
推荐效果:个人感受,纠结很久or觉得衣服不够。说明效果有待提高。
这里 选择衣服策略 和 评价指标-个人感受是否合心意,都相对主观,较难量化,毕竟女人如此复杂我自己都搞不懂自己。
且我们每次对自己的穿搭不满意都会觉得是因为没有衣服穿,也就是池子(衣服)不足。
所以希望解决的问题是:固定分发策略和评价指标的情况下,如何优化池子来提升效果。
当然由于池子也是根据我自己的决策买来的,所以问题是要解决:如何优化建设池子(买衣服) 这个策略。毕竟买衣服犹豫的时间往往比穿衣服还要长。
如果能够有清晰的认知我需要什么样的衣服,一定能省很大的功夫。
2. 数据收集,清洗数据
基础数据建设和清洗。干净的数据永远最重要。
2.1 基础数据建设
基础数据:每一件衣服,及其相关属性。相关属性是便于后面的统计和下钻。每件衣服拍照是为了逐个case分析。
如果说这次分析花了我整整一个周末的时间,那80%的工作量都在这里。
我把衣柜里面所有的衣服都抹平,照了照片。打了一些标签,整理在excel表格里面。
结合分析的目标,标签主要根据买衣服决策时考虑的因素,穿衣服时的决策因素,最终这件衣服穿不穿 三方面,打了以下标签:
type (背心 短袖,睡衣,卫衣,连体裤等),季节 (春秋,夏,冬)
购买时间(学生时代,上班后,一年内),购买渠道(商场,淘宝,别人送的)。颜色(花,灰,条纹…)
特别程度(特别,有点特点,中规中矩),上身频率(高,中,低,渐低,再也不想穿)
其实还想标更多的,比如和谁一起买的。买的时候主要目的是,买时是否试穿等。但我实在没体力了,回忆每件衣服都的前世今生是件很疲劳的事情。
2.2 脏数据处理
如果不事先抽一些样本来看,或者做一些简单的校验,很容易被脏数据带坑里。他们往往用很小的量和很异常的值,把均值等的指标带偏。
我剔除了一些衣服。主要有:长辈觉得我适合穿一定要送我,为了特殊的事情买的无法穿第二次,比如演出服 这两种。这些衣服不是我主动选择的,暂且不列入分析范围。
3. 定义指标 进行统计计算
3.1 数量
简单直观也是推荐池最重要的指标。终究我们“衣服总是不够用”的诉求在于数量。
这里主要采用的对比和细分思维。因为总量肯定是不少的,觉得不够用一定是集中在某些细分的标签上。细分和对比,就是要找出这些标签。
先看一下总量。
这个数量其实我也不知道算多还是少。这就是数据分析里面一个问题: 很多数据要有个整体平均值 或者对比,才能知道大小。一些数据通过长期观察这类业务数据,均值和分布心里大概有数,看到就可以知道大小。比如移动端feeds广告的点击率,一般都会在1%+。云音乐各tab的渗透率等数据,都是提前知晓的。
而我没有别人衣服数量的资料或者平均值分布。只能简单估算一下,99件是衣服和裤子 外衣和内搭,都算上的。
三个季节,每个季节就30件衣服,上半身和下半身均分的话,每个季节变成15身衣服。4个月15身衣服,总量也不算很多吧(心虚的挠头),至少不是很夸张的多。
对数量指标进行简单的下钻和对比-----很简单也很容易得出结论的方法
夏天衣服最多,冬天衣服最少。和南方的气候匹配。
看每个数据的时候,我们心里都会有一个大概预判。比如分季节的数据,看数据之前从气候可以初步判断应该是夏天最多。当数据和我们的预期符合的时候,也是对数据准确性的一个验证。
当出现数据和我们预期不符合时,则需要关注和进一步验证检查。
分时间看 近10年买的衣服还是占绝大多数。新衣服占33%,也有22%的衣服是7年以前的。还有少数10年以上本科买的衣服。看来我没胖多少。
使用频率从低到高的分布,是左偏的。的确有很多衣服使用频率很低(不偏好)。应证了自己“总觉得没有合适衣服”的感受目标是把这个分布调整到靠右。
商场买的衣服最多,喜欢看中就拿走的爽快。
正式衣服比较少和个人气质有关。没什么正式场合需求。符合预期
各个维度进行一些简单的cross,有一些进一步的结论
使用频率偏低的问题,春天衣服最严重,喜欢的衣服较少。冬天目前在用的衣服都还比较常穿。
场合cross季节,发现夏天真是个浪漫的季节,假期风情比较多。三个季节正式的衣服各一件,完美且够用,下次看到偏正式的衣服,可以不用花时间考虑了。
场合cross特别程度。假期 比较特别的衣服偏多,工作日更多中规中矩的衣服。比较合理。
衣服还有不可忽略的一点- 搭配属性。衣服怎么配不到一起,也是挑选的一大苦恼。
对上装/下装的比例进行分析。除去连衣裙,连体裤这种不需要搭配的。
上下装配比不合适的地方显现了:
- 春装 11.5件上衣配一条裤子
- 下装百搭的牛仔裤非常少,需要针对性补货
数量指标的分析,让我对自己的衣橱有了更多的了解。掌握了哪些品类需要补货。哪些比较充足。
除了数量,质量非常重要。女生多多少少都在不停买衣服,但是为什么一直在买衣服,一直还都觉得不够穿。
重点分析一下再也不想穿的衣服,到底都是什么样子的。从失败经验中总结教训。
3.2 淘汰率
定义淘汰率=再也不想穿的衣服/所有衣服
“买来没怎么穿过的衣服”是我心中最大的痛。又占地方 又没穿 又费钱,还要被说:你看柜子里那么多衣服 怎么还说没衣服!
分析一下淘汰率高的衣服有什么特征,可以避免踩雷。也在以后买衣服纠结的时候,给自己一些指导。
同样,维度细分思维,和对比思维。做为主要的手段。
整体淘汰率30%。三分之一的无效衣服,占比还是比较高的。
分季节看,冬天格外高一些。冬天的衣服虽然使用频率高的比较多,再也不想穿的也比较多。有一些是需要淘汰掉了。
这里想讨论一个问题。维度非常多,在我们下钻的时候如何选取。
大规模的数据和高维度情况,我们可以通过机器学习的方法,可以指定淘汰率这个指标,然后算各个特征的贡献度。
但是在数据分析中,可解释性非常重要的,很多数据是为了验证我们的假设。不需要精准预测、或者去训练模型。(当然如果用模型,一般还是会看看高贡献度的特征,是否符合预期,是否有什么启发)
所以在数据分析中,优先选择下钻的维度是:最有可能有区分度的,可以验证一些假设的,或者在场景下有特殊含义的。
比如数量上很多下钻都按照了“季节”维度去展开。因为季节这个维度是有特殊含义的。春夏秋的衣服不能互穿。所以优先下钻这个维度,更容易发现一些问题。
而淘汰率这个指标,优先下钻最有可能有区分度的,也是可以验证假设的维度:购买时间。
不想穿的衣服,和新旧是否有直接关系呢?如果只是因为已经买很久旧了不想穿,那并不是购买时决策的问题。
淘汰率从高到低依次为,研究生or上班后购买>本科购买>一年内购买。
淘汰率并不是越新的衣服越低。本科衣服的淘汰率低于上班后。这是否代表早期眼光更好呢?需要注意的一点是,衣橱中本科时候购买的衣服只占5%。
这里的原因可以想象:本科买的衣服是十年前的了,能留到现在的,大约都是最喜欢的一批了。如果把本科所有的衣服都留到现在,那淘汰率肯定会大不少。
一年内买的衣服淘汰率是最低的。近期审美坑还是比较少。
所以淘汰率指标中有一个不太公平的地方:近一年买的衣服 淘汰率明显低。
那么如果有一类衣服淘汰率低,不一定是因为我的决策英明眼光独到,也有可能是因为近期买的多,一年内的衣服占比重大。
那么前面看到的,夏天衣服淘汰率低,是因为夏天衣服一年内买的多吗?
可以看到夏天在一年内和一年之前购买的衣服上的淘汰率 都比春秋要低。而且一年内的格外低。
考虑到夏天短袖居多,不容易踩坑。
值得注意的是冬装。一年内购买的淘汰率比一年之前要高。冬装现役虽然有一些使用频率很高的。但近期买的,完全不想穿的概率也较高。近期需要理性购物。
购买渠道也是一个重要的维度。近期网购的比重越来越大。
但是比较闹心的是,网购的衣服,淘汰率居然比别人送的还高。
风格维度来看
更特立独行的衣服 更容易被淘汰 。中规中矩的衣服相对安全,符合常理。
尤其是春天特别的款式,需要谨慎,淘汰率逆天。夏天花样多点问题不大。
4.典型的case具体分析
有哪些维度失败率比较高,有了一个大体了解之后。为了进一步把badcase印在心里,吃一堑长一智。
我对再也不想穿的衣服,具体是怎么回事儿做了原因标记。采用溯源思维。并一一例举解决方案
5.输出结论:买衣服策略
综上,这个周末总结出以下几条策略
- 非常需要牛仔长裤;
- 去商场里面,试穿买冬天的衣服。冬天的衣服一直是一些比较旧的在穿,坏了就完了有风险;
- 夏天的衣服充足且个人满意度高。可以暂缓购买;可以偶尔网购锦上添花;
- 春装不要买花里胡哨的。买来基本没在穿;
- 网购来了不合适的衣服果断退货。网购不好看为淘汰原因第一名;
6 随着决策变化,持续观察数据
不做分散的数据,要做分析体系。是非常重要的一点。
分析中能发现问题的指标沉淀下来。变成观察业务情况,以及策略所的产生变化是至关重要的。
当step6的各项措施被执行后更新原始数据,观察指标变化。及时调整方向,才是保持衣柜“生态健康”的关键。
但是时间有限,对于原始数据收集录入这块我有点崩溃。希望能坚持下去吧。
最后
总结一下本文遇到的数据分析方法和要点:
- 需要对问题进行梳理和定义。
- 设置关键指标。
- 干净的基础数据至关重要。
- 对关键指标进行下钻和对比分析,方法虽简单但可以得到不少结论。
- 可以设置一些假设加以验证。
- 要注意指标是否公平,如果指标存在一些天然偏差,记得分桶分析。
- 分析badcase是制定策略的利器。
- 避免一次性工作,长期观察构成分析体系。
谢谢你看到这里,我去收拾一百多件衣服了。
本文发布自网易云音乐技术团队,文章未经授权禁止任何形式的转载。我们常年招收各类技术岗位,如果你准备换工作,又恰好喜欢云音乐,那就加入我们 [email protected]... 。