Python 实战:week3 如何让数据说话

作业


爬取了赶集的二手商品数据,为了更好地了解二手市场行情,可以利用这些数据做哪些分析?

问题

各个类目的二手商品数量,是相对集中在几个区域,还是在各个区域各有高低,为什么?

数据论证

数据源为爬取的赶集网二手商品数据

区域间对比:

  • 每个类目在所有区域中的发布数量
  • 区域的小区数量、住户人群、人口数量和职业
  • 区域的性质,行政?住宅?商品?工业?

解读数据

需要注意样本偏差,二手交易市场不仅赶集网有,还要考虑与其他二手市场的用户群体的差异

如果能够综合其他网上二手交易市场的数据,会客观、准确一些

课程笔记


麦当劳一开始有25种产品,通过制作财务利润表,发现汉堡包占80%销量,于是只留汉堡包并降价

为什么要让数据说话?

数据是科学的衡量指标,能帮助我们做正确的日常决策

如何让数据说话:

第一步:提出正确的问题

第二步:通过数据论证,寻找答案

第三步:解读数据,回答问题

提出正确的问题

黄豆罐头厂商调查有多少家庭主妇购买黄豆罐头。重新定位客户。
《科学的广告,我的广告生涯》

汽车厂商对潜在客户的调研,主题零散,比如:调制鸡尾酒的能力。
《商业冒险》

正确的提问能解释现象

错误的提问却强行关联无关的事物

对比两种页面哪个效果更好,A/B test,对比多种方案,选择效果最好的

论证为什么新版本的效果更好

正确的提问是验证假设

错误的提问是证明自己是对的

豌豆荚的机型分布数据,于是专注于安卓机

P2P羊毛党数据

正确的提问是通过数据探索方向

错误的提问是没有提出问题,有了数据却不知道应该做什么

如何提出正确的问题:

  • 解释现象,而不是强行关联
  • 验证假设,而不是证明自己是对的
  • 探索方向,而不是有了数据却不知道能做什么

通过数据论证,寻找答案

  • 对比

单个数据没有意义

横向对比,与别人比较;纵向对比,和自己的时间轴比

  • 细分

从不同的维度看

提出的问题可能是一个大的目标,需要将目标细分为一个个小的问题

电商领域:

销售额 = 日活跃 * 购买转化率 * 客单价

  • 溯源

定位到问题后,找到源日志,再现用户使用场景,排查哪里出了问题

理解用户的场景,流量日志、行为记录

解读数据,回答问题

数据会说话 VS 数据会说谎

数据不会错,都是人错

  • 样本问题

样本存在偏差

沉默的大多数

  • 因果关联错误/忽略关键因素

  • 忽略前提

案例

2015年有一个观点:互联网的融资泡沫来了

从数据的角度衡量,是否正确

提出正确的问题:

2015年的互联网融资情况怎么样

数据论证:

找数据源,IT 桔子,互联网的融资情况

对比,2015 VS 2014

思维导图

细分问题:

  • 有多少公司获得了融资,是什么样的公司
    • 融资公司的数量对比
    • 融资公司的地域、行业对比
    • 新成立公司获得融资的比例
  • 融资了多少金额
    • 融资公司阶段及金额对比
    • 哪些行业、地域的公司获得融资金额最多
  • 谁投的
    • 投资机构的投资数量分布
  • 哪些公司死掉了
    • 死亡公司的行业、地域分布
    • 成立时间分布
    • 融资状态分布

根据这些细分的数据统计项,整理成数据统计表格

将统计好的数据填入表格,并生成数据可视化图表

溯源

获得数据后进行溯源

解读数据

需要注意样本偏差

工信部的注册公司名录

IT 桔子倾向于收录知名的互联网创业公司,反应的情况会比实际情况好一些

你可能感兴趣的:(Python 实战:week3 如何让数据说话)