从facebook数据泄露谈起——数据分析学习思路

不谈情绪,不谈阴谋论,不谈意义,只谈方法。
数据分析是如何做到的?

剑桥分析公司通过在facebook的api接口,开发一个钓鱼小游戏,让用户填数据,并同意授权开发朋友关系数据。通过这个钓鱼程序获得了27万种子用户,并通过这27万用户开放的朋友关系,抓去将近5000万的用户数据。
真的能影响选举吗?
可能有一定影响,这不是本文分析的重点。

用户数据分析已运用到各个领域
1、电商领域:亚马逊堪称用户算法分析鼻祖,就是靠算法分析促进交易达成起家。并靠着用户分析的积累,不断进入新的领域,进入一个新行业,灭掉所有其他对手。
2、影视领域:netflix网飞公司通过分析用户观影喜好,在新片中加入用户喜欢的元素,通过拍摄纸牌屋一炮打响,并能每年一部爆款电视剧:怪奇物语、毒枭、黑钱胜地。通过算法,成为一线内容制作商。
3、金融领域:互联网金融公司,通过分析用户消费信息,给用户画像,

最近的,微信把抖音屏蔽了,为什么?
我玩抖音也是停不下来,尤其不能睡前看,看一会一看表已经后半夜了,几个小时过去了。
最后只能卸载,完全不敢碰,抖音有毒!

从争夺用户时间角度,抖音取代取代王者荣耀,甚至开始威胁微信,为什么?
从满足用户需求的角度,微信是满足的用户聊天的需求,成为了刚需。
抖音满足了什么需求?
我认为抖音满足了人类更深层次的需求。
食色性也,在吃饱饭以后,人类的需求是满足自己欲望的快感。
而抖音能通过精心制作的小视频,7秒就给人一次高潮。相比玩游戏还要几分钟才一次。不上瘾才怪

快感是比腾讯的聊天更底层的刚需,动摇了腾讯的根基,所以腾讯慌了。抖音的算法可以作为一个专题来研究。

抖音满足了用户刚需。提供了持续,高频的快感。实现的手段就是算法

干货时间:数据分析技术
分析表层的东西没有用,能亲自作出数据分析,通过数据分析,发现有价值的规律,才有价值。

目前的数据分析技术分类:
容器技术,docker,openstack
数据分析算法
机器学些

这些只是可能用到的技术,要通过实际项目来锻炼自己利用工具进行数据分析挖掘的能力。
基本流程:

了解问题,探索数据
清晰数据
特征工程
模型训练
模型评估
模型融合

先完成第一轮迭代。再开始不断回溯到开始,重新迭代流程。小步快跑,不断完善。

可以先看看数据挖掘的比赛题目找找感觉,比如kaggle或者国内的天池。
今天先写着么多。

这一切才刚刚开始,数据算法比你更懂你

附:一篇比较好的机器学习入门文章
https://github.com/wsg011/kaggle-start/blob/master/titanic/Notebook/0-3%20kaggle%20start%20with%20Titanic.ipynb

你可能感兴趣的:(从facebook数据泄露谈起——数据分析学习思路)