爬取知乎60万用户信息之后的简单分析丨数据工匠简报(Apr. 01)

爬取知乎60万用户信息之后的简单分析

爬取知乎60万用户信息之后的简单分析丨数据工匠简报(Apr. 01)_第1张图片

动机
在知乎上看到有个叫 @路人甲 的大神每隔一段时间就爬爬豆瓣/B站等等网站,做了很多有意思的分析,加上之前因为实验室项目接触过 Nutch,浅尝辄止了,所以一直想好好玩玩爬虫。

网上 Python 的爬虫教程很多,而自己的主语言是 Java,本着宣传 Java,以练促学的目的,我使用 Java 爬取了知乎 60 万用户信息,主要想看看知乎上妹子多不多啊/是不是都是基佬啊,标配常青藤/年薪百万是不是真的啊,等等。

思路
为了保证数据的质量,避免爬到一些僵尸号什么的,我选择爬取关注列表而非粉丝列表。我随机挑选了一位粉丝过千的优秀回答者作为起始,爬取他的关注列表,再对列表中的每个人爬取其关注列表,以此类推……

下载了大概 7 个小时,爬了 40 多万用户的关注列表,拿到了 10G 的数据,如图所示:

爬取知乎60万用户信息之后的简单分析丨数据工匠简报(Apr. 01)_第2张图片

普通程序员如何转向AI方向

爬取知乎60万用户信息之后的简单分析丨数据工匠简报(Apr. 01)_第3张图片

本文的目的是给出一个简单的,平滑的,易于实现的学习方法,帮助 “普通” 程序员踏入AI领域这个门。这里,我对普通程序员的定义是:拥有大学本科知识;平时工作较忙;自己能获取的数据有限。因此,本文更像是一篇 “from the scratch” 的AI入门教程。

AI,也就是人工智能,并不仅仅包括机器学习。曾经,符号与逻辑被认为是人工智能实现的关键,而如今则是基于统计的机器学习占据了主导地位。最近火热的深度学习正是机器学习中的一个子项。目前可以说,学习AI主要的是学习机器学习。但是,人工智能并不等同于机器学习,这点在进入这个领域时一定要认识清楚。关于AI领域的发展历史介绍推荐看周老师写的《机器学习简介》。下面一个问题是:AI的门好跨么?其实很不好跨。我们以机器学习为例。在学习过程中,你会面对大量复杂的公式,在实际项目中会面对数据的缺乏,以及艰辛的调参等。如果仅仅是因为觉得这个方向未来会“火”的话,那么这些困难会容易让人放弃。考虑到普通程序员的特点,而要学习如此困难的学科,是否就是没有门路的?答案是否定的。只要制定合适的学习方法即可。

爬取知乎60万用户信息之后的简单分析丨数据工匠简报(Apr. 01)_第4张图片

自然语言处理领域欧洲顶级会议EACL 2017杰出论文出炉

爬取知乎60万用户信息之后的简单分析丨数据工匠简报(Apr. 01)_第5张图片

自然语言处理领域的欧洲顶级会议 EACL 2017 将于当地时间 4 月 3-7 日在西班牙瓦伦西亚举行,近日,该会议的官网公布了本届会议的 4 篇杰出论文(Outstanding Paper),其中包括 3 篇长论文和 1 篇短论文。机器之心在本文中对这 4 篇论文分别进行了摘要介绍,同时也附带了可查阅论文的相关链接。据官网介绍,对这 4 篇论文的宣讲集中安排在会议的第五天(当地时间 4 月 7 日),更多信息请访问其官网了解:http://eacl2017.org

爬取知乎60万用户信息之后的简单分析丨数据工匠简报(Apr. 01)_第6张图片

以上简讯由数据工匠提供,感兴趣的小伙伴可以通过扫描简报后的二维码链接原文,更多数据科学资讯尽在数据工匠,扫码关注 Datartisan 数据工匠公众号!如果你看到什么与“数据科学”有关的好文或者信息科技优质的文章,可以随手转发给我们,让更多热爱数据科学的小伙伴一起成长!


爬取知乎60万用户信息之后的简单分析丨数据工匠简报(Apr. 01)_第7张图片

你可能感兴趣的:(爬取知乎60万用户信息之后的简单分析丨数据工匠简报(Apr. 01))