爬取知乎60万用户信息之后的简单分析丨数据工匠简报（Apr. 01）

爬取知乎60万用户信息之后的简单分析

动机
在知乎上看到有个叫 @路人甲的大神每隔一段时间就爬爬豆瓣/B站等等网站，做了很多有意思的分析，加上之前因为实验室项目接触过 Nutch，浅尝辄止了，所以一直想好好玩玩爬虫。

网上 Python 的爬虫教程很多，而自己的主语言是 Java，本着宣传 Java，以练促学的目的，我使用 Java 爬取了知乎 60 万用户信息，主要想看看知乎上妹子多不多啊/是不是都是基佬啊，标配常青藤/年薪百万是不是真的啊，等等。

思路
为了保证数据的质量，避免爬到一些僵尸号什么的，我选择爬取关注列表而非粉丝列表。我随机挑选了一位粉丝过千的优秀回答者作为起始，爬取他的关注列表，再对列表中的每个人爬取其关注列表，以此类推……

下载了大概 7 个小时，爬了 40 多万用户的关注列表，拿到了 10G 的数据，如图所示：

爬取知乎60万用户信息之后的简单分析丨数据工匠简报（Apr. 01）_第2张图片

普通程序员如何转向AI方向

爬取知乎60万用户信息之后的简单分析丨数据工匠简报（Apr. 01）_第3张图片

本文的目的是给出一个简单的，平滑的，易于实现的学习方法，帮助 “普通” 程序员踏入AI领域这个门。这里，我对普通程序员的定义是：拥有大学本科知识；平时工作较忙；自己能获取的数据有限。因此，本文更像是一篇 “from the scratch” 的AI入门教程。

AI，也就是人工智能，并不仅仅包括机器学习。曾经，符号与逻辑被认为是人工智能实现的关键，而如今则是基于统计的机器学习占据了主导地位。最近火热的深度学习正是机器学习中的一个子项。目前可以说，学习AI主要的是学习机器学习。但是，人工智能并不等同于机器学习，这点在进入这个领域时一定要认识清楚。关于AI领域的发展历史介绍推荐看周老师写的《机器学习简介》。下面一个问题是：AI的门好跨么？其实很不好跨。我们以机器学习为例。在学习过程中，你会面对大量复杂的公式，在实际项目中会面对数据的缺乏，以及艰辛的调参等。如果仅仅是因为觉得这个方向未来会“火”的话，那么这些困难会容易让人放弃。考虑到普通程序员的特点，而要学习如此困难的学科，是否就是没有门路的？答案是否定的。只要制定合适的学习方法即可。

爬取知乎60万用户信息之后的简单分析丨数据工匠简报（Apr. 01）_第4张图片

自然语言处理领域欧洲顶级会议EACL 2017杰出论文出炉

爬取知乎60万用户信息之后的简单分析丨数据工匠简报（Apr. 01）_第5张图片

自然语言处理领域的欧洲顶级会议 EACL 2017 将于当地时间 4 月 3-7 日在西班牙瓦伦西亚举行，近日，该会议的官网公布了本届会议的 4 篇杰出论文（Outstanding Paper），其中包括 3 篇长论文和 1 篇短论文。机器之心在本文中对这 4 篇论文分别进行了摘要介绍，同时也附带了可查阅论文的相关链接。据官网介绍，对这 4 篇论文的宣讲集中安排在会议的第五天（当地时间 4 月 7 日），更多信息请访问其官网了解：http://eacl2017.org

爬取知乎60万用户信息之后的简单分析丨数据工匠简报（Apr. 01）_第6张图片

以上简讯由数据工匠提供，感兴趣的小伙伴可以通过扫描简报后的二维码链接原文，更多数据科学资讯尽在数据工匠，扫码关注 Datartisan 数据工匠公众号！如果你看到什么与“数据科学”有关的好文或者信息科技优质的文章，可以随手转发给我们，让更多热爱数据科学的小伙伴一起成长！

爬取知乎60万用户信息之后的简单分析丨数据工匠简报（Apr. 01）_第7张图片

爬取知乎60万用户信息之后的简单分析丨数据工匠简报（Apr. 01）