发掘阿姆斯特丹学术圈的秘密——使用Python的twitter API工具进行社交网络分析

由于本人学习数据科学课程的缘故。在上周,我们的荷兰老师Wouter布置了一个使用R的twitteR包,来挖掘twitter用户的信息.由于twitter使用OAuth2.0授权,因此在挖掘twitter之前,必须要申请一个twitter的application。

twitter application在以下页面申请。有关于OAuth2.0授权的原理,在阮一峰的博客和以下网站都能找到,如果要挖掘微博,Facebook,都是基于OAuth2.0的机制。以下不再阐述

>* Twitter application页面 https://apps.twitter.com/

>* 阮一峰的博客:http://www.ruanyifeng.com/blog/2014/05/oauth_2_0.html

Wouter老师的所使用的R包,很多是没有翻译,理解起来有一定的困难。由于在R语言的机制里,使用for这种循环语句被视作效率低下。在批量处理数据是,要用到R自带的apply族函数以及plyr包中的九个函数,虽然效率变高,然而每一句的可读性就降低了,而且不容易被理解。(其实还是本人不太熟悉R语言编程)

针对这种情况,本人尝试了python中的tweepy包来进行API访问的操作,networkx包画图。在写程式的过程中,深刻理解到python代码的易读好写,不过使用纯python程式中,使用了大量的循环结构,因而执行速度会变慢,这是使用python的一大缺点。

荷兰老师的作业问题大概是:以他个人为中心,寻找和他互粉的十个朋友,再在他互粉的十个朋友的朋友之中,找到和他本人也是朋友的用户。这种被他称为snowballing.

个人Python实现代码的程式如下,由于就是自己写着好玩,没有做代码上的结构化,或许哪天心情好再优化代码吧。

```python

import tweepy

auth = tweepy.OAuthHandler('PcYGyfk0Xrsr7RQmgFefFKqcl', 'VdVUtOGBDajhDBULlHm3KCwXnlmxdldGowG9CjCOP3yhDveoEU')

auth.set_access_token('2657160098-4lSShP8CgcOIka2sPBk6iS28Iycl9X6deHc2GP7', '***') #个人的token保密

api = tweepy.API(auth) #实例化api

list_followers = []

for item in tweepy.Cursor(api.followers,id = "vanatteveldt").items(150):

list_followers.append(item.id)

his_follows = api.friends_ids("vanatteveldt")

#这货的所有followers

his_id = api.get_user("vanatteveldt").id

#这货的ID

his_friends = list(set(his_follows) & set(list_followers))

#这货互粉的人

dict_a = {his_id : his_friends[0:10]}

#这货的前十个朋友,twitter API有爬虫限制,爬的太频繁会报错

#建一个字典,字典的key是他的id,字典的values是他朋友的list

his_friends_s = his_friends[0:10]

list_f = []

friends_id = []

for item in his_friends_s:

friends_id = api.friends_ids(item)

list_f.extend(friends_id)

list_b = list(set(his_friends) & set(list_f))

#list_b是这货朋友的朋友,和他也是朋友的人

dict_c = {}

dict_c = {his_id : list_b}

dictMerged=dict_a.copy()

dictMerged.update(dict_c)

#把list_b扩展到上个字典里面

dict_f = {}

dict_d = {}

for item in his_friends_s[0:10]:

friends_id = api.friends_ids(item)

friends_id_list = list(set(friends_id) & set(his_friends))

dict_d = {item:friends_id_list}

dict_e = dict_d.copy()

dict_f.update(dict_d)

#挖掘他朋友的朋友,和他的朋友的对应关系

#将这个对应关系做个大的字典

dictMerged_2 = dictMerged.copy()

dictMerged_2.update(dict_f)

#合并所有字典,字典的keys是他和他的朋友,values是他和他朋友圈里所有的人。

list_total = []

for key,value in dictMerged_2.items():

for i in value:

list_total.append((str(key),str(i)))

#清理数据,把数据变成networkx能够接受的格式

import networkx as nx

import matplotlib.pyplot as plt

G = nx.Graph()

G.add_edges_from(list_total)

nx.draw_spring(G,node_size = 20)

plt.show()

#画图,这一步很偷懒,图上的很多信息,包括标签,Betweenness centrality,以及clustering coefficient,都可以表达出来。

```

最后的图长这个样子。

![](http://p1.bqimg.com/567571/bd643fc83e713723.png)

标签就不打了,事关别人的隐私。

可以看到,这是一个Ego Networks,由老师出发,然后看到了他的朋友圈的一部分。

这个荷兰老师的朋友。都是分群的,裸眼看至少分为三块,而他其中有些重要的朋友,充当群和群之间的连接。据他说,有一部分是他荷兰的同事,有一部分是他的国际同事。其中有几个人也是国内国外通吃的学者。

Betweenness centrality最大的当然是他,还有他的一些充当群与群之间连接朋友也很大。做这个的主要目的,还是想写一个tweepy包的example代码,因为tweepy这个包,似乎也没有国人翻译。

R语言的怎么写?有需求的私信我吧,这个老师没有标CC-BY-3.0在他的工程上。。。不敢乱来啊。

>* tweepy的文档:http://tweepy.readthedocs.io/en/v3.5.0/

>* 这个文件,格式是ipynb的,用jupyter notebook写的,https://github.com/IanHongruZhang/Python-For-Data-COM5508/blob/master/tweepy%2B-3.ipynb

你可能感兴趣的:(发掘阿姆斯特丹学术圈的秘密——使用Python的twitter API工具进行社交网络分析)