由于本人学习数据科学课程的缘故。在上周,我们的荷兰老师Wouter布置了一个使用R的twitteR包,来挖掘twitter用户的信息.由于twitter使用OAuth2.0授权,因此在挖掘twitter之前,必须要申请一个twitter的application。
twitter application在以下页面申请。有关于OAuth2.0授权的原理,在阮一峰的博客和以下网站都能找到,如果要挖掘微博,Facebook,都是基于OAuth2.0的机制。以下不再阐述
>* Twitter application页面 https://apps.twitter.com/
>* 阮一峰的博客:http://www.ruanyifeng.com/blog/2014/05/oauth_2_0.html
Wouter老师的所使用的R包,很多是没有翻译,理解起来有一定的困难。由于在R语言的机制里,使用for这种循环语句被视作效率低下。在批量处理数据是,要用到R自带的apply族函数以及plyr包中的九个函数,虽然效率变高,然而每一句的可读性就降低了,而且不容易被理解。(其实还是本人不太熟悉R语言编程)
针对这种情况,本人尝试了python中的tweepy包来进行API访问的操作,networkx包画图。在写程式的过程中,深刻理解到python代码的易读好写,不过使用纯python程式中,使用了大量的循环结构,因而执行速度会变慢,这是使用python的一大缺点。
荷兰老师的作业问题大概是:以他个人为中心,寻找和他互粉的十个朋友,再在他互粉的十个朋友的朋友之中,找到和他本人也是朋友的用户。这种被他称为snowballing.
个人Python实现代码的程式如下,由于就是自己写着好玩,没有做代码上的结构化,或许哪天心情好再优化代码吧。
```python
import tweepy
auth = tweepy.OAuthHandler('PcYGyfk0Xrsr7RQmgFefFKqcl', 'VdVUtOGBDajhDBULlHm3KCwXnlmxdldGowG9CjCOP3yhDveoEU')
auth.set_access_token('2657160098-4lSShP8CgcOIka2sPBk6iS28Iycl9X6deHc2GP7', '***') #个人的token保密
api = tweepy.API(auth) #实例化api
list_followers = []
for item in tweepy.Cursor(api.followers,id = "vanatteveldt").items(150):
list_followers.append(item.id)
his_follows = api.friends_ids("vanatteveldt")
#这货的所有followers
his_id = api.get_user("vanatteveldt").id
#这货的ID
his_friends = list(set(his_follows) & set(list_followers))
#这货互粉的人
dict_a = {his_id : his_friends[0:10]}
#这货的前十个朋友,twitter API有爬虫限制,爬的太频繁会报错
#建一个字典,字典的key是他的id,字典的values是他朋友的list
his_friends_s = his_friends[0:10]
list_f = []
friends_id = []
for item in his_friends_s:
friends_id = api.friends_ids(item)
list_f.extend(friends_id)
list_b = list(set(his_friends) & set(list_f))
#list_b是这货朋友的朋友,和他也是朋友的人
dict_c = {}
dict_c = {his_id : list_b}
dictMerged=dict_a.copy()
dictMerged.update(dict_c)
#把list_b扩展到上个字典里面
dict_f = {}
dict_d = {}
for item in his_friends_s[0:10]:
friends_id = api.friends_ids(item)
friends_id_list = list(set(friends_id) & set(his_friends))
dict_d = {item:friends_id_list}
dict_e = dict_d.copy()
dict_f.update(dict_d)
#挖掘他朋友的朋友,和他的朋友的对应关系
#将这个对应关系做个大的字典
dictMerged_2 = dictMerged.copy()
dictMerged_2.update(dict_f)
#合并所有字典,字典的keys是他和他的朋友,values是他和他朋友圈里所有的人。
list_total = []
for key,value in dictMerged_2.items():
for i in value:
list_total.append((str(key),str(i)))
#清理数据,把数据变成networkx能够接受的格式
import networkx as nx
import matplotlib.pyplot as plt
G = nx.Graph()
G.add_edges_from(list_total)
nx.draw_spring(G,node_size = 20)
plt.show()
#画图,这一步很偷懒,图上的很多信息,包括标签,Betweenness centrality,以及clustering coefficient,都可以表达出来。
```
最后的图长这个样子。
![](http://p1.bqimg.com/567571/bd643fc83e713723.png)
标签就不打了,事关别人的隐私。
可以看到,这是一个Ego Networks,由老师出发,然后看到了他的朋友圈的一部分。
这个荷兰老师的朋友。都是分群的,裸眼看至少分为三块,而他其中有些重要的朋友,充当群和群之间的连接。据他说,有一部分是他荷兰的同事,有一部分是他的国际同事。其中有几个人也是国内国外通吃的学者。
Betweenness centrality最大的当然是他,还有他的一些充当群与群之间连接朋友也很大。做这个的主要目的,还是想写一个tweepy包的example代码,因为tweepy这个包,似乎也没有国人翻译。
R语言的怎么写?有需求的私信我吧,这个老师没有标CC-BY-3.0在他的工程上。。。不敢乱来啊。
>* tweepy的文档:http://tweepy.readthedocs.io/en/v3.5.0/
>* 这个文件,格式是ipynb的,用jupyter notebook写的,https://github.com/IanHongruZhang/Python-For-Data-COM5508/blob/master/tweepy%2B-3.ipynb