怎样通过GitHub API下载Repository的README文本内容

这个是我在获取数据时候的一些经验,简单总结一下:

按照这里的文档:http://pygithub.readthedocs.io/en/latest/github_objects/Repository.html

要得到一个Repository的Readme文件,只需要使用:get_readme

这个方法会返回一个github.ContentFile.ContentFile对象,

http://pygithub.readthedocs.io/en/latest/github_objects/ContentFile.html

由于涉及到Base64编码,另外害怕如果过长的Readme不能完全通过content获取,我倾向于使用:download_url来获取Readme文本的下载地址,然后通过python requests进行下载,但是如果使用:

read_me=repo.get_readme()
read_me.download_url

这样的方法来得到download_url,就会报exception:'ContentFile' object has no attribute 'download_url'

这个exception真的是莫名其妙,GitHub API修改了吗?但是看其文档里也没说啊。

不过仔细分析了一下这里的几个url,发现其有固定的规律,是可以通过拼接实现的:

https://developer.github.com/v3/repos/contents/#get-contents

html_url=read_me.html_url
prefix="https://github.com/"+name+"/blob/"#前缀,name是repo的全名
suffix=html_url[html_url.index(prefix)+len(prefix):]#后缀
download_url="https://raw.githubusercontent.com/"+name+"/"+suffix
就这样简单记录一下。

你可能感兴趣的:(GHTorrent数据集)