python 最简单爬虫

今天由于需要学习gnmt,所以需要下载语料,完成一个最简单Python爬虫,目标网页为纯文字形式

importurllib2
importcodecs
importsys
reload(sys)
sys.setdefaultencoding('utf8')
print('start reptiling . . . ')
response = urllib2.urlopen("http://nlp.stanford.edu/projects/nmt/data/iwslt15.en-vi/train.en")
write_from_web = codecs.open('train.en','w')
write_from_web.write(response.read())
write_from_web.close()
print('Done !')

你可能感兴趣的:(python 最简单爬虫)