Python爬虫笔记

地址:https://github.com/YangZhouChaoFan/spider4p

1:使用urllib的获取html内容

2:使用html.parser.HTMLParser解析html内容,并根据正则匹配url下载文件。

测试:爬了煎蛋网xxoo页面20页的,下载其中jpg和gif图片到本地。


你可能感兴趣的:(Python爬虫笔记)