一,利用网络爬虫来下载韩寒博客文章,主要需要用到以下知识要点:

1,简要了解HTML标记语言,熟悉HTTP协议,发现HTML规律

2,熟悉urllib模块

3,熟悉python

在此我利用的是ie8的开发者工具,当然也可以使用比较出名的firebug,这是火狐的一个插件,十分好用。

中心思想:获取URL链接,然后利用文件的读写存到本地。

第一篇:下载单篇文章:

#coding:utf-8
import urllib
str0 = ''
title = str0.find(r' 
  

python编写网络爬虫_第1张图片

 

(完)