一、环境说明
1.IDE
python 3.6 ,vs 2017
网上大多数人都是在使用PYCHARM ,关于VS 2017或者其他版本下使用PYTHON的内容较少,还有很多地方需要摸索,有不足的地方请指正
2.操作系统
64位 window 10 专业版
二、程序说明
1.本程序是入门级爬虫 程序,本人初次尝试python爬虫,代码有不足的地方请指正
2.程序本身采用三种方式完成爬虫功能,分别是:
单页面固定值爬取
变量页面循环爬取功能
函数体循环爬取
3.所使用的莫跨
urllib 网络通讯主要模块
re 正则表达式
上述两个模块的使用请自行查阅相关资料,在CSDN上很容易就能搜索到,目前网络爬虫网上的例子基本分为两种,一种就是用urllib进行细节化爬取,另一种就是使用一个名叫beautifulsoup的包,按网上的例子来看,这个包功能很强大,貌似可以直接对地址下的所有内容进行直接下载,也就是说将网站理解为FTP,对路径下所存在的内容直接下载,省去很多繁琐的工作,但是具体没有尝试过,需要读者自己去尝试
三、代码内容
from urllib import request
import re
#定义本体程序
#if __name__ == "__main__":
#单页面常量运行
#response = request.urlopen("https://www.7kshu.com/41/41319/12622232.html")
#html = response.read()
#html = html.decode("gbk")
#title_re = re.compile(r'(.*?)
')
#text_re = re.compile(r'
([\s\S]*?)
四、代码说明:
上面代码内容都是常规性函数和方法,较为简单,结构相对清晰,唯一的问题就是正则表达式,这块笔者也是初学者,各位读者还需要自行去掌握相关内容,最简单的方法就是对照正则表达式字典逐个字符去看,这样能快速理解代码含义
上述代码总共分三部分内容,各部分可独立运行,取消掉注释即可,第一部分为单页面功能及网络测试代码,第二部分为普通循环爬取功能代码,第三部分为函数体运行代码
目前这个程序存在几点问题:
1.程序没有增加网络出现故障或者中断情况下的处理,一旦网络出现问题程序就直接崩溃退出
2.程序总体效率不高,原因主要是单线程,单模块运行模式,这块缺陷后期有时间了再进行优化
本内容为原创内容,严禁转载,且不接受任何形式的修改