用python爬虫实现中国大学信息的获取(简略版)

用python爬虫实现中国大学信息的获取(简略版)

前期准备:

	一些python语言基础
	开发IDE:pycharm
	bs4,xlwt等python第三方库的安装

爬虫思路(代码解析):

第一步:爬取网页的源代码
熟悉re库的用法,这一步主要是你得把网页后面的源代码爬取下来,HTMl语言大概能看懂就成,python代码很短,8,9行基本就能实现(具体见askurl函数,81行),我采用的是post请求,封装了一下header。(目的是为欺骗网站我们是一个浏览器而不是一个爬虫),自己本机的信息在浏览器的开发者模式下都可以看到。实现网页翻页的话改变网址就成,一般而言是改变某个数字,很方便,用for循环控制一下就成(31行)。

第二步:解析网页,获取我们想要的数据
熟悉beautifulsoup库的用法,个人感觉本质是就是搜寻我们需要的信息然后以列表的形式返回,先找标签,先爬一个,比如我的data就是一个大学的信息(图片链接,名称,地域等等)。然后找到标签后进行搜寻,我搜寻的原则采取的是正则表达式。

第三步:保存进数据库
当然,我保存进了excel表,这步比较简单,用utf-8编码创建一个excel对象,然后创建一个sheet表,然后用函数写入,最后保存

小总结:
当然,这中间会遇到很多小问题,比如发现utf-8编码不行,就采用了ANSI编码,然后正则表达式有一些细节换行要不要加进去,列表中出现了我们不需要的元素用replace函数替换等等等等(省略50字)

上源码:用python爬虫实现中国大学信息的获取(简略版)_第1张图片
用python爬虫实现中国大学信息的获取(简略版)_第2张图片
用python爬虫实现中国大学信息的获取(简略版)_第3张图片
用python爬虫实现中国大学信息的获取(简略版)_第4张图片
用python爬虫实现中国大学信息的获取(简略版)_第5张图片

你可能感兴趣的:(python,笔记,python,爬虫)