记一次Python爬虫分享

一、爬虫的目标

网址:http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html

这是广东省政府采购网公布的中标公告,网站如下:

记一次Python爬虫分享_第1张图片
网页截图

我们要进入具体的公告中,爬一下内容:

记一次Python爬虫分享_第2张图片
我们要爬红色框里的内容

将红色框里的数据整理表格形式。

二、分析网站

具体爬虫之前分析一下网站,决定如何进行爬虫。

翻页

留意一下,我们进入该网站后,点击跳转到第2页或别的页,可以发现浏览器的网址框中的网址是一样的。我们用控制台看一下,可以发现,页数的跳转是用JavaScript处理的,如下图:

记一次Python爬虫分享_第3张图片
控制台查看

所以,我们不能直接借助网址跳到不同的页数去,我想到的办法是借助Python的selenium包。它可以借助浏览器,模拟鼠标操作,待JavaScript处理完后再获取网页源码。

标题链接

通过看网页源码,其实发现源码是很清晰的,可以直接爬到链接。

记一次Python爬虫分享_第4张图片
网页源码

这个网址看得出来是个相对路径,我们进去之后可以在浏览器看到完整路径。

完整的网址

具体内容

通过看网页源码,要爬的内容在源码中也都有了。

记一次Python爬虫分享_第5张图片
网页源码

小结

小结一下,这次的爬虫难点主要在于翻页,中间过程要爬的标题链接和最终要爬的具体内容,都可以用一般的爬虫方法得到。

所以,爬虫的思路是:

  1. 借助selenium实现翻页;
  2. 翻页过程中把标题链接爬下来;
  3. 循环进入各个公告,把要爬的具体数据爬下来。

三、编程

先把要引用的包引用进来:

import urllib.request
import re
from selenium import webdriver
import csv

实现翻页

首先,使用selenium打开网站。

url = 'http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html'

browser = webdriver.Firefox()   # 使用Firefox浏览器
browser.set_page_load_timeout(5)
browser.get(url)    # 打开指定网站
browser.maximize_window()   # 最大化浏览器窗口

注意:使用selenium打开浏览器时,需要在电脑上装一个浏览器的驱动。网页会跳转提示,根据提示下载安装即可!

然后,锁定源码中<下一页>按钮的位置。<下一页>按钮的标签比较难以确定位置,在这里我使用find_element_by_xpath()函数,来确定位置。至于该按钮的xpath,我们可以借助chrome直接复制出来。

记一次Python爬虫分享_第6张图片
借助chrome浏览器控制台复制xpath

完善修改代码:

url = 'http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html'

browser = webdriver.Firefox()   # 使用Firefox浏览器
browser.set_page_load_timeout(5)
browser.get(url)    # 打开指定网站
browser.maximize_window()   # 最大化浏览器窗口

# 经对比发现,第一页和其他页中的<下一页>按钮的xpath不一致
# 首先点击第一页中的<下一页>按钮
browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[8]/span").click()

# 这里点击其余页中的<下一页>按钮
for i in range(1):  # 写一个循环,翻多少页就循环多少次
    browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[10]/span").click()

注意:第一页和其余页的<下一页>按钮的xpath不一样,需要留意一下!

爬取标题链接

首先,写一个爬取标题链接的函数:

# 获取标题链接
def getConn(html):
    # 利用正则表达式匹配网页内容找到标题地址
    reg = r'(/showNotice/id/[^s]*?html)'
    imgre = re.compile(reg)
    imglist = re.findall(imgre, str(html))  # 找出匹配的内容,即链接
    return imglist

这只是一个函数,我们结合之前写好的翻页的代码,爬一下前两页的标题链接,看看效果:

# 获取标题链接
def getConn(html):
    # 利用正则表达式匹配网页内容找到标题地址
    reg = r'(/showNotice/id/[^s]*?html)'
    imgre = re.compile(reg)
    imglist = re.findall(imgre, str(html))  # 找出匹配的内容,即链接
    return imglist

url = 'http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html'

browser = webdriver.Firefox()   # 使用Firefox浏览器
browser.set_page_load_timeout(5)
browser.get(url)    # 打开指定网站
browser.maximize_window()   # 最大化浏览器窗口

list = []
link = getConn(browser.page_source) # 爬取标题链接,browser.page_source是网页源代码
list.append(link)

# 经对比发现,第一页和其他页中的<下一页>按钮的xpath不一致
# 首先点击第一页中的<下一页>按钮
browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[8]/span").click()
link = getConn(browser.page_source)
list.append(link)

for item in list:
    for link in item:
        print(link)

运行结果为:

记一次Python爬虫分享_第7张图片
爬取标题链接

爬取具体的目标数据

前文已经说了,每一篇公告的网址都是由http://www.gdgpo.gov.cn加上爬到的标题链接组合起来。简单来说,我们可以通过直接输入网址访问每一篇公告。

对于这种情况,我选择使用urllib就足够了。毕竟selenium还需要打开浏览器,相对来说比较麻烦的,而且进入的网页如果有数百上千个,总不好在浏览器打开数百上千个标签页吧!这样做,费时不讨好。

所以,爬取具体的目标数据,我们使用urllib就足够了。

首先,写一个获取网页源码的函数:

# 获取网页源代码
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    html = html.decode('utf8')  # 网页源码有中文,转码匹配
    return html

接下来,我们把翻页和爬取标题链接封装成一个函数,将标题链接存进一个数组返回:

# 获取标题链接
def getConn(html):
    # 利用正则表达式匹配网页内容找到标题地址
    reg = r'(/showNotice/id/[^s]*?html)'
    imgre = re.compile(reg)
    imglist = re.findall(imgre, str(html))  # 找出匹配的内容,即链接
    return imglist

# 使用浏览器翻页抓取标题链接
def getList(url):
    list = []
    browser = webdriver.Firefox()   # 使用Firefox浏览器
    browser.set_page_load_timeout(5)
    browser.get(url)    # 打开指定网站
    browser.maximize_window()   # 最大化浏览器窗口

    link = getConn(browser.page_source) # 爬取标题链接,browser.page_source是网页源代码
    list.append(link)

    # 经对比发现,第一页和其他页中的<下一页>按钮的xpath不一致
    # 首先点击第一页中的<下一页>按钮
    browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[8]/span").click()
    link = getConn(browser.page_source)
    list.append(link)

    # 这里点击其余页中的<下一页>按钮
    for i in range(1):  # 写一个循环,翻多少页就循环多少次
        browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[10]/span").click()
        link = getConn(browser.page_source)
        list.append(link)
    return list

通过上述函数,获取标题链接,写一个函数,爬取具体数据,存进csv文件:

# 根据标题链接,进入页面爬取所需数据
def getData(url):
    list = getList(url) # 获取标题链接
    str1 = 'http://www.gdgpo.gov.cn'
    for item in list:
        for link in item:
            data = []
            url_link = str1+link    # 拼接网址
            html_link = getHtml(url_link)
            
            # 正则表达式匹配采购项目名称
            xre = re.compile(r'(]+[^<]+[^>]+[^;]+[^&]+[^;]+;([^&]+)'  # 匹配法人代表
                             r'[^>]+[^<]+[^>]+[^;]+[^&]+[^;]+;([^&]+)') # 匹配地址
            try:
                data2 = re.search(yre, str(html_link)).group(3)
                data3 = re.search(yre, str(html_link)).group(4)
                data4 = re.search(yre, str(html_link)).group(5)
                data.append(data2)
                data.append(data3)
                data.append(data4)
            except:
                pass
            
            # 数据已经存进data,用a+模式打开csv文件,可以添加data数据进去,不覆盖原数据
            with open("yang.csv", "a+", newline="") as datacsv:
                # dialect为打开csv文件的方式,默认是excel,delimiter="\t"参数指写入的时候的分隔符
                csvwriter = csv.writer(datacsv, dialect=("excel"))
                # csv文件插入一行数据,把下面列表中的每一项放入一个单元格(可以用循环插入多行)
                csvwriter.writerow(data)

注意:写正则表达式的时候,有些地方是需要匹配中文的,在获取网页源码函数里面,我已经转码为utf8,所以写正则表达式的时候要把中文转成Unicode编码。

另外,这里要多说一句,我的正则表达式真的是渣渣水平,所以写得很长很不好看很不舒服。各位看官要是看不下去了,自己修改一下。[捂脸]

至此,这个函数写完了,调用这个函数就可以把数据爬下来了,可以得到一个csv文件,我们可以用Excel打开,就是表格的形式。

完整版代码

#!/usr/bin/env python
# -*- coding:utf-8 -*-
"""
@File:yang.py
@Time:2017/8/17 23:20
@Author:lgsen
"""

import urllib.request
import re
from selenium import webdriver
import csv

# 获取网页源代码
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    html = html.decode('utf8')  # 网页源码有中文,转码匹配
    return html

# 获取标题链接
def getConn(html):
    # 利用正则表达式匹配网页内容找到标题地址
    reg = r'(/showNotice/id/[^s]*?html)'
    imgre = re.compile(reg)
    imglist = re.findall(imgre, str(html))  # 找出匹配的内容,即链接
    return imglist

# 使用浏览器翻页抓取标题链接
def getList(url):
    list = []
    browser = webdriver.Firefox()   # 使用Firefox浏览器
    browser.set_page_load_timeout(5)
    browser.get(url)    # 打开指定网站
    browser.maximize_window()   # 最大化浏览器窗口

    link = getConn(browser.page_source) # 爬取标题链接,browser.page_source是网页源代码
    list.append(link)

    # 经对比发现,第一页和其他页中的<下一页>按钮的xpath不一致
    # 首先点击第一页中的<下一页>按钮
    browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[8]/span").click()
    link = getConn(browser.page_source)
    list.append(link)

    # 这里点击其余页中的<下一页>按钮
    for i in range(1):  # 写一个循环,翻多少页就循环多少次
        browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[10]/span").click()
        link = getConn(browser.page_source)
        list.append(link)
    return list

# 根据标题链接,进入页面爬取所需数据
def getData(url):
    list = getList(url) # 获取标题链接
    str1 = 'http://www.gdgpo.gov.cn'
    for item in list:
        for link in item:
            data = []
            url_link = str1+link    # 拼接网址
            html_link = getHtml(url_link)

            # 正则表达式匹配采购项目名称
            xre = re.compile(r'(]+[^<]+[^>]+[^;]+[^&]+[^;]+;([^&]+)'  # 匹配法人代表
                             r'[^>]+[^<]+[^>]+[^;]+[^&]+[^;]+;([^&]+)') # 匹配地址
            try:
                data2 = re.search(yre, str(html_link)).group(3)
                data3 = re.search(yre, str(html_link)).group(4)
                data4 = re.search(yre, str(html_link)).group(5)
                data.append(data2)
                data.append(data3)
                data.append(data4)
            except:
                pass

            # 数据已经存进data,用a+模式打开csv文件,可以添加data数据进去,不覆盖原数据
            with open("yang.csv", "a+", newline="") as datacsv:
                # dialect为打开csv文件的方式,默认是excel,delimiter="\t"参数指写入的时候的分隔符
                csvwriter = csv.writer(datacsv, dialect=("excel"))
                # csv文件插入一行数据,把下面列表中的每一项放入一个单元格(可以用循环插入多行)
                csvwriter.writerow(data)

# 主程序
if __name__=="__main__":
    url = 'http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html'
    getData(url)

四、总结

我不是专门写爬虫的,编程水平也不高,看我的代码就知道了[捂脸]。就是这次爬虫用到了selenium这个包,感觉有点意思,就分享一下过程。

很多东西都是在网络上现查现用,并没有认真去理解。甚至有的代码是复制过来的,变量名都没改,如imglist,大家看看笑笑就好了。就爬虫而言,这次的难度并不高,感觉就新手练手的程度。毕竟,我就是个新手嘛!

最后,想提一下,其实有些公告里,中标供应商是有好几个,并不只有一个,我写的代码只是爬取了第一个,大家有兴趣可以自己去解决这个问题。重在学习嘛!

你可能感兴趣的:(记一次Python爬虫分享)