Python小脚本-爬取补天厂商列表

采用Python第三方模块requests与beautifulsoup,可实现简单的爬虫功能;若需要复杂功能,可采用scrapy爬虫框架。

#-*- coding: utf-8 -*-
import requests,re
from bs4 import BeautifulSoup
import sys

reload(sys) #重载sys模块
sys.setdefaultencoding('utf-8') #设置默认编码格式为utf-8,这个是为了将结果重定向到文件中,可选择。

for i in range(1,138):
    url = 'https://butian.360.cn/company/lists/page/' + str(i)
    r = requests.get(url)
    r.encoding = 'utf-8' #设置编码格式为utf-8,与网页保持一致,正确显示中文
    soup = BeautifulSoup(r.text, "lxml")
    for tag in soup.find_all(href=re.compile("^/company/info/id/")): #观察网页格式
        print tag.string, #获取厂商名称
        print ",",
        print tag.find_next().string # 获取厂商地址

你可能感兴趣的:(Python小脚本-爬取补天厂商列表)