Python爬取公交线路信息及站点shp数据 文末附数据下载地址

本篇主要记录爬取公交网整个过程,由于这次所用方法虽比较常规,但由于该网站页面内容转码原因以及遍历链接较多,所以小坑还是比较多的,特在此进行记录。

以前爬过百度地图,当时用的是API平台,加上网站比较规范,所以标签节点什么的都比较清晰,但这次由于特殊原因所选择的网站为公交网,废话不多说直接开始吧。

网站主页:www.xbus.cn

操作环境为

  • window 8

  • python 3.6

  • Jupyter Notebook

  • re requests lxml pandas time os urllib

调用的库(这次不用截图了,用代码块更清楚一些):

 1import requests
 2import csv
 3import time 
 4import pandas as pd
 5import re
 6from lxml import etree
 7import urllib
 8import os
 9from IPython.core.interactiveshell import InteractiveShell
10InteractiveShell.ast_node_interactivity = 'all'

一、首先打开主页,进入公交线路信息页面,爬取第一页内容

Python爬取公交线路信息及站点shp数据 文末附数据下载地址_第1张图片

打开F12,检

你可能感兴趣的:(基础地理shp矢量数据分享,python,开发语言,爬虫)