爬虫小白入门实例 —— 爬取全国某天所有火车的运行时刻表

受好朋友的委托,帮忙爬取全国某天所有火车的运行时刻表。

在此之前没有用过爬虫,但是会用python,所以迅速学习了一下。

把自己的学习过程整理如下,爬虫小白可以通过下述内容快速入门。

任务描述:

爬取的站点:http://search.huochepiao.com/chaxun/resultc.asp?txtCheci=D2&cc.x=0&cc.y=0

希望能把当前运行的所有车次的时刻表,都导出到excel变成下面这样。

爬虫小白入门实例 —— 爬取全国某天所有火车的运行时刻表_第1张图片

学习及爬取过程如下:

快速浏览了《Requests 快速上手》,链接如下:

http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

然后可以继续快速浏览《python爬虫之PyQuery的基本使用》,链接如下:

https://www.cnblogs.com/lei0213/p/7676254.html

第一个链接的目的是为了学习把网页内容爬到本地,第二个链接的内容是学习如何解析爬到本地的网页,进而从爬到的众多信息里提取挖掘出我们需要的信息。

所以总结一下,简单的爬虫就分为两个部分,第一是爬取网页到本地,

你可能感兴趣的:(python爬虫,python爬虫,PyQuery)