Python爬取携程旅游行程信息+GIS可视化

一、需求:

        爬取携程旅行网的“北京推荐行程”首页的各个行程文章,将各个行程所包含的景点信息提取出来,并导入ArcGIS进行GIS可视化。

Python爬取携程旅游行程信息+GIS可视化_第1张图片

Python爬取携程旅游行程信息+GIS可视化_第2张图片

二、爬取思路:

        爬取北京推荐行程主页的各个文章的URL,然后通过该URL爬取出行程文章的数据,最后进行信息提取,得到行程景点的相关信息。

三、编写代码:

import urllib.request
import re
import pandas as pd

#模拟浏览器
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6726.400 QQBrowser/10.2.2265.400")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)
#行程主页URL
baseUrl="http://you.ctrip.com/journeys/beijing1.html"
pagedata1=urllib.request.urlopen(baseUrl).read().decode("utf-8","ignore")
#行程文章的名称与URL的提取规则
articleUrlPat='\r.*?

 

四、GIS可视化:

1、将爬取的CSV处理后,导入ArcMap中:

Python爬取携程旅游行程信息+GIS可视化_第3张图片

2、点集转线,线字段设置为field2(代码中的“i”变量),排序字段设置为field4(代码中的“j”变量):

Python爬取携程旅游行程信息+GIS可视化_第4张图片

3、根据不同行程进行唯一值渲染:

Python爬取携程旅游行程信息+GIS可视化_第5张图片

 

你可能感兴趣的:(Python)