Python 小小爬虫练手,爬取自己的IP

             Python 小小爬虫练手,爬取自己的IP

import re
import urllib.request
url="http://2020.ip138.com/ic.asp"
data=urllib.request.urlopen(url).read().decode('gb2312','ignore')
pat='
(.*?)
' ip_address=re.compile(pat,re.S).findall(data) print(ip_address)

真的是一个特别小的爬虫,仅仅显示自己的IP地址以及网络所属地,爬虫一定要先观察网页的编码,否则,痛不欲生,以这个爬虫爬取的网站来看,网页编码格式为gb2312,因此,爬虫指定了编码,要取得数据因为只有一行,因此,正则匹配两端保留,中间挖空,括号保留就可以了。

你可能感兴趣的:(网络,python,正则表达式,数据挖掘,数据分析)