初学python,写了一个爬取历史双色球开奖记录的程序。希望大家互相交流学习
百度一下双色球历史开奖记录,出来许多网站,找到可以查看历史记录的网站就行,我这里找到的是
http://kaijiang.500.com/ssq.shtml
里面看历史记录的入口是下拉框,只要爬取出下拉框里的地址,就知道历史的记录了。
import requests
import LoadHistoryTask
#这个是代理,公司内网无法直接访问,正常是不需要的
proxy_dict = {
"http": "http://****:****@proxy.****.com:8080/",
"https": "http://****:****@proxy.****.com:8080/"
}
#获取页面内容
homePage = requests.get("http://kaijiang.500.com/ssq.shtml", proxies=proxy_dict)
homePage.encoding = "gb2312"
pageStr = homePage.text
#解析页面里下拉框选项里的地址,并放入list中
pageStr = pageStr[pageStr.find(''):]
historyArr = pageStr[len(''):pageStr.find('')].s