所有的双色球开奖记录都在这里了

初学python,写了一个爬取历史双色球开奖记录的程序。希望大家互相交流学习

 1.找到数据的入口

百度一下双色球历史开奖记录,出来许多网站,找到可以查看历史记录的网站就行,我这里找到的是

http://kaijiang.500.com/ssq.shtml

里面看历史记录的入口是下拉框,只要爬取出下拉框里的地址,就知道历史的记录了。

2.爬取所有历史记录的地址

import requests
import LoadHistoryTask
#这个是代理,公司内网无法直接访问,正常是不需要的
proxy_dict = {
    "http": "http://****:****@proxy.****.com:8080/",
    "https": "http://****:****@proxy.****.com:8080/"
}
#获取页面内容
homePage = requests.get("http://kaijiang.500.com/ssq.shtml", proxies=proxy_dict)
homePage.encoding = "gb2312"
pageStr = homePage.text
#解析页面里下拉框选项里的地址,并放入list中
pageStr = pageStr[pageStr.find('
'):] historyArr = pageStr[len('
'):pageStr.find('
')].s

你可能感兴趣的:(python,python,爬虫)