同学是学管理的,她的要求是给很多关键词,针对每个关键词去新浪搜索,搜索的要求是按标题检索,同时要对2006年1月至2013年2月的每个月都检索一次,保存检索结果的数目到文件中。比如 关键词是 用友软件,写到文件中应该如下:
用友软件 16 23 67 19 78 ......
我的系统是win7,这里推荐一个网址ActivePython http://www.activestate.com/activepython 直接下载安装即可
上图中的“ 2005” 就是我需要的数据。
python抓取网页需要一个很重要的库 urllib2, 至于别人说的beautifulsoup ,pyquery这些库其实并不需要,在定位要抓取的数据时用正则表达式(对应于re库)就可,正则表达式寻找匹配的速度应该来说是最快的。有了这两个库,其他的就是一些逻辑处理,文件读写的操作,没有多少难度。最终的代码如下:
# coding=utf-8 import urllib2 import re #------------------------------------------------------------------------------ def crawl(keyword_name): a = keyword_name; output.write(a+"\t"); for year in range(2006,2013): for month in range(1,13): begintime=str(year)+"-"+"%02d"%month+"-01"; endtime=str(year)+"-"+"%02d"%month+"-31"; print begintime,endtime; userMainUrl="http://search.sina.com.cn/?time=custom&stime="+begintime+"&etime="+endtime+"&c=news&q="+a+"&sort=time&range=title"; print userMainUrl; req = urllib2.Request(userMainUrl); resp = urllib2.urlopen(req); respHtml = resp.read(); #print "respHtml=",respHtml; # you should see the ouput html #<div class="l">我们为您搜索到2,005条新闻结果</div> urlpat = re.compile(r'<div class="l">(.*?)</div>'); match = urlpat.findall(respHtml); for numstr in match: searchnum = numstr[14:-10]; print "searchnum=",searchnum; output.write(searchnum+"\t"); year=2013 for month in range(1,3): begintime=str(year)+"-"+"%02d"%month+"-01"; endtime=str(year)+"-"+"%02d"%month+"-31"; print begintime,endtime; userMainUrl="http://search.sina.com.cn/?time=custom&stime="+begintime+"&etime="+endtime+"&c=news&q="+a+"&sort=time&range=title"; print userMainUrl; req = urllib2.Request(userMainUrl); resp = urllib2.urlopen(req); respHtml = resp.read(); #print "respHtml=",respHtml; # you should see the ouput html #<div class="l">我们为您搜索到2,005条新闻结果</div> urlpat = re.compile(r'<div class="l">(.*?)</div>'); match = urlpat.findall(respHtml); for numstr in match: searchnum = numstr[14:-10]; print "searchnum=",searchnum; output.write(searchnum+"\t"); output.write("\r\n"); ############################################################################### if __name__=="__main__": with open('input.txt', 'r') as fp: output = open('output.txt', 'a'); for line in fp: keyword = line.strip(); crawl(keyword); output.close();
用友软件 中国证券
用友软件 33 19 5 2 3 8 3 5 11 3 5 13 3 2,005 34 16 7 17 2,005 2,005 15 15 5 12 12 24 26 17 17 10 5 30 15 25 14 22 1 10 25 17 17 19 3 2,005 25 8 11 19 14 4 20 12 5 38 7 10 12 5 16 10 7 7 17 12 15 6 4 14 20 23 26 11 1 4 18 11 7 5 20 8 5 7 38 28 17 7 中国证券 52 61 9,224 89 71 100 107 102 129 76 180 183 39 28 25 8,073 34 86 65 72 98 73 88 80 102 133 160 170 103 182 188 150 9,224 186 136 169 129 154 123 28 31 37 46 48 54 40 44 42 483,224 27 56 9,224 30 21 16 12 38 27 61 51 22 18 23 25 28 51 9,224 50 74 70 127 80 32 57 62 43 43 101 72 103 83 60 134 75 43 37