Python简易的爬虫

     用python写一个简单的爬虫,爬取360搜索上的关于女友的联想搜索,比如键入”苍老师“,360搜索会给出什么推荐的关键搜索:

#coding:utf-8
import urllib
import urllib2
import re 
import time

wordList=["苍老师","波多野结衣","吉泽明步"]#对多个女优爬取
for i in wordList:
    gjc=urllib.quote(i)#生成搜索关键字的编码
    url="http://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&encodeout=utf-8&format=json&fields=word,obdata&word="+gjc#360关联搜索的url,通过chrome的按F12获得

    headers={#将一些头部加入到请求中去,让360服务器认为请求来自浏览器人工键入
        "GET":url,
        "Refer":"http://www.so.com/",
        "Host":"sug.so.360.cn",
        "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.152 Safari/537.36"
    }

    req=urllib2.Request(url)#创建请求
    for item in headers:
        req.add_header(item,headers[item])#将伪造的头部加入到请求中
    html=urllib2.urlopen(req).read()
    obj=re.findall('(?<=")(苍老师.*?|波多野结衣.*?|吉泽明步.*?)(?=")',html)#查找联想的搜索
    for key in obj:
        print key
    time.sleep(1)
程序输出:

苍老师
苍老师电影全集
苍老师无马赛克图片
苍老师的种子
苍老师图片
苍老师的电影
苍老师的职业生涯
苍老师是谁
苍老师的作品
苍老师的职业生涯小说
苍老师番号
波多野结衣
波多野结衣欢迎来到我的世界种子快播
波多野结衣 欢迎来到我的世界种子
波多野结衣结婚
波多野结衣结婚没
吉泽明步

你可能感兴趣的:(python爬虫)