python 抓取百度搜索名称和路径

阅读更多

python 新手笔记:利用python,根据搜索关键字,抓取其结果的名称和路径。

 

一、百度搜索参数介绍

pn :抓取第几页内容

cl :搜索的类型 3 为网页搜索 2为新闻搜索

wd :搜索关键字

rn  :需要搜索多少条结果

 

详情可参阅:http://blog.sina.com.cn/s/blog_3e28c8a50102v0ck.html

 

二、定义pthon函数

# coding: UTF-8
import urllib.request 
import urllib.parse
import re

# 查询名称   查询条数
def findBaiduUrlList(searchName,number):
    #定义百度搜索请求URL
    url="http://www.baidu.com/s?pn=0&cl=3&rn="+str(number)
    #将中文进行URL编码
    url = url +"&wd="+urllib.parse.quote(searchName)
    #发起request请求,并获取返回结果
    response = urllib.request.urlopen(url)
    #将返回结果进行转换成UTF-8转码
    html = response.read().decode('utf-8')
    #定义截取字符串正则表达式
    splitPattern = re.compile(r'

') requestList = re.split(splitPattern,html) myUrl=[] for c in requestList: #清楚换行和前后空格 c=trim(c) if c.startswith('.{0,40}') nameMatch = namePattern.search(c) if nameMatch: urlObj[0] = trims(nameMatch.group()) myUrl.append(urlObj) else: c = '' return myUrl #清除无用字符信息 def trims(str): str = str.strip('target="_blank"') str = str.replace('','').replace('','').replace('','') str = str.replace('>','').replace('"','').replace(' ','').replace(' ','') return trim(str) #清除换行和前后空格 def trim(str): str = str.replace('\n','').strip() return str

   

   python正则表达式可参阅:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

 

三、调用代码

myUrl = findBaiduUrlList('timerbin',1)

for c in myUrl:
    print(c)

 

四、输出结果

    ['返回链接名称','链接地址']

['TimerBin的博客-ITeye技术网站', 'http://www.baidu.com/link?url=Rvj1VAmkb6527AEXIMQnSKSRFvy4jT0BAYnHjw3Gu4npAccEysMnyRi0fj3Ziwqr']

 

 

 

 

你可能感兴趣的:(抓取百度搜索名称和路径,pyton)