百度搜索URL参数含义

1,转自:http://blog.sina.com.cn/s/blog_3e28c8a50102v0ck.html


原创文章,版权归andxu所有,如转载请征求本人同意,并一定保存本页链接。

——————————————————————————————————————————————————  

    在做搜索时候,关注搜索引擎的URL格式是一个很重要的问题,以百度为例,整理一下常用的格式和技术:

    Eg.几个百度搜索的URL

http://www.baidu.com/s?lm=0(搜索结果时间限制)&si=&rn=10(每页显示的数目) &ie=gb2312&(语言)ct=0 &wd=�%6��& (关键词)pn=10 (在第pn比上10后加上1页)&ver=0 &cl=3 &uim=6 &usm=0


http://www.baidu.com/s?ie=utf8&bs=mc&f=8&rsv_bp=1&rsv_spt=3&wd=百度搜索url含义&inputT=12534


ttp://www.baidu.com/s?wd=libreoffice+cal+�Զ�����&rsv_bp=0&rsv_spt=3&oq=libreoff&sug=libreoffice&rsv_n=1&rsp=0&inputT=23204


http://www.baidu.com/s?word=jay+site:blog.csdn.net&tn=sitehao123&ie=utf-8


所以关键问题:怎么正确认识百度搜索的参数?


就目前的认识,整理一下参数:

序号 参数 含义
1 tn 搜索框所属网站。比如 tn=sitehao123,就是 http://www.hao123.com/ 左上那个搜索框(指通过什么方式到达百度首页搜索界面;)
2 s?wd 指关键词, “wd=” 是英文的word的缩写,参数表示的是搜索关键词的内容,如果是汉字那么这个参数是汉字的十六进制形式,如果是英文,那么这个参数就用该英文来表示
3 rsv_bp (0,1,2) 0是首页输入;1是顶部搜索输入;2是底部搜索输入
4 rsv_spt (1,3还有其他的数字,暂时没发现) 指的浏览器内核;
5 rsv_ers xn* (*取0或1) 指的是搜索词后,翻页出现对应的相关搜索,从0开始。如果在url里已经是0的话,那对应的相关搜索就从1开始(这个参数还有很多密,这个只是初步测试)
6 rsp 指的是相关搜索排序(从0开始)
7 sug 这个参数只有在你修改下拉框文字时才会出现,指的是下拉框出现的关键词
8 oq 指的是你在输入搜索词时,输入一半,选择了下拉框之前输入的词;oq= 指的是搜索词,只有当url地址出现rsp而非rsv_bp时,oq才指的是从搜索词跳转到相关搜索。
9 inputT 从你打开百度主页,在对话框输入数据的时候开始计时,到你点击百度一下的时间计算。(只有在顶部搜索,首页搜索才会出现)。
10 s?bs 指的是上一次搜索的词, “bs=”参数应该是英文“base”的缩写,也就是“基于...”的意思,通俗点说就是在搜某一个关键词后再次搜索其它关键词的意思。bs=这个参数是百度用来判断某个关键词的相关关键词而设置的,也就是百度通过用户的搜索行为来判断某个关键词的相关关键词.(Maybe Before Search)
11 f (1,3,8) 也许还有其他的,暂时发现就这3种,1指的是相关搜索,表示用户选择了搜索页面最下面的“相关搜索”中的某个关键词。;3下拉框搜索 表示用户输入一定的词语之后出现“联想词语”,用户最终用鼠标选择了某个关键词;或用键盘选择了某个关键词后直接按回车。;8用户自主搜索,表示用户直接点击“百度一下”按键(有bs变量时才出现f=8)
12 ieInput Encoding 输入编码。百度似乎不支持其它编码。 默认值是“gb2312”
13 ct 语言限制。0-所有语言,1-简体中文网页,2-繁体中文网页;其它不确定或者无效或。默认值为0.
14 rn 每页包含的搜索结果数目。默认值为10
15 pn 搜索结果的页码,从零开始计数。即pn = ${结果页码-1}*rn。
16 lm 搜索结果的时间限制。以天为单位,例如搜索最近一个月的网页,lm=30.默认值为0,表示没有时间限制。
17 q5 搜索内容位置限制.0-所有内容;1-网页标题(相当于使用'title:'查询前缀);2-url(相当于使用'inurl:'查询前缀);其它值等效于0.默认值为0
18 q6 搜索内容网站限制.例如q6=sohu.com,表示只搜索sohu.com的网页;相当于使用了'site:前缀'.默认值为空
19 dq 不建议使用该参数.查询内容来原的地区限制. 具体值有百度确定.默认值为空.试了一下,使用这个参数的效果很差.
20 cl 百度提交的搜索类型(Class),cl=3为网页搜索,cl=2为百度新闻
21 rs2 暂时未知
22 sc 暂时未知
23
 



2, 转自:http://blog.csdn.net/alionkun/article/details/6414605

http://www.baidu.com/s?wd =关键字
wd(Keyword):查询的关键词;
http://www.baidu.com/s?wd =关键字&cl=3
cl(Class):搜索类型,cl=3为网页搜索,cl=2为图片搜索;
http://video.baidu.com/v?rn=20&pn=0
pn(Page Number):显示结果的页数;
http://www.baidu.com/s?ie=gb2312
ie(Input Encoding):查询关键词的编码,缺省设置为简体中文,即ie=gb2312;
http://image.baidu.com/i?ct=503316480&si=zbjingshui.com
ct--此值一般是一串数字,可能是搜索请求的验证码;
si--在限定的域名中搜索,比如想在本站内搜索可使用参数si=shangzhiwang.com,要使这个参数有效必须结合ct参数一起使用;
http://video.baidu.com/v?rn=20&pn=0
rn(Record Number):搜索结果显示条数,缺省设置rn=10,取值范围:10-100;
http://www.baidu.com/s?bs =商智网络
bs(Before Search):上一次搜索的关键词;
tn:提交搜索请求的来源站点,这是百度与免费软件合作时的利益来源,举例来说我们使用的一些免费浏览器中所提供的百度搜索时,URL地址中都带有tn=内容,tn=后面的内容就是百度联盟的账号。如:Firefox的tn=suvion_dg(tn=suvion_4_dg),傲游的tn=myie2dg,The World的tn=suvion_4_pg,只要你使用了这些带有tn=的搜索,只要点击了其中的广告,提供该软件的浏览器就会从中赚取利益。搜索结果有个例外,当tn=baidulocal时,你可以得到一个无竞价无广告的百度搜索结果.
收集补充:
百度参数分析----搜索时URL参数含义

http://www.baidu.com/s?lm=0 (搜 索结果时间限制) &si=&rn=10(每页显示的数目) &ie=gb2312&(语言) ct=0 &wd=%CA%6%BB%FA& (关键词) pn=10 (在第pn比上10后加上1页) &ver=0 &cl=3 &uim=6 &usm=0
tn 搜索框所属网站。比如 tn=sitehao123,就是
http://www.hao123.com/ 左上那个搜索框
ie Input Encoding - 输入编码。百度似乎不支持其它编码。 默认值是“gb2312”
word 搜索的关键词。
kw 搜索的关键词。
bs Before Search - 上一次搜索输入的关键词.
sr 不建议使用该参数.结合bs使用。一般查询sr=0或者为空值,但sr=1时,查询将结合bs的值一起作为查询的关键字.默认值为0,除0,1外其它值无效。
ct 语言限制。0-所有语言,1-简体中文网页,2-繁体中文网页;其它不确定或者无效或。默认值为0.
rn 每页包含的搜索结果数目。默认值为10
pn 搜索结果的页码,从零开始计数。即pn = ${结果页码-1}*rn。
lm 搜索结果的时间限制。以天为单位,例如搜索最近一个月的网页,lm=30.默认值为0,表示没有时间限制。
q5 搜索内容位置限制.0-所有内容;1-网页标题(相当于使用'title:'查询前缀);2-url(相当于使用'inurl:'查询前缀);其它值等效于0.默认值为0
q6 搜索内容网站限制.例如q6=sohu.com,表示只搜索sohu.com的网页;相当于使用了'site:前缀'.默认值为空
dq 不建议使用该参数.查询内容来原的地区限制. 具体值有百度确定.默认值为空.试了一下,使用这个参数的效果很差.
myselectvalue
submit=
tb=on 贴吧?
f 未知。 默认值为空
cl 未知。 默认值为空
rs2 未知。
sc 未知。

===============================================================================

百度搜索命令参数
构造半自动化搜索引擎查询,需要了解一下,百度url构成方式和参数的作用。虽然是转载,但是还是有很大的学习意义了。
http://www.baidu.com/baidu?cl=3&tn=baidutop10&wd=%B6%B9%B0%EA
这是一个从百度风云榜里面截取的url链接了。cl=3 表示网页搜索,tn表示来源站点,wd是关键词%B6%B9%B0%EA 是utf编码之后的结果了。
百度搜索命令中的参数
必备参数:
wd——查询的关键词(Keyword)
pn——显示结果的页数(Page Number)
cl——搜索类型(Class),cl=3为网页搜索
可选参数:
rn——搜索结果显示条数(Record Number),取值范围在10--100条之间,缺省设置rn=10
ie——查询输入文字的编码(Input Encoding),缺省设置ie=gb2312,即为简体中文
tn——提交搜索请求的来源站点
几个有用的tn
tn=baidulocal 表示百度站内搜索,返回的结果很干净,无广告干扰。
比如,在百度站内搜索“快乐”,看看返回结果是不是很清爽。
tn=baiducnnic 想把百度放在框架中吗?试试这个参数就可以了,是百度为Cnnic定制的
si——在限定的域名中搜索,比如想在新浪的站内搜索可使用参数si=sina.com.cn,要使这个参数有效必须结合ct参数一起使用。
ct——此参数的值一般是一串数字,估计应该是搜索请求的验证码
si 和ct参数结合使用,比如在sina.com.cn中搜索“理想”,可用:
http://www.baidu.com/s?q =& ct=2097152&si=sina.com.cn&ie=gb2312&cl=3&wd=理想
bs——上一次搜索的关键词(Before Search),估计与相关搜索有关


你可能感兴趣的:(爬虫相关)