百度搜索结果HTML分析

目的:

为了从搜索结果中提取所有网页,以备后续处理。

 

访问百度链接分析

名称 说明
wd 任意文字 关键字
rn 可以不指定,默认为10,最大为50,最小为1,可设置为任意值 一页包含的结果条目数
pn 百度默认显示760条,所以最后一页为pn=750 第一条结果的索引位置

示例:

https://www.baidu.com/s?wd=老虎&pn=10&rn=3

关键字:老虎,第10条记录,每页显示3条。所以打开的是以老虎为关键字,第四页的记录

 

HTML源文件分析

刚下载的html源文件格式非常混乱,可使用在线html格式化工具进行格式化,以便阅读。

根据我的需求,在HTML文件中,

你可能感兴趣的:(QT)