(五)爬虫-爬取ADHD论坛的题目

这是在做项目时的一个真实需求:需要了解ADHD家长、孩子的需求是什么,找到了一个ADHD的论坛(http://www.adhd.org.cn/forum),上面聚集了一些ADHD儿童的家长,基本上标题上就直观地反映了他们的一些需求。所以我就想简单的将标题都爬下来。


观察一下这个网站的结构,发现

(1)    这些标题都在标签下,但是为了页面显示奇偶行的样式不同,这些标签的class分别evenTableRow和oddTableRow,所以没有用这个标签。

(2)    一致的地方体现在都是

的标签的第一个元素的文字部分,决定采用这个特征进行爬取。


代码

你可能感兴趣的:((五)爬虫-爬取ADHD论坛的题目)