爬虫第二次作业-0706

感谢曾老师耐心的讲解和细致的回答。

本次课的作业如下:

选择“解密大数据”专题里上次爬虫课的作业文档地址作为分析页面,分析并提交该页面的网页结构与元素标签位置信息。


前言

作为一个技术小白,其实还是蛮难分得清F12在各个浏览器上表现的不同的。还好曾老师推荐了Firefox,果然画风亲民,本次课业便拜托它了。


答题前先做题目分解:

1.目标页面:“解密大数据”专题里上次爬虫课的作业文档地址(http://www.jianshu.com/p/673b768c6084)

2.分析此页面结构

3.分析元素标签位置信息

4.使用工具:Firefox


1.导入目标页面

目标页面一共有三张截图,请一定要原谅技术小白不会截整页那种长图 /(ㄒoㄒ)/~~

爬虫第二次作业-0706_第1张图片
页面结构_1


爬虫第二次作业-0706_第2张图片
页面结构_2


爬虫第二次作业-0706_第3张图片
页面结构_3

2.分析此页面结构

此页面大体分为5部分,分别是:

①写死不随页面滚动而滚动的 -- 顶部栏、侧边栏

②文章信息部分 -- 此部分共分为三块,一块在顶部(图1的④),包含文章名称和文章基础信息(作者、发表时间、字数、阅读情况)。第二块在中底部(图2的③),包含文章基础信息(作者、发表时间、字数、阅读情况)。第三块在底部(图3的③),包含文章收录情况。

③正文

④评论区

⑤推荐区


3.分析元素标签位置信息

全局顶部导航栏

括起来的元素是全局顶部导航栏

其中:,因logo支持链接跳转主页,所以在上面会有括起来的链接

爬虫第二次作业-0706_第4张图片
全局顶部导航栏

"note"类

“note”类一共分为两个子类 “post” 和 “side-tool” ,分别为文章内容和右侧导航栏。


爬虫第二次作业-0706_第5张图片
“note”类

随想:如果想抓取文章的标题,是不是按照 “note” - “post” - “article” - “title” 路径进行抓取就可以了?


小结

本次的作业差不多也就这样了,其实越写到后面思路越清晰,直到在画 “note” 类的树图时才意识到其实第一题在写分块的时候技术白的思想是有多不成熟。不过还是不改了,以此来记录思想进步的过程也不错,哈。本次作业的收获是:眼睛看到的结构并不是真实的结构,还是要先看代码再下判断。嗯。

你可能感兴趣的:(爬虫第二次作业-0706)