爬虫学习之路(一)

一、了解网页

1、认识网页结构

网页一般由三部分组成,分别是HTML(超文本标记语言)、CSS(层叠样式表)和JavaScript(活动脚本语言)。

  • HTML 是用来搭建整个网页的骨架。
  • CSS 是为了让整个页面更好看,包括我们看到的颜色,每个模块的大小、位置等都是由 CSS 来控制的。
  • JavaScript 是用来让整个网页“动起来”,这个动起来有两层意思,一层是网页的数据动态交互,还有一层是真正的动,比如我们都见过一些网页上的动画,一般都是由 JavaScript 配合 CSS 来完成的。
  • HTML
    HTML是整个网页的结构,相当于整个网站的框架。带“<”、“>”符号的都是HTML的标签,并且标签是成对出现的。
    常见的标签如下。
 ..   表示标记中间的元素是网页
 ..   表示用户可见的内容
 
..
表示框架

..

表示段落
  • ..
  • 表示列表 .. 表示图片

    ..

    表示标题 "">.. 表示超链接
    • CSS
      CSS表示样式,如