Python爬虫-页面结构

了解页面结构

我们知道爬虫作用的对象是一个个复杂的网页,而要从一个网页庞大的数据中提取出我们想要的信息,就要先了解网页页面的结构,找到其中的规律。
一个网页页面是使用HTML来描述的。HTML是HyperTextMarkup Language的缩写,意思是超文本标记语言。为了描述复杂的页面元素,还引入了标签Mark的概念。标签都是使用<>括起来的字符串,其中大部分标签都是成对的,如等等,其中不带斜杠的称为起始标签,而带斜杠的称为结束标签,两个标签之间的是内容部分,这类成对的称为闭合标签;也有部分闭合标签是单个的,如


,一般建议在这种标签后面加上斜杠。而不加斜杠的称为非闭合标签。

通过这些标签可以定义网页的结构,一个标准的页面基本结构为:



  
    
    标题
  
  
    页面内容
  

其中可以看出,整个页面包含在标签之间,其中分为两部分,为网页头部,用来设置页面相关的参数;之间为页体部分,其中包含页面的内容。参数大多是使用标签来定义,例如charset用来设置网页使用的字符集。而title就是标题噜。

常用的标签

①table:表格

表格中可以添加属性长、宽、高:

②tr:行、td:列

在table表格中添加行、列

姓名 年龄 性别

如图:Python爬虫-页面结构_第1张图片

③li:列表项目

  • li表示行排列不能单独使用,需要嵌套在ul和ol里面配合使用。

    ④ul:无序列表(运用较广)

    • 大鹅
    • 小鸡

    在这里插入图片描述

    ⑤ol:有序列表

    1. 穿衣
    2. 下床
    3. 洗漱

    在这里插入图片描述

    ⑥a标签:超链接

    百度
    

    Python爬虫-页面结构_第2张图片

    你可能感兴趣的:(Python爬虫,其他,爬虫,python)