python爬虫学习(1)

1、认识网页结构,分别是html(超文本标记语言)、css(层叠样式表)和JScript(活动脚本语言)。

HTML

html是整个网页的结构,相当于整个网站的框架,带"<",">"都是属于html标签,并且标签是成对出现的。

常见标签如下:

...表示标记中间的元素是网页

...表示用户可见的内容

...
表示框架

...

表示段落

  • ...
  • 表示列表

    ...表示图片

    ...表示标题

    ...表示超链接

    2、以中国旅游网首页(http://www.cntour.cn/)为例,抓取中国旅游网首页首条信息(标题和链接),数据以明文的形式出面在源码中。可以在网页空白处右击选择查看网页源代码,或者ctrl+U,如下图所示

    网页源码

    CSS

    css表示样式,图中的第13行