Python爬虫开发与项目实战(2)

文章目录

  • 第二章 Web前端基础
    • 2.1 W3C标准
      • 2.1.1 HTML
        • HTML的基本结构
        • 文档设置标记
          • 格式标记包括:
          • 文本标记包括:
        • 图像标记
        • 超链接的的使用
        • 表格
      • 2.1.2 CSS
        • CSS的使用方式
        • 颜色属性
        • 字体属性
        • 背景属性
        • 文本属性
        • 列表
        • 实例
      • 2.1.3 JavaScript
        • JavaScript的基本用法
        • JavaScript的基本语法
        • 数据类型和变量
        • 运算符和操作符
        • 条件判断
        • 循环
        • 函数
      • 2.1.4 XPath
        • XPath节点
        • XPath语法
        • XPath轴
        • XPath运算符
      • 2.1.5 JSON
    • 2.2 HTTP标准
      • 2.2.1 HTTP请求过程
      • 2.2.2 HTTP状态码含义
      • 2.2.3 HTTP头部信息
      • 2.2.4 Cookie状态管理
      • 2.2.5 HTTP请求方式

第二章 Web前端基础

2.1 W3C标准

  • W3C,即万维网联盟,是Web技术领域有最具权威和影响力的国际中立性技术标准机构
  • 网页主要由三部分组成:结构(structure)、表现(presentation)和行为(behavior)
  • 对应的标准也分为三方面:
    • 结构化标准语言主要包括XHTML和XML
    • 表现标准语言主要包括CSS
    • 行为标准主要包括对象模型(如W3C DOM)、ECMAScript等

2.1.1 HTML

  • HTML不是编程语言,是一种表示网页信息的符号标记语言
  • Web浏览器的作用是读取HTML文档,并以网页的形式显示出他们
  • HTML语言的特点包括:
    • 可以设置文本的格式,比如标题、字号、文本颜色、段落等
    • 可以创建列表
    • 可以插入图像和媒体
    • 可以建立表格
    • 超链接,可以使用鼠标点击超链接来实现页面之间的跳转

HTML的基本结构

  • <html>
        内容
    html>
    

    HTML文档由包裹,这是HTML文档的文档标记也称为HTML开始标记。这对标记分别位于网页的最前端和最后端,分别表示网页的开始和结束

  • <head>
        内容
    head>
    

    HTML文件头标记,也称为HTML头信息开始标记。用来包含文件的基本信息,比如网页的标题、关键字。

    在内可以放等标记

    在标记内的内容不会在浏览器中显示

  • <title>内容title>
    

    HTML文件标题标记,显示在浏览器窗口的左上边

  • <body>
        内容
    body>
    

    是网页的主体部分,在此标记之间可以包含



    等标记

    之间的内容组成了我们看见的网页

  • <meta>内容meta>
    

    页面的元信息。提供有关页面的元信息,比如这很对搜索引擎和更新频度的描述和关键词

    注意meta标记必须放在head元素里面

文档设置标记

格式标记包括: