爬虫所需要的HTML基础

HTML代码的一般形式

下方是一个基本的网页代码框架


<html>

<head>
<title>文档标题title>
head>

<body>
文档内容......
body>

html>

一个网页的基本示例


<html>
<head>
    <title>Headings and paragraphstitle>
head>

<body>
    <h1>Heading 1h1>
    <p>This is my first paragraphp>
    <h2>Heading 2h2>
    <h3>Heading 3h3>
    <h4>Heading 4h4>
    <h5>Heading 5h5>
    <h6>Heading 6h6>  
    <p>This is my second paragraphp>

    <div style="background: skyblue">This is a divdiv>

body>
html>

最基本的标签说明

标签基本格式:<标签名 属性名1="属性值" 属性名2="属性值" ...>文档内容
: 用于代码开头指定html版本等信息;
: 告知浏览器这是一个HTML文档,是HTML文档中最外层的元素;
: 所有头部元素的容器,必须包含文档的标题(title),可以包含脚本、样式、meta信息以及其他;
: 定义文档的标题,定义浏览器工具栏中的标题,显示在搜索引擎结果中的页面标题;
: 定义文档的主体,包含文档的所有内容(比如文本、超链接、图像、表格和列表等);

: 定义HTML标题,从

标题的重要程度逐渐降低;

: 定义段落,浏览器会自动在其前后创建一些空白;

: 一个简单的换行符,是一个空标签,意味着它没有结束标签;
:定义HTML文档中的一个分隔区块或者一个区域部分,经常与CSS一起使用,用来布局网页。

链接中一些常用的标签

标签实现基本的超链接
访问DC官网
其中为标签,href=http://www.pkbigdata表示链接指向的地址,访问DC官网表示超链接的文本

指向同一服务器同一目录下的form.html
Fill Our Form

指向同一服务器父目录下的parent.html
Parent

指向同一服务器子目录下的stuff下的cat.html
Catalog

指向外部网站 (会在新的标签页打开)
BASD

超链接除了指向一个文件,还可以具体指明位置,这样浏览器就会直接跳转显示文件的相应位置。指向同一个文件的其他位置

"#section1">Go to Introduction
...

"section1">

指向其他文件的某个位置

<a href="chapter3.html#section3.1.1>Go to section 3.1.1

...
section3.1.1"> <h3>3.1.1 Technical Backgroundh3> div>

图片标签

插入一张图片,指向同一服务器同一目录下的php.png
PHP Logo
其中为图片标签;scr="pho.png"表示同一服务器同一目录下的php.png这个图片;alt="PHP Logo"表示图片的代替文本,如果图片无法显示,则显示这个文本。

为图片增加超链接:
apply

标签的一些基本属性
src: 图片路径
alt: 图片无法显示时的代替文本
height: 高度
width: 宽度
border: 边框宽度

无序列表

无序列表一般用

    +
  • 的形式来实现,一个简单的例子

    <ul>
        <li>Coffeeli>
        <li>Milkli>
        <li>Teali>
    ul>

    显示如下:

    • Coffee
    • Milk
    • Tea

    有序列表

    有序列表一般用

      +
    1. 的形式来表现,一个简单的例子

      <ol>
          <li>Coffeeli>
          <li>Milkli>
          <li>Teali>
      ol>

      显示如下:

      1. Coffee
      2. Milk
      3. Tea

      我们也可以通过规定起始值的形式来编号:

      1. Coffee
      2. Milk
      3. Tea

      显示如下:

      1. Coffee
      2. Milk
      3. Tea

      表格

      HTML表格由多种标签组合而成,其中最重要的三种标签是

      : 表格的开始和结束
      : 创建表格的一行
      : 创建表格中的普通单元格
      : 创建表格中标题栏单元格
      一个简单的表格示例

      First Last Name Age
      Jill Smith 50
      Eve Jackson 94
      John Doe 80
      1"><tr><th>Firstth><th>Last Nameth><th>Ageth>tr><tr><td>Jilltd><td>Jacksontd><td>94td>tr><tr><td>Evetd><td>Jacksontd><td>94td>tr><tr><td>Johntd><td>Doetd><td>80td>tr>table>

      表单

      用于收集用户输入的信息,一个简单的例子如下:

      "/statics/demosource/demo-form.php" method="post"> First name: type="text" name="FirstName" value="Mickey">
      Last name: type="text" name="LastName" value="Mouse">
      Password: type="password">
      type="submit" value="提交">

      拓展阅读

      HTTP基础知识
      1.HTTP基础知识对于爬虫的作用

      HTTP–超文本传输协议(HyperText Transfer Protocol)是互联网中应用最为广泛的一种网络协议,设计的最初目的就是为了提供一种发布和接受HTML页面的方法,而爬虫的本质就是通过程序发生HTTP请求,并返回HTML文档,遵守HTTP的传输协议是爬虫的基础。

      • 爬虫入门系列(一):快速理解HTTP协议
      2.HTTP报文

      HTTP协议中有两个报文,一个是请求报文,一个是相应报文,这是HTTP协议的核心内容
      - HTTP消息结构

      3.更多拓展阅读
      • 请求方法
      • HTTP响应头信息
      • HTTP协议简介
      • TCP/IP教程

      你可能感兴趣的:(数据分析师)