【Go Web学习笔记】第十章 Go与XML处理

前言:大家好,以下所有内容都是我学习韩茹老师的教程时所整理的笔记。部分内容有过删改, 推荐大家去看原作者的文档进行学习, 本文章仅作为个人的学习笔记,后续还会在此基础上不断修改。学习Go Web时应该已经熟悉Go语言基本语法以及计算机网络的相关内容。
学习链接:https://www.chaindesk.cn/witbook/17/253
参考书籍:《Go Web编程》谢孟军

第十章、XML处理

Web开发中对于文本处理是非常重要的一部分,我们往往需要对输出或者输入的内容进行处理,这里的文本包括字符串、数字、Json、XMl等等。Go语言作为一门高性能的语言,对这些文本的处理都有官方的标准库来支持。而且在你使用中你会发现Go标准库的一些设计相当的巧妙,而且对于使用者来说也很方便就能处理这些文本。

XML是目前很多标准接口的交互语言,很多时候和一些Java编写的webserver进行交互都是基于XML标准进行交互。XML作为一种数据交换和信息传递的格式已经十分普及。而随着Web服务日益广泛的应用,现在XML在日常的开发工作中也扮演了愈发重要的角色。这一小节, 我们将就Go语言标准包中的XML相关处理的包进行介绍。

假如你是一名运维人员,你为你所管理的所有服务器生成了如下内容的xml的配置文件:


<servers version="1">
    <server>
        <serverName>Shanghai_VPNserverName>
        <serverIP>127.0.0.1serverIP>
    server>
    <server>
        <serverName>Beijing_VPNserverName>
        <serverIP>127.0.0.2serverIP>
    server>
servers>

上面的XML文档描述了两个服务器的信息,包含了服务器名和服务器的IP信息,接下来的Go例子以此XML描述的信息进行操作。

一、解析XML

如何解析如上这个XML文件呢? 我们可以通过xml包的Unmarshal函数来达到我们的目的:

func Unmarshal(data []byte, v interface{}) error

data接收的是XML数据流,v是需要输出的结构,定义为interface,也就是可以把XML转换为任意的格式。我们这里主要介绍 struct 的转换,因为 struct 和XML都有类似树结构的特征。

示例代码:

package main

import (
    "encoding/xml"
    "fmt"
    "io/ioutil"
    "os"
)

type Recurlyservers struct {
    XMLName     xml.Name `xml:"servers"`
    Version     string   `xml:"version,attr"`
    Svs         []server `xml:"server"`
    Description string   `xml:",innerxml"`
}

type server struct {
    XMLName    xml.Name `xml:"server"`
    ServerName string   `xml:"serverName"`
    ServerIP   string   `xml:"serverIP"`
}

func main() {
    file, err := os.Open("servers.xml") // For read access.     
    if err != nil {
        fmt.Printf("error: %v", err)
        return
    }
    defer file.Close()
    data, err := ioutil.ReadAll(file)
    if err != nil {
        fmt.Printf("error: %v", err)
        return
    }
    v := Recurlyservers{}
    err = xml.Unmarshal(data, &v)
    if err != nil {
        fmt.Printf("error: %v", err)
        return
    }

    fmt.Println(v)
}

XML本质上是一种树形的数据格式,而我们可以定义与之匹配的 go 语言的 struct类型,然后通过 xml.Unmarshal 来将 xml 中的数据解析成对应的 struct 对象。如上例子输出如下数据:

{{ servers} 1 [{{ server} Shanghai_VPN 127.0.0.1} {{ server} Beijing_VPN 127.0.0.2}] 
    
        Shanghai_VPN
        127.0.0.1
    
    
        Beijing_VPN
        127.0.0.2
    
}

上面的例子中,将 xml 文件解析成对应的 strcut 对象是通过 xml.Unmarshal 来完成的,这个过程是如何实现的?可以看到我们的 struct 定义后面多了一些类似于 xml:“serverName” 这样的内容,这个是 strcut 的一个特性,它们被称为 strcut tag,它们是用来辅助反射的。我们来看一下 Unmarshal 的定义:

func Unmarshal(data []byte, v interface{}) error {
    return NewDecoder(bytes.NewReader(data)).Decode(v)
}

我们看到函数定义了两个参数,第一个是XML数据流,第二个是存储的对应类型,目前支持struct、slice和string,XML包内部采用了反射来进行数据的映射,所以v里面的字段必须是导出的。Unmarshal解析的时候XML元素和字段怎么对应起来的呢?这是有一个优先级读取流程的,首先会读取struct tag,如果没有,那么就会对应字段名。必须注意一点的是解析的时候tag、字段名、XML元素都是大小写敏感的,所以必须一一对应字段。

Go语言的反射机制,可以利用这些tag信息来将来自XML文件中的数据反射成对应的struct对象,关于反射如何利用struct tag的更多内容请参阅reflect中的相关内容。

解析XML到struct的时候遵循如下的规则:

  • 如果struct的一个字段是 string 或者 []byte 类型且它的 tag 含有 “,innerxml”,Unmarshal 将会将此字段所对应的元素内所有内嵌的原始 xml 累加到此字段上,如上面例子Description定义。最后的输出是:

    ShanghaiVPN 127.0.0.1 BeijingVPN 127.0.0.2

  • 如果struct中有一个叫做XMLName,且类型为xml.Name字段,那么在解析的时候就会保存这个element的名字到该字段,如上面例子中的servers。

  • 如果某个struct字段的tag定义中含有XML结构中element的名称,那么解析的时候就会把相应的element值赋值给该字段,如上 servername 和 serverip 定义。

  • 如果某个struct字段的tag定义了中含有",attr",那么解析的时候就会将该结构所对应的element的与字段同名的属性的值赋值给该字段,如上version定义。

  • 如果某个struct字段的tag定义 型如"a>b>c",则解析的时候,会将xml结构a下面的b下面的c元素的值赋值给该字段。

  • 如果某个struct字段的tag定义了"-",那么不会为该字段解析匹配任何xml数据。

  • 如果struct字段后面的tag定义了",any",如果他的子元素在不满足其他的规则的时候就会匹配到这个字段。

  • 如果某个XML元素包含一条或者多条注释,那么这些注释将被累加到第一个tag含有",comments"的字段上,这个字段的类型可能是[]byte或string,如果没有这样的字段存在,那么注释将会被抛弃。

上面详细讲述了如何定义struct的tag。 只要设置对了tag,那么XML解析就如上面示例般简单,tag和XML的element是一一对应的关系,如上所示,我们还可以通过slice来表示多个同级元素。

注意: 为了正确解析,go语言的xml包要求struct定义中的所有字段必须是可导出的(即首字母大写)

接下来我们写一个更为复杂的XML文件,并解析:


<students version="1">
    <student>
        <studentName>ClimberCodingstudentName>
        <age>31age>
        <sex>femalesex>
        <books>
            <book>
                <bookName>红与黑bookName>
                <price>55.8price>
            book>
            <book>
                <bookName>呼啸山庄bookName>
                <price>99price>
            book>
        books>
    student>
    <student>
        <studentName>王二狗studentName>
        <age>30age>
        <sex>malesex>
        <books>
            <book>
                <bookName>十万个为啥bookName>
                <price>22.8price>
            book>
            <book>
                <bookName>从入门到放弃bookName>
                <price>68price>
            book>
        books>
    student>
students>

示例代码:

package main

import (
    "encoding/xml"
    "fmt"
    "io/ioutil"
    "os"
)

type Recurlystudents struct {
    XMLName xml.Name `xml:"students"`
    Version string `xml:"version,attr"`
    Students []student `xml:"student"`
    Description string `xml:",innerxml"`
}
type student struct {
    XMLName xml.Name `xml:"student"`
    StudentName string `xml:"studentName"`
    Age int `xml:"age"`
    Sex string `xml:"sex"`
    Books Recurlybookss `xml:"books"`
}

type Recurlybookss struct {
    XMLName xml.Name `xml:"books"`
    Version string `xml:"version,attr"`
    Books []book `xml:"book"`
    Description string `xml:",innerxml"`
}

type book struct {
    XMLName xml.Name `xml:"book"`
    BookName  string `xml:"bookName"`
    Price  string `xml:"price"`
}

func main() {
    file, err := os.Open("students.xml") // For read access.
    if err != nil {
        fmt.Printf("error: %v", err)
        return
    }
    defer file.Close()
    data, err := ioutil.ReadAll(file)
    if err != nil {
        fmt.Printf("error: %v", err)
        return
    }
    v := Recurlystudents{}
    err = xml.Unmarshal(data, &v)
    if err != nil {
        fmt.Printf("error: %v", err)
        return
    }
    fmt.Println(v)
}

运行输出结果:

{{ students} 1 [{{ student} ClimberCoding 31 female {{ books}  [{{ book} 红与黑 55.8} {{ book} 呼啸山庄 99}] 
            
                红与黑
                55.8
            
            
                呼啸山庄
                99
            
        }} {{ student} 王二狗 30 male {{ books}  [{{ book} 十万个为啥 22.8} {{ book} 从入门到放弃 68}] 
            
                十万个为啥
                22.8
            
            
                从入门到放弃
                68
            
        }}] 
    
        ClimberCoding
        31
        female
        
            
                红与黑
                55.8
            
            
                呼啸山庄
                99
            
        
    
    
        王二狗
        30
        male
        
            
                十万个为啥
                22.8
            
            
                从入门到放弃
                68
            
        
    
}

二、输出XML

假若我们不是要解析如上所示的XML文件,而是生成它,那么在go语言中又该如何实现呢? xml包中提供了 Marshal 和 MarshalIndent 两个函数,来满足我们的需求。这两个函数主要的区别是第二个函数会增加前缀和缩进,函数的定义如下所示:

func Marshal(v interface{}) ([]byte, error)
func MarshalIndent(v interface{}, prefix, indent string) ([]byte, error)

两个函数第一个参数是用来生成XML的结构定义类型数据,都是返回生成的XML数据流。

下面我们来看一下如何输出如上的XML:

package main

import (
    "encoding/xml"
    "fmt"
    "os"
)

type Servers struct {
    XMLName xml.Name `xml:"servers"`
    Version string   `xml:"version,attr"`
    Svs     []server `xml:"server"`
}
type server struct {
    ServerName string `xml:"serverName"`
    ServerIP   string `xml:"serverIP"`
}

func main() {
    v := &Servers{Version: "1"}
    v.Svs = append(v.Svs, server{"Shanghai_VPN", "127.0.0.1"})
    v.Svs = append(v.Svs, server{"Beijing_VPN", "127.0.0.2"})
    output, err := xml.MarshalIndent(v, " ", " ")
    if err != nil {
        fmt.Printf("error: %v\n", err)
    }
    os.Stdout.Write([]byte(xml.Header))
    os.Stdout.Write(output)
}

上面的代码输出如下信息:


 
  
   Shanghai_VPN
   127.0.0.1
  
  
   Beijing_VPN
   127.0.0.2
  
 

和我们之前定义的文件的格式一模一样,之所以会有 os.Stdout.Write ( []byte(xml.Header )) 这句代码的出现,是因为 xml.MarshalIndent 或者 xml.Marshal 输出的信息都是不带XML头的,为了生成正确的 xml 文件,我们使用了xml包预定义的Header变量。

我们看到Marshal函数接收的参数v是interface{}类型的,即它可以接受任意类型的参数,那么xml包,根据什么规则来生成相应的XML文件呢?

  • 如果v是 array或者slice,那么输出每一个元素,类似value
  • 如果v是指针,那么会Marshal指针指向的内容,如果指针为空,什么都不输出
  • 如果v是interface,那么就处理interface所包含的数据
  • 如果v是其他数据类型,就会输出这个数据类型所拥有的字段信息

生成的XML文件中的element的名字又是根据什么决定的呢?元素名按照如下优先级从struct中获取:

  • 如果v是struct,XMLName的tag中定义的名称
  • 类型为xml.Name的名叫XMLName的字段的值
  • 通过strcut中字段的tag来获取
  • 通过strcut的字段名用来获取
  • marshall的类型名称

我们应如何设置struct 中字段的tag信息以控制最终xml文件的生成呢?

  • XMLName不会被输出

  • tag中含有"-"的字段不会输出

  • tag中含有"name,attr",会以name作为属性名,字段值作为值输出为这个XML元素的属性,如上version字段所描述

  • tag中含有 “,attr”,会以这个struct的字段名作为属性名输出为XML元素的属性,类似上一条,只是这个name默认是字段名了。

  • tag中含有 “,chardata”,输出为xml的 character data而非element。

  • tag中含有",innerxml",将会被原样输出,而不会进行常规的编码过程

  • tag中含有",comment",将被当作xml注释来输出,而不会进行常规的编码过程,字段值中不能含有"–"字符串

  • tag中含有"omitempty",如果该字段的值为空值那么该字段就不会被输出到XML,空值包括:false、0、nil指针或nil接口,任何长度为0的array, slice, map或者string

  • tag中含有"a>b>c",那么就会循环输出三个元素a包含b,b包含c,例如如下代码就会输出

    FirstName string xml:"name>first"
    LastName string xml:"name>last"
    <name>
    
    <first>Asta</first>
    
    <last>Xie</last>
    
    </name>
    

上面我们介绍了如何使用Go语言的xml包来 编/解码 XML文件,重要的一点是对XML的所有操作都是通过struct tag来实现的,所以学会对struct tag的运用变得非常重要,在文章中简要的列举了如何定义tag。更多内容或tag定义请参看相应的官方资料。

你可能感兴趣的:(#,Go,Web,go语言,golang,go,web)