fl2006

XML学习笔记（学习XML语言必读）

-- 作者：lmxalqb -- 发布时间：2006-3-31 22:29:58 -- XML学习笔记（学习XML语言必读）

Chapter 1. XML简介

XML(eXtensible Markup Language，可扩展标记语言)是SGML的一个子集，但比SGML简单，用以创建可相互转换的结构化文本文档和数据文档。下面说明一下与XML相关的一些概念。

SGML(Standard Generalized Markup Language，标准通用标记语言)，由于IBM公司的三位先驱者Charles GoldFarb、Edward Mosher和Raymond Lorie创立，主要作为大型文档的编制工具。DTD(Document Type Definition，文档类型定义)是SGML文档的核心，它定义了SGML文档必须遵循的一组语法规则。由于它很复杂，所以只是在一些大公司或大项目中使用。直到HTML面世，它还是默默无闻。
HTML(Hypertext Markup Language，超文本标记语言)，它是在SGML框架中通过DTD定义的标记语言，是SGML的一种应用。它由于结构简单，容易学习而迅速普及，每个人都能很快地建立自已的页面，HTML造就了现时Internet上无数的信息资源。HTML标记只描述文档的外观，而不描述文档的内容本身--里面有什么。HTML是不明白网页内容的，这样就造成了内容搜索的差异和不确定性。另一个问题是，HTML不是可扩展的，这意味着没有一种方便的途径来扩展标记。每一个新标记的引入都会造成系统的不一致性和对标准的修订。这就是为什么现在我们用不同的浏览器浏览同一个网站时表现效果会有差异。
XHTML(eXtensible Hypertext Markup Language，可扩展超文本标记语言)，它是按XML规则编写的HTML，由于有统一的规则约束，所以它不会出现如HTML一样的不规范、不一致性问题。

XML(eXtensible Markup Language，可扩展标记语言)，继承了SGML的优点，但又没有了SGML的复杂性。XML专门为WEB应用而设计，和HTML不同，它是一种元标记语言(meta-markup language)，也就是说它没有一套能够适用于各个领域中所有用户的固守的标签和元素，相反，它允许开发者根据自已的需要定义自已的元素，XML中的 X(eXtensible)就是说明了这一点。它的特点有：

XML使用Unicode字符集，可生成英文、中文、希腊文或梵文等多种语言。
可将多个来源(包括其他XML文档和二进制文件)汇合进一个XML文档。
可利用DTD或Schema(模式）管理一致性问题。DTD主要用于文档型文档，Schema主要用数据型文档。
具有很好的扩展性，可定义自已的元素和属性。
通过XML可从关系数据库管理系统中提取数据到结构化文档。它还被设计成可对各种数据对象进行操作。
在一个设计良好的XML应用中，XML标记不涉及文档如何显示，只表示文档的结构。


	XML被设计用来存储、支持和交换数据，而不是用来显示数据的。通常，XML被用于数据交换，而不是数据存储。

元数据，定义数据的数据。
标记语言是一种定义文档的格式语言。SGML、XML、XHML、HTML都属标记语言。

XML文档是什么？它有时是一个文件，有时是关系数据库中的一条记录，有时是由Object Request Broker(对象请求代理程序)传送的一个对象，有时是到达网络接口的一个字节流。XML文档可使不同系统、不同平台的数据实现统一接口，这就是XML 真正的威力所在。下面列举几个使用XML的领域：

文档设计和管理，可利用XML维护公司的文档资料。
Web开发，利用XHTML和XSLT实现的Web页面扩展性更好，更容易维护。
数据库应用和程序开发，可从数据库中提取数据并生成XML文档，实现信息的跨平台、跨系统沟通。
定义其它语言，WML和WAP就是用通过XML建立的。

XML不是什么？

XML只是一种标记语言，不是一种编程语言。不存在一种编译器，把XML文档转化成可执行二进制代码。
XML不是一种网络传输协议，但通过网络协议传输的数据格式则可以是XML格式的。
XML不是数据库，不能替代Oracle或MySQL这类的关系数据库管理系统。

-- 作者：lmxalqb -- 发布时间：2006-3-31 22:30:14 --

Chapter 2. XML语法

Table of Contents

创建一个简单的index.xml文档：



Hello World

下面创建一个名为basic.xsl的XML样式表(XSL)，以便在浏览器中显示XML文档内容：




        
           
           a basic stylesheet

接着在浏览器中打开index.xml文档，则可显示“Hello World”。上面两个文档都是合法的XML文件，具体的语法规则下面会详细介绍，上例可先给大家一个感性的认识。

合法的XML文档可有种意思，一个是良构文档(well-format)，即符合XML规则书写的文档；另一种是有效文档，是已验证符合一个DTD的文档。

2.1. 基本语法规则

XML是区分大小写的；
所有元素的起始和结束标注必须成对出现，且要正确嵌套；
如果使XML说明，则它必须是XML文档的第一行：
元素属性必须用引号引起来，单、双引号都可以，但必须成对出现。如：
XML命名规则：
- XML名以下划线或字母开始；
- XML名可包含字母、数字、句点、下划线和冒号；
- XML名不能包含空格；
- XML名不能以数字开始，但可包含数字；
- XML名区分大小写。
保留标记字符，如果要在XML中显示<或&之类的标记，就要使用字符的实体形式，XML中有五种预先定义了的实体：
```
<          表示<字符
>          表示>字符
&         表示&字符
'        表示/'字符
"        表示"字符
```
我们也可用ENTITY自定义实体：
```
这样我们可用&linux;来调用。
```
XML文档内容中的空格是有意义的，在转换后会保留。
空元素以<开始并以/>结束，如
。

-- 作者：lmxalqb -- 发布时间：2006-3-31 22:30:28 --

2.2. 良构XML文档和有效XML文档

符合XML语法规则的XML文档称为良构文档，这些规则如下：

应当只有一个父标志，由父标志派生所有其它子标志，在一个文档中不能存在多个父标志。
嵌套元素应按正确的顺序开始和结束。
子标志应在父标志完成前关闭。
属性值应放在双引号中。

通过某个DTD或Schema验证的文档称为有效XML文档。

2.3. XML文档的组成

XML声明：
- version，定义XML规范的版本号，到现在为止，只有一个版本号1.0。
- encoding，指定文档的编码系统。
- standalone，定义文档是独立的还是需要装入其他元素才能正确分析。如果XML文档没有外部实体或DTD，则可以设置为no，否则设置为 yes。可用该值提高性能：如果为no，则可提高处理速度；如果设置为yes，则首先要分析文档，确定需要其他哪些文件，然后才能完全分析文档。
根元素，每篇XML文档都需要有且只能有一个根元素。由元素是文档的第一个元素，包含其它所有元素。下例的portal就是根元素，如：
```
 jims
 
 ...
```
属性，每个元素都可以设置一个或多个属性，如：
```
  Jims
```
元素和属性都可以表示信息，什么时候使用元素，什么时候使用属性呢？属性信息表现能力有限，它只能表示字符串。所以当需灵活表示信息时应该使用元素。一般把信息主体放到元素中，属性只放一些注释或额外的信息。
CDATA部份，它用表示，它们之间的数据作为原始字符显示，唯一不能出现的标志是]]>。
注释，注释是很重要，不论是在编写程序和文档时，所以XML也提供了注释功能，以结尾的一对区间为注释。在以-->结束之前，不能出现“--”号，“---”更不允许。
处理指令，处理指令以结尾。如PHP处理指令可写成，。处理指令是标记，而不是元素。因此，与注释一样，处理指令可出现在XML文档的标签外的任何位置，包括根元素之前或之后。最常见的处理指令是，xml-stylesheet样式表指令，它会告诉浏览器在显示文档时应用什么样式表。如：
```
  ...
...
```

-- 作者：lmxalqb -- 发布时间：2006-3-31 22:30:49 --

2.4. XML文档树

XML文档是一种结构化的文档，可用树的形式表示出来。树是一种由节点和分支组成的简单结构，两个节点间由分支连接。上端的节点称为父节点，下端的节点称为子节点。一个节点如果没有父节点，则称为树的根节点(根)，每个树必须有且只能有一个根节点。一个节点如果没有子节点，则称为树的叶节点。只有一个节点的树也是允许的。

由于XML可自定义标签，所以每个人定义的标签集都会不同，如果没有一套标准来规定标签的定义原则，则应用程序就不能对XML文档进行处理。解决该问题的方案采用DTD，DTD(Document Type Definition，文档类型定义)，用于定义XML文档的编写规则。如哪些元素可出现在文档中，及元素的内容和属性的要求等。应用程序会利用这个 DTD对文档进行检验，符合DTD约束规则的XML文档称之为有效文档，可以进行下一步处理，否则会报错，应用程序可捕获该错误进行相应的异常处理。检验过程是可选，这要视具体应用而定。

3.1. 文档类型声明

要使用DTD进行有效性检验，就要使用文档类型定义声明指定DTD。如：




  Jims
  [email protected]
  [email protected]

文档类型声明位于XML声明之后，根元素之前。如果dtd文档位于本机，可用路径名直接指出dtd文档的位置。portal.dtd的内容如下：

上面的内容也可直接写到XML文档内，这种dtd声明方式叫内部dtd子集，如：





]>

  Jims
  [email protected]
  [email protected]

如果dtd位于XML文档外，则叫外部dtd子集。我们可以结合内外dtd，共同组成一个dtd来为XML文档作验证。如：

]>

注意，使用内外dtd时，这两个dtd要互相兼容，不能有冲突。

3.2. 元素声明

上节文档类型声明中的每一项都是元素声明，定义了每个元素的约束。元素声明的格式为：

有效文档中使用的每个元素都必须在文档的DTD中用元素声明进行声明。element_name可是任何合法的XML名称，content_model(内容模型)指定元素可以或必须包含的子元素以及子元素的顺序。下面具体介绍内容模型的内容。

#PCDATA，规定元素只包含已析的字符数据。下面声明指出一个name元素可以包含文本，但不能划分为独立的area_code、number和extension元素：
子元素，可指明元素的子元素。下面声明表示name元素必须包含且只包含一个desc元素。
也可用逗号为分隔符，指明多个子元素。并且子元素出现的次序必须按定义时的顺序。如：
name元素的id子元素必须在desc子元素前面，否则验证会出错，该文档不是一个有效的XML文档。
```
下面这个文档是有效的

   1
   dtd test


下面这个文档是无效的，顺序颠倒了

   dtd test
   1


下面的文档也是无效的，有多余的元素

   1
   dtd test
   2005/01/31
```
子元素的个数，我们可通过正则表达式来规定子元素的个数。
- ?，允许零个或一个该元素
- *，允许零个或多个该元素
- +，允许一个或多个该元素
下面我们可利用这些符号规定id子元素必须出现，且只能出现一次，而desc子元素可选。
根据上面的声明，下面的name元素都是有效的。
```
   1
   dtd test



   2



   3
   dtd test
   another test
```
可选项(|)，选项是一个参数列表，每个参数间用“|”分隔，代表能且只能选一个子元素。
上例的choice元素可选一个good子元素，或bad子元素，且只能从选一个。可选的参数列可以多项，不限于两项。如：
小括号，可用小括号把选项括起来，以表达更丰富的意思，如我们想表示choice元素必须包含一个good子元素，并且必须包含ok子元素或bad子元素的一个。
混合内容，在一些文档中，一个元素可能既包含子元素，也包含字符串，这些内容叫混合内容。可用以下方式表示：
该声明表示description元素可包含已析的字符串和term子元素，且允许出现零次或多次，如：
```
this is a dtd test.
```
#PCDATA必须在第一位，可选的子元素可任意多项。
空元素，某些元素不用包含任何内容，称之为空元素。写成以/>结束的独立标签。
示例：
ANY，允许元素内包含任意内容。该选项在dtd测试时很有用，在生产系统中尽量不要使用。

3.3. 属性声明

一个有效的XML文档，必须对元素的属性进行声明。使用ATTLIST声明来完成，一个ATTLIST可以为一个元素类型声明多个属性。

上例声明image元素必须有一个src属性，该属性的值是字符数据。可用ATTLIST声明为一个元素声明多个属性，如：

上述声明指出src、width、height属性是必须的，alt属性是可选的。

-- 作者：lmxalqb -- 发布时间：2006-3-31 22:31:30 --

3.3.1. 属性类型

CDATA类型属性值可包含任意文本字符串。DTD不能指定属性为一个整数或一个日期，Schema能提供更为强大的数据类型。
NMTOKEN类型属性值是一个XML名称记号。XML名称记号与XML名称类似，但XML名称记号允许所有的字符作为名称的开始字符，而XML名称的第一个字母必须是字母、表意字符和下划线。因此10，.bashrc是合法的XML名称标记，但不是合法的XML名称。每个XML名称都是一个XML 名称标记，然而XML名称标记不全是XML名称。如果属性包含1990，2005之类的整数，则应该指定其类型为NMTOKEN。如：
NMTOKENS类型属性包含一个或多个用空白分隔的XML名称记号。如：
```
person
```
对应的声明应为：
另一方面，对01/02/2005这样的形式不能使用该声明，因为其中的正斜杠不是合法的名称字符。
枚举声明，枚举不用关键字。直接列举所有的值，中间用竖线分隔。如：
针对上述声明，date元素的month属性可选十二个月份的中一个。
ID类型的属性必须包含一个XML名称，而且该名称在文档中是独一无二的。ID属性可为元素分配一个唯一的标识符。
由于数字不是合法的XML名称，所以ID编号不能以数字开头，解决办法是在前面加下划线或字母。
IDREF类型的属性指向文档中某元素的ID类型的属性。因此，它必须是一个XML名称，它的作用是当简单的包含关系不能满足要求时在元素间建立多对多关系。如：
```
   deploy linux
   



   linuxsir
   
```
project元素的project_id属性和person元素的card_id属性应该是ID类型。team_member元素的 person_card_id属性和assignment元素的project_project_id属性是IDREF类型。对应的声明如下：
IDREFS类型的属性包含一个XML名称列表。名称间用空白间隔，且每个名称都是文档中某个元素的ID。当某个元素需要引用多个其他元素时使用该元素。如：
对应的文档可写成：
```
   deploy linux



   Linuxsir
```
ENTITY类型的属性包含在DTD的其它位置声明的未析实体的名称中。如movie元素可能有一个标识激活时播放mpeg或rm文件的实体属性：
如果DTD声明了一个名为play的未析实体，则此movie元素可用于在XML文档中嵌入视频文件：
ENTITIES类型的属性包含在DTD的其它位置声明的多个未析实体名称，其间用空白隔开。
如果DTD声明了未析实体slide1、slide2、slide3、...，则可使用slide_show元素在XML文档中嵌入幻灯片。
NOTATION类型的属性包含在文档的DTD中声明的某个记法的名称。该属性类型较少用。理论上，可以使用该属性使某些特殊元素与类型相关联，下例声明为不同的图像类型定义了4个记法，然后规定每个image元素都必须从中选择一种type属性。
每个image元素的type属性的值可以为gif，tiff，jpeg和png四个值中的一个。该属性比枚举类型稍具优势，因为记法的实际 MIME媒体类型在理论上是可用的。由于斜杠在XML名称中不是一个合法字符，所以枚举类型不能指定image/png或image/jpeg作为允许值。

3.3.2. 属性缺省值

每个ATTLIST声明除了要提供一种数据类型外，还要声明属性的缺省行为。

#IMPLIED，属性可选。
#REQUIRED，属性必须有。
#FIXED，属性是常量，不能更改。
```
 
```

Literal，作为一个引用字符串的实际缺省值。

如果没有显示指明person元素的name属性，则该值为linuxsir。

3.4. 实体

用ENTITY声明定义实体。如：
```
用&linux;可引用该字符串
```
可定义一个外部实体，引用外部XML文档
```
使用&linux;可引用/home/linux/test.xml文档
```
外部实体没有XML声明，但可以有文本声明，两者很类似，主要区别是文本声明必须有编码声明，而版本信息则是可选的。
```
    是一个合法的文本声明
                  也是一个合法的文本声明
```
不是所有的数据都是XML。如jpeg照片，mpeg电影等。XML建议使用外部未析实体作为在文档中嵌入这些内容的机制。DTD为包含非XML数据的实体指定一个名称和URI。
由于数据不是XML格式，所以使用NDATA声明指定数据类型。avi是在NOTATION中定义的MIME媒体类型。在XML中嵌入未析实体很复杂且不规范，尽量不要使用。
参数实体可定义一组通用的实体，在文档中可通过该参数实体来引用实体。参数实体的定义与通用实体定义类似，只是中间多了一个%，引用时也是用%代码&。
```
引用方法
%person;
这样会用name,address,postcode代替参数实体%person;
```
通常DTD都比较大，DocBook的DTD长达11000多行，如果把它存放在单一文件中，管理和维护起来都非常困难。我们可以使用外部DTD子集，把一个大的DTD按功能分成不同的功能块，存放在不同的文件中。再通过外部参数实体声明引入当前DTD中，如：
```
定义参数实体引用外部names.dtd

调用外部DTD子集
%names;
```
使用IGNORE关键字可注释声明，如:
```
]]>
```
当然了，使用的方式也是一样的。
INCLUDE关键字表示DTD中的确在使用给定的声明，如：
```
]]>
```
单从该声明来看，有没有使用INCLUDE效果都一样，但如果组合INCLUDE和IGNORE，可实现DTD功能的选择。我们可定义一个参数实体：
然后使用参数实体引用而不使用关键字：
```
]]>
```
按上述操作，元素声明是有效的，但我们也可以把参数实体%note_allowed重新定义为IGNORE，这样，该元素声明就无效了。

-- 作者：lmxalqb -- 发布时间：2006-3-31 22:31:49 --

Chapter 4. XML名称空间

XML名称空间表示XML名称的使用范围，因为XML可自定义元素标签，所以有不同XML应用间XML名称重名的机会是很大的。如果没有一种方法来区分不应用的名称，就会造成混乱。XML名称空间就是为了解决这个问题而设计的。通过XML名称空间，我们可以区分来自不同的XML应用的具有相同名称的元素和属性。可以将来自单一XML应用的相关元素和属性集合在一起，方便软件识别和处理。
名称空间由前缀和本地部分组成，中间用冒号分隔。前缀标识元素或属性的所在名称空间，本地部分标识名称空间中的某个元素或属性。整个名称也称为限定名称(qualified name)。前缀可以用除XML(大小写任意组合)三个字母外的任何合法的XML名称字符组成。每个限定名称中的前缀都必须与唯一的一个URI关联。带有相同URI关联的前缀的名称属于同一名称空间。
```
 
   example
   linuxsir
   ...
 
```
上例rdf:RDF元素的xmlns:rdf属性将前缀rdf绑定到名称空间http://www.w3.org/TR/REC-rdf-syntax#。属性xmlns:rdf为rdf:RDF元素及其子元素声明了前缀rdf。RDF处理器将把rdf:RDF和rdf:Description作为RDF元素，因为两个元素都具有与RDF规范定义的某个URI相绑定的前缀。处理器不会认为title，author等元素为RDF元素，因为它没有绑定到相同 URI的rdf前缀。

前缀一般在使用该前缀的最上层元素中定义。在下层元素中也可定义不同的前缀：
```
 
   example
   linuxsir
   ...
 
```
不带前缀的属性，如about，不属于任何的名称空间。如xlink:type和xlink:href属性属于xlink名称空间，当然，前提是你要先把xlink绑定到一个URI。URI不必须是一定存在的http链接，它只是一种表示的方法，以区分不同的名称空间。
通过将无前缀的xmlns属性附加到根元素中，可以指定不带前缀的元素及所有不带前缀的子元素属于某个名称空间。
这里，虽然所有元素都没有前缀，但它都同属一个名称空间。但属性属不同名称空间，因为默认名称空间只应用于元素。默认名称空间在子元素中也用相同的方法重新设置。
如果名称空间只用来识别来自某种XML应用的元素和属性，而不是用来区分具有相同名称的不同元素，则可在DTD的元素中定义一个固定的xmlns属性，而不需要文档中定义。定义方法如下：
在定义DTD时，需要使用名称空间前缀的在定义时也要把前缀写到DTD定义里，如：

使用参数实体引用来定义名称空间前缀可方便DTD文档的维护，如：

接着，利用该参数实体名称定义更多的参数实体引用，如：

这样，如果需更改前缀，只需修改一个地方就可以了，不用整篇文档修改。


	不能在ATTLIST和ELEMENT声明中直接使用%prefix;和%colon；，因为在另一个实体的外部使用这些参数实体时，XML解析器会在实体替换文本的两边添加额外的空格。

Chapter 5. XHTML

XHTML是W3C推荐的一种标准，它定义了一种与XML兼容的HTML版本。XHTML文档是一个有效的XML文档，所以编写格式比HTML严格。如果需从HTML文档转换成XHTML文档，需作以下更改：

在XHTML中不允许省略结束标签，所以需补齐缺少的标签。
元素需按正确的顺序嵌套。
所有元素和属性的名称都采用小写。
属性值需添加引号，如
。
所有属性都需有属性值。
采用&和<等的实体形式表示这些字符。
确保文档有单一根元素，最好用html。
像
这样的空元素要改成
或
。
注释应由的形式改成。
文档编码应采用UTF-8或UTF-16，或者添加XML声明指定文档的编码方式。
需去掉非标准的元素。如：marguee。
添加一个DOCTYPE声明，用PUBLIC来指向XHTML的三种DTD中的一种。分别是Strict、Transitional和Frameset，一般使用Strict。
- Strict(严格型)，W3C推荐的XHTML形式。不包括一些非标准的元素和属性，如applet和center等。声明方式如下：
- Transitional(过渡型)，一种不太严格的XHTML格式，可使用一些非标准的元素和属性，如applet和bgcolor等。声明方式如下：
- Frameset(框架型)，与过渡型DTD类似，允许使用与框架相关的元素，如frameset和iframe。声明方式如下：
文档的根元素必须具有xmlns属性，标识缺省的名称空间提http://www.w3.org/1999/xhtml。

下面是一个标准的XHTML文档的示例：





xhtml example


...

由HTML转到XHTML是一种枯燥而乏味的工作，现在有一种叫tidy的开源工具可帮我们完成大部份的工作，它是一个C程序，使用方法如下：

% tidy --output-xhtml yes test.html test.xml

XHTML 1.1把XHTML的三种DTD分成独立模块。我们可根据实际情况包含或省去某些模块。这些模块是：

Structure Module(结构模块)--->%xhtml-struct.module;，包含HTML文档主要的元素，如：html、head、title和body。
Text Module(文本模块)--->%xhtml-text.module;，包含文本的基本元素和其内联元素，如：h1、h2、...、strong、span等。
Hypertext Module(超链接模块)--->%xhtml-hypertext.module;，包含用于链接的元素，如：a元素。
List Module(列表模块)--->%xhtml-list.module;，包含用于列表的元素，如：dl、dt、dd、ul、ol和li。
Applet Module(applet模块)--->%xhtml-applet.module;，Java所需要元素，如：applet和param。
Presentation Module(表示模块)--->%xhtml-pres.module;，面向表示的标记：b、big、hr、I、small、sub、sup和tt。
Edit Module(编辑模块)--->%xhtml-edit.module;，用于修正的元素，如：del和ins。
Bidirectional Text Module(文本方向模块)--->%xhtml-bdo.module;，用于指定文本阅读的方向，如bdo元素。
Basic Forms Module(基本表单模块)--->%xhtml-basic-form.module;，用于HTML 3.2的表单元素，如：form、input、select、option和textarea。
Forms Module(表单模块)--->%xhtml-form.module;，用于HTML 4.0的表单元素，如：form、input、select、option、textarea、button、fieldset、label、 legend和optgroup。
Basic Tables Module(基本表格模块)--->%xhtml-basic-table.module;，基本的表格元素，如：table、caption、th、tr和td。
Table Module(表格模块)--->%xhtml-table.module;，安全功能的表格支持，如：table、caption、th、tr、td、col、colgroup、tbody、thead和tfoot。
Image Module(图像模块)--->%xhtml-image.module;，包含img元素。
Client-side Image Map Module(客户端图像映像模块)--->%xhtml-csismap.module;，包含map和area元素以及支持客户端图像映像所需要的元素的属性。
Server-side-Image Map Module(服务器端图像映像模块)--->%xhtml-ssismap.module;，该模块没有添加新元素，但对img元素添加了一个ismap属性。
Object Module(对象模块)--->%xhtml-object.module;，用于在网页中嵌入可执行内容，如：java程序。
Param Module(参数模块)--->%xhtml-param.module;，网页中可执行内容中传递参数的param元素。
Frames Module(框架模块)--->%xhtml-frames.module;，包含实现框架所需的元素，如：frame、frameset和noframes。
Iframe Module(内联框架模块)--->%xhtml-iframe.module;，包含内联框架的iframe元素。
Intrinsic Events(固有事件模块)--->%xhtml-events.module;，支持如onSubmit和onFocus等脚本的属性。
Meta-information Module(元信息模块)--->%xhtml-meta.module;，包含meta元素。
Scripting Module(脚本模块)--->%xhtml-script.module;，支持JavaScript等脚本。
Stylesheet Module(样式表模块)--->%xhtml-style.module;，用于定义CSS的style元素。
Link Module(链接模块)--->%xhtml-link.module;，指定外部文件，如样式表、库等关系的link元素。
Base Modue(基模块)--->%xhtml-base.module;，包含base元素，指定解析相对URL所参照的基URL。
Target Module(目标模块)--->%xhtml-target.module;，用于指定目标框架或框架中某个窗口的target属性。
Style Attribute Module(样式属性模块)--->%xhtml-inlstyle.module;，将CSS样式应用于文档中单个元素的style属性。
Name Identification Module(名称标识模块)--->%xhtml-nameident.module;，name属性是id属性的早期版本，现在不推荐使用。
Legacy Module(传统模块)--->%xhtml-legacy.module;，不推荐使用的元素和属性，如：basefont、center、fonts、strike和u元素。
Ruby Module(Ruby模块)--->%xhtml-ruby.module;，东亚文本中用于将少量文本放于正文文本旁边的ruby、rbc、rtc、rb、rt和rp元素，一般用来指示发音。

-- 作者：lmxalqb -- 发布时间：2006-3-31 22:32:22 --

样式表可帮我们解释XML文档中各元素的具体意思，所以通过样式表可直接在浏览器上显示XML文档。目前主要的样式表语言有：

CSS1(Cascading Stylesheets Level 1，层叠式样式表1)
CSS2(Cascading Stylesheets Level 2，层叠式样式表2)
XSLT(XSL Transformations 1.0 XSL 转换 1.0)

在XML文档在序言部分通过xml-stylesheet处理指令可指定关联的样式表。xml-stylesheet指令必须有一个href属性和 type属性。href指向样式表的URL，type指定样式表的MIME类型：对CSS为text/css，对于XSLT为text/xml或 application/xml。下面是一个简单的使用样式表的XML文档：

...

除以上两个必须的属性外，还有4种可选属性：

media，标识该样式应用于什么媒体，如报纸(paper)、计算机监视器(screen)、电视(tv)或所有(all)。
charset，指明样式表采用字符集编码方式，如：utf-8。
alternate，指明是否有可选的样式表，默认为no，表明是主样式表，如果为yes，则是备用样式表。
title，在有alternate的前提下，title用于指定不同样式表的标题。如：
```
       #默认的主样式表
```

样式表现在已成为Web应用中的一个关键技术，它的作用主要体现在以下三个方面：

设计一个样式表可以应用于多个文档。样式表可以存在于XML文档外，XML文档可通过链接使用样式表。这意味着如果你有几千个文档，都可以链接到同一个样式表中，改变一个样式表等于改变几千个文档的显示效果。
实现内容和表现的分离，增强文档的一致性和可维护性。通过单一的样式表，实现所有文档显示的一致。如果显示样式有变动，我们只需维护有限的几个样式表就可以了。
实现一个文档，多个样式。通过样式表，可把一篇文档以HTML形式、PDF形式或文本形式显示出来。

6.1. CSS2

CSS2是层叠样式表，它是一种排版技术，能让元素按特定的样式显示，如字体大小，颜色、布局等。在网页中有三种使用方法：

用
在元素中用style属性指定，如：
```
CSS测试
```
用LINK标记链接一个外部CSS文件，如：

按作用域来分，有三类的样式表，分别是网页解释器样式表、作者样式表和浏览者样式表。网页解释器样式表也叫默认的样式表，当没有另外的样式表加载时使用。作者样式表就是网页设计师设计的样式表。浏览者样式表是浏览网页的用户在浏览器上另外设置的样式表。

CSS的基本数据类型

integer，表示整数，可取正负值。如：12，-24。
number，表示数字，可取正负值和小数。如：12.1，-14.3。
lenght，表示距离长度，可取正负值和小数，后跟一个单位，如:12em，12cm。单位又分相对单位和绝对单位，相对单位有：em，ex，px。绝对单位有：in(英寸)，cm(公分)，mm(公厘)，pt(等于1/72英寸)，pc(等于12pt)。
percentage，表示百分比值，可取正负和小数。如：20%，-40%。
uri，表示网络资源。如：http://www.ringkee.com。

inherit参数值


应用字体样式
应用红色样式

类型选择符，与标记名一样，只作用已该标记上。如：


应用样式

子代选择符，HTML标记是可嵌套的，子代选择符可把样式表应用于子嵌套的子标记上，如：



没有应用样式
应用样式

子选择符，与子代选择符类似，但它只调用第一层子元素。如：



当b标记是div标记的子标记时应用红色样式
当em是p的子标记且p是div的子标记时应用绿色样式

邻近选择符，当两个元素位于同一层且在位置是前后关系时，可以使用邻近选择符。两个选择符用"+"号分开，如果A位于B之前，则B可应用样式。如：

没有应用样式

应用红色样式。

属性选择符，HTML标记有属性，我们可为特定的属性指定样式。有四种写法，分别是：

[属性]，样式只应用于指定的属性。
[属性=值]，样式只应用于指定的属性与值都相同的情况
[属性~=值]，样式只应用于指定的属性且属性值包含指定值的情况，属性值是用空格分隔的字符串。
[属性|=值]，样式只应用于指定的属性且属性值是的第一个字符串是指定值的情况，属性值是用"-"分隔的字符串。



应用红色样式
应用绿色样式

 
  应用蓝色样式

类选择符，与属性选择符类似，但它只指对class属性应用样式。类选择符用"."语法，如.value与[class~=value]是一样的。



应用红色样式

ID选择符，与属性选择符类似，但它只指对ID属性，用"#"语法。



应用红色样式

:first-child伪类，当标记是另一个标记的第一个子标记时，应用样式。

p是body的第一个子标记，应用红色样式

测试

p标记是body的第三个子标记，不应用红色样式

:link和:visited伪类只作用于a标记，在指定href属性的前提下，:link表示a标记还没被点击时的样式，:visited表示被当点后的样式。



链接没点击前是蓝色的，点击后是红色的

:hover，:active和:fouce伪类也只能作用于a标记，且也要指定href属性。:hover指定当用户把鼠标移到a标记上并且指针变成手型时应用的样式。:active指定点击a链接并放开鼠标时所显示的样式。:fouce指定用户点击a标记瞬间，即链接成为焦点时所显示的样式。:hover要放在:link和:visited之后，否则:hover的样式会覆盖:link和:visited的样式。



 应用样式

:left及:right伪类只作用于页面内容。当页面在左边时应用:left指定的样式，当页面在右边时应用:right指定的样式。

:first-line只对div和p标记不效，样式只应用于这两个标记内的第一行内容。




该元素内的第一行内容应用红色样式。

:first-letter伪类也只能作用于div和p标记，与:first-line不同的是它只作用于标记内的第一个字符。如果我们想要每一行的开头字符大一点就可使用该伪类。

这行文字开头第一个字符的大小是40pt

:before和:after伪类可在内容的前面或后面增加特定的内容或指定样式。

这行文字前后会增加一对括号，前括号为红色

这行文字前后会增加一对括号，后括号为绿色

层叠选择符是指当有多个选择符的样式都应用于同一个标记时的选择规则。该规则利用一个三位数来确定，数字最大的就可选中。这三位数的确定规则的这样的，如果选择符中有ID选择符，则百位数加1,否则为0。如果有属性选择符、类选择符或伪类选择符，则十位数加1，否则为0。如果有类型选择符，则个位数加1，否则为0。如果选择符是#div div，这三位数则是101。让我们分析一下，#div是ID选择符，所以在百位数上加1，div是类型选择符，所以个位数上加1变成101。"*"表示 0，优先级最低。

样式表的主要功能是指定同一个文件在不同媒体上按不同的样式显示。通过在种方式可指定不同媒体

@media方式



不同媒体显示不同颜色

@import是另一种指定不同媒体的方式，它可引入外部的css文档。它的语法格式是：
在HTML4.0中，可以用LINK标记的media属性为不同媒体类型指定样式表。

!important规则会改变应用样式的优先级，有!important参数样式的优先级最高，会优先显示。



字体为绿色

-- 作者：lmxalqb -- 发布时间：2006-3-31 22:32:33 --

6.2. XSLT

XSLT是XSL的一部份，它是XML的一种应用，指定将一篇XML文档转换成另一种XML文档的规则。XSLT文档即是一篇XML文档，也是一个样式表，里面包含一系列的模板。XSLT处理器对输入XML文档中的元素和样式表中的模板进行比较，如果匹配，则将该模板的内容写入一个输出树中。完成处理后，将输出树串行化成一篇XML文档或其它格式的文档，如HTML或者rtf。

XSLT几个关键术语

源树，原始文档中的元素和元素内容的树。
结果树，转换之后中文档中的元素和元素内容的树。
模板规则，XSLT样式表的基础，分为模式和模板两部份。整个xsl:template元素。
模式，表示源树中的元素与模式规则匹配的条件集合。xsl:template中的match的值。
模板，表示当应用模板规则时，结果树中要实例化的部份。xsl:template元素中的内容。

XSLT定义了35个元素，分为三类：

两个根元素

xsl:stylesheet根元素，XSLT也是一个XML文档，该文档的根元素就是xsl:stylesheet。XSLT元素都属于名称空间 xmlns:xsl="http://www.w3.org/1999/XSL/Transform"，所以所有的XSLT元素都有xsl前缀。一个最小化XSLT文档：
xsl:transform元素，作用同上。

13个顶级元素，可直接作为根元素的子元素，包括：

xsl:apply-imports
xsl:attribute-set
xsl:decimal-format
xsl:import
xsl:include
xsl:key
xsl:namespace-alias
xsl:output
xsl:param
xsl:preserve-space
xsl:strip-space
xsl:template模板元素，用于匹配XML文档中的元素。如：，匹配XML文档中的person元素。
xsl:variable

20个指令元素

xsl:apply-imports
xsl:apply-template应用模板元素，用于显示指定的元素值(内容)。如：，显示name元素的值。
xsl:attribute
xsl:call-template
xsl:choose
xsl:comment
xsl:copy
xsl:copy-of
xsl:element
xsl:fallback
xsl:for-each
xsl:if
xsl:message
xsl:number
xsl:otherwise
xsl:processing-instruction
xsl:text
xsl:value-of选择元素，用于计算元素的值(内容)。如：，获得XML文档中name元素的值(内容)。
xsl:variable
xsl:when

XSLT函数

6.3. XPath

XPath是一种用来从文档树中选择节点和节点集的语言。从XPath的角度来看，共有七种节点：

根节点
元素节点
属性节点
文本节点
注释节点
处理指令节点
名称空间节点

CDATA部份，实体引用和文档类型声明不包括在内，XPath在所有这些项都并入文档之后才起作用。根节点和根元素是不同的两个概念，根节点包含整篇文档，包括根元素。

-- 作者：lmxalqb -- 发布时间：2006-3-31 22:32:53 --

6.3.4. XPath表达式

位置路径是XPath的一个最常用的表达式，用以标识XML文档的节点集。除此之上，XPath表达式还可返回数字、布尔和字符串。非节点集的 XPath表达式不能用于xsl:template元素的match属性中。它们用于xsl:value-of元素的select属性值或用于位置路径的谓词中。

每个XPath位置路径可分为一步名多步，每步以“/”号分隔，如：

room[//@name=$root]/date[year=$year and month=$month]/meeting

上下文节点即当前正在处理的节点，也就是位置路径定位的当前节点。上下文在XPath表达式计算前被创建，由XSLT处理器创建。处理每一步后，上下文都会改变。

位置路径中的步可分为三部份：轴(axis)、节点测试(note test)和谓词(predicate)，它的写法如下：

axis::note-test[predicate]

轴和节点测试之间用“::”分开，每个谓词由括号［］括起来。

要设计好一个位置路径，需确保在每一步选择最少的节点，使用最严格的轴，用最严格的节点测试。避免使用谓词，因为由轴和节点测试选择的节点集的每个节点都会用作谓词的上下文节点。对于位置路径的三步，最节省的是节点测试。

XPath中的所有数字都是8个字节的IEEE754浮点双精度类型，与java的double类型相同。可表示正无穷大、负无穷大和NaN(零除零)值。支持五种运算符，分别是加(+)、减(-)、乘(*)、除(div)、取余(mod)。

XPath中的字符串是Unicode字符，用单引号或双引号定界。可以使用=和!=对字符进行比较，也可用<，>，<=，>关系运算符，但比较的两个字符必须是数字，否则比较结果没有意义。

XPath中的布尔值常用于位置路径的谓词中，如/person[name="debian"]。布尔值还常用于xsl:if和xsl:when元素的test属性中。如：

6.3.5. XPath函数

XPath还提供很多函数，用于表达式和谓词。XPath函数的返回值有四种类型，分别是：

布尔值，如：true()返回ture(真)，false()返回false(假)，not()对布尔值取反。
数字，如：number()把任意类型转化数字，celing()返回大于或等于参数的最小整数。
节点集，如：position()返回当有节点在上下节点列表中的位置，count()可统计节点数。
字符串，如：string()转化任意类型为字符串，string-length()返回字符串长度。

6.4. XLink

XLink是一种基于属性的语法，用来在XML文档中添加链接。XLink链接可以是单向的，如HTML中的A元素，它也可以是双向的，在两个方向上链接两篇文档，因此能够从A到B或从B到A。每个XLink元素必须具有一个xlink:type属性，指出连接类型。属性xlink:href指向所链接的资源URI。下面是一个简单链接的示例：


Jims
2005/02/18

xlink:type属性类型共有六种，分别是：simple，extended，locator，arc，title，resource。

xlink:show属性可告诉浏览器或应用程序在激活链接时应该做什么，它有五种可能的动作，分别是：

new，在新窗口中显示链接内容。
replace，在当前窗口显示链接内容。
embed，在当前链接元素的位置嵌入内容。
other，动作不确定，由应用程序指定。
none，无动作。

xlink:actuate属性可告诉浏览器何时显示链接，它有四种可能值：

onLoad，一旦发现链接，马上显示。
onRequest，当用户提出请求时才显示。
other，由文档中的其它标记，而不是xlink，来决定何时显示。
none，不指定。

一个和HTML中的A元素作用一样的示例：


Jims
2005/02/18

一个在页面嵌入图像的示例：

xlink:actuate和xlink:show是可选的。

xlink:title和xlink:role属性可指定资源之间的描述，xlink:title包含少量描述远程资源的文本，xlink:role包含URI，指向资源的较长描述。

-- 作者：lmxalqb -- 发布时间：2006-3-31 22:33:07 --

分析XML文档可通过程序来做，分析器有两大类，一种是事件驱动的，一种是基于树模型的。

使用事件驱动的分析器时，每遇到一个元素就会触发一个事件，由事件处理器进行处理。事件分析器按顺序读取XML文档，而不把整个文档读入内存，所以处理速度很快。但缺点是由于要从头到尾读取XML文档，因此无法在XML文档中移动位置。事件驱动分析器适合处理其它地方使用的XML数据，如转换成 HTML文档或从文件中读取数据并插入数据库中。它的优点有：

文件搜索，从XML文档中搜索需要的标志或数据；
格式转换，如转换成HTML。任何需将原始XML转换成另一种格式的工作都最好使用事件驱动分析器来完成，因为它可动态将信息转换成新格式。
少量修改，你可用事件驱动分析器读取和重新生成XML。在分析过程中，可以改变少量的单语、字符数据内容或重新构造XML。事件驱动分析器特别适合整理和重新格式化XML文档。
简单验证，由于整个文档不在内存中，所以无法进行完整验证，但可检查拼写错误和一般良构XML文档之类的简单问题；
建立内部结构，可以使用事件驱动分析器建立XML文档的复杂内部表示，如基于树的接口使用的树式结构。


	事件驱动分析器不能在XML文档间交叉引用文档内容，但它使用简单，速度快。

基于树的分析器把整个XML文档读入内存，并生成树状结构。分析器可随机访问树中的任意节点，并能修改树结构和内容。

7.1. 分析器工具

现有的分析器种类有上百种，但常用的是两个标准的工具库，一个是XML简单API(SAX，Simple API for XML)和文档对象模型(DOC，Document Object Model)。SAX是事件驱动分析器的标准，而DOM是基于树的分析器标准。另外，Expat虽然不是标准，但它是脚本语言中处理XML时最常用的分析器。Expat由James Clark编写，是事件驱动分析器。

7.2. Unicode

计算机并不能正真理解文本内容，它无法识别诸如a,b,c这类的字母，更不用说中文了。计算机所能理解的只有数字，如60，80等。字符集 (character set)规定了字母到数字的映射关系，如65代表大写字母A。65称为码点(code point)，字符编码(character encoding)决定码点如何用字节表示。是用多了节还是单字节，高字节位表示什么，低字节位表示什么。

不同国家使用不同的语言，不同程序使用不同的编码规范，在进行世界范围内的数据交换就要统一表示数据的字符编码规范。传统的ASCII字符集只定义了127个字符，其中前31个是控制符。127位之后的字符随平台不同而不同。大多数平台只能表示前127位，单字节(8位)，使得字符集中最多只能提供 256个字符。这些标准字符称为罗马或拉丁字符集，用ASCII来表示中文、日文是远远不够的。

为了解决字符集问题，出现了Unicode字符集。它可用多字节格式编码字符，目前标准允许2字节字符，支持65536个不同字符。标准的Unicode字符集为Latin-1(或ISO-8859-1)。有关Unicode的介绍可访问Unicode的官方网站：http://www.unicode.org

Unicode字符集为字符分配码点，即编号。这些编号可以用多种模式编码，如UCS-2、UCS-4、UTF-8、UTF-16。

UCS-2，也叫ISO-10646-UCS-2。每个字符用一个0~65535之间的两个字节的无符号整数表示。如A的Unicode码点为 65，用两个字节00和41(十六进制)表示。B的Unicode码点为66，用两个字节00和42表示。UCS-2有两种形式：高字节(#x0041) 在前和低字节(#x4100)在前。为区发高低位不同表示形式，采用UCS-2编码文档通常以Unicode字符#xFEFF(零宽度无间断空格)开头，一般称为字节顺序标记(byte order mark)。这个字符是不可见的。如果两个字节交换位置，得到的字符#xFFFE实际是不存在的。因此中通过查看UCS-2文档的前两个字符是#xFEFF还是#xFFFE，就可确定该文档是否是高字节在前。UCS-2的缺点：如果文本字符主要是拉丁文，由于采用两个字节，字符集编码是单字节字符编码的两倍；UCS-2不能与ASCII向前或向后兼容，用于单字节字符集的工具常常不适用于处理UCS-2编码文件。
UTF-8是一种可这长度的Unicode编码。0~127为ASCII码字符集，与ASCII编码完全兼容，每个字符采用一个字节编码。UTF- 8用两个字节表示128~2047，该范围覆盖了最常见的非表意字母。其余的字符，主要来自汉语、日语和韩语，每个都用3个字节表示。如果Unicode 的码点超过65535个字符，那么这些字符就会用4个字节编码。对于以拉丁文为主的文件，使用UTF-8比UCS-2可减少一半的文件大小。对于汉语、日语和韩语的文件，其大小会增加百分之五十。对于其它语言，文件大小相差不大。UTF-8是最常用的Unicode编码方式。

在Unicode流行以前，出现了一系列处理特定语言的单字节字符集，ISO将14种这样的字符集标准化成ISO 8859标准，分别是ISO-8859-1~14。ISO-8859-15是ISO-8859-1的修订版本。这些字符集统称ISO字符集。

Cp1252是依赖于Windows平台的一种编码，是Windows的缺省字符集。该种编码不支持跨平台特性，尽量不要使用。

MacRoman是Mac OS使用的一种非标准、单字节编码。在非Mac平台下使用也会有问题，尽量不要使用。

在XML文档中，如果需输入编辑器不支持的字符，我们可用字符引用的方式，以十进制或十六进制给出它所代表的Unicode字符编号，如њ(十进制)或者њ(十六进制)。字符引用可用于元素内容、属性和注释，不能用于元素名和属性名、处理指令或 XML关键字。如果有一些字符需经常使用，则我们可为这些字符定义实体，这样，在文档中就可方便地引用该实体了。专门定义字符实体的DTD我们可独立出来，形成以.ent为后缀的外部DTD。在需要时使用外部参数实体引用将这些定义引入文档的DTD中。

XHTML 1.0 DTD包含有三个有用的字符引用实体可在文档中使用。

Latin-1字符，http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent

ISO-8859-1中自160以上的非ASCII码字符。
特殊字符，http://www.w3.org/TR/xhtml/DTD/xhtml-special.ent

ISO-8859-2中不在Latin-1中的字母。
标点符号，http://www.w3.org/TR/xhtml-symbol.ent

希腊字母表(不包含带重音的字符)和各种标点符号、数学运算符及其他数学中常用的符号。

在XML文档中可以使用xml:lang属性规定元素内容采用的语言。这样就可在一篇文档中同时使用多种语言，这是XML跨平台和跨语言的重要特性之一。如：xml:lang="CN-CHN"。语言代码是一个两个字母的语言代码，语言代码后还可跟一个子代码，语言代码可在这里找到http://ftp.ics.uci.edu/pub/ietf/http/related/iso3166.txt。下面是xml:lang属性声明的示例：

原文地址 http://ctitv.net/dispbbs.asp?boardid=165&id=4648

你可能感兴趣的:(XML学习笔记（学习XML语言必读）)

【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model 机器白学论文翻译 ocr 论文阅读论文翻译
论文原文链接：https://arxiv.org/abs/2409.01704特别声明，本文不做任何商业用途，仅作为个人学习相关论文的翻译记录。本文对原文内容直译，一切以论文原文内容为准，对原文作者表示最大的敬意。如有任何侵权请联系我下架相关文章。目录通用OCR理论：通过统一的端到端模型迈向OCR-2.00摘要1引言2相关工作2.1传统OCR2.2基于LVLM的OCR3通用OCR理论3.1框架3.
深度学习(1) 浅忆へ梦微凉深度学习人工智能深度学习学习方法 python
一、torch的安装基于直接设备情况，选择合适的torch版本，有显卡的建议安装GPU版本，可以通过nvidia-smi命令来查看显卡驱动的版本，在官网中根据cuda版本，选择合适的版本号，下面是安装示例代码GPU：pipinstalltorch==2.5.0torchvision==0.20.0torchaudio==2.5.0--index-urlhttps://download.pytorc
提升数据科学工作流效率的10个Jupyter Notebook高级特性
JupyterNotebooks已成为数据科学家、机器学习工程师和Python开发人员的核心开发工具。其核心优势在于提供了一个集成式环境，支持代码执行、文本编辑和数据可视化的无缝整合。尽管大多数用户熟悉其基本功能，但许多能显著提升工作效率的高级特性往往被忽视。本文将介绍一些高级功能，帮助您在数据科学项目中充分发挥JupyterNotebooks的潜力。1、Magic命令：高效的命令行接口Jupyt
Go 语言的slice是如何扩容的? go
Go语言中的slice是一种灵活、动态的视图，是对底层数组的抽象。当对slice进行追加元素等操作导致其长度超过容量时，就会发生扩容。一、扩容的基本原理当slice需要扩容时，Go语言会根据当前的容量来确定新的容量。一般来说，新的容量通常是原容量的2倍。例如，如果一个slice的容量是10，那么在扩容后，新的容量会变成20。这种扩容策略使得slice的容量能够快速增长，以满足不断添加元素的需求。但
Python 数据建模完整流程指南木觞清 3天入门Python python 开发语言
在数据科学和机器学习中，建模是一个至关重要的过程。通过有效的数据建模，我们能够从原始数据中提取有用的洞察，并为预测或分类任务提供支持。在本篇博客中，我们将通过Python展示数据建模的完整流程，包括数据准备、建模、评估和优化等步骤。1.导入必要的库在进行任何数据分析或建模之前，首先需要导入必需的Python库。这些库提供了各种工具和算法，帮助我们更高效地完成任务。importnumpyasnpim
整理一下一些Qt/C++第三方库 MayZork qt 开发语言 c++
boost一个广泛的C++库集合，提供了大量的功能模块，包括但不限于数据结构、算法、并发编程、网络编程、文件系统、正则表达式、序列化等。poco也是一个广泛的C++库集合，提供了一套丰富的功能模块，包含网络通信、HTTP、文件系统、XML、JSON、数据库等。libevent轻量级的C语言库，主要用于异步网络编程。它提供了对I/O复用的支持，使得开发者可以在单线程中同时处理多个连接。QCustom
HiveMetaException: Unknown version specified for initialization: 3.1.0（或者其他版本号）一品_人生 mysql hive 大数据
遇到这个问题，也是很难发现的，查阅很多文章，乱七八糟，也可能是遇到的问题不相同吧，我们从以下两个方面去排查吧1.检查你的hive-site.xml和hive-env.sh，配置对就行，这个网上一大片，注意要正确。2.那就是你解压的hive压缩文件，然后发现要安装mysql，这时你会先检查你本地有没有mysql，使用find/-namemysql（罪源），然后你就一通删除，你没有发现你删除了一个hi
Linux 系统性能调优周盛欢 linux 运维服务器
嘿，朋友们，今天咱们来唠唠Linux系统性能调优这事儿。你是不是觉得这听起来特高大上、特复杂？别担心，我保证用最简单的语言，让你这个0基础的小伙伴也能轻松入门。一、为啥要调优Linux性能想象一下，你的电脑突然变卡了，打开个软件都得等半天，是不是特别闹心？Linux系统也一样，用着用着可能会因为各种原因变慢。比如，服务器上用户越来越多，要是不调优，系统就可能扛不住，影响大家正常用。所以，性能调优就
文心一言 vs gpt-4 全面横向比较周盛欢文心一言
文心一言是中国百度公司研发的大规模语言模型，它有超多的参数，就像一个超级大脑，特别擅长理解并生成中文内容。在聊天啊、写文章啊、答题这些任务上表现不错，对中国文化和国情有更深的理解和适应能力。GPT-3.5是OpenAI公司的上一代大模型，比GPT-3更智能一些。而GPT-4作为其升级版，大家预计它会有更大的模型参数量，更强的学习和推理能力，可能会在各种语言任务上实现更大突破。所以，如果拿文心一言跟
深度学习常用格式转化脚本xml2yolo/coco2yolo/bdd2yolo/frame2video等 qq1309399183 计算机视觉实战项目集合深度学习人工智能格式转化脚本 voc2yolo格式转化数据集格式转换 xml2yolo coco2yolo
文章目录1.**数据集格式转换脚本**`coco2yolo.py`示例注释：注释说明：`xml2yolo.py`示例注释：注释说明：2.**数据集可视化与统计**`vis_yolo_files.py`示例注释：注释说明：3.**其他工具脚本**`frames2video.py`示例注释：注释说明：该项目提供了一系列用于深度学习的数据处理工具，主要功能包括：数据集格式转换：提供多种脚本，将不同格式的
LLMs，即大型语言模型 maopig AI 语言模型人工智能自然语言处理
LLMs，即大型语言模型，是一类基于深度学习的人工智能模型，它们通过海量的数据和大量的计算资源进行训练，可以理解和生成自然语言。LLMs的核心架构是Transformer，其关键在于自注意力机制，使得模型能够同时对输入的所有位置进行“关注”，从而更好地捕捉长距离的语义依赖关系。LLMs在众多领域都有广泛的应用，如自然语言理解（NLU），语言生成，以及语音识别和合成等。例如，它们能够理解人类的语言
随机森林分类算法原理与实验分析 ningaiiii 机器学习与深度学习随机森林分类算法
随机森林分类算法原理与实验分析1.引言随机森林（RandomForest）是一种集成学习方法，它通过构建多个决策树并结合它们的预测结果来进行分类。你可以把它想象成一个“团队决策”的过程：团队中的每个成员（决策树）都独立发表意见，最后通过投票决定最终结果。这种方法不仅提高了模型的准确性，还增强了模型的稳定性和鲁棒性。随机森林的主要特点是通过随机选择样本和特征来构建多个决策树，从而避免单棵决策树可能产
【MySQL】JDBC的连接 m0_74823388 mysql 数据库
目录一.具体操作如下1.注册驱动二.实操JDBC（JavaDataBaseConnectivity）java数据库连接，是JavaEE平台下的技术规范，其定义了在Java语言中连接数据，执行SQL语句的标准，可以为多种关系数据库提供统一访问。一.具体操作如下1.注册驱动Class.forName("com.mysql.cj.jdbc.Driver");2.获取连接DriverManager(驱动管
【论文速读】| 利用大语言模型在灰盒模糊测试中生成初始种子云起无垠论文速读/精读语言模型 p2p 人工智能
基本信息论文标题:HarnessingLargeLanguageModelsforSeedGenerationinGreyb0xFuzzing作者:WenxuanShi,YunhangZhang,XinyuXing,JunXu作者单位:NorthwesternUniversity,UniversityofUtah关键词:Greyb0xfuzzing,LargeLanguageModels,Seed
第79期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.TrojanWhi
第60期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能语言模型网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.映射你的模型：评估
【LLM】大语言模型（LLMs）林九生人工智能语言模型人工智能自然语言处理
大型语言模型（LLMs）1.什么是大型语言模型？大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练，学习语言的语法、语义和各种语言特征，从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理：1.1定义大型语言模型是由大量参数组成的神经网络，这些参数通过在
全新 Hopper 架构的Transformer 引擎有什么特点？扫地的小何尚人工智能
Transformer引擎是全新Hopper架构的一部分，将显著提升AI性能和功能，并助力在几天或几小时内训练大型模型。Transformer模型是当今广泛使用的语言模型（例如asBERT和GPT-3）的支柱。Transformer模型最初针对自然语言处理用例而开发，但因其通用性，现在逐步应用于计算机视觉、药物研发等领域。与此同时，模型大小不断呈指数级增长，现在已达到数万亿个参数。由于计算量巨大，
Apache PDFBox添加maven依赖,pdf转成图片 iteye_10392 网站设计 apache maven pdf
要使用ApachePDFBox将PDF文件转换为图片，并将其添加到Maven项目中，您可以按照以下步骤操作：1.添加Maven依赖在您的pom.xml文件中添加ApachePDFBox的依赖。请确保使用最新版本的PDFBox库。截至2025年，以下是推荐的配置：org.apache.pdfboxpdfbox2.0.27org.apache.pdfboxfontbox2.0.27请检查MavenCe
JODConverter引入maven依赖 iteye_10392 网站设计 maven java
JODConverter是一个基于LibreOffice的Java库，它允许你在Java应用程序中转换办公文档格式。为了使用JODConverter并通过Maven管理依赖，你需要在pom.xml文件中添加适当的依赖项和仓库（如果需要）。请注意，JODConverter本身并不直接处理文件转换，而是通过与LibreOffice的交互来完成这一任务。截至我所知的信息（2025年1月4日），以下是引入
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
chatgpt赋能python：Python：免费下载音乐的神器 atest166 ChatGpt python chatgpt 开发语言计算机
Python：免费下载音乐的神器Python是一种优秀的编程语言，在各个领域都有广泛的应用。如果你是一个音乐爱好者，那么Python可以帮助你轻松免费下载你喜欢的音乐。介绍在过去，许多网站和应用程序提供免费下载音乐的服务，但现在这些服务已经不复存在。然而，Python可以帮助你免费下载音乐，并且速度非常快。Python有许多库可以帮助你从网上下载免费音乐。其中，最著名的库是"youtube_dl"
《AI语言模型的关键技术探析：系统提示、评估方法与提示工程》 XianxinMao 人工智能语言模型自然语言处理
文章主要内容摘要1.系统提示(SystemPrompt)定义:用于设置模型行为、角色和工作方式的特殊指令重要性:定义模型行为边界影响输出质量和一致性可将通用模型定制为特定领域助手挑战:技术集成复杂兼容性问题效果难以精确预测2.模型评估方法创新方向:自一致性(Self-Consistency)评估PlanSearch方法强化学习(RL)应用核心特点:多次采样和交叉验证策略空间探索动态权重调整实践价值
《多模态语言模型：一个开放探索的技术新领域》 XianxinMao 语言模型人工智能算法
核心主题多模态语言模型的特点仍处于探索和定义阶段没有固定的标准任务和评估方法研究方向高度开放技术路径主要存在两种方法：后期融合(LateFusion)从语言模型backbone开始添加图像编码器效果稳定，成本可控早期融合(EarlyFusion)从多模态数据集预训练效果尚不明显需要更大规模计算资源开放和透明的重要性促进知识累积和技术迭代降低技术准入门槛避免技术垄断便于安全性审计主要挑战技术层面数据
node笔记05——Nodejs学习之Express中间件与接口的编写，GET和POST接口的编写和案例演示。 noahsark747 学习中间件前端
认识expressexpress是基于Node.js平台的web开发框架作用和Node.js内置的http模块类似，是专门用来创建Web服务器的。本质上Express就是一个npm的第三方包提供了快速创建Web服务器的便捷方法。中文官网：expressjs.com.cnexpress的作用：快速方便的创建Web网站服务器和API接口服务器express的基本使用一、下载express包npmiex
Kotlin函数类型探索：T.()-＞Unit的扩展函数、无参函数()-＞Unit与类型参数函数(T)-＞Unit 真想骂* kotlin python 前端
在Kotlin编程语言的丰富特性中，函数类型扮演着至关重要的角色。它们不仅定义了代码的行为，还通过灵活的类型系统促进了代码的重用和模块化。本文将深入探讨Kotlin中的三种核心函数类型：T.()->Unit的扩展函数、无参函数()->Unit以及类型参数函数(T)->Unit，揭示它们的独特之处及在编程实践中的应用。一、T.()->Unit：扩展函数的魅力扩展函数是Kotlin的一项强大特性，它允
1.4走向不同：GPT 与 BERT 的选择——两大NLP模型的深度解析少林码僧 AI大模型应用实战专栏自然语言处理 gpt bert
走向不同：GPT与BERT的选择——两大NLP模型的深度解析在自然语言处理（NLP）领域，GPT（GenerativePretrainedTransformer）和BERT（BidirectionalEncoderRepresentationsfromTransformers）无疑是最具代表性和影响力的两个模型。它们都基于Transformer架构，但在设计理念、任务应用和训练方式等方面存在显著差
1.8 GPT-4：开创人工智能的新纪元少林码僧 AI大模型应用实战专栏人工智能
GPT-4：开创人工智能的新纪元自从OpenAI推出GPT-4以来，人工智能领域经历了显著的突破。作为“生成预训练转换器”家族中的最新成员，GPT-4不仅在功能上进行了提升，更在语言处理能力、理解深度以及适应性方面带来了全新的变革。本篇文章将深入探讨GPT-4的特点、创新以及它如何定义未来人工智能技术的发展。GPT-4的技术亮点1.规模与深度的进一步提升GPT-4的规模比前代模型更大，训练数据量和
JavaWeb开发 - Filter过滤器详解秦老师Q JavaWeb基础 java web java-ee
前言本章节主要学习JavaWeb开发中的Filter过滤器技术，收录于JavaWeb基础专栏，该专栏主要学习JavaWeb开发原生框架、Servlet、JSP、请求对象、响应对象、Session会话对象、Filter过滤器、三层开发模型等知识点，欢迎童鞋们互相交流。觉得不错可以三连订阅喔。目标1.概念2.Filter介绍3.入门案例4.验证登录案例4.1登录代码4.2过滤器验证内容1.概念Filt
第83期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.混乱中建立秩序：人
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s