vipwangjun

使用 EPUB 制作数字图书

摘要: 是否需要分发文档、创建电子图书或者把喜欢的博客文章存档？EPUB 是一种开放式的数字图书规范，以常用的技术如 XML、CSS 和 XHTML 为基础，EPUB 文件可在便携式的 e-ink 设备、移动电话和桌面计算机上阅读。本教程详细阐述了 EPUB 格式，首先用 Java™ 技术示范了 EPUB 验证，然后详细说明如何使用 DocBook 和 Python 自动创建 EPUB。

开始之前

本教程讲述如何创建 EPUB 格式的电子图书。EPUB 是一种基于 XML 的、对开发者友好的格式，正逐渐成为数字图书的事实标准。但 EPUB 不仅可用于图书，还包括：

对文档打包以便离线阅读或者分发
打包博客文章或者其他 Web 内容
使用常见的开放源代码工具创建、搜索和整理

关于本教程

常用的缩写词

API：应用程序编程接口（application programming interface）
CSS：级联样式表（Cascading stylesheet）
DOM：文档对象模型（Document Object Model）
DTD：文档类型定义（Document type definition）
GUI：图形用户界面（Graphical user interface）
HTML：超文本标记语言（Hypertext Markup Language）
SAX：XML 简易 API（Simple API For XML）
W3C：万维网联盟（World Wide Web Consortium）
XHTML：可扩展的 HTML（Extensible HTML）
XML：可扩展标记语言

本教程首先手工创建一个 EPUB 图书，帮助您了解其构成和需要的文件。然后说明如何捆绑完成的数字图书，按照规范进行验证以及在不同的阅读系统上测试。

然后讨论如何从 DocBook XML 生成 EPUB — 最常用的技术文档标准之一 — 以及如何使用 Python 实现从 DocBook 到 EPUB 的自动创建。

目标

通过本教程可以学习如下内容：

了解 EPUB 是什么，谁支持它，谁采用它
了解 EPUB 包的结构，包括需要的文件及其模式
如何从头创建一个内容简单而有效的 EPUB 文件
使用开放源代码工具从 DocBook 生成 EPUB 文件，DocBook 是一种常见的技术文档和图书模式
使用 Python 和 DocBook 自动转换成 EPUB

先决条件

本教程对操作系统没有特殊要求，但是应该熟悉创建文件和目录的机制。建议使用 XML 编辑器或者集成开发环境（IDE）。

对于本教程后半部分的 EPUB 创建自动化内容，需要读者了解基本的 XML 处理技巧 — XSLT、 DOM 或者基于 SAX 的解析 — 并熟悉使用 XML 原生 API 构造 XML 文档。

阅读本教程不需要熟悉 EPUB 文件格式。

系统需求

尝试本教程中的例子，需要一个 Java 解释器（1.5 或更高版本）和 Python 解释器（2.4 或更高版本）以及相应的 XML 库。不过，有经验的 XML 开发人员很容易将这些例子修改为适合任何编程语言和 XML 库。

回页首

关于 EPUB 格式

了解 EPUB 的背景，EPUB 最适合做什么，以及 EPUB 和便携式文档格式（PDF）的区别。

什么是 EPUB？

EPUB 是可逆的数字图书和出版物 XML 格式，数字出版业商业和标准协会 International Digital Publishing Forum (IDPF) 制定的标准。IDPF 于 2007 年 10 月正式采用 EPUB，随后被主流出版商迅速采用。可以使用各种开放源代码或者商业软件在所有主流操作系统、Sony PRS 之类的 e-ink 设备或者 Apple iPhone 之类的小型设备上阅读 EPUB 格式。

谁在使用 EPUB？只能用于图书吗？

虽然最早采用 EPUB 的是传统的印刷品出版商，但是这并不妨碍它在电子图书中的应用。利用免费的软件工具，可以将网页捆绑成 EPUB，转化成文本文件或者将原有的 DocBook XML 文档转化成结构良好的、有效的 EPUB（后一点将在从 DocBook 到 EPUB 一节讨论）。

EPUB 与 PDF 有什么不同？

PDF 仍然是世界上应用最广泛的电子文档格式。从图书出版商的角度来看，PDF 的优点包括：

PDF 文件允许对页面布局进行像素级的控制，包括复杂的打印格式，如多栏格式和奇偶页相间的格式。
有多种不同的 GUI 文档工具可生成 PDF，如 Microsoft® Office Word 和 Adobe® InDesign®。
PDF 阅读器非常普及，现在大多数计算机上都有安装。
PDF 可以嵌入特殊的字体，精确控制最终的输出结果。

三合一的标准

EPUB 包括三个单独的 IDPF 规范，虽然实际上将其统称为 EPUB 更保险：

Open eBook Publication Structure Container Format (OCF)：定义了 EPUB 档案的目录树结构和文件结构（ZIP）。
Open Publication Structure (OPS)：定义了电子图书的公共词汇表，特别是可作为图书内容的格式（比如 XHTML 和 CSS）。
Open Packaging Format (OPF)：描述了 EPUB 必须的和可选的元数据、阅读顺序和目录。

此外，对于档案中的特定类型的内容，EPUB 还重用了其他一些标准，如 XHTML 1.0 和 Digital Accessible Information SYstem (DAISY)。

从软件开发人员的角度来看，PDF 还远远不够理想：

这不是一种简单易学的标准，因此编写自己的 PDF 生成代码非常困难。
虽然 PDF 现在是一种 International Organization for Standardization（ISO）标准（ISO 32000-1:2008），但过去一直受一家公司的控制：Adobe Systems。
尽管多数编程语言都提供了 PDF 库，但很多是商业产品或者嵌入到 GUI 应用程序中，外部进程不容易控制。并非所有的免费库都得到积极的维护。
PDF 原生文本可以通过程序提取出来并进行搜索，但很少可以对 PDF 进行标记以便简单可靠地转化成 Web 友好的格式。
PDF 文档不容易流动，就是说很难适应小屏幕或者对布局进行明显的改变。

为何说 EPUB 对开发人员是友好的

EPUB 解决了 PDF 和开发人员友好性有关的所有瑕疵。一个 EPUB 就是一个简单 ZIP 格式文件（使用 .epub 扩展名），其中包括按照预先定义的方式排列的文件。如何制作 ZIP 文档有一些技巧，稍后将在将 EPUB 文件捆绑为 ZIP 文档一节介绍。除此以外，EPUB 非常简单：

EPUB 中的所有内容基本上都是 XML。EPUB 文件可使用标准 XML 工具创建，不需要任何专门或者私有的软件。
EPUB 内容（eBook 的具体内容）基本上都是 XHTML 1.1（另一种格式是 DTBook，为视力受限者编码书籍的一种标准。关于 DTBook 的更多信息请参阅参考资料，本教程中不涉及这部分）。
大多数 EPUB XML 模式都来自现成的、可免费获得的、已发布的规范。

最关键的在于 EPUB 元数据是 XML，EPUB 内容是 XHTML。如果您的文档构建系统产生的结果用于 Web 和/或基于 XML，那么也可用于生成 EPUB。

回页首

创建第一个 EPUB

最小的 EPUB 包至少要包含几个文件。规范对于 EPUB 包中这些文件的格式、内容和位置要求可能很严格。这一节讨论使用 EPUB 标准必须了解的基础知识。

解剖 EPUB 包

小型 EPUB 文件的基本结构遵循清单 1 所示的样式。准备好分发之前，整个目录结构被压缩到一个 ZIP 格式文件中，几点特殊要求将在用 ZIP 打包 EPUB 文件一节讨论。

清单 1. 简单 EPUB 档案的目录和文件结构

mimetype
META-INF/
   container.xml
OEBPS/
  content.opf
  title.html
  content.html
  stylesheet.css
  toc.ncx
  images/
     cover.png

提示：可下载符合该结构的一个电子图书，但建议按照本教程的说明自己创建一个。

编写 EPUB 图书之前首先创建 EPUB 项目的目录。打开文本编辑器或者 Eclipse 之类的 IDE。建议采用支持 XML 的编辑器 — 具体而言就是能够根据参考资料给出的 Relax NG 模式进行验证。

mimetype 文件

这个文件非常简单，必须命名为 mimetype，文件内容如下：

application/epub+zip

要注意，mimetype 文件不能包含新行或者回车。

此外，mimetype 文件必须作为 ZIP 档案中的第一个文件，而且自身不能压缩。用 ZIP 打包 EPUB 文件一节将介绍如何使用一般的 ZIP 参数将其包含进来。现在创建该文件并保存，并确保它在 EPUB 项目的根目录中。

META-INF/container.xml

EPUB 根目录下必须包含 META-INF 目录，而且其中要有一个文件 container.xml。EPUB 阅读系统首先查看该文件，它指向数字图书元数据的位置。

创建目录 META-INF。在其中创建一个新文件 container.xml。container 文件非常小，但是对结构要求很严格。将清单 2 中的代码粘贴到 META-INF/container.xml 中。

清单 2. container.xml 文件

xml version="1.0"?>
<container version="1.0" xmlns="urn:oasis:names:tc:opendocument:xmlns:container">
  <rootfiles>
    <rootfile full-path="OEBPS/content.opf"
     media-type="application/oebps-package+xml" />
  rootfiles>
container>

full-path（粗体）的值仅仅是该文件的一部分，不同的文件可能相差甚大。目录路径必须相对于 EPUB 文件根目录本身，而不是 META-INF 目录。

关于 META-INF

META-INF 目录还可以包含其他几个文件。这些文件使 EPUB 支持数字签名、加密和数字版权管理（DRM）。本教程不讨论这些主题。更多信息请参阅 OCF 规范。

mimetype 和 container 是 EPUB 档案中仅有的两个需要严格限制位置的文件。建议（尽管不是必须的）将其他文件保存到 EPUB 的子目录下（按照惯例，通常被称为 OEBPS，即 Open eBook Publication Structure，但不是必须的）。

接下来在 EPUB 项目中创建目录 OEBPS。本教程下一节将介绍 OEBPS 中的文件 — 数字图书的核心：元数据和页面。

打开 Packaging Format 元数据文件

尽管该文件名没有特殊要求，但通常被称为 content.opf。它指定了图书中所有内容的位置，如文本和图像等其他媒体。它还给出了另一个元数据文件，内容的 Navigation Center eXtended (NCX) 表。

该 OPF 文件是 EPUB 规范中最复杂的元数据。创建 OEBPS/content.opf 并粘贴清单 3 所示的内容。

清单 3. 包含示例元数据的 OPF content 文件

xml version='1.0' encoding='utf-8'?>
<package xmlns="http://www.idpf.org/2007/opf" 
            xmlns:dc="http://purl.org/dc/elements/1.1/" 
            unique-identifier="bookid" version="2.0">
  <metadata>
    <dc:title>Hello World: My First EPUBdc:title>
    <dc:creator>My Namedc:creator>
    <dc:identifier id="bookid">urn:uuid:12345dc:identifier>
    <meta name="cover" content="cover-image" />
  metadata>
  <manifest>
    <item id="ncx" href="toc.ncx" media-type="text/xml"/>
    <item id="cover" href="title.html" media-type="application/xhtml+xml"/>
    <item id="content" href="content.html" media-type="application/xhtml+xml"/>
    <item id="cover-image" href="images/cover.png" media-type="image/png"/>
    <item id="css" href="stylesheet.css" media-type="text/css"/>
  manifest>
  <spine toc="ncx">
    <itemref idref="cover" linear="no"/>
    <itemref idref="content"/>
  spine>
  <guide>
    <reference href="cover.html" type="cover" title="Cover"/>
  guide>
package>

OPF 模式与名称空间

OPF 文档本身必须使用名称空间 http://www.idpf.org/2007/opf，元数据则使用 Dublin Core Metadata Initiative (DCMI) 名称空间http://purl.org/dc/elements/1.1/。

最好现在将 OPF 和 DCMI 模式添加到 XML 编辑器中。EPUB 用到的所有模式都可以下载。

元数据

Dublin Core 定义了一组常用的元数据，可用于描述各种不同的数字资料，它不是 EPUB 规范的一部分。所有这些术语都可以出现在 OPF 元数据部分。编写要分发的 EPUB 时，这里可以放很多内容，目前来说清单 4 的内容就足够了。

清单 4. OPF 元数据摘要

...
<metadata>
  <dc:title>Hello World: My First EPUBdc:title>
  <dc:creator>My Namedc:creator>
  <dc:identifier id="bookid">urn:uuid:12345</dc:identifier>
  <meta name="cover" content="cover-image" />
metadata>
...

有两个术语是必须的，即 title 和 identifier。按照 EPUB 规范，标识符必须是惟一的，但是这个惟一的值要靠数字图书的创建者来定义。对于图书出版商来说，这个字段一般包含 ISBN 或者 Library of Congress 编号。对于其他 EPUB 创建者，可以考虑使用 URL 或者很大的随机生成的惟一用户 ID（UUID）。要注意，属性 unique-identifier 的值必须和 dc:identifier 元素的 ID 属性匹配。

其他和内容相关的可以考虑添加的元数据包括：

语言（如 dc:language）。
出版日期（如 dc:date）。
出版商（如 dc:publisher）。（可以是公司或个人的名称）。
版权信息（如 dc:rights）。（如果采用 Creative Commons 许可证，可以将许可证的 URL 放在这里）。

关于 DCMI 的更多信息请参阅参考资料。

EPUB 规范没有要求包含 name 属性值为 cover 的 meta 元素，但为了增加封面和图像的可移植性，建议这样做。一些 EPUB 呈现程序喜欢使用图像文件作为封面，另一些则愿意使用包含内联封面图像的 XHTML 文件。该例子显示了这两种情况。meta 元素的 content 属性的值应该是图书封面图像在 manifest 中的 ID 号，manifest 是 OPF 文件的一部分。

Manifest

OPF manifest 列出了 EPUB 内容（不包括元数据）中的所有资源。就是说，通常是组成电子图书文本的一组 XHTML 文件再加上一些相关的媒体如图像。EPUB 鼓励使用 CSS 设定图书内容的样式，因此 manifest 中也包含 CSS。进入数字图书的所有文件都必须在 manifest 中列出。

清单 5 显示了 manifest 的一部分。

清单 5. OPF manifest 的一部分

...

  "ncx" href="toc.ncx" media-type="text/xml"/>
  "cover" href="title.html" media-type="application/xhtml+xml"/>
  "content" href="content.html" media-type="application/xhtml+xml"/>
  "cover-image" href="images/cover.png" media-type="image/png"/>
  "css" href="stylesheet.css" media-type="text/css"/>

...

高级 OPF manifest

更高级的 manifest 文件可能包含多个 XHTML 文件以及图像和 CSS。可下载一个完整的包含各种常见类型的 EPUB 例子。

第一项 toc.ncx（参见下一节）是必须的。所有的项都有相应的 media-type 值，XHTML 内容的媒体类型为 application/xhtml+xml。媒体类型必须正确，不能是 text/html或者其他类型。

EPUB 支持四种核心图像文件类型：Joint Photographic Experts Group (JPEG)、Portable Network Graphics (PNG)、Graphics Interchange Format (GIF) 和 Scalable Vector Graphics (SVG)。如果能够提供对核心类型的后退转换（fall-back），也可包含不支持的文件类型。关于后退转换内容的更多信息请参阅 OPF 规范。

href 属性的值应该是一个相对于该 OPF 文件 的统一资源标识符（URI）。（很容易和 container.xml 中对 OPF 文件的引用混淆，其中的引用是相对于 EPUB 的整体引用）。这里的 OPF 文件位于和内容相同的 OEBPS 目录中，因此不需要路径信息。

Spine

manifest 告诉 EPUB 阅读器哪些文件属于档案，spine 则指定这些文件出现的顺序或 — 按照 EPUB 的说法 — 数字图书的线性阅读顺序。可以将 OPF spine 看作是书中 “页面” 的顺序。按照文档顺序从上到下依次读取 spine。清单 6 显示了 OPF 文件的一个片段。

清单 6. OPF spine 的一部分

...
<spine toc="ncx">
  <itemref idref="cover" linear="no"/>
  <itemref idref="content"/>
spine>
...

每个 itemref 元素都需要有一个 idref 属性，并且和 manifest 中的某个 ID 匹配。toc 属性也是必需的。它引用 manifest 中表示内容 NCX 表文件名的 ID。

spine 中的 linear 属性表明该项是作为线性阅读顺序中的一项，还是和先后次序无关。建议将封面定义为 linear=no。符合 EPUB 规范的阅读系统将首先打开 spine 中没有设置为 linear=no 中的第一项。

Guide

OPF 内容文件的最后一部分是 guide。这一节是可选的，但最好保留。清单 7 显示了 guide 文件的部分内容。

清单 7. OPF guide 的一部分

...
<guide>
  <reference href="cover.html" type="cover" title="Cover"/>
guide>
...

guide 可以为 EPUB 阅读系统提供语义信息。manifest 定义了 EPUB 中的物理资源，spine 提供了这些资源的顺序信息，guide 负责解释这些部分的含义。下面是可以出现在 OPF guide 中的部分值：

cover： 图书封面
title-page： 包含作者和出版商信息的页面
toc：目录

完整的列表请参阅 OPF 2.0 规范（参见参考资料）。

内容的 NCX 表

NCX 和 OPF 元数据的交叉

由于 NCX 源自其他标准，使用 NCX 编码的信息和 OPF 内容之间存在重复。如果通过程序生成 EPUB，这算不上什么问题，因为同样的代码可输出到两个文件中。两个位置的信息要一致，不同的 EPUB 读者可能使用不同位置的值。

尽管 OCF 文件是作为 EPUB 本身的一部分定义的，但最后一个主要的元数据文件参照了不同的数字图书标准。DAISY 是一个专门为不能使用传统书籍的读者设计数据格式的组织，通常是因为视力受损或者不便于使用印刷的书籍。EPUB 借用了 DAISY 的 NCX DTD。NCX 定义了数字图书的目录表。复杂的图书中，目录表通常采用层次结构，包括嵌套的内容、章和节。

使用 XML 编辑器创建 OEBPS/toc.ncx 并粘贴清单 8 所示的代码。

清单 8. 简单的 NCX 文件

xml version='1.0' encoding='utf-8'?>

<ncx xmlns="http://www.daisy.org/z3986/2005/ncx/" version="2005-1">
  <head>
    <meta name="dtb:uid" content="urn:uuid:12345"/>
    <meta name="dtb:depth" content="1"/>
    <meta name="dtb:totalPageCount" content="0"/>
    <meta name="dtb:maxPageNumber" content="0"/>
  head>
  <docTitle>
    <text>Hello World: My First EPUBtext>
  docTitle>
  <navMap>
    <navPoint id="navpoint-1" playOrder="1">
      <navLabel>
        <text>Book covertext>
      navLabel>
      <content src="title.html"/>
    navPoint>
    <navPoint id="navpoint-2" playOrder="2">
      <navLabel>
        <text>Contentstext>
      navLabel>
      <content src="content.html"/>
    navPoint>
  navMap>
ncx>

NCX 元数据

DTD 要求 NCX 标记中包含四个 meta 元素：

uid： 数字图书的惟一 ID。该元素应该和 OPF 文件中的 dc:identifier 对应。
depth：反映目录表中层次的深度。该例只有一层，因此是 1。
totalPageCount 和 maxPageNumber：仅用于纸质图书，保留 0 即可。

docTitle/text 的内容是图书的标题，和 OPF 中的 dc:title 匹配。

NCX navMap

NCX 和 OPF spine 有什么不同？

两者很容易混淆，因为两个文件都描述了文档的顺序和内容。要说明两者的区别，最简单的办法就是拿印刷书来打比方：OPF spine 描述了书中的各个章节是如何实际连接起来的，比方说翻过第一章的最后一页就看到第二章的第一页。NCX 在图书的一开始描述了目录。目录肯定会包含书中主要的章节，但是还可能包含没有单独分页的小节。

一条法则是 NCX 包含的 navPoint 元素通常比 OPF spine 中的 itemref 元素多。实际上，spine 中的所有项都会出现在 NCX 中，但 NCX 可能更详细。

navMap 是 NCX 文件中最重要的部分，定义了图书的目录。navMap 包含一个或多个navPoint 元素。每个 navPoint 都要包含下列元素：

playOrder 属性，说明文档的阅读顺序。和 OPF spine 中 itemref 元素的顺序相同。
navLabel/text 元素，给出该章节的标题。通常是章的标题或者数字，如 “第一章”，或者 — 像这个例子一样 — “封面”。
content 元素，它的 src 属性指向包含这些内容的物理资源。就是 OPF manifest 中声明的文件（也可使用片段标识符引用 XHTML 内容中的锚元素 — 比如content.html#footnote1）。
还可以有一个或多个 navPoint 元素。NCX 使用嵌套的导航点表示层次结构的文档。

该文档的结构非常简单：只有两页，不存在嵌套关系。就是说有两个 navPoint 元素，它们的 playOrder 值按升序排列，从 1 开始。在 NCX 中可以命名这些章节，以便读者跳到电子图书不同的部分。

添加最后的内容

现在知道了 EPUB 需要的所有元数据，可以加入真正的图书内容了。可以使用下载的内容，也可以自己写，只要文件名和元数据匹配即可。

然后创建下列文件和文件夹：

title.html：图书的标题页。创建该文件并在其中包含引用封面图片的 img 元素，src 的属性值为 images/cover.png。
images：在 OEBPS 下创建该文件夹，然后复制给定的示例图片（或者创建自己的图片）并命名为 cover.png。
content.html：图书的实际文字内容。
stylesheet.css：将该文件放在和 XHTML 文件相同的 OEBPS 目录中。该文件可以包含任意 CSS 声明，比如设置字体或者文字颜色。清单 10 给出了一个 CSS 文件的例子。

EPUB 图书中的 XHTML 和 CSS

清单 9 包含了一个有效的 EPUB 内容页。将其作为标题页（title.html），用一个类似的页面作为主要内容页（content.html）。

清单 9. 示例 title 页面（title.html）

<html xmlns="http://www.w3.org/1999/xhtml">
  <head>
    <title>Hello World: My First EPUBtitle>
    <link type="text/css" rel="stylesheet" href="stylesheet.css" />
  head>
  <body>
    <h1>Hello World: My First EPUBh1>
    <div><img src="images/cover.png" alt="Title page"/>div>
  body>
html>

EPUB 的 XHTML 需要符合几条要求，和一般的 Web 开发不同：

内容必须是有效的 XHTML 1.1：XHTML 1.0 Strict 和 XHTML 1.1 的主要区别是去掉了 name 属性（使用 ID 引用锚元素）。
img 元素只能引用电子图书的本地图片：该元素不能引用 Web 上的图片。
避免使用 script：EPUB 阅读器不一定支持 JavaScript 代码。

EPUB 支持 CSS 的方式有一些细微的差别，但是不会影响样式表的一般用法（详情参阅 OPS 规范）。清单 10 中的简单 CSS 文件可以设置基本的字体，并把标题设为红色。

清单 10. 电子图书的示例样式表（stylesheet.css）

body {
  font-family: sans-serif;     
}
h1,h2,h3,h4 {
  font-family: serif;     
  color: red;
}

有趣的是，EPUB 非常支持 CSS 2 @font-face 规则，允许内嵌字体。如果创建技术文档，这点可能无关紧要，但是如果用多种语言或针对特定领域编写 EPUB，能够指定具体的字体数据就很有必要了。

现在已经准备好了创建 EPUB 图书所需的所有内容。下一节将按照 OCF 规范将图书装订起来，并看看如何进行验证。

回页首

打包和检查 EPUB

现在，应当可以对 EPUB 包进行打包。这个包可以是您自己创建的一本新书，也可使用从本文下载部分获得的原始文件。

用 ZIP 打包 EPUB 文件

EPUB 规范的 OEBPS Container Format 讨论了 EPUB 和 ZIP，最重要的几点是：

档案中的第一个文件必须是 mimetype 文件（参见本教程 Mimetype 一节）。mimetype 文件不能被压缩。这样非 ZIP 工具就能从 EPUB 包的第 30 个字节开始读取原始字节，从而发现 mimetype。
ZIP 档案不能加密。EPUB 支持加密，但不是在 ZIP 文件这一层上。

在类 UNIX® 操作系统上，使用 ZIP 2.3 可通过两个命令来创建 EPUB ZIP 文件，如清单 11 所示（这些命令假设当前工作目录为 EPUB 项目。）

清单 11. 将 EPUB 打包成有效的 epub+zip 文件

$ zip -0Xq  my-book.epub mimetype
$ zip -Xr9Dq my-book.epub *

第一个命令创建了一个新的 ZIP 档案，并添加了没有进行压缩的 mimetype 文件。第二个命令添加其他内容。选项 -X 和 -D 最大限度地减少 .zip 文件中无关紧要的信息；-r 递归地包含 META-INF 和 OEBPS 目录的内容。

EPUB 验证

虽然 EPUB 标准并不很难，但其 XML 文件必须符合特定的模式。如果使用模式感知的 XML 编辑器生成元数据和 XHTML，就能事半功倍。对 EpubCheck 包进行最后检查（参见参考资料）。

Adobe 负责维护 EpubCheck 包，它是采用 Berkeley Software Distribution (BSD) 许可证的开源项目。它是一个可以作为独立工具、Web 应用程序运行的 Java 程序，或者可以将它集成到在 Java Runtime Environment (JRE) 1.5 或更高版本下运行的应用程序中。

在命令行中运行非常简单。清单 12 给出了一个例子。

清单 12. 运行 EpubCheck 工具程序

$ java -jar /path/to/epubcheck.jar my-book.epub

如果没有创建辅助文件或者元数据文件出错，可能会看到清单 13 所示的错误消息。

清单 13. EpubCheck 错误

my-book.epub: image file OEBPS/images/cover.png is missing
my-book.epub: resource OEBPS/stylesheet.css is missing
my-book.epub/OEBPS/title.html(7): 'OEBPS/images/cover.png': 
     referenced resource missing in the package

Check finished with warnings or errors!

这时候可能需要设置 CLASSPATH 使它指向 EpubCheck 的安装位置，因为确实需要导入几个外部库。如果得到这样的消息则需要设置 CLASSPATH：

org.xml.sax.SAXParseException: no implementation available for schema language 
   with namespace URI "http://www.ascc.net/xml/schematron"

如果验证成功，就会看到 “No errors or warnings detected（没有检测到错误或警告）”。祝贺您完成了第一个 EPUB！

查看 EPUB

测试不仅仅是验证，还要保证书的外观看起来不错。样式表能正确工作吗？章节的逻辑顺序是否正确？书中是否包含了所有需要的内容？

有多重 EPUB 阅读器可供选择。图 1 显示了 Adobe Digital Editions (ADE) 的屏幕截图，这是最常用的 EPUB 阅读器。

图 1. ADE 中显示的 EPUB

字体颜色和图像都显示出来了，不错。ADE 未能用 sans-serif 字体正确地显示标题，不过这可能是 CSS 的问题。这时候最好换一个阅读器试试。图 2 是用我自己编写的、开放源代码的、基于 Web 的 EPUB 阅读器 Bookworm 显示的同一本书。

图 2. 在 Bookworm 中显示 EPUB

这里的问题在于 ADE 不支持这种特殊声明。如果数字图书的格式非常重要，那么就必须了解不同阅读软件的特点。

前面我们费了很大力气手工创建了一个简单的 EPUB，现在看看如何将一种常见的 XML 文档 DocBook 转换成 EPUB。

回页首

从 DocBook 到 EPUB

DocBook 是需要维护大型技术文档的开发人员常用的选择。与传统字处理程序生成的文件不同，可以使用基于文本的版本控制系统管理 DocBook 输出。由于 DocBook 是 XML，很容易将其转换成不同输出格式。2008 年夏天出现了正式的 DocBook XSL 项目，将 EPUB 作为一种输出格式。

使用 XSLT 运行 DocBook-to-EPUB 管道

从一个简单 DocBook 文档开始，如清单 14 所示。该文档的类型为 book，包括前言、两个章节以及标题页面中内联显示的图像。图像和 DocBook 源文件的目录相同。可以自己创建该文件和标题页，也可下载本文提供的例子。

清单 14. 简单的 DocBook 图书

"1.0" encoding="utf-8"?`>  

  
    <span class="hljs-type"><span class="hljs-type">My</span></span> <span class="hljs-type"><span class="hljs-type">EPUB</span></span> book
    Liza
            Daly
    1234
  
  "preface">  
    <span class="hljs-type"><span class="hljs-type">Title</span></span> page
    "cover-image">
      <span class="hljs-type"><span class="hljs-type">Our</span></span> <span class="hljs-type"><span class="hljs-type">EPUB</span></span> cover image icon
      "cover.png"/>
    
  
  "chapter1"> 
    <span class="hljs-type"><span class="hljs-type">This</span></span> <span class="hljs-keyword"><span class="hljs-keyword">is</span></span> a pretty simple <span class="hljs-type"><span class="hljs-type">DocBook</span></span> example
    
      Not much to see here. 
    
  
  "end-notes"> 
    <span class="hljs-type"><span class="hljs-type">End</span></span> notes
    
      This space intentionally left blank.

然后从参考资料下载最新版本的 DocBook XSL 样式表，并安装 xsltproc 或 Saxon 之类的 XSLT 处理程序。本文使用 xsltproc，大多数类 UNIX 系统上都能找到。转换 DocBook 文件，只需要用 DocBook XSL 中包含的 EPUB 模块运行该文件即可，如清单 15 所示。

清单 15. 将 DocBook 转化成 EPUB

$ xsltproc /path/to/docbook-xsl-1.74.0/epub/docbook.xsl docbook.xml
Writing OEBPS/bk01-toc.html for book
Writing OEBPS/pr01.html for preface(preface)
Writing OEBPS/ch01.html for chapter(chapter1)
Writing OEBPS/ch02.html for chapter(end-notes)
Writing OEBPS/index.html for book
Writing OEBPS/toc.ncx
Writing OEBPS/content.opf
Writing META-INF/container.xml

定制 DocBook XSL

DocBook-to-EPUB 转换管道仍然比较新，可能需要定制 XSLT 以得到需要的结果。

然后添加 mimetype 文件并建立 epub+zip 档案。清单 16 显示了这三个命令和通过 EpubCheck 验证程序的结果。

清单 16. 从 DocBook 创建 EPUB 档案

$ echo "application/epub+zip" > mimetype
$ zip -0Xq  my-book.epub mimetype
$ zip -Xr9D my-book.epub *
$ java -jar epubcheck.jar my-book.epub 
No errors or warnings detected

太简单了！图 3 显示了 ADE 中的结果。

图 3. ADE 显示了从 DocBook 转化得到的 EPUB

利用 Python 和 lxml 实现 DocBook-to-EPUB 转换自动化

DocBook XSL 大大降低了生成 EPUB 的复杂性，但是在 XSLT 之外还有几个步骤要执行。最后一节给出的 Python 示例程序能够生成有效的 EPUB 包。本教程显示了不同的方法，可下载完整的 docbook2epub.py 程序。

可使用不同的 Python XSLT 库，我喜欢 lxml。它不但提供了 XSLT 1.0 必要的功能，而且解析效率高，完全支持 XPath 1.0，提供了专门处理 HTML 的扩展。如果喜欢不同的库或者使用 Python 以外的编程语言，修改这些例子也很简单。

用 lxml 调用 DocBook XSL

使用 lxml 调用 XSLT 的最有效办法是事先解析 XSLT，然后创建反复使用的转换器。这样很方便，因为我的 DocBook-to-EPUB 需要转换多个 DocBook 文件。如清单 17 所示。

清单 17. 使用 lxml 运行 DocBook XSL

import os.path
from lxml import etree

def convert_docbook(docbook_file):
    docbook_xsl = os.path.abspath('docbook-xsl/epub/docbook.xsl')
    # Give the XSLT processor the ability to create new directories
    xslt_ac = etree.XSLTAccessControl(read_file=True, 
                                      write_file=True, 
                                      create_dir=True, 
                                      read_network=True, 
                                      write_network=False)
    transform = etree.XSLT(etree.parse(docbook_xsl), access_control=xslt_ac)
    transform(etree.parse(docbook_file))

DocBook XSL 中的 EPUB 模块创建输出文件本身，因此转换过程什么也不返回。相反，DocBook 在当前工作目录中创建了两个文件夹（META-INF 和 OEBPS），包含转换的结果。

将图片和其他资源复制到档案中

DocBook XSL 不会对文档中使用的任何图片执行操作，仅仅创建元数据文件和要呈现的 XHTML。由于 EPUB 规范要求 content.opf manifest 列出所有资源，可以预料到 manifest 将寻找原始 DocBook 文件引用的任何图片。清单 18 显示了这种技术，其中假定 path 变量包含 DocBook XSLT 生成的、当前所处理的 EPUB 的路径。

清单 18. 解析 OPF 内容文件以寻找缺失的资源

import os.path, shutil
from lxml import etree

def find_resources(path='/path/to/our/epub/directory'):
    opf = etree.parse(os.path.join(path, 'OEBPS', 'content.opf'))

    # All the opf:item elements are resources
    for item in opf.xpath('//opf:item', 
                          namespaces= { 'opf': 'http://www.idpf.org/2007/opf' }):

        # If the resource was not already created by DocBook XSL itself, 
        # copy it into the OEBPS folder
        href = item.attrib['href']
        referenced_file = os.path.join(path, 'OEBPS', href):
        if not os.path.exists(referenced_file):
            shutil.copy(href, os.path.join(path, 'OEBPS'))

自动创建 mimetype

DocBook XSL 不会创建 mimetype 文件，不过清单 19 中所示的代码可以完成这项任务。

清单 19. 创建 mimetype 文件

def create_mimetype(path='/path/to/our/epub/directory'):
    f = '%s/%s' % (path, 'mimetype')
    f = open(f, 'w')
    # Be careful not to add a newline here
    f.write('application/epub+zip')
    f.close()

用 Python 创建 EPUB 包

现在只需要将文件打包成有效的 EPUB ZIP 包。需要分两步：将未经压缩的 mimetype 文件作为第一个文件加进去，然后添加其他目录。如清单 20 所示。

清单 20. 使用 Python zipfile 模块创建 EPUB 包

import zipfile, os

def create_archive(path='/path/to/our/epub/directory'):
    '''Create the ZIP archive.  The mimetype must be the first file in the archive 
    and it must not be compressed.'''

    epub_name = '%s.epub' % os.path.basename(path)

    # The EPUB must contain the META-INF and mimetype files at the root, so 
    # we'll create the archive in the working directory first and move it later
    os.chdir(path)    

    # Open a new zipfile for writing
    epub = zipfile.ZipFile(epub_name, 'w')

    # Add the mimetype file first and set it to be uncompressed
    epub.write(MIMETYPE, compress_type=zipfile.ZIP_STORED)
    
    # For the remaining paths in the EPUB, add all of their files
    # using normal ZIP compression
    for p in os.listdir('.'):
        for f in os.listdir(p):
            epub.write(os.path.join(p, f)), compress_type=zipfile.ZIP_DEFLATED)
    epub.close()

好了！切记要进行验证。

回页首

结束语

上一节中的 Python 脚本仅仅是充分实现 EPUB 转换自动化的第一步。为了简化起见，没有涉及一些常见的情况，比如任意嵌套的路径、样式表或者内嵌字体。Ruby 爱好者可以看看 DocBook XSL 分发包中所含的 dbtoepub，方法与此类似。

因为 EPUB 还是一种比较年轻的格式，很多有效的转换方法还等待人们去创造。所幸的是，多数结构化标记，如 reStructuredText 或 Markdown 都已经存在生成 HTML 或者 XHTML 的渠道了；稍加修改来生成 EPUB 应该非常容易，尤其是有了本文所示的 DocBook-to-EPUB Python 或 Ruby 脚本这些例子以后。

因为 EPUB 基本上就是 ZIP 和 XHTML，与其使用 .zip 文件，没有理由不使用 EPUB 来分发文档。拥有 EPUB 阅读器的读者可从传统元数据和自动目录表收益，没有阅读器的读者也可将其作为一般 ZIP 文件并在浏览器中查看 XHTML 内容。考虑将 EPUB 生成的代码添加到各类文档系统中，如 Javadoc 或 Perldoc。EPUB 是为具有图书长度的文档设计的，因此非常适合越来越多的在线或者渐进式编程图书。

回页首

下载

描述	名字	大小
本教程中用于构建 EPUB 的资源	epub-raw-files.zip	8KB
EPUB 工具的 DocBook1	docbook-to-epub.zip	7KB

注意：

该 .zip 文件包含教程中的 DocBook XML 示例文件和完整的 docbook2epub.py 脚本。lxml 和 DocBook XSL 必须单独下载，相关链接参见参考资料。

参考资料

学习

您可以参阅本文在 developerWorks 全球网站上的英文原文。
完整的 EPUB 规范：可通过 IDFP 网站阅读该规范，包括 Open Publication Structure (OPS)、Open Packaging Format (OPF) 和 OEBPS Container Format (OCF)。
XHTML 1.1 和 DAISY：如果需要进一步了解 EPUB 的内容格式，请参阅 XHTML 1.1 规范（目前是 W3C 工作草案）和 Digital Talking Book（DTBook）规范 DAISY。
利用 EPUB 文件格式的不同模式在 XML 编辑器中自动验证 EPUB：
- NCX DTD（转化为 Relax NG）
- OPF 2.0（Relax NG）
- OCF 1.0（Relax NG）
Dublin Core Metadata：如果需要详细了解 Dublin Core 元数据，请参阅 DCMI Terms 文档和用法指南。
developerWorks 技术活动和网络广播：跟踪最新的技术进展。
XML 技术库：developerWorks XML 专区提供了大量技术文章和技巧、教程、标准和 IBM 红皮书。
技术书店：关于本教程所述主题和其他技术话题的图书。
IBM XML 认证：了解如何才能成为一名 IBM 认证的 XML 及相关技术的开发人员。
developerWorks podcasts：聆听面向软件开发人员的有趣访谈和讨论。

获得产品和技术

EpubCheck：Adobe EpubCheck 是创建 EPUB 的非常棒的工具。下载后可作为独立应用程序、Web 应用程序或库（需要 Java 1.5 或更高版本）运行。
DocBook XSL：下载将 DocBook 转化为 EPUB 的样式表的最新版本。这个 DocBook XSL 包还包括生成完整 EPUB 档案的 Ruby 脚本，与本教程所述 Python 脚本类似。
lxml：如果没有安装的话请安装 lxml，它是功能最齐全的 Python XML 库。关于 lxml 的更多信息请参阅作者的另一篇文章使用用 Python 编写的 lxml 实现高性能 XML 解析（Liza Daly，developerWorks，2008 年 10 月）。
Adobe Digital Editions 和 Bookworm：为了测试 EPUB，最接近规范的电子图书阅读器是 ADE，这是一个跨平台的桌面应用程序；还有作者编写的基于 Web 的电子图书阅读器 Bookwork，它使用了 EPUB 呈现所用的浏览器。
IBM 试用软件：使用这些试用软件开发您的下一个项目，可直接从 developerWorks 下载，包括 DB2®、Lotus®, Rational®、Tivoli® 和 WebSphere® 提供的应用程序开发工具和中间件产品。

讨论

XML 专区讨论论坛：参与和 XML 有关的讨论。
developerWorks XML 专区：分享您的观点：阅读完本文后请把您的建议和意见发表在该论坛上。XML 专区的编辑主持这个论坛，欢迎您的参与。
developerWorks 博客：请访问 developerWorks 博客，加入 developerWorks 社区。

原文地址：https://www.ibm.com/developerworks/cn/xml/tutorials/x-epubtut/

你可能感兴趣的:(java,DocBook,XSL,opf,ncx,epub,电子书)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，