PartA Introduction, Background, Fundamentals:

Suzanne Briet (1894–1989) is recognized for her pioneer role in laying the foundations of modern information science. In her manifesto titled Qu’est-ce que la documentation? (“What is documentation?”), she defines a document as evidence in support of a fact; a physical or symbolic sign, preserved or recorded, for representing, reconstructing or demonstrating a physical or a conceptual phenomenon. Thus, a document documents something, it is a representation serving as evidence for some purpose. We can also say that the information it provides is presented in such a way that the producer of the document becomes able to convey this information to its users/readers, in an intelligible way. This again means that producer and reader use shared representation rules for the information.

苏珊娜(1894—1989)奠定现代信息科学基础上的先驱角色。在她题为(“什么是文档?)她将文件定义为支持事实的证据;保存或记录的物理或符号符号,用于表示、重建或演示物理或概念现象。因此,一个文档记录了一些东西,它是一种表示,作为某种目的的证据。我们还可以说,它所提供的信息是以这样一种方式呈现的,即文档的制作者能够以一种可理解的方式将该信息传达给其用户/读者。这再次意味着生产者和读者使用信息的共享表示规则。

Compared to oral communication, the main difference is the preservation of the representation, so that the consumer of the information does not need to communicate directly and immediately with its producer. The most ancient and well-known document type is of course the written document; the introduction of writing was of such importance for mankind that historians usually consider that history starts at that moment, when knowledge of the past can be recovered from written records.

与口头交流相比,主要的区别在于保留了表达方式,使得信息的消费者不需要直接、即时地与信息的生产者进行交流。最古老和最著名的文献类型当然是书面文献;对人类来说,文字的引入是如此重要,以至于历史学家通常认为,历史始于那个时刻,那时可以从书面记录中恢复对过去的认识。

n Chap. 1 (A Brief History of Documents and Writing Systems), Henry Baird introduces us to writing systems and briefly reviews the history of written documents. Throughout the centuries, these documents have been physically produced on various materials, using many different writing or printing processes, until this century’s documents which are very often originally available in electronic format. Elisa Barney Smith reviews the evolution of these creation processes and equipment in Chap. 2 (Document Creation, Image Acquisition and Document Quality). She also introduces us to the numerous acquisition processes for converting physical documents into images for further processing by appropriate software tools.

在第一章(文献和书写系统的简要历史)中,亨利·贝尔德向我们介绍了书写系统,并简要回顾了书写文档的历史。几个世纪以来,这些文件一直是在各种材料上实际制作的,使用许多不同的书写或打印过程,直到本世纪的文件,这些文件最初常常以电子格式提供。Elisa Barney Smith在第二章(文档创建、图像采集和文档质量)中回顾了这些创建过程和设备的演变。她还向我们介绍了许多采集过程,将物理文档转换为图像,以便通过适当的软件工具进行进一步处理。

When people hear about document image processing, they probably think first and foremost of optical character recognition (OCR). But in the same way as children do not only learn to decipher characters, but progressively learn to understand complete documents, document analysis systems also have gone much further than just OCR. This evolution from character to full and complex documents is presented by Henry Baird and Karl Tombre in Chap. 3 (The Evolution of Document Image Analysis).

当人们听说文档图像处理时,他们可能首先想到的是光学字符识别(OCR)。但同样地,随着孩子们不仅学会了破译字符,而且逐渐学会了理解完整的文档,文档分析系统也已经远远超过了OCR。亨利·贝尔德(Henry Baird)和卡尔·汤姆布雷(Karl Tombre)在第三章(文档图像分析的演变)中提出了从文字到完整复杂文档的演变过程。

A common, fundamental toolbox for all these document analysis systems is that of image processing algorithms applied to document images. Image processing as a whole would deserve a full handbook on its own, but in Chap. 4 (Imaging Techniques in Document Analysis Processes), Basilis Gatos presents an overview of the most fundamental image processing methods needed in any document processing and recognition system.

所有这些文档分析系统的一个共同的基本工具箱是应用于文档图像的图像处理算法。作为一个整体,图像处理本身应该有一本完整的手册,但在第4章(文件分析过程中的成像技术)中,Basilis Gatos概述了任何文件处理和识别系统所需的最基本的图像处理方法。

1. A Brief History of Documents and Writing Systems

Contents
Introduction. ........................................................................................ 4
The Origins of Writing............................................................................. 4
Writing System Terminology. ..................................................................... 4
Reading Order and Segmentation. ................................................................. 5
Types of Writing Systems. ......................................................................... 7
Origins of Writing Media.......................................................................... 8
Punctuation.......................................................................................... 9
Conclusion. ......................................................................................... 9
Cross-References. .................................................................................. 10
References. .......................................................................................... 10
Further Reading. ................................................................................ 10
摘要

This chapter provides a review of the history of written language, with emphasis on the origins and evolution of characteristics which have been found to affect – and in some cases continue to challenge – the automated recognition and processing of document images.

本章回顾了书面语言的历史,重点介绍了影响文档图像自动识别和处理的特征的起源和演变,在某些情况下,这些特征会继续受到挑战。

简介

高尔丰富的书写历史说明[2]清楚地表明,除了手写或机器印刷在平面上的文字外,人类的交流还包括岩画(许多史前人的作品)、留言棒(澳大利亚土著人的作品)、用点和线标记的豆子(印加文)、奎普文(用头发或棉线打结的作品);印加加加中国、非洲、波利尼西亚等国)、万普姆带(北美土著)、科里贝壳组(尼日利亚约鲁巴)和理货棒串(托雷斯海峡群岛)。尽管以上这些都还没有被计算机自动读取,但可以想象,文档图像分析研发界有朝一日会尝试使用它们。

书写的起源

高尔区分了“思想写作”(即“直接传达思想”,例如“树的画”是指“树”)和“声音写作”(即通过一组传统的符号使语音可见)(桑普森称之为“声门图”系统[7])。帕克斯[6]将西方早期语言与写作的关系描述如下:

在古代,书面文字被视为口头文字的记录,文本通常被大声朗读。但从六世纪开始,人们对书面语的态度发生了变化:书面语被认为是通过眼睛直接向大脑传递信息,塞维利亚的伊西多尔(约560-636ce)可以表示对沉默阅读的偏爱,沉默阅读随后成为一种规范。

丹尼尔斯和布莱特1996年对世界写作系统的调查列出了50多个主要家庭,其中一些家庭有十几个或更多的子家庭。书写习惯(尤其是语音)的巨大多样性表明,许多书写习惯在很大程度上是武断的文化发明:当然,这种多样性仍然是自动识别面临的最令人困惑的技术挑战。写作系统进化的关键阶段也没有被完全理解,而且可能一直如此。或许正因为如此,目前的写作体系显得非常混乱:几乎没有什么广泛适用的规则是显而易见的。即使是有着悠久历史记录的系统,尤其是中国的系统,也倾向于挑战完全系统的分析。类似的悲观主义,毫无疑问被现代语言学的进步所限定,可能被扩展到数千种已知的语言中,其中只有一小部分享有书写系统。(2009)SIL族群(4)列出了6909种现存的人类语言,估计有7000到10000种不同的生活语言存在。

书写系统术语

首先,简要回顾一下用来描述书写系统外观的术语,就像现代文档图像分析系统通常做的那样,从一张纸(一个“页面”)的图像开始,并在其上墨迹信息。此图像可能包含文本区域和非文本区域的混合。文本区域通常包含组织成文本“行”的文本块(或“列”),文本“行”可以(根据语言)水平或垂直运行(很少以螺旋方式)。在一个块中,文本行通常是从上到下(对于水平行)和从左到右(对于垂直行)读取的;这种选择似乎是任意的,但有趣的是,它适用于许多古代文本以及几乎所有现代文本。文本行内的阅读顺序也因语言而异;在一些古代文本中,顺序从一行切换到另一行,因此如果一行从左到右阅读,那么下一行从右到左阅读(这是一个技术术语boustrophedonic,来自希腊语“如牛犁”)。文本行包含语言中单词的符号图像(和标点符号,讨论如下)。几乎在世界上,这些词的书写顺序与人们说话的顺序是一样的。

重新回顾基本术语,将文本行图像分割成哪些较小的元素?在所有西欧(和许多其他)书写系统中,“词空间”惯例有助于将文本行分解为“词”图像;尽管,这些图像可能包含标点符号,因此不能直接映射到语言文字上。即使在这些系统中,使用纯粹的“几何”线索(例如通过估计局部类型大小来缩放分隔字符的水平空间的分布)也很难可靠地实现自动分割:歧义通常需要符号识别的帮助,甚至需要更高级别的解译。

阅读顺序与切分

由于口语中的词是按时间顺序出现的,几乎所有的语音书写都是按空间线性排列的。相比之下,大多数写作媒体都是二维的(至少如此),但是从语音中复制出来的线性惯例很少利用这些额外的维度。一些“原始的”写作,如桑普森所讨论的尤卡希尔信息,不编码任何固定的语序,因此可以在多种叙述中“大声朗读”;一些现代的“超文本”写作,如数学和音乐,扩展到一个维度以外(本书稍后将对此作更多介绍)。一旦一页文本被分解(分割)成块和文本行,并推断出预期的阅读顺序,识别就面临一类非常简单的线性化问题

独立于文献分析界,语音识别(更广泛地说是计算语言学)研究与开发界从20世纪70年代开始发现了一类动态规划优化算法在分析时间序列问题中的威力。依赖于线性排序效率的方法包括文法、马尔可夫模型、隐马尔可夫模型、动态时间规整、有限状态传感器等。这些算法的进步,革命性地改变了其他领域,在20世纪90年代早期之前,在文档分析领域的渗透是缓慢的;但是这个过程现在已经开始了。大多数动态规划方法的效率取决于适用于许多一维问题但很少推广到更高维的特殊性质(通常称为“最优子结构”,早期也称为“最优性原则”),这一点并没有得到广泛的认识。从这个意义上说,许多二维(和更高维)优化问题似乎在本质上更难解决:这可能部分是因为布局分析方法的发展相对文本识别方法慢。

其他语言,尤其是主要的现代东亚语言,缺乏文字空间的约定,因此下一个层次的切分必须与单个符号直接相关。在一些书写系统,如阿拉伯语中,一个语言单词被写为一系列间隔开的符号组(“子单词”):真言空间与词间断句一起存在,从而使分割复杂化。许多手写体都是草书,其中一个单词中的许多(或全部)符号是相连的。即使在一些机器印刷系统中,如阿拉伯语,书法的影响仍然很强,字体的设计模仿谨慎但仍然是草书。

很自然地,假设所有这些依赖于语言和书写系统的策略都被建模并实现为一种分割算法,能够从文本行的图像中检测和隔离每个单独的符号,这些符号通常是书写语言的基本单位,例如字母表允许的字符形状或音节

然而,语言符号和符号图像之间的一对一直接映射的例外情况出人意料地频繁。连字(通常是有向图和缩略词)将两个或多个语言符号合并成一个书写字符。在一些书写系统中,例如中世纪的手稿,允许的缩略词的数量可以超过基础字母表中的字母数量。对文档识别工程的影响可能是令人望而生畏的:实际上,为了图像识别的目的,字母表已经扩展了,也许是一个很大的因素,增加了为每个类收集标记样本的工作。更严重的可能是,在文件图像中发现的“字符”集合在一开始可能是未知的;变化可能是在飞行中发现的;什么是合法的变化(不是印刷错误或曲解)可能不清楚;可能需要咨询专业的历史学家。从这个意义上说,许多书法书写系统,甚至在西方,都是“开放的”,缺乏一套固定的传统字体。

一个被正确隔离的符号的图像被称为一个图(一些权威人士更喜欢术语graphemes,这里称之为符号)。现在考虑从文档图像中分割的所有图的集合;字符分类器的任务是为每个图分配正确的语言字符标签(在压缩的情况下,正确的输出是一系列语言标签)。现在,由于打印(例如,文本大小、墨迹、纸张质量)、手写、成像(点扩展功能、扫描分辨率等)的变化无常以及甚至在分割样式上的变化,同一符号的图形可以预期在细节上有所不同。当然,这种变化是文本图像分类器设计的主要技术挑战。

但由于其他种类的变化,还有更深层次的挑战。在某些书写系统中,允许使用多个形状来表示单个符号:这样一组视觉上不同但语言上相同的字符形状有时称为异体字。作为分类器训练的一个实际问题,底层形状可能非常不同,因此必须将它们分为不同的类:在这种情况下,图像识别所需的类不能一对一地映射到语言类上。但是,从另一个角度来看,在训练过程中,不能在不同的同种异体图像之间进行概括可以被判断为可训练分类器技术不足的症状,如果这种批评是合理的,那么该技术难道不能在诸如图像质量的极端等其他变体之间进行概括吗?事实上,文档识别工程师经常感到有必要对训练集的标记、类的划分和组合、或将它们组织成树结构进行手动调整(语言学家可能认为这是不相关的、分散注意力的干预措施)。尝试分类树(CARTs)的一个动机是希望最小化这种可能是开放的手动“调整”;不幸的是,训练好的树总是在计算上令人望而却步或是弱启发性的。请注意,由于书写系统和排版惯例的某些“开放式”特征,这些问题甚至可能出现在高科技文化中的现代语言中。

此外,还有一个风格上的问题(和承诺):个人的写作个性就是一个例子,机器印刷中的字体也是一个例子;图像质量也可以作为一种风格来考虑(稍后将对此做更多介绍)。

书写系统类型

哈里斯1986年的写作系统史[3]试图将世界写作系统中使用的各种符号(他称之为“符号”)分类如下:

字母符号:一组符号,代表语音中出现的一整套辅音(如“s”)和元音(如“a”),如英语、最古典和现代的西方文字(可能“最终来自公元前2千年下半叶的北闪米特字母”)

音节:一组符号,每个音节一个(短辅音元音或辅音辅音组合),例如“ka”(日语)

符号学:一组“表示单词但不表示发音”的符号,如用“$”表示“美元”,在整个中国汉人系统中经常使用(日本和韩国也使用)

象形文字:以简化图片的形式表示其所代表的事物的符号,如用射线表示太阳的圆圈,也可以用某些埃及象形文字来表示

表意文字:符号“代表信息的整体概念,而不是它的任何特定形式”,如在箭头符号中表示方向

尽管这个分类法很简单(仍然有点争议),但对于本章的目的来说,它应该足够清楚。文档识别的主要含义是:(a)字母、音节和符号系统几乎支配了所有现代(和许多古代)脚本;(b)象形文字和表意文字系统的识别相对被OCR社区忽略(商业文档中的“徽标”识别除外),尽管随着“城市景观场景”的挑战越来越受到重视,包括交通标志的检测、隔离、识别和解释问题,以及迅速增长的“国际”标志和符号,这种情况可能会发生根本性的变化;(c) 字母表往往比音节表小得多,音节表又比符号集小得多,这对监督培训的工程成本有重要影响;和(d)虽然字母表和音节表通常是“封闭的”(完整的和固定的),但符号系统往往是“开放的”(不完整的,可自由扩展)。

很难把书写系统中所有的变化都概括出来。然而,在几乎所有的语音书写系统中,一个强烈的倾向是对单个符号图像使用紧凑的“物理支持”:也就是说,它们都倾向于在近似大小相等的小的非重叠的细胞中进行拟合。

文档图像识别的含义是令人望而生畏的:为了处理一种新的语言,必须克服几个障碍,包括:对所使用的所有字形的描述,字形样本的收集(每个字形有许多样本,每个不同样式有更多样本),页面布局惯例的分析,积累字典(词汇或词法分析器),至少。其中一些障碍可能需要专业语言学家的帮助。

写作媒介的起源

早期的书写材料种类繁多:高卢突出了石头、树叶、树皮、木材、粘土、皮肤、动物骨骼、象牙、竹子、玳瑁和许多金属,尤其是铜和青铜。虽然相对容易腐烂,但一块埃及木制书写板从公元前2000年左右就保存下来了。公元前1700年左右,“一些最早的中国文字”就保存在“甲骨文”的骨头上。蜡制书写板,方便重复使用,最早起源于公元前8年,被古希腊人和罗马人广泛使用;然而,罗马法律是通过在门上展示的铜板上的铭文公布的。

某些书写媒介的生产规模显著增长,甚至在古代,从美索不达米亚的粘土板开始,一直到埃及的纸莎草。在南亚和东南亚,直到近代,棕榈叶一直是主要的培养基。大量的棕榈叶保存下来,其中许多包含耆那教、佛教和印度教经文:这些已经成为严肃的文档图像识别研究的对象。全世界对保存和获取历史文献的兴趣迅速增长,似乎很少有这些神秘的文献类型没有受到影响,并揭示了许多新的技术挑战。

请注意,上述三种书写文化中的每一种都汇集了大量的文件,这些文件显然旨在在材料、大小和外观上高度统一,包括符号的书写顺序和形状。大量受过统一训练的专业文士干部,证据确凿。现代写作风格的广泛多样性——实际上是丰富的创造性变化——今天人们可能会想当然地认为这不是早期社会的常态,它只随着工业时代的到来而加速。当今文档识别研究中的一个重要技术趋势是对样式意识方法的兴趣,这种方法可以利用输入图像上已知(或仅仅是猜测)的一致性。书面语料库越老,就越有可能以统一的风格进行构建:因此,现代风格意识方法在应用于前现代文档时可能会特别有效(甚至令人惊讶)。

另一个重要的含义是,每一种媒介都可能,而且往往会影响写作风格的演变。例如,由于雕刻(凿)大理石所特有的技术限制,在纪念性的古典碑文(例如具有高度影响力的图拉真柱)中引入了衬线。衬线进入现代的生存表面上是由于美学,尽管人们可以说它们也有助于易读性。

一些写作材料(而且仍然)比其他材料要贵得多。相对持久的媒介(如牛皮纸)的花费推动了精心设计的中世纪抄本惯例的发展,以节省空间,包括大量简洁的缩略词和变音符号。

标点符号

帕克斯在1993年进行了大量的图解研究[6]表明,至少在西方,到了中世纪,

标点符号成为书面语言的重要组成部分。它的主要功能是解决文本中的结构不确定性,并表示语义意义的细微差别::。

然而,标点符号的功能却很少受到古典甚至现代计算语言学家的关注。一个例外是Sproat 2000年的正字法形式理论[8]包含了几个现代书写系统,包括俄语、汉语和韩语:他的主要目的是分析编码文本语料库,以便驱动(控制)一个可理解的文本到语音合成系统;他指出,这需要在“浅”和“深”两个层次上建立有限状态模型;他还指出,这种完整的模型不太可能从纯统计推断的训练数据中学习。Nunberg 1990年深思熟虑的研究[5]表明,英语中的标点规则比最先进的OCR机器中使用的正则表达式要复杂得多。

结论

在书写系统的历史上,一些对文档图像分析研究和开发社区具有潜在重要性的明显趋势,据所知,没有得到任何形式的持续学术关注。目前作者还不清楚对黑白(双层)文档早期和持续占主导地位的原因的仔细研究。尽管人们对某些(主要是西方和亚洲)字母(以及音节、表意文字系统等)的演变了解得很多,但有关从开放符号集到有限和固定符号集的关键转变的细节却常常缺失。(有趣的是,将这一事实与所有现存语言中词典的持续开放性进行对比。)在大多数有着悠久历史的书写系统中,符号图形已经从复杂的形式稳步发展到相对简单的形式。在活生生的记忆中,汉文书写系统经历了对更小符号集和简化字形的戏剧性改进。一个现在看来异常甚至尴尬的事件发生在早期OCR系统的制造商对处理自然出现的印刷文本感到绝望,并发明了OCR-A和OCR-B等“OCR字体”以使他们的问题更简单,然后认真地(如果没有效果的话)提出了广泛的商业用途。

2 Document Creation, Image Acquisition and Document Quality

Contents
Introduction. ........................................................................................ 12
Document Creation Materials...................................................................... 12
    Writing Substrates. ............................................................................. 12
    Inks. ............................................................................................. 17
Writing and Printing Processes. ................................................................... 20
    HandHeld Writing Instruments. ............................................................... 20
    Machine Printing ............................................................................... 23
Acquisition Methods. .............................................................................. 39
    Flatbed Scanner and Fax Machine Acquisition............................................... 39
    Cameras and Mobile Devices. ................................................................. 44
    Video............................................................................................ 46
    Other Specialty Modes. ........................................................................ 47
Document Quality.................................................................................. 48
    Factors Affecting Document Quality.......................................................... 48
    Effects of Document Quality on Analysis and Recognition Results. . .... .... ..... .... .... .. 50
    Models of Document Degradations. ........................................................... 51
Conclusion. ......................................................................................... 59
References. .......................................................................................... 60
Further Reading. ................................................................................ 60
摘要

本文概述了用于创建文档的材料、创建打印文档的方法以及获取该文档的数字版本的方法。介绍了当前和历史的方法、材料和过程。除此之外,还讨论了图像降级可能进入进程的位置。所有这些都与这些方面如何影响文档识别能力有关。

简介

文档可以手工创建,也可以通过机器创建。在这两种情况下,有几个因素影响最终外观,包括含量、颜料、将颜料转移到纸张上的仪器以及纸张本身。人或机器如何感知文档外观取决于文档是如何获得的。纸上被认为是好质量的东西,当直接被人眼接收并被人脑处理时,当数字化后再在监视器上观看时,并不总是被认为是好质量的。同样,一个人认为原始或数字化版本的良好感知质量并不总是能够使高精度机器识别文档内容的质量。

为了帮助解释文档源与其质量之间的关系,本章确定了质量可以降低的连接点,如其所述:

•材料——材料,如纸张和墨水;人员:以及用于创建文档的机器。

•流程-手工或机器创建打印文本的当前和过时流程。特别是过时的过程是为技术档案工作者在历史文献收藏中看到。

•获取方法——将文件转换为数字形式的方法,有助于文件图像的自动处理和识别

•模型-记录生产模型、质量度量以及质量如何影响识别结果。

文档创建材料

这是对一些材料的概述,这些材料随着时间的推移被用于创建文档,并显著地塑造了文档的外观。材料包括文件出现的基底,通常被认为是“纸”的一种形式,以及显示书面信息的墨水。纸张和墨水的选择部分是历史性的,由可用的材料和技术决定,部分是由书写或印刷过程决定的。将油墨转移到承印物上可以用书写工具手工完成,也可以用印刷机完成。图2.1包括不同材料和书写和打印方法的示例,以及它们首次引入的时间。每一个都引入了一个影响最终文件外观的新变量。

书写基底

书写基质是书写表面。令人惊讶的是,尽管自从最早的人类开始写作以来,已经有很多人开始写作,但许多基础的基础并没有改变那么多。可供研究的最古老的文字之所以被保存下来,是因为它是在石头上书写或雕刻的,或者是因为它被印在泥板上。虽然这些材料寿命长,在某些地区也很丰富,但并不特别便于携带。几乎任何能保留刷子或钢笔痕迹的便携式物质都被用作书写基质。这包括树叶、树皮、木板和布。在中国,人们在竹竿上发现了古老的文字,在印度,人们在桦树皮和棕榈叶上发现了古老的文字。玛雅人用无花果树的内部树皮在“纸”上写字,树皮上覆盖着一层薄薄的石膏状物质,文字被画在“纸”状的灰泥画上。和今天的书一样,这些书被扇形折叠成书的形式。

从纸莎草到羊皮纸和纸

最著名的古代书写材料是纸莎草,现代的文字纸就是从纸莎草中衍生出来的。早在公元前3500年,埃及人就用纸莎草来造纸。纸莎草是一种叫莎草的芦苇。去掉外皮,露出被压扁的柔软的内髓,并以直角重叠层铺设条带。这是通过敲打髓部直到植物组织破裂,并从组织的汁液形成一种胶水,将带在一起。材料在压力下干燥,一面抛光,形成一个光滑的表面,在上面写字。标准的书写单元,或者我们今天认为的“页面”,是由其中一个单元的大小演变而来的。其中的几个单元(大约20页)是通过将一个单元的边缘重叠到另一个单元的边缘,并以类似的方式将这些边缘粘合起来形成一个卷,这个卷被称为拉丁语单词“to roll”的卷。每个卷包含的信息大约相当于一本现代手写书的7到10页。单词book来自港口的名字Byblos,在铁器时代晚期希腊人通过它进口纸莎草

羊皮纸是一种书写材料,由拉伸和未经编织的动物皮制成,特别是小牛、绵羊或山羊。虽然皮革自公元前2000年起就被用于写作,但它储存得并不好,只能写在一边。羊皮纸在公元前2世纪的一种方法被开发出来,允许两面都用来书写,但里面的一面有一个更光滑的表面,羊皮纸就成为了书写的常用材料。在欧洲,从公元四世纪到文艺复兴和纸的引入,它成为主要的书写载体。用小牛或山羊的细皮制成的羊皮纸叫做牛皮纸。随着羊皮纸的使用,书写材料不再像今天的印刷书籍那样被卷起来,而是装订成册。为了印刷,拉丁圣经需要500多张小牛皮。制作书籍所需的兽皮数量使它们相当昂贵;因此,重新使用羊皮纸变得很常见。墨水是从羊皮纸上刮下来的,或者笔迹是以直角书写的,以便从视觉上区分新的笔迹和旧的笔迹。有了这种再利用的书籍被称为翻版,从希腊语“再刮一次”。即使有了这种再利用,依靠羊皮纸作为承印物的书籍产量也有限。

我们今天所认为的纸起源于公元一世纪的中国。中国人将造纸的过程保密了许多世纪,直到八世纪袭击了阿拉伯城市撒马尔罕,阿拉伯人俘虏了一些擅长造纸的中国人。随着阿拉伯人在欧洲的扩张,造纸业随之向西移动。欧洲第一家造纸厂于公元1100年在君士坦丁堡建立,造纸术一度在欧洲迅速传播,直到14世纪才在欧洲各地建立起来。在欧洲引进纸张导致书籍产量的增加,同时读者也在增加。

纸张生产

纸的生产首先是在水中把植物纤维切碎并还原成纸浆。一层薄薄的纸浆铺在筛子上,水被排出,形成毛毡。纸浆纤维被磨光并干燥。过程差异导致了现有论文的差异。纸是用手工方法生产的,已经有好几个世纪了,但这限制了纸张的数量或大小,而纸张可以在任何一次生产过程中生产。第一种机械化造纸工艺是1798年尼古拉斯·路易·罗伯特发明的,1805年亨利和西利·福德林将其商业化。

最初,造纸用的纤维主要由亚麻、黄麻、亚麻和大麻制成。从布破布中提取的纤维在17世纪是一种常见的来源。由棉纤维制成的纸叫做碎布纸。如今,这些纸张通常用于制作高质量的文件和钞票。18世纪开始试验使用稻草纤维,19世纪英国经常使用埃斯帕托草。开发了一种漂白工艺,可以用有色纤维制成白纸。从19世纪中期在萨克森州开始,大多数现代纸是由树纤维素制成的,发现这是一种合适的纸张来源,大大增加了纸张供应。木材通过机械或化学方法还原成纸浆。磨石间木浆的机械研磨引入了许多杂质,降低了纸张的质量。木质细胞壁是由木质素填充的纤维素网络构成的。机械研磨不能去除木质素,因此产量更高,但随着时间的推移木质素会使纸张变黄,使其变脆。另一种方法是添加苏打和硫酸盐等化学试剂,以分解将细胞结合在一起的木质素。如果化学试剂是苛性钠,柔软的蓬松纤维有利于封面和书写纸张。亚硫酸氢钙或亚硫酸氢镁能产生更坚固或更坚硬的纤维,从而制造出更适合印刷的纸张。随着时间的推移,这些酸会导致纸张和墨水的变质,所以硫酸钠是一种替代品,它能使纸张变得非常坚韧。化学制浆中的纤维比机械制浆中的长,因此,纸张会更结实。

无酸纸的pH值为中性,可以用温和的碱(通常是碳酸氢钙或碳酸氢镁)中和木浆和生产过程中产生的天然酸。它也不含木质素和硫。它适合存档,因为它不会在很长一段时间内变黄或变脆。如果有足够的碱性储备,这种纸可能能保存1000年。

直到十八世纪晚期,纸才基本上被铺好。纤维被放置在一个有长的平行链节的链状表面上,偶尔被一个垂直的间隙打断。这种模式可以在最后的论文中看到。在十八世纪,为了更好的印刷,编织纸被发展得更平滑。编织的金属丝网输送纸浆,纸张的纹理不再普遍。今天,编织纸被认为是一种更便宜的纸。水印,也被称为纸张标记,是有意压入谷物的图案。它们在十三世纪开始出现在纸上以表明起源。

废纸可以回收利用,代替原始的木材作为纸浆的来源。纸张必须粉碎,然后返回纸浆状态。一路上墨水必须漂白掉。当纸张返回纸浆时,纤维的长度减少了。这降低了用这种纸浆生产的纸张的质量。因此,它通常与原浆混合。

整理程序

 

你可能感兴趣的:(PartA Introduction, Background, Fundamentals:)