2008nmj

PartA Introduction, Background, Fundamentals：

Suzanne Briet (1894–1989) is recognized for her pioneer role in laying the foundations of modern information science. In her manifesto titled Qu’est-ce que la documentation? (“What is documentation?”), she defines a document as evidence in support of a fact; a physical or symbolic sign, preserved or recorded, for representing, reconstructing or demonstrating a physical or a conceptual phenomenon. Thus, a document documents something, it is a representation serving as evidence for some purpose. We can also say that the information it provides is presented in such a way that the producer of the document becomes able to convey this information to its users/readers, in an intelligible way. This again means that producer and reader use shared representation rules for the information.

苏珊娜（1894—1989）奠定现代信息科学基础上的先驱角色。在她题为（“什么是文档？）她将文件定义为支持事实的证据；保存或记录的物理或符号符号，用于表示、重建或演示物理或概念现象。因此，一个文档记录了一些东西，它是一种表示，作为某种目的的证据。我们还可以说，它所提供的信息是以这样一种方式呈现的，即文档的制作者能够以一种可理解的方式将该信息传达给其用户/读者。这再次意味着生产者和读者使用信息的共享表示规则。

Compared to oral communication, the main difference is the preservation of the representation, so that the consumer of the information does not need to communicate directly and immediately with its producer. The most ancient and well-known document type is of course the written document; the introduction of writing was of such importance for mankind that historians usually consider that history starts at that moment, when knowledge of the past can be recovered from written records.

与口头交流相比，主要的区别在于保留了表达方式，使得信息的消费者不需要直接、即时地与信息的生产者进行交流。最古老和最著名的文献类型当然是书面文献；对人类来说，文字的引入是如此重要，以至于历史学家通常认为，历史始于那个时刻，那时可以从书面记录中恢复对过去的认识。

n Chap. 1 (A Brief History of Documents and Writing Systems), Henry Baird introduces us to writing systems and briefly reviews the history of written documents. Throughout the centuries, these documents have been physically produced on various materials, using many different writing or printing processes, until this century’s documents which are very often originally available in electronic format. Elisa Barney Smith reviews the evolution of these creation processes and equipment in Chap. 2 (Document Creation, Image Acquisition and Document Quality). She also introduces us to the numerous acquisition processes for converting physical documents into images for further processing by appropriate software tools.

在第一章（文献和书写系统的简要历史）中，亨利·贝尔德向我们介绍了书写系统，并简要回顾了书写文档的历史。几个世纪以来，这些文件一直是在各种材料上实际制作的，使用许多不同的书写或打印过程，直到本世纪的文件，这些文件最初常常以电子格式提供。Elisa Barney Smith在第二章（文档创建、图像采集和文档质量）中回顾了这些创建过程和设备的演变。她还向我们介绍了许多采集过程，将物理文档转换为图像，以便通过适当的软件工具进行进一步处理。

When people hear about document image processing, they probably think first and foremost of optical character recognition (OCR). But in the same way as children do not only learn to decipher characters, but progressively learn to understand complete documents, document analysis systems also have gone much further than just OCR. This evolution from character to full and complex documents is presented by Henry Baird and Karl Tombre in Chap. 3 (The Evolution of Document Image Analysis).

当人们听说文档图像处理时，他们可能首先想到的是光学字符识别（OCR）。但同样地，随着孩子们不仅学会了破译字符，而且逐渐学会了理解完整的文档，文档分析系统也已经远远超过了OCR。亨利·贝尔德（Henry Baird）和卡尔·汤姆布雷（Karl Tombre）在第三章（文档图像分析的演变）中提出了从文字到完整复杂文档的演变过程。

A common, fundamental toolbox for all these document analysis systems is that of image processing algorithms applied to document images. Image processing as a whole would deserve a full handbook on its own, but in Chap. 4 (Imaging Techniques in Document Analysis Processes), Basilis Gatos presents an overview of the most fundamental image processing methods needed in any document processing and recognition system.

所有这些文档分析系统的一个共同的基本工具箱是应用于文档图像的图像处理算法。作为一个整体，图像处理本身应该有一本完整的手册，但在第4章（文件分析过程中的成像技术）中，Basilis Gatos概述了任何文件处理和识别系统所需的最基本的图像处理方法。

1. A Brief History of Documents and Writing Systems

Contents
Introduction. ........................................................................................ 4
The Origins of Writing............................................................................. 4
Writing System Terminology. ..................................................................... 4
Reading Order and Segmentation. ................................................................. 5
Types of Writing Systems. ......................................................................... 7
Origins of Writing Media.......................................................................... 8
Punctuation.......................................................................................... 9
Conclusion. ......................................................................................... 9
Cross-References. .................................................................................. 10
References. .......................................................................................... 10
Further Reading. ................................................................................ 10
摘要

This chapter provides a review of the history of written language, with emphasis on the origins and evolution of characteristics which have been found to affect – and in some cases continue to challenge – the automated recognition and processing of document images.

本章回顾了书面语言的历史，重点介绍了影响文档图像自动识别和处理的特征的起源和演变，在某些情况下，这些特征会继续受到挑战。

简介

高尔丰富的书写历史说明[2]清楚地表明，除了手写或机器印刷在平面上的文字外，人类的交流还包括岩画（许多史前人的作品）、留言棒（澳大利亚土著人的作品）、用点和线标记的豆子（印加文）、奎普文（用头发或棉线打结的作品）；印加加加中国、非洲、波利尼西亚等国）、万普姆带（北美土著）、科里贝壳组（尼日利亚约鲁巴）和理货棒串（托雷斯海峡群岛）。尽管以上这些都还没有被计算机自动读取，但可以想象，文档图像分析研发界有朝一日会尝试使用它们。

书写的起源

高尔区分了“思想写作”（即“直接传达思想”，例如“树的画”是指“树”）和“声音写作”（即通过一组传统的符号使语音可见）（桑普森称之为“声门图”系统[7]）。帕克斯[6]将西方早期语言与写作的关系描述如下：

在古代，书面文字被视为口头文字的记录，文本通常被大声朗读。但从六世纪开始，人们对书面语的态度发生了变化：书面语被认为是通过眼睛直接向大脑传递信息，塞维利亚的伊西多尔（约560-636ce）可以表示对沉默阅读的偏爱，沉默阅读随后成为一种规范。

丹尼尔斯和布莱特1996年对世界写作系统的调查列出了50多个主要家庭，其中一些家庭有十几个或更多的子家庭。书写习惯（尤其是语音）的巨大多样性表明，许多书写习惯在很大程度上是武断的文化发明：当然，这种多样性仍然是自动识别面临的最令人困惑的技术挑战。写作系统进化的关键阶段也没有被完全理解，而且可能一直如此。或许正因为如此，目前的写作体系显得非常混乱：几乎没有什么广泛适用的规则是显而易见的。即使是有着悠久历史记录的系统，尤其是中国的系统，也倾向于挑战完全系统的分析。类似的悲观主义，毫无疑问被现代语言学的进步所限定，可能被扩展到数千种已知的语言中，其中只有一小部分享有书写系统。（2009）SIL族群（4）列出了6909种现存的人类语言，估计有7000到10000种不同的生活语言存在。

书写系统术语

首先，简要回顾一下用来描述书写系统外观的术语，就像现代文档图像分析系统通常做的那样，从一张纸（一个“页面”）的图像开始，并在其上墨迹信息。此图像可能包含文本区域和非文本区域的混合。文本区域通常包含组织成文本“行”的文本块（或“列”），文本“行”可以（根据语言）水平或垂直运行（很少以螺旋方式）。在一个块中，文本行通常是从上到下（对于水平行）和从左到右（对于垂直行）读取的；这种选择似乎是任意的，但有趣的是，它适用于许多古代文本以及几乎所有现代文本。文本行内的阅读顺序也因语言而异；在一些古代文本中，顺序从一行切换到另一行，因此如果一行从左到右阅读，那么下一行从右到左阅读（这是一个技术术语boustrophedonic，来自希腊语“如牛犁”）。文本行包含语言中单词的符号图像（和标点符号，讨论如下）。几乎在世界上，这些词的书写顺序与人们说话的顺序是一样的。

重新回顾基本术语，将文本行图像分割成哪些较小的元素？在所有西欧（和许多其他）书写系统中，“词空间”惯例有助于将文本行分解为“词”图像；尽管，这些图像可能包含标点符号，因此不能直接映射到语言文字上。即使在这些系统中，使用纯粹的“几何”线索（例如通过估计局部类型大小来缩放分隔字符的水平空间的分布）也很难可靠地实现自动分割：歧义通常需要符号识别的帮助，甚至需要更高级别的解译。

阅读顺序与切分

由于口语中的词是按时间顺序出现的，几乎所有的语音书写都是按空间线性排列的。相比之下，大多数写作媒体都是二维的（至少如此），但是从语音中复制出来的线性惯例很少利用这些额外的维度。一些“原始的”写作，如桑普森所讨论的尤卡希尔信息，不编码任何固定的语序，因此可以在多种叙述中“大声朗读”；一些现代的“超文本”写作，如数学和音乐，扩展到一个维度以外（本书稍后将对此作更多介绍）。一旦一页文本被分解（分割）成块和文本行，并推断出预期的阅读顺序，识别就面临一类非常简单的线性化问题

独立于文献分析界，语音识别（更广泛地说是计算语言学）研究与开发界从20世纪70年代开始发现了一类动态规划优化算法在分析时间序列问题中的威力。依赖于线性排序效率的方法包括文法、马尔可夫模型、隐马尔可夫模型、动态时间规整、有限状态传感器等。这些算法的进步，革命性地改变了其他领域，在20世纪90年代早期之前，在文档分析领域的渗透是缓慢的；但是这个过程现在已经开始了。大多数动态规划方法的效率取决于适用于许多一维问题但很少推广到更高维的特殊性质（通常称为“最优子结构”，早期也称为“最优性原则”），这一点并没有得到广泛的认识。从这个意义上说，许多二维（和更高维）优化问题似乎在本质上更难解决：这可能部分是因为布局分析方法的发展相对文本识别方法慢。

其他语言，尤其是主要的现代东亚语言，缺乏文字空间的约定，因此下一个层次的切分必须与单个符号直接相关。在一些书写系统，如阿拉伯语中，一个语言单词被写为一系列间隔开的符号组（“子单词”）：真言空间与词间断句一起存在，从而使分割复杂化。许多手写体都是草书，其中一个单词中的许多（或全部）符号是相连的。即使在一些机器印刷系统中，如阿拉伯语，书法的影响仍然很强，字体的设计模仿谨慎但仍然是草书。

很自然地，假设所有这些依赖于语言和书写系统的策略都被建模并实现为一种分割算法，能够从文本行的图像中检测和隔离每个单独的符号，这些符号通常是书写语言的基本单位，例如字母表允许的字符形状或音节

然而，语言符号和符号图像之间的一对一直接映射的例外情况出人意料地频繁。连字（通常是有向图和缩略词）将两个或多个语言符号合并成一个书写字符。在一些书写系统中，例如中世纪的手稿，允许的缩略词的数量可以超过基础字母表中的字母数量。对文档识别工程的影响可能是令人望而生畏的：实际上，为了图像识别的目的，字母表已经扩展了，也许是一个很大的因素，增加了为每个类收集标记样本的工作。更严重的可能是，在文件图像中发现的“字符”集合在一开始可能是未知的；变化可能是在飞行中发现的；什么是合法的变化（不是印刷错误或曲解）可能不清楚；可能需要咨询专业的历史学家。从这个意义上说，许多书法书写系统，甚至在西方，都是“开放的”，缺乏一套固定的传统字体。

一个被正确隔离的符号的图像被称为一个图（一些权威人士更喜欢术语graphemes，这里称之为符号）。现在考虑从文档图像中分割的所有图的集合；字符分类器的任务是为每个图分配正确的语言字符标签（在压缩的情况下，正确的输出是一系列语言标签）。现在，由于打印（例如，文本大小、墨迹、纸张质量）、手写、成像（点扩展功能、扫描分辨率等）的变化无常以及甚至在分割样式上的变化，同一符号的图形可以预期在细节上有所不同。当然，这种变化是文本图像分类器设计的主要技术挑战。

但由于其他种类的变化，还有更深层次的挑战。在某些书写系统中，允许使用多个形状来表示单个符号：这样一组视觉上不同但语言上相同的字符形状有时称为异体字。作为分类器训练的一个实际问题，底层形状可能非常不同，因此必须将它们分为不同的类：在这种情况下，图像识别所需的类不能一对一地映射到语言类上。但是，从另一个角度来看，在训练过程中，不能在不同的同种异体图像之间进行概括可以被判断为可训练分类器技术不足的症状，如果这种批评是合理的，那么该技术难道不能在诸如图像质量的极端等其他变体之间进行概括吗？事实上，文档识别工程师经常感到有必要对训练集的标记、类的划分和组合、或将它们组织成树结构进行手动调整（语言学家可能认为这是不相关的、分散注意力的干预措施）。尝试分类树（CARTs）的一个动机是希望最小化这种可能是开放的手动“调整”；不幸的是，训练好的树总是在计算上令人望而却步或是弱启发性的。请注意，由于书写系统和排版惯例的某些“开放式”特征，这些问题甚至可能出现在高科技文化中的现代语言中。

此外，还有一个风格上的问题（和承诺）：个人的写作个性就是一个例子，机器印刷中的字体也是一个例子；图像质量也可以作为一种风格来考虑（稍后将对此做更多介绍）。

书写系统类型

哈里斯1986年的写作系统史[3]试图将世界写作系统中使用的各种符号（他称之为“符号”）分类如下：

字母符号：一组符号，代表语音中出现的一整套辅音（如“s”）和元音（如“a”），如英语、最古典和现代的西方文字（可能“最终来自公元前2千年下半叶的北闪米特字母”）

音节：一组符号，每个音节一个（短辅音元音或辅音辅音组合），例如“ka”（日语）

符号学：一组“表示单词但不表示发音”的符号，如用“$”表示“美元”，在整个中国汉人系统中经常使用（日本和韩国也使用）

象形文字：以简化图片的形式表示其所代表的事物的符号，如用射线表示太阳的圆圈，也可以用某些埃及象形文字来表示

表意文字：符号“代表信息的整体概念，而不是它的任何特定形式”，如在箭头符号中表示方向

尽管这个分类法很简单（仍然有点争议），但对于本章的目的来说，它应该足够清楚。文档识别的主要含义是：（a）字母、音节和符号系统几乎支配了所有现代（和许多古代）脚本；（b）象形文字和表意文字系统的识别相对被OCR社区忽略（商业文档中的“徽标”识别除外），尽管随着“城市景观场景”的挑战越来越受到重视，包括交通标志的检测、隔离、识别和解释问题，以及迅速增长的“国际”标志和符号，这种情况可能会发生根本性的变化；（c）字母表往往比音节表小得多，音节表又比符号集小得多，这对监督培训的工程成本有重要影响；和（d）虽然字母表和音节表通常是“封闭的”（完整的和固定的），但符号系统往往是“开放的”（不完整的，可自由扩展）。

很难把书写系统中所有的变化都概括出来。然而，在几乎所有的语音书写系统中，一个强烈的倾向是对单个符号图像使用紧凑的“物理支持”：也就是说，它们都倾向于在近似大小相等的小的非重叠的细胞中进行拟合。

文档图像识别的含义是令人望而生畏的：为了处理一种新的语言，必须克服几个障碍，包括：对所使用的所有字形的描述，字形样本的收集（每个字形有许多样本，每个不同样式有更多样本），页面布局惯例的分析，积累字典（词汇或词法分析器），至少。其中一些障碍可能需要专业语言学家的帮助。

写作媒介的起源

早期的书写材料种类繁多：高卢突出了石头、树叶、树皮、木材、粘土、皮肤、动物骨骼、象牙、竹子、玳瑁和许多金属，尤其是铜和青铜。虽然相对容易腐烂，但一块埃及木制书写板从公元前2000年左右就保存下来了。公元前1700年左右，“一些最早的中国文字”就保存在“甲骨文”的骨头上。蜡制书写板，方便重复使用，最早起源于公元前8年，被古希腊人和罗马人广泛使用；然而，罗马法律是通过在门上展示的铜板上的铭文公布的。

某些书写媒介的生产规模显著增长，甚至在古代，从美索不达米亚的粘土板开始，一直到埃及的纸莎草。在南亚和东南亚，直到近代，棕榈叶一直是主要的培养基。大量的棕榈叶保存下来，其中许多包含耆那教、佛教和印度教经文：这些已经成为严肃的文档图像识别研究的对象。全世界对保存和获取历史文献的兴趣迅速增长，似乎很少有这些神秘的文献类型没有受到影响，并揭示了许多新的技术挑战。

请注意，上述三种书写文化中的每一种都汇集了大量的文件，这些文件显然旨在在材料、大小和外观上高度统一，包括符号的书写顺序和形状。大量受过统一训练的专业文士干部，证据确凿。现代写作风格的广泛多样性——实际上是丰富的创造性变化——今天人们可能会想当然地认为这不是早期社会的常态，它只随着工业时代的到来而加速。当今文档识别研究中的一个重要技术趋势是对样式意识方法的兴趣，这种方法可以利用输入图像上已知（或仅仅是猜测）的一致性。书面语料库越老，就越有可能以统一的风格进行构建：因此，现代风格意识方法在应用于前现代文档时可能会特别有效（甚至令人惊讶）。

另一个重要的含义是，每一种媒介都可能，而且往往会影响写作风格的演变。例如，由于雕刻（凿）大理石所特有的技术限制，在纪念性的古典碑文（例如具有高度影响力的图拉真柱）中引入了衬线。衬线进入现代的生存表面上是由于美学，尽管人们可以说它们也有助于易读性。

一些写作材料（而且仍然）比其他材料要贵得多。相对持久的媒介（如牛皮纸）的花费推动了精心设计的中世纪抄本惯例的发展，以节省空间，包括大量简洁的缩略词和变音符号。

标点符号

帕克斯在1993年进行了大量的图解研究[6]表明，至少在西方，到了中世纪，

标点符号成为书面语言的重要组成部分。它的主要功能是解决文本中的结构不确定性，并表示语义意义的细微差别：：。

然而，标点符号的功能却很少受到古典甚至现代计算语言学家的关注。一个例外是Sproat 2000年的正字法形式理论[8]包含了几个现代书写系统，包括俄语、汉语和韩语：他的主要目的是分析编码文本语料库，以便驱动（控制）一个可理解的文本到语音合成系统；他指出，这需要在“浅”和“深”两个层次上建立有限状态模型；他还指出，这种完整的模型不太可能从纯统计推断的训练数据中学习。Nunberg 1990年深思熟虑的研究[5]表明，英语中的标点规则比最先进的OCR机器中使用的正则表达式要复杂得多。

结论

在书写系统的历史上，一些对文档图像分析研究和开发社区具有潜在重要性的明显趋势，据所知，没有得到任何形式的持续学术关注。目前作者还不清楚对黑白（双层）文档早期和持续占主导地位的原因的仔细研究。尽管人们对某些（主要是西方和亚洲）字母（以及音节、表意文字系统等）的演变了解得很多，但有关从开放符号集到有限和固定符号集的关键转变的细节却常常缺失。（有趣的是，将这一事实与所有现存语言中词典的持续开放性进行对比。）在大多数有着悠久历史的书写系统中，符号图形已经从复杂的形式稳步发展到相对简单的形式。在活生生的记忆中，汉文书写系统经历了对更小符号集和简化字形的戏剧性改进。一个现在看来异常甚至尴尬的事件发生在早期OCR系统的制造商对处理自然出现的印刷文本感到绝望，并发明了OCR-A和OCR-B等“OCR字体”以使他们的问题更简单，然后认真地（如果没有效果的话）提出了广泛的商业用途。

2 Document Creation, Image Acquisition and Document Quality

Contents
Introduction. ........................................................................................ 12
Document Creation Materials...................................................................... 12
Writing Substrates. ............................................................................. 12
Inks. ............................................................................................. 17
Writing and Printing Processes. ................................................................... 20
HandHeld Writing Instruments. ............................................................... 20
Machine Printing ............................................................................... 23
Acquisition Methods. .............................................................................. 39
Flatbed Scanner and Fax Machine Acquisition............................................... 39
Cameras and Mobile Devices. ................................................................. 44
Video............................................................................................ 46
Other Specialty Modes. ........................................................................ 47
Document Quality.................................................................................. 48
Factors Affecting Document Quality.......................................................... 48
Effects of Document Quality on Analysis and Recognition Results. . .... .... ..... .... .... .. 50
Models of Document Degradations. ........................................................... 51
Conclusion. ......................................................................................... 59
References. .......................................................................................... 60
Further Reading. ................................................................................ 60
摘要

本文概述了用于创建文档的材料、创建打印文档的方法以及获取该文档的数字版本的方法。介绍了当前和历史的方法、材料和过程。除此之外，还讨论了图像降级可能进入进程的位置。所有这些都与这些方面如何影响文档识别能力有关。

简介

文档可以手工创建，也可以通过机器创建。在这两种情况下，有几个因素影响最终外观，包括含量、颜料、将颜料转移到纸张上的仪器以及纸张本身。人或机器如何感知文档外观取决于文档是如何获得的。纸上被认为是好质量的东西，当直接被人眼接收并被人脑处理时，当数字化后再在监视器上观看时，并不总是被认为是好质量的。同样，一个人认为原始或数字化版本的良好感知质量并不总是能够使高精度机器识别文档内容的质量。

为了帮助解释文档源与其质量之间的关系，本章确定了质量可以降低的连接点，如其所述：

•材料——材料，如纸张和墨水；人员：以及用于创建文档的机器。

•流程-手工或机器创建打印文本的当前和过时流程。特别是过时的过程是为技术档案工作者在历史文献收藏中看到。

•获取方法——将文件转换为数字形式的方法，有助于文件图像的自动处理和识别

•模型-记录生产模型、质量度量以及质量如何影响识别结果。

文档创建材料

这是对一些材料的概述，这些材料随着时间的推移被用于创建文档，并显著地塑造了文档的外观。材料包括文件出现的基底，通常被认为是“纸”的一种形式，以及显示书面信息的墨水。纸张和墨水的选择部分是历史性的，由可用的材料和技术决定，部分是由书写或印刷过程决定的。将油墨转移到承印物上可以用书写工具手工完成，也可以用印刷机完成。图2.1包括不同材料和书写和打印方法的示例，以及它们首次引入的时间。每一个都引入了一个影响最终文件外观的新变量。

书写基底

书写基质是书写表面。令人惊讶的是，尽管自从最早的人类开始写作以来，已经有很多人开始写作，但许多基础的基础并没有改变那么多。可供研究的最古老的文字之所以被保存下来，是因为它是在石头上书写或雕刻的，或者是因为它被印在泥板上。虽然这些材料寿命长，在某些地区也很丰富，但并不特别便于携带。几乎任何能保留刷子或钢笔痕迹的便携式物质都被用作书写基质。这包括树叶、树皮、木板和布。在中国，人们在竹竿上发现了古老的文字，在印度，人们在桦树皮和棕榈叶上发现了古老的文字。玛雅人用无花果树的内部树皮在“纸”上写字，树皮上覆盖着一层薄薄的石膏状物质，文字被画在“纸”状的灰泥画上。和今天的书一样，这些书被扇形折叠成书的形式。

从纸莎草到羊皮纸和纸

最著名的古代书写材料是纸莎草，现代的文字纸就是从纸莎草中衍生出来的。早在公元前3500年，埃及人就用纸莎草来造纸。纸莎草是一种叫莎草的芦苇。去掉外皮，露出被压扁的柔软的内髓，并以直角重叠层铺设条带。这是通过敲打髓部直到植物组织破裂，并从组织的汁液形成一种胶水，将带在一起。材料在压力下干燥，一面抛光，形成一个光滑的表面，在上面写字。标准的书写单元，或者我们今天认为的“页面”，是由其中一个单元的大小演变而来的。其中的几个单元（大约20页）是通过将一个单元的边缘重叠到另一个单元的边缘，并以类似的方式将这些边缘粘合起来形成一个卷，这个卷被称为拉丁语单词“to roll”的卷。每个卷包含的信息大约相当于一本现代手写书的7到10页。单词book来自港口的名字Byblos，在铁器时代晚期希腊人通过它进口纸莎草

羊皮纸是一种书写材料，由拉伸和未经编织的动物皮制成，特别是小牛、绵羊或山羊。虽然皮革自公元前2000年起就被用于写作，但它储存得并不好，只能写在一边。羊皮纸在公元前2世纪的一种方法被开发出来，允许两面都用来书写，但里面的一面有一个更光滑的表面，羊皮纸就成为了书写的常用材料。在欧洲，从公元四世纪到文艺复兴和纸的引入，它成为主要的书写载体。用小牛或山羊的细皮制成的羊皮纸叫做牛皮纸。随着羊皮纸的使用，书写材料不再像今天的印刷书籍那样被卷起来，而是装订成册。为了印刷，拉丁圣经需要500多张小牛皮。制作书籍所需的兽皮数量使它们相当昂贵；因此，重新使用羊皮纸变得很常见。墨水是从羊皮纸上刮下来的，或者笔迹是以直角书写的，以便从视觉上区分新的笔迹和旧的笔迹。有了这种再利用的书籍被称为翻版，从希腊语“再刮一次”。即使有了这种再利用，依靠羊皮纸作为承印物的书籍产量也有限。

我们今天所认为的纸起源于公元一世纪的中国。中国人将造纸的过程保密了许多世纪，直到八世纪袭击了阿拉伯城市撒马尔罕，阿拉伯人俘虏了一些擅长造纸的中国人。随着阿拉伯人在欧洲的扩张，造纸业随之向西移动。欧洲第一家造纸厂于公元1100年在君士坦丁堡建立，造纸术一度在欧洲迅速传播，直到14世纪才在欧洲各地建立起来。在欧洲引进纸张导致书籍产量的增加，同时读者也在增加。

纸张生产

纸的生产首先是在水中把植物纤维切碎并还原成纸浆。一层薄薄的纸浆铺在筛子上，水被排出，形成毛毡。纸浆纤维被磨光并干燥。过程差异导致了现有论文的差异。纸是用手工方法生产的，已经有好几个世纪了，但这限制了纸张的数量或大小，而纸张可以在任何一次生产过程中生产。第一种机械化造纸工艺是1798年尼古拉斯·路易·罗伯特发明的，1805年亨利和西利·福德林将其商业化。

最初，造纸用的纤维主要由亚麻、黄麻、亚麻和大麻制成。从布破布中提取的纤维在17世纪是一种常见的来源。由棉纤维制成的纸叫做碎布纸。如今，这些纸张通常用于制作高质量的文件和钞票。18世纪开始试验使用稻草纤维，19世纪英国经常使用埃斯帕托草。开发了一种漂白工艺，可以用有色纤维制成白纸。从19世纪中期在萨克森州开始，大多数现代纸是由树纤维素制成的，发现这是一种合适的纸张来源，大大增加了纸张供应。木材通过机械或化学方法还原成纸浆。磨石间木浆的机械研磨引入了许多杂质，降低了纸张的质量。木质细胞壁是由木质素填充的纤维素网络构成的。机械研磨不能去除木质素，因此产量更高，但随着时间的推移木质素会使纸张变黄，使其变脆。另一种方法是添加苏打和硫酸盐等化学试剂，以分解将细胞结合在一起的木质素。如果化学试剂是苛性钠，柔软的蓬松纤维有利于封面和书写纸张。亚硫酸氢钙或亚硫酸氢镁能产生更坚固或更坚硬的纤维，从而制造出更适合印刷的纸张。随着时间的推移，这些酸会导致纸张和墨水的变质，所以硫酸钠是一种替代品，它能使纸张变得非常坚韧。化学制浆中的纤维比机械制浆中的长，因此，纸张会更结实。

无酸纸的pH值为中性，可以用温和的碱（通常是碳酸氢钙或碳酸氢镁）中和木浆和生产过程中产生的天然酸。它也不含木质素和硫。它适合存档，因为它不会在很长一段时间内变黄或变脆。如果有足够的碱性储备，这种纸可能能保存1000年。

直到十八世纪晚期，纸才基本上被铺好。纤维被放置在一个有长的平行链节的链状表面上，偶尔被一个垂直的间隙打断。这种模式可以在最后的论文中看到。在十八世纪，为了更好的印刷，编织纸被发展得更平滑。编织的金属丝网输送纸浆，纸张的纹理不再普遍。今天，编织纸被认为是一种更便宜的纸。水印，也被称为纸张标记，是有意压入谷物的图案。它们在十三世纪开始出现在纸上以表明起源。

废纸可以回收利用，代替原始的木材作为纸浆的来源。纸张必须粉碎，然后返回纸浆状态。一路上墨水必须漂白掉。当纸张返回纸浆时，纤维的长度减少了。这降低了用这种纸浆生产的纸张的质量。因此，它通常与原浆混合。

整理程序

你可能感兴趣的:(PartA Introduction, Background, Fundamentals：)

AI 图像编辑提示词参考之：背景替换
在AI图像编辑中（以FluxKontext为例），“替换背景”（BackgroundReplacement）是提升图像表现力的关键手段之一。但背景更换不仅仅是简单的视觉置换，更重要的是：确保人物主体外观不变，并与新背景在色温、色调、光影等方面自然融合。只有这样，最终图像才会呈现出“原本拍摄于该背景环境”的真实感。建议使用以下结构组织提示词：Replacethebackgroundwith[新背景]
Cool Pi CM5-LAPTOP Linux Quick Start Guide george-coolpi linux 运维服务器开源 arm开发 AI编程
MachineIntroductionCOOLPICM5open-sourcenotebookisaproductthatcombineshighperformance,portability,andopen-sourcespirit.Itnotonlymeetsthebasiccomputingneedsofusers,butalsoprovidesanidealplatformforthose
JQ+vue实现图片拼接（无限套娃版）小周同学: js vue jquery vue.js javascript jquery
css样式/*css初始化*/*{margin:0;padding:0;}/*去掉li的小圆点*/li{list-style:none;}/*去掉a的下划线*/a{text-decoration:none;}/*搜索框去除边框*/input,button,select{border:0;/*设置背景颜色为透明*/background-color:transparent;/*去掉外轮廓*/outli
[QT] QPushButton常用样式表设置
QPushButton:PushBtn->setStyleSheet(“QPushButton{border-style:none;background-color:rgb(67,138,232)}”“QPushButton:hover{background-color:red;color:white;}”“QPushButton:pressed{background-color:rgba(85,
这次是讲解一下条件函数的用法，还有一个简单的示例言青缘 mysql 数据库 redis
我是以普遍的朋友圈做的示例这个可以实现隐藏和显示朋友圈的评论现在我吧具体用法说一下首先要先把页面的大概写出来比如我这个名字我的言论2025-4-30{{is?'展开':'隐藏'}}评论好好好真好太好了然后这是css代码.post-container{width:100%;max-width:600px;margin:0auto;padding:16px;background-color:#fff;
Excel to JSON API by WTSolution Documentation wtsolutions excel与json互相转换 excel json WTSolutions api
ExceltoJSONAPIbyWTSolutionDocumentationIntroductionTheExceltoJSONAPIprovidesasimplewaytoconvertExcelandCSVdataintoJSONformat.ThisAPIacceptstab-separatedorcomma-separatedtextdataandreturnsstructuredJSO
【Vue3+element plus 】el-table滚动条、固定列fixed、表头超出内容隐藏并显示省略号_el-table-column超出隐藏
font-size:16px;}//固定列表身tbody.el-table-fixed-column–right{background-color:#072d48!important;}**原图：固定列样式与自定义的el-table整体样式不一致**![](https://img-blog.csdnimg.cn/c618134b438c4870ba99cb14a8908f42.png) **效果图
Metasploit工具Meterpreter的命令速查表 Coisini、安全开发实战篇 Metasploit工具 Meterpreter
第1步：核心命令在其最基本的使用，meterpreter是一个Linux终端在受害者的计算机上。这样，我们的许多基本的Linux命令可以用在meterpreter甚至是在一个窗口或其他操作系统。这里有一些核心的命令可以用在meterpreter。?–帮助菜单background–将当前会话移动到背景bgkill–杀死一个背景meterpreter脚本bglist–提供所有正在运行的后台脚本的列表b
Java程序猿必学第三十二篇——JS(JavaScript)基础键盘敲烂@ 程序员的“自我修养”javascript html5 chrome java
1.HTML的扩展属性div{width:180px;line-height:50px;background-color:red;text-align:center;border-radius:20px;/*设置圆角弧度*/box-shadow:30px20px20pxgray;/*盒子阴影*/}body{/*创建单个背景图*//*background-image:url(../img/002.p
【CSS】文本超过行数显示“展开”、“收起” 扶我起来还能学_ css 前端
使用css样式控制文本超过行数显示“展开”、“收起”css代码如下：.container{width:800px;position:relative;padding-bottom:20px;}.content{overflow:hidden;line-height:1;/*最多展示几行就(n*line-height)em，*/height:3em;background:yellow;}.more{
【图像去噪】论文精读：Noise2Self: Blind Denoising by Self-Supervision（N2S）十小大计算机视觉深度学习图像处理图像去噪人工智能论文阅读论文笔记
请先看【专栏介绍文章】：【图像去噪（ImageDenoising）】关于【图像去噪】专栏的相关说明，包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总（更新中）文章目录前言Abstract1.Introduction2.RelatedWork3.CalibratingTraditionalModels3.1.Single-Cell3.2
js实现百度地图的自定义marker与css3动画的交互沈大大520 css3动画扩展自定义百度地图maker js css3 javascript 前端 html5
使用过百度地图，业务需求需要对某些特定标记物进行高亮和动画标记，因此采用css3对百度地图的marker组件进行动态效果的调试，一：调用百度地图的apiDocument.map{width:100%;height:100%;background:#d5e6f5;position:absolute;float:left;}二：初始化百度地图创建实例varmap=newBMapGL.Map("map"
个人总结 - LangChain4j应用（1）艾露z AI java langchain ai 人工智能
个人总结-LangChain4j应用（1）github：Releases·langchain4j/langchain4j·GitHub官方文档：Introduction|LangChain4j简要介绍：LangChain4j是一个旨在简化大语言模型（LLMs）与Java应用程序集成的框架。ChatandLanguageModels：LanguageModel：最简单的聊天模型，简单的接收字符串，不
移动端turn.js挖坑总结进击的金城武
【1】高版本的jquery会导致turning的过程中page溢出半屏。正确版本：【2】可通过css修改翻书的底部颜色及其透明度，默认为transparent。.flipbook.page{background-color:/*底部色*/}【3】在turn.js的源文件2734行通过修改x,y的值可调整peel的大小与角度。flipMethods._showFoldedPage.call(this
HTML5中背景图片如何设置十指流玉 HTML
自己试验了很多种方式，最终发现有一种方式最得朕心～～哈哈哈哈哈先看一下效果图吧：只截取了一部分，图片的人物不会因为页面大小而变得扭曲（这一点非常重要），我已经很满足啦～～～～～下面看一下代码吧,其实也很简单。body{/*background:rgb(185,246,246);*//*设置颜色背景*/background-image:url(photo5.png);/*设置背景图片*/backgr
HTML媒体查询
宽度=768小屏，PADsm（small）>=992中等屏幕PC（这个标准有点过时，现在PC屏都很大）md（middle）>=1200超大屏lg（longgram）@mediaalland(min-width:1px)and(max-width:450px){div{background-color:deepink;}}
小程序导航设置更多内容的实现方法 racerun 小程序
在小程序中实现导航栏设置更多内容，可以通过以下几种方式实现：1.使用原生导航栏自定义按钮javascript//app.json或页面.json中配置{"navigationBarTitleText":"首页","navigationBarTextStyle":"black","navigationBarBackgroundColor":"#ffffff","navigationStyle":"d
CSS3盒子模型
div:nth-child(1){/*传统盒子模型=width+border+padding*/width:200px;height:200px;background-color:pink;padding:10px;border:10pxsolidred;box-sizing:content-box;}div:nth-child(2){/*有了这句话就让盒子变成CSS3盒子模型*//*paddin
sentinel 微服务流量治理工具，使用初步 RR1335 微服务 Gateway #Spring sentinel 微服务架构
官网入口introduction|Sentinel这是阿里巴巴的服务，中文支持很好maven配置入口https://mvnrepository.com/artifact/com.alibaba.csp/sentinel-corecom.alibaba.cspsentinel-core1.8.6sentinel控制台需要引入的依赖com.alibaba.cspsentinel-transport-s
若 VSCode 添加到文件夹内右键菜单中显示小妖666 vscode ide 编辑器
若VSCode添加到文件夹内右键菜单中显示（通过reg文件方式）-CSDN博客手动注册方式如下：win键+R键，输出regedit，打开注册表找到\HKEY_CLASSES_ROOT\Directory\Background\shell新建项vscode，并设置默认值为VSCode打开然后在vscode下在新建项command，默认值设为"C:\Users\huyun\AppData\Local\
原神4.8版本双号升级计划角色数据列表妖为邻 css css3 前端原神4.8版本数据列表 2个号升级计划角色数据
原神4.8版本升级计划数据表*{margin:0;padding:0;box-sizing:border-box;body{background:#1c3b5c;}a{color:#e6a23c;}}header{width:99vw;height:40px;display:flex;justify-content:space-between;align-items:center;backgrou
element目录树组件el-tree使用相关笔记 JoyceLeee 笔记 vue.js javascript elementui
文章目录默认配置懒加载每一级分页懒加载递归处理数据递归遍历树级结构，进行字段映射一维数组处理为树结构默认选中并展开特定节点初始化的需求场景切换tab后的需求场景禁止点击事件搜索本地搜索搜索后滚动定位结果添加图标方法一:通过伪类的background属性方法二:通过img标签引入图片修改选中的高亮(图标和颜色)选中时图标切换文字和背景的高亮可编辑树点击展开后回调点击节点图标切换显示(包含一键切换全部
css滑块开关的使用,CSS3制作滑块按钮
滑块按钮-渣图.gif查看demo结构先整理一下，这个按钮的层。分层.gif样式body{background:#eee;}/*--用绝对定位让整个按钮在页面垂直居中--*/.toggle-wrapper{position:absolute;;left:50%;top:50%;overflow:hidden;margin-left:-60px;／*--按钮向左移动一半的宽度--*／margin-t
html background-image 图片打开失败的原因 z977690557 Html html
写网页的时候遇到一个问题，在样式表里面引用background-image，没有出现效果。查了一下是提取图片的路径不对，记录下遇到问题以及解决方法。1、系统自带url引号问题这个最坑，以为系统就是god，结果神打盹了。系统自带url使用双引号：系统自带url使用单引号：这个问题是我在Mac版Pycharm上编写时遇到的，不确定在其他设备上是否存在。2、图片与不在同一个目录所有图片都放在Pictur
uni-app——uni-app background-image 绑定变量写法 dbt@L uni-app uni-app
exportdefault{data(){return{//背景图backgroundImg:"@/static/demo.png",}},}
vue中的mixin传参（混入）的用法牧杉-惊蛰 vue.js 前端 javascript
项目场景：提示：这里简述项目相关背景：在项目开发的过程中总会遇到一些需要复用的事件和逻辑，我们可以将其单独的抽离出来，放到一个js文件中，在需要的地方进行引入，比如通过mixin混入实现。用于实现把多个组件共用的配置提取成一个混入对象今天在做uniapp是遇到一个问题，uniapp在做微信小程序的时候背景图class中的background-image不生效，需要在标签中使用style，且路径需要
鸿蒙手势密码大土豆的bug记录鸿蒙开发鸿蒙 harmonyos
一.实现步骤1.直接贴代码PatternLock(this.patternLockController).sideLength(320)//宽高.circleRadius(12)//圆点半径.pathStrokeWidth(1)//线宽度.regularColor('#ffd9d9d9')//未选中圆点色.backgroundColor('#FFFFFF')//设置背景色.activeColor(
前端项目3-02：登录页面航Hang* webstorm前端项目前端 css css3 html html5
一、效果图二、全部代码码农魔盒body{background:linear-gradient(toright,#65CBF7,#B3A5FC);width:100vw;height:100vh;margin:0;}.box{width:60%;height:450px;box-shadow:05px15pxrgba(0,0,0,.8);display:flex;position:fixed;top
仿 Twitter 点赞爱心动画效果其中用到 animation hackchen html 前端 css
大概的原理，准备一张雪碧图，通过hover改变雪碧图的X坐标，达到动画的效果HTML：CSS：.heart{width:100px;height:100px;position:absolute;left:50%;top:50%;transform:translate(-50%,-50%);background:url("data:image/png;base64,iVBORw0KGgoAAAANS
css 实现一个卡片很菜很菜的人 css javascript 前端
Document.box{width:300px;height:400px;}.code{height:100px;width:360px;margin-left:-30px;background-color:white;clip-path:inset(0000round0035%35%);margin-bottom:-30px;position:relative;}.inner{width:26
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =