关于word文档格式化工具需求

基本应用场景

目前工作中需要进行报告编写。使用的软件是word2003、word2007、word2010、word2013等。主要的word格式是doc和docx。文档的使用规模为500页~800页。且包含有大量公式和图片

遇到的问题

各个章节的文档由不同人编写,使用的word环境各不相同。最终需要将各个章节文档合并为一个文档,并且要求最终样式统一,满足最终报告的格式规范要求。因此在合并文档过程中出现了以下问题:

  1. 由于各个章节文档由不同人编写,文档内格式不统一,因此需要在合并文档之后,通过格式刷等工具进行格式化处理。但是对于一篇500页以上的文档,这种针对每一段进行的格式化操作,包含了大量的重复性劳动,从而容易出现各种各样的人工失误,需要各种审阅校对等额外工作,无法在文档合并任务紧迫的情况下保持文档质量。

  2. 由于合并文档过程中,各个章节文档都带入了自身的样式信息,全部的样式均混合在同一个word文档之中,样式之间出现了命名冲突,链接丢失等现象。在此基础上进行段落的格式化操作以及编号操作,经常会出现不明原因的编号混乱,或者格式混乱等现象。

  3. 由于文档本身体积庞大(约200MB),造成word进行文档保存过程中通常需要很多时间,并且多次出现重新分页等耗时操作。同时由于文档体积庞大,使得word软件在处理文档过程中经常出现死机,从而丢失工作成果。

  4. 由于人工编写不谨慎,造成文档内各个表号图号存在不对应的情况。并且无法统一管理表号、图号、公式号等信息。

  5. 由于对于分页和分节的应用不合理,奇偶页的页眉页脚出现了链接错误问题,并且易出现页码总页数没有更新的情况。

功能需求

针对以上问题,衍生出对于文档格式化工具软件的一些功能需求,如下:

  1. 能够自动对文档进行格式化操作。由于目前主要的重复性劳动集中在对各级标题和正文的格式化操作上,因此主要针对各级标题和正文进行自动格式化操作处理。

  2. 能够自动清理文档之中的样式列表,删除没有使用的样式,并保证文档内保留样式的准确性和可用性,全部其他衍生样式都基于保留样式进行设置。

  3. 通过子文档的方式对大型word文档进行章节划分,为每一个比较大的独立章节提供独立的文档,减少word软件一次性载入的文档数量。并能够顺利生成目录,以及自动页号等功能。

  4. 依照图号和表号的规定,在全篇文章内检索图号表号,并为其增加自动题注的域链接,从而保证文档更改后,也能够自动更新全部的域

  5. 依照页眉页脚的样式规则,自动替换整篇文档的页眉页脚,并对其链接和总页数进行更新。

技术基础

针对以上功能需求,进行文档格式化工具软件的编写还需要以下的技术储备

  1. 需要能够对word文档进行处理的开发包,目前采用微软提供的open xml sdk,能够处理最新的docx文档。

  2. 需要对Open Xml Sdk的功能接口进一步熟悉。利用其接口进行word文档的操作和修改。

  3. 需要对微软的docx文档格式进行进一步的学习,了解其文档结构关系,从而保证最终的文档正确性。

  4. 针对具体的功能需求找到合理的功能实现方案,将各个功能需求进行模块化划分,并最终整合在插件式的软件框架之中,便于之后对具体模块进行独立维护。

开发环境

  1. VS2010 C#

  2. Open XML SDK

  3. Office Word 2010

  4. Json工具包:Newtonsoft.Json.dll



你可能感兴趣的:(docx,格式化,需求)