一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

A Survey of Text Alignment Visualization

  • 前言
  • 一、介绍
  • 二、调研范围
  • 三、文本对齐应用
    • 3.1校勘
      • 应用场景
      • 对准细节
      • 莎士比亚的《哈姆雷特与校勘》
    • 3.2应用二:文本重用检测与分析
      • 应用场景
      • 对准细节
      • 莎士比亚的哈姆雷特&文本重用
    • 场景三:翻译对齐
      • 应用场景
      • 对齐细节
      • 莎士比亚的哈姆雷特&翻译对齐
  • 4.文本对齐流程
    • 预处理
    • 对齐
    • 可视化分析
  • 5.文本对齐可视化
    • 5.1 序列对齐热图
      • 可视化表示
      • 应用
      • 优缺点
    • 5.2基于图的热图
      • 可视化表示
      • 应用
      • 优缺点
    • 5.3对齐条形码
      • 可视化表示
      • 应用
      • 优缺点
    • 5.4面向文本的热图
      • 可视化表示
      • 应用
      • 优缺点
    • 5.5并列视图
      • 可视化展示
      • 应用
      • 优缺点
    • 5.6 表格视图
      • 可视化表示
      • 应用
      • 优缺点
    • 5.7文本变体图
      • 可视化表示
      • 应用
      • 优缺点
    • 5.8 其他技术


前言

文本对齐是自然语言处理、计算语言学和数字人文学科等文本相关领域的基本技术之一。它将两个或两个以上的文本相互比较,目的是找到相似的文本模式,或者估计文本之间的差异或相似程度。可视化对齐结果是一项基本任务,因为它有助于研究人员全面了解个人发现和整体模式结构。根据文本大小、对齐方法,以及最重要的是,需要对齐的基础研究任务,已经开发了不同的方法来可视化和帮助理解这些模式。在这些任务的基础上,我们回顾了现有的文本对齐可视化方法,并讨论了它们的优缺点。我们最终得出了设计含义,并阐明了相关的未来挑战。

一、介绍

对齐是指在两个或多个数据对象之间发现相似和不同的模式。它是许多领域中的一项基本且广泛使用的技术,其中之一是生物信息学,其中DNA、RNA和蛋白质的序列对齐以检测可能被视为结构或功能关系证据的相似区域[69]。许多工作概述了可视化序列比对的好处[9,23,60,95]。然而,文本对齐场景不同于生物信息学中的序列对齐;因此,算法和可视化手段各不相同。

文本对齐的第一个场景是指文本批评中的校对任务,旨在调查文本不同版本之间的文本差异[99]。第一次尝试(手动)整理文本是温布尔登的整理方法,使用一根手指同步跟踪两个文本中的行,以检测差异。20世纪40年代末,查尔顿·希曼发明了一种光学拼贴器,它使用闪光灯和镜子来检测两份文件之间的差异[98]。随着计算机和数字化文本的出现,这一过程变得更加容易,自1970年以来,为此目的开发了许多算法。Needleman-Wunsch算法[71]是使用动态规划技术对齐序列以找到最佳匹配的首批算法之一。然而,Dekker指出,将此类标准序列比对方法应用于排序任务会带来与(1)交换文本片段、所谓的换位、(2)字序独立性以及(3)灵活匹配标记的必要性相关的技术和方法问题

第二种情况涉及在文本集合中发现和分析重复使用的文本段落[42]。这种对文本内容的口头或书面复制称为文本重用[29]。有意的文本重复使用以直接引用和短语的形式出现,如带翅膀的单词和智慧的谚语。在这种情况下,文本对齐的一个突出应用是剽窃检测[45],对于这一应用,将含有未确认、重复使用段落的文本与参考文档数据库进行比较。文本重复使用也可能是无意的,例如样板文件、电子邮件标题、新闻机构文本的重复、习语的使用、战斗口号等。与第一种情况相比,在分析文本集合之前,不知道是否存在不同版本的文本片段。算法是为克服检测释义、跨语言文本重复使用或剽窃思想的挑战而定制的。

基于文本对齐场景的第三种场景是翻译对齐,这是机器翻译系统中的一项基本任务[27]。文本片段在单词、句子或段落级别与其翻译对齐。这种算法产生翻译对列表,可以在未来的机器或人工翻译中重复使用,或者创建动态词典和翻译记忆。首先,对齐挑战与不同语言的词汇表有关。这不仅包括难以对齐的形态或句法现象[61],还包括相关句子有时仅传达相同含义的总体目标

尽管为这三种场景开发解决方案的驱动力不同,但发现和分析文本对齐的方法论方法部分重叠。文本对齐可视化在所有场景中都是不可或缺的,因为目标用户通常具有人文、社会和政治科学等非技术领域的背景,能够理解自动生成的模式。我们回顾了40个支持文本对齐分析的可视化界面,旨在(1)讨论七种最先进的文本对齐可视化策略,(2)强调跨多个学科的一致性,以及(3)揭示当前解决方案的冗余性。从大量相关作品中,我们提炼出设计含义,以指导文本对齐可视化的未来发展,以及与支持不足的研究任务相关的开放挑战。

二、调研范围

对齐的基本形式是查找两个数据对象之间的对应关系的过程,可视化支持对齐模式的分析。数据片段的对齐是几个领域中的一个基本应用,对齐模式的方法取决于正在处理的数据。在生物信息学中,生物序列被对齐以检测序列之间功能、结构或进化关系的相同位置[69]。该领域的许多工具都支持对齐序列的可视化分析。1尽管序列可以用文本表示,但它们并不是指我们的调查重点关注的文本写作结果。当电影的视频帧与书面文本(例如字幕)对齐时,两种不同的数据类型对齐[22,79]。音频-文本对齐已被用于解决许多问题,例如为资源有限的自动语音识别系统创建训练数据[14]。文本和图像之间的对齐也是许多研究的主题。Baraldi等人[18]开发了一种半监督方法,用于将注释文本与照明手稿中的微型插图对齐。Zinger等人[104]一直致力于文本图像对齐,将手写行中的单词图像与其文本转录对齐。但是,对齐不仅仅限于文本数据格式。在音乐中,校准算法被定制为执行音频到乐谱校准,将音乐表演的音频片段与其符号表示联系起来[70]。为了分析体育数据,已经开发了一些方法,以对齐和可视化使用不同传感器收集的跟踪数据[52],或与其他数据类型(如人工定义的事件数据)进行的跟踪数据。

所有这些应用程序都具有相同的原理。要比较的数据对象被分割成更小的单元。如果它们以不同的格式表示,它们将转换为中间格式;之后,将使用带有评分函数的算法(通常为动态规划算法)查找并对齐相关单元。我们对文本对齐的调查包括处理文本源(作品)对齐和对齐文本片段可视化的相关工作。该范围定义不包括文本派生词的对齐,如主题[10]或注释[31,49]。原始文本片段的对齐对视觉表示提出了重大挑战,因为需要保留文本的书写顺序。

调查方法
在给定的调查范围内,我们搜索相关工具和出版物。由于我们自己是这一领域的积极研究者[54-56、58、101-103],我们手头已经有了一套合适的相关工作。我们还参考了TextVis浏览器[62]来扩展我们的收藏。我们进一步使用谷歌学者浏览可视化、数字人文和计算语言学期刊和论文集,使用相关关键词,如“对齐可视化”或“排序可视化”,这进一步增加了参考文献的数量。我们分别审查了每篇论文的相关工作章节,追踪了每一篇引用的参考文献,并检查其是否符合我们的调查范围。此外,我们使用标准的谷歌搜索来查找应用可视化手段的相关翻译工具。我们调查的最终结果见表1

调查的结构
首先,我们在第3节中概述了需要进行文本对齐可视化的三个目标区域。下面是对文本对齐过程的一般描述,包括第4节中的数据和任务抽象。然后,我们讨论了我们根据应用技术分类的相关可视化,以强调第5节中文本对齐场景和底层任务的相关性。最后,我们将讨论文本对齐可视化的设计方面,从中我们将在第6节中得出相关的未来挑战。

三、文本对齐应用

以下小节提供了文本对齐场景的全面概述,以支持文本批评、文本重用检测与分析以及翻译对齐中的排序任务。我们提供了与校准任务相关的学术领域的详细信息。为了勾勒出三种文本对齐场景之间的关联性以及差异,我们以莎士比亚的《哈姆雷特》为重点解释对齐任务(见图1)。

3.1校勘

考据学是一门人文学科,研究文本是如何被创造、传播和传播的。在文本批评过程的末尾,传统上是文学(或非文学)作品的批评版,它根据文本变体重建文本的原始版本。然而,大量数字文本变体的可访问性加快了文本变体的定量比较分析。

应用场景

在传统的**文本批评(校对?)**过程中,文本学者的主要子任务之一是检查和记录文本多个变体之间的相似性和差异。这种做法被称为排序[89]。学者选择了一些文本版本进行比较,并将这些文本并排排列。不可用的文本转录需要手动转录,版本之间的变化,如省略、添加、替换和单词或短语顺序变化(换位)需要注释。文本批判性过程中观察到的手稿越多,校对任务就变得越复杂和费力。自动文本对齐通过以高精度快速整理大量变体来接管这项耗时且容易出错的任务。由于计算机既无法分析和解释排序结果,也无法评估其质量,因此需要可视化框架为学者提供自动确定路线模式的可视化描述。我们的调查表明,自动排序和可视化工具一方面支持创建关键版本的传统任务[41,56],另一方面支持调查大量文本变体排序结果的定量研究

对准细节

此应用场景中的许多工作都涉及历史文本片段,这给自动对齐算法带来了不同的挑战。文本变体可能是在不同的时间段写成的,因此,使用不同的方言,这使得查找相关文本段落变得更加困难。如果原文是口头传达的,这一点就更为关键[58]。书面版本可能使用不同的变音符号和特殊字符,并且可能包含由于数字化过程中OCR过程不准确而导致的错误。检测历史文本中经常出现的文本换位是一个巨大的挑战,需要复杂的方法。为支持排序任务而定制的对齐算法通常在字级工作,使用动态编程算法(如Needleman-Wunsch或Smith-Waterman)查找最佳对齐。精确匹配或概率匹配方法(如Levenshtein距离)用于确定单词的相似性。应用了改进,例如忽略标点符号和变音符号,并且处理小写文本提高了自动排序结果的质量。

莎士比亚的《哈姆雷特与校勘》

暂时略过

3.2应用二:文本重用检测与分析

“在最基本的层面上,文本重复使用是文本重复或借用的一种形式”[46]因此,这第一句话本身就是一种文本重用,通常会受到各种应用的影响。

应用场景

在文学、政治、历史和宗教文本中,以引用的形式重复使用文本片段是非常常见的。文本重复使用是一个广泛的术语,包括许多文体文本特征,如释义和典故。摘要也是文本重复使用的形式,因为摘要来源于原始全文。将文本片段翻译成另一种语言被视为跨语言文本重用。新闻领域是文本重复使用的主要例子,因为新闻文章通常包含大量重复。Fetterly等人[44]发现,约三分之一的网页与其他网页相似,约五分之一的网页相同。文本重复使用和剽窃之间存在着一条细线,就像借用和偷窃之间的细线一样。在剽窃中,学者隐藏了文本被借用并声称所有权的事实,这与学者提到重用的文本片段是从特定资源借用的引用形成了对比。可视化对于分析可能是剽窃指标的文本重复使用模式非常重要。

对准细节

自动文本重用系统在较高的文本层次上工作,因为它们在句子或段落级别上计算相似性。他们应用各种文本相似性度量,如字符或单词级别的n gram重叠、TD-IDF、相对频率或查询可能性[21、37、68],为每对比较的句子或段落分配分数。Bar等人[30]提出了一种方法,通过计算文本固有的内容、结构和风格三个特征维度的相似度来克服传统相似度度量的局限性。从本质上讲,历史文本包含大量重复使用的片段,并且已经开发了几个框架来自动提取这些模式[29,86],从而解决了错误数据源和有限语言资源的问题。

莎士比亚的哈姆雷特&文本重用

莎士比亚是引用最多的作家之一[66]。经常使用哈姆雷特语录的杰出代表是埃德加·爱伦·坡、查尔斯·狄更斯和沃尔特·斯科特[93]。在随笔作家威廉·哈兹利特(William Hazlitt)的作品中发现了大约2500句莎士比亚名言,其中500句是哈姆雷特的名言。定量文本分析方法可自动发现重复使用的文本片段[29]。他们收集了完整的文本集,包括源文本(如《哈姆雷特》)和参考文本(可能包含引文),如威廉·哈兹利特的作品。源文本被分割成像句子一样的片段,每个片段在参考文本中识别出相似或相等的模式。HyperHamlet项目[74]提供浏览大约9000种不同的哈姆雷特语录。图1b展示了塞缪尔·泰勒·柯勒律治作品中重复使用的“未来”的三种不同变体。如果引文是明确的,它们很容易找到,但许多作品也包含无意中重复使用的文本[66]。这也描绘了与剽窃的关系,对于剽窃,重复使用的文本段落并不是故意明确的。通过使用剽窃软件,麦卡锡和施卢特[63]发现,莎士比亚的作品本身受到了先前作品的强烈影响。

场景三:翻译对齐

应用场景

对齐细节

莎士比亚的哈姆雷特&翻译对齐

4.文本对齐流程

文本对齐是比较两个或多个文本的过程,目的是提取相似的模式并将它们链接起来,或者识别文本之间的差异。文本对齐过程的输入源通常是以并行格式组织的文本文件。下面,让T1,。。。,Tn可以是一组要对齐的单语言或多语言文本文档。

在哥德堡模型下,Collatex[40]和Juxta[59]的3位开发人员定义了一个基线模型,用于在数字人文学科中广泛应用的文本版本的自动对齐。虽然它特别关注文本变体,但它可以很好地推广到本文讨论的所有相关文本对齐场景。该模型在五个连续模块中描述了文本版本对齐,从中我们导出了一个三步模型,用于对文本对齐进行可视化分析,如图2所示。

三种应用中的文本对齐可视化分析一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第1张图片

预处理

为了准备文本源T1,。。。,对于对齐过程,需要将它们拆分为标记,以便于测量文本片段之间的相似性。通常,文本Ti被分割成形成文本单元{ti1,…,tim}的单词,为这些文本单元计算相似度,随后对齐并可视化。文本单位可以是章节、段落、句子、行或单个单词。此外,文本单元可能具有层次结构,以支持在不同层次上对齐文本。另一个预处理步骤是文本规范化,旨在减少对齐错误。它可以包括将所有标记转换为小写字符、删除标点符号或词干。此外,在某些情况下,如果有停止字列表,屏蔽停止字是有益的。这有助于在后续对齐计算中关注输入文本中相当有意义的部分。

对齐

对齐过程可以看作是一个黑匣子,它采用所有文档的文本单位T1,。。。,Tn并返回对齐的文本单位列表。通常,使用动态规划算法Needleman-Wunsch[71]或Smith-Waterman[85]结合分数函数和细化标准执行对齐。隐马尔可夫模型也在这种情况下发挥作用[43]。然而,在某些情况下,校准也是手动执行的[19]。对于每对文本Ti和Tj,对齐过程提供K个对齐文本单元元组:

在这里插入图片描述
结果是由两个阶段得到的,第一个阶段计算所有可能相似的文本单元之间的相似分数(相似度),评估比较单元之间相关性的相似性标准取决于基础任务。第二阶段是一个优化阶段,在该阶段中,将选择相似机组的最佳组合:
在这里插入图片描述

可视化分析

对齐过程提供表示相关文本单元的元组集。为了传达T1,。。。,与此相关,线形可视化解决方案发挥着重要作用。它们为领域学者提供了对齐模式的视觉描述,使他们能够分析比较文本之间的异同。视觉分析通常也允许学术反馈,即自动确定的路线被检查,并可能根据学者的知识进行修改。可视化通常根据需要对文本对齐进行可视化分析的底层用户任务进行定制。根据场景,图2说明了可以从该过程中获得的资源。
一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第2张图片

5.文本对齐可视化

本节讨论支持第3节中描述的三种应用程序场景的不同可视化技术。表1给出了为本次调查准备基础的40种定线工具中体现的可视化技术分类。

5.1 序列对齐热图

序列对齐热图用于传达不同源文本之间对齐模式的概述,通常用于导航到感兴趣的文本单元。
一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第3张图片

可视化表示

语料库T1中的每个文本Ti,。。。,Tn由一系列彩色矩形表示。矩形代表一个文本单元,通常是一个句子、段落、章节,甚至更大的文本片段。文本单位按其在文本中的显示顺序排列,对齐的文本单位放置在同一垂直轴上。只有一个单元格的垂直部分表明,对于相应的文本单元,其他文本之间不存在匹配,而序列i中的间隙表示相应的文本Ti不包含其他文本的匹配文本单元的变体。序列对齐的热图通常与其他文本对齐可视化相结合,根据需要显示细节,即允许近距离阅读比较文本。网格大小起着重要作用,文本单位越多,变化越大,为垂直部分保留的空间就越小。

应用

序列对齐的热图通常用于浏览不同的文本变体,以支持排序任务[73103]。框架LERA[82]采用着色方案来表示不同程度的变化;矩形的颜色越浅,对应的线段与其他平行线段越相似(见图7)。两部作品将序列对齐的热图应用于不同的文本层次[15,54]。例如,TexTile允许用户动态检查为整个文本、页面、行和单词级别生成的序列之间的变化,如图3所示。五级单变量配色方案用于反映参考文本中变量与其平行段之间的相似性或距离。除了排序,序列对齐的热图也被用于使用复合分类模式图(CCP)在基础文本和一组文档中可视化检测到的剽窃文本段落[75]。不同的颜色用于区分基本文件(蓝点)、频繁模式(绿色)和不频繁匹配模式(红色)。

优缺点

作为一种文本抽象,序列对齐的热图使单词、句子和段落级别的对齐模式可以感知,但它们需要与基于文本的表示相结合才能读取对齐的片段。视觉表现法适用于变化较小的文本;但是,转置片段会增加列数和空格数。
一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第4张图片

5.2基于图的热图

基于网格的热图显示了语料库中两个文本之间的对齐模式,从而可以对它们之间的文本变化类型得出结论。

一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第5张图片

可视化表示

二维网格的每个单元表示文本语料库T1,…,的两个任意文本Ti和Tj的两个文本单元tix和tjy的并置,。。。,Tn.单元格大小可能均匀,但它们也可以直观地反映相应文本单位的长度,例如,通过矩形单元格。通常,颜色用于告知tix和tjy之间关系的特定特征,例如对齐类型或匹配分数。通常,单击单元格可以更仔细地查看并列的文本单位。

应用

基于网格的热图应用于不同的文本层次结构级别。在两个应用程序中,一个单元格或一个点表示单词级别上两个文本变体之间的匹配,因此对角线模式表示文本流中的相似性[6,36]。文本重复使用浏览器[55]同样使用点阵图来突出重复或系统性文本重复使用的模式。**一个点代表一对相似的句子,点的颜色反映了匹配的分数。**文本重新使用网格[55]提供了整个文档集合的对齐信息。一个单元格代表一对经过处理的文档,颜色决定了出现文本重用模式的频率和类型。图4提供了文本重用浏览器和网格的示例。

优缺点

这种技术的一个限制是只能选择两个文本集进行比较。但是,该设计适用于所有文本层次结构级别,甚至支持文档级别的对齐。结果矩阵通常包含大量空白和冗余信息。但是,图示符的排列使对齐模式突出。
一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第6张图片

5.3对齐条形码

GuttenPlag[16]提出了一种条形码可视化方法,用颜色突出显示每页抄袭文本的数量。与这种只可视化如何重用一个文本段落的单一条形码不同,对齐条形码可视化通过显示对齐模式来传达与参考文档的关系。

可视化表示

对齐条形码通常仅限于说明两个文本之间的对齐模式。表示T1和T2的文本框的大小表示文本的长度或文本单位的数量。每个对齐元组(t1x,t2y),通常在句子级别上,以连接T1和T2中相关文本片段的相对位置的线字符串的形式绘制。以这种方式显示所有对齐元组会导致对齐模式可见。在线条旁边,可以使用矩形区域来说明整个段落的对齐方式[34]。此外,颜色可用于突出显示不同类型的路线[58]。

应用

除了排序[6,58,59]或翻译场景[34]中的并排视图外,对齐的条形码通常显示为概览可视化。它们将用户引导到连续对齐单元或转置通道的有趣模式,对齐的条形码可用于在文本中导航;图8显示了该场景的一个示例。对齐的条形码也用于分析文本重复使用模式[2]。文本重用浏览器使用颜色指示对齐文本片段的匹配分数,出现的模式通知重复或系统的文本重用。Pica[77]使用对齐的条形码来可视化剽窃行为,对观察到的文本使用T1,对整个参考文本语料库使用T2的方框区域,这使得所有剽窃片段都可以进行探索。

优缺点

对齐条形码是文本对齐抽象。这使得它们适用于长文本,但它们始终需要基于链接文本的表示,以加快知识发现。它们仅限于比较两种文本变体,通常是在线、句子或段落级别。这使得后续对齐文本片段的模式以及换位很容易识别。然而,随着由于交叉线而导致阻塞的转置数量的增加,对齐的条形码可能很难读取。

一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第7张图片

5.4面向文本的热图

然而,由于基础语料库中有大量的源文本,面向文本的热图关注的是覆盖对齐信息的单一文本。
一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第8张图片

可视化表示

聚焦文本Ti选自语料库T1,。。。,Tn和Ti的文本(流)被放大。通常,单词或短语会收到一个彩色背景,指示它们在语料库的其他文本中出现的频率,或者它们之间的差异有多大。单色调颜色贴图[51]用于区分低频和高频。

应用

并列常见[59]和版本可视化技术[78]使用这种技术来说明多个见证人之间的文本变化。它们都利用不同的饱和度来显示与基本见证Ti不同的方差水平,饱和度越高,见证差异越大(见图5)。类似地,面向文本的热图可以显示文本片段被重复使用的频率[88]。GuttenPlag[16]运用这种技术来突出显示抄袭文本段落的页面数量;饱和红色的页面包含大量重复使用的文本片段,如图6所示。

优缺点

始终为焦点中的单个文本生成视觉输出。对其他文本版本的差异进行总结,并投射到重点文本上,因此,只有通过详细的视图才能想象到与其他文本的个别关系。此外,其他文本版本之间的关系仍然是隐藏的。然而,面向文本的热图在单词、短语和段落层面上产生了出色的变化图片,并且聚焦文本可以很容易地被跟踪。

5.5并列视图

并排可视化是在不同级别显示对齐文本最常用的技术。它将比较的文本放置在一起,并突出显示对齐的单元,这些单元可以是段落、行、句子、短语或单词。导航条或对齐的条形码通常与并排模型相关联,以便于在长文本情况下通过对齐的单元进行导航。
一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第9张图片

可视化展示

并排视图保留一个矩形空间,用于显示不同对齐版本的文本T1,。。。,Tn紧挨着彼此。对齐元组不是以连接的形式显式绘制的。通常,单词或它们的背景是彩色的,以表示依赖于用例匹配或版本之间的差异。用户需要扫描平行文本以确定差异位置。互动手段,如鼠标盖,用于将单词相互关联;因此,可以根据需要显示各个路线。不同的颜色用于指示不同类型的路线。

应用

并排视图是可视化排序结果最常用的技术,通常仅限于比较两个文本变体[5、28、58、59、103]。版本控制机[81]是最早提出的可视化两个以上TEI编码文本的工具之一;第一个版本于2002年推出。虽然它提供了悬停功能以同时关联通道,但没有实现用于区分路线类型的着色方案。LERA还能够并置两个以上的变体[82]。它将插入的文本片段涂成绿色,替换部分涂成蓝色,删除部分涂成红色。图7显示了德国童话故事Rumpelstilzchen的七个并列变体的示例。版本可视化技术也使用颜色来突出不同的类型,但进一步应用颜色饱和度来指示传统的可变性[78]。至于排序,并列视图还支持分析语料库中两个任意文本之间的文本重用模式[2,55]。这些场景中文本的颜色仅表示重复使用的片段。并排视图是可视化平移对齐的首选方法。Ugarit[101]、Linguee[3]、Glosbe[1]和Reverso Context[4]等工具提供了上下文中双语关键字(KWIC)搜索功能。关键词搜索的结果是源语言和目标语言中出现关键词的翻译和并列上下文;这个词及其翻译在视觉上突出(见图9)。这种单词或短语级别的对齐也用于学术上下文[12,87,102]。Ugarit使用颜色区分对齐和未对齐的标记[101],并使用悬停功能突出显示相关标记。契斯曼等人[34]运用并列视图,通过并列两个文本,探索莎士比亚《奥赛罗》不同译本之间的翻译对齐,但也提出了基础文本和两个译本的布局。

优缺点

并列视图的一个主要限制是有限的屏幕宽度,这使得它们适用于数量有限的文本变体。用户也可能会分心,因为他们必须在平行文本之间移动眼睛来识别差异的位置。然而,在并排视图中,很容易读取变体的较大文本片段。此外,它们允许检查不同文本层次的差异,即单词、句子和段落。

5.6 表格视图

表格视图显示了小文本片段(如句子或短段落)的单词级变化。
一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第10张图片

可视化表示

以表格的形式表示,行表示不同的对齐文本单元t1x、t2y、,。。。,tnz。这些列代表对齐的标记。通常,为了显示相似性或差异,列被着色。如果文本单元不包含标记的变量读取,则单元格可能为空。

应用

表格视图广泛用于在单词级别可视化文本变量[28,72,103]。图10显示了使用CollateX[40]将六个变体转换为表格视图的示例。Alpheios[11]提供的行间文本视图采用了可视化翻译对齐的方法。Alpheios显示源文本中的每个单词及其下面显示的翻译,同时为未对齐的标记指定红色。
一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第11张图片

优缺点

使用表格视图,很容易在单词和短语级别发现对齐的模式。此外,可以很容易地遵循保留整行的文本变体。尽管这种表示法适用于变化较小的文本片段——尽管相似的模式通过冗余信息增加了空间覆盖率——但随着列数和空白量的增加,转置的段落会迅速分散视图。通常,屏幕大小限制可比较的文本变体的数量。此外,表格视图仅在单词级别工作,并为短句生成可读的表示。

5.7文本变体图

与表格视图类似,文本变体图说明了小文本片段的单词级变体,但是,使用图形结构来表示变体可以可视化其他对齐特征。
一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第12张图片

可视化表示

Schmidt和Colomb[80]是第一个使用图形来可视化多版本文本的文本差异的人。他们提出了变体图,这是一种有向无环图(DAG),节点通常表示对齐的文本单元的单词或标记。图中的边表示任何文本变体中的一对后续标记。因此,一条边表示一个版本,每个对图形起作用的文本变量在变量图形中定义一条路径。节点的大小可能反映单词在版本中出现的频率。同样,边的厚度可以显示包括相应单词对的变体数量。可以对边缘进行标记或着色,以告知相应的变体。

应用

在所有讨论的可视化技术中,文本变体图是唯一一个专门用于传达小文本片段排序结果的图形。CollateX[40]采用了这个概念来说明其排序对齐算法的结果。当边被标记时,图形通常具有较大的宽度,即使对于短文本片段也是如此。换位用虚线表示。Stemmaweb[13]扩展了这个想法,提出了一个交互式的图形版本来支持stemma分析。TRAViz[56]应用不同的视觉特征来传达各种图形的典型特征,目的是使它们更易于理解(见图11)。这包括根据频率调整节点大小、着色而不是标记边,以及一个复杂的图形绘制算法,该算法垂直对齐相关变量。WordTree[96]和WordGraph[76]采用了类似的视觉线索,但它们并不是专门为支持排序任务而设计的。Silvia等人[84]运用故事情节隐喻来形象化经典文本中的变化。该模型采用强制布局算法生成具有拓扑代表性的布局,使用户能够以合理的速度和精度读取和识别文本模式;图12显示了一个示例。

优缺点

与表格视图相比,变体图通过合并与 ken相同或相似的图形来减少冗余信息。这种策略使我们很容易在变体中发现同样不同和相似的部分。可视化输出易于创建关键版本,因为文本变体图形可以被视为自动排序结果。变量图设计的背后是单个变量并不突出,通常在用户交互后突出显示。作为表格视图,变体图目前只能在单词级别上工作,最多只能用于较短、变化较小的文本片段。
一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第13张图片
一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第14张图片

5.8 其他技术

一篇文本对齐可视化综述《A Survey of Text Alignment Visualization》机翻_第15张图片

你可能感兴趣的:(python)