基于二元语义的中文语序分析

论文阅读《Chinese Word Order Analysis Based on Binary Dependency Relationships》

基于二元语义的中文语序分析_第1张图片

 

 摘要

        本文基于概念词(notional words)的二元依存关系(binary dependency relationships),提出了一种词序(word order)计算方法和一种表示方案( a representation scheme)。 对句例的计算表明,SOV、OSV等的二元依存关系积可以转化为SVO的语义结构。 因此,SVO 不仅是最简单的,而且是完整的汉语句子结构。 此外,旨在表达更多内容的修饰符核心结构(modifier-core structure)阻止了句子的形成。 从这个角度看,SVO的顺序和VO和PPV的不和谐,是相反的两种规律。

1 简介

        词序研究是现代语言学最重要的领域之一,尤其是语言类型学。 格林伯格[1]将世界上大多数语言分为六种类型:SOV、SVO、VSO、VOS、OVS、OSV。 汉语词序类型尚无定论[2] [3]:有研究人员,如Shouhsin Teng, Chauncey C. Chu, Kuang Mei, Meng-Zhen Li, 认为汉语词序是SVO; 一些研究人员,例如 James H-Y。 Tai,C.N Li,Shan-fa Huang,认为汉语词序是SOV; 金立新认为汉语是SVO和SOV语言的混合体; 也有人认为SSV是汉语浊中的基本句型。事实上,在汉语中,我们可以观察到各种词序的句子。

基于二元语义的中文语序分析_第2张图片

基于二元语义的中文语序分析_第3张图片

       有一些参数有助于判断词序,如介词、后置词、首名和属格短语的顺序,或首名和修饰语等。拉波拉指出,汉语中的词序并不和谐,因为不仅有首字母(如动词+宾语),但也包括汉语中的首末句(如所有格/修饰语+动词)。汉语历史变迁中的不和谐现象——以过去动词后、现在动词前的PP为例[4]。那么,不和谐的原因是什么呢?

        本文结合北京大学语义角色标注项目的实践,提出了一种新的汉语句子语义表示方法。我们从句子中的二元依存关系入手,研究汉语句子最简单、最完整的语义形式,即对应于SVO的语序。其他词序,如SOV和OSV,可以转换成这种形式。因此,我们现在可以解释汉语语序的不和谐:首字母和首字母是两个相反的方向,首字母顺序构成完整的汉语句子,自然结束,而首字母顺序通过阻断完整的语义形式构成汉语句子的一部分短语。因此,head-initial和head-final遵循相同的语义规则:head-initial保持完整的语义形式,导致一个完整的句子,head-final破坏完整的语义形式,使句子成为一个短语,从而扩大句子。这两者遵循排中律,就像硬币的两面一样。

2        句子的语义表征

        本文来源于北京大学计算语言学研究所973项目的研究。其中一项任务是识别句子的谓词,并注释其相关参数的语义角色。

2.1      背景

        詹卫东[5]起草了语义角色标注规范。他指出,“当我们开始对现代汉语中的大规模真实文本进行语义分析和注释时,我们采取分层、逐层渲染的策略。在第一阶段,该项目旨在注释句子的基本命题意义。首先,标记谓词论元结构,系统分析句子的谓词成分和实体成分之间的语义关系。”根据该规范,我们标记了机器翻译语料库中的10623个句子[6]。更多详情请参见俞世文的《语义角色标注的认识与实践》[7]。在注释中,动词处于中心位置。标签结果的一个示例如下所示:

基于二元语义的中文语序分析_第4张图片

       在此基础上,进一步将1000个句子标记为波形语义图,这是一种二元依赖关系的简化方案。下面将描述该标记过程。

2.2  二进制依赖关系的定义

       我们认为二元依存关系是一个动词和一个名词之间,或者两个名词之间的关系,相当于朱德熙著作中的“短语”[8]。在本文中,为了简化这个问题,我们将二元依赖关系限制为动词与主语或动词与宾语之间的关系,即动词与其八个角色(代理、体验者、亲属、患者、与格、结果、内容和目标)(agent,experiencer, relative, patient, dative, result, content and target)之间的关系

2.3  二进制依赖关系的简化方案

        在汉语中,词语构成短语的方式与短语构成句子的方式相同。沈家璇认为[9],“作文不仅是汉语构词的重要方式,也是汉语造句的重要方式。汉语构词法和汉语造句法遵循相同的规律。“构成”在汉语词典中定义为“连接”,在数学中可以定义为“乘法”。两个二元依存关系的组合关系对应于传统语法句法中两个短语的组合关系。在本文中,为了研究语序,我们将两个或多个二元依赖关系之间的语义联系定义为“向量乘法”。

        对于施事句,我们将以动词或形容词结尾的二元依存关系定义为“上行关系”,以实体角色或事件角色结尾的二元依存关系定义为“下行关系”。对于非意志句,我们将非意志动词与经验者或亲属之间的二元依存关系定义为“平行关系”。此外,将平行关系视为上行关系或下行关系的一种特例,这将在另一篇文章中详细介绍。

        下表说明了这些简化关系。

 基于二元语义的中文语序分析_第5张图片

 

2.4将句子转换为波形的语义图

通常,汉语句子中有几个动词。通过简化方案,我们将一个句子转化为波形的语义图。接下来,我们将通过一个示例展示转换过程。

(9) ?

步骤1,提取二进制依赖关系的字对,如下所示:

( , ),( , ),( , ),( , ),( , ),( , )

第二步,确定词对的语义图是向上还是向下(简称向上和向下),并在简化方案中判断词对的句法词序和词对的语义顺序是否一致。二元依存关系有两个方向,一个是句子的句法语序,另一个是汉语语义关系的逻辑顺序。例如,(,)是句法顺序,而根据语义关系的逻辑顺序,(,)应该是(,),因为“agent+动词”是正确的语义顺序。如果二元依存关系的句法词序与其语义顺序一致,我们认为其方向是正向的。正向包括向上正向和向下正向。如果二元依赖关系的方向为正,我们不会在波形的语义图上标记额外的标记。如果二元依存关系的句法词序与其语义顺序不一致,我们认为其方向是否定的。负向包括向上负向和向下负向。如果二元依赖关系的方向为负,我们将在二元依赖关系的简化形式中添加“”。因此,我们得到了简化的词对语义形式,如下所示:

上,上,下,下,上

第三步,将整个句子转换成波形的语义图,如下所示:

#上涨%(上涨)下跌%(上涨%(下跌)#

“#…#”表示两个二进制依赖关系共享一个谓词;“%(…)”指嵌套在括号内的从属二进制依赖关系;表示负向;“*”意思是“乘”。

现在我们有1000个句子波形的语义图。下面给出了更多的例子。

桌子波形语义图与例句

波形语义图

例句

 

词对

向上的

向下

#上下#

#上升下降%(#上升下降#)#

#向下#

#上下和O#上下和S

上升下降和O#U p&s上升和s#上升和s下降#上升和s下降

 

?

 

“&”表示二元依赖关系的主语或宾语是另一个二元依赖关系的主语或宾语。“&”后面的字母表示它是词对中的主语或宾语。

2.5波形语义图的功能

如前所述,波形语义图中包含两种顺序信息。一个是句法语序,另一个是逻辑语序。句法顺序显然是已知的,而通常的逻辑语义顺序也是已知的。对于一个句子来说,有时这两种命令匹配得很好,有时这两种命令相互交叉。语序信息可以用来计算语义,逻辑语序信息有助于判断语序类型。

在第三节中,我们将使用波形的语义图来判断汉语的语序类型,从现象到具体的句子例子。举例说明,通过波形语义图可以将SOV、OSV、VOS的语序转换为SVO的语序。虽然这些例子是单独的实例,但它们的波形语义图是SOV、OSV和VOS的一般形式,因此这些实例具有共同的意义。SVO的顺序在句法和语义上具有先天的完整性,对应于句子最简单的完整语义形式。

波形语义图不仅有助于我们得出汉语语序是SVO的结论,而且也让我们知道汉语中修饰核心结构的必然存在。SVO顺序包含修饰符核心顺序。我们将在第4节中讨论这一点。

3                最简单完整的句子形式:SVO的顺序

汉语的词序是SVO。从第3.1部分的现象中观察到了该结论,并在第3.2部分的示例中进行了说明。

3.1现象

如果我们把“并行”看作是“向上”或“向下”的特例,那么只有两种二元依赖关系,即“向上”和“向下”。两种关系的二元组合有四种可能的结果,可以描述为:{向上*向上},{向上*向下},{向下*向上},{向下*向下},而“*”表示“乘法”。这四种类型都出现在汉语中。在这些情况下,{向上*向下}是最常见的。如果我们把一个汉语句子看作是二元依存关系的组合,很容易发现{up-gong*down-gong}是汉语简单句的典型形式,语义上的{up-gong*down-gong}对应于句法上的SVO顺序。

3.2词序的计算和转换

我们提出汉语句子最简单完整的语义组合形式是{up-go*down-go},它与主谓宾结构相对应。下面的示例演示如何通过计算将句子从其原始波形语义图更改为“#向上走*向下走#”。通过计算,大多数汉语句子,如SOV、OSV、VOS,都可以转换成SVO顺序。当然,出现了一些例外情况,

例如,“”,其波形语义图为“#向上走*向下走”,旨在表达某种情绪。

现在,我们有了计算规则,“向上”和“向下”是两个相反的语义方向。对于二元依存关系,如果其句法词序与波形语义图的语义顺序一致,则其方向值为“1”,否则,其方向值为“-1”。有些词,如介词,经常改变正常的词序。例如,”

                       ,动词“”前面的命题“make the object”。

本文给出了一个常数“c”来表示这些改变正常语序的单词。

设置:

S代表句子

A代表主谓顺序

B表示动宾顺序

向上的缩写

Down是Down的缩写

那么,

如果主谓顺序是向下的,那么-1*A如果动宾顺序是向上的,那么-1*B

#A*B=1*B*A*c*A=-1*AC*B=-1*B

乘法规则适用于方向的合成。产品规则如表3所示。

桌子产品规则

1

 

1

-1

              -1                                    -1

    1

通过语义层面上波形转换的语义图,说明了如何将SOV、OSV、VOS的语序转换为SVO的语序。

(10)

            [%patient%][%agent%][\

波形:向下*向上

算计

      B=(,)==-1*向下

       A=()=上升

       S=B*A=#向下*向上#=-1*#向上*(-1*向下)#=#向上*向下#

(11)

            [%agent%][%content%]

#]

            波形:#U*(c*向下)#

算计

       A=(,)=上升

      B=(,)=

      c=命题“

       S=A*c*B=#向上*c*#

=#向上*(-1*(-1)*向下)#

(12)

         [##][%content%][%agent%]

波形:向下*向上

计算:

这里的计算仅限于“”,如果不包括命题“”。

B=(,)=向下

A=(,)=上升

S=B*A=#向下*向上#=#向下*(-1)*向上#

=#(-1*(-1)*向上*向下#

=#向上*向下#

在上述示例中,示例(10)的语序为OSV,示例(11)的语序为SOV,示例(12)的语序为VOS,其波形语义图为“#上行*下行#”,对应于SVO的语序。示例(10)和(11)是语法句子,显示了波形“#向上*向下”的句法和语义完整性。虽然示例(12)的波形可以转换为“#向上*向下”的形式,但它不是一个句子,而是一个短语。示例(10)、(11)和(12)的波形都是相同的,但语法不同。例(10)和(12)表明,虚词在波形的生成中起着重要作用。在例(10)中,如果一个语法句子的宾语在主语和动词之间,则必须使用命题等来生成正确的语序——两个否定构成肯定。在例(12)中,代理和动词之间有一个命题“”。由于命题“”和升序的负序,SVO序的独立句变为修饰语核心结构。

因此,在今后的研究中,虚词将被考虑在内。

我们认为汉语单句的语序是SVO,这是由汉语的二元语义结构决定的。另一种语序可以通过波形语义图转换为SVO语序。在语料库中,句子远远不是简单的形式。二进制依赖关系存在各种不完全、移位、交叉连接和嵌套。如何理解和计算这些复杂的句子是后续的工作。

我们通过示例(12)引出下面的第四部分。它从主语谓词结构更改为修饰语核心结构。在汉语中,修饰语(定语和状语)位于中心词之前,表示中心在后面,动词位于宾语之前,表示中心在前面。他们是不和谐的。现在我们可以说,这种不和谐是SVO语序带来的必然结果。换句话说,修饰符核心顺序包含在SVO顺序中。

4          SVO订单补充:以修饰符核心订单为例

根据朱德熙教授的定义,短语结构为二元结构,不包括短语嵌套,修饰语核心结构由修饰语和中心词两部分组成,中心词出现在修饰语之后。中心词可以是实体词,也可以是表语词。本文不涉及名词之间的关系,我们的讨论仅限于带谓语修饰语的短语。但从功能上讲,由于朱德熙教授把这两种语言放在一起,他强调的是语序的变化,而不是演讲中各个部分的组合。我们认为语序变化的目的是为了突破限制,扩展语义内容,无论是实质性的还是表语性的。

修饰语核心短语有两种:带命题“”或不带命题“”。两种修饰语核心短语使用不同的方法来达到相同的目的。

没有命题“”的修饰语核心短语是唯一与语义顺序相反的短语类型。例如,这里有两个短语,“

“,”,“,”是主语,“,”是谓语,正常的语义形式是“”,但作为修饰语核心短语,“,”是修饰语,“,”是中心词,中心词在修饰语之后。这些短语在波形中必须是“向上”。这种逆序导致主谓结构的独立性,削弱了自然包含在波形“向上走*向下走”中的句子的完整意义,最后没有停止句子。所以我们可以继续发展句子,增加内容的大小,表达更丰富复杂的内容。

因此,修饰语的核心顺序就像一个障碍,阻止句子变成语法句子。为了达到这一目的,命题“”具有相同的功能。以下例子来自朱德熙教授:

(13) /

(14) /

主谓短语用作状语,如果省略短语中的命题,则修饰语核心短语成为连接谓语短语。命题“”取消了句子的独立属性,与相反的语序相同。

为什么我们可以说修饰符核心顺序必须包含在SVO顺序中?因为每件事都有两面性。如上所述,“#向上*向下#”是二元依存关系二元组合中最简单的语义形式,对应于汉语简单句的完备性。SVO的语序对应于波形的“#向上*向下#”语义图,这是汉语的基本语序。SVO是硬币的正面——如何组成语法句子。修饰语核心顺序(包括PPV)是硬币的背面——如何停止组成语法句子。相反的语序或命题有助于避免形成句子。所以,SVO顺序和修饰语核心顺序遵循相同的规律:我们应该有一个句子形式吗?它们以相反的方式是同一条法律。

5                结论

本文提出了一种简体中文语义表示方案——波形语义图。我们发现SVO顺序对应于波形“#向上*向下#”,其他词序,如SOV、OSV、OSV,可以通过波形转换为SVO顺序。人们对自然造句的顺序有完全的理解。修饰语核心顺序是一种对SVO的否定顺序,一种对句子完整性的否定顺序,用于语义扩展,使一个句子包含更详细、更丰富、更严谨的信息。所以,我们可以说VO/PPV并不是对立的,它们体现了同一法则的两个方面,它们是排除中间法则的例子。

工具书类

1.    格林伯格,J.H.:语法的一些共性,特别涉及有意义元素的顺序。陆炳福、陆志吉:中文版。J《国外语言学》,第2期,第45-60页(1984年)。

2.    陆炳福:《语序优势及其认知解释》。当代语言学。第1期:1~15期(2005年)。

3.    安玉霞:《汉语语序研究综述》。J《汉语学习》,第6期,第44~51页(2006)。

4.    刘党庆:《语序类型学与介词理论》。商业出版社,北京(2003)

5.    詹卫东:语义角色标注规范。待发表。

6.    语义资源及相关理论综述,http://ccl.pku.edu.cn/973_sem_spec/

7.    余世文:语义角色标注的认识与实践。待发表。

8.    朱德熙:语法讲义。商业出版社,北京(1982年)

9.    沈家璇:六篇语法讲稿。商业出版社,北京(2011)

 

 

 

你可能感兴趣的:(自然语言处理,深度学习,神经网络)