【自然语言处理】词性标注(北大,宾州)

文章目录

    • 词性标注规范
      • 前言
      • 北大词性标注集
      • 宾州词性标注集

词性标注规范

前言

         词性标注在中文领域暂无统一的标注标准,最常见较为主流的是北大宾州词性标注集。

北大词性标注集

词性编码 词性名称 注解
Ag 形语素 形容词语素。形容词代码为a,语素代码为g前面置以A
a 形容词 取英语形容词adjective的第1个字母
ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起
an 名形词 具有名词功能的形容词。形容词代码a和名词代码n一起
b 区别词 取汉字“别”的声母
c 连词 去英语连词conjunction的第1个字母
Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D
d 副词 取adverb的第2个字母,因其第1个字母已用于形容词
e 叹词 取英语叹词exclamation的第1个字母。
f 方位词 取汉字“方”
g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母
h 前接成分 取英语head的第1个字母
i 成语 取英语成语idiom的第1个字母
j 简称略语 取汉字“简”的声母
k 后接成分
l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母
m 数词 取英语numeral的第3个字母,n,u已有他用
Ng 名语素 名词性语素。名词代码为n,语素代码g前面置以N
n 名词 取英语名词noun的第1个字母
nr 人名 名词代码n和“人(ren)”的声母并在一起
ns 地名 名词代码n和处所词代码s并在一起
nt 机构团体 “团”的声母为t,名词代码n和t并在一起
nz 其他专名 “专”的声母的第1个字母为z,名词代码n和z并在一起
o 拟声词 取英语拟声词onomatopoeia的第1个字母。
p 介词 取英语介词prepositional的第1个字母
q 量词 取英语quantity的第1个字母
r 代词 取英语代词pronoun的第2个字母,因p以用于介词
s 处所词 取英语space的第1个字母
Tg 时语素 时间词性语素。时间词代码为t,在语素的代码g前面置以T
t 时间词 取英语time的第1个字母
u 助词 取英语助词auxiliary
Vg 动语素 动词性语素。动词代码为v。在语素代码g前面置以V
v 动词 取英语动词verb的第1个字母。
vd 副动词 直接作状语的动词。动词和副词的代码并在一起。
vn 名动词 指具有名词功能的动词。动词和名词的代码放在一起。
w 标点符号
x 非语素字 非语素字只是一个符号,字母x通常用于代表未知数、符号
y 语气词 取汉字“语”的声母
z 状态词 取汉字“状”的声母的前一个字母。
un 未知词 不可识别词及用户自定义词组。取英文Unknown首两个字母。

说明:在有些书中比如《python自然语言处理实战核心技术算法》这本书中,对于北大词性标注集的介绍的标记全是小写。这在此文中get到Ag,Dg,Ng, Vg四处是如此的写法。

宾州词性标注集

标记 英语解释 中文解释
AD adverbs 副词
AS Aspect marker 体态词,体标记(例如:了,在,着,过)
BA 把 in ba-const “把”,“将”的词性标记
CC Coordinating conjunction 并列连词,“和”
CD Cardinal numbers 数字,“一百”
CS Subordinating conj 从属连词(例子:若,如果,如…)
DEC 的 for relative-clause etc “的”词性标记
DEG Associative 联结词“的”
DER in V-de construction, and V-de-R “得”
DEV before VP
DT Determiner 限定词,“这”
ETC Tag for words, in coordination phrase 等,等等
FW Foreign words 例子:ISO
IJ interjetion 感叹词
JJ Noun-modifier other than nouns
LB in long bei-construction 例子:被,给
LC Localizer 定位词,例子:“里”
M Measure word(including classifiers) 量词,例子:“个”
MSP Some particles 例子:“所”
NN Common nouns 普通名词
NR Proper nouns 专有名词
NT Temporal nouns 时序词,表示时间的名词
OD Ordinal numbers 序数词,“第一”
ON Onomatopoeia 拟声词,“哈哈”
P Preposition (excluding 把 and 被) 介词
PN pronouns 代词
PU Punctuations 标点
SB in long bei-construction 例子:“被,给”
SP Sentence-final particle 句尾小品词,“吗”
VA Predicative adjective 表语形容词,“红”
VC Copula 系动词,“是”
VE 有 as the main verb “有”
VV Other verbs 其他动词

你可能感兴趣的:(自然语言处理,自然语言处理小分支)