Python【jieba】词性标注表

文章目录

  • jieba词性标注表(0.39版)
    • 读取jieba词库,生成词性标注表,保存为excel
    • 带词性的分词
    • 词与词性间映射
    • en2cn字典映射
    • 0.42版后paddle模式词性和专名类别标签
  • 其它词性标注表
    • nltk词性标注表
    • 百度AI词性标注表
      • 用于【句法分析】
      • 用于【词法分析】
    • pyltp词性标注表
    • 补充

jieba词性标注表(0.39版)

en cn e.g. 数量
a 形容词 高 明 尖 诚 粗陋 冗杂 丰盛 顽皮 很贵 挺好用 … 4306
ad 副形词 努目 完全 努力 切面 严实 慌忙 明确 仓惶 详细 … 110
ag 形语素 详 笃 睦 奇 洋 裸 渺 忤 虐 黢 怠 峻 悫 鄙 秀 … 46
an 名形词 麻生 猥琐 腐生 困苦 危难 负疚 刚愎 危险 悲苦 … 40
b 区别词 劣等 洲际性 超常规 同一性 年级 非农业 二合一 … 1363
c 连词 再者说 倘 只此 或曰 以外 换句话说 虽是 除非 … 504
d 副词 幸免 四顾 绝对 急速 特约 从早 务须 逐行 挨边 … 2422
df 不要 不要 1
dg 副语素 俱 辄 2
e 叹词 好哟 嗄 天呀 哎 哇呀 啊哈 嗳 诶 嗬 呜呼 哇塞 … 34
f 方位词 内侧 以来 面部 后侧 面前 沿街 之内 两岸 里 … 351
g 语素 媸 璇 戬 瓴 踔 鳌 撄 絷 膑 遘 醢 槊 胂 鹎 豳 … 969
h 前接成分 非 超低 2
i 成语 绿荫蔽日 振耳欲聋 沧海一粟 一望无边 为尊者讳 … 25583
j 简称略语 交警 中低收入 四个现代 经检测 青委 车改 … 1396
k 后接成分 型 者 式 们 4
l 习用语 不懂装懂 相聚一刻 由下而上 十字路口 查无此人 … 17721
m 数词 九六 十二 半成 戊酉 俩 一二三四五 丙戌 片片 … 13178
mg 数语素 寅 巳 2
mq 数量词 半年度 四方面 十付 三色 一口钟 四面 三分钟 … 80
n 名词 男性 娇子 气压 写实性 联立方程 商业智能 寒窗 … 117902
ng 名语素 诀 卉 茗 鹊 娃 寨 酊 钬 雹 役 莺 谊 隙 族 鸩 … 280
nr 人名 雍正皇帝 小老弟 唐僧骑 铁娘子 小甜甜 璐 … 72842
nrfg 古近代人名 刘备 关羽 张飞 赵云 任弼时 … 484
nrt 音译人名 米尔科 达尼丁 三世 五丁 塞拉 埃克尔斯 贝当 … 5941
ns 地名 南明 锡山 拱北 南非 哥里 平北 丹井 佛山 广州 … 17706
nt 机构团体 浙江队 中医院 中华网 铁道部 广电部 联想集团 … 4713
nz 其他专名 培根 补丁 圣战士 英属 国药准字 … 10441
o 拟声词 哈喇 咝 哗喇 咔喳 飕 哇哇 喃 咕隆 咿呀 唧咕 … 247
p 介词 顺当 顺着 借了 连着 乘着 除了 较之于 根 自 … 114
q 量词 毫厘 盅 封 千瓦小时 立方米 盎 座 毫克 张 斛 … 232
r 代词 该车 这时 那些 甚么 鄙人 此案 睿智者 他 怎生 … 759
rg 代语素 1
rr 代词 偺们 妳们 其他人 3
rz 代词 这位 1
s 处所词 世外 肩前 舷外 手下 耳边 兜里 盘头 桌边 家外 … 591
t 时间词 新一代 清时 先上去 月初 昔年 无日 唐五代 佳日 … 1768
tg 时间语素 昔 晚 春 现 暮 夕 宵 7
u 助词 则否 等 恁地 等等 似的 来说 矣哉 来看 般 的话 … 20
ud 1
ug 1
uj 1
ul 1
uv 1
uz 1
v 动词 批发 孕育 作成 纳闷儿 遭殃 留话 吻下去 创生 … 34761
vd 副动词 狡辩 持续 逆势 3
vg 动语素 悖 谏 踞 泯 濯 掳 诌 疑 诲 吁 囿 酌 蟠 豢 匿 … 160
vi 动词 沉溺于 等同于 沉缅于 徜徉于 4
vn 名动词 审查 相互毗连 销蚀 对联 劳工 漫游 … 3235
vq 动词 捱过 唸过 去过 去浄 4
x 非语素字 舭 珑 婪 躅 蕺 蜓 螂 窀 蘅 葜 姆 榍 虺 楂 … 367
y 语气词 吓呆了 呃 呀 兮 哩 呐 嘞 哇 呗 意谓着 也罢 啦 … 49
z 状态词 歪曲 飘飘 慢慢儿 急地 沉迷在 晕呼呼 … 2624
zg zg 鮛 瑑 灘 鄼 緣 嗙 獘 洅 暠 埄 涚 鞞 檺 肸 撻 … 5666

jieba是参照【ICTCLAS 汉语词性标注集 中科院】的

读取jieba词库,生成词性标注表,保存为excel

import jieba, pandas as pd, os
jieba_dict = os.path.dirname(jieba.__file__) + '/dict.txt'
df_jieba = pd.read_table(jieba_dict, sep=' ', header=None)[[2, 0]]
dt = {k: set() for k in df_jieba[2].values}
for f, w in df_jieba.values:dt[f].add(w)
ls_of_ls = [(f, len(w), ' '.join(list(w)[:50])) for f, w in dt.items()]
pd.DataFrame(ls_of_ls, columns=['flag', 'count', 'e.g.']).sort_values('flag').to_excel('flag.xlsx', index=None)

带词性的分词

import jieba.posseg as jp
print(jp.lcut('我爱西樵山'))

[pair(‘我’, ‘r’), pair(‘爱’, ‘v’), pair(‘西樵山’, ‘ns’)]

词与词性间映射

from jieba.posseg import dt
print(dt.word_tag_tab)

en2cn字典映射

flag_en2cn = {
    'a': '形容词', 'ad': '副形词', 'ag': '形语素', 'an': '名形词', 'b': '区别词',
    'c': '连词', 'd': '副词', 'df': '不要', 'dg': '副语素',
    'e': '叹词', 'f': '方位词', 'g': '语素', 'h': '前接成分',
    'i': '成语', 'j': '简称略语', 'k': '后接成分', 'l': '习用语',
    'm': '数词', 'mg': '数语素', 'mq': '数量词',
    'n': '名词', 'ng': '名语素', 'nr': '人名', 'nrfg': '古代人名', 'nrt': '音译人名',
    'ns': '地名', 'nt': '机构团体', 'nz': '其他专名',
    'o': '拟声词', 'p': '介词', 'q': '量词',
    'r': '代词', 'rg': '代语素', 'rr': '代词', 'rz': '代词',
    's': '处所词', 't': '时间词', 'tg': '时间语素',
    'u': '助词', 'ud': '得', 'ug': '过', 'uj': '的', 'ul': '了', 'uv': '地', 'uz': '着',
    'v': '动词', 'vd': '副动词', 'vg': '动语素', 'vi': '动词', 'vn': '名动词', 'vq': '动词',
    'x': '非语素字', 'y': '语气词', 'z': '状态词', 'zg': '状态语素',
}

0.42版后paddle模式词性和专名类别标签

标签 含义 标签 含义 标签 含义 标签 含义
n 普通名词 f 方位名词 s 处所名词 t 时间
nr 人名 ns 地名 nt 机构名 nw 作品名
nz 其他专名 v 普通动词 vd 动副词 vn 名动词
a 形容词 ad 副形词 an 名形词 d 副词
m 数量词 q 量词 r 代词 p 介词
c 连词 u 助词 xc 其他虚词 w 标点符号
PER 人名 LOC 地名 ORG 机构名 TIME 时间
from jieba import enable_paddle, posseg
enable_paddle()
print(posseg.lcut('小基基在南海注册桂城人工智能公司'))
print(posseg.lcut('小基基在南海注册桂城人工智能公司', use_paddle=True))

其它词性标注表

nltk词性标注表

abbreviate full name description
CC Coordinating conjunction 连接词
CD Cardinal number 基数词
DT Determiner 限定词(this,those,such)不定限定词(any,each,every,either,all,many,other)
EX Existential there 存在句
FW Foreign word 外来词
IN Preposition or subordinating conjunction 介词或从属连词
JJ Adjective 形容词或序数词
JJR Adjective, comparative 形容词比较级
JJS Adjective, superlative 形容词最高级
LS List item marker 列表标示
MD Modal 情态助动词
NN Noun, singular or mass 常用名词 单数形式
NNS Noun, plural 常用名词 复数形式
NNP Proper noun, singular 专有名词,单数形式
NNPS Proper noun, plural 专有名词,复数形式
PDT Predeterminer 前位限定词
POS Possessive ending 所有格结束词
PRP Personal pronoun 人称代词
PRP Possessive pronoun 所有格代名词
RB Adverb 副词
RBR Adverb, comparative 副词比较级
RBS Adverb, superlative 副词最高级
RP Particle 小品词
SYM Symbol 符号
TO to 作为介词或不定式格式
UH Interjection 感叹词
VB Verb, base form 动词基本形式
VBD Verb, past tense 动词过去式
VBG Verb, gerund or present participle 动名词和现在分词
VBN Verb, past participle 过去分词
VBP Verb, non-3rd person singular present 动词非第三人称单数
VBZ Verb, 3rd person singular present 动词第三人称单数
WDT Wh-determiner 关系限定词(whose,which)疑问限定词(what,which,whose)
WP Wh-pronoun 代词(who whose which)
WP Possessive wh-pronoun 所有格代词
WRB Wh-adverb 疑问代词(how where when)
import nltk
text = 'Sweat is the lubricant of success'
words = nltk.word_tokenize(text)
tags = nltk.pos_tag(words)
print(words, tags, sep='\n')

[‘Sweat’, ‘is’, ‘the’, ‘lubricant’, ‘of’, ‘success’]
[(‘Sweat’, ‘NN’), (‘is’, ‘VBZ’), (‘the’, ‘DT’), (‘lubricant’, ‘NN’), (‘of’, ‘IN’), (‘success’, ‘NN’)]

百度AI词性标注表

用于【句法分析】

词性 含义 词性 含义 词性 含义 词性 含义
Ag 形语素 g 语素 ns 地名 u 助词
a 形容词 h 前接成分 nt 机构团体 vg 动语素
ad 副形词 i 成语 nz 其他专名 v 动词
an 名形词 j 简称略语 o 拟声词 vd 副动词
b 区别词 k 后接成分 p 介词 vn 名动词
c 连词 l 习用语 q 量词 w 标点符号
dg 副语素 m 数词 r 代词 x 非语素字
d 副词 Ng 名语素 s 处所词 y 语气词
e 叹词 n 名词 tg 时语素 z 状态词
f 方位词 nr 人名 t 时间词 un 未知词

用于【词法分析】

词性 含义 词性 含义 词性 含义 词性 含义
n 普通名词 f 方位名词 s 处所名词 t 时间名词
nr 人名 ns 地名 nt 机构团体名 nw 作品名
nz 其他专名 v 普通动词 vd 动副词 vn 名动词
a 形容词 ad 副形词 an 名形词 d 副词
m 数量词 q 量词 r 代词 p 介词
c 连词 u 助词 xc 其他虚词 w 标点符号
PER 人名 LOC 地名 ORG 机构名 TIME 时间

示例

对比句法分析,缺少了

词性 含义 词性 含义 词性 含义 词性 含义 词性 含义 词性 含义
Ag 形语素 g 语素 vg 动语素 Ng 名语素 dg 副语素 tg 时语素
i 成语 l 习用语 j 简称略语 - - h 前接成分 k 后接成分
o 拟声词 y 语气词 e 叹词 - - b 区别词 z 状态词

pyltp词性标注表

Tag Description e.g.
a adjective 美丽
b other noun-modifier 最高
c conjunction
d adverb 非常
e exclamation
g morpheme
h prefix
i idiom 百花齐放
j abbreviation 公检法
k suffix
m number
n general noun 鸡蛋
nd direction noun 右侧
nh person name 白居易
ni organization name 医院
nl location noun 城郊
ns geographical name 佛山
nt temporal noun 昨日
nz other proper noun 对乙酰氨基酚
o onomatopoeia 乒乓
p preposition
q quantity
r pronoun
u auxiliary
v verb 打架
wp punctuation
ws foreign words APP
x non-lexeme
z descriptive words 冷冰冰

补充

en cn
adjective 形容词
adverb 副词
auxiliary adj. 辅助的;n. 助动词;
abbreviation 缩写
conjunction 连词
determiner 限定词
interjection 感叹词
noun 名词
numeral n. 数字;adj. 数字的
onomatopoeia 拟声词
preposition 介词
pronoun 代词
quantifier 量词
verb 动词
idiom 成语
prefix 前缀
suffix 后缀
attributive words 区别词

你可能感兴趣的:(自然语言处理)