文章目录
- jieba词性标注表(0.39版)
-
- 读取jieba词库,生成词性标注表,保存为excel
- 带词性的分词
- 词与词性间映射
- en2cn字典映射
- 0.42版后paddle模式词性和专名类别标签
- 其它词性标注表
-
- nltk词性标注表
- 百度AI词性标注表
-
- pyltp词性标注表
- 补充
jieba词性标注表(0.39版)
en |
cn |
e.g. |
数量 |
a |
形容词 |
高 明 尖 诚 粗陋 冗杂 丰盛 顽皮 很贵 挺好用 … |
4306 |
ad |
副形词 |
努目 完全 努力 切面 严实 慌忙 明确 仓惶 详细 … |
110 |
ag |
形语素 |
详 笃 睦 奇 洋 裸 渺 忤 虐 黢 怠 峻 悫 鄙 秀 … |
46 |
an |
名形词 |
麻生 猥琐 腐生 困苦 危难 负疚 刚愎 危险 悲苦 … |
40 |
b |
区别词 |
劣等 洲际性 超常规 同一性 年级 非农业 二合一 … |
1363 |
c |
连词 |
再者说 倘 只此 或曰 以外 换句话说 虽是 除非 … |
504 |
d |
副词 |
幸免 四顾 绝对 急速 特约 从早 务须 逐行 挨边 … |
2422 |
df |
不要 |
不要 |
1 |
dg |
副语素 |
俱 辄 |
2 |
e |
叹词 |
好哟 嗄 天呀 哎 哇呀 啊哈 嗳 诶 嗬 呜呼 哇塞 … |
34 |
f |
方位词 |
内侧 以来 面部 后侧 面前 沿街 之内 两岸 里 … |
351 |
g |
语素 |
媸 璇 戬 瓴 踔 鳌 撄 絷 膑 遘 醢 槊 胂 鹎 豳 … |
969 |
h |
前接成分 |
非 超低 |
2 |
i |
成语 |
绿荫蔽日 振耳欲聋 沧海一粟 一望无边 为尊者讳 … |
25583 |
j |
简称略语 |
交警 中低收入 四个现代 经检测 青委 车改 … |
1396 |
k |
后接成分 |
型 者 式 们 |
4 |
l |
习用语 |
不懂装懂 相聚一刻 由下而上 十字路口 查无此人 … |
17721 |
m |
数词 |
九六 十二 半成 戊酉 俩 一二三四五 丙戌 片片 … |
13178 |
mg |
数语素 |
寅 巳 |
2 |
mq |
数量词 |
半年度 四方面 十付 三色 一口钟 四面 三分钟 … |
80 |
n |
名词 |
男性 娇子 气压 写实性 联立方程 商业智能 寒窗 … |
117902 |
ng |
名语素 |
诀 卉 茗 鹊 娃 寨 酊 钬 雹 役 莺 谊 隙 族 鸩 … |
280 |
nr |
人名 |
雍正皇帝 小老弟 唐僧骑 铁娘子 小甜甜 璐 … |
72842 |
nrfg |
古近代人名 |
刘备 关羽 张飞 赵云 任弼时 … |
484 |
nrt |
音译人名 |
米尔科 达尼丁 三世 五丁 塞拉 埃克尔斯 贝当 … |
5941 |
ns |
地名 |
南明 锡山 拱北 南非 哥里 平北 丹井 佛山 广州 … |
17706 |
nt |
机构团体 |
浙江队 中医院 中华网 铁道部 广电部 联想集团 … |
4713 |
nz |
其他专名 |
培根 补丁 圣战士 英属 国药准字 … |
10441 |
o |
拟声词 |
哈喇 咝 哗喇 咔喳 飕 哇哇 喃 咕隆 咿呀 唧咕 … |
247 |
p |
介词 |
顺当 顺着 借了 连着 乘着 除了 较之于 根 自 … |
114 |
q |
量词 |
毫厘 盅 封 千瓦小时 立方米 盎 座 毫克 张 斛 … |
232 |
r |
代词 |
该车 这时 那些 甚么 鄙人 此案 睿智者 他 怎生 … |
759 |
rg |
代语素 |
兹 |
1 |
rr |
代词 |
偺们 妳们 其他人 |
3 |
rz |
代词 |
这位 |
1 |
s |
处所词 |
世外 肩前 舷外 手下 耳边 兜里 盘头 桌边 家外 … |
591 |
t |
时间词 |
新一代 清时 先上去 月初 昔年 无日 唐五代 佳日 … |
1768 |
tg |
时间语素 |
昔 晚 春 现 暮 夕 宵 |
7 |
u |
助词 |
则否 等 恁地 等等 似的 来说 矣哉 来看 般 的话 … |
20 |
ud |
得 |
得 |
1 |
ug |
过 |
过 |
1 |
uj |
的 |
的 |
1 |
ul |
了 |
了 |
1 |
uv |
地 |
地 |
1 |
uz |
着 |
着 |
1 |
v |
动词 |
批发 孕育 作成 纳闷儿 遭殃 留话 吻下去 创生 … |
34761 |
vd |
副动词 |
狡辩 持续 逆势 |
3 |
vg |
动语素 |
悖 谏 踞 泯 濯 掳 诌 疑 诲 吁 囿 酌 蟠 豢 匿 … |
160 |
vi |
动词 |
沉溺于 等同于 沉缅于 徜徉于 |
4 |
vn |
名动词 |
审查 相互毗连 销蚀 对联 劳工 漫游 … |
3235 |
vq |
动词 |
捱过 唸过 去过 去浄 |
4 |
x |
非语素字 |
舭 珑 婪 躅 蕺 蜓 螂 窀 蘅 葜 姆 榍 虺 楂 … |
367 |
y |
语气词 |
吓呆了 呃 呀 兮 哩 呐 嘞 哇 呗 意谓着 也罢 啦 … |
49 |
z |
状态词 |
歪曲 飘飘 慢慢儿 急地 沉迷在 晕呼呼 … |
2624 |
zg |
zg |
鮛 瑑 灘 鄼 緣 嗙 獘 洅 暠 埄 涚 鞞 檺 肸 撻 … |
5666 |
jieba是参照【ICTCLAS 汉语词性标注集 中科院】的
读取jieba词库,生成词性标注表,保存为excel
import jieba, pandas as pd, os
jieba_dict = os.path.dirname(jieba.__file__) + '/dict.txt'
df_jieba = pd.read_table(jieba_dict, sep=' ', header=None)[[2, 0]]
dt = {k: set() for k in df_jieba[2].values}
for f, w in df_jieba.values:dt[f].add(w)
ls_of_ls = [(f, len(w), ' '.join(list(w)[:50])) for f, w in dt.items()]
pd.DataFrame(ls_of_ls, columns=['flag', 'count', 'e.g.']).sort_values('flag').to_excel('flag.xlsx', index=None)
带词性的分词
import jieba.posseg as jp
print(jp.lcut('我爱西樵山'))
[pair(‘我’, ‘r’), pair(‘爱’, ‘v’), pair(‘西樵山’, ‘ns’)]
词与词性间映射
from jieba.posseg import dt
print(dt.word_tag_tab)
en2cn字典映射
flag_en2cn = {
'a': '形容词', 'ad': '副形词', 'ag': '形语素', 'an': '名形词', 'b': '区别词',
'c': '连词', 'd': '副词', 'df': '不要', 'dg': '副语素',
'e': '叹词', 'f': '方位词', 'g': '语素', 'h': '前接成分',
'i': '成语', 'j': '简称略语', 'k': '后接成分', 'l': '习用语',
'm': '数词', 'mg': '数语素', 'mq': '数量词',
'n': '名词', 'ng': '名语素', 'nr': '人名', 'nrfg': '古代人名', 'nrt': '音译人名',
'ns': '地名', 'nt': '机构团体', 'nz': '其他专名',
'o': '拟声词', 'p': '介词', 'q': '量词',
'r': '代词', 'rg': '代语素', 'rr': '代词', 'rz': '代词',
's': '处所词', 't': '时间词', 'tg': '时间语素',
'u': '助词', 'ud': '得', 'ug': '过', 'uj': '的', 'ul': '了', 'uv': '地', 'uz': '着',
'v': '动词', 'vd': '副动词', 'vg': '动语素', 'vi': '动词', 'vn': '名动词', 'vq': '动词',
'x': '非语素字', 'y': '语气词', 'z': '状态词', 'zg': '状态语素',
}
0.42版后paddle模式词性和专名类别标签
标签 |
含义 |
标签 |
含义 |
标签 |
含义 |
标签 |
含义 |
n |
普通名词 |
f |
方位名词 |
s |
处所名词 |
t |
时间 |
nr |
人名 |
ns |
地名 |
nt |
机构名 |
nw |
作品名 |
nz |
其他专名 |
v |
普通动词 |
vd |
动副词 |
vn |
名动词 |
a |
形容词 |
ad |
副形词 |
an |
名形词 |
d |
副词 |
m |
数量词 |
q |
量词 |
r |
代词 |
p |
介词 |
c |
连词 |
u |
助词 |
xc |
其他虚词 |
w |
标点符号 |
PER |
人名 |
LOC |
地名 |
ORG |
机构名 |
TIME |
时间 |
from jieba import enable_paddle, posseg
enable_paddle()
print(posseg.lcut('小基基在南海注册桂城人工智能公司'))
print(posseg.lcut('小基基在南海注册桂城人工智能公司', use_paddle=True))
其它词性标注表
nltk词性标注表
abbreviate |
full name |
description |
CC |
Coordinating conjunction |
连接词 |
CD |
Cardinal number |
基数词 |
DT |
Determiner |
限定词(this,those,such)不定限定词(any,each,every,either,all,many,other) |
EX |
Existential there |
存在句 |
FW |
Foreign word |
外来词 |
IN |
Preposition or subordinating conjunction |
介词或从属连词 |
JJ |
Adjective |
形容词或序数词 |
JJR |
Adjective, comparative |
形容词比较级 |
JJS |
Adjective, superlative |
形容词最高级 |
LS |
List item marker |
列表标示 |
MD |
Modal |
情态助动词 |
NN |
Noun, singular or mass |
常用名词 单数形式 |
NNS |
Noun, plural |
常用名词 复数形式 |
NNP |
Proper noun, singular |
专有名词,单数形式 |
NNPS |
Proper noun, plural |
专有名词,复数形式 |
PDT |
Predeterminer |
前位限定词 |
POS |
Possessive ending |
所有格结束词 |
PRP |
Personal pronoun |
人称代词 |
PRP |
Possessive pronoun |
所有格代名词 |
RB |
Adverb |
副词 |
RBR |
Adverb, comparative |
副词比较级 |
RBS |
Adverb, superlative |
副词最高级 |
RP |
Particle |
小品词 |
SYM |
Symbol |
符号 |
TO |
to |
作为介词或不定式格式 |
UH |
Interjection |
感叹词 |
VB |
Verb, base form |
动词基本形式 |
VBD |
Verb, past tense |
动词过去式 |
VBG |
Verb, gerund or present participle |
动名词和现在分词 |
VBN |
Verb, past participle |
过去分词 |
VBP |
Verb, non-3rd person singular present |
动词非第三人称单数 |
VBZ |
Verb, 3rd person singular present |
动词第三人称单数 |
WDT |
Wh-determiner |
关系限定词(whose,which)疑问限定词(what,which,whose) |
WP |
Wh-pronoun |
代词(who whose which) |
WP |
Possessive wh-pronoun |
所有格代词 |
WRB |
Wh-adverb |
疑问代词(how where when) |
import nltk
text = 'Sweat is the lubricant of success'
words = nltk.word_tokenize(text)
tags = nltk.pos_tag(words)
print(words, tags, sep='\n')
[‘Sweat’, ‘is’, ‘the’, ‘lubricant’, ‘of’, ‘success’]
[(‘Sweat’, ‘NN’), (‘is’, ‘VBZ’), (‘the’, ‘DT’), (‘lubricant’, ‘NN’), (‘of’, ‘IN’), (‘success’, ‘NN’)]
百度AI词性标注表
用于【句法分析】
词性 |
含义 |
词性 |
含义 |
词性 |
含义 |
词性 |
含义 |
Ag |
形语素 |
g |
语素 |
ns |
地名 |
u |
助词 |
a |
形容词 |
h |
前接成分 |
nt |
机构团体 |
vg |
动语素 |
ad |
副形词 |
i |
成语 |
nz |
其他专名 |
v |
动词 |
an |
名形词 |
j |
简称略语 |
o |
拟声词 |
vd |
副动词 |
b |
区别词 |
k |
后接成分 |
p |
介词 |
vn |
名动词 |
c |
连词 |
l |
习用语 |
q |
量词 |
w |
标点符号 |
dg |
副语素 |
m |
数词 |
r |
代词 |
x |
非语素字 |
d |
副词 |
Ng |
名语素 |
s |
处所词 |
y |
语气词 |
e |
叹词 |
n |
名词 |
tg |
时语素 |
z |
状态词 |
f |
方位词 |
nr |
人名 |
t |
时间词 |
un |
未知词 |
用于【词法分析】
词性 |
含义 |
词性 |
含义 |
词性 |
含义 |
词性 |
含义 |
n |
普通名词 |
f |
方位名词 |
s |
处所名词 |
t |
时间名词 |
nr |
人名 |
ns |
地名 |
nt |
机构团体名 |
nw |
作品名 |
nz |
其他专名 |
v |
普通动词 |
vd |
动副词 |
vn |
名动词 |
a |
形容词 |
ad |
副形词 |
an |
名形词 |
d |
副词 |
m |
数量词 |
q |
量词 |
r |
代词 |
p |
介词 |
c |
连词 |
u |
助词 |
xc |
其他虚词 |
w |
标点符号 |
PER |
人名 |
LOC |
地名 |
ORG |
机构名 |
TIME |
时间 |
示例
对比句法分析,缺少了
词性 |
含义 |
词性 |
含义 |
词性 |
含义 |
词性 |
含义 |
词性 |
含义 |
词性 |
含义 |
Ag |
形语素 |
g |
语素 |
vg |
动语素 |
Ng |
名语素 |
dg |
副语素 |
tg |
时语素 |
i |
成语 |
l |
习用语 |
j |
简称略语 |
- |
- |
h |
前接成分 |
k |
后接成分 |
o |
拟声词 |
y |
语气词 |
e |
叹词 |
- |
- |
b |
区别词 |
z |
状态词 |
pyltp词性标注表
Tag |
Description |
e.g. |
a |
adjective |
美丽 |
b |
other noun-modifier |
最高 |
c |
conjunction |
且 |
d |
adverb |
非常 |
e |
exclamation |
哎 |
g |
morpheme |
甥 |
h |
prefix |
阿 |
i |
idiom |
百花齐放 |
j |
abbreviation |
公检法 |
k |
suffix |
型 |
m |
number |
五 |
n |
general noun |
鸡蛋 |
nd |
direction noun |
右侧 |
nh |
person name |
白居易 |
ni |
organization name |
医院 |
nl |
location noun |
城郊 |
ns |
geographical name |
佛山 |
nt |
temporal noun |
昨日 |
nz |
other proper noun |
对乙酰氨基酚 |
o |
onomatopoeia |
乒乓 |
p |
preposition |
在 |
q |
quantity |
个 |
r |
pronoun |
他 |
u |
auxiliary |
的 |
v |
verb |
打架 |
wp |
punctuation |
; |
ws |
foreign words |
APP |
x |
non-lexeme |
翱 |
z |
descriptive words |
冷冰冰 |
补充
en |
cn |
adjective |
形容词 |
adverb |
副词 |
auxiliary |
adj. 辅助的;n. 助动词; |
abbreviation |
缩写 |
conjunction |
连词 |
determiner |
限定词 |
interjection |
感叹词 |
noun |
名词 |
numeral |
n. 数字;adj. 数字的 |
onomatopoeia |
拟声词 |
preposition |
介词 |
pronoun |
代词 |
quantifier |
量词 |
verb |
动词 |
idiom |
成语 |
prefix |
前缀 |
suffix |
后缀 |
attributive words |
区别词 |