知识图谱——中文分词(CoreNLP)

一、准备

安装 pip install stanfordcorenlp

下载Standard的CoreNLP包,解压至python的Tools目录下,处理中文还需要下载中文的模型jar文件,然后放到stanford-corenlp-full-2018-02-27根目录下即可(注意一定要下载这个文件,否则它默认是按英文来处理的)。

知识图谱——中文分词(CoreNLP)_第1张图片

二、使用

代码:

from stanfordcorenlp import StanfordCoreNLP
nlp = StanfordCoreNLP(r'D:\Python\Python37\Tools\stanford_NLP', lang='zh')
sente='配置好数据库之后,可以根据django来生成默认的数据表。'
nlp.word_tokenize(sente)

效果演示:知识图谱——中文分词(CoreNLP)_第2张图片

三、NLP功能

1.中文分词:nlp.word_tokenize(sente)

2.词性标记:nlp.pos_tag(sente)

3.语法解析:nlp.parse(sente)

4.语法关系解析:nlp.dependency_parse(sente)


 

四、词性学习

标记 含义 示例
VA 谓词性形容词  
VC 系动词 是、为等
VE “有”作为主要动词 只有当“有,没{有}”和“无”作为主要动词时(包括占有的“有”和表存在的“有”等等),被标注为VE
VV 其他动词 ('生成', 'VV'), ('默认', 'VV'),如情态动词,提升谓词(如“可能”),控制动词(如“要”、“想”),行为动词(如“走”),心理动词(如“喜欢”、“了解”、“怨恨”),等等
NR 专有名词 专有名词是名词的子集。一个专有名词可以是一个特定的人名,政治或地理上定义的地方(城市、国家、河流、山脉等),或者是一种组织(企业、政府或其他组织实体)。一个专有名词通常是独一无二,并且不能被Det+M所修饰的。
NT 时间名词 时间名词可以是介词的宾语,譬如在、从、到、等到。它们可以被问及,如“这个时候”,也可以被用以提问“什么时候”。它们也可以直接修饰VP(动词短语)或者S(主语)。像其他名词一样,时间名词可以是某些动词的论元。例子:一月、汉朝、当今、何时、今后
NN 其他名词 ('头发', 'NN')、('数据库', 'NN')
LC 方位词 ·这类方位词表示方向、位置等。它们来自名词。一些可以单独使用作为介词或动词的论元。一些可以被“最”修饰。它们不能被Det+M所修饰。 ('为止', 'LC')
PN 代词

代词包括人称代词(如我、你),当作为名词短语单独使用时为指示代词(如这、那),所有格代名词(如其)以及反身代词(如我自己、自己)。

DT 限定词 限定词包括指示词(如这、那、该)和诸如“每、各、前、后”等词。限定词不包括基数词和序列词。
CD 基数词 包括基数词并随意与一些概数词连用,如“来、多、好几”和诸如“好些、若干、半、许多、很多(如很多 学生)”等词
OD 序列词

序列词被标注为OD。我们把第+CD看做一个词,并标注它为OD。

例子:第一百。

M 度量词 度量词跟在数字后形成Det+M结构修饰名词或动词,包括类词(如“个”),表示一群的度量词,如“群”,以及公里、升等度量词。
AD  副词

副词包括情态副词、频率副词、程度副词、连接副词等,大部分副词的功能是修饰动词短语或主语。

如:仍然、很、最、大大、又、约

P 介词 介词可以把名词短语或从句作为论元。
CC,CS 并列连接词、从属连词

与、和、或、或者、还是(or)

从属连词连接两个句子,一个句子从属于另一个,这样的连词标记为CS。CS模式是:CS S1,S2和S2 CS,S1。

如:如果/CS,……就/AD……

IJ 感叹词 出现在句首位置的感叹词,如:啊
ON 拟声词

① 修饰“ON地V”中的VP:雨哗哗[ON]地[DEV]下了[AS]一夜

② 修饰“ON中的N”中的NP:砰[ON]的/DEG一声!

③ 自行成句:砰砰[ON]!

④ 一般不能被副词修饰,如:哗啦啦,咯吱。

 

你可能感兴趣的:(知识图谱)