自然语言识别python_Python NLP自然语言处理之基于Jiaba分词识别时间

概念理解

词性标注:

给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。这样说比较抽象,我们用一个简单的例子来说明这儿是个非常漂亮的公园

对其词性标注结果如下这儿/代词 是/动词 个/量词 非常/副词 漂亮/形容词 的/结构助词 公园/名词

给已经分好的词做词性标注,中文里多义的,也就是不同场景下表示的语法属性完全不同。好在大多数的词,尤其是“实词”一般只有一到两个词性,并且其中一个词性使用频次远远高于另外一个。

词性标注最简单的方法是从”语料库“中统计每个词所对应的高频词性,将其作为默认词性。同时使用”隐含马尔可夫模型“、”条件随机场模型”能提高标记准确性。

使用Jieba分词进行词性标注

对文本 “ 水是人类赖以生存的基本物质” 进行词性标注#!/usr/bin/env python

# -- coding: utf-8 --

# @File : jieba_psg.py

# @Author: evenvi

# @Date : 19-4-28

# @Desc :

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import jieba.posseg as psg

sent = '水是人类赖以生存的基本物质'

seg_list = psg.cut(sent)

print(u' '.join(['{0}/{1}'.format(w, t) for w, t in seg_list]))

标注结果如下水/n 是/v 人类/n 赖以生存/l 的/uj 基本/n 物质/n

命名实体识别

一句话来讲,实体命名识别就是识

你可能感兴趣的:(自然语言识别python)