序列模型实现词性标注

今天我们来看看 NLP 中一个很重要且基本的问题:POS。

什么是 POS?

POS:Part-of-speech tagging,即词性标注,这是一种序列标注问题,就是输入一个句子,输出每个词在这句话中的词性是什么。例如,“我喜欢吃酸辣的热狗”这句话中,“我”和“热狗”是名词,“喜欢”和“吃”是动词,“酸辣的”是个形容词。

词性种类集合是预先定义好的,单词的词性也是取决于上下文的,即同样的词在不同的语境中词性可能会有所不同。

为什么要做 POS?

正确地识别词性会有助于理解一些语言问题,比如当我们遇到了有歧义的句子,有时通过标出词性就能知道真正的意思。知道了哪个是名词,我们就知道这句话涉及了哪些主体,知道了动词是什么,就知道主体之间要做什么,知道哪些是形容词,就可以了解事物的属性如何。

词性标注还经常作为其他自然语言处理任务的特征,例如在 parsing 解析,relation extraction 关系提取,命名实体识别,情感分析,问答系统,自动生成文本等任务中都会用到词性标注。

此外 POS 还经常和词形还原一起作为预处理的步骤, 例如在情感分析任务中,如果我们想要识别讽刺性的话语,在预处理中就可以做下面几步:

  • 文字清洗:将对任务没有帮助的信息去掉,如去掉标点数字等字符。
  • 标记:将一串文本分解为单词,短语,符号等有意义的元素。
  • 词形还原:

你可能感兴趣的:(自然语言处理面试基础)