NLP-语言模型

      语言模型(LM)是很多自然语言处理(NLP)任务的基础。语言模型是指对于语言序列...,计算该序列的概率,即p(...)。这里的语言序列是指有序的语言序列。

      对于任意的词序列,语言模型能够计算出这个序列是一句话的概率。比如词序列A:“CSDN|真|不错|啊”,这是一句话,一个好的语言模型会给出很高的概率。词序列B:“CSDN|的|明天|衣服|吃饭”,这显然不是一句话,如果语言模型训练的好,那么序列B的概率就非常小。

      一般我们认为一个正常的语句,它出现的概率是大于非正常的语句。比如有如下三个语句:

 1.树上 有 一颗 苹果

 2.苹果 有 一颗 树上

 3.树上 有 一颗 太阳

      此时,P1>P2>P3。这是因为正常词序的语句会比乱序的语句更常见,正常含义的语句会比无意义的语句更常见。

      假设我们要为中文创建一个语言模型,V 表示词典, V= {猫,狗,机器,学习,语言,模型,...}, 。语言模型就是指:给定词典 V ,能够计算出任意单词序列 ...是一句话的概率p( ...),其中,p≥0 。

你可能感兴趣的:(自然语言处理,自然语言处理,语言模型)