COMS W4705: Natural Language Processing学习笔记(一)

COMS W4705: Natural Language Processing学习笔记(一)_第1张图片

Machine Translation(机器翻译)Information Extraction(信息提取),Text Summarization(文本归纳),Dialogue Systems (对话系统)

最基本的nlp问题叫做Tagging(词性标注)

1.语言建模问题

    一种简单的估计方法:



2.Trigram模型

       语言模型中使用最为广泛的模型叫做Markov模型

        在一个一阶马尔可夫链中,我们假设一个特定的概率只与它前面一个状态有关.

         二阶/三阶类似.

        N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关。

        

        估计:


3.语言模型复杂度评估

      COMS W4705: Natural Language Processing学习笔记(一)_第2张图片

估计方法:

Bias-Variance----简单的模型容易欠拟合,复杂的模型容易过拟合, 不能单单看perplexity来说一个模型的好坏

COMS W4705: Natural Language Processing学习笔记(一)_第3张图片

       3.1 线性插值法

COMS W4705: Natural Language Processing学习笔记(一)_第4张图片

        3.2 Discounting methods

COMS W4705: Natural Language Processing学习笔记(一)_第5张图片

COMS W4705: Natural Language Processing学习笔记(一)_第6张图片

        3.3 Katz Back-Off Models

COMS W4705: Natural Language Processing学习笔记(一)_第7张图片

COMS W4705: Natural Language Processing学习笔记(一)_第8张图片


你可能感兴趣的:(NLP,NLP)