计算机语言学笔记(一)计算机语言学概论

1 计算机语言学概论

计算机语言学:通过建立形式化的计算模型来分析、理解和处理自然语言的学科。

自然语言处理为了解决歧义等问题,常采用下面的对策。
交互式处理:人机互助进行处理。
受限语言:限定处理文本的领域。
受控语言:限定语言的词汇和句法,降低复杂度。

1.1 计算机语言学研究方法

研究方法:规则驱动的方法,数据驱动的方法和二者融合的方法。

规则驱动的方法:语言学家对语言规律总结,形成规则知识库。研制处理算法,利用规则处理自然语言,研究人员根据结果调整规则,改进处理结果。但是,很多基于规则的系统只能在很小的子集上表现良好,不能满足真实文本处理的要求。

数据驱动的方法(统计方法):建立语料库,研究人员对自然语言进行统计建模,利用统计技术或机器学习技术,训练统计语言模型,利用模型设计算法处理语言,根据结果改进模型。
在数据驱动的方法中,语言模型通常体现为一组参数,这些参数通常表示某个语言形式发生的概率值。

融合规则驱动和数据驱动的方法:两种方法的优劣不能简单评价,如何无缝结合尚需进一步探索。

1.2 计算机语言学研究中的评测问题

为了评价各种方法的有效性,必须进行客观公正的评测,客观公正的评测有助于引导计算语言学朝着一个健康的方向发展。

1.3 计算机语言学的应用

  1. 机器翻译 2. 人机对话 3. 信息检索 4. 信息提取 5. 自动文摘 6. 文本分类 7. 拼写检查 8音字转换

你可能感兴趣的:(读书笔记,NLP)