基于统计学习方法的自然语言处理概述

NLP课程(一,NLP概述和应用场景)

AI 工程师核心技能:
现实生活中问题 —> 数学优化问题 —> 通过合适的工具来解决。

what is NLP

NLP = NLU +NLG
· NLU:语音 / 文本 --> 意思 (understanding)
· NLG: 意思 —> 文本/语音 (generate)

NLP is Harder(vs Computer Vision)

Multiple ways to express:(多语一意)
·凯美瑞是日本人设计的
·日本人设计了凯美瑞
Ambiguity(一语多意)
·买个苹果手机
·买个苹果
soving ambiguity: learning from data: 结合上下文进行语义分析。

三、基于翻译系统的自然语言处理(Machine Translation)

之前:基于人工统计规则进行翻译

缺点:计算速度慢(AI模型)、未考虑上下文、语法不对、语义不通

现在:用机器学习来学习出统计的规则来翻译

  1. 解决语法不对的问题
    基于统计学习方法的自然语言处理概述_第1张图片
    例句:今晚的课程有意思
    1–分词 : 今晚/的/课程/有意思。
    2–对应词典的翻译为“Tonight of the course interesting”,即Broken English。
    将所有的单词进行排列组合,列出所有可能拿性,选出最适合语法的句子。使用一些模型(或者叫选择器),例如LM(language model语言模型),可以计算出每个句子最优的概率,选择概率最高的句子。

LM(sentence) 输出概率,选择概率最高的句子作为最终结果。

致命的缺点:计算量太大了,单词少可以,单词多了,再阶乘,,算法复杂度太高。

基于统计学习方法的自然语言处理概述_第2张图片
通过算法把两个步骤(即两个黄色方框):Translation model + Language model 合二为一 即:Decoding Algorthm 典型:Viterbi Algorthm(维特比算法)
开专题看动态规划。
Question Ansuwering(问答系统)
基于统计学习方法的自然语言处理概述_第3张图片
Sentient Analysis(情感分析)
·股票价格预测
·舆情监控
·产品评论
·事件监测

输入语句—>特征工程—>模型—>情感值

输入语句--------->深度学习模型------->情感值

Text Summarization(自动摘要)
Chatbot(聊天机器人)
Information Extraction(信息抽取)

NLP 技术的四个维度
Phonetics(声音)—>
Morphology(单词)—>分词(word segmentation)、pos(词性)【part-of-speech】
Syntax(句子结构)---->(Parsing)句法分析,实体命名识别(Named Entity Recognition),依存分析(Dependency Parsing),关系抽取(Relation Extraction)
Semantic(语义) -->NLU 通过机器模型来识别

基于统计学习方法的自然语言处理概述_第4张图片

你可能感兴趣的:(自然语言处理)