贪心学院—自然语言处理—基础介绍

基础介绍

  • 自然语言处理(natural language processing)
  • NLP的维度
  • NLP项目的实验流程

自然语言处理(natural language processing)

NLP=NLU(nature language understanding)+NLG(nature language generate)即自然语言处理是先理解自然语言,然后根据理解生成回复

目前领域面临的问题:一词多义(ambiguity)

NLP的维度

由底层到高层的过程:

  1. 声音:最底层的形式
  2. 单词(morphology):分词(token),POS词性标注(part-of-speech),NER命名体识别(named entity recognition)
  3. 句子结构(syntax):句法分析,依存句法
  4. 语义(semantic):理解语句的含义

NLP项目的实验流程

  1. 原始文本
  2. 分词及相关技术(NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较包括常见的分词工具)
  3. 清洗(标点符号的移除/停用词的移除/低频词的移除)最全中文停用词表整理(1893个)英文 停用词 词典,停用词需要根据自己的场景进行自定义修改.
  4. 标准化,一般是针对英文有stemming和lemmatization. 词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)是基于一系列的提取规则实现的
  5. 特征提取,将第4步获取的词转换为向量形式(机器可识别的形式).例如tf-idf,woed2Vec等,tf-idf的计算过程
  6. 建模
  7. 评估模型

个人整理笔记,方便复习,若侵权,请联系。
附贪心学院课程链接: https://www.greedyai.com/courseinfor/105

你可能感兴趣的:(#,贪心学院)