NLP算法工程师知识点

NLP算法工程师知识点

  • 传统事件抽取方法大多采用人工构建的方式进行特征表示,并通过分类模型进行事件触发词分类论元角色识别。
  • 神经网络方法的优势在于能够自动学习构建特征,从而避免了繁琐的特征工程。
  • 归一化:防止量纲不同导致数值大的对结果产生较大影响
    • 线性函数归一化 [0,1] (x - min)/(max - min)
    • 零均值归一化 1、求均值 2、求标准差 3、z = (x - 均值)/ 标准差
    • 作用:梯度下降快
  • 需要归一化:线性会贵、支持向量机、神经网络 (需要类似wx + b。不需要的:决策树。
  • pytorch学习记录,其主要的17个模块功能概述
  • nlp = nlu + nlg(理解和生成)
  • 语言模型(LM):判断语句是不是人话,多大概率
  • viterb算法:机器翻译translation model 和languge model 融合
  • 句法分析:分析句子结构
  • 依存分析:分析单词之间的关系、联系
  • 分词工具包:
    NLP算法工程师知识点_第1张图片
  • 分词:前项最大匹配、后向最大匹配、双向最大匹配(max -length)
  • 最短编辑距离:
  • Filtering word:词过滤
  • Stemming:one way to normalize
  • one hot编码:boolean count td-idf
  • 文本相似度计算
    • 欧式距离d = |s1 - s2| 无方向欧式距离
    • 余弦相似度(有方向有距离)d = (s1(内积)s2)/(|s1|*|s2|)
  • Tf-idf:NLP算法工程师知识点_第2张图片
  • 分布式表示方法:word2vec(词向量)
  • 句子向量:平均法则、LSTM\RNN

你可能感兴趣的:(NLP,自然语言处理,算法)