NLP读书笔记

 

        NLP读书笔记,在看过《python自然语言处理实战核心技术与算法 》、《数学之美第二版》记录一些笔记,日后常看看

  1. 然语言处理技术可以帮助这样的用户使用自然语言和机器交流;
  2. NLP基本可以分为两个部分:自然语言处理以及自然语言生成,演化为理解和生成文本的任务;

NLP读书笔记_第1张图片

  1. NLP可以被应用于很多领域,这里大概总结出以下几种通用的应用:

●机器翻译:计算机具备将一种语言翻译成另一种语言的能力。

●情感分析:计算机能够判断用户评论是否积极。

●智能问答:计算机能够正确回答输入的问题。

●文摘生成:计算机能够准确归纳、总结并产生文本摘要。

●文本分类:计算机能够采集各种文章,进行主题分析,从而进行自动分类。

●舆论分析:计算机能够判断目前舆论的导向。

●知识图谱:知识点相互连接而成的语义网络。

  1. 情感分析来分析总体用户评价是积极还是消极。
  2. 智能问答在一些电商网站有非常实际的价值,比如代替人工充当客服角色,有很多基本而且重复的问题,其实并不需要人工客服来解决,通过智能问答系统可以筛选掉大量重复的问题,使得人工?席能更好地服务客户。
  3. 文摘生成利用计算机自动地从原始文献中摘取文摘,全面准确地反映某一文献的中心内容。
  4. 文本分类是机器对文本按照一定的分类体系自动标注类别的过程。
  5. 舆论分析可以帮助分析哪些话题是目前的热点,分析传播路径以及发展趋势,对于不好的舆论导向可以进行有效的控制
  6. 用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系
  7. 中文词语分析是中文分词的基础与关键
  8. 分词常用的手段是基于字典的最长串匹配,据说可以解决85%的问题,但是?义分词很难
  9. 基于机器学习的方法里,往往需要对词的词性进行标注
  10. 命名实体是指从文本中识别具有特定类别的实体(通常是名词)

NLP读书笔记_第2张图片

NLP读书笔记_第3张图片

  1. 句法分析往往是一种基于规则的专家系统
  2. 句法分析的目的是解析句子中各个成分的依赖关系
  3. 往往最终生成的结果是一棵句法分析树
  4. 词袋模型是完全相同的,但是句法分析可以分析出其中的主从关系,真正理清句子的关系
  5. 中文中代词出现的频率很高,它的作用的是用来表征前文出现过的人名、地名等。
  6. 情感一般可以分为两类,即正面、负面,也可以是三类,在前面的基础上,再加上中性类别
  7. 由于用户的输入出错的可能性比较大,出错的场景也比较多
  8. 问答系统往往需要语音识别、合成,自然语言理解、知识图谱等多项技术的配合才会实现得比较好
  9. 需要语言学、统计学、最优化理论、机器学习、深度学习以及自然语言处理相关理论模型知识做基础
  10. 句法语义分析:针对目标句子,进行各种句法分析,如分词、词性标记、命名实体识别及链接、句法分析、语义角色识别和多义词消歧等
  11. 关键词抽取 涉及实体识别、时间抽取、因果关系抽取
  12. 文本挖掘 主要包含了对文本的聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的呈现界面
  13. 对话系统 系统通过多回合对话,跟用户进行聊天、回答、完成某项任务
  14. 维基百科是最常用且权威的开放网络数据集之一
  15. 词法分析包括汉语的分词和词性标注这两部分
  16. 句法分析是对输入的文本以句子为单位,进行分析以得到句子的句法结构的处理过程
  17. 一方面是为了帮助理解句子的含义,另一方面也为更高级的自然语言处理任务提供支持(比如机器翻译、情感分析等)
  18. 目前业界存在三种比较主流的句法分析方 短语结构句法体系 依存结构句法体系 深层文法句法分析
  19. 语义分析的最终目的是理解句子表达的真实语义
  20. 语义角色标注一般都在句法分析的基础上完成,句法结构对于语义角色标注的性能至关重要
  21. 出于机器学习模型复杂度、效率的考虑,自然语言处理系统通常采用级联的方式,即分词、词性标注、句法分析、语义分析分别训练模型
  22. 将多个任务联合学习和解码,如分词词性联合、词性句法联合、分词词性句法联合、句法语义联合等
  23. 机器翻译、问答系统、自动摘要等方向取得成功
  24. 为什么深度学习可以在NLP中取得这样的成绩呢 (1)海量的数据。 (2)深度学习算法的革新。
  25. 由于语音和图像这种属于自然信号,而自然语言是人类知识的抽象浓缩表示,所以意味着深度学习并不能解决NLP中的所有问题
  26. NLP过去几十年的发展,从基于简单的规则方法到基于统计学方法,再到现在的基于深度学习神经网络的方法,技术越来越成熟,在很多领域都取得了巨大的成就。
  27. 跨领域的研究整合将是未来的发展方向
  28. 正则表达式是一种定义了搜索模式的特征序列
  29. 正则表达式的作用之一是将这些文档内容从非结构化转为结构化以便后续的文本挖掘。
  30. 正则表达式的另一个作用就是去除“噪声”。
  31. 正则表达式是处理NLP的最基本的手段之一
  32. 文本最重要的来源无疑是网络
  33. 因为Numpy运算的时候需要结构相同
  34. 在处理自然语言过程中,需要将文字(中文或其他语言)转换为向量。即把对文本内容的处理简化为向量空间中的向量运算。基于向量运算,?们就可以实现文本语义相似度、特征提取、情感分析、文本分类等功能
  35. 在Numpy中,最核心的数据结构是ndarray,ndarray代表的是多维数组,数组指的是数据的集合
  36. 借用线性代数的说法,一维数组通常称为向量(vector),二维数组通常称为矩阵(matrix)
  37. 使用Anaconda快速构建开发环境,正则表达式快速进行字符串处理以及Numpy辅助进行科学计算。
  38. 语言理解中,词是最小的能够独立活动的有意义的语言成分
  39. 将句子转化为词的表示。这个切词处理过程就是中文分词
  40. “规则分词”“统计分词”和“混合分词(规则+统计)”这三个主要流派
  41. 简单高效,但对新词很难进行处理
  42. 单纯的统计分词也有缺陷,那就是太过于依赖语料的质量,因此实践中多是采用这两种方法的结合,即混合分词
  43. 按照匹配切分的方式,主要有正向最大匹配法、逆向最大匹配法以及双向最大匹配法三种方法
  44. 由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以,逆向最大匹配法比正向最大匹配法的误差要小
  45. 双向最大匹配法(Bi-directction Matching method)是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,然后按照最大匹配原则,选取词数?分最少的作为结果
  46. 随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词算法渐渐成为主流
  47. 其主要思想是把每个词看做是由词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。
  48. 组合频度高于某一个临界值时,?们便可认为此字组可能会构成一个词语
  49. Jieba分词结合了基于规则和基于统计这两类方法
  50. 高频词一般是指文档中出现频率较高且非无用的词语,其一定程度上代表了文档的焦点所在
  51. 标点符号:一般标点符号无任何价值,需要去除
  52. 停用词:诸如“的”“是”“了”等常用词无任何意义,也需要剔除
  53. 词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程
  54. 一般表现为同音同形的词在不同场景下,其表示的语法属性截然不同,这就为词性标注带来很大的困难
  55. 实词,一般只有一到两个词性,且其中一个词性的使用频次远远大于另一个
  56. 词性标注最简单的方法是从语料库中统计每个词所对应的高频词性,将其作为默认词性
  57. 目前较为主流的方法是如同分词一样,将句子的词性标注作为一个序列标注问题来解决
  58. 中文领域中尚无统一的标注标准,较为主流的主要为北大的词性标注集和宾州词性标注集两大类
  59. 首先基于正则表达式进行汉字判断
  60. 然后基于前缀词典构建有向无环图,再基于有向无环图计算最大概率路径,同时在前缀词典中找出它所分出的词性
  61. 若不符合上面的正则表达式,那么将继续通过正则表达式进行类型判断,分别赋予“x”“m”(数词)和“eng”(英文)
  62. 其目的是识别语料中人名、地名、组织机构名等命名实体
  63. 中文命名实体识别主要有以下难点:
  1. 各类命名实体的数量众多
  2. 命名实体的构成规律复杂
  3. 嵌套情况复杂
  4. 长度不确定
  1. 命名实体识别:
  1. 基于规则的命名实体识别
  2. 基于统计的命名实体识别
  3. 混合方法
  1. 关键词是代表文章重要内容的一组词
  2. 关键词提取算法一般也可以分为有监督和无监督两类
  3. 有监督的方法能够获取到较高的精度,但缺点是需要大批量的标注数据,人工成本过高
  4. 相对于有监督的方法而言,无监督的方法对数据的要求就低多了
  5. 人们常将TF-IDF算法应用于关键词提取中
  6. 其他算法的关键词提取都要基于一个现成的语料库
  7. TextRank算法则是可以脱离语料库的背景,仅对单篇文档进行分析就可以提取该文档的关键词
  8. PageRank算法是一种网页排名算法 链接数量 链接质量
  9. Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达
  10. 在分完词之后,每个文档都可以表示为一系列词的集合
  11. 对我们算法的抽取产生负面的影响,我们将这种词称为干扰词
  12. 一般在算法开始前,还需要进行一个步骤——去除停用词
  13. 现在中文自然语言处理中较常用的一个停用词表就是哈工大的停用词表
  14. 训练一个关键词提取算法需要以下几个步骤:

1)加载已有的文档数据集。

2)加载停用词表。

3)对数据集中的文档进行分词。

4)根据停用词表,过滤干扰词。

5)根据数据集训练算法。

  1. 根据训练好的关键词提取算法对新文档进行关键词提取要经过以下环节:

1)对新文档进行分词。

2)根据停用词表,过滤干扰词。

3)根据训练好的算法提取关键词。

  1. 一般情况下,使用词性过滤,仅保留名词作为关键词的结果更符合我们的要求
  2. 通常在项目实践中,算法本身并没有高下之分,需要结合具体业务和尝试情况进行调整
  3. 句法分析是自然语言处理的核心技术,是对语言进行深层次理解的基石
  4. 句法分析的主要任务是识别出句子所包含的句法成分以及这些成分之间的关系,一般以句法树来表示句法分析的结果
  5. 句法分析主要有以下两个难点歧义、搜索空间
  6. 确保能够在可以容忍的时间内搜索到模型定义最优解
  7. 句法分析(Parsing)是从单词串得到句法结构的过程,而实现该过程的工具或程序被称为句法分析器(Parser)
  8. 句法分析的种类很多,这里我们根据其侧重目标将其分为完全句法分析和局部句法分析两种
  9. 句法分析中所用方法可以简单地分为基于规则的方法和基于统计的方法两大类
  10. 统计分析方法一般都离不开语料数据集和相应的评价体系的支撑
  11. 相较于分词或词性标注,句法分析的数据集要复杂很多,其是一种树形的标注结构,因此又称树库
  12. 目前使用最多的树库来自美国宾夕法尼亚大学加工的英文宾州树库
  13. 不同的树库有着不同的标记体系,使用时切忌使用一种树库的句法分析器,然后用其他树库的标记体系来解释
  14. 句法分析评测的主要任务是评测句法分析器生成的树结构与手工标注的树结构之间的相似程度
  15. 主要考虑两方面的性能:满意度和效率
  16. 目前主流的句法分析评测方法是PARS?VAL评测体系
  17. 准确率表示分析正确的短语个数在句法分析结果中所占的比例
  18. 召回率表示分析得到的正确短语个数占标准分析树全部短语个数的比例
  19. 交叉括号表示分析得到的某一个短语的覆盖范围与标准句法分析结果的某个短语的覆盖范围存在重叠又不存在包含关系,即构成了一个交叉括号
  20. 词法分析(分词、词性标注或命名实体识别等)
  21. 以短语结构树为目标的句法分析器目前研究得最为彻底,应用也最为广泛
  22. 句法分析又属于NLP中较为高阶的问题
  23. PCFG是上下文无关文法的扩展,是一种生成式的方法,其短语结构文法可以表示为一个五元组(?,V,S,R,P)
  24. 马尔可夫网络是概率图模型中一种具备一定结构处理关系能力的算法
  25. Stanford Parser主要有以下优点:
  1. 既是一个高度优化的概率上下文无关文法和词汇化依存分析器,又是一个词汇化上下文无关文法分析器
  2. 以权威的宾州树库作为分析器的训练数据,支持多语言
  3. 提供了多样化的分析输出形式,除句法分析树输出外,还支持分词和词性标注、短语结构、依存关系等输出
  4. 内置了分词、词性标注、基于自定义树库的分析器训练等辅助工作
  5. 支持多种平台,并封装了多种常用语言的接口,如Java、Python、P?P、Ruby、C#等
  1. 实践中,句法分析常常通过结合一定的规则来辅助解决一些任务
  2. 在自然语言处理研究领域,文本向量化是文本表示的一种重要方式
  3. 无论是中文还是英文,词语都是表达文本处理的最基本单元
  4. 词袋(Bag ?f ?ord)模型是最早的以词语为基本处理单元的文本向量化方法
  5. 词向量(word2vec)技术就是为了利用神经网络从大量无标注的文本中提取有用信息而产生的
  6. 上下文相似的词,其语义也相似
  7. 随着各类硬件设备计算能力的提升和相关算法的发展,神经网络模型逐渐在各个领域中崭露头角,可以灵活地对上下文进行建模是神经网络构造词表示的最大优点
  8. 通过语言模型构建上下文与目标词之间的关系是一种常见的方法
  9. NNLM模型直接通过一个神经网络结构对n元条件概率进行估计
  10. NNLM模型中计算量最大的操作就是从隐藏层到输出层的矩阵运算?h
  11. 由于NNLM模型使用低维紧凑的词向量对上文进行表示,这解决了词袋模型带来的数据稀疏、语义鸿沟等问题
  12. 一般使用随机梯度下降算法对NNLM模型进行训练
  13. NNLM模型的目标是构建一个语言概率模型,而C&?则是以生成词向量为目标的模型
  14. 负样本是将正样本序列中的中间词替换成其他词得到的
  15. CBOW的目标是根据上下文来预测当前词语的概率,且上下文所有的词对当前词出现概率的影响的权重是一样的
  16. word2vec基于分布假说理论可以很好地提取词语的语义信息
  17. 文本的语序包含重要信息
  18. doc2vec技术存在两种模型——Distributed Memory(DM)和DistributedBag of words(DBOW),分别对应word2vec技术里的CBOW和Skip-gram模型
  19. 一般的文本处理任务中,会将词向量和段向量相结合使用以期获得更好的效果
  20. 要训练词向量就必须要有大量的语料库
  21. 本文训练词向量的步骤是:
  1. 运行data_pre_process.py脚本对原始中文语料库进行预处理,该脚本执行完毕后会产生reduce_zhiwiki.txt这个文档
  2. 运行training.py脚本,执行完该脚本后会得到zhiwiki_news系列的四个文件,训练好的词向量就存在这几个文件里
  1. 与训练词向量类似,段落向量的训练分为训练数据预处理和段落向量训练两个步骤
  2. doc2vec不仅利用了词语的语义信息而且还综合了上下文语序信息,而word2vec则丢失了语序信息
  3. 采用计算机自动化进行情感分析成为目前学术界和工业界的大趋势
  4. 情感分析会涉及很多主题,包括针对电影评论、商品评论,以及新闻和博客等的情感分析
  5. 情感分析领域,文本可以划分为积极和消极两类,或者积极、消极和中性(或不相关)的多类:
  1. 词法分析
  2. 基于机器学习的分析
  3. 混合分析。
  1. 词法分析运用了由预标记词汇组成的字典,使用词法分析器将输入文本转换为单词序列
  2. 文本的分类取决于文本的总得分
  3. 在情感分析中,主要使用的是监督学习方法。它可以分为三个阶段:数据收集、预处理、训练分类。在训练过程中,需要提供一个标记语料库作为训练数据。分类器使用一系列特征向量对目标数据进行分类。
  4. 在机器学习技术中,决定分类器准确率的关键是合适的特征选择
  5. 机器学习技术面临很多挑战:分类器的设计、训练数据的获取、对一些未见过的短语的正确解释
  6. 两种方法进行组合的可能性,既可以利用机器学习方法的高准确性,又可以利用词法分析快速的特点
  7. 在NLP问题中,情感分析可以被归类为文本分类问题
  8. 主要涉及两个问题:文本表达和文本分类
  9. 在深度学习出现之前,主流的表示方法有B??(词袋模型)和topic model(主题模型),分类模型主要有SVM(支持向量机)和LR(逻辑回归)
  10. 词袋模型有个很大的问题,就是无法抓取到核心的信息,因为它忽略了语法和文法,只是把一句话当成一个词的合集
  11. 在文本分类模型方面,一般?们会使用传统机器学习方法
  12. CNN卷积神经网络,一般首先使用卷积操作处理词向量序列,生成多通道特征图,对特征图采用时间维度上的最大池化操作得到与此卷积核对应的整句话的特征,最后将所有卷积核得到的特征拼接起来即为文本的定长向量表示。
  13. 循环神经网络是一种能够对时序数据进行精准建模的网络
  14. RNN及其变种长短时记?网络(Long ShortTerm Memory,LSTM)在NLP领域得到了广泛应用,例如在语言模型、句法分析、语意角色标注,图说模型、对话、机器翻译等领域均有优异的表现
  15. 循环神经网络按照时间展开
  16. LSTM通过对循环层的刻意设计来避免长期依赖问题和梯度消失的问题
  17. LSTM通过给简单的循环神经网络增加记?以及控制门,增强了它们处理距离依赖问题的能力
  18. 选择合适的参数训练网络非常重要,最终模型的好坏很大程度上取决于你选择的优化器(Momentum、Nesterov、AdaGrad、RMSProp、AdaDelta、Adam)、学习率以及网络架构
  19. 用朴素贝叶斯、支持向量机、逻辑回归等方法进行文本分类,用k-means方法进行文本聚类等
  20. 机器学习的一些基本概念:有监督学习、无监督学习、半监督学习、分类、聚类、回归、降维等
  21. 机器学习的常用分类算法:朴素贝叶斯、支持向量机、逻辑回归等
  22. 机器学习的聚类方法:k-means算法
  23. 机器学习是NLP的基石
  24. “机器学习”最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能
  25. 目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”
  26. 由于“经验”在计算机系统中主要以数据的形式存在
  27. 成功训练一个模型需要四个要素:数据、转换数据的模型、衡量模型好坏的损失函数和一个调整模型权重以便最小化损失函数的算法。
  28. 对于数据,肯定是越多越好
  29. 通常数据和我们最终想要的相差很远
  30. 损失函数可以帮助我们平衡先验和后验的期望,以便?们做出决策
  31. 我们通过最小化损失函数来寻找最优参数
  32. 这是模型在训练数据集上的误差
  33. 这是模型在没见过的新数据上的误差,可能会跟训练误差不一样(统计上叫过拟合)
  34. 机器学习里最重要的四类问题(按学习结果分类):
  1. 预测(Prediction)
  2. 聚类(Clustering)
  3. 分类(Classification)
  4. 降维(Dimensional reduction)
  1. 在实际情景中,监督学习最为常用
  2. 先准备训练数据,可以是文本、图像、音频、数字等,然后抽取所需要的特征,形成特征向量(Feature Vectors)
  3. 监督学习任务的基本框架流程:
  1. 先准备训练数据,可以是文本、图像、音频、数字等,然后抽取所需要的特征,形成特征向量(Feature Vectors)把这些特征连同对应的标记(label)一起喂给学习算法,训练出一个预测模型(Predictive Model)采用同样的特征抽取方法作用于新测试数据,得到用于测试的特征向量?使用预测模型对将来的数据进行预测。
  1. 回归与分类的区别在于,预测的目标是连续的变量
  2. 回归分析也许是监督学习里最简单的一类任务
  3. 无监督学习即在没有人工标记的情况下,计算机进行预测、分类等工作。
  4. 文本分类技术在NLP领域有着举足轻重的地位
  5. 文本分类是指在给定分类体系,根据文本内容自动确定文本类别的过程
  6. 信息检索、web文档自动分类、数字图书馆、自动文摘、分类新闻、文本过滤、单词语义辨析、情感分析等。
  7. 分类过程主要分为两个阶段,训练阶段和预测阶段
  8. 常见的分类器有逻辑回归(Logistic Regression,LR。名义上虽然是回归,其实是分类)支持向量机(Support Vector Machines,SVM)、K近邻居(K-Nearest Neighbor,KNN)、决策树(Decision Tree,DT)、神经网络(Neural Network,NN)等
  9. 如果特征数量很多,跟样本数量差不多,这时选择LR或者线性的SVM。如果特征数量比较少,样本数量一般,不大也不小,选择SVM的高斯核函数版本。如果数据量非常大,又非线性,可以使用决策树的升级版本——随机森林。在Kaggle竞赛中随机森林被大规模应用,取得了非常不错的成绩,当数据达到巨量时,特征向量也非常大,则需要使用神经网络拓展到现在的深度学习模型。
  10. 一般来说文本分类大致分为如下几个步骤:

1)定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据。

2)数据预处理:对文档做分词、去停用词等准备工作。

3)数据提取特征:对文档矩阵进行降维,提取训练集中最有用的特征。

4)模型训练阶段:选择具体的分类模型以及算法,训练出文本分类器。

5)评测阶段:在测试集上测试并评价分类器的性能。

6)应用阶段:应用性能最高的分类模型对待分类文档进行分类。

  1. 在使用分类器之前,需要对文本提取特征
  2. 序列学习是一类近来备受关注的机器学习问题
  3. 当输入和输出都是不定长的序列时,?们把这类模型称为seq2seq
  4. 通俗地说,支持向量机(SVM)的最终目的是在特征空间中寻找到一个尽可能将两个数据集合分开的超级平面(hyper-plane)
  5. 无监督学习(?nsupervised Learning)希望能够发现数据本身的规律和模式,与监督学习相比,无监督学习不需要对数据进行标记
  6. 某种程度上说,机器学习的终极目标就是无监督学习
  7. 无监督学习可以帮助?们发现数据的“簇”,同时也可以帮助?们找寻“离群点”(outlier)
  8. 无监督学习对数据进行降维,保留数据的主要特征
  9. 常见的非监督学习任务:
  1. 聚类问题通常研究如何把一堆数据点分成若干类,从而使得同类数据点相似而非同类数据点不似子空间估计问题通常研究如何将原始数据向量在更低维度下表示
  1. 聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)
  2. 文本聚类有很多种算法,例如K-means、DBScan、BIRC?、C?R?等
  3. 文本聚类存在大量的使用场景,比如数据挖掘、信息检索、主题检测、文本概括等
  4. 选择初始聚类点的方法有如下几种:
    • 随机选择法。随机的选择k个对象作为初始聚类点。
    • 最小最大法。先选择所有对象中的相距最遥远的两个对象作为聚类点。然后选择第三个点,使得它与确定的聚类点的最小距离是所有点中最大的,然后按照相同的原则选取。
    • 最小距离法。选择一个正数r,把所有对象的中心作为第一个聚类点,然后依次输入对象,当前输入对象与已确认的聚点的距离都大于r时,则该对象作为一个新的聚类点。
    • 最近归类法。划分方法就是决定当前对象应该分到哪个簇中。划分方法中最为流行的是最近归类法,即将当前对象归类于最近的聚类点。
  5. 准确率和召回率:
    • 准确率(P,Precision):A/(A+B),在所有被判断为正确的文档中,有多大比例是正确的。
    • 召回率(R,Recall):A/(A+C),在所有正确的文档中,有多大比例被我们判为正确。
    • F1测度(F-measure):2PR/(P+R),既衡量准确率,又衡量召回率。
  6. 机器学习领域的两个重要的分支——分类和聚类
  7. 人工神经网络思想来源于仿生学对大脑机制的探索,即希望通过对大脑的模拟达到智能的目的
  8. 是赋予机器以人类大脑类似的学习、思考、反馈、调节,以及做正确决策的能力
  9. 由于人工神经网络可以对非线性过程进行建模,因此可以解决例如分类、聚类、回归、降维、结构化预测等一系列复杂的问题
  10. 在NLP领域,主要是在信息抽取,命名实体识别,词性标注,文本分析,拼写检查,语音识别,机器翻译,市场营销、金融领域的情感分析,问答系统,搜索引擎,推荐系统等方向都有成功的应用
  11. 传统的算法一般会用统计等方法去标注,而深度学习会直接通过词向量表示,然后通过深度网络进行自动学习
  12. 深度学习在自然语言处理各个应用领域取得了巨大的成功
  13. 神经网络中最基本的是神经元模型
  14. 有论文证明,只要有足够多层数的神经网络就可以表示任意函数
  15. 感知机的基础数学模型,你可以这样理解,它是一个通过给每维数据赋予不同权重从而做出决策的机器
  16. 通过调整权重和阈值的大小,?们可以得到不同的决策模型
  17. 网络最左边的是输入层神经元,用于接收外界输入,中间为隐藏层,对信号进行一定加工与转换,最右边为输出层神经元,最终结果由输出层神经元输出表示
  18. 神经网络的学习过程,就是根据训练数据来调整神经元之间的“权重”以及每个功能神经元的阈值
  19. 换言之,神经网络学到的东西,蕴含在权重和阈值当中
  20. 前馈神经网络。这也就意味着网络中没有回路,信息总是向前传播,从不反向回馈
  21. 1)训练阶段(training):是指网络输入样本数据作为初始数据,通过激活函数与网络连接,迭代求得最小化损失
  22. 数学上称这个过程为参数估计的过程
  23. 2)推导阶段(infer)。拿这个训练好的网络对实际的数据进行分类或回归,称为分类阶段
  24. 所谓神经网络就是将很多个单一的神经单元组合到一起
  25. 向传播算法(Back Propagation,BP)是其中的经典方法,它是现今最成功的神经网络算法
  26. 机器学习完成一个训练任务有三个要素:算法模型、目标函数、优化算法
  27. 优化机器学习问题的求解,本质上都是优化问题
  28. 优化的目标是损失函数最小化
  29. 基于神经网络的表示一般称为词向量、词嵌入(word embedding)或分布式表示(distributed representation)
  30. NLP相关任务中最常见的第一步是?建一个词表库并把每个词顺序编号
  31. 无法捕捉词与词之间的相似度,也被称为“词汇鸿沟”问题
  32. word2vec是Google在2013年发布的一个开源词向量建模工具
  33. RNN背后的思想是利用顺序信息
  34. 长短时记忆网络(Long Short Term Memory network,LSTM)是一种特殊的RNN,它能够学习长时间依赖
  35. LSTM是专门设计用来避免长期依赖问题的
  36. Attention机制的实现是通过保留LSTM编码器输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习,并且在模型输出时将输出序列与之进行关联
  37. 对于一些NLP任务,比如聊天机器人、机器翻译、自动文摘等,传统的方法都是从候选集中选出答案,这对候选集的完善程度要求很高
  38. Tensorflow是由Google公司在2015年底发布的开源深度学习框架
  39. 自然语言中词的多义性很难用规则来描述
  40. 老科学家可以理解成“老的科学家”或者“老科学的家”
  41. 词是表达语义的最小单位
  42. 分词器示意图

NLP读书笔记_第4张图片

  1. 应用不同,汉语分词的颗粒度大小应该不同
  2. 中文分词会用到英文分词里,以为手写的英文空格不是很清晰
  3. 隐含马尔科夫模型陆续成功过地应用于机器翻译、拼写纠错、手写体识别、图像处理、基因序列分析导尿管许多IT领域

NLP读书笔记_第5张图片

  1. 一条信息的信息量与其不确定性有着直接的关系
  2. 熵、条件熵和先对熵这三个概念与语言模型的关系非常密切
  3. 信息熵是对不确定性的衡量
  4. 信息熵不仅是对信息的量化度量,而且是整个信息论的基础。
  5. 中学阶段花很多时间比同伴多读的课程,上大学以后用很短的时间就能读完
  6. 书本上的内容可以早学,也可以晚学,但是错过了成长阶段却无法补回来
  7. 理想在不断改变,但是通过努力走向成功的志向一直没有改变。
  8. 一个人想要在自己的领域做到世界一流,他的周围必须有非常多的一流人物
  9. 我每开除一名语言学专家,我的语音识别系统识别率就会提供一点
  10. 很多的历史偶然性背后有着它对的原因
  11. 只有掌握了事物本质和精髓才能做到游刃有余
  12. 很多现象,积累一段时间才会有感觉。
  13. 很多问题没有答案,只有好与不好
  14. 搜索领域的网络爬虫问题应该定义为“如何在有限的时间内最多爬取最重要的网页”
  15. 无法超越,是因为共有的技术很难突破。超越的路除了技术的突破,剩下的就是颠覆。

NLP读书笔记_第6张图片

  1. TF-IDF是对搜索关键词的重要性的度量
  2. 有限状态机

NLP读书笔记_第7张图片

  1. 不是最快的,但一定是最稳定的
  2. 年轻人应当不惧怕失败,大胆尝试
  3. 这个螺旋式的回归不是简单的重复,而是一种升华
  4. 这已经不是技术的比赛,而是市场的竞争
  5. 香农第一定理:对于一个信息,任何编码的长度都不小于它的信息熵

NLP读书笔记_第8张图片

  1. 一个好的方法,在形式上应该是简单的
  2. 统计数量不足,就像看楼下有两个男生和三个女生,就得出城市男女比例是2:3一样
  3. 分而治之原理是将一个复杂问题分成若干个简单的子问题进行解决,然后对子问题的结果进行合并,得到原来问题的解
  4. 在生活中大量用到的、真正有用的方法往往简单而又朴实
  5. 大多数与“智能”有点关系的问题,都可以归结为一个在多维空间进行模式分类的问题
  6. 梯度下降法讲的是,每次向着最“陡”的方向走一步,这样能保证最快地走到山顶
  7. 谷歌大脑与其说很聪明,不如说很能算
  8. 没有数据之前,不要给出任何结论
  9. 统计首先要求数据量充足
  10. 人们要认识到正确的理论和方法,总有一个渐进的过程
  11. 当我们认识到规律后,就应该自觉地在工作中遵循而非违背规律
  12.  
  13. End

你可能感兴趣的:(读书笔记)