nvivo怎么处理访谈记录_Java自然语言处理-第二版:书评和访谈

nvivo怎么处理访谈记录

重要要点

  • 自然语言处理(NLP)是为文本量身定制的一种特殊形式的机器学习。 由于人类通常以口头形式来处理文本,因此对于神经网络而言,这是一个很好的问题领域。
  • NLP训练模型本质上是一个神经网络,已经过训练以处理特定类型数据的特定问题。
  • 将来,NLP将使更多的自动化响应和对人类对话的更好理解成为可能。 对我们的电话和计算机的命令将以更高的复杂度进行处理。
  • 情绪分析的改进将来自NLP神经网络的改进和更好的数据。 经常被忽视的是数据质量。
  • 为正确的问题选择正确的神经网络是一个挑战。 对于眼前的问题,使用正确的神经网络类型很重要。

由Richard M Reese和Ashish Singh Bhatia撰写的《 用Java进行自然语言处理-第二版》一书涵盖了自然语言处理(NLP)主题以及开发人员可以在其应用程序中使用的各种工具。

书中讨论的技术包括Apache OpenNLP,斯坦福大学NLP,LingPipe,GATE,UIMA和Apache Lucene Core。

作者讨论了NLP模型,该模型包括以下步骤:

  • 确定任务
  • 选择型号
  • 训练模型
  • 验证和使用模型

本书涵盖的其他主题包括如何查找文本部分,查找句子,查找人和物以及检测词性。

作者还讨论了Java深度学习以及将可用于垃圾邮件检测和情感分析的文档和文本分类。 使用OpenNLP,斯坦福API和LingPipe框架对文本进行分类。

里斯还撰写了有关该主题的视频课程 。

InfoQ与Reese谈了这本书和视频课程,以及如何在企业应用程序中使用NLP。

InfoQ:您能否描述NLP的工作原理,以及它与传统机器学习(ML)技术有何不同?

Richard M Reese :Java核心SDK可以使用许多标准类和方法来支持简单的自然语言处理。 但是,更复杂的NLP任务需要使用专门的库。 流行的库包括OpenNLP,Stanford NLP API和LingPipe。

许多NLP技术使用神经网络来实现NLP任务。 针对样本数据对模型进行了训练,然后可以将其用于特定问题。 对于常见问题和自然语言,开发人员可以使用大量模型。 在特殊情况下,需要使用专门的数据集来训练模型。 即使对于诸如英语之类的语言,也存在需要独特模型的特殊领域,例如医学期刊和文本。 给定经过训练的模型,类似的数据将提交到神经网络,然后由该神经网络执行分析。

NLP在许多方面与传统机器学习有所不同。 NLP是为文本量身定制的一种特殊形式的机器学习。 由于人类通常以口头形式来处理文本,因此对于神经网络而言,这是一个很好的问题领域。 机器学习与其他任务有关,例如分析可视图像和音频输入。 它对于支持操纵通常用于机器人类型应用程序的对象也很有用。

InfoQ:您能讨论一下NLP培训模型吗?

Reese :训练模型本质上是一个神经网络,已经过训练以处理特定类型数据的特定问题。 例如,我们可以训练神经网络,通过向文本提供表示问题的数据来确定文本的情绪。 一旦经过训练,就可以提供类似的数据,并且神经网络将执行分析,希望能获得良好的结果。

根据使用的层数和互连的类型,存在不同类型的神经网络。 人工神经网络模仿大脑中发现的神经元网络,尽管它们并不那么复杂。 训练模型时,分配给神经元的各种权重会发生变化。

InfoQ:NLP在企业中有哪些应用?

Reese :有许多使用NLP的应用程序。 例如,可以通过自动分析客户反馈和交互来改善客户服务。 使用聊天机器人可以吸引客户并确定他们所关注问题的细节。 情绪分析将确定客户对产品或服务的感觉。 广告的位置可以通过分析潜在客户的评论来影响。

将来,我们将见证从交流中获得意义的能力的提高。 这将使更多的自动化响应和对人类对话的更好理解。 对我们的电话和计算机的命令将以更高的复杂度进行处理。

InfoQ:您能讨论一下NLP如何帮助与情感分析相关的用例吗?

里斯(Reese) :情感分析的传统用法是确定评论是正面还是负面。 根据分析,可以对产品或服务进行调整,或者用户可以更好地确定产品是否适合他们。 Netflix等服务目前提供节目或电影推荐。 根据我的个人经验,它们不是很准确。 随着情感分析的改善以及用户输入的多种来源变得可用,此类建议将得到改善。

分析的结果取决于模型的质量和数据的质量。 情绪分析的改进将来自NLP神经网络的改进和更好的数据。 经常被忽视的是数据质量。 在将数据用于培训和分析之前,必须先对其进行清理并以正确的格式进行整理。

InfoQ:我们如何使用NLP对文本和文档进行分类?

Reese :数据样本集用于训练模型。 通常,这些集不仅包含要分类的文本,还包含所需的输出。 即,如果已知特定文本消息是肯定的,则将肯定属性分配给它。 这就是所谓的监督学习。 有了足够大的数据集,就可以训练模型以识别相似的评论(正面的或负面的)。 集合越大,其内容对眼前问题的反映就越多,这对结果的质量大有帮助。

当数据集不包含指定输出的属性时,这称为无监督学习。 培训过程将组织它认为是相似类型的文档,并为其分配标签。 创建已分配结果的数据集是一个耗时的过程。 尽管分类是一个更困难的过程,但避免此过程是无监督模型的主要优势。

InfoQ:NLP面临哪些挑战?

里斯 :挑战可以在多个层面上找到。 神经网络体系结构,层数以及这些层如何相互连接,都在不断发展。 挑战之一是设计更好的神经网络框架。

为正确的问题选择正确的神经网络是另一个挑战。 关于使用正确的锤子完成正确工作的古老说法很适合这里。 我们不想使用大铁锤将照片挂在墙上。 同样,针对当前问题使用正确类型的神经网络也很重要。

训练的模型仅与数据一样好。 数据需要全面,正确且相对没有不良数据点。 准备数据通常是过程中最耗时且最重要的部分。

另一个重要因素是对结果的正确解释。 有时,分析输出由一组数字表示,这些数字可以测量结果的不同方面。 如果对这些内容的解释不正确,那么总的努力可能没有其他方面的价值。

InfoQ:什么是自然语言理解(NLU)和自然语言生成(NLG)? 它们与NLP有何不同?

里斯(Reese): NLU关心从文本中导出含义,并产生反映该含义的数据。 NLG涉及声音和声音自然流动的文本的创建。 NLU试图通过诸如“将消息发送给Sue”之类的语句来理解人类可能意味着什么。 该命令指的是哪个消息? 应该如何发送? 如果有多个Sues,那么哪一个? 对于计算机来说,回答这些问题并不总是那么容易。 NLU的进步提高了计算机从文本中获取含义的能力。

当计算机需要与用户通信时,生成的文本应该清晰自然。 旧的mad libs文本类型(其中的模板中填充了通常随机选择的单词)代表了一种不会产生大多数人希望听到的文本类型的方法。 取而代之的是,NLG致力于生成令人耳愉悦的文本。 NLU和NLG是NLP的子字段。

InfoQ:NLP领域现在正在发生什么新兴趋势?

里斯 :这是一个不断发展的游戏。 我们将看到NLU / NLG的改进,这将带来新的功能和应用。 与Alexi和Ok Google类似的私人助理将在各种方面协助人类。 越来越多的公司将推出通常是“本土化”的NLP应用程序,也就是说,它们将不会基于Amazon或Google。 相反,他们可能完全依赖其他NLP供应商(例如IBM)生产的技术。

许多NLP应用程序将结合混合方法,其中分析技术与人为干预相结合,以提供更有意义和令人满意的响应。 当NLP技术达到其极限时,将进行干预。 当前,手工响应已用于特定的有限问题领域。 例如,私人助理只能回答某些类型的查询。 看似能力更强的人被构造为处理一组紧密定义的交互。

NLP处理将变得更加分散。 训练集和数据集都可以分布在各种平台上。 智能电话和类似设备将以专用处理器的形式将ML功能内置于其中。 这将再次为NLP技术带来新的用途。 随着传感器和执行器在社会中越来越流行,数据将来自更加多样化的来源。

预览书籍和视频 。

翻译自: https://www.infoq.com/articles/natural-language-processing-with-java-book-review/?topicPageSponsorship=c1246725-b0a7-43a6-9ef9-68102c8d48e1

nvivo怎么处理访谈记录

你可能感兴趣的:(神经网络,大数据,编程语言,python,机器学习)