机器学习之自然语言处理理解

大数据的机会使得更容易去做自然语言处理,人工智能闭环:数据驱动机器学习,有一个系统用户产生大量数据,基于数据建立模型服务客户。自然语言处理核心想法基于机器学习,统计机器学习方法分类为:分类、匹配、翻译、结构预测、马尔可夫决策过程。
逼近人的性能,考虑实用性,技术的上界和性能的下界。看具体应用场景。
具有代表性的技术:
机器翻译。问答系统。搜索匹配排序,q&a。传统字面上的匹配,现在深度学习技术下,把问句用向量表示,实数值向量序列,应用卷积神经网络,判断两句话语义上是否相似。二维卷积神经网络推断两句话里的语义表示,模型学习大量真实训练,学好参数,用于判断两句话是否构成问答。想法不仅实现在文本。还包括图像识别上。文字与图片结合起来,一种是文态,一种是像素表达。卷积神经网络,将图片文字表达成向量,多层神经网络匹配度多高。
自然语言对话,深层次模型。聊天系统,准备大量q&a 检索到里面的问答。大量数据训练产生无穷的回复。微博爬取400w数据,训练系统,产生自然语言对话(有意思)。理论上可以回答任意问题。产生一句话的比例是96。形成一段有意义的回答是76。泛化能力,它能记住输入。它能记住很多训练数据的样本。对于未知的能自动组织新的对话。单轮对话系统,重复性工作。实用性未知。
自然语言很多问题源于翻译,中文翻译成英文。序列对序列学习,对语义的表示,使用实数值向量。分解成回复的话,编码解码。
机器翻译,并行处理,模型分割数据分割。架构强大。翻译准确率超过了传统的统计机器翻译。
未来的自然语言发展趋势:规则!长尾现象。人名地名专业术语识别不好,低频现象,罕见词做法不好。现在的学习方法普遍使用统计的,需要通过看到才能学习。方法具有局限性。特定不特定,马尔可夫决策过程。单轮堆积起来。
理解自然语言很难,五类问题,ai闭环,提高性能算法能力。机器翻译应用深度学习,序列对序列,表现的很好。
分类,选好规则进行匹配。排序。
同声翻译,局部模式匹配,不经过理解,经过大量训练,直接得出翻译内容。与深度学习端对端学习,中间处理过程不知具有类似原理。
脑细胞激活,进行学习,联想。
神经生物学。大脑对非的处理很有意思。不要想红色的苹果,不要哭了,不要难过。。。
知识库:怎么定义知识。领域知识库,解决实际问题。
指令类,客服类语音系统。
通过自然语言分析处理文本知识库,发觉规律,检验学习,发觉机遇。
《应用驱动》
(李航教授)

你可能感兴趣的:(机器学习)