NLP之我见

 

简介

NLP(自然语言处理)作为CS, AI和Linguistics的交叉学科,目的是让计算机能够处理和理解人类的自然语言,以执行语言翻译或回答问题等任务。随着语音接口和聊天机器人的兴起,NLP成为了AI技术最重要的研究内容之一,但想要充分理解和表达语言含义其实是一个极其困难的目标,因为人类的语言相当晦涩并充满了歧义。说到这儿,一定会有人跳将出来大吼:不对啊,我早就看过新闻,我们中国的科大讯飞早就完美实现了该技术,已经可以同声传译了……呵呵,这里我必须告诉你,人工是有的,但真没智能什么事儿,详情请关注科大讯飞AI同传的后续报告和一位叫Bella Wang的同声传译员。

现状

那么发展了这么久的NLP ,到目前为究竟是个什么水平呢?我试着帮大家总结如下:

  • 拼写检查,关键字搜索,查找同义词
  • 提取网站信息,例如:价格,日期,地点,人员或公司名称等
  • 词袋分类:例如关于影评的情感分析,积极、消极等
  • 机器翻译
  • 简单口语对话
  • 简单的系统问答系统

机器翻译vs机器学习

发现业内不少人对于这个问题都相当的模糊,仿佛在产品中使用了MT,自己就上了ML这部车一样。广义上讲,的确可以这么认为,毕竟都是以“机器”开头的,属于一辈人。同时大多数NLP技术确实都是由深度学习(机器学习的一个子领域)所驱动的,所以远观没毛病,但仔细琢磨起来,还真是不可亵玩。

ML常见的问题包括如下几类:

NLP之我见_第1张图片

再来看看机器翻译或者说NLP需要处理的问题吧。

NLP之我见_第2张图片

由此可见,广义上二者的确都属于机器学习范畴,但狭义的ML跟MT的所研究和需要考虑的内容还是相距甚远的。

NLP资源分享

ML的知识浩如烟海,门槛着实不低,需要补充的相关知识甚众,这里我先给大家分享一些自己积累的干货——斯坦福大学CS224n NLP与深度学习的综合课程。本课程全面介绍了应用于NLP的深度学习前沿研究。在模型方面涵盖了词向量表示,基于窗口的神经网络,循环神经网络,长-短期记忆模型,递归神经网络和卷积神经网络,以及一些涉及存储器组件的最新模型。

通过这个GitHub Repo可以访问由Stanford University School of Engineering提供的全部18节课程和对应的作业。对此有兴趣同时自认为牙口还算不错的朋友们,欢迎加入啃硬骨的队伍哦。https://github.com/khanhnamle1994/natural-language-processing

你可能感兴趣的:(NLP之我见)