为什么相比于计算机视觉(cv),自然语言处理(nlp)领域的发展要缓慢?

主要原因是涉及到序列的东西都不好做。CV那边搞视频一样头疼结果上不去。

而且另外一方面,个人理解cv目前做的东西更多的是extraction和generation,understanding的很多好,大量论文集中在前两点。如果设计understanding更多的是image caption和inpainting那些。

而且,个人理解understanding得到的东西必须是不能通过边缘一步一步不全得到的(比如style-transfer在我看来更像step-by-step generation的过程)。

CV的路线好在extraction和generation带来的是优质的classification质量和快速的应用可能性,这就能代理工业界的重视和资金。而NLP的任务因为很难通过单纯的extraction,而NLP的生成任务(NLG)本质上也是离开understanding基本做不了东西。

顺便提一下,国内NLP也在迅速发展,可以关注一下学术范这个网站上的学者,和相关研究方向什么的:Nlp Indi Dharmayanti-学者概述 (xueshufan.com)

其实,NLP和CV都已经是很大的领域了,很难总体上说哪个更难。NLP领域中也很多比较容易的问题,CV领域也有很多很难的问题。

直观感受上,NLP在工业界应用很少,不成熟。但实际情况也并非如此。比如拼音输入法,几乎每个人都在用吧,其背后就是NLP的统计语言模型。每个大厂背后都有很多NLP的技术支撑。大厂对NLP工程师需求一点都不亚于CV工程师。

补充一下,为什么感觉上NLP不成熟呢?主要有两个原因:

1 预期太高。NLP的技术发展永远落后于人们对他的预期。人们对NLP的预期等同于对科幻片中对AI的预期。NLP技术的难度和人们理想中的NLP水平很不一样。比如人们会认为实现类似SIRI的日常对话系统的难度低于专业领域的问答系统,但是实现难度可能刚好相反。

2 不能标准化。像语音识别、图像识别可以是相对比较标准化,输入和输出特别明确。这种可以利用大数据的优势,通过机器学习算法相对容易。而NLP应用的大部分场景都是非标准化的,输入数据十分“dirty”,需要大量的预处理,输出也和场景结合十分紧密,没有统一标准。比如NLP中就连最底层的分词,也没有统一的标准,不同场景对分词的标准要求都不一样。这样就带来一个问题,NLP的大部分应用场景都缺少足够规模的标注数据,并且标注成本也非常高。因此准确率通常也不会很理想。 同样道理,CV中涉及个性化的应用场景其实也都非常难。

另外,感觉上NLP在工业界的应用比较少,是因为大部分NLP的应用还都是在后台,为搜索、推荐等应用作为一个技术支撑,前台看不见而已。

你可能感兴趣的:(nlp,opencv,人工智能,ai)