数据挖掘、自然语言处理

著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:纪路
链接:https://www.zhihu.com/question/26391679/answer/33076914
来源:知乎

各种数据库(mongodb,Hive,Pig,HBase,RedShift),分布式系统(Hadoop, Spark),编程语言(Python和R)都是为其开发的或者擅长处理大数据


一点小建议:作为一个业内人士,首先我的建议就是放弃“我的英语比较差”这个想法。作为母语非英语的所有人都不是天生英语就比较好的。程序员还好,题主所说的3门学问,如果不能熟练的阅读英文材料,将寸步难行。如果有强烈的兴趣甚至要考虑出国读书。
下面就题主问的三项来解答:“机器学习、数据挖掘、自然语言”
首先要认识到这三项并不是独立的选项,机器学习需要数据挖掘和自然语处理的支撑,自然语处理需要数据挖掘的支撑,数据挖掘需要大数据的支撑。最终所有的根源都要落实在大数据上,而这一切的顶点就是人工智能。从这个层面上来看数据挖掘是比较基础的部分,目前也有比较成熟的解决方案,只要你有数据不愁找不到工具。各种数据库(mongodb,Hive,Pig,HBase,RedShift),分布式系统(Hadoop, Spark),编程语言(Python和R)都是为其开发的或者擅长处理大数据。所谓学习数据挖掘已经逐渐变成熟练掌握这些工具的过程了。当然如果有兴趣,也可以参与各种分布式系统的开发,不过基本上你能想到的所有好用的算法,前人都已经写好了集成进去了。
自然语处理,在这个世界上除了谷歌,苹果,微软,IBM还没有其他能够挑战此领域并且获得受人瞩目的成就的公司。因为现在自然语处理就是方法很落后,手段很暴力。基本上常用的技术在10几20年前就出现了,只不过那时候没有谁拥有上万台计算机来处理自然语,现在倒是有了。可离实用还有很长的路要走(可以看一下IBM的沃特森,基本上也就代表现阶段最强的自然语处理的水平了)。
最后就是机器学习了,这一点除了我之外已经有很多人强调过了——“机器学习只是被过度神话了!”。说白了现在的机器学习技术就是“战五渣”,谁上谁后悔。目前除了以“深度学习”为代表的人工神经网络之外其他的大部分常用的学习方法都是统计学习。不仅要喂足了料,还要精心调教,还不一定出货,出了也基本上不准。如果恰好结果符合预期,只能说“运气真好”。不过也正是因为这样,机器学习才作为一项前沿学科,很多科学家去研究,据我目测,这一波深度学习热应该已经过去了吧。按这个节奏,不知道10年之后又会有什么技术点燃机器学习的热情也说不定。

好了吐槽完了,我觉得题主可能先试试数据挖掘看看,挺好玩的~

你可能感兴趣的:(大数据)