Google最新人工智能算法RankBrain的实现--写在后面的话

大家知道,就在上个月26号,Danny Sullivan 发表在Search Engine Land网站的一篇对于谷歌新的RankBrain算法原理解析( 原文),顿感机器学习技术在搜索引擎中的重要性。由此,翻译一篇google开源博客中的一篇文章: 写在学习后面的话。



在当前,电脑是不是很善于理解人类的语言,这迫使人们做了很多繁重的工作,例如,说“搜索”在网上查找资料,或通过冗长的表格苦读预订行程。计算机要理解自然语言的更好,让人们可以更轻松地与他们进行互动,并享受生活的有趣的部分。


虽然国家的最先进的技术,仍然是来自这个目标方面,我们正在利用最新的机器学习和自然语言处理技术显著的进步。深度学习也明显提高语音识别和图像分类。例如,我们已经表明,计算机可以学会识别猫(和许多其他物体)只是通过观察大量图像,没有明确被训练上了猫的样子。现在,我们运用神经网络通过让他们“看”数量庞大的文字在网络上认识的话。我们正在扩展这种方法的数据集比以前什么有可能大几千倍,我们已经看到了业绩的显着改善 - 但我们认为这可能是更好的。为促进机器学习如何运用自然语言问题的研究,我们正在发布一个开源工具包称为word2vec,目的是学习后面的话的含义。


Word2vec采用分布式的文字表述来捕获概念之间的相似性。例如,它的理解是巴黎和法国都涉及同样的方式柏林和德国(资本和国家),并没有以同样的方式马德里和意大利。该图表显示,以及它如何能够通过阅读大量新闻稿件学习省会城市的概念 - 没有人监督:Google最新人工智能算法RankBrain的实现--写在后面的话_第1张图片

  该模型不仅给类似的国家彼此相邻,而且还安排他们的首都城市并列。最有趣的部分是,我们之前或期间的训练并没有提供任何监督信息。许多像这样的更多的模式在训练中会自动出现。


这具有非常广泛的应用潜力:知识提取、机器翻译、问答、对话系统等


我们希望这可以帮助研究人员在机器学习,人工智能,自然语言方向,使他们能够创造出惊人的现实世界的应用。


word2vec源码C语言实现现已被我转藏到hithub,想要学习的同学可以去下载。

github:https://github.com/chorylee001/word2vec



你可能感兴趣的:(机器学习)