AI技术生态论

【AI技术生态论】字节跳动李航：自学机器学习，研究AI三十载，AI发展或进入平缓期

作者 | 夕颜
出品 | AI科技大本营（ID:rgznai100）

「AI技术生态论」是CSDN发起的“百万人学AI”倡议下的重要组成部分，与AIProCon万人开发者大会、Top30 AI技术生态行业案例征集和评选、开发者与AI大调查、AI大师课一起，打造一个覆盖百万开发者的AI生态联盟。

2020年，「AI技术生态论」栏目将对1000+AI生态大咖进行系列访谈，勾勒出AI生态最具影响力人物图谱和AI产业全景图！

本文为「AI技术生态论」系列访谈的第一期，更多AI技术和产业生态报道，敬请期待下一期精彩内容！

【导读】一阵凉风吹过人工智能，让这个曾是燥热的领域逐渐冷却下来，留下的是扎实地在做研究的人、机构、企业。先后在 NEC 公司中央研究所、微软亚洲研究院、华为诺亚方舟实验室从事和领导 AI 技术研发，现任字节跳动人工智能实验室总监的李航，就是一位 AI 技术的坚实研究者和实践者。

在字节跳动的一间会议室，笔者第一次见到这位卓有建树的AI技术研究者和实践者。关于李航的严谨和认真笔者早有耳闻，而在这次会面中，笔者才真正领会了他的学者风范。

让笔者欣喜的是，李航非常友善且健谈，从早年的研究经历到最近的新书《统计学习方法》第二版，再到对机器学习热门技术的看法及对未来人工智能的展望，相关问题他都一一做了详尽的回答。

一、初遇“机器学习”，也曾有过怀疑

从事 AI 研究 30 多年，目前李航作为字节跳动人工智能实验室总监，负责领导AI 技术基础研究和产品落地，主要集中在搜索、推荐、对话、问答、教育几个领域。目前，李航投入主要的精力在产品研发上，但仍有一些精力放在基础研究上。

例如在搜索领域，李航表示他们今年发表了一篇关于排序学习的论文，提出使用点击数据训练搜索排序模型的新方法。因为点击数据会有偏差，这个方法能自动做纠偏同时学习排序模型，在搜索中很有效。据悉，这项成果已经用到了字节跳动的搜索引擎中。这项技术的成功为搜索引擎变成一个自学习的系统迈出了重要一步。

在字节跳动，李航的主攻方向还是自然语言处理、信息检索、数据挖掘，认为学术和落地两者的结合至关重要。他认为，把研究的成果应用到产品，解决实际问题，同时把具有普世意义的成果，作为学术论文发表，在计算机领域这样的工作很有价值。因此，他表示将不断推动产品开发和学术研究，同时做好两者之间的平衡。

对李航的现状有所了解之后，我们不妨来了解一下，当初是什么样的契机，让他走上了 AI 研究的道路并一直坚持到现在。相信这会让有意进入该领域，但是对于未来职业和人生规划感到迷茫的年轻人受益匪浅。

京都大学留学开始“AI”生涯

李航回忆道，他最初与 AI “结缘”，是1988年，在日本京都大学留学的本科时期。当时，他最早做的两个工作都是文本生成相关的。然而，彼时的主流技术并不是机器学习，而是基于规则的方法。

读本科时，李航做了一个叫做 System Grammar（系统文法）的语言学框架，用它进行中文生成；硕士期间，他研发了一个能够根据不同需求生成多样表达的系统。但值得一提的是，这两个项目中使用的都是基于规则的方法。

他回忆道，其实到 90 年代初，机器学习才进入到自然语言等领域，或者说在这些领域产生更大的影响，逐渐变成主流技术。但当李航开始进入这个行业时，状况并不是这样，他也未曾想到，机器学习后来会给AI带来翻天覆地的变化。

回首 90 年代初开始接触机器学习时的经历，李航坦诚当时内心也有过一些怀疑，因为人的语言理解和生成机制与机器学习是完全不同，当时整个业界都认为应该基于规则建立认知模型，去做一些智能相关的任务。李航说，他的机器学习知识也都是从那时开始，通过自学获取的。

“可以说，80 年代至 90 年代初，人们对人工智能的期待非常高，比如 80 年代日本有所谓的第五代计算机项目，那时人们觉得人工智能的实现应该通过推理技术，但后来发现那些路根本走不通。接着，在90 年代，人工智能进入低谷期，当时业界甚至都不愿意提及人工智能这个词。相反地，更多的人把 AI 落到实处，用机器学习去做简单的事情。”在李航的眼中，90 年代的AI从业者和研究者，是一群务实的人。

务实的 90年代

李航以他自己的亲身经历，讲解了 90 年代那群“务实”的人。他最早接触的机器学习算法是决策树，叫做 ID3，这个算法其实只能做一些简单的事情。再如，基于神经网络的手写数字识别，也是一个典型的例子。

李航认为，这些事情都比较简单，听起来也没有那么智能，但是当时人们更多地是在脚踏实地做一些实际的事情，没有过多考虑智能。所以，从 90 年代到本世纪初的10年，在大约 20 年的时间里，关于人工智能的谈论并不多，更多的是用机器学习、数据挖掘去解决实际问题。

2012 年左右，深度学习开始火起来。而实际上，2012-2014年，最火的词汇还不是人工智能，是大数据。直到 2015年 Alpha Go 横空出世，人工智能这个词才又一次完全火爆起来。所以说，业界在不断发生变化，技术在演进，大家的关注点和期待，也在随之改变。

二、新书再版计划，增加深度学习和强化学习

接着，我们的话题转到了李航最近的《统计学习方法》第二版。这一次，作者在新版本中加入了无监督学习相关内容。为什么要增加这一部分内容？未来这本书还会有哪些变动？

李航指出，无监督学习有若干个不同的定义，《统计学习方法》第二版新增的无监督学习内容主要是传统机器学习中的无监督学习，与Hinton等人最近说的深度学习中的无监督学习不尽相同。他认为无监督学习确实是深度学习未来发展的重要方向，有望让机器变得更加智能化，像人一样使用语言，比如，自然语言处理领域的BERT 之所以可以发挥巨大的威力，根本原因在于它做了很好的预训练，就是无监督学习。Hinton 所谓的无监督学习是深度学习的未来，是指类似于 BERT这样的预训练方法。从这个意义上来说，无监督学习非常重要。

李航表示，因为这本书是在业余时间写作的，因此耗费时间较长，第一版花了七年，第二版花了六年时间。2012 年《统计学习方法》第一版出版时正值深度学习初火，当时他曾有意加入一些神经网络的内容，但是担心时间拖得太久故作罢，所以第一版只对传统机器学习中的监督学习的主要方法做了介绍。

本来，李航计划再加上无监督学习的内容就结束本书，但是出版之后受到读者的欢迎，这使他备受鼓舞，很多人希望再加上深度学习和强化学习，可以看到全新的，沿袭本书简洁和重点突出风格的内容。所以，李航计划为这本书增加深度学习和强化学习，希望可以覆盖所有机器学习常用的方法，帮助读者更好更快地掌握机器学习技术。然而，再出新版的时间不能确定，也许要几年之后。

李航特别指出，这本书的定位并非入门书籍，不一定适合入门者，因为虽然该书的内容都是最基本的，没有一定的统计概率知识和其他相关基础知识，学起来可能有点吃力。他希望，这本书能成为一本字典一样的书籍，让大家能够反复研读，经常使用。

三、对人工智能的洞察与前瞻

回顾人工智能的发展历史，每一个阶段都有会因为一些技术突破使得领域的发展曲线升向新的高峰，取得巨大进展。近年来，人工智能领域的的一些新技术，或者新思路，比如深度强化学习、图神经网络、通用人工智能、神经符号处理等引起了业界的瞩目，大家对这些新词汇或新技术寄予厚望，希望能让这个领域发生更多的奇迹。然而，每每被冠以“突破性”的技术，产生的影响果真的有这么大吗？李航凭借多年的研究经验，给出了他的看法。

强化学习比监督学习更需要数据

李航曾表示，构建一个复杂的智能系统，原理上需要从“身体“入手，让智能系统在与环境的互动中进行学习，而强化学习是实现这一目标的有效手段。深度强化学习应用到真实环境中有什么样的优势？深度强化学习在智能系统的学习过程中会起到什么样的作用？

深度强化学习是把深度学习和强化学习结合起来，用深度学习学习强化学习模型，所以深度强化学习本质上还是强化学习。

李航表示，当智能系统学习做一些相对简单任务时，可以使用监督学习，监督学习技术已经比较成熟和实用，但代价是要用很多标注数据。相比，强化学习可以适用于让智能系统学习做更加复杂的任务。所以，从这种意义上来说，强化学习未来很有前景。

强化学习未来发展前景广大，但当前却面临着一个巨大的挑战，即强化学习从某种意义上比监督学习更需要大数据，数据成为当前强化学习发展的最大瓶颈。可以想象，未来5G、物联网等技术的发展会带来更多的数据，可能强化学习之后会获得更大的发展。所以，强化学习是大家都很看好的一个方向。

机器学习做不到和人一样触类旁通

目前，统计学习是机器学习的主流，但是统计学习还做不到和人一样的触类旁通，自学知识，达到人的学习能力。统计学习在机器学习中起到什么作用？机器如何才能获得人的学习能力？

对于机器学习和深度学习目前取得的一些成果，李航认为应理性看待，“这让大家有一种错觉，认为机器已经非常接近人，但实际上差得还很远，这是因为人类学习和机器学习具有完全不同的机制。人天然具有三个最重要的学习能力，即记忆能力、泛化能力、联想能力，在机器上实现同样的学习能力还有很多困难。特别是现在人的学习的具体机理还不是很清楚。”

人的思考机制与机器本质上不同

那么，有没有一种方法能够让机器做到和人一样触类旁通呢？李航认为还看不到这种可能，要想机器学习做到像人类一样触类旁通非常难，做到这一点还需要漫长的时间，至于是多久，他也无法给出准确的估计。

为什么机器无法和人一样触类旁通？这要从人的学习机制来看。一言以蔽之：人与机器的学习在本质上是完全不同的。

李航讲到，人和动物天然具有记忆和泛化能力，这其实是在做概念的存储和抽象。比如，老鼠吃了一次让它中毒的食物，就能认识到这种食物不能吃，下次看到同样的有毒食物就不会再去碰它。也就是说，只用了一个样本就把有毒食物的特点，如颜色和气味学到了（记忆了）。在这个过程中，老鼠做了抽象，因为食物的个体都不是完全一样的，老鼠能区分哪些东西属于同类。这些能力都是老鼠生来具有的，有很充分理由相信，人也具有同样的能力。

此外，人还具有一项重要的能力，它在人的学习或概念形成、推理、语言使用中起到最根本的作用，那就是联想。联想是什么？李航用一个简单的例子来做了说明，比如现在你看到一瓶水，你可能会联想到你昨晚也喝过这种水，或者它的生产厂家等。人的经历不同、场景不同，联想的内容也不同。人时时刻刻都会做联想，所以人的思考其实很大部分都是在找到相关的记忆。计算机做检索的过程其实也是在联想。我们产生新的概念、做创造发明、学习新知识等常常也是在做联想。即记忆的机制就是联想，发明创造的机制也是联想。

所以，人的这种最基本的思考机制是记忆、泛化、联想→学到知识。

但是，机器学习目前完全是基于统计，即依靠数据。李航表示，他的书之所以命名为《统计机器学习方法》，是为了强调理论和统计的重要性，因为在他的认知里，机器学习基本上约等于统计机器学习或统计学习，这也是目前业界的共识。未来也有可能出现其他的机器学习方法，但至少目前来说机器学习就是约等于统计学习。

统计机器学习最核心的想法，就是从大量数据中找到统计规律。即使是深度学习，本质上也是统计学习，用复杂的训练神经网络，表示找到的复杂的统计规律，去做一些看似智能，但本质上和人的智能机制不同的事情。

因此，机器学习与人类学习的本质完全不同，所以让机器达到与人一样触类旁通非常难。

图神经网络重要，但其作用不应被夸大

近年，图神经网络（GNN）的研究火了起来。这是因为深度学习虽然进展迅猛，但是却有着无法进行推理的缺陷，而基于图的深度学习将端到端学习和归纳推理结合起来，使模型兼有表示能力和推理能力，被有些人视为未来智能技术突破的关键。

对此，李航表示，图神经网络是很重要的技术，但其作用不应该被夸大。

深度学习，从最基本的深度神经网络，发展到CNN，之后又出现了几次重大突破，如 GAN、自然语言处理领域的 BERT 等，图神经网络也属于这样的重大突破。从这个意义上来说，图神经网络，GNN是一个重要方向，也是一个大的突破口，很多人在做相关研究，包括字节跳动。

然而，李航认为，GNN 的特点在于通常以图数据为输入，利用图上各个节点之间的关系，学习更加复杂的模式，做智能性的判断和简单推理。这种意义上它是一个强大的工具，目前在很多应用中已经得到了很好的结果，未来还有很大的发展前景，值得深入研究。但是实现智能的一些关键问题，仅靠GNN还不能解决。它是未来重要的研究方向，但并非唯一方向。

“人类研究人工智能这么多年，苦于不知道如何把自己的知识告诉计算机，以实现人类智能，GNN并没有本质解决这个问题，单靠GNN实现人类智能，我认为不现实。”李航说道。

符号处理+神经处理、多模态让机器更加智能

上面讨论了一些机器学习领域很重要的技术，但是显然每一项技术单独来看都有局限性，无法单纯依靠某种技术实现人的智能。那么问题来了，如何才能让机器变得更加智能呢？我们至少需要一些思路。

李航认为，要实现人工智能，需要解决的一个重要问题是把符号处理与神经处理结合起来。

他首先解释了大脑的思考机制。人类的智能有两个层面，一个层面是人的大脑，是一个包含 1000 亿神经元，1000万亿联接的复杂神经网络。这个网络每个时刻都处于不同的状态，信号在网络中传输，网络状态发生变化。人工神经网络一定程度上与人脑神经网络相似，比如两者都是在网络结构中引入一些输入，做各种变换，之后产生一些输出。现在，深度学习中是用向量、矩阵或张量进行神经表示。但是，人工神经网络比人脑简单得多。

另外一个是意识层面，即人类做推理、理解语言、使用知识的层面，意识层面的东西大致可以用符号表示，对应着计算机的符号处理。但这方面的机制，我们并不十分清楚，脑科学和认知科学有一些假说。人脑中，意识层面的符号处理和脑层面（下意识层面）的神经处理是如何结合的还完全不清楚。

但是，看来要推进机器使用人类语言的能力，即自然语言处理能力，可能需要神经符号处理，就是把神经处理和符号处理两者结合起来，这样才能使机器更接近人。

另一个重要问题，多模态技术也是实现人工智能的关键技术。近年来也引起了大家广泛关注。

李航对此表示认同，他讲道，人的智能中的模态其实并没有明确的划分，人思考时大部分情况下都是在进行一种多模态“处理”，结合了视觉、听觉、触觉、味觉等各种模态。未来，相信随着数据的增多，计算能力的增大，多模态技术将能够做到更多，有望成为AI技术的一个突破口。

另一个重要问题是Hinton等所说的无监督学习，这里不在重复。

通用人工智能展望

实现通用人工智能，是人工智能领域的终极目标。李航在 2016 年的一次采访中曾预测，通用人工智能可能要 500 年才能实现，但或许永远都不可能实现。时隔三年，随着人工智能领域的进一步发展，李航的观点有改变吗？

“我不太喜欢用强人工智能、弱人工智能、通用人工智能的说法，因为这几个概念都没有严格的定义，很多时候大家说的并不是同一个东西。但是AI领域会不断发展，机器智能的水平会不断提高，这一点是不容置疑的。当时，被记者要求一定要说个数字，就随便说需要500年才能实现通用人工智能，其实没有科学的依据。”李航说道。

所谓的通用人工智能还是很遥远的。比如，机器很难具备常识和情感，即使是简单的常识性推理对于机器来说也是一道很难跨越的门槛，更不用说具有情感的机器。而这些都是人类智能的一部分。

面向未来，李航预测，从功能主义的角度来说，今后有相当长一段时间，瞄着实现合理行动的机器、合理思考的机器，把符号处理和神经处理结合起来，加上无监督学习、多模态等技术，可以让系统的智能程度上升好几个台阶，但是它最核心的可能还是机器学习，未来 50年，我们仍在使用这些最基本的技术，看来这个概率最大。

从另外的思路来看，常识推理、因果推断等也是一些重要的研究方向，希望它们能和机器学习结合起来。可以预见，合理行动、合理思考的机器会根据不同的场景需求，组合衍生出各种各样的智能系统和智能工具。

未来若干年，很有可能AI发展将会慢一些，突破会少一些

当然，李航谈论了他对于机器学习发展的看法。他说道，就像人的智能发育是一个漫长的过程一样，机器智能的构建也需要漫长的积累。人虽然自出生的那一刻起就具备了基本的认知和感知的能力，但是后天成长中也需要漫长的学习过程，不断积累才拥有了各种知识，具备了各种能力。

虽然李航认为机器学习的发展距离人的智能还有相当大的距离，但有几件事情是可以预见的：机器最强大能力就是计算和存储，过去 30 年，计算的速度、存储的容量、通讯的速度都提升了 100 万倍，未来 30 年、100年、500 年以后仍会飞速增长。如果我们能让机器很好地利用大数据和大算力，进行自主学习，这在将来带来革命性的变化。

“我的感受是人工智能研究其实需要长时间的积累，2012 年到 2018 年这段时间有很大的突破，大家的期待特别高，以为今后一直会同样高歌猛进。然而事实并不是这样，大部分研究实际上都是需要不断积累，缓慢进步，不断发展的。包括深度学习大师 Yoshua Bengio 最近也在说，人工智能技术研究需要长期积累，我对他这句话的解读是，人工智能的发展也是有高峰和低谷的，我们不会永远处于高峰。未来若干年，概率最大的可能性是，人工智能相对前几年发展会缓慢一些，新的突破会少一些，但是还是会不断进步。未来还有更多有挑战性的问题，需要大家不断克服，持续积累，对于 AI，我们要有一个正确的期待。”

采访嘉宾

李航，字节跳动人工智能实验室总监，北京大学、南京大学客座教授，IEEE 会士，ACM 杰出科学家，CCF 高级会员。他的研究方向包括信息检索，自然语言处理，统计机器学习，及数据挖掘。李航 1988 年日本京都大学电气工程系毕业，1998 年获得日本东京大学计算机科学博士。他 1990 年至 2001 年就职于日本 NEC 公司中央研究所，任研究员，2001 年至 2012 年就职于微软亚洲研究院，任高级研究员与主任研究员。2012 年至 2017 年就职于华为技术有限公司诺亚方舟实验室，任首席科学家、主任。李航一直活跃在相关学术领域，曽出版过三部学术专著，并在顶级国际学术会议和顶级国际学术期刊上发表过 120 多篇学术论文，包括 SIGIR, WWW, WSDM 等。李航参与了多项产品开发，包括 Microsoft SQL Server 2005, Microsoft Office 2007, Microsoft Live Search 2008, Microsoft Bing 2009, Bing 2010, Office 2010, Office 2012。他拥有 42 项授权美国专利。李航还在顶级国际学术会议和顶级国际学术期刊担任大会程序委员会主席、资深委员、委员、期刊编委，包括 SIGIR, WWW 等。

(*本文为 AI科技大本营原创文章，转载请联系微信 1092722531)

【End】

CSDN全新人物专栏重磅上线

PS：今日福利！

同样作为“百万人学AI”的重要组成部分，2020 AIProCon 开发者万人大会将于6月26日通过线上直播形式，让开发者们一站式学习了解当下 AI 的前沿技术研究、核心技术与应用以及企业案例的实践经验，同时还可以在线参加精彩多样的开发者沙龙与编程项目。参与前瞻系列活动、在线直播互动，不仅可以与上万名开发者们一起交流，还有机会赢取直播专属好礼，与技术大咖连麦。

评论区留言入选，可获得价值299元的「2020 AI开发者万人大会」在线直播门票一张。快来动动手指，写下你想说的话吧

点击链接，观看直播吧！

端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
NLP高频面试题（七）——GPT和Bert的mask有什么区别？ Chaos_Wang_ NLP常见面试题自然语言处理 gpt bert
GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。它们都在训练过程中使用了Mask机制来引导模型学习语言表示，但具体实现方式和目标却有所不同。本文将深入探讨GPT和BERT的Mask方法的核心区别，并分析其优化策略。1.BERT的Mask机制：基于MLM（MaskedLanguageModel）BERT（Bidirectional
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
混合整数非线性规划的松弛与分解方法 Waiyuet Fung 混合整数非线性规划松弛方法分解技术启发式算法全局优化
背景简介混合整数非线性规划（MINLPs）作为运筹学中的一个重要领域，涉及到优化问题的连续和离散变量混合，在工程设计、生产调度、资源分配等多个领域发挥着关键作用。本书由I.Nowak撰写，旨在深入探讨这一复杂的优化问题及其解决方案。MINLPs基础概念在本书的第一部分，Nowak介绍了MINLPs的基本概念。MINLPs的目标是寻找一组连续和整数变量的最优组合，以最小化或最大化某个非线性目标函数。
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
AI在项目中的应用酒江人工智能
AI大模型（如GPT-4、BERT、T5等）在各类项目中有广泛的应用，可以极大地提高项目效率、优化流程，并解决许多传统方法难以应对的问题。以下是AI大模型在不同类型项目中的一些具体应用：1.自然语言处理（NLP）文本生成和摘要：AI大模型可以生成高质量的文本内容，自动撰写文章、新闻报道、博客或技术文档，甚至可以进行文献摘要，帮助内容创作者提高效率。情感分析：在客户服务、社交媒体监控或市场研究项目中
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
大模型与自然语言理解（NLU）：差异与联系技术流 Gavin AIoT python 语言模型 ai
近年来，人工智能领域取得了显著进展，尤其是在自然语言处理（NLP）方面。大模型和自然语言理解（NLU）作为NLP的两个重要分支，常常被提及，但它们之间存在着本质区别。1.定义与目标大模型:通常指拥有庞大参数规模（数十亿甚至数千亿）的深度学习模型，例如GPT-3、LaMDA等。它们通过海量文本数据进行训练，旨在学习语言的统计规律，并能够生成流畅、连贯的文本。NLU:是NLP的一个子领域，专注于让机器
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod