liwei999

【NLP主流最大的偏见，规则系统的手工性】

【科普随笔：NLP主流的傲慢与偏见】中的第一条是：

【偏见一】规则系统的手工编制（hand-crafted）是其知识瓶颈，而机器学习是自动训练的（言下之意：因此没有知识瓶颈）。

NLP（Natural Language Processing）主流对规则系统和语言学家大小偏见积久成堆，这一条可以算是万偏之源。随便翻开计算语言学顶级会议的论文，无论讨论什么语言现象，为了论证机器学习某算法的优越，在对比批评其他学习算法的同时，规则系统大多是随时抓上来陪斗的攻击对象，而攻击的理由往往只有这么一句话，规则系统的手工性决定了 blah blah（“其不能 scale up”，“其效率低下”，“其不鲁棒”，等等），或者干脆不给具体理由，直接说“文献【1】【2】【3】尝试了这个问题的不同方面，但这些系统都是手工编制的”，一句话判处死刑，甚至不用讨论它们的效果和质量。手工性几乎成了规则系统的“原罪”，编制这些系统的人因此成为学术共同体背负原罪的二等公民。

手工编制（hand-crafted）怎么了？在日常消费品领域，这是道地的褒义词，是特别的嘉奖，是批量机械化生产和千篇一律的反动，是独特和匠心的代表，是高价格理直气壮的理由。怎么到了NLP领域，突然就成了带有原罪的贬义词了呢。这是因为在NLP领域，代表主流的精算师们由于他们在NLP某些任务上的非凡成功，使得他们居功自傲，把成功无限推广和夸大，给这个community 施行了集体催眠术，让人相信机器学习是万能的。换句话说，批判手工编制的劣根性，其隐含的前提是机器学习是万能的，有效的，首选的。而实际情况是，面对自然语言的复杂性，机器学习只是划过了语言学的冰山一角，远远没有到主流们自觉和不自觉吹嘘的如入无人之地的万能境界。催眠的结果是不独不少语言学家以及NLP相关利益方（stake holders，如投资人和用户）被他们洗脑了，连他们自己也逐渐相信了自己编制的神话。

真实世界中，NLP 是应用学科，最终结果体现在应用软件（applications）上，属于语言软件工程。作为一个产业，软件工程领域吸引了无数软件工程师，虽然他们自嘲为“码工”，社会共同体给予他们的尊重和待遇是很高的（Bill Gates 自封了一个 Chief Engineer，说明了这位软件大王对工匠大师的高度重视）。古有鲁班，现有码师（coding master）。这些码工谁不靠手工编制代码作为立足之本呢？没听说一位明星工程师因为编制代码的手工性质而被贬损。同是软件工程，为什么计算语言学家手工编制NLP代码与其他工程师手工编制软件代码遭遇如此不同的对待。难道NLP应用比其他应用简单？恰恰相反，自然语言的很多应用比起大多数应用（譬如图形软件、字处理软件等等）更加复杂和艰难。解释这种不同遭遇的唯一理由就是，作为大环境的软件领域没有NLP主流的小环境里面那么多的傲慢和偏见。软件领域的大牛们还没有狂妄到以为可以靠自动编程取代手工编程。他们在手工编程的基础建设（编程架构和开发环境）上下功夫，而不是把希望寄托在自动编程的万能上。也许在未来的某一天，一些简单的应用可以用代码自动化来实现，但是复杂任务的全自动化从目前来看是遥遥无期的。不管从什么标准来看，非浅层的自然语言分析和理解都是复杂任务的一种。因此，机器学习作为自动编程的一个体现是几乎不可能取代手工代码的。规则系统的NLP应用价值会长期存在。

自动是一个动听的词汇。如果一切人工智能都是自动学习的，前景该有多么美妙。机器学习因为与自动连接在一起，显得那么高高在上，让人仰视。它承载着人类对未来世界的幻想。这一切理应激励自动学习专家不断创新，而绝不该成为其傲慢和偏见的理由。

在下面具体论述所谓规则系统的知识瓶颈软肋之前，值得一提的是，所谓自动是指系统的开发，不要混淆为系统的应用。在应用层面，无论是机器学习出来的系统，还是手工编制的系统，都是全自动地服务用户的，这是软件应用的性质决定的。这虽然是显而易见的事实，可确实有人被误导，一听说手工编制，就引申为基于规则系统的应用也是手工的，或者半自动的。

手工编制NLP系统是不是规则系统的知识瓶颈？毋庸讳言，确实如此。这个瓶颈体现在系统开发的周期上。但是，这个瓶颈是几乎所有大型软件工程项目所共有的，是理所当然的资源costs，不独为 NLP “专美”。从这个意义上看，以知识瓶颈诟病规则系统是可笑的，除非可以证明对所有NLP项目，用机器学习开发系统比编制规则系统，周期短而且质量高（个别的项目可能是这样，但一般而言绝非如此，下面还要详谈）。大体说来，对于NLP的浅层应用（譬如中文切词，专名识别，等等），没有三个月到半年的开发，没有至少一位计算语言学家手工编制和调试规则和至少半个工程师的平台层面的支持，是出不来系统的。对于NLP的深层应用（如句法分析，舆情抽取等），没有至少一年的开发，涉及至少一位计算语言学家的手工编制规则，至少半个质量检测员的协助和半个工程师的平台支持，外加软件工程项目普遍具有的应用层面的用户接口开发以及把开发出来的NLP引擎deploy到大数据上去的 operations 的投入，也是出不来 real life 的软件产品的。当然需要多少开发资源在很大程度上决定于开发人员（包括作为知识工程师的计算语言学家）的经验和质量。譬如让立委来开发中文系统（或英文、法文系统），就比找年轻语言学家快得多，以一当十绝不是自夸。其实，即便是10个新手，也未见得能做出立委的系统来，因为自然语言里面所牵涉到问题的复杂度不是拼时间就可以完成的。

计算语言学家编制规则系统与软件工程师编写程序没有本质不同。不过是所用的语言、形式框架和开发平台（language，formalism & development platform）不同而已，系统设计和开发的测重点不同而已。这就好比现代的工程师用所谓高级语言 Java 或者 C，与30年前的工程师使用汇编语言的对比一样，本质是一样的编程，只是层次不同罢了。在为NLP特制的“高级”语言和平台上，计算语言学家可以不用为 memory allocation 等非语言学的工程细节所羁绊，一般也不用为代码的优化和效率而烦扰，他们的注意力更多地放在面对自然语言的种种复杂现象，怎样设计语言处理的架构和流程，怎样突破规则系统的框架与其他语言处理包括机器学习进行协调，怎样平衡语言条件的宽窄，怎样与QA（质量检测）协调确保系统开发的健康，怎样保证语言学家团队编制规则的操作规范以确保系统的可持续性（data driven，unit testing，regression testing，code review，maintenability，baselines，等等等等），怎样根据语言开发需求对于现有形式框架的限制提出扩展要求，以及怎样保证复杂系统的鲁棒性等等。一个领头的计算语言学家就是一个系统的架构师，系统的成败绝不仅仅在于语言规则的编制及其堆积，更多的决定于系统架构的合理性。不要把村干部不当干部，也不要把知识工程师（计算语言学家）不当工程师。很多人由于根深蒂固的偏见，把计算语言学家一律当作资料员，殊不知能够在NLP规则系统中统领项目的计算语言学家，绝不是只要知道某个语言的syntax这些皮毛就可以胜任的。明星工程师是软件企业的灵魂，NLP 规则系统的大规模成功也一样召唤语言工程大师。

关于知识瓶颈的偏见，必须在对比中评估。规则系统需要语言学家手工开发的资源投入，机器学习也同样需要资源的投入，不过是资源方式不同而已。真实的情况是这样的：自然语言处理需要语言学知识，把这些知识形式化是每个NLP系统的题中应有之义，机器学习绝不会自动免疫，无需知识的形式化。具体说，机器学习的知识瓶颈在于data，大量的大量的data。排除研究性强实用性弱的无监督学习（unsupervised learning），机器学习中可资开发系统的方法是有监督的学习（supervised learning）。有监督的学习能开发知识系统成为应用的前提是必须有大量的手工标注的数据，作为学习的源泉。机器学习的算法是自动的（算法的创新、调试和实现当然还是手工的，可这种手工被认为是最高级劳动，=），而语言学家的手工规则甚至系统架构则被认为是资料员的低端工作，损人与自夸，无出其右），但是大量的数据标注则是手工的（本来就有现成标注的不算，那是例外）。因此，机器学习同样面临知识瓶颈，不过是知识瓶颈的表现从需要少量的知识工程师变成需要大量的低端劳动者（懂得语言及其任务的大学生或中学生即可胜任）。马克思说金钱是一般等价物，知识瓶颈的问题于是转化为高级劳动低级劳动的开销和转换问题：雇佣一个知识工程师的代价大，还是雇佣10个大学生的代价大？虽然这个问题根据不同项目不同地区等因素答案会有不同，但所谓机器学习没有知识瓶颈的神话可以休矣。

另外，知识瓶颈的对比问题不仅仅是针对一个应用而言，而应该放在多应用的可移植性上来考察。我们知道绝大多数NLP应用的技术支持都源于从自然语言做特定的信息抽取。由于机器学习把信息抽取看成一个直接对应输入和输出的黑匣子，所以一旦改变信息抽取目标和应用方向，以前的人工标注就废弃了，作为知识瓶颈的标注工作必须完全重来。可是规则系统不同，它可以设计成一个规则层级体系，独立于领域和应用方向的语言学规则组件（parsers）以及在语言学之上的针对领域和应用的信息抽取规则子系统。结果是，在转移应用目标时候，底层的语言学组件基本保持不变，而只需要重新编写不同的信息抽取规则而已。实践证明，对于规则系统，真正的知识瓶颈在语言学组件的构建上，而信息抽取本身花费不多。这是因为前者需要应对自然语言变化多端的表达方式，把它逻辑化，而后者是建立在逻辑形式（logical form）上的规则，一条等价于底层规则的几百上千条。因此，从多应用的角度看，机器学习的知识成本最终会远远大于规则系统。

本文引用地址：http://blog.sciencenet.cn/blog-362400-701815.html

[5]王伟 2013-6-24 20:23
期待李老师的下一讲-驳偏之二。至于“计算语言学的领域一直在排挤语言学”，的确，不是有“统计自然语言处理的某几个百分点提高，是通过解雇了几个语言学家而提高的”吗，呵呵。我认为，机器处理自然语言并不是仅一个统计就能简单搞定的。语言学家和计算机专家配合不好，是有很多方面原因。举个我听到的例子，语言学工作者对计算机专家说：“这个情况机器怎么就不能学习了，机器应该可学习到的呀！”，计算机专家回答说:’机器现在还没这么智能，这么抽象的东西暂时还学不了”–计算机学家认为语言学家不懂计算机。计算机专家对语言学家说：“不能给个好用的归纳全的知识库吗，为什么总是打补丁，没完没了，还总出笑话”，语言学家回答说：语言学还真不这么简单，这个还就真拿不出！” –语言学家认为计算机学家不懂语言学。
尽管如此，我认为，随着研究的深入，相互了解的加深，二者只有自然融合才能渐入佳境，而不可强求。只有到了对语言处理层次的高要求时，比如文本理解阶段，才会使语言学的比重逐渐加大，而对语言处理层次需求是人类发展的必然，谁也无法阻挡，所以语言学家不必为此时情景暗伤。就像早期的关键词检索，根本还用不上句法知识。而现在都在奔语义理解和自动问答，句法知识想回避都难。

删除回复 [4]李斌 2013-6-23 20:08
晕了，我是说您的观点正确
博主回复(2013-6-23 20:33)：晕了，我没看出来，：）

删除回复 [3]王伟 2013-6-23 15:44
我同意AIMan 的“规则系统和机器学习的本质区别在于‘规则的生成机制’”，其实“规则系统”和“机器学习”这种分类也不是很合理，因为它们本质上都某种规则下运行的，只是当初学科起名的时候，没考虑到现今这样情景，就像计算机千年问题一样，只不过AI领域的人心中都能够清楚是怎么一回事，我也不知怎样能在分类上显式表明区别，暂且如是用吧。

AIMan抛出的三个问题，我觉得很值得引发讨论。
1.“我们是否需要知道规则？知道规则对系统效率有提升吗？”
对于规则系统，必须是显式表示，因为人类专家看不见，自然就不能去对那些规则们进行“拿捏”了。而对于机器学习而言，显不显式表示无所谓，只要能用起来就行。显式的那些东西，若是给人类参考，供修改的话那还是有必要；若是只是为了直接使用，就没必要显式。一般来说，机器学习出来的那些规则，与人类专家总结的规则的格式内容，差别很大。人类专家的结果尽量是高概括的，高覆盖率的。机器学习的那些则一般都是比较细碎的，具体性的，覆盖度是通过泛化实现的，这泛化的前提是数据足够可用的情况下适度泛化，在问题隐含的规律特别复杂而数据又偏少的情况下，泛化太强也加大了错误率，也没什么意义。
规则系统中规则是必须人类知道，不知道也无法进行下去。而机器学习中的规则，人类知道与不知道那些规则无所谓，甚至人也知道不起，可能量大又琐碎。
因此，我认为知不知道规则与系统效率是无关的。系统效率只与规则质量有关，一般来说，规则系统由于高概括，单从运行效率来讲，效率是高的，但是建造规则系统效率是低的。这也只是一般来说，因其也与运行算法有关，比如像专家系统那样的，不采用RETE算法的话，运行效率也并不高。

2.“case by case的专家模式和一招鲜吃遍天的数学家模式，那种应用效果更好？”
这个应该是取决于要解决问题的类型。如果有的问题，规则总是那么少量，或很少变化。专家能够全部总结出来。同时，机器也能从给定的数据集中全部学习到所有的规则，那么两个效果应该是一样的。如果规则还是那么少量，专家能总结很好，但是机器学习所需要的现有数据集很难覆盖全面，那么规则系统胜出。如果规则复杂，不断变化，数据量极其庞大，人类总结很难做到高屋建瓴，常感“数据海量”之叹，而此问题的机器学习的数据轻易获取，高性能机器又可以很快抽取规则的话，且要比人类已有总结的那些规则覆盖量大的话，机器学习自然胜出。
但是，落到自然语言处理这样的问题上，规则系统坦诚来，说不能说总结得很好，不然就没有机器学习什么事了。而机器学习，在现有大规模高质量的标注集上是否能有效覆盖也难说，因此也就有了挡箭牌，一旦机器学习的结果不理想，都可以赖到标注数据集不充分上来。其实，二者都逃脱不了手工的问题（非监督学习的水平现还差太多，手工是必然的）。这也成了“语言专家总结语言规律 VS 标注人标注语料”问题中在工作量、工作难度、最终效果、后期维护、领域适应等多维变量中求最优的问题。当然，不可回避的是，机器学习算法和模型质量是否有效也是一个制约因素。
就目前看来，哪种模式更好，还难有确定结论，同时也分是在NLP的什么分支上。本质上彼此都有各自的软肋。若二者抱团发展也许更好，不过首先要解决好性格不合的问题。
另外，说一点，像李老师这样的既能建高楼（架构），又能给空房引来住户（语言知识），同时又有协调住户矛盾（知识冲突）的经验的“资深建筑师”确实不多，也确有独门绝技。
但这不具备大规模生产性，能否发展成容易传授性的，好继承下来的，更多些“自动”，是个值得探讨的问题。

3.机器学习也许不完美，但是足够实用，可以让我们一劳永逸，既然人类可以有这样一套智能系统，机器为什么不能有？
若能达到真正实用的地步，甚至比人类规则系统还好的话，人类自然不傻，怎能不去用。关键是，机器学习的这种不完美一定是在某些方面逊于人类规则系统，所以规则系统才有了存在的价值。
至少目前看来还没有到达谁取代谁，也没看出谁依靠谁来，局部战役有些战绩并不说明整个战事的最终结果。彼此都需要改进，都需要进步，相融合发展又有何不可。
规则系统，面对问题当语言资源超过专门的语言学家总结的规模的上限时，下一步怎么走？机器学习，面对的问题，对于复杂推理性问题的求解，比如文本的篇章理解，应该怎么下手？而不能总停留在识别处理这个水平上。
博主回复(2013-6-23 20:50)：谢谢，您说的三点都很深入到位，我有同感。

至于语言学人才断层问题，我以前提过，这是NLP大环境造成的。
教授要吃饭，要养学生，学生将来也要有立足的饭碗，就必须要发论文，拿经费，就非走主流路线不可，哪怕是跟着别人后面赶。其结果就是语言学和语言学人才荒芜了。世界上还很少有这样的怪现象：号称计算语言学的领域一直在排挤语言学。

删除回复 [2]李斌 2013-6-23 13:04
太对了，没有宾州树库，句法分析怎么能上90%
博主回复(2013-6-23 19:38)：这是从何谈起？我们没用宾州树库，也做出了英语和汉语的高精度而且鲁棒的 parsers，不比任何宾州树库训练出来的差。

在句法分析这一块，机器学习吃亏太多了，因为他们除了只此一家的宾州森林，连个其他选项都没有。

删除回复 [1]AIMan 2013-6-22 22:39
规则系统和机器学习的本质区别在于“规则的生成机制”，而不是“是否hand-crafted”，其实两者都需要hand-crafted的，不少机器学习算法还存在经验参数，且应用范围有限制。

不同点是，前者的规则是人工方式确定，对于不同的case可能需要不同的实现算法或规则，修改一个规则不影响其它规则的运行；后者以算法自动生成（识别）“规则”（分类器），也就是说后者是工作在规则的规则上，比前者多了一层抽象，大大减少了工作量，改一下算法，所有的规则都变了。也就是说规则方式的”switch…case”是“显式”的，而机器学习的”switch…case…”是“隐式”的黑盒。那么，我们是否需要知道规则？知道规则对系统效率有提升吗？

同理，在应用层面。规则系统强调的case by case。那么用规则系统做NLP就需要语言学家，做大数据就需要相关领域的销售专家，这增加了系统实施的难度。而机器学习，对于NLP也好，大数据也好，图像识别也好，需要的都是数学家，理想状态下是一个模型打天下，当然这是理想，现在远远做不到。那么，case by case的专家模式和一招鲜吃遍天的数学家模式，那种应用效果更好？

根本上讲，两者的差异源于他们的基本假设不同，规则系统假设我们人类可以穷尽世界的规则，将世界用一个符号系统完整的重构。而机器学习假设我们无法穷尽规则，但是我们可以做一套智能系统，它可以识别规则，而且具有一定的泛化能力，它也许不完美，但是足够实用，可以让我们一劳永逸，既然人类可以有这样一套智能系统，机器为什么不能有？
博主回复(2013-6-23 19:52)：总体说的不错。不过，生成机制也算是老生常谈了。机器学习把语义抽取过程当作黑匣子，规则系统试图走进去一步一步推理。可以溯源到经验主义和理性主义的世界观上去。

最后一段疑似隐含了偏见。规则系统从来没有假设人类可以穷尽世界。最多是可以穷尽或者逼近一个子领域。根本不需要一个符号系统完整地重构世界才可以构建有用的规则系统。最后说到“一劳永逸”的理想，已经进入AI科幻世界了，不足论也。

MIT自然语言处理第四讲：标注（第四部分）
北京森林工作室汉语句义结构标注语料库（BFS-CTC）共享资源
如何计算两个文档的相似度（一）
说说科研立项中的大跃进
MIT自然语言处理第一讲：简介和概述（第三部分）
MIT自然语言处理第一讲：简介和概述（第二部分）
《立委随笔：语言学家是怎样炼成的》
坚持四项基本原则，开发鲁棒性NLP系统
NLP Job-缘起
如何计算两个文档的相似度（二）

【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
从门氏元素周期表看三皇五帝在关中论霜叶红似二月花y
世间所有物质，都是由不同元素组成的，科学家们”认识物质初期，所有元素也是多年逐一认识的。著名的俄罗斯化学家门捷列耶夫(DmitriMendeleev1834－1907)，在1869年首创的元素周期表，想必大家都很熟悉。他是怎么发现元素周期规律并制成表的？最权威的说法是他自己笔记中所记载的，是他做梦所得。门氏元素周期表这个表开始并不完善，但已经有个雏形了。当时只有已知的63种元素。但门氏预测应该有1
二十四、k8s 资源管理繁华依在 k8s kubernetes 容器云原生
目录一、资源配置范围管理LimitRange介绍1、LimitRange可以做什么：2、资源限制和请求的约束3、创建LimitsRange对象4、示例：创建一个pod5、测试用例测试1：测试2：测试3：二、资源服务质量管理（RequestsQos）1、Qos级别分类：1.1、Guaranteed：1.2、BestEffort：1.3、Burstable：2、Qos的工作特点3、示例三、资源配额管理
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
git：文件存储方式 xuanyu22 工具 git github
引言我们知道git跟踪文件会经历三个阶段：工作区，暂存区和本地仓库（参考git：理解工作区，暂存区和本地仓库），在这些阶段文件如何被储存？理解git文件的存储方式能帮助我们掌握git的工作原理。git对象在上述三个阶段，文件会以对象（object）的形式存储在.git/objects目录下，对象主要有三类：commit，tree和blob。假设初始目录如下：├──.git├──file│└──c.
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
git 恢复误删的远程分支 Hanfank
需求实际工作上，肯定会有不小心的时候，比如我吧，删除了本地dev分支，intellijidea提示是否将trackedbranch也删掉，结果一不小心将远程分支也删除了，接下来就是我的救赎之旅。查看reflog，找到最后一次commitidgitreflog--date=isoreflog是referencelog的意思，也就是引用log，记录HEAD在各个分支上的移动轨迹。选项--date=is
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
撤消操作 guanjianhe
有时候我们提交完了才发现漏掉了几个文件没有添加，或者提交信息写错了。此时，可以运行带有--amend选项的提交命令尝试重新提交：$gitcommit--amend这个命令会将暂存区中的文件提交。如果自上次提交以来你还未做任何修改（例如，在上次提交后马上执行了此命令），那么快照会保持不变，而你所修改的只是提交信息。文本编辑器启动后，可以看到之前的提交信息。编辑后保存会覆盖原来的提交信息。例如，你提交
PCIe进阶之Gen3 Physical Layer Transmit Logic（二）芯芯之火，可以燎原 PCIe进阶硬件工程信息与通信
1文章概述本文是接着上面一篇文章《Gen3PhysicalLayerTransmitLogic（一）》继续对Gen3PhysicalLayerTransmitLogic做进一步的解析，具体包含ByteStriping和Scrambling以及Serializer。1.1ByteStripingGen3x1OrderedSetConstruction如下所示：OrderedSetBlock由一个Sy
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
PyCharm配置及使用Git教程_pycharm配置git(2) 2401_84182146 程序员 pycharm git elasticsearch
文章目录1.安装PyCharm2.安装Git3.在PyCharm中配置Git插件4.连接远程仓库5.Clone项目代码6.将本地文件提交到远程仓库6.1gitadd6.2gitcommit6.3gitpush6.4gitpull7.代码回滚8.分支操作8.1新建分支8.2切换分支8.3合并分支
[bzoj1139]Wie weixin_30437481
1139:[POI2009]WieTimeLimit:10SecMemoryLimit:259MBDescriptionByteasarhasbecomeahexer-aconquerorofmonsters.CurrentlyheistoreturntohishometownByteburg.Thewayhome,alas,leadsthroughalandfullofbeasts.Fortun
mouse mitochondria dna 为了梦走一遭
mousemitochondiradnahttps://www.broadinstitute.org/mitocarta/mitocarta30-inventory-mammalian-mitochondrial-proteins-and-pathways
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

【NLP主流最大的偏见，规则系统的手工性】

你可能感兴趣的:(MIT自然语言处理)