阿里技术官方号

阿里巴巴达摩院：自然语言处理技术有哪些进展和趋势？

简介：达摩院发布的 “2020 十大科技趋势” 预测中，一个重要趋势就是人工智能从感知智能向认知智能演进。作为认知智能的一个重要核心技术，自然语言处理在过去一年中有了进一步的发展，无论从技术和产品都有显著的成果，例如大规模预训练语言模型的明显优势和广泛应用，智能对话和服务助理，结合领域需求的 NLP 技术和知识图谱等。本文分享达摩院自然语言处理技术小组各领域专家对过去一年 NLP 的技术，平台和产品方面的总结，并对新一年的趋势进行展望，描绘阿里自然语言处理技术的新十年。

2019 回顾：五大技术进展和四大应用与产品

回望过去，在自然语言处理技术的应用和研究领域发生了许多有意义的标志性事件，我们将从“技术进展”、“应用与产品”两大维度进行回顾。

2019 年，技术进展方面主要体现在预训练语言模型、跨语言 NLP/无监督机器翻译、知识图谱发展 + 对话技术融合、智能人机交互、平台厂商整合AI产品线。

1 预训练语言模型

随着 2018 年底 Google 提出预训练语言模型 BERT，在多项 NLP 任务上获得更优效果，预训练语言模型的研究与应用被学术界和工业界视为 NLP 领域的一项重大突破，将 NLP 问题的解决方式从以往的为每个任务单独设计复杂的模型逐渐演变成了预训练 + 微调的范式，让众多 NLP 应用能够享受到大语料预训练模型带来的红利，在通用的预训练模型的基础上加入简单的任务层，并结合自己场景的少量语料就可以获得一个不错的领域 NLP 模型。

至此开启了自然语言处理的新篇章。

在 2019 年，各个研究机构和公司在 BERT 的基础上进一步创新，纷纷提出了自己的预训练模型，如：Facebook 发布的 RoBERTa，CMU 发布的 XLNet，Stanford 发布的 ELECTRA，还有百度的 ERNIE 模型，阿里的 structBERT 模型，华为的 NEZHA，哈工大和科大讯飞也都提出了自己的模型，不断刷新 NLP 任务的最好成绩。

这新的工作总结起来，主要来自训练任务设计和训练算法两个方面。

训练任务设计

进行更加精细的语义粒度建模，包括引入更细粒度的建模对象和更加精细的刻画语义关联。

比如 “全词 Mask” 或者 “Knowledge Masking”，技术在 MLM 预训练任务中 Mask 整个词而不是单个 Token，进而提升了任务难度使得 BERT 学到更多语义信息,哈工大和科大讯飞联合发布的中文 BERT 模型以及 NEZHA 模型中得到了应用；再比如引入更多类型的句间关系，从而能够更加准确描述语义关联性，进而提升语义匹配等方面能力，这在阿里和蚂蚁团队的 BERT 模型中得到体现。

利用新的机器学习方法建模

包括 CMU 和 Google 联合发布的 XLNet 使用了 Autoencoder 和 Auto-regressive 两种方案；斯坦福大学提出的 ELECTRA 模型，引入对抗机制来进行更好的 MLM 学习。华盛顿大学和 Facebook 联合发布的 SpanBERT 模型还引入了 Span 预测任务。这些方案应用更学习方法来建模文字之间的联系，从而提升模型效果。

训练算法设计

针对模型的易用性的问题，减少模型参数，或者降低模型的复杂度，包括 Google 发布的 ALBERT 使用了词表 embedding 矩阵的分解与中间层的共享。

提高训练速度的优化

包括混合精度训练，用 FP16 来进行权重，激活函数和梯度等的表示；LAMB 优化器通过一个自适应式的方式为每个参数调整 learning rate，模型训练能够采用很大的 Batch Size; 这些方法极大地提高了训练速度。

阿里的 structBERT 模型通过引入更多模型和任务结构化信息，提升语言表示能力。在Gluebench mark 上多次名列前矛和保持领先位置。通过蒸馏和 CPU 加速，RT 提高了 10x，finetuned 的模型给多个业务场景带来了明显提升，上线了 AliNLP 平台。

预训练语言模型在大规模无监督文本上进行预训练，将得到的词和句子的表示迁移到广泛的下游任务上，包括文本匹配，文本分类，文本抽取，阅读理解，机器问答等不同的场景。如阿里语言模型在 MS MARCO 问答评测，TREC Deep Learning 评测上都取得了第一名的好成绩。

下游的任务可以在低资源的情况下快速获得一个不错的解决方案，极大的提升了 NLP 算法的应用落地能力。

2 跨语言 NLP/无监督机器翻译

作为预训练语言模型的扩展，Facebook 的研究人员提出了跨语言的语言模型预训练 “Cross-lingual Language Model Pretraining”，仅使用单语数据的无监督训练和使用平行语料的有监督训练的条件下，模型有效学习了跨语言文本表征，在多语言分类和无监督机器学习等任务上，都比之前的最优结果有显著的提升。

继 2018 年 Google 预训练语言模型 BERT 横扫主流 NLP 任务之后，2019 年 Facebook 发布了新型跨语言预训练语言模型 XLM，实现不同语言在统一嵌入空间的表征共享，并在无监督机器翻译任务上带来显著的质量提升。在探索大规模、多语言神经机器翻译方向上，Google、阿里巴巴等进行了有效探索，通过同时在数十乃至数百种语向的平行语料上训练一个模型，而不是对各个语向分别建模，实现语义映射关系共享，不仅压缩了模型数量，同时普遍提升了小语种翻译效果。

过去一年来，多语言 NLP 技术的研究成果主要集中在机器翻译（特别是无监督的机器翻译），跨语言词向量，多语言 NER，依存句法分析，词对齐和多语言词典生成等方向。

由于跨语言词向量的学习/映射是其中的关键步骤，目前的无监督/跨语言的 NLP 任务在相近的语言之间（如英语/法语，英语/西班牙语等）效果最好，在不同的语言家族间（如英语/越南语）效果还是有较大提升空间。

3 知识图谱发展+对话技术融合

随着数据量的积累和应用对数据质量和结构要求的提升，近几年知识图谱又成为一项热点技术开始被关注。

知识图谱技术领域在 2019 年的发展，包括领域知识图谱的构建和整合（金融、企业等）、图谱平台化标准能力的建设（schema 定义 + 构建 + 调用）、图谱应用算法建设（基于图谱数据的图模型 + 规则推理等）；并基于构建的图谱数据和能力，开始在更多的业务场景得到应用（搜索推荐内容理解和挖掘、金融风控和决策、对话理解和内容生成等）。

在知识图谱和对话结合的技术方向，对话技术在问答和任务式对话近几年已形成了一定的技术框架和业务覆盖，开始需要解决一些对知识理解 + 答案专业性要求更高的领域场景（理财助理等）。

对话技术结合知识图谱的领域知识完整度 + 结构化质量优势来进行覆盖，可以解决相应场景下语料标注（意图理解）和专家配置（对话流程 + 响应生成）上的不足，进一步提升对话覆盖和响应质量。融合知识图谱对话这个方向，在 2020 年会有更多的真实场景落地和覆盖。

4 智能人机交互

自然语言理解和深度问答匹配技术在学术和工业界持续发发展，并且已经在全域业务和场景有了大规模应用，基于预训练语言模型进一步带来性能的提升。

机器阅读理解成为低成本通用技术，围绕百科、政策法规、商品详情页、说明书等场景构建应用中台能力，接入效率有了很大提升。结合图-文的多模态 VQA 问答技术在行业中率先孵化，理解商品详情页长图进行问答成为一项新的竞争力。
对话（Dialog）技术能力进一步发展，但是在端到端的基于数据驱动的对话状态跟踪和对话策略还是只能在限定范围内进行探索，工业场景基于对话平台构建的任务型机器人成为了主流的实现方案。
多语言技术实现新语言的快速拓展，基于 Cross-Lingual 构建多语言语言模型，在远距离语言对在英 -> 中、英 -> 泰远距离语言对上超越 Google，拓展一个新语言从去年的 2 个月缩短到 2 周。
对话生成技术开始取得突破，基于结构化知识的引入提升生成的可控性，卖点的生成带来导购转化率的提升。

5 平台厂商整合AI产品线

随着 AI 技术发展和 AI 应用的需求，AI 技术框架的成熟（Tensorflow、PyTorch等），AI 技术能力逐渐被标准化为一系列 AI 平台类产品，面向企业和开发者，提供更低门槛和更高效率的 AI 应用支持。

对话类平台，Google 从 2016 年开始发布 Assistant 对话助手，这几年陆续发布了 Google Home（现在整合到 Nest 智能家居品牌），Duplex 语音电话，以及收购了 API.AI 对话开发平台；今年 Google 已基本整合这些对话产品线，基本布局了对话现有的平台 + 终端，现成一个整体的对话产品线。

AI 类平台方面，Amazon 自 2017 年发布 SageMaker 机器学习平台产品，今年进一步基于 SageMaker 整合 AI 开发过程，同时打通下游技术框架和上游 AI 应用，整合 AI 产品线。类似阿里的机器学习平台 PAI，定位成面向企业和开发者的一站式机器学习平台。

2019 年，应用与产品方面主要体现在机器翻译、对话系统、多轮对话智能服务、智能语音应用持续发展。

6 机器翻译

机器翻译的产品发展延续了之前的趋势，在通用领域（新闻），特定领域（电商，医疗等）扩展了更多的语言方向，支持了更丰富的业务场景，并持续带来商业价值。阿里巴巴在翻译干预和智能泛化方向进行了卓有成效的探索，把业务知识更好地融合到神经网络翻译框架中，大大提升了垂直场景下关键信息的翻译准确率。

高价值和高敏感内容的翻译目前仍离不开人工，因此在计算机辅助翻译（CAT）引入智能算法实现人机协同翻译，以及机器翻译后编辑（MTPE）等新型生产模式，也受到越来越多的关注。阿里巴巴、腾讯在自动后编辑（APE）、交互式翻译（IMT）都开始有产品推出，并在实际业务中落地。

除了文本翻译之外，更多的多模态翻译应用场景出现，如语音翻译在会议同传，双语字幕，翻译机硬件上的尝试（阿里二十周年年会上马老师和逍遥子演讲也以实时双语字幕的形式展示）。

结合 OCR，机器翻译和合图技术的图片翻译在支付宝扫一扫，微信，搜狗翻译机上得到应用。随着卖家直播的兴起，直播视频翻译的场景和需求也会越来越多。但是受限于直播场景中复杂的领域，专业的术语，快速的语速和有时嘈杂的背景环境，直播翻译对于语音识别和机器翻译的挑战也是非常巨大。

7 对话系统

对话系统的语言覆盖进一步提升，基于多语言迁移能力快速拓展了法语、阿拉伯语、台湾话的对话系统，目前已支持 11 个语种，及马来语-英语和泰语-英语的混合语言理解，为 Lazada 和 AE 带来解决率的大幅提升。
对话系统支持了更大规模的商家和企业，支撑了超过 50+ 的集团经济体客户，店小蜜拓展了通用包、行业包、店铺包的知识定位能力，累计承载百万级活跃商家，日均千万级对话轮次。钉钉小蜜基于企业智能助理承载了 40W 日均活跃企业。
对话系统的交互形式进一步丰富，直播小蜜实现了从商品相关问题的被动回答，到主动和用户展开开放式对话的转变，带来 cdau 破百万。
VQA 等多模态理解能力落地店小蜜及经济体小蜜，提升用户交互体验的同时大幅降低商家配置成本。
热线小蜜的语音交互能力作为典型案例获 2019MIT Technology Reviewer 十大突破技术提名，并沉淀了面向多领域的外呼场景，并在多个生态输出。

8 多轮对话智能服务

多轮交互在智能服务场景（客服机器人）在解决用户模糊问题，提高用户使用体验方面起到的重要的作用。模糊问题指用户问题描述不完整，如 “怎么开通” ，这句话没有说明是哪个业务，这类问题占客服机器人总提问量的 30%。

蚂蚁智能服务团队设计了基于标签的多轮交互方案，首先离线挖掘标签，并审核，标签包括业务标签（花呗，备用金...）和诉求标签（怎么开通，如何还款...），通过向用户反问标签列表的形式澄清用户问题。

已有的问题澄清方法主要通过直接推荐完整澄清问题的方案，但定义什么是好的澄清问题仍然不明确，蚂蚁团队设计了一个基于强化学习推荐标签列表的方案做问题澄清，整个标签推荐是一个序列决策的过程，在用户点击了标签之后，我们会把点击的标签和原始的用户问题一起作为澄清后的问题。

整个优化的目标是，目标是最大化整个标签列表对潜在澄清问题的覆盖率，同时保持不同标签对潜在澄清问题集合的有效划分，因此，在强化学习过程中，相应设计了基于信息增益的奖励（Reward）。

基于强化学习方法的多轮交互上线后，蚂蚁客服机器人场景共解决了 33% 的模糊问题，机器人综合场景转人工率绝对下降 1.2%。

9 人机对话构建新的交互入口

场景驱动的个性化多轮对话技术，助推人机对话场景扩充，同时语音语义一体化的上下文语义理解技术，持续提升多轮对话达成率。

天猫精灵在过去一年中，将人机对话能力扩充到二哈电话助手，语音购物，新人使用引导等复杂的交互场景，更是在双十一期间，创造了语音购物 100 万订单的记录。

天猫精灵在去年的 315 推出了防骚扰电话助手 “二哈”，开启了全新的人机对话交互场景：作为用户的替身完成对话。“二哈” 的对话场景是在垂直领域内的开放式多轮对话，目的是通过对话来识别来电意图，并代替用户来获取必要信息。在 “二哈” 中我们提出了基于多轮对话上下文的机器阅读理解技术，用以理解来电意图和关键信息；基于对于来电内容的理解，我们基于 Transformer 构建了对话策略模型，用以选择策略和生成对话。针对 “二哈” 的对话场景，我们提出使用图灵测试通过率来衡量对话的质量，亦即当来电在整个对话中都没有意识到是机器在与其通话时，可以认为 “二哈” 通过了图灵测试。“二哈” 目前的图灵测试通过率达到了 87%，有效的帮助了用户应对陌生来电，节省用户时间。

通过人机对话的方式去完成复杂的任务，比如点咖啡、购物等，往往需要机器和用户进行多次对话交互，同时在不同的任务场景下，对话机器人需要掌握各自领域的知识，才能和用户对答如流。比如在语音购物场景，天猫精灵具备跨行业的智能导购员能力，吸收各行业导购员的销售经验，在用户进行语音购物的时候，以最终的成交转化为目标，像商场的销售员一样主动进行多轮对话形式的购物引导，深入挖掘用户购物需求并结合用户画像进行精准推荐。且对不同的用户，天猫精灵可以采用最适合 TA 的对话方式，做到个性化多轮对话。

多轮对话的达成，是建立在一系列的单轮交互都达成的基础上的，而如果整体任务的达成率是简单的单轮达成率的乘积关系的话，多轮对话的达成率将很难提升。而打破简单乘积关系的关键在于，每一轮对话理解的时候，需要充分利用上下文信息。

在天猫精灵上，我们进行了上下文语音语义理解的探索。首先在语音解码的环节，我们将多轮对话中，上文提到的实体信息构建成 memory，通过 attention 机制让解码器网络感知到这些对话场景信息，显著提升了多轮对话场景的语音识别精度，然后在语义理解环节，我们独创了具备跨轮 attention 能力的端到端上下文继承模型，实现更高效的对话场景恢复的能力。从而让线上多轮对话的错误率下降了 58.5%，有效保障了复杂多轮对话场景的扩充。

10 智能语音应用持续发展

智能音箱，近几年基本上国内外大玩家都已陆续进入市场（Amazon Alexa、Google Home/Nest、天猫精灵、小米小爱、百度小度），2019 年进入竞争格局；2019 年智能音箱出货量仍然在增加，但增速下降。

智能音箱仍然以音乐播放等软件类服务为主，但进一步应用创新仍依赖智能家居和 IoT 设备的进一步普及。

智能语音电话，2018 年 Google I/O 大会展示了 Duplex 的语音电话助手 demo。2019 年智能语音电话开始更多地应用到真实业务领域，包括电销、金融、政务等领域的应用都在增长，以提升用户服务覆盖+降低人工成本。

蚂蚁智能语音电话 2019 年也在安全（核身）、金融（保险回访、微贷催收）、支付（客户激活）等更多金融场景应用和落地。

智能语音类应用，所面向的用户场景强依赖对话语音交互，推动了 NLP 技术和语音技术的发展；随着技术和产品的发展成熟，以及用户接受度的提高，2020 年的应用规模和领域会进一步扩大。

2020 趋势：NLP 进一步推动人工智能从感知智能向认知智能的演进

站在新的一个十年，智能人机交互、多模态融合、结合领域需求的 NLP 解决方案建设、知识图谱结合落地场景等将会有突破性变化。

1 智能人机交互

语言模型将在智能人机交互中扮演更重要的角色，形成更丰富的形式，混合 100 种语言的多语言语言模型，以及融合图像-文本和语音-文本多模态语言模型将崭露头角，在不同语言、不同模态、不同领域的小样本场景下带来全面的能力提升。

多语言交互从不同语言理解上升到不同文化的理解，通过跨文化理解技术深入当地文化实现地道的对话交互。
以在线文本为核心的交互方式将全面转变为结合视频、图像、语音、文本的多模态人机交互。
基于数据驱动的对话状态跟踪和对话策略将逐渐替代规则式策略，使得多轮对话技术进一步演进，带来更自然的对话体验。
知识图谱将广泛融入问答和对话的各类深度学习模型，通过先验知识及推理能力的融入，使得模型更为白盒化，在对话的理解和生成过程中带来更好的可控性和可解释性。
对话系统在小样本情况下的冷启动能力提升带来应用构建成本的大幅下降，对话系统从主要为大体量的客户服务，拓展为更普惠的、广泛的支持海量规模、各行业的小企业及小商家，并进一步走向海外，使得更多不同国家、不同语言和不同文化的用户进入智能服务时代。

2 多模态融合

随着 5G 和边缘计算的逐步成熟和普及，将带来视频、图像、文本、语音等模态的全面融合，语言模型朝着多模态融合的方向发展，在在线场景下实现混合模态的理解，将能融合理解用户经过多轮对话发送的图片、语音和文字内容，并以多模态的形式进行回复；
对话系统产品中将全面实现多模态交互能力，直播和 IOT 大屏交互将全面应用视频+图像+文本多模态技术带来丰富的交互体验，流畅的全双工语音对话机器人将被普遍应用，实现边听边想、边听边猜、主动抢话等类人交互能力。
在语音交互场景下通过声学信号+文字信号，识别用户交流中的情绪变化，在 IOT 互动场景下实现基于摄像头、麦克风的拟态生命；

3 结合领域需求的NLP解决方案建设

过去 NLP 算法多以平台/API 的方式输出通用模型，相应地也在各种云上建立了通用 NLP 算法平台（Amazon Comprehend，微软 Azure Text Analytics，谷歌云 Natural Language，阿里 NLP，百度 NLP 等）。

但是在业务场景中，每种场景领域都有自己的特定的需求，产生了相应的场景数据。通用模型结合场景数据进行领域自适应训练，从而输出的领域定制模型会更好地满足业务需求。

4 知识图谱结合落地场景

面向新的一个十年，通过 NLP 和知识图谱两大核心技术来构建行业知识图谱，机器能够通过知识图谱挖掘隐性关系，洞察“肉眼”无法发现的关系和逻辑，用于最终的业务决策，实现更深层次的业务场景落地。从发展方向来说，可以分为下面几个方面：

优化知识抽取能力：结合已有的知识和 NLP 技术能力进一步提高非结构化数据理解能力，应用预训练语言模型、信息抽取、实体链接等相关的技术，对非结构化及半结构化数据进行抽取和转换，形成知识图谱形式的知识，以及和知识图谱里面的结构化的知识进行链接。
与行业知识沉淀：在行业知识图谱解决方案实际的落地过程中，面临重重挑战，行业知识图谱的构建，本身就需要数据积累和基于业务场景的数据理解，而构建和积累行业知识图谱，将是认知智能时代的核心竞争力。在行业数据构建时，对知识的准确性要求非常高，实体通常需要较多且具有行业意义。需要针对多源异构数据融合，基于可动态变化的“概念—实体—属性—关系”数据模型，对各种类型的数据进行抽象建模。
智能可信的知识推理：基于过去已知知识进行知识推理，理解行业事件知识驱动知识推理传导，利用行业规则逻辑结合深度模型进行推理，使其能够在业务的推理和辅助决策上带来更加智能化的体验。

以上是我们对于 NLP 技术过去一年发展的回顾和今年趋势的思考。一家之言难免疏漏或者以偏概全。抛砖引玉，希望能够得到更多同学们的思考和指正。比尔·盖茨曾说过，“语言理解是人工智能皇冠上的明珠”。要达到这样的高度，还需要技术和应用上的突破发展期待在下一个十年的开始，我们一起让 NLP 技术发展更加迅速，应用场景更加丰富，推动认知智能的发展更进一步。

原文链接：https://developer.aliyun.com/article/765821?

版权声明：本文中所有内容均属于阿里云开发者社区所有，任何媒体、网站或个人未经阿里云开发者社区协议授权不得转载、链接、转贴或以其他方式复制发布/发表。申请授权请邮件[email protected]，已获得阿里云开发者社区协议授权的媒体、网站，在转载使用时必须注明"稿件来源：阿里云开发者社区，原文作者姓名"，违者本社区将依法追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件至：[email protected] 进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
感赏日志133 马姐读书
图片发自App感赏自己今天买个扫地机，以后可以解放出来多看点书，让这个智能小机器人替我工作了。感赏孩子最近进步很大，每天按时上学，认真听课，认真背书，主动认真完成老师布置的作业。感赏自己明白自己容易受到某人的影响，心情不好，每当此刻我就会舒缓，感赏，让自己尽快抽离，想好的一面。感赏儿子今天在我提醒他事情时，告诉我谢谢妈妈对我的提醒我明白了，而不是说我啰嗦，管事情，孩子更懂事了，懂得感恩了。投射父母
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Low Power概念介绍-Voltage Area 飞奔的大虎
随着智能手机，以及物联网的普及，芯片功耗的问题最近几年得到了越来越多的重视。为了实现集成电路的低功耗设计目标，我们需要在系统设计阶段就采用低功耗设计的方案。而且，随着设计流程的逐步推进，到了芯片后端设计阶段，降低芯片功耗的方法已经很少了，节省的功耗百分比也不断下降。芯片的功耗主要由静态功耗（staticleakagepower）和动态功耗(dynamicpower)构成。静态功耗主要是指电路处于等
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts