夕小瑶

斯坦福| ChatGPT用于生成式搜索引擎的可行性

文｜智商掉了一地

随着 ChatGPT 在文本生成领域迈出了重要一步，Bing 浏览器也接入了聊天机器人功能，因此如何保证 Bing Chat 等搜索引擎结果的精确率和真实性也成为了搜索领域的热门话题之一。

当我们使用搜索引擎时，往往希望搜索结果能够真实准确地反映我们的需求。然而，由于搜索引擎的信息庞杂和繁复架构，可能会存在一些错误和欺骗性的信息。这不仅影响到我们获取信息的质量，也会影响到我们对搜索引擎的信任和使用。

值得信赖的生成式搜索引擎的一个先决条件是可验证性，即系统应该引用全面且准确。

近日斯坦福大学的一项新研究提供了方法，即评估生成式搜索引擎的可验证性。这意味着评估搜索引擎算法和模型的质量，能检验搜索结果的真实性和精确率，并且也能进一步推动搜索引擎的透明度和可信度。咱们一起来看看这项研究，希望可以让打开这篇文章的你了解一些关于生成式搜索引擎评估的细节，并激发对这一方向未来发展的思考与探索。

论文题目:
Evaluating Verifiability in Generative Search Engines

论文链接:
https://arxiv.org/abs/2304.09848

代码地址：
https://github.com/nelson-liu/evaluating-verifiability-in-generative-search-engines

生成式搜索的可验证性探索

一个可信赖的生成式搜索引擎所必须具备的先决条件就是可验证性。也就是说，有关外部世界的每个生成回复都应该得到一组在线引用的充分支持，同时每个提供的引用都应支持其相关的回复。通过可验证性，读者能够轻易检查任何生成的回复能否得到其所引用的来源的支持。

作者使用人工评估，对四个流行的商业化生成式搜索引擎针对不同类型查询进行了比较。对于每个查询-回复对，利用人工评估来衡量各种方面的维度：

流畅性（生成的文本是否流畅和连贯）；
感知效用（经济学术语，用户主观感受到的满意程度，即回复是否对问题有帮助和信息量丰富的答案，在后文中为了便于理解，将用实用性来替代该词汇）；
引用召回率（关于外部世界的生成的回复中，被其引用完全支持的比例）；
引用精确率（生成的引用支持其关联回复的比例）。

对于来自 NaturalQuestions（自然问题）的各种历史谷歌用户查询，以及来自 Reddit 的动态、开放式问题，回复详情如表 1 中的示例，其中查询来自不同来源，需要从不同答案类型中获取知识。

▲表1 每个评估查询分布的示例查询

由此，一个可信赖的生成式搜索引擎应该实现高引用召回率和精确率，表明其所生成的引用是全面（每个生成的回复都由引用完全支持）和正确的（每个引用都支持其关联的回复）。

而针对前面所述的四个评估维度，现有的生成式搜索引擎回复通常具有高流畅性和实用性，但经常包含不支持的回复或不准确的引用（不满足召回率和精确率要求），甚至与高流畅性和实用性呈负相关。例如在图 1 中，对 James Webb 太空望远镜知之甚少的用户可能很难辨别生成的回答中哪些陈述没有得到外部可信来源的支持，也表明了并非所有生成的回复都得到引用的完全支持（引用召回率），也不是每个引用都支持其相关回复（引用精确率）。

▲图1 生成式搜索引擎通过生成定制化的回复和在线引用来回答用户的查询

由此，为了便于进一步开发可信生成式搜索引擎的工作，作者发布了人工评估注释。

流畅性、实用性和真实性的人工评估

首先给定用户查询作为输入，生成式搜索引擎生成一个文本回复（嵌入在线引用的字符串）。为了评估引用的精确率和召回率，先将分割为一组个陈述的集合，对于其中每个语句构造一个（可能为空的）集合，其中是与第个回复语句相关联的第个引用。对于每个引用，都有一个URL 和其内容。

衡量流畅性与实用性

通过给出用户查询、生成的回复以及“回复流畅且连贯”的陈述，来让注释者使用五分制 Likert 量表从“强烈反对”到“强烈同意”来评估回复流畅程度的方法，同时通过类似的流程来衡量实用性，评估回复被认为是“对查询有帮助和信息量充足的答案”的程度。

衡量引用召回率

引用召回率是指相关引用完全支持的可验证陈述的比例（图 2 中有具体示例）。因此，计算引用召回需要：

确定回复中可验证的陈述；
评估每一个可验证的陈述是否完全得到其相关引用的支持。

▲图2 如何计算引用召回率和精确率的模式化示例

衡量引用精确率

引用精确率通过评估生成的引用对于相关陈述提供的支持程度（包括完全支持、部分支持和不支持）来衡量其精确率（参见图 2）。同时考虑到相关引用网页的并集是否能够完全支持相关陈述，旨在聚合多个引用中的信息。

引用 F1

结合引用精确率和召回率指标，通过计算他们的调和平均值得到引用：

引用精确率引用召回率引用精确率引用召回率

评估设置

评估生成式搜索引擎

本文对四个商用生成式搜索引擎（Bing Chat、NeevaAI、perplexity.ai 和 YouChat）进行了评估，它们都是基于大型语言模型和输入查询及检索内容生成回复。同时，这些搜索引擎的放弃率不同（如表 2 所示），对比它们的表现存在一定难度，人们可能会认为弃权率较高的系统也具有更高的评估性能，因为它们可以简单地避免生成对困难查询的回复，实践中则不然。

▲表2 生成式搜索引擎可以被设计部署于不同的上下文中

评估查询分布

这里研究了现有商业生成式搜索引擎的优缺点，并评估了这些引擎对来自各种来源的查询（例如谷歌用户查询、Reddit 开放式问题与查询）的回答能力，包括短文本、长段落、列表或表格等多种答案类型。使用了1450个不同主题的随机查询，其中包括 AllSouls、davinci-debate、ELI5 (KILT)、ELI5 (Live) 和 WikiHowKeywords 等来源的 150 个查询，以及七个 NaturalQuestions 子分类中的每个分类下的 100 个查询。

在这 12 个查询分布上评估现有的生成式搜索引擎，这些多样化的场景提供了广泛的覆盖范围，涵盖了几个潜在的使用案例和信息需求，帮助我们全面了解系统的优缺点。

人类评估方案

这一部分介绍了对查询-回复对注释的过程，注释人员要完成三个步骤来评估回复的质量。

首先，评估回复的流畅性和实用性；
其次，筛选不可验证的陈述；
最后，评估可验证的回复及其相关的系统生成引用。

注释人员使用亚马逊众包平台进行注释，需要注释的数据集里共包含 1450 个查询。每个查询-回复对只被注释一次。同时，使用三种评判方式对于 250 个随机抽样的查询-回复对进行比较，计算得到较高的一致性水平。

实验结果与分析

作者发现，不同的生成式搜索引擎在流畅性和实用性方面普遍较高，而引用召回率和精确率相当低，尽管系统和查询分布的表现肯定有所不同。当与流畅度和高实用性带来的可信度相结合时，增加了现有生成式子搜索引擎误导用户的可能性。我们的结果还表明，现有生成式搜索引擎的引用召回率和精确率与流畅性和实用性呈负相关，我们假设这是系统倾向于从引用的网页复制或近似引用文本的副产品，这增加了引用精确率和召回率，同时降低了流畅性和实用性。

对于流畅性和实用性，现有的生成式搜索引擎可以生成流畅的文本，且回复似乎是信息丰富且有用的：

生成的回复很流畅，看起来很有帮助；
比较生成式搜索引擎的流畅性和实用性，在聚合所有回应进行比较，发现 Bing Chat 得分最低，其次是 NeevaAI、perplexity.ai 和 YouChat；
对多个查询分布进行流畅度比较，发现自然问题查询和非自然问题查询，在回答长度较长的情况下，平均流畅度评分相似；而在自然问题查询中，对于回答长度较短的查询，生成的回复通常更加流畅。然而，对于那些只有长答案或没有长答案的自然问题查询，由于涉及到在表格单元格或检索来源之间聚合信息的复杂计算，生成的回复可能会变得僵硬而降低整体的流畅度，这是一个显著的离群值分布；
随着查询需要回答更多信息和提取答案变得更加困难，实用性会下降。

对于引用召回率和精确率，对于评估结果分析如下：

现有的生成式搜索引擎往往不能全面或正确地引用，实验结果表明，所有系统中仅有 51.5% 的生成回复完全支持引用（召回率），同时仅有 74.5% 的引用完全支持其关联回复（精确率）。考虑到这些搜索引擎已经拥有数百万用户，尤其是考虑到生成的回答通常看起来富有信息且实用的情况下，认为这些结果是无法接受的；
不同的生成式搜索引擎在引用召回率和精确率方面存在显著差异，平均而言，perplexity.ai 的平均召回率最高，而 Bing Chat 的精确率最高；
修改评估查询分布对引用召回率的影响大于精确率，这是由检索网页的相关性所驱动的，当生成不受引用支持的回复时，会导致召回率降低。
比较了不同查询分布下的引用精确率，在自然问题查询中长答案的精确率更高，生成式搜索引擎在具有段落答案类型的自然问题查询中精确率最高，而在 AllSouls 开放式试卷问题和 davinci-debate 查询中，引用精确率最低。

总之，由于所有系统的流畅性通常都很高，因此不比较该属性，在人类评估环节中，Bing Chat 的平均引用 F1 最高，超过 70%，图 3 绘制了平均实用性与平均引用 F1 的对比图，不同的系统在实用性和引用 F1 之间做出了不同的权衡。

▲图3 平均实用性与平均引用 F1 对比图

生成式搜索引擎中引用召回率和精确率与流畅性和实用性呈负相关关系，如图 4 示例所示，这种现象的原因是生成的回答往往是从引用文献中改写或复制得到的，虽然能够保证引用精确率，但通常不符合用户的输入查询，导致内在流畅性和实用性变低。此外，更高自由度生成的系统会偏离引用内容，导致生成的精确率和召回率降低，但这些系统生成的回复更能够回答输入查询，内在流畅性和实用性得到提升。这种权衡在包含开放式论文题目的 AllSouls 查询分布中尤其明显。传统搜索引擎的结果应用引用从文章中提取的方式获得的结果虽然能够保证引用精确率，但通常不符合用户的输入查询，导致内在流畅性和实用性变低。作者认为引用召回率和精确率与流畅度和实用性并非根本上负相关，这只是现有生成式搜索引擎的一种实证观察。特别地，我们完全相信未来可以将两者的优点结合起来，构建出既流畅又实用的生成式搜索引擎，同时也有着可靠的引用。

▲图4 负相关关系示例

最后，通过比较生成语句与支持引用网页之间的相似性来计算其精确率。实验结果表明，当生成语句与引用网页之间的相似性更高时，相应的系统具有更高的平均引用精确率。此外，注释者能够找到对于至少由一个相关语句完全或部分支持的语句的 99.5％的可提取证据，这意味着引用网页可以帮助生成式搜索引擎提高其精确率。

思考与讨论

从互联网检索信息时，抽取信息的效果出乎意料的好。即使是那些可能需要多个来源的抽象推理的信息查询，从互联网网页中提取信息也证明非常有效。
然而，如果查询在互联网上没有明确的可抽取答案，生成式搜索引擎则很难进行回答，这是未来研究的一个重要方向。
此外，现有的生成式搜索引擎可能在内容选择方面存在困难，很难识别和权衡来源的可靠性和相关性。

小结

这项研究指出了现有的生成式搜索引擎存在的问题，包括不支持的回复和不准确引用，这对于搜索引擎行业的发展具有重要意义，一经发布便在推特引起广泛讨论。它致力于推动生成式搜索引擎来创造更加可靠的结果，帮助研究人员和用户更好地了解该技术的现有问题，有助于提高搜索引擎的质量，增强用户对搜索引擎的信任，从而提高生成式搜索引擎的市场竞争力，加快社会的发展与进步。

我们也相信，未来将会有更加先进的生成式搜索引擎技术涌现，可以完美结合引用召回率和精确率、流畅度和实用性的优点，使得搜索引擎的回答更加精准和流畅，同时也保障了可靠的引用，能够进一步提高搜索引擎的可信度和可用性。这将是一个令人振奋的探索前景，我们也期待着这些技术的到来，让搜索引擎的发展更上一层楼，更好地服务于人类社会的发展。

卖萌屋作者：智商掉了一地

北理工计算机硕士在读，近期沉迷于跟 ChatGPT 唠嗑，对一切新颖的 NLP 应用充满好奇，正在努力成为兴趣广泛的斜杠青年～

作品推荐

我是粉红猪佩奇，我要把粉色吹风机写进 IJCAI 论文！

AI取代人类，可以自动生成prompt了

ICLR 2023 最高分论文被锤抄袭？？

AI讲话总爱“结巴”？这篇NeurIPS论文找到了病因，结巴率已接近人类！

如何提升大规模Transformer的训练效果？Primer给出答案

Yoshua Bengio：我的一生

后台回复关键词【入群】

加入卖萌屋NLP、CV、搜推广与求职讨论群

Python 常用内建模块-HTMLParser 赔罪 Python 系统学习 python 开发语言
目录HTMLParser小结练习HTMLParser如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
SAP ABAP 调用 DeepSeek，API Key 存在什么地方最安全？汪子熙 ABAP 百科全书安全 ABAP NetWeaver 思爱普
笔者最近在处理一个SAP电商云和SAPS/4HANA集成后商品库存显示不同步的棘手问题。DeepSeek和ChatGPT没能帮上忙，最后还是查公司内网wiki搞定了。DeepSeek和ChatGPT确实不是万能的。ChatGPT3.5刚发布不久，我记得很多朋友聊起过大语言模型的「讨好型人格」，即倾向于迎合用户的观点、顺从用户的意愿。甚至在极端情况下，当用户对其回复提出质疑时，它会马上认怂，承认自己
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
掌握ChatGPT写代码的秘诀：开发者的完整指南酷酷的崽798 机器学习 chatgpt
文章目录前言：如何利用ChatGPT来写代码：一个深度指南1.ChatGPT的基本功能概述2.利用ChatGPT辅助代码编写的好处3.ChatGPT支持的编程语言4.如何向ChatGPT提问以获取最佳结果5.实际应用案例6.ChatGPT的局限性及其解决方法7.关于隐私和安全性的注意事项8.未来展望结论前言：如何利用ChatGPT来写代码：一个深度指南近年来，人工智能技术取得了飞跃性的进展，尤其是
纯「牛马」的逻辑玩儿不转了！求职面试职场创业创业者
又在微信群里被「声讨」了，距离上次这等待遇也过去一段时间了，让人有点「怀念」呢～（别瞎想，我不是字母！）我想此刻趁这心情还未消散殆尽，把近期一直想说但没说的话先说一遍，也暂时不管它是否严谨了，看完想吐槽就尽管来吧！麻木的纯「牛马」们在2022年11月末，ChatGPT的横空出世拉开了AI时代的帷幕，迄今为止两年多过去了，相关基础设施和上层应用已经涌现并迭代了很多版本。在这期间，很多人都至少听说过几
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
将MySQL数据同步到Elasticsearch作为全文检索数据的实战指南格子先生Lab 全文检索 mysql elasticsearch
在现代应用中，全文检索是一个非常重要的功能，尤其是在处理大量数据时。Elasticsearch是一个强大的分布式搜索引擎，能够快速地进行全文检索、分析和可视化。而MySQL作为传统的关系型数据库，虽然能够处理结构化数据，但在全文检索方面的性能不如Elasticsearch。因此，将MySQL中的数据同步到Elasticsearch中，可以充分发挥两者的优势。本文将介绍如何将MySQL中的数据同步到
网络安全-信息收集 One_Blanks 网络安全网络安全
声明学习视频来自B站UP主泷羽sec，如涉及侵权马上删除文章。笔记的只是方便各位师傅学习知识，以下网站只涉及学习内容，其他的都与本人无关，切莫逾越法律红线，否则后果自负。目录X一、Whois信息1.思路2.工具3.社工库二、搜索1.Google、bing、baidu三、Github四、搜索引擎FOFA：[https://fofa.info/](https://fofa.info/)360网络空间测
Python - 爬虫；爬虫-网页抓取数据-工具curl MinggeQingchun Python 爬虫 curl python
一、爬虫关于爬虫的合法性通用爬虫限制：Robots协议【约定协议robots.txt】robots协议：协议指明通用爬虫可以爬取网页的权限robots协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守几乎每一个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页
使用E2B数据分析沙盒进行文件分析 qahaj 数据分析数据挖掘 python
使用E2B数据分析沙盒进行文件分析在现代数据分析中，运行环境的安全性与灵活性是确保数据处理高效可靠的关键因素。E2B提供了一个数据分析沙盒，能够在隔离的环境中安全地执行代码，非常适合构建诸如代码解释器或类似于ChatGPT的高级数据分析工具。在这篇文章中，我将演示如何使用E2B的数据分析沙盒来对上传的文件进行分析，为您提供一个强大的Python代码示例。核心原理解析E2B的数据分析沙盒为开发者提供
GEO：在AI时代抢占DeepSeekC位？白雪讲堂人工智能
前言：当SEO遇见AGI——一场静默的流量革命在生成式AI日均处理53亿次查询的今天，传统SEO的「关键词-排名-点击」逻辑正在崩塌。DeepSeek、ChatGPT、豆包等大模型用动态生成的答案，悄然截流了68%的搜索需求。更残酷的是：当用户问"某个产品推荐"时，AI可能同时调用37个信源，却不会留下任何可追踪的搜索痕迹。这场革命迫使企业必须从「关键词优化」转向「场景占领」，从「流量争夺」进化到
商品详情中除了价格和库存，还有哪些重要信息？数据小爬虫@ 大数据
在获取商品详情时，除了价格和库存，还有许多其他重要信息可以帮助我们更全面地了解商品。这些信息对于市场调研、数据分析、商品比较以及用户体验优化等都非常有价值。以下是一些常见的商品详情字段及其重要性：1.商品名称（Name）重要性：商品名称是用户识别商品的关键信息，也是搜索引擎优化（SEO）的重要部分。应用场景：用于展示商品、搜索优化、分类整理等。2.商品描述（Description）重要性：详细的商
Open WebUI – 本地化部署大模型仿照 ChatGPT用户界面 m0_74824845 chatgpt ui
OpenWebUI介绍：OpenWebUI是一个仿照ChatGPT界面，为本地大语言模型提供图形化界面的开源项目，可以非常方便的调试、调用本地模型。你能用它连接你在本地的大语言模型（包括Ollama和OpenAI兼容的API），也支持远程服务器。Docker部署简单，功能非常丰富，包括代码高亮、数学公式、网页浏览、预设提示词、本地RAG集成、对话标记、下载模型、聊天记录、语音支持等。官网地址：ht
分享12个国内AI对话聊天的免费网站（含DeepSeek大模型）码上飞扬人工智能语言模型 DeepSeek
在人工智能领域，基于对话的语言模型已成为当前研究的热点，其中以ChatGPT为代表的模型凭借其卓越的语言理解与交互能力备受瞩目。为帮助用户更好地选择和使用这类AI工具，本文将介绍12个国内可直接体验对话聊天功能的平台，为用户提供实用参考。1、腾讯元宝地址：https://hunyuan.tencent.com/bot/chat腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预
GitHub霸榜神器！NextChat领衔DeepSeek全栈开发范式大禹智库《向量数据库指南》《实战AI智能体》机器学习 RAG AI智能体人工智能 Manus deepseek NextChat
一、项目概况与生态定位NextChat（原ChatGPT-Next-Web）是GitHub上斩获81.2K星标的现象级开源项目，定位为"轻量级AI助手终端"，支持DeepSeek、Claude、GPT-4、Gemini等20+主流大模型。其核心价值在于以5MB超小客户端实现跨平台（Windows/Mac/Linux/iOS/Android）无缝衔接，同时提供云端一键部署方案，成为个人用户与企业私有
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
java Spring Boot ruoyi-vue-pro 模型接入微软 OpenAI(chatgpt)方法代码简单说开发必备 2025开发必备 java若依 ruoyi教程 java spring boot vue.js ruoyi-vue-pro openai chatgpt 大模型
javaSpringBootruoyi-vue-pro模型接入微软OpenAI方法本项目基于SpringAI提供的spring-ai-azure-openai，实现与微软Azure上部署的OpenAI的接入，涵盖AI对话和AI绘画功能。1.申请密钥1.1AzureAPI申请在微软AzureAI申请。社区小伙伴提供过密钥接入，申请流程应不复杂。申请完成后会得到类似模型列表（如图）。购买完成后，在系统
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
智见未来：多大模型协同的数据分析新范式一ge科研小菜菜人工智能大数据人工智能大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。利用多个LLM的协同能力，可以增强数据分析的多角度解读、减少单一模型的偏差，并优化洞察生成的深度和精准度。本文探讨如何结合多个LLM，在数据分析领域实现更可靠的洞察生成，并提供具体的策略、方法和应用场景。2.主要
chatgpt赋能python：Python构造函数详解 www_xuhss_com ChatGpt chatgpt 计算机
Python构造函数详解在Python中，构造函数是一种特殊的函数，用于创建类的实例并初始化其属性。Python构造函数的名称为__init__，它在创建类的实例时自动调用。本篇文章将全面介绍Python构造函数的重要性及其使用方法。为什么需要构造函数？当我们创建一个类的实例时，通常需要初始化它的一些属性。如果没有构造函数，我们必须手动初始化每一个属性变量，这显然会很麻烦，并且容易出现错误。所以，
从0到1：小白也能轻松上手的高清电影搜索引擎网站制作指南计算机学长网站制作搜索引擎前端服务器
引言在互联网飞速发展的当下，在线观影已成为人们日常娱乐不可或缺的一部分。据相关数据显示，2024年网络视频用户规模达到了惊人的规模，如此庞大的用户群体，对电影资源的需求自然也是水涨船高。然而，面对海量的电影资源，如何快速、准确地找到自己心仪的高清电影，却成了许多影迷的一大难题。各大视频平台资源分散，想要观看不同的电影，往往需要在多个平台之间来回切换，而且还可能面临付费门槛、广告干扰等问题。这时，一
华为OD机试九日集训第2期 - 按算法分类，由易到难，循序渐进，提升编程能力和解题技巧，从而提高机试通过率哪吒搬砖工逆袭Java架构师华为od 算法九日集训 Java
目录一、适合人群二、本期训练时间三、如何参加四、数据结构与算法大纲五、华为OD九日集训第1期第1天、逻辑分析第2天、队列第3天、双指针第4天栈第5天滑动窗口第6天、二叉树第7天、并查集第8天、矩阵第9天、贪心算法六、国内直接使用满血ChatGPT4o、o1、o3-mini-high、Claude3.7Sonnet、满血DeepSeekR11、纯原版ChatGPT、Claude2、技术支持3、支持所
探索 Tavily Search API：为 AI 提供快速准确的搜索结果 nseejrukjhad 人工智能 python 开发语言
引言在当今的技术时代，AI代理（如大型语言模型）日益需要实时、准确和事实性强的搜索结果。TavilySearchAPI就是为此而生的。这篇文章将介绍如何将TavilySearchAPI集成为一个检索器，使开发者可以在应用中快速获取所需信息。此外，我们将讨论这一集成过程中的挑战及其解决方案。主要内容1.TavilySearchAPI简介TavilySearchAPI是一个专门为AI代理设计的搜索引擎
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开