夕小瑶

微软发布多模态大模型GPT-4V使用指南，长达166页，一文速览

来源 | 机器之心
作者 | 陈萍、张倩

一周之前，ChatGPT迎来重大更新，不管是 GPT-4 还是 GPT-3.5 模型，都可以基于图像进行分析和对话。与之对应的，多模态版GPT-4V模型相关文档也一并放出。当时 OpenAI 放出的文档只有18页，很多内容都无从得知，对于想要更深入了解GPT-4V应用的人来说，难度还是相当大的。

短短几天时间，当大家还在死磕OpenAI 放出的18页文档时，微软就公布了一份长达166页的报告，定性地探讨了GPT-4V的功能和使用情况。

大模型研究测试传送门

GPT-4传送门（免墙，可直接测试，遇浏览器警告点高级/继续访问即可）：
https://gpt4test.com

报告地址：
https://arxiv.org/pdf/2309.17421.pdf

MedARC（医疗人工智能研究中心）联合创始人兼CEO Tanishq Mathew Abraham表示，「这篇报告将是GPT-4V高级用户的必读之作。」

该报告共分为11个章节，重点是对最新模型 GPT-4V(ision)进行分析，以加深大众对 LMM（大型多模态模型）的理解。文章用很大篇幅介绍了GPT-4V可以执行的任务，包括用测试样本来探索GPT-4V的质量和通用性，现阶段GPT-4V能够支持的输入和工作模式，以及提示模型的有效方法。

在探索 GPT-4V 的过程中，该研究还精心策划组织了涵盖各个领域和任务的一系列定性样本。对这些样本的观察表明，GPT-4V 在处理任意交错的多模态输入方面具有前所未有的能力，并且其功能的通用性使 GPT-4V 成为强大的多模态通用系统。

此外，GPT-4V 对图像独特的理解能力可以催生新的人机交互方法，例如视觉参考提示（visual referring prompting）。报告最后深入讨论了基于 GPT-4V 的系统的新兴应用场景和未来研究方向。该研究希望这一初步探索能够激发未来对下一代多模态任务制定的研究，开发和增强 LMM 解决现实问题的新方法，并更好地理解多模态基础模型。

下面我们逐一介绍每个章节的具体内容。

论文概览

论文第一章介绍了整个研究的基本情况。作者表示，他们对GPT-V4的探讨主要在以下几个问题的指导下进行：

1、GPT-4V 支持哪些输入和工作模式？多模态模型的通用性必然要求系统能够处理不同输入模态的任意组合。GPT-4V 在理解和处理任意混合的输入图像、子图像、文本、场景文本和视觉指针方面表现出了前所未有的能力。他们还证明，GPT-4V 能够很好地支持在 LLM 中观察到的test-time技术，包括指令跟随、思维链、上下文少样本学习等。

2、GPT-4V 在不同领域和任务中表现出的质量和通用性如何？为了了解 GPT-4V 的能力，作者对涵盖广泛领域和任务的查询进行了采样，包括开放世界视觉理解、视觉描述、多模态知识、常识、场景文本理解、文档推理、编码、时间推理、抽象推理、情感理解等。GPT-4V 在许多实验领域都表现出了令人印象深刻的人类水平的能力。

3、使用和提示 GPT-4V 的有效方法是什么？GPT-4V 能够很好地理解像素空间编辑，例如在输入图像上绘制的视觉指针和场景文本。受这种能力的启发，研究者讨论了「视觉参考提示」，它可以直接编辑输入图像以指示感兴趣的任务。视觉参考提示可与其他图像和文本提示无缝结合使用，为教学和示例演示提供了一个细致入微的界面。

4、未来的发展方向是什么？鉴于 GPT-4V 在跨领域和跨任务方面的强大能力，我们不禁要问，多模态学习乃至更广泛的人工智能的下一步是什么？作者将思考和探索分为两个方面，即需要关注的新出现的应用场景，以及基于 GPT-4V 系统的未来研究方向。他们介绍了他们的初步探索结果，以启发未来的研究。

GPT-4V的输入模式

论文第二章总结了GPT-4V支持的输入，分为纯文本、单个图像-文本对、交错图像-文本输入（如图1）三种情况。

GPT-4V的工作模式和提示技术

论文第三章总结了GPT-4V的工作模式和提示技术，包括：

1、遵循文字说明：

2、视觉指向和视觉参考提示：

3、视觉+文本提示：

4、上下文少样本学习：

视觉-语言能力

论文第四章研究了如何利用 GPT-4V 来理解和解释视觉世界。

首先4.1节探讨了GPT-4V对不同域图像的识别能力，包括识别不同的名人，并能详细描述名人的职业、行为、背景、事件等信息。

除了识别名人外，GPT-4V能准确识别测试图像中的地标，还能产生生动而详细的叙述，从而捕捉地标的特性。

GPT-4V还可以识别各种菜肴，并给出菜肴中的特定成分，装饰物或烹饪技术。

除此以外，GPT-4V还可以识别常见的疾病，例如其能根据肺部的CT扫描指出潜在的问题，又或者对给定的x光片中的牙齿和颌骨，解释下颌左下方和右侧部分出现的智齿可能需要切除；GPT-4V能正确识别徽标，并提供详细的描述，包括其设计，颜色，形状和符号；如果提示中出现的问题与照片不符，GPT-4V也能进行反事实推理。

4.2节探讨了GPT-4V对目标的定位、计数和密集字幕生成。

下图表明GPT-4V能够理解图像中人与物体之间的空间关系，例如识别飞盘和人之间的空间关系。

GPT-4V能够确定图像中指定物体的数量，下图表明GPT-4V成功地计算出图像中出现的物体的数量，如苹果、橘子和人。

GPT-4V成功地定位和识别图像中的个体，然后为每个个体提供简洁的描述。

4.3节介绍了GPT-4V能够进行多模态理解以及对常识的掌握能力。下图展示了GPT-4V能够解释笑话和梗图：

GPT-4V能够回答科学问题：

GPT-4V还能进行多模态常识推理：

4.4节介绍了GPT-4V对场景文本、表格、图表和文档的推理能力。

GPT-4V可以进行数学推理：

理解流程图：

理解表格细节：

GPT-4V还能阅读一份多页的技术报告，理解每个部分的内容，并对该技术报告进行总结：

4.5节介绍了GPT-4V对多语言多模态的理解。

GPT-4V能够生成不同语言的图像描述：

GPT-4V对多语言文本识别、翻译和描述的结果：

4.6节介绍了GPT-4V的编码能力。

基于手写数学方程生成LaTeX代码的能力：

GPT-4V生成Markdown/LaTex代码以重建图像中表的能力：

GPT-4V编写代码以复制输入图形的能力：

与人类的互动：视觉参考提示

在与多模态系统的人机交互中，指向特定空间位置是一项基本能力，例如进行基于视觉的对话。第 5.1 节显示，GPT-4V 可以很好地理解直接画在图像上的视觉指针。基于这一观察结果，研究者提出了一种名为「视觉参考提示（visual referring prompting）」的新型模型交互方法。如图 50 所示，其核心思想是直接编辑图像像素空间，绘制视觉指针或场景文本，作为人类的参照指示。作者在第 5.2 节详细介绍了这种方法的用途和优势。

最后，他们在第 5.3 节探讨了如何让 GPT-4V 生成视觉指针输出，以便与人类互动。这些视觉指针对于人类和机器来说都能直观地生成和理解，是人机交互的良好渠道。

时间和视频理解

在第六章，作者讨论了GPT4V 的时间和视频理解能力。尽管 GPT4V 主要以图像作为输入，但评估其对时间序列和视频内容的理解能力仍然是对其整体评估的一个重要方面。这是因为现实世界中的事件会随着时间的推移而展开，而人工智能系统理解这些动态过程的能力在现实世界的应用中至关重要。时序预测、时序排序、时序定位、时序推理和基础时序理解等能力有助于衡量模型在一系列静态图像中理解事件顺序、预测未来事件发生和分析随时间变化的活动的能力。

尽管 GPT-4V 以图像为中心，但它能够以类似人类理解的方式理解视频和时间序列。为了提高像 GPT-4V 这样复杂的人工智能模型的通用性和适用性，这方面的测试对其发展和完善至关重要。

在这一章的实验中，研究者使用了多个选定的视频帧作为输入，以测试模型在理解时间序列和视频内容方面的能力。

多图像序列

视频理解

基于时间理解的视觉参考提示

视觉推理与智商测试

对抽象视觉刺激和符号的理解和推理是人类智能的一项基本能力。论文第七章测试了GPT-4V是否可以从视觉信号中抽象语义，并可以执行不同类型的人类智商（IQ）测试。

抽象视觉刺激

部件和物体的发现与关联**

韦氏成人智力量表

瑞文推理测验

情商测验

在与人类互动时，GPT-4V 必须具备同理心和情商（EQ），以理解和分享人类的情感。受人类情商测试定义的启发，作者研究了 GPT-4V 在以下方面的能力：从人的面部表情中识别和解读人的情绪；理解不同的视觉内容如何激发情绪；根据所需的情绪和情感生成适当的文本输出。

从面部表情中读出情感

理解视觉内容如何激发情感

情绪条件输出

新兴应用亮点

这一章展示了 GPT-4V 的卓越功能可能带来的无数高价值应用场景和新用例。诚然，其中一些应用场景可以通过精心策划用于微调现有视觉和语言（VL）模型的训练数据来实现，但作者想强调的是，GPT-4V 的真正威力在于它能够毫不费力地实现开箱即用。此外，他们还介绍了 GPT-4V 如何与外部工具和插件无缝集成，从而进一步拓展其潜力，实现更多创新和协作应用。

找不同

工业

医药

汽车保险

编写照片说明

图像理解与生成

具身智能体

图形用户界面（GUI）交互

基于LLM的智能体

论文第十章讨论了 GPT-4V 未来可能的研究方向，重点是 LLM 中的有趣用法如何扩展到多模态场景。

基于ReAct的GPT-4V多模态链扩展：

使用自我反思来改进文本到图像模型SDXL生成的文本提示的示例：

自洽性：

检索增强LMM，图74显示了一个检索增强的LMM帮助杂货店结帐的示例。

关于GPT-4V的更多场景应用细节，请查看原论文。

你可能感兴趣的:(人工智能)

AI在电商平台商品描述生成中的应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI在电商平台商品描述生成中的应用关键词：人工智能、电商平台、商品描述、自然语言处理、机器学习、深度学习摘要：本文深入探讨了人工智能在电商平台商品描述生成中的应用。首先，我们回顾了人工智能的概述和电商平台的发展背景。随后，分析了商品描述在电商平台中的重要性以及存在的问题。接下来，我们重点介绍了AI在商品描述生成中的应用技术，包括自然语言处理、机器学习和深度学习等。文章还通过实战案例展示了AI商品描
SpringAI基于API对大语言模型调用 _沉浮_ AI 语言模型人工智能 springAI
引言随着人工智能技术的迅猛发展，大型语言模型（LLM）在各个领域的应用越来越广泛。SpringAI作为一个旨在简化AI集成的框架，为开发者提供了高效、便捷的工具来连接和调用这些大模型。本文将详细探讨如何使用SpringAI整合通义千问等大语言模型，并通过实例演示这一过程，最后提供一些扩展建议。一、SpringAI简介SpringAI是一个专为AI工程设计的应用框架，旨在将Spring生态系统设计原
【Python】已解决：（cmd进入Python环境报错）No Python at ‘C:\Users…\Python\Python39\python.exe’ 屿小夏 python linux 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory解决方案爱编程的喵喵 Python基础课程 python pip OSError 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ERROR:Couldnotinst
安装flash-attn出现RuntimeError current installed version g++ (4.8.5) is less than mininum version解决方案爱编程的喵喵 Python基础课程 python flash-attn g++RuntimeError
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。本文主要介绍了安装flash-attn出现RuntimeErrorcurrentinstalledversiong++(4.8.5)islessthanmininumversion解决方案
9.6 解锁 AI 潜力：GPT Builder 的强大能力与无限可能少林码僧 AI大模型应用实战专栏人工智能 gpt
解锁AI潜力：GPTBuilder的强大能力与无限可能引言：轻松打造智能应用的革命性工具在人工智能的浪潮中，GPTBuilder作为一款强大且易用的开发工具，让构建AI驱动的智能应用变得前所未有的简单。无论你是开发者、企业家，还是对技术一知半解的创作者，GPTBuilder都能帮助你快速将创意变为现实。从自动化客户支持到内容生成，从数据分析到智能助手，GPTBuilder提供了丰富的功能和灵活的设
Spring AI 更新：支持OpenAI的结构化输出，增强对JSON响应的支持 java后端
就在昨晚，SpringAI发了个比较重要的更新。由于最近OpenAI推出了结构化输出的功能，可确保AI生成的响应严格遵守预定义的JSON模式。此功能显着提高了人工智能生成内容在现实应用中的可靠性和可用性。SpringAI紧随其后，现在也可以对OpenAI的结构化输出完美支持了。下图展示了本次扩展的实现结构，如果对于当前实现还不够满意，需要扩展的可以根据此图来着手理解分析进行下一步扩展工作。使用样例
Crawl4AI：用几行代码打造强大的网页爬虫海豹工匠爬虫
Crawl4AI：用几行代码打造强大的网页爬虫在人工智能和大数据时代，数据的获取和处理变得尤为重要。尤其是在大型语言模型（LLM）的研究和应用中，如何高效地抓取和整理网络数据成为了一个关键的挑战。为了解决这一问题，一个名为Crawl4AI的开源网页爬虫工具应运而生，它专为LLM优化，提供了一种简单易用且功能强大的数据抓取解决方案。什么是Crawl4AI？Crawl4AI是一个基于LLM的开源网页爬
Python magenta库：一款人工智能生成音乐与艺术的创新工具程序员喵哥 python 人工智能开发语言
更多Python学习内容：ipengtao.com随着人工智能在创意领域的不断进步，音乐和艺术生成正成为一种新的可能性。Magenta是由Google推出的一个开源项目，它结合了深度学习与艺术创作，为开发者提供了一系列强大的工具，帮助他们创作音乐、绘画等艺术作品。基于TensorFlow，Magenta不仅适用于研究人员，也适合开发者和艺术家，提供了易于上手的API和丰富的模型。安装在使用Mage
Crawl4AI 人工智能自动采集数据葡萄爱人工智能 python 大数据
文章目录1使用Crawl的步骤2AI智能体应用实例3结语Crawl是一款免费的开源工具，利用AI技术简化网络爬取和数据提取，提高信息收集与分析的效率。它智能识别网页内容，并将数据转换为易于处理的格式，功能全面且操作简便。定位：开源AI工具Crawl，简化数据爬取和分析，助力高效提取网站定价信息。1使用Crawl的步骤步骤1：安装与设置pipinstall“crawl4ai@git+https://
深度学习探索：ChatGPT数据分析精髓 & 梯度下降优化方法深度剖析网罗开发 AI 大模型人工智能深度学习 chatgpt 数据分析
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
开源模型应用落地-qwen模型小试-调用Qwen2-VL-7B-Instruct-更清晰地看世界-vLLM+Docker（七）开源技术探险家开源模型-实际应用落地 #深度学习 AI编程 AIGC
一、前言学习Qwen2-VL，为我们打开了一扇通往先进人工智能技术的大门。让我们能够深入了解当今最前沿的视觉语言模型的工作原理和强大能力。这不仅拓宽了我们的知识视野，更让我们站在科技发展的潮头，紧跟时代的步伐。Qwen2-VL具有卓越的图像和视频理解能力，以及多语言支持等特性。学习它可以提升我们处理复杂视觉信息的能力，无论是在学术研究中分析图像数据、解读视频内容，还是在实际工作中进行文档处理、解决
【有啥问啥】大模型赋能智能座舱：重塑未来出行体验有啥问啥大模型行业调研语言模型汽车人工智能
大模型赋能智能座舱：重塑未来出行体验在科技日新月异的今天，人工智能（AI）正以前所未有的速度改变着各行各业，而智能座舱作为现代汽车产业的重要组成部分，也在经历一场由大模型技术引领的重大变革。这些变化不仅赋予了智能座舱更强的学习与推理能力，还为用户带来了前所未有的个性化服务体验。让我们一起走进几位普通车主的故事，看看他们的生活因智能座舱而发生了怎样的改变。一、智能座舱与大模型：技术融合的前沿趋势（一
【有啥问啥】揭秘AI图像/视频生成的幕后功臣：重述（Recaptioning）技术有啥问啥大模型科普人工智能
揭秘AI图像/视频生成的幕后功臣：重述（Recaptioning）技术近年来，人工智能（AI）在图像和视频生成领域取得了令人瞩目的进展。从生成震撼视觉效果的图像生成器DALL-E3，到能够创造逼真动态视频的Sora，这些强大的模型背后，有一项至关重要的技术正在悄然发力——那就是重述（Recaptioning）技术。本文将通俗易懂地带你深入了解这项技术的工作原理及其对AI生成领域的巨大推动作用。什么
拨开迷雾：人工智能核心领域与大模型的演进逻辑！新手放心进，保证通俗易懂！！小南AI学院人工智能
1.人工智能的定义及其子领域人工智能（ArtificialIntelligence,AI）是计算机科学的一个重要分支，旨在模拟和扩展人类智能。AI涉及多个学科，涵盖数学、计算机科学、认知科学等领域。根据研究内容和技术特点，人工智能主要分为以下几个子领域：1.1人工智能人工智能是一个广义的概念，包含任何试图让机器表现出类似人类智能的技术。传统人工智能注重规则设计和逻辑推理，而现代人工智能通过机器学习
非凸科技荣获2024中国人工智能行业创新力企业奖人工智能
11月27日，CIAI2024第九届中国国际人工智能大会暨“2024中国人工智能行业创新力企业”颁奖典礼在上海圆满落幕。非凸科技作为百强创新力企业受邀出席大会，并荣获“十大创新力企业”奖，在科技创新、商业模式成熟度、主营业务表现、市场地位等多方面获得认可。此次奖项由中国国际人工智能大会组委会、人工智能行业创新力评价委员会共同评选，重点关注入选企业在人工智能技术方面的创新应用及行业突破或独特优势。非
小南每日 AI 资讯 | 2025年AI泡沫破裂？ | 25/01/24 小南AI学院人工智能搜索引擎百度
小南每日AI资讯|2025年AI泡沫破裂？|25/01/24人工智能领域近期动态汇总一、行业趋势与未来展望AI泡沫可能在2025年破裂专家预测，尽管人工智能在多模态模型和自动机器学习等领域取得进展，但技术瓶颈、投资回报率下降、监管趋严，以及环境和伦理问题可能导致2025年AI泡沫破裂。未来AI的发展将更加注重平衡和可持续性。斯坦福大学发布《2024年人工智能指数报告》李飞飞教授团队揭示了人工智能行
人工智能技术的应用前景及未来发展键盘上的蚂蚁- 人工智能生活
引言人工智能（AI）作为21世纪最具创新性和革命性的技术之一，正在全球范围内深刻地改变着我们的生产、工作和生活方式。随着深度学习、强化学习、自然语言处理（NLP）、计算机视觉（CV）等技术的飞速进展，AI不再仅仅是学术研究中的一个热点，而是渗透到各个行业，成为推动创新、优化生产和提升效率的核心力量。对于开发者来说，理解和掌握AI技术不仅是提升个人技能的途径，更是应对未来技术变革、抓住职业机遇的关键
AI人工智能深度学习算法：在生物信息学中的应用 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能深度学习算法：在生物信息学中的应用关键词：人工智能、深度学习、生物信息学、基因组学、蛋白质结构预测、药物发现、个性化医疗文章目录AI人工智能深度学习算法：在生物信息学中的应用1.背景介绍2.核心概念与联系2.1人工智能（AI）2.2机器学习（ML）2.3深度学习（DL）2.4生物信息学2.5应用领域3.核心算法原理&具体操作步骤3.1算法原理概述3.1.1卷积神经网络（CNN）3.1.
AI人工智能 Agent：在个性化推荐中的应用 AGI大模型与大数据研究院计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI人工智能Agent：在个性化推荐中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍在当今信息爆炸的时代，个性化推荐系统（RecommenderSystem）已成为连接用户和信息的关键桥梁。其中，人工智能（AI）技术，特别是Agent技术，在个性化推荐中的应用日益受到关注。本文将深入探讨AIAgent在个性化推荐中的应用，包括其核
2025三掌柜赠书活动第四期：AI原生应用开发提示工程原理与实战三掌柜666 人工智能
目录前言提示工程的定义提示工程的重要性提示工程的基本原则关于《AI原生应用开发提示工程原理与实战》编辑推荐内容简介作者简介图书目录本书特色《AI原生应用开发提示工程原理与实战》内容提要结束语前言随着人工智能技术的飞速发展，AI原生应用开发已成为推动数字化转型的关键力量。AI原生应用不仅仅是传统应用的升级，而是从设计之初就深度整合了人工智能技术，以实现更智能、更高效的用户体验。提示工程（Prompt
Python从0到100（四十）：Web开发简介-从前端到后端（文末免费送书）是Dream呀 python 前端开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
【技术洞察】2024科技绘卷：浪潮、突破、未来三掌柜666 科技
涌动与突破2024年，科技的浪潮汹涌澎湃，人工智能、量子计算、脑机接口等前沿技术如同璀璨星辰，方便了大家的日常生活，也照亮了人类未来的道路。这一年，科技的突破与创新不断刷新着人们对未来的想象。那么回顾2024年的科技技术圈，都给大家留下哪些印象深刻的技术和事件呢？又给技术圈的未来带来哪些影响和变化呢？一、浪潮涌动：科技开启新纪元2024年的开篇，科技的浪潮已然汹涌。1月底，马斯克旗下的Neural
亚马逊云科技 re:Invent 2024：从云计算到人工智能，“让理想发生”
12月2日，有着“云计算春晚”之称的亚马逊云科技re:invent大会，在美国拉斯维加斯盛大开幕。本届大会以“Turnyourideasintoreality”（让理想发生）为主题，精心筹备了诸多场主题演讲，内容广泛涉及人工智能、数据分析、云计算等一系列关键技术领域，旨在深度剖析行业前沿动态，为从业者及科技爱好者呈上一场知识盛宴。当下，生成式AI赛道持续升温、竞争白热化，亚马逊云科技在该领域的每一
AI人工智能代理工作流AI Agent WorkFlow：AI代理在股市分析的应用 AI架构设计之禅大数据AI人工智能 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：AI代理在股市分析的应用1.背景介绍1.1股市分析的重要性股票市场是一个复杂的动态系统,涉及大量的经济因素、政治因素、心理因素等,对整个社会经济发展有着深远影响。准确的股市分析和预测对于投资者、企业和政府制定决策都至关重要。1.2传统股市分析方法的局限性传统的股市分析方法主要依赖人工分析师,通过研究各种基本面、技术面等数据进行分析和预测。但这种
基于 PyTorch 的深度学习模型开发实战一ge科研小菜鸡人工智能深度学习
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言深度学习已广泛应用于图像识别、自然语言处理、自动驾驶等领域，凭借其强大的特征学习能力，成为人工智能的核心技术之一。PyTorch作为当前流行的深度学习框架，提供了灵活的张量操作和动态计算图，便于模型的快速开发和调试。本教程将通过一个完整的深度学习模型开发流程，从数据预处理、模型构建、训练与优化、评估以及部署，帮助读者深入理解深度学习的关键技术
构建桌面聊天助手：Mistral AI、LangChain 和 Tkinter 的结合花生糖@ AIGC学习资料库人工智能 langchain easyui Mistral AI Tkinter AI助手
在人工智能（AI）技术日新月异的今天，大型语言模型（LLMs）和LangChain成为了炙手可热的话题。作为一名开发者，我最近进行了一项实验，旨在创建一个实用的工具，将强大的AI功能与Python编程语言的简洁性结合起来，为用户提供便捷的服务。这次实验的成果是一款专为记者设计的桌面聊天助手，它使用了MistralAI提供的强大自然语言处理能力，并通过LangChain进行集成，同时利用Tkinte
开源与闭源：AI模型发展的双重路径之争爱吃辣椒的年糕 AI智能深度学习人工智能 chatgpt 经验分享笔记 fpga开发神经网络
前言随着人工智能（AI）技术的飞速发展，AI模型的应用已经渗透到各行各业，从医疗、金融到制造、教育，无不受到AI技术的深刻影响。在讨论一个AI模型“好不好”“有没有发展”时，绕不过“开源”和“闭源”两条发展路径。两者各有利弊，且分别代表了不同的技术哲学和商业模式。那么，究竟哪一种路径更有前景？本文将深入探讨开源与闭源AI模型的发展路径，分析它们的优势与挑战，并探讨未来的趋势。一、开源AI模型的发展
数字人+虚拟展厅：开启互动展览新篇章！ jimumeta 3D 行业资讯人工智能 vr ar 虚拟展厅 3D展厅
“数字人+展厅”这一组合正逐渐成为展览展示领域的新宠，它融合了最前沿的人工智能、虚拟现实、增强现实等技术，为观众带来了前所未有的互动新体验。数字人，即利用计算机图形学、人工智能等技术生成的具有人类外貌、行为和交互能力的虚拟形象。这些数字人不仅在外形上栩栩如生，还能通过自然语言处理、语音识别与合成等技术实现与人类的实时交互，模拟出真实的人际对话和情感表达。展厅应用的优势增强互动性：数字人作为展厅的虚
探索Llama 3.1：深入理解其多语言与长上下文处理能力技术猿18870278351 代码技术 llama
摘要Llama3.1，一款先进的语言模型，以其庞大的参数量和卓越的性能而闻名。本文将分析Llama3.1在不同规模版本中—405B、70B和8B—的多语言处理能力和长上下文理解能力，探讨其在人工智能领域的应用潜力。引言随着人工智能技术的飞速发展，语言模型已成为处理和理解人类语言的关键工具。Llama3.1模型以其不同规模的版本，提供了多样化的应用场景和解决方案。本文将重点探讨这些版本的多语言处理能
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b <br>c: %c <br>d: %d <bf>f: %f', 80,80, 80, 80); echo '<br />'; printf('%0.2f <br>%+d <br>%0.2f <br>', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他