AI 视界周刊由战场小包维护,每周一更新,包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界 AI、企业动态和争议 AI 八大板块,后续板块划分和内容撰写在周刊迭代过程中持续优化,欢迎大家提出建议。
欢迎大家来到《AI 视界周刊第二期》(07-22~07-28)。
Meta 公司开源 Llama 3.1 系列开源大语言模型,包含 8B、70B 和 405B 参数版本,其以 128K 的上下文长度和卓越的多语言支持,在多项任务中展现出与 GPT-4、GPT-4o、Claude 3.5 Sonnet 等闭源模型相媲美的性能,是 LLM 大模型领域的一大里程碑。更多详情
牛津、剑桥等机构的研究发现,用 AI 生成的数据训练 AI 模型会导致模型崩溃,如 LLM 通常迭代至第 9 代就会完全混乱。该研究指出,若不加区分地在训练中使用 AI 产生的内容,模型将出现不可逆缺陷,类似于近亲繁殖,产生质量低劣的后代。在训练大模型时要合理的甄别数据,尽可能保留一定比例原始数据、使用多样化数据源、减少 AI 生成数据的使用。论文链接
OpenAI 近日推出 AI 搜索引擎 SearchGPT,旨在挑战谷歌的搜索市场。SearchGPT 采用 GPT-4 系列模型,采用大文本框接受用户自然语言搜索请求,并提供清晰、相关的搜索结果。目前 SearchGPT 提供了 1 万名名内测资格供用户体验,同时即将推出付费 alpha 测试版本。更多详情
微软 Bing 搜索引擎引入 AI 搜索功能,力图在市场中提升自身份额。Bing 的新功能能够结合传统搜索结果和 AI 生成的答案,提供更高质量的内容和更体系化的搜索结果,可能有助于改善用户体验。Bing 的 AI 搜索功能正在逐步推出中。更多详情
斯坦福大学的研究显示,AI 能够通过分析无表情的面部特征预测个人的政治倾向,准确率惊人,表明面部特征与政治倾向之间可能存在稳定的联系。这项研究已发表在《美国心理学家》期刊上,引发了广泛的隐私和伦理方面的担忧。更多详情
华盛顿大学、Salesforce Research 和斯坦福大学等机构联合发布了史上最大的开源多模态数据集 MINT-1T,包含一万亿文本 token 和三十亿张图像,涵盖 HTML、PDF、ArXiv 等多种来源。该数据集的构建经过了文本和图像质量过滤、安全过滤以及去重,以提高数据质量和安全性。MINT-1T 的发布为开源多模态大模型(LMM)的发展提供了重要的数据支持,有助于推动多模态 AI 技术的进步。论文链接
GPT-4o mini 版在 lmsys 大模型竞技场中取得并列第一成绩,超越了 Claude 3.5,展现出其强大的性能。此外 OpenAI 宣布 GPT-4o mini 模型提供免费微调服务,每天提供 200 万训练 token,限时两个月。与 GPT-3.5 Turbo 相比,价格大幅度下降,同时训练和推理上下文长度也大幅提升。OpenAI 的此举为开发者提供了低成本构建强大应用的机会,进一步推动了 AI 技术的发展与普及。更多详情
快手可灵 AI 正式宣布全面开放内测,所有用户均可无门槛使用。自上线以来,已接收超 50 万人申请,生成超 700 万条短视频。同时,官方推出了会员付费模式,当前为“5 折”限时优惠活动,单月最低价 33 元。为满足不同用户需求,每日登录可免费领取 66 灵感值,可生成 6 个 5 秒视频或 330 张图片。
智谱 AI 推出新一代视频生成产品 CogVideoX,用户可以在 PC 端、移动应用端及小程序端免费体验文本生成视频和图像生成视频服务。CogVideoX 采用三维变分自编码器结构和 3D RoPE 位置编码模块,提升视频内容连贯性。同时端到端视频理解模型增强了指令理解和遵循能力,确保生成视频更贴合用户需求。体验链接
AI 技术 将首次在巴黎奥运会迎来亮相,谷歌将与 NBCUniversal 合作,利用 Gemini 等 AI 技术为观众带来新体验。包括 AI 解说和个性化赛事回顾、 AI 体育评论员叙述每日看点、AI 互动、沉浸式巴黎游览和 3D 实景转播等。更多详情
2024 年,AI 视频生成技术迎来爆发期,自 Sora 引领新时代后,多家企业如字节、快手等纷纷推出新产品,显著提升了视频生成时长和质量。在资本市场,AI 视频生成领域 5 个月内融资超 44 亿,显示出行业的火热和潜力。尽管技术面临人物和场景一致性等挑战,AI 视频生成已从概念走向实用,预示着影视制作流程的重大变革。更多详情
法国 AI 初创公司 Mistral 推出了新一代旗舰 AI 模型 Mistral Large 2,拥有 1230 亿个参数,上下文窗口达 128k,专注于代码生成、数学和推理能力的提升。该模型支持超过 80 种编程语言和多种语言,包括中文,性能接近 GPT - 4 级模型,与 Llama 3.1 相近,但参数相比更少。更多详情
Meta 公司 CEO 马克·扎克伯格在其博文中分享了他对开源 AI 生态系统的愿景,认为 Llama 模型有潜力成为 AI 界的 Linux。他指出,开源 AI 有利于开发者和行业,允许组织根据自己的需求训练、微调和蒸馏 AI 模型,避免了对封闭供应商的依赖。同时允许在本地运行模型,有助于数据隐私保护。扎克伯格强调,开源 AI 的发展速度通常超过封闭模式,为行业带来长远利益。更多详情
OpenAI 提出的五级 AGI 战略引发争议。该战略将 AGI 分为聊天机器人、推理者、代理者、创新者和组织者五个级别。然而,业界对此提出质疑,认为其对"超级智能"的定义模糊,且五个级别间的逻辑关系并不总是合理或连贯。更有人认为这可能是 OpenAI 为吸引投资商的营销手段,实际情况是当前的人工智能系统距离真正的 AGI 还有很长的路要走。更多详情
AI 大模型在回答一些基础问题时频频出错,自上周错误判断 9.11 与 9.9 的大小后,本周计算 Strawberry 中’r’的数量又出新丑,引发业界关注。在这个问题上,GPT - 4o 坚定的答错,Llama 3.1 可以发现错误并改正,而 Claude 3.5 Sonnet 越改越错。全球网友尝试各种方法,包括使用特定提示词技巧,部分国内的模型能够答对。经社区分析认为,这些问题归根结底是 token 处理问题,AI 需要意识到自身能力的局限,并学会在必要时调用工具或方法来解决问题。更多详情
OpenAI 推出的 AI 搜索引擎 SearchGPT 在官方演示中出现翻车,如音乐节时间的误报等,给观众老爷们开了个大眼。更离谱的发生了, SearchGPT 搜索的部分源代码被泄露,开发者发生搜索机制依赖 Bing 索引同时和网络爬虫来获取实时数据 。尽管 OpenAI 承认错误并强调 SearchGPT 仅为初始原型,这一事件仍让人回想起谷歌 Bard 聊天机器人的失误, LLM(大型语言模型)在搜索引擎中应用还有一段路要走。更多详情
AI 行业正经历从大模型到小模型的转变。前 OpenAI 和特斯拉 AI 研究员 Andrej Karpathy 指出,尽管大模型在处理海量数据和提供高性能方面有优势,但小模型部署上更灵活、成本更低,成为 AI 发展新趋势。上周,多家公司推出小模型,Hugging Face 的 SmolLM 专为移动设备设计,能解决数据隐私和延迟问题;Mistral NeMo 面向台式电脑,有望普及复杂 AI 功能;OpenAI 的 GPT - 4o mini 成本效益高,降低了 AI 集成门槛。未来 AI 发展将多元化,需找到模型规模、性能与应用的平衡。更多详情
OpenAI CTO Mira Murati 在与资深科技记者 Kara Swisher 的对话中表示,未来十年内我们将拥有极其先进的智能系统,可能实现通用人工智能(AGI)。通过安全部署和公众参与,可以确保 AI 技术朝有利于人类安全的方向发展。同时,还强调了隐私和信任的重要性,并讨论了数据来源、AI 生成虚假信息的防范措施以及对未来 AI 技术的乐观态度。更多详情
在 2024 国际基础科学大会上,多位 AI 领域的专家学者就人工智能的未来发展方向进行了深入讨论。港大马毅等大佬探讨了 AI 下一步的发展。马毅认为大模型长期缺乏理论如盲人摸象,应回归理论探寻智能本质,学习可预测规律,实现模型与自身学习的对齐。联想集团 CTO 芮勇提出,大模型需发展智能体,构建混合框架,实现从自我学习到价值观、常识的进化。京东集团副总裁何晓冬指出,AI 商业应用落后于模型规模增长,缺乏能体现投入价值的超级产品。其他大牛认为大模型发展需范式变化,走出搜索范式,还需有超级产品体现价值,同时要解决模型幻觉问题,使智能体明确能力边界。目前 AI 发展面临诸多挑战,需在理论和实践上共同推进。更多详情
AI 公司如同需要原油的汽车,而原始数据正是它们的“原油”。大模型发展使高质量数据成为稀缺资源,频繁引发数据版权纠纷,如 Suno、Udio 和 OpenAI 面临的诉讼等。同时,高质量数据稀缺,促使 AI 公司如 OpenAI 通过收购 Rockset 等手段提高数据处理能力。内容公司通过与 AI 模型厂商合作,实现了新的变现途径。此外,用户生成内容(UGC)的版权归属和利益分配问题也日益受到关注。更多详情
AI 音乐模型通过音频压缩技术和大语言模型框架,将音乐维度转化为 token 序列,可以快速高质量的生成音乐。2024 年,Suno 完成 1.25 亿美元 B 轮融资,用户数超千万,随后遭到索尼、环球、华纳等唱片公司集体诉讼,指控其音乐作品侵权。近期美国提出 COPIED Act 法案,旨在规范 AI 产品,保护版权和个人数据。
谷歌研究人员在论文中提出警告,指出生成式人工智能(GenAI)正在制造并扩散大量虚假信息,破坏互联网的真实性。研究发现,GenAI 的滥用多属于常规操作,而非系统被恶意破解,其中篡改肖像和伪造证据尤为普遍,目的通常涉及影响舆论、诈骗或非法获利。若不解决,AI 生成内容会影响人们辨别真假,阻碍信息检索和扭曲理解,还可能成为知名人物的挡箭牌。更多详情
英国剑桥大学的科学家开发了一种新型人工智能模型,能以 82% 的准确率预测早期痴呆症患者发展为阿尔茨海默病的可能性。研究团队基于认知测试和核磁共振扫描数据建立模型,并使用多个诊所的真实世界数据进行测试,结果表明其准确率是当前标准护理或临床诊断的三倍左右。后续该模型可减少误诊,改善治疗效果,增加干预措施发挥作用的机会,存在巨大的应用空间。更多详情
谷歌公司开源新型 AI 天气预报模型 NeuralGCM,该模型结合了机器学习和传统技术,剋以提供成本更低、准确度更高的 1~10 天天气预报。NeuralGCM 模型利用过去几十年的天气数据,模仿大脑神经元进行训练,并结合物理方程描述大尺度天气模式,在保留大尺度物理学的同时,用 AI 取代了部分建模工作,从而减少了计算需求并提高了预测速度。NeuralGCM 的准确度可与欧洲中期天气预报中心的预报相媲美,且已经完全开源。论文链接
佐治亚理工学院、康涅狄格大学和清华大学的研究团队利用人工智能技术,发现了一种新型聚降冰片烯电介质材料,该材料在 200°C 时的能量密度达到 8.3 J/cc,是现有市售聚合物电介质的 11 倍。这项研究不仅提升了静电电容器在 85-200°C 温度范围内的应用潜力,还展示了 AI 在化学结构生成和性质预测方面的巨大影响。论文链接
当下,AI 驱动的机械臂系统如 Chef Robotics 已经可以在工业厨房中实现大规模即食和冷冻食品的生产,通过精准控制分量、适应不同食材和容器,有效节省人力并减少浪费。然而,由于缺乏训练数据和对复杂食材的操作难题,AI 在餐饮业的应用仍面临诸多挑战。尽管如此,机器人在提高效率、推动中餐标准化方面展现出巨大的潜力,未来可能在超市和餐馆中大范围普及。更多详情
德国弗劳恩霍夫数字医学研究所的研究人员开发了一种通用生物医学预训练模型(UMedPT),通过多任务学习策略在数据稀缺的情况下实现高性能。UMedPT 在多任务数据库上接受训练,包括分类、分割和物体检测等任务,展现出跨中心可转移性,且在仅需 1% 原始数据的情况下达到最佳性能。论文链接
上海交通大学医学院附属第六人民医院与多方团队合作,成功开发了全球首个糖尿病诊疗多模态大模型 DeepDR-LLM。该系统集成了大语言模型和深度学习技术,能提供糖尿病视网膜病变辅助诊断及个性化糖尿病管理意见。DeepDR-LLM 在多中心队列中进行了验证,证实能有效改善糖尿病筛查和管理水平,为全球糖尿病治理提供了革命性的数字解决方案。论文链接
特斯拉计划于 2026 年开始大规模生产人形机器人 Optimus 供其他公司使用。Optimus 2 代已在工厂测试,具备自主设计的执行器和传感器,行走速度提升,能进行精细操作。马斯克预计通过批量制造和销售 Optimus,特斯拉将占据拟人机器人市场 10% 的份额,且相信到 2026 年将实现完全软件定制的机器人。更多详情
马斯克宣布由 xAI、X 和英伟达等合力打造的孟菲斯超级集群已开始投入训练,该集群由 10 万块 H100 组成,是目前世界最强训练集群,集群目前已部分在线,可以支持 GPT - 5 规模模型训练。更多详情
英伟达推出"NVIDIA AI Foundry"代工服务和"NVIDIA NIM"推理微服务,旨在为客户提供定制化 AI 模型的构建和部署。通过结合 Meta 的 Llama 3.1 AI 模型、英伟达的软件、计算资源和专业知识,客户能够为特定领域打造"超级模型"。这些模型可以使用专有数据和合成数据进行训练,并由 NVIDIA DGX Cloud AI 平台提供支持。更多详情
据报道, OpenAI 在 2024 年可能面临高达 50 亿美元的亏损,其运营成本预计达到 85 亿美元,其中约 70 亿美元用于算力成本,占比超八成。高昂的推理和训练成本,加上免费版本的 ChatGPT 带来的额外成本,可能导致公司收入远低于运营支出。为应对财务压力,OpenAI 可能需要通过融资、降低成本和拓展新的收入来源进行自救。更多详情
香港科技大学的研究团队针对多模态大语言模型(MLLMs)在图像理解中出现的误差或幻觉问题,提出了一种名为 Bootstrapped Preference Optimization(BPO)的新方法。该方法通过偏好学习负样本的自动构建,减少模型对预训练知识的过度依赖,有效提升模型的视觉理解能力。实验证明,BPO 微调后的模型在多个基准测试中的性能得到显著提升,生成的答案更偏向于图像输入,减少了错误信息的产生。论文链接
Stability AI 推出首个视频生视频模型 Stable Video 4D(SV4D),能在 40 秒内将单个物体视频转换成 8 个不同视角的 3D 动态视频。SV4D 基于 Stable Video Diffusion 模型,适用于游戏开发、视频编辑、VR 等场景,已在 Hugging Face 上开源,目前免费供研究和非商业用途使用。论文链接
字节跳动 ByteDance Research 团队推出新一代同声传译智能体 CLASI,该系统采用端到端架构,有效避免了传统级联模型中的错误传播问题。CLASI 基于大语言模型,结合语音理解能力,实现了高质量的实时翻译。在中英、英中翻译的人工评测中,CLASI 的翻译效果显著优于现有商业系统和开源技术,部分测试集中的表现甚至达到或超越了人类同传水平。论文链接
波形智能的研究团队提出了一种名为 Agent Symbolic Learning 的端到端智能体符号化训练框架,该框架模拟了神经网络的反向传播和梯度下降算法,实现了对 AI 智能体的自主进化和优化。通过将智能体的 workflow 视为计算图,prompts 和 tools 作为权重,该框架能够对智能体进行全面的训练和优化,使其能够高效利用大量数据进行自主学习和性能提升。论文链接
微软发布 VALL-E 2 模型,该模型能够通过零样本学习模仿声音,目前是首个在合成语音稳健性、相似度和自然度方面达到人类水平的文本到语音模型。但微软目前仅将其作为研究项目,并未计划将其商业化。论文链接
两项独立研究表明 LLM 的长上下文能力可能存在问题。一项研究通过 NoCha 数据集测试长上下文模型,发现 GPT - 4o 等模型成绩不佳,开源模型准确率甚至不如瞎蒙,且 LLM 推理更多依赖自身参数知识。另一项研究通过 LoCoVQA 测试 VLM 的长上下文能力,发现其性能随上下文长度增加而衰减。论文链接 1、论文链接 2
北京理工大学计算机学院团队提出新的知识蒸馏框架 PlanKD,首次应用于端到端自动驾驶,可在不牺牲可靠性和增加成本的情况下,提升系统性能。该框架能使相同参数量的端到端规划器性能提升,包括驾驶分数、路线完成度等,并减少碰撞率和违章率,同时推理时间大大减少。其通过信息瓶颈策略和路径点知识蒸馏方法,解决了场景无关信息和路径点重要性差异的问题,为车端大模型部署提供解决方案。论文链接
北京邮电大学联合腾讯微信等机构的研究团队开发了 We-Math Benchmark,一个多模态小学数学问题评测数据集,旨在细粒度评估大型多模态模型(LMMs)在视觉数学推理任务中的表现。该数据集包含 6.5k 个问题,涵盖 5 层 67 个知识点的多级知识架构,通过拆解题目为子问题并引入四维度量标准,全面评估了 17 个大模型的推理能力,揭示了模型在知识点掌握和泛化能力上的不足,并指出了改进方向。论文链接
大型细胞模型(LCM)在生物学研究中展现出潜力,如 scBERT、Geneformer、scGPT、scFoundation 和 GeneCompass 等。这些模型可用于细胞类型注释、基因网络预测等任务,但在开发和应用中面临数据处理、计算资源、模型结构设计等挑战。未来需建立系统的测试场,以更好地发挥 AI 在生物和医学研究中的作用,推动相关领域的发展。论文链接
我是 战场小包 ,一个喜欢 AI 和前端的小编程。
如果喜欢小包,可以在 掘金 关注我,同样也可以关注我的小小公众号——小包学前端,公众号会持续地更新 AI 和前端的知识。
一路加油,冲向未来!!!