每周AI新闻(2024年第4周)OpenAI GPT降价增效,ChatGPT支持对话@GPTs | 通义千问Qwen-VL升级 | 哄哄模拟器爆火

我是陌小北,一个正在研究硅基生命的、有趣儿的碳基生命。每周日20:00,准时解读每周AI大事件。
本文解读部分属于陌小北的梦话,言论与她本人以及她所在的“陌北有棵树”账号无关。

大厂动向

【1】OpenAI GPT-3.5 Turbo降价增效、GPT-4 Turbo“变懒”问题修复

OpenAI宣布推出两款全新文本嵌入模型,包括更小、更高效的text-embedding-3-small和更大、性能更强的text-embeddings-3-large。OpenAI还更新了GPT-4 Turbo预览模型,修复此前模型“变懒”情况,同时发布迄今最稳健的文本审核模型,并将于下周推出全新GPT-3.5 Turbo模型,将输入价格降低了50%,将输出价格降低25%。此外,OpenAI将推出两项平台改进,让开发人员更清楚地了解自己的使用情况,并对API密钥进行控制。

【陌小北解读】 照这个速度,5还会远吗?摩尔定律在大模型时代又一次被玩明白了,不过以前无论是Intel和微软,还是高通和各手机厂商,好歹都还有个互相制衡,如今的OpenAI却是直接ToC又ToB。在资本面前,理想主义卑微如尘,不太敢想象几年后的OpenAI会长成什么样…

【2】ChatGPT更新,可在对话中@任意GPTs

ChatGPT更新的新功能,用户可以在对话中@ 不同的GPTs,类似于建立一个团队群聊,每个GPTs都是用户的员工,可以实现复杂任务。同一个对话内的「员工」们具备上下文信息,适合用来让一堆受调教过的GPTs「员工」去实现一个复杂任务。

【陌小北解读】 甚至不用想象,就已经看到了女朋友开会大型现场…家人们,经过OpenAI的不懈努力,终于把妻妾成群这项业务的价格给你们打下来了,无需998,无需298,每月20美刀,三妻四妾领回家…

【3】通义千问视觉理解模型Qwen-VL升级

阿里云公布多模态大模型研究进展,通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。

相比Qwen-VL,Qwen-VL-Plus和Qwen-VL-Max拥有更强的视觉推理和中文理解能力,整体性能堪比GPT-4V和Gemini Ultra。在MMMU、MathVista等测评中远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V,达到世界最佳水平。

目前Qwen-VL-Plus和Qwen-VL-Max限时免费,用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型API。

【4】谷歌发布AI视频生成模型

谷歌1月23日在预印本平台arXiv发布文本到视频扩散模型Lumiere。Lumiere可以基于用户的自然语言提示、图像+提示生成长达5秒的视频,或者根据用户上传的单个参考图像,生成基于提示词的同风格视频,还允许用户通过自然语言指令生成一致的视频风格。用户可以指定特定区域使Lumiere对图像内容进行动画处理。

论文地址:https://arxiv.org/abs/2401.12945

地址:https://lumiere-video.github.io/

【5】Yann LeCun称生成式模型不适合处理视频

在2024世界经济论坛的一次对话中,Meta首席AI科学家杨立昆(Yann LeCun)提到生成式模型不适合处理视频的观点。当主持人问如何让机器理解视频时,杨立昆称,目前最有希望的是图像识别,并不是生成式的。最有效的模型不是图像生成模型,不是重建,也不是直接预测。它做的是在一个抽象的表征空间中进行预测……我们需要在抽象表征空间中预测,而不是具体的像素空间。这就是为什么像素空间的预测都失败了,因为它太复杂了。

【陌小北解读】 按照杨立昆的观点,这就是,一只公鸡要下蛋,不是他的活他要干…

【6】谷歌云与Hugging Face建立战略合作伙伴关系

谷歌云与Hugging Face宣布双方建立战略合作伙伴关系。双方将在开放科学、开源、云和硬件方面进行合作,以便公司能够利用Hugging Face最新开放模型和谷歌云最新的云和硬件功能构建自己的AI。

【陌小北解读】 借用一句赵本山老师的名言:这个世界太疯狂,耗子都给猫当伴娘…

【7】腾讯文档智能助手开启公测

腾讯文档智能助手正式开启公测,全面应用于Word、Excel、PPT、PDF、智能文档、收集表、思维导图等文档类型。腾讯文档AI能力的升级涵盖了文本内容秒级处理、函数公式运算应用、表格数据精准呈现、PPT快速生成美化、收集结果自动分析、思维导图一键生成等多项能力,并支持跨品类文档内容畅通流转。即日起,智能助手将面向全体用户陆续开放体验。

创业 & 投融资

【1】ElevenLabs 最新融资 8000 万美元,跻身独角兽行列

AI语音合成初创企业 ElevenLabs 已获得 8000 万美元投资,估值达到 10 亿美元。其生成的合成声音自然度在市场内处于领先地位。 ElevenLabs 提供多种免费和付费 AI 服务方案,去年 1 月推出第一个产品作为 Beta 测试版,随后新增了商业合作伙伴关系和新产品。除可根据几分钟的音频样本克隆任意语音外,ElevenLabs 还包含一个拥有各种口音、发音方式和国籍的语音库。

【2】Pika联手北大斯坦福开源文生图框架

Pika在社交平台X上宣布,Pika实验室与北京大学和斯坦福大学推出开源最新文本到图像生成、编辑框架RPG-DiffusionMaster,RPG在上下文理解、组合语义对齐、多轮对话理解等方面有显著改进。

产品 & 模型

【1】哄哄模拟器爆火24小时用户达70万

一款名为“哄哄模拟器”的AI应用昨日爆火,24小时达成70万用户、烧完10亿tokens。该应用设定用户要想方设法哄好自己的虚拟女友/男友,以获取其原谅,模型会给用户能获得的原谅值打分。该应用已经风靡QQ群和QQ空间,被网友总结出各种花式哄人套路。开发者王登科自述做该应用的起因是自己和女朋友的一次争吵,他把女朋友想象成头顶一个怒气值进度条的机器人,不同的回复会让怒气值产生变化。

【陌小北解读】 为激发程序员的创作灵感,强烈建议公司增加福利:为广大单身程序员派发男/女朋友。不过再一想也不用了,OpenAI那边已经女朋友开会了,果然科技是第一生产力。

【2】Stability Al发布Stable LM21.6B模型

Stability AI发布一款拥有16亿个参数的小语言模型和指令调优版本。该基础模型基于英语、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语的多语言数据集在约2万亿个Tokens上进行了2个epochs的训练,利用了语言模型中最近的算法进步,在速度和性能之间取得了有利的平衡。Stable LM 2 1.6B在多数基准测试中的表现优于其他参数不超过2B的小型语言模型,包括微软Phi-2(2.7B)、TinyLlama 1.1B、Falcon 1B。根据MT Bench的结果,Stable LM 2 1.6B显示出媲美甚至超越更大模型的性能。

Hugging Face地址:https://huggingface.co/spaces/stabilityai/stablelm-2-1_6b-zephyr

【3】夸克上线大模型新产品AI PPT

夸克App推出全新产品“AI PPT”。用户仅需输入PPT主题,就能在几十秒内生成一份精美专业的PPT文档。“AI PPT”可根据用户输入的主题或按照内容分类生成PPT模板,并可根据用户提供的主题生成平均页数在25页以上的智能大纲,还能够在每页中在线调整结构、文字、图片。

【4】AI创作工具animix上线

开域集团自主开发的AI创作工具animix正式上线。animix是一款个性化的AI图片生成器,可根据用户本身形象定制化建模生成数字分身,并随意生图。该产品具有上手门槛低、独创性强、风格特效多样、超逼真角色还原、场景自定义生成、秒级出图等特点,让普通用户能“傻瓜式”地创建卡通形象,生成漫画、海报、梗图、头像等。每位玩家上传5~9张自拍照,即可快速创建自己的数字人物分身,并基于此分身创造出各种令人惊艳的动漫风格头像。

【5】其他有趣的产品&研究

  • OpenAOE 是一款开源的大语言模型群聊框架,它支持同时与多个大语言模型对话,并提供串行和并行两种对话模式:https://juejin.cn/post/7328213780311457832
  • Booking.com 推出AI旅行规划师:https://globetrender.com/?p=60564
  • QDAIF:通过AI反馈实现高质量多样性的创造性文本生成变革:https://hackernoon.com/revolutionizing-creative-text-generation-with-quality-diversity-through-ai-feedback?source=rss
  • You.com 发布了新的“AI 模式”,可以解决复杂的、多步骤的问题:https://venturebeat.com/ai/another-search-breakthrough-you-com-debuts-ai-that-can-answer-multi-step-questions/
  • Mashvisor 是一个帮助你做出更好投资决策的房产投资工具:https://mashable.com/deals/jan-25-mashvisor-real-estate-investment-tool
  • SnapLogic GenAI Builder是一款无需代码的应用程序开发工具,允许组织将GenAI掌握在自己手中,并使用大型语言模型(LLM)功能构建无限、安全的应用程序:https://www.snaplogic.com/?p=47749

如果觉得不错,随手点个赞、评论、转发吧。我是陌小北,一个正在研究硅基生命的、有趣的碳基生命。如果你想第一时间看到我的文章,欢迎关注。

你可能感兴趣的:(AI,人工智能,gpt,chatgpt)