源|学术头条
AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来快速完成内容创作。
“新晋流量”ChatGPT的背后,AIGC是“昙花一现”?还是将引领人工智能进入新的时代?我们将从【技术前瞻】【企业动态】【政策法规】【专家观点】带你快速跟进 AIGC 世界。
通用领域中的大型语言模型(LLMs),如 ChatGPT,在遵循指令和产生类似人类的响应方面取得了显著的成功。然而,此类语言模型并未针对医学领域量身定制,导致答案准确性较差,无法为医学诊断、药物等提供合理的建议。
为了解决这个问题,该研究收集了 700 多种疾病及相应症状所需要的医学测试和推荐的药物,从中产生了 5K 次医患对话。使用这些量身定制的医患对话对 LLMs 进行微调,由此产生的模型具有巨大的潜力来理解患者的需求,提供明智的建议,并在各种医疗相关领域提供有价值的帮助。
论文链接:
https://arxiv.org/abs/2303.14070
从情感分析和命名实体识别到问答,NLP 在金融技术领域的应用广泛而复杂。LLMs 已被证明对各种任务有效。
一项新研究展示了 BloombergGPT,这是一个具有 500 亿参数的语言模型,它在广泛的金融数据上进行了训练。该研究基于 Bloomberg 广泛的数据源构建了一个拥有 3630 亿个令牌的数据集,这可能是迄今为止最大的特定领域数据集,并增加了来自通用数据集的 3450 亿个令牌。
研究在标准 LLM 基准、开放金融基准和一套能准确反映预期用途的内部基准上验证了 BloombergGPT。
结果表明,BloombergGPT 在财经任务上显著优于现有模型,且不会牺牲通用 LLM 基准的性能。
论文链接:
https://arxiv.org/abs/2303.17564
解决具有不同领域和模式的复杂 AI 任务是通向通用人工智能(AGI)的关键一步。虽然有丰富的 AI 模型可用于不同的领域和模式,但它们无法处理复杂的 AI 任务。
考虑到 LLMs 在语言理解、生成、交互和推理方面表现出非凡的能力,该研究提出了 HuggingGPT——一个利用 ChatGPT 等 LLMs 连接机器学习社区(如 HuggingFace)中的各种 AI 模型来完成任务的系统。
具体来说,在收到用户请求时使用 ChatGPT 进行任务规划,根据 HuggingFace 中可用的功能描述选择 AI 模型,用选择的 AI 模型执行每个子任务,并根据执行结果汇总响应。
借助 ChatGPT 强大的语言能力和 HuggingFace 丰富的 AI 模型,HuggingGPT 能够完成众多不同模态和领域的复杂 AI 任务,在语言、视觉、语音等具有挑战性的任务中取得令人瞩目的成果,开辟了一条加速迈向 AGI 的新道路。
论文链接:
https://arxiv.org/abs/2303.17580
“在所有艺术中,对我们来说最重要的是电影。”——弗拉基米尔·列宁
一项新的研究开发了一种自动音频描述(AD)模型,它可以摄取电影并以文本形式输出 AD。由于描述对上下文的依赖性以及可用训练数据的数量有限,因此生成高质量的电影 AD 具有挑战性。通过利用预训练基础模型(如 GPT 和 CLIP),该研究只训练一个映射网络来桥接两个模型以生成视觉条件文本。下图展示了电影 AD 基于泰坦尼克号呈现的结果。
该研究的主要贡献为:
(1)结合了电影剪辑的上下文、之前的剪辑广告以及字幕;
(2)通过在视觉或上下文信息不可用的大规模数据集上进行预训练来解决缺乏训练数据的问题,如没有电影的纯文本广告或没有上下文的视觉字幕数据集;
(3)改进了当前可用的 AD 数据集,通过去除 MAD 数据集中的标签噪声,并添加字符命名信息;
(4)与以前的方法相比,这一模型在电影广告任务上获得了很好的结果。
参考链接:
https://arxiv.org/abs/2303.16899
一项新的研究提出了 ViewRefer,这是一个用于 3D 视觉基础的多视图框架,探索如何从文本和 3D 模态中掌握视图知识。对于文本分支,ViewRefer 利用 GPT 等 LLMs 的多样化语言知识,将单个基础文本扩展为多个几何一致的描述。另一方面,在 3D 模态中,引入了具有交互视图注意力的 transformer 融合模块,以增强对象跨视图的交互。
更重要的是,ViewRefer 采用了一个视觉 transformer 来有效地掌握多模态数据中的视图知识,并从两个角度增强了这一框架:用于更强大文本特征的视图引导注意模块,以及最终预测期间的视图引导评分策略。基于所设计的范例,ViewRefer 在三个基准测试中实现了很好的性能。
参考链接:
https://arxiv.org/abs/2303.16894
ChatGPT 在过去几个月里受到越来越多的关注。虽然已经有很多研究对 ChatGPT 的各个方面进行了评估,但公众仍不清楚其鲁棒性,即对意外输入的性能表现。鲁棒性是负责任的 AI 特别关注的问题,尤其是对于安全关键型应用程序。
该研究从对抗性和 OOD 的角度对 ChatGPT 的鲁棒性进行了全面评估。通过选择几个流行的基础模型作为基线,结果表明,ChatGPT 在大多数对抗性和 OOD 分类和翻译任务上表现出一致性。然而,绝对性能远非完美,这表明对抗性和 OOD 鲁棒性仍然是对基础模型的重大威胁。
参考链接:
https://arxiv.org/abs/2302.12095
3 月 30 日,据外媒报道,当下最火的 AI 作画神器 Midjourney 已暂停免费试用。其公司创始人兼 CEO David Holz 在采访中表示,做出此举的主要原因是新用户的大量涌入。
David Holz 在本周二公布了这项决定,他在社交软件 Discord 上发布消息时,提到了存在 “怪异需求和试用滥用”。但在采访邮件中,Holz 则表示叫停免费服务 “是因为很多人为了回避付费而注册一次性账户”。
但 Holz 之前曾经提到 “滥用”,这让人们不禁怀疑此次叫停也许与 Midjourney 近期生成的一系列病毒式传播图像有关,包括川普被捕和教皇身着时尚夹克的伪造图像,都被部分网民误认为是真实的存在。
参考链接:
https://www.theverge.com/2023/3/30/23662940/deepfake-viral-ai-misinformation-midjourney-stops-free-trials
谷歌将很快为用户提供在其 Workspace 产品中使用机器学习生成文本和图像的方法,这些功能包括在 Google Docs 中使用 AI 生成、总结和集思广益文本的新方法,根据用户的简短要点在 Gmail 中生成完整电子邮件的选项,以及生成图像、音频和视频来说明幻灯片中的演示文稿。同时,谷歌也提供了一个免责声明:“有时 AI 会出错,有时它会用一些不同寻常的东西让你高兴,而且通常情况下,它需要指导。”
参考链接:
https://www.theverge.com/2023/3/14/23639273/google-ai-features-docs-gmail-slides-sheets-workspace
据科创板日报报道,3 月 29 日下午,在 “2023 数字安全与发展高峰论坛” 上,360 集团创始人周鸿祎现场演示了 360 大语言模型在 360 浏览器上的应用 “360 AI”——在浏览器输入问题,其右侧会出现相应的问题及自动回复,这与 ChatGPT 在 Bing 浏览器中的作用类似。
在 360 AI 的回复中,会显示内容来源,这意味着用户可以对生成的信息进行溯源确认。对于一些问题,360 AI 能够予以准确回复,但同时,其生成答案的信息的可信度和准确性上还有不足。在业务发展方面,周鸿祎表示,将推出新一代智能搜索引擎和基于生成式 AI 大模型的 SaaS 化垂直应用。
上周四,非营利组织人工智能与数字政策中心(CAIDP)向美国联邦贸易委员会(FTC)投诉称,GPT-4 “有偏见性,欺骗性,对隐私和公共安全构成风险”。CAIDP 认为,OpenAI 违反了 FTC 对 AI 产品的指导,以及 FTC 法案第 5 条——禁止不公平和欺骗性的商业行为。
CAIDP 敦促 FTC 对 OpenAI 进行调查,并暂停其大型语言模型的商业部署,包括 ChatGPT 的最新版本。
该组织希望,在 OpenAI 部署其产品之前,FTC 能够建立一种独立评估 GPT 产品的方法,并希望 FTC 主动制定规则,为生成式 AI 产品制定标准。
参考链接:
https://arstechnica.com/tech-policy/2023/03/ftc-should-investigate-openai-and-halt-gpt-4-releases-ai-research-group-says/
据路透社消息,意大利个人数据保护局(Garante)于当地时间 3 月 31 日宣布,即日起禁止使用聊天机器人 ChatGPT,并限制 OpenAl 处理意大利用户信息。
Garante 表示,OpenAl “必须在 20 天内通过其在欧洲的代表向他们通报公司执行这一要求而采取的措施”,否则将被处以最高 2 千万欧元或公司全球年营业额 4% 的罚款。
做出这一限令的原因在于,Garante 认为 OpenAI 没有检查 ChatGPT 用户的年龄(这些用户应该在 13 岁或以上),而且没有就收集处理用户信息进行告知,缺乏大量收集和存储个人信息的法律依据。(点击查看详情)
参考链接:
https://www.reuters.com/technology/italy-data-protection-agency-opens-chatgpt-probe-privacy-concerns-2023-03-31/
在 3 月 31 日举行的沪港创新发展论坛上,科大讯飞集团总裁吴晓如表示,以 ChatGPT 为代表的技术表明机器在自然语言的处理能力上已实现质的飞跃,应该看到和 OpenAI 的差距并迎头追上。科大讯飞已储备了一段时间,很快会发布自己的大模型技术。
上周,包括马斯克在内的一千多名技术领袖和研究人员敦促 AI 实验室暂停最先进系统的开发,并在一封公开信中警告称,AI 工具 “对社会和人类构成深远风险”。公开信中说,暂停将为 AI 系统引入 “共享安全协议” 提供时间。“只有当我们确信它们的影响将是积极的、且它们的风险将是可控的时候”,才应该推进强大的 AI 系统的开发……如果这样的暂停不能迅速实施,政府应该介入并暂停。”
这封信并非呼吁暂停所有 AI 开发,而是敦促各公司暂时停止训练比 GPT-4 更强大的系统。不过,OpenAI 的管理人员称,他们还没有开始训练 GPT-5。OpenAI 首席执行官 Sam Altman 在接受采访时也表示,公司在进行开发工作时始终将安全作为重点,并在 GPT-4 发布前花了 6 个多月的时间对其进行安全测试。
参考链接:
https://www.nytimes.com/2023/03/29/technology/ai-artificial-intelligence-musk-risks.html
近日,千人联名要求 “暂停巨型 AI 实验”。然而,一些 AI 大神也发文公开反对。
吴恩达:暂停研究比 GPT-4 更强大的 AI 模型是一个可怕的想法。GPT-4 在教育、医疗、食品等方面有很多新的应用,这将帮助许多人。改进 GPT-4 将有所帮助。我们需要平衡人工智能正在创造的巨大价值与现实的风险。
田渊栋:我不签暂停令,AI 的发展就如同囚徒困境。一旦开始,就没有办法停止或扭转这一趋势,这就是进化的必然。应该换个角度继续向前看,更好地理解 LLMs,适应它并利用其力量,感受热度。
Yi Tay:如果是把那些在网上胡乱讨论 LLMs 的人禁言 6 个月,我会签的。
Sam Altman:一个好的 AGI 应该具备三个特点,即对齐超级智能的技术能力、大多数领先 AGI 之间的充分协调和一个有效的全球监管框架。
参考链接:
https://twitter.com/2020science/status/1641123382115864576
近日,朱嘉明表示,元宇宙目前存在两个技术困难:一是元宇宙在处理大规模、非结构数据上的能力是薄弱的,二是元宇宙以前的技术体系不能完成碳基人类向硅基人类转型,因为碳基人类是没有办法元宇宙化的。
如今,这两个问题靠 AIGC 可以解决。AIGC 可以处理不同形态的信息,如文本、图画、音乐、视频等,大大降低元宇宙技术体系的成本,提高技术质量。同时,AICG 也将赋能大量数字人迁移到元宇宙之中,激活元宇宙生态。
参考链接:
https://www.chinastarmarket.cn/detail/1308998
中信建投研报指出,云计算作为数字经济和数字中国的基石,有望依托政策支撑,迎来行业景气度的新一轮提升,同时以 ChatGPT 为代表的 AI 应用发展前景广阔,AI 大模型在训练和推理过程中均需要海量算力支撑,有望作为驱动新一轮云计算基础设施景气周期开启的重要引爆点,建议加大布局云基础设施产业链。
参考链接:
https://www.chinastarmarket.cn/detail/1308519
加入卖萌屋NLP、CV、搜推广与求职讨论群