行业动态
1、对标GPTs,微软连夜发布100多项更新!微软CEO:Copilot时代来了
2、英伟达联手微软推出AI代工服务
3、全新雅虎搜索将于 2024 年上线,未来还会推出更多 AI 和高级功能
4、Instagram 推出定制 AI 贴纸和滤镜功能,强化创作者体验
5、OPPO正式推出自主训练大模型AndesGPT
6、原阿里首席 AI 科学家贾扬清再发声:开源领域“魔改”要不得
7、滴滴组建大模型团队,将落地部分个人出行和企业差旅场景
8、小米 Vela 开源系统正式发布:8KB 内存就能跑,支持端侧 AI 大模型
9、金山办公昨日宣布,WPS AI 开启公测,面向全体用户陆续开放体验。
10、人人都有专属数字家庭医生 浙江数字健康人“安诊儿”来了
技术发展
DeepMind的Mirasol3B模型:
- 更有效地理解和分析视频中发生的事情,即使视频很长。
- 独特的多媒体处理:同步和非同步文本分析。
- 视听与文本关系理解:提高长视频分析效率。
Meta AI的Emu Video和Emu Edit:
- Emu Video:文本到视频的生成,高质量视频制作。
- Emu Edit:图像编辑的指令驱动模型,精确像素修改。
- 技术创新:两个扩散模型生成高分辨率视频。
当地时间11月16日,Meta于官网发布文生视频模型Emu Video和图像编辑模型Emu Edit。
据介绍,Emu Video可以通过自然语言生成高质量视频,它将视频生成分为两个步骤,首先生成以文本为条件的图像,然后生成以文本和生成的图像为条件的视频。Emu Edit是一个多任务图像编辑模型,可以通过自然语言对图像进行编辑。在训练中,团队将区域编辑、自由格式编辑和计算机视觉任务等均制定为生成任务,并为其提供了学习任务嵌入。
screenshot-to-code项目:
- GPT-4V驱动:将屏幕截图转化为HTML网页。
微软的Deepfakes Creator:
- 仅需文本输入就可生成逼真的会说话的真人视频
- 支持多种语言,还可进行实时问答互动
Deepmind与YouTube的Lyria音乐生成模型:
- 只要哼唱或者吹口哨就能帮你自动生成交响乐
- 歌词创作和风格控制:艺术家风格模仿。
- 特色:生成音频带AI水印。
谷歌DeepMind宣布与YouTube合作推出AI音乐生成大模型Lyria,并基于该模型推出两个功能:Dream Track、Music AI。Dream Track可以自动生成模仿某音乐人声音、风格音乐,用户只需输入文字提示,选择需要模仿的音乐人,便可以自动生成包含歌词的30秒音乐。
Music AI可以将用户哼唱的旋律变成完整的曲目,创建乐器和声乐伴奏等。此外,基于Lyria模型发布的任何内容都将带有Synth ID水印。
GPTs Store界面曝光:GTPs导航站可能会被取代?
- 精选GPT:展示本周精选GPTs。
- 热门GPT:社区中受欢迎的GPTs。
- 特色和趋势:当前列表为空
Meshy-1:3D模型生成AI工具:
- 多样输入:文本和图像到3D模型转换。
- 风格多样:现实、动漫、卡通等风格选择。
- 格式支持:多种文件格式,包括Unity插件。
- 高清纹理:提供4K分辨率PBR纹理。
今日感受
1.魔改开源大模型,以零一修改张量名字为典型案例,开始被开源社区、大厂抵制。这将导致社会资源的大量浪费和损失。
2.多模态AI时代就要来了。
单模态AI的能力是有限的,比如只能通过文本或者图像来理解或者输出内容。如今,单模态数据在实际应用中存在局限性,需要采用多模态 AI。
举个例子,一辆只有摄像头系统的自动驾驶汽车很难在弱光下识别行人。如果加上激光雷达、雷达和 GPS 就可以完美解决这些问题,可以为车辆提供更全面的周围环境图像,从而使驾驶更安全、更可靠。
和自动驾驶一样典型的案例,就是医疗。我们都知道,中医有“望闻问切”,西医讲究“视触叩听”,异曲同工,并且是典型的多模态应用。
多模态才更符合人类的真实世界。