ThinkSound:阿里开源首个“会思考”的音频生成模型——从“看图配音”到“听懂画面”的技术跃迁
1.为什么「看懂」还不够,AI必须「听懂」画面?过去两年,视频生成模型把画面做到了4K60fps,音频却仍是“罐头音效”:狗叫永远是同一段WAV,飞机轰鸣与镜头距离无关,雨点落在铁皮和草地声音毫无区别。根本原因在于——模型并不理解“为什么这个物体在这个场景会发出这样的声音”,只能做粗糙的“像素→波形”映射。阿里巴巴通义实验室在2025-07-20开源的ThinkSound,第一次把CoT(Chai