On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
自动驾驶技术的追求取决于感知、决策和控制系统的复杂集成。传统方法,无论是数据驱动还是基于规则的,都因其无法理解复杂驾驶环境和其他道路用户的意图而受阻。这一点尤其在开发安全可靠的自动驾驶所需的常识推理和细致场景理解方面是一个重要瓶颈。视觉语言模型(VLM)的出现代表了实现完全自动驾驶的新领域。本报告对最新的VLM——\modelnamefull进行了详尽的评估,并探讨了其在自动驾驶场景中理解、推理和