Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint Attention
摘要共同注意是儿童早期语言发展的关键组成部分,也是亲子互动有效性的重要指标。然而,目前对共同注意的检测和分析研究仍然有限,尤其是在多模态大语言模型(MLLMs)方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频,评估了多模态大语言模型理解共同注意的能力。这些标注识别出了共同注意程度高和低的片段,作为评估模型解释能力的基准。我们的研究结果显示,由于当前的多模态大语言模型对儿童发起的眼神交