LLMs:LLMs大语言模型评估的简介(两标+六性+九维,大模型排行榜多种),两类基准—通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【Super
LLMs:LLMs大语言模型评估的简介(两标(NLUGR指标/REBT)+六性(理解性+生成性{PPL}+多样性+泛化性+能耗性+可解释性)+九维(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】),大模型排行榜多种),两类基准——通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/ChatbotArena】、多任务【Sup