The Ubuntu Dialogue Corpus- A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems
ubuntu对话语料库训练数据由:1,000,000个例子组成,50%positive(label1)50%negative(label0)。每个example由一个文本,这里有对话,一个表达和一个与之对应的回答,和一个negativelabel意味着这个表达不正确--这个negativelabel是从语料库中随机选取的。这里有一些数据的例子这个数据集有test和validationssets。从