ELMo ,LM:一串词序列的概率分布probability distribution over sequences of words
语言模型(LanguageModel),语言模型简单来说就是一串词序列的概率分布。Languagemodelisaprobabilitydistributionoversequencesofwords.GPT与ELMo当成特征的做法不同,OpenAIGPT不需要再重新对任务构建新的模型结构,而是直接在transformer这个语言模型上的最后一层接上softmax作为任务输出层,然后再对这整个模型