CNTK is a general solution for training and testing many kinds of neural networks.
我们定义一个单词为 w (以后见到w就当做某一个特定的单词理解),单词 w1 出现在 w0 后面的概率为 P(w1|w0) 。而 w2 出现在 w1 后面的概率为 P(w2|w1) 。
在此基础上,我们则可知 P(w2|w0,w1)=P(w1|w0)∗P(w2|w1) 。上述公式可以理解为,假定给出一个单词 w0 ,下一个单词为 w1 的概率为 P(w1|w0) ,同时 w1 紧接着又出现 w2 的概率则应该是在此基础上乘 P(w2|w1) 的结果。
上述中,我们定义了 w 来表述单词,但是单词仍然是一个word,在计算机中就是一长串的内存,没有数学意义(也许有,字符’A’小于字符’C’,这是从ASCII角度体现的,但是不解决整个句子的语义关系)。如何将一个单词进行数学方式的表述才能参与到语言的处理过程中?
首先我们先解决如何用数学的方式标示不同的单词,方法很多种,举个最简单的方法(其实也是一个很有效也是很常用的方法)。我们可以给每个单词编一个号,整数类型的。例如 0 代表Hello, 1 代表World,如此这样为所有的单词进行编码。这样我们就将单词引导到了数字的表述层面上,同时也解决了不同单词编码重复的问题。
仍然是举个例子,我们在生活中会遇到两个相对的词,例如,King 与 Queen, 假设有一个问题问到,仿造King对应Queen的模式,Man对应什么?,我们会轻易的回答出是woman,但是如何思考出来的?
我们通过将King、Queen以及Man的词向量带入,则可以计算出 w⃗ 3 ,然后查找w_3对应的词向量表,既可获得类似于woman的答案。
之前在介绍CNTK的时候有简单的介绍过神经网络,但是神经网络如何同语言模型相对应?我们依旧先引入一张网上已经传遍了的图片,来自《A Neural Probabilistic Language Model》。详细的论文可以通过bing搜索后下载。
####################################### # PREPARATION CONFIG # #######################################
writeWordAndClassInfo = [
action = "writeWordAndClass"
inputFile = "$DataDir$/$trainFile$"
beginSequence = "</s>"
endSequence = "</s>"
outputVocabFile = "$ModelDir$/vocab.txt"
outputWord2Cls = "$ModelDir$/word2cls.txt"
outputCls2Index = "$ModelDir$/cls2idx.txt"
vocabSize = "$confVocabSize$"
nbrClass = "$confClassSize$"
cutoff = 0
printValues = true
1. inputFile:用于指明用于生成wordClass的输入文件,就是样本
2. outputVocabFile:输出Vocab文件的位置,该文件包含4列,与LMSequenceReader中要求的wordClass参数要求的文件相对应,第一列是单词的id,第二列是该单词出现的次数,第三列是该单词本身,第四列是该单词的分类
3. outputWord2Cls:输出单词与类型的映射文件的位置
4. outputCls2Index:输出类型到单词ID的映射文件的位置
5. vocabSize:期待的词汇量大小
6. nbrClass:期待的分类数量
7. cutoff:当某一个单词出现的次数太少后将当做<unk>
1. randomize:用于指明是否随机的去读取样本
2. nbruttsineachrecurrentiter:用于指定每个minibatch中句子输的限制?
3. unk:用于指定一个符号,标明这个单词将会被忽略,被忽略的单词也将被映射到这个符号上。
4. wordclass:用于指定word class信息(也就是我们在预处理环节中生成的outputVocabFile 文件)
5. file:用于输入的样本文件
6. labelIn:这是一个配置块,包含三个参数,首先是beginSequence用于指定句子起始的符号,其次是endSequence用于指定句子的结束符号,而最后的labelDim用于指定维度,一般是句子中平均包含的单词数。
CNTK在PennTreebank示例中使用的是预定义的Class-based long short-termmemory网络模型,在SimpleNetworkBuilder中通过指定rnnType来指定,
SimpleNetworkBuilder = [
rnnType = "CLASSLSTM" # TODO: camelCase
recurrentLayer = 1 # number of recurrent layers
trainingCriterion = "classCrossEntropyWithSoftmax"
evalCriterion = "classCrossEntropyWithSoftmax"
initValueScale = 6.0
uniformInit = true
layerSizes = "$confVocabSize$:150:200:10000"
defaultHiddenActivity = 0.1 # default value for hidden states
addPrior = false
addDropoutNodes = false
applyMeanVarNorm = false
lookupTableOrder = 1 # TODO: document what this means
# these are for the class information for class-based language modeling
vocabSize = "$confVocabSize$"
nbrClass = "$confClassSize$"
SGD = [
minibatchSize = 128:256:512
learningRatesPerSample = 0.1
momentumPerMB = 0
gradientClippingWithTruncation = true
clippingThresholdPerSample = 15.0
maxEpochs = 16
numMBsToShowResult = 100
gradUpdateType = "none"
loadBestModel = true
dropoutRate = 0.0
#traceNodeNamesReal = AutoName37 # this allows to track a node's value
# settings for Auto Adjust Learning Rate
AutoAdjust = [
autoAdjustLR = "adjustAfterEpoch"
reduceLearnRateIfImproveLessThan = 0.001
continueReduce = false
increaseLearnRateIfImproveMoreThan = 1000000000
learnRateDecreaseFactor = 0.5
learnRateIncreaseFactor = 1.382
numMiniBatch4LRSearch = 100
numPrevLearnRates = 5
numBestSearchEpoch = 1
action = "write"
outputPath = "$OutputDir$/Write"
#outputPath = "-" # "-" will write to stdout; useful for debugging
outputNodeNames = TrainNodeClassBasedCrossEntropy # when processing one sentence per minibatch, this is the sentence posterior
format = [
sequencePrologue = "log P(W)=" # (using this to demonstrate some formatting strings)
type = "real"
# Parameters can be overwritten on the command line
# for example: cntk configFile=myConfigFile RootDir=../..
# For running from Visual Studio add
# currentDirectory=$(SolutionDir)/<path to corresponding data folder>
RootDir = ".."
ConfigDir = "$RootDir$/Config"
DataDir = "$RootDir$/Data"
OutputDir = "$RootDir$/Output"
ModelDir = "$OutputDir$/Models"
# deviceId=-1 for CPU, >=0 for GPU devices, "auto" chooses the best GPU, or CPU if no usable GPU is available
deviceId = "auto"
command = writeWordAndClassInfo:train:test:write
precision = "float"
traceLevel = 1
modelPath = "$ModelDir$/rnn.dnn"
# uncomment the following line to write logs to a file
numCPUThreads = 1
confVocabSize = 10000
confClassSize = 50
trainFile = "ptb.train.txt"
validFile = "ptb.valid.txt"
testFile = "ptb.test.txt"
cntk.exe configFile=rnn.cntk
