损失函数(loss):预测值y 与已知答案y_的差距:
NN优化目标:loss最小;1.mse(均方误差) 2自定义 3.ce(Cross Entropy)
均方误差mse:loss_mse = tf.reduce_mean(tf.aquare(y_-y))
学习率:设置合适的学习率很重要(固定的学习率)
定义指数下降学习率:学习率随着训练轮数变化而动态更新
Tensorflow 的函数表示为:global_step=tf.Variable(0,trainable=False)global_step 记录了当前训练轮数,为不可训练型参数。
learning_rate=tf.train.exponential_decay(LEARNING_RATE_BASE,global_step,LEARNING_RATE_STEP,LEARNING_RATE_DECAY,staircase=True/False)其中,
LEARNING_RATE_BASE 为学习率初始值,LEARNING_RATE_DECAY 为学习率衰减率,学习率 learning_rate 更新频率为输入数据集总样本数除以每次喂入样本数。若 staircase 设置为 True 时,表示 global_step/learning rate step 取整数,学习率阶梯型衰减;若 staircase 设置为 false 时,学习率会是一条平滑下降的曲线。
滑动平均:记录每个参数一段时间内过往值得平均,增加了模型的泛化能力。针对所有参数:w,b(像是给了参数加了影子,参数变化,影子缓慢的追随)
影子=衰减率*影子 + (1-衰减率)*参数 影子的初值=参数的初值
tensorflow中的实现:ema= tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY,global_step)
MOVING_AVERAGE_DECAY 值需要自己设置 global_step和上面的学习率中的设置一样
ema_op = ema.apply(tf.trainable_variables()) 对所有的待优化的参数求滑动平均
with tf.control_dependencies([train_step,ema_op]):trian_op=tf.no_op(name='train' ema.average(参数的名字)参看某参数的滑动平均值
正则化缓解过拟合:
正则化在损失函数中引入函数的复杂化指标,利用给W加权值,弱化训练数据的噪声
loss = loss(y和y_)+REGULARIZER*loss(w) 其中loss 值得是所有交叉熵的损失函数 REG指的是超参数一般是指W在总loss的比例,及正则化的权重 w 需要正则化的参数
两种正则化的函数:loss(w) = tf.contrib.layers.l1_regularizer(REGULARIZER)(W)
loss(w) = tf.contrib.layers.l2_regularizer(REGULARIZER)(W)
tf.add_to_collection('losses',tf.contrib.layers.l2_regularizer(regularizer))(w) 把内容添加到对应的位置做加法
loss = cem + tf.add_n(tf.get_collection('losses'))(例子里面只是用这一行)
第五讲:全链接网络的实现。
tensorflow 中的函数
np.save("名.npy",某数组) 某变量名字=np.load("名.npy",encoding="").item() encoding可以不写默认为ASCII
.item() #表示遍历(键值对) tf.nn.bias_add(乘加和,bias)把bias加到乘加和上面
tf.reshape(tensor,[-1,m列]) -1表示跟随m列自动计算 np.argsort(列表) 队列表从小到大排序,并且返回索引值
tf.split(切谁,怎么切,在那个维度切) img = Io.imread(图片的路径):读入图片
np.asarry 和np.array都是对数组进行复制 当是元组的时候两者一个是改变复制 另一个直接复制不会改变