zxfhahaha

【论文阅读笔记】darts代码和论文结合阅读

DARTS: DIFFERENTIABLE ARCHITECTURE SEARCH

introduction
differentiable architecture search
- 2.1 search space
- - model_search.py Class Cell
- 2.2 continuous relaxation and optimization
- - model_search.py Class MixedOp
- 2.3 approximate architecture gradient
- - train_search.py def train
  - 公式6到公式7的推导
  - 公式7到公式8的推导
  - architect.py
- 2.4 deriving discrete architectures
- - model_search.py class Network def genotype
experiments and results
- 3.1 architecture search
- - model_search.py class Network
  - train_search.py
  - utils.py
- 3.2 architecture evaluation
- - train.py
  - model.py
conclusion

参考：https://zhuanlan.zhihu.com/p/73037439
注意：本篇都是分析的CNN部分，没有对RNN部分解读。
本篇文章主要通过代码对论文进行解读，darts就是对构成网络的cell的结构进行自动搜索，然后再将搜索到的cell 连接成一个网络。

introduction

differentiable architecture search

2.1 search space

darts如何对一个cell进行搜索的呢，我们通过下图figure 1了解darts的基本思想：
(a)这些灰色的小方块都是一个cell内的nodes，我们需要通过一些操作（如池化、卷积）把这些nodes连起来
(b)原本一个个操作都是离散的，我们为了实现可微分的搜索，也就是为了使搜索空间连续，我们将特定操作的确定的选择放宽到所有可能操作上的softmax，也就是我们给两个block之间的全部操作都赋予权重。假设我们有三个操作，我们把每个节点都通过上述方法和它所有的前驱节点相连，就得到了下图(b)
©然后我们就通过梯度下降对权重进行优化，最后对每个节点取argmax也就是哪个操作的α值最大，就选这个操作。
(d)选了最大的α后的操作后，我们就得到了(d)的路径

具体的在CIFAR-10定义网络结构我们可以看下图：

一个Network是由8个cell组成的，cell分为reduction cell 和normal cell两种，在网络的三分之一处和三分之二处是reduction cell，其它是normal cell。reduction cell共享权重 $\alpha_{redution}$ ，normal cell共享权重 $\alpha_{normal}$ 。
一个cell由7个nodes组成，分别是2个input nodes，4个intermediate nodes和1个output nodes。

input nodes：是前两层cell的输出，input node 0是cell k-2的输出，input node 1 是cell k-1的输出
intermediate nodes：和它所有的前驱节点相连，具体看下面的公式
对于节点 $x^{(j)}$ ，通过操作o和它所有的前驱节点i相连，那么如何对操作o进行continuous relaxation，具体看2.2节
output nodes：四个中间节点intermediate nodes concat，这个concat是对通道concat的，也就是原来输入的通道是C，输出以后变成了4C

model_search.py Class Cell

具体Cell是怎么定义的我们通过代码来看

class Cell(nn.Module):

  def __init__(self, steps, multiplier, C_prev_prev, C_prev, C, reduction, reduction_prev):
    super(Cell, self).__init__()
    self.reduction = reduction
    #input nodes的结构固定不变，不参与搜索
    #决定第一个input nodes的结构，取决于前一个cell是否是reduction
    if reduction_prev:
      self.preprocess0 = FactorizedReduce(C_prev_prev, C, affine=False)
    else:
      self.preprocess0 = ReLUConvBN(C_prev_prev, C, 1, 1, 0, affine=False)#第一个input_nodes是cell k-2的输出，cell k-2的输出通道数为C_prev_prev，所以这里操作的输入通道数为C_prev_prev
    #第二个input nodes的结构
    self.preprocess1 = ReLUConvBN(C_prev, C, 1, 1, 0, affine=False)#第二个input_nodes是cell k-1的输出
    self._steps = steps # 每个cell中有4个节点的连接状态待确定
    self._multiplier = multiplier

    self._ops = nn.ModuleList() # 构建operation的modulelist
    self._bns = nn.ModuleList()
    #遍历4个intermediate nodes构建混合操作
    for i in range(self._steps):
      #遍历当前结点i的所有前驱节点
      for j in range(2+i): #对第i个节点来说，他有j个前驱节点（每个节点的input都由前两个cell的输出和当前cell的前面的节点组成）
        stride = 2 if reduction and j < 2 else 1
        op = MixedOp(C, stride) #op是构建两个节点之间的混合
        self._ops.append(op)#所有边的混合操作添加到ops，list的len为2+3+4+5=14[[],[],...,[]]


  #cell中的计算过程，前向传播时自动调用
  def forward(self, s0, s1, weights):
    s0 = self.preprocess0(s0)
    s1 = self.preprocess1(s1)

    states = [s0, s1] #当前节点的前驱节点
    offset = 0
    #遍历每个intermediate nodes，得到每个节点的output
    for i in range(self._steps):
      s = sum(self._ops[offset+j](h, weights[offset+j]) for j, h in enumerate(states))  #s为当前节点i的output，在ops找到i对应的操作，然后对i的所有前驱节点做相应的操作（调用了MixedOp的forward），然后把结果相加
      offset += len(states)
      states.append(s)#把当前节点i的output作为下一个节点的输入
      #states中为[s0,s1,b1,b2,b3,b4] b1,b2,b3,b4分别是四个intermediate output的输出
    return torch.cat(states[-self._multiplier:], dim=1)#对intermediate的output进行concat作为当前cell的输出
                                                       #dim=1是指对通道这个维度concat，所以输出的通道数变成原来的4倍

2.2 continuous relaxation and optimization

为了使搜索空间连续，我们为每个操作都赋予一个权重 $\alpha$ ，然后做softmax。这样搜索任务就简化为学习权重 $\alpha$

搜索完成后，我们通过argmax选权重最大的操作，这样就又得到了离散的结构，具体如下：
$o^{(i,j)=argmax_{o∈O}\alpha_0^{(i,j)}}$
argmax(f(x))是使得 f(x)取得最大值所对应的变量点x(或x的集合)，
也就是哪个操作对应的alpha取值最大，就取哪个操作.

model_search.py Class MixedOp

具体操作是如何混合的我们通过代码来看

class MixedOp(nn.Module):

  def __init__(self, C, stride):
    super(MixedOp, self).__init__()
    self._ops = nn.ModuleList()
    for primitive in PRIMITIVES:  #PRIMITIVES中就是8个操作
      op = OPS[primitive](C, stride, False)#OPS中存储了各种操作的函数
      if 'pool' in primitive:
        op = nn.Sequential(op, nn.BatchNorm2d(C, affine=False)) #给池化操作后面加一个batchnormalization
      self._ops.append(op)#把这些op都放在预先定义好的modulelist里

  def forward(self, x, weights):
    return sum(w * op(x) for w, op in zip(weights, self._ops))  #op(x)就是对输入x做一个相应的操作 w1*op1(x)+w2*op2(x)+...+w8*op8(x)
                                                                #也就是对输入x做8个操作并乘以相应的权重，把结果加起来

After relaxation, our goal is to jointly learn the architecture α and the weights w within all the mixed operations (e.g. weights of the convolution ﬁlters). Analogous to architecture search using RL or evolution where the validation set performance is treated as the reward or ﬁtness, DARTS aims to optimize the validation loss, but using gradient descent.

在对操作relaxation之后，我们就要对 $\alpha$ 和w进行学习，Darts是通过梯度下降优化validation loss来学习权重的。

Denote by $L_{train}$ and $L_{val}$ the training and the validation loss, respectively. Both losses are determined not only by the architecture α, but also the weights w in the network.
The goal for architecture search is to ﬁnd $α^∗$ that minimizes the validation loss $L_{val}(w^∗ , α^∗ )$ , where the weights $w^∗$ associated with the architecture are obtained by minimizing the training loss $w^∗$ = $argmin_wL_{train}(w, α^∗ )$ .
This implies a bilevel optimization problem with α as the upper-level variable and w as the lower-level variable:

architecture search的目标就是通过最小化验证集的loss $L_{val}(w^∗ , α^∗ )$ 得到α，而 $w^*$ 又是通过最小化训练集loss得到的 $w^∗$ = $argmin_wL_{train}(w, α^∗ )$ 。因此我们得到了如下的bilevel 公式：

2.3 approximate architecture gradient

本小节主要是在公式(3)和公式(4)的基础上做一个改进，首先作者提出了一个approximation scheme如下：

where w denotes the current weights maintained by the algorithm, and ξ is the learning rate for a step of inner optimization.
The idea is to approximate $w ^∗(α)$ by adapting w using only a single training step, without solving the inner optimization (equation 4) completely by training until convergence.

我们用 $ξ\bigtriangledown _w L_{train} (w, α)$ 来近似 $w ^∗(α)$ ，这样只对w用了一次single training step，也就是达到了一步优化的效果，就不需要先对公式4进行优化，等收敛了再求α。

具体的伪代码如下：
也就是我们通过公式六对α值进行更新(对应代码中的architect.py)，然后再对网络的w进行更新。
伪代码中的两步详情见train_search.py中的train函数，

第一步对应architect.step(input, target, input_search, target_search, lr, optimizer, unrolled=args.unrolled)
我们可以看到input_search和target search都是从valid_queue中拿出来的一个batch，也就对应了论文中说的用验证集对α进行更新
第二步对应logits = model(input)、loss = criterion(logits, target)、loss.backward()
这里的input是训练集，因为w都是网络中定义的，loss.backward()就已经设计好了对网络的w进行更新

train_search.py def train

def train(train_queue, valid_queue, model, architect, criterion, optimizer, lr):
  objs = utils.AvgrageMeter() # 用于保存loss的值
  top1 = utils.AvgrageMeter() # 前1预测正确的概率
  top5 = utils.AvgrageMeter() # 前5预测正确的概率

  for step, (input, target) in enumerate(train_queue): #每个step取出一个batch，batchsize是64（256个数据对）
    model.train()
    n = input.size(0)

    input = Variable(input, requires_grad=False).cuda()
    target = Variable(target, requires_grad=False).cuda(async=True)

    # get a random minibatch from the search queue with replacement
    input_search, target_search = next(iter(valid_queue)) #用于架构参数更新的一个batch 。使用iter(dataloader)返回的是一个迭代器，然后可以使用next访问；
    input_search = Variable(input_search, requires_grad=False).cuda()
    target_search = Variable(target_search, requires_grad=False).cuda(async=True)
	
	#对α进行更新，对应伪代码的第一步，也就是用公式6
    architect.step(input, target, input_search, target_search, lr, optimizer, unrolled=args.unrolled)
	#对w进行更新，对应伪代码的第二步
    optimizer.zero_grad()#清除之前学到的梯度的参数
    logits = model(input)
    loss = criterion(logits, target) #预测值logits和真实值target的loss

    loss.backward()#反向传播，计算梯度
    nn.utils.clip_grad_norm(model.parameters(), args.grad_clip)#梯度裁剪
    optimizer.step() #应用梯度

    prec1, prec5 = utils.accuracy(logits, target, topk=(1, 5))
    objs.update(loss.data[0], n)
    top1.update(prec1.data[0], n)
    top5.update(prec5.data[0], n)

    if step % args.report_freq == 0:
      logging.info('train %03d %e %f %f', step, objs.avg, top1.avg, top5.avg)

  return top1.avg, objs.avg

We also note that when momentum is enabled for weight optimisation, the one-step unrolled learning objective in equation 6 is modiﬁed accordingly and all of our analysis still applies.
Applying chain rule to the approximate architecture gradient (equation 6) yields.

当应用Momentum时，作者通过链式法则对公式6进行修改，得到公式(7):

其中， $ξ\bigtriangledown _w L_{train} (w, α)$ 。

公式6到公式7的推导

具体怎么通过链式法则把公式六变成公式7的呢，解释如下：

第一行的式子，实际上相当于是一个关于 [公式] 的复合函数求导，我们可以将其形式化记为：

The expression above contains an expensive matrix-vector product in its second term. Fortunately, the complexity can be substantially reduced using the ﬁnite difference approximation.

又因为公式7的第二项包含一个复杂的matrix-vector product，所以我们通过对公式7进行有限差分近似得到公式8：

公式7到公式8的推导

从公式7到公式8主要是用下式，基本的泰勒展开：

我们用hA替换上式的h，得到下式：

再将上面的两个式子相减，得到下式：

然后我们把h换成 $\epsilon$ ，把A换成 $ξ\bigtriangledown _{w'} L_{train} (w', α)$ ，把 $x_0$ 换成w，再把f换成 $ξ\bigtriangledown _{\alpha} L_{train} (·, ·)$ ，就得到公式8了。

architect.py

通过上面的部分我们知道更新 $\alpha$ 是通过architect.step()来调用的，那么这个函数具体是怎么实现的，也就是上面讲的一大堆公式是怎么用的，我们一起来看一下architect.py的内容。

architect.step(input, target, input_search, target_search, lr, optimizer, unrolled=args.unrolled)

train_search.py的architect.step()调用architect.py中的step函数，下面是architect.py的解析：

import torch
import numpy as np
import torch.nn as nn
from torch.autograd import Variable


def _concat(xs):
  return torch.cat([x.view(-1) for x in xs]) #把x先拉成一行，然后把所有的x摞起来，变成n行


class Architect(object):

  def __init__(self, model, args):
    self.network_momentum = args.momentum
    self.network_weight_decay = args.weight_decay
    self.model = model
    self.optimizer = torch.optim.Adam(self.model.arch_parameters(),
        lr=args.arch_learning_rate, betas=(0.5, 0.999), weight_decay=args.arch_weight_decay) #用来更新α的optimizer

      """
    我们更新梯度就是theta = theta + v + weight_decay * theta 
      1.theta就是我们要更新的参数
      2.weight_decay*theta为正则化项用来防止过拟合
      3.v的值我们分带momentum和不带momentum：
        普通的梯度下降：v = -dtheta * lr 其中lr是学习率，dx是目标函数对x的一阶导数
        带momentum的梯度下降：v = lr*(-dtheta + v * momentum)
    """
    #【完全复制外面的Network更新w的过程】，对应公式6第一项的w − ξ*dwLtrain(w, α)
    #不直接用外面的optimizer来进行w的更新，而是自己新建一个unrolled_model展开，主要是因为我们这里的更新不能对Network的w进行更新
  def _compute_unrolled_model(self, input, target, eta, network_optimizer):
    loss = self.model._loss(input, target) #Ltrain
    theta = _concat(self.model.parameters()).data #把参数整理成一行代表一个参数的形式,得到我们要更新的参数theta
    try:
      moment = _concat(network_optimizer.state[v]['momentum_buffer'] for v in self.model.parameters()).mul_(self.network_momentum) #momentum*v,用的就是Network进行w更新的momentum
    except:
      moment = torch.zeros_like(theta) #不加momentum
    dtheta = _concat(torch.autograd.grad(loss, self.model.parameters())).data + self.network_weight_decay*theta #前面的是loss对参数theta求梯度，self.network_weight_decay*theta就是正则项
    #对参数进行更新，等价于optimizer.step()
    unrolled_model = self._construct_model_from_theta(theta.sub(eta, moment+dtheta))  #w − ξ*dwLtrain(w, α) 
                                                                                      
    return unrolled_model



  def step(self, input_train, target_train, input_valid, target_valid, eta, network_optimizer, unrolled):
    self.optimizer.zero_grad()#清除上一步的残余更新参数值
    if unrolled:#用论文的提出的方法
        self._backward_step_unrolled(input_train, target_train, input_valid, target_valid, eta, network_optimizer)
    else: #不用论文提出的bilevel optimization，只是简单的对α求导
        self._backward_step(input_valid, target_valid)
    self.optimizer.step() #应用梯度：根据反向传播得到的梯度进行参数的更新， 这些parameters的梯度是由loss.backward()得到的，optimizer存了这些parameters的指针
                          #因为这个optimizer是针对alpha的优化器，所以他存的都是alpha的参数

  def _backward_step(self, input_valid, target_valid):
    loss = self.model._loss(input_valid, target_valid)
    loss.backward() #反向传播，计算梯度

  
  def _backward_step_unrolled(self, input_train, target_train, input_valid, target_valid, eta, network_optimizer):
    #计算公式六：dαLval(w',α) ，其中w' = w − ξ*dwLtrain(w, α)
    #w'
    unrolled_model = self._compute_unrolled_model(input_train, target_train, eta, network_optimizer)#unrolled_model里的w已经是做了一次更新后的w，也就是得到了w'
    #Lval
    unrolled_loss = unrolled_model._loss(input_valid, target_valid) #对做了一次更新后的w的unrolled_model求验证集的损失，Lval，以用来对α进行更新
    
    unrolled_loss.backward()
    # dαLval(w',α)
    dalpha = [v.grad for v in unrolled_model.arch_parameters()] #对alpha求梯度
    # dw'Lval(w',α)
    vector = [v.grad.data for v in unrolled_model.parameters()] #unrolled_model.parameters()得到w‘
    #计算公式八(dαLtrain(w+,α)-dαLtrain(w-,α))/(2*epsilon)   其中w+=w+dw'Lval(w',α)*epsilon w- = w-dw'Lval(w',α)*epsilon
    implicit_grads = self._hessian_vector_product(vector, input_train, target_train)

    # 公式六减公式八 dαLval(w',α)-(dαLtrain(w+,α)-dαLtrain(w-,α))/(2*epsilon)
    for g, ig in zip(dalpha, implicit_grads):
      g.data.sub_(eta, ig.data)
    #对α进行更新
    for v, g in zip(self.model.arch_parameters(), dalpha):
      if v.grad is None:
        v.grad = Variable(g.data)
      else:
        v.grad.data.copy_(g.data)
  #对应optimizer.step()，对新建的模型的参数进行更新
  def _construct_model_from_theta(self, theta):
    model_new = self.model.new()
    model_dict = self.model.state_dict() #Returns a dictionary containing a whole state of the module.

    params, offset = {}, 0
    for k, v in self.model.named_parameters():#k是参数的名字，v是参数
      v_length = np.prod(v.size())
      params[k] = theta[offset: offset+v_length].view(v.size()) #将参数k的值更新为theta对应的值
      offset += v_length

    assert offset == len(theta)
    model_dict.update(params) #模型中的参数已经更新为做一次反向传播后的值
    model_new.load_state_dict(model_dict) #恢复模型中的参数，也就是我新建的mode_new中的参数为model_dict
    return model_new.cuda()

  
  #计算公式八(dαLtrain(w+,α)-dαLtrain(w-,α))/(2*epsilon)   其中w+=w+dw'Lval(w',α)*epsilon w- = w-dw'Lval(w',α)*epsilon
  def _hessian_vector_product(self, vector, input, target, r=1e-2): # vector就是dw'Lval(w',α)
    R = r / _concat(vector).norm() #epsilon

    #dαLtrain(w+,α)
    for p, v in zip(self.model.parameters(), vector):
      p.data.add_(R, v) #将模型中所有的w'更新成w+=w+dw'Lval(w',α)*epsilon
    loss = self.model._loss(input, target)
    grads_p = torch.autograd.grad(loss, self.model.arch_parameters())

    #dαLtrain(w-,α)
    for p, v in zip(self.model.parameters(), vector):
      p.data.sub_(2*R, v) #将模型中所有的w'更新成w- = w+ - (w-)*2*epsilon = w+dw'Lval(w',α)*epsilon - 2*epsilon*dw'Lval(w',α)=w-dw'Lval(w',α)*epsilon
    loss = self.model._loss(input, target)
    grads_n = torch.autograd.grad(loss, self.model.arch_parameters())

    #将模型的参数从w-恢复成w
    for p, v in zip(self.model.parameters(), vector):
      p.data.add_(R, v) #w=(w-) +dw'Lval(w',α)*epsilon = w-dw'Lval(w',α)*epsilon + dw'Lval(w',α)*epsilon = w

    return [(x-y).div_(2*R) for x, y in zip(grads_p, grads_n)]

2.4 deriving discrete architectures

通过上一节我们学到了alpha的值，这一节我们就是选出来α，把结构从连续的又变回离散的。

To form each node in the discrete architecture, we retain the top-2 strongest operations (from distinct nodes) among all non-zero candidate operations collected from all the previous nodes.

对每个node，我们都选alpha值的top2，这两个alpha要来自不同的节点，也就是你选的两个操作不能来自于同一个点。
这一步执行是在train_search.py的每个epoch都执行一次：

genotype = model.genotype() #对应论文2.4 选出来权重值大的两个前驱节点，并把(操作，前驱节点)存下来

model_search.py class Network def genotype

具体怎么做的在model_search.py的class Network 的函数genotype中，如下

  def genotype(self):
    def _parse(weights):
      gene = []
      n = 2
      start = 0
      for i in range(self._steps):
        end = start + n
        W = weights[start:end].copy()
        # 找出来前驱节点的哪两个边的权重最大
        edges = sorted(range(i + 2), key=lambda x: -max(W[x][k] for k in range(len(W[x])) if k != PRIMITIVES.index('none')))[:2]#sorted：对可迭代对象进行排序，key是用来进行比较的元素
                                                            # range(i + 2)表示x取0，1，到i+2 x也就是前驱节点的序号 ，所以W[x]就是这个前驱节点的所有权重[α0,α1,α2,...,α7]
                                                            # max(W[x][k] for k in range(len(W[x])) if k != PRIMITIVES.index('none')) 就是把操作不是NONE的α放到一个list里，得到最大值
                                                            # sorted 就是把每个前驱节点对应的权重最大的值进行逆序排序，然后选出来top2

        # 把这两条边对应的最大权重的操作找到
        for j in edges:
          k_best = None
          for k in range(len(W[j])):
            if k != PRIMITIVES.index('none'):
              if k_best is None or W[j][k] > W[j][k_best]:
                k_best = k
          gene.append((PRIMITIVES[k_best], j)) #把(操作，前驱节点序号)放到list gene中，[('sep_conv_3x3', 1),...,]
        start = end
        n += 1
      return gene

    gene_normal = _parse(F.softmax(self.alphas_normal, dim=-1).data.cpu().numpy()) #得到normal cell 的最后选出来的结果
    gene_reduce = _parse(F.softmax(self.alphas_reduce, dim=-1).data.cpu().numpy()) #得到reduce cell 的最后选出来的结果

    concat = range(2+self._steps-self._multiplier, self._steps+2) #[2,3,4,5] 表示对节点2，3，4，5 concat
    genotype = Genotype(
      normal=gene_normal, normal_concat=concat,
      reduce=gene_reduce, reduce_concat=concat
    )
    return genotype

experiments and results

In the ﬁrst stage, we search for the cell architectures using DARTS, and determine the best cells based on their validation performance.
In the second stage, we use these cells to construct larger architectures, which we train from scratch and report their performance on the test set.

具体怎么训练的是分为两步进行的：

第一步：用darts进行architect search，通过validation performance选出来cells
对应train_search.py
第二步：用选出来的cells构建网络，从头开始训练，报告他们在测试集上的表现
对应train.py

3.1 architecture search

首先我们看一下我们的model是怎么构建的

model_search.py class Network

class Network(nn.Module):

  def __init__(self, C, num_classes, layers, criterion, steps=4, multiplier=4, stem_multiplier=3):
    super(Network, self).__init__()
    self._C = C #初始通道数
    self._num_classes = num_classes
    self._layers = layers
    self._criterion = criterion
    self._steps = steps #一个基本单元cell内有4个节点需要进行operation操作的搜索
    self._multiplier = multiplier

    C_curr = stem_multiplier*C # 当前Sequential模块的输出通道数
    self.stem = nn.Sequential(
      nn.Conv2d(3, C_curr, 3, padding=1, bias=False),  #前三个参数分别是输入图片的通道数，卷积核的数量，卷积核的大小
      nn.BatchNorm2d(C_curr) #BatchNorm2d对minibatch 3d数据组成的4d输入进行batchnormalization操作，num_features为(N,C,H,W)的C
    )
 
    C_prev_prev, C_prev, C_curr = C_curr, C_curr, C
    self.cells = nn.ModuleList()# 创建一个空modulelist类型数据
    reduction_prev = False #连接的前一个cell是否是reduction cell
    for i in range(layers): #网络是8层，在1/3和2/3位置是reduction cell 其他是normal cell，reduction cell的stride是2
      if i in [layers//3, 2*layers//3]: #对应论文的Cells located at the 1/3 and 2/3 of the total depth of the network are reduction cells
        C_curr *= 2
        reduction = True
      else:
        reduction = False
      #构建cell
      cell = Cell(steps, multiplier, C_prev_prev, C_prev, C_curr, reduction, reduction_prev)#每个cell的input nodes是前前cell和前一个cell的输出
      reduction_prev = reduction
      self.cells += [cell]
      C_prev_prev, C_prev = C_prev, multiplier*C_curr #C_prev=multiplier*C_curr是因为每个cell的输出是4个中间节点concat的，这个concat是在通道这个维度，所以输出的通道数变为原来的4倍

    self.global_pooling = nn.AdaptiveAvgPool2d(1) #构建一个平均池化层，output size是1x1
    self.classifier = nn.Linear(C_prev, num_classes) #构建一个线性分类器

    self._initialize_alphas()#架构参数初始化

        '''
    cell = Cell(steps, multiplier, C_prev_prev, C_prev, C_curr, reduction, reduction_prev)
    layers = 8, 第2和5个cell是reduction_cell
    cells[0]: cell = Cell(4, 4, 48,  48,  16, false,  false) 输出[N,16*4,h,w]
    cells[1]: cell = Cell(4, 4, 48,  64,  16, false,  false) 输出[N,16*4,h,w]
    cells[2]: cell = Cell(4, 4, 64,  64,  32, True,   false) 输出[N,32*4,h,w]
    cells[3]: cell = Cell(4, 4, 64,  128, 32, false,  false) 输出[N,32*4,h,w]
    cells[4]: cell = Cell(4, 4, 128, 128, 32, false,  false) 输出[N,32*4,h,w]
    cells[5]: cell = Cell(4, 4, 128, 128, 64, True,   false) 输出[N,64*4,h,w]
    cells[6]: cell = Cell(4, 4, 128, 256, 64, false,  false) 输出[N,64*4,h,w]
    cells[7]: cell = Cell(4, 4, 256, 256, 64, false,  false) 输出[N,64*4,h,w]
    '''

接下来看怎么对网络进行训练

train_search.py

数据集
用于architect search的数据集是CIFAR-10：
training set: half of the CIFAR-10 training data
validation set: another half of the CIFAR-10 training data
其中sampler就体现了把training data的前一半用于training set，后一半用于validation set

  train_transform, valid_transform = utils._data_transforms_cifar10(args)
  train_data = dset.CIFAR10(root=args.data, train=True, download=True, transform=train_transform)

  num_train = len(train_data)
  indices = list(range(num_train))
  split = int(np.floor(args.train_portion * num_train))

  train_queue = torch.utils.data.DataLoader(
      train_data, batch_size=args.batch_size,
      sampler=torch.utils.data.sampler.SubsetRandomSampler(indices[:split]), #自定义从样本中取数据的策略，当train_portion=0.5时，就是前一半的数据用于train
      pin_memory=True, num_workers=2)

  valid_queue = torch.utils.data.DataLoader(
      train_data, batch_size=args.batch_size,
      sampler=torch.utils.data.sampler.SubsetRandomSampler(indices[split:num_train]), #数据集中后一半的数据用于验证
      pin_memory=True, num_workers=2)

优化器optimizer
<1> 用来优化w的优化器

  #设置优化器
  optimizer = torch.optim.SGD(
      model.parameters(),#优化器更新的参数，这里更新的是w
      args.learning_rate,#初始值是0.025，使用的余弦退火调度更新学习率，每个epoch的学习率都不一样
      momentum=args.momentum, #0.9
      weight_decay=args.weight_decay)#正则化参数3e-4
  #学习率更新参数，每次迭代调整不同的学习率
  scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(  #使用余弦退火调度设置各组参数组的学习率
        optimizer, float(args.epochs), eta_min=args.learning_rate_min)

<2> 用于优化α的优化器

    self.optimizer = torch.optim.Adam(self.model.arch_parameters(),
        lr=args.arch_learning_rate, betas=(0.5, 0.999), weight_decay=args.arch_weight_decay) #用来更新α的optimizer

每个epoch进行train和infer

model = Network(args.init_channels, CIFAR_CLASSES, args.layers, criterion)#构建网络

  #创建用于更新α的architect
  architect = Architect(model, args)
  #经历50个epoch后搜索完毕
  for epoch in range(args.epochs):
    scheduler.step()
    lr = scheduler.get_lr()[0] #得到本次迭代的学习率lr
    logging.info('epoch %d lr %e', epoch, lr)

    genotype = model.genotype() #对应论文2.4 选出来权重值大的两个前驱节点，并把最后的结果存下来，格式为Genotype(normal=[(op,i),..],normal_concat=[],reduce=[],reduce_concat=[])
    logging.info('genotype = %s', genotype)

    print(F.softmax(model.alphas_normal, dim=-1))
    print(F.softmax(model.alphas_reduce, dim=-1))

    # training
    train_acc, train_obj = train(train_queue, valid_queue, model, architect, criterion, optimizer, lr)
    logging.info('train_acc %f', train_acc)

    # validation
    valid_acc, valid_obj = infer(valid_queue, model, criterion)
    logging.info('valid_acc %f', valid_acc)

    utils.save(model, os.path.join(args.save, 'weights.pt'))

<1>训练train

def train(train_queue, valid_queue, model, architect, criterion, optimizer, lr):
  objs = utils.AvgrageMeter() # 用于保存loss的值
  top1 = utils.AvgrageMeter() # 前1预测正确的概率
  top5 = utils.AvgrageMeter() # 前5预测正确的概率

  for step, (input, target) in enumerate(train_queue): #每个step取出一个batch，batchsize是64（256个数据对）
    model.train()
    n = input.size(0)

    input = Variable(input, requires_grad=False).cuda() #requires_grad为false不对input求导
    target = Variable(target, requires_grad=False).cuda(async=True)

    # get a random minibatch from the search queue with replacement
    # 更新α是用validation set进行更新的，所以我们每次都从valid_queue拿出一个batch传入architect.step()
    input_search, target_search = next(iter(valid_queue)) # 使用iter(dataloader)返回的是一个迭代器，然后可以使用next访问；
    input_search = Variable(input_search, requires_grad=False).cuda()
    target_search = Variable(target_search, requires_grad=False).cuda(async=True)

    #更新α
    architect.step(input, target, input_search, target_search, lr, optimizer, unrolled=args.unrolled) #unrolled是true就是用论文的公式进行α的更新

    optimizer.zero_grad()#清除之前学到的梯度的参数
    logits = model(input)
    loss = criterion(logits, target) #预测值logits和真实值target的loss

    loss.backward()#反向传播，计算梯度
    nn.utils.clip_grad_norm(model.parameters(), args.grad_clip)#梯度裁剪
    optimizer.step() #应用梯度

    prec1, prec5 = utils.accuracy(logits, target, topk=(1, 5))
    objs.update(loss.data[0], n)
    top1.update(prec1.data[0], n)
    top5.update(prec5.data[0], n)

    if step % args.report_freq == 0:
      logging.info('train %03d %e %f %f', step, objs.avg, top1.avg, top5.avg)

  return top1.avg, objs.avg

<2> 验证 infer
只前向传播
也就是上一步train完model的参数已经更新了，我们就在验证集上前向传播一次求一下loss，看一下好坏

#只前向传播
def infer(valid_queue, model, criterion):
  objs = utils.AvgrageMeter()
  top1 = utils.AvgrageMeter()
  top5 = utils.AvgrageMeter()
  model.eval()

  for step, (input, target) in enumerate(valid_queue):
    input = Variable(input, volatile=True).cuda()
    target = Variable(target, volatile=True).cuda(async=True)

    logits = model(input)
    loss = criterion(logits, target)

    prec1, prec5 = utils.accuracy(logits, target, topk=(1, 5))
    n = input.size(0)
    objs.update(loss.data[0], n)
    top1.update(prec1.data[0], n)
    top5.update(prec5.data[0], n)

    if step % args.report_freq == 0:
      logging.info('valid %03d %e %f %f', step, objs.avg, top1.avg, top5.avg)

  return top1.avg, objs.avg

utils.py

求精度具体的操作：

def accuracy(output, target, topk=(1,)):  #output:(bs,num_class)是64行10列, target:(bs,1)，topk=(1,5)
  maxk = max(topk) #5
  batch_size = target.size(0)

  _, pred = output.topk(maxk, 1, True, True)#maxk=5，表示dim=1按行取值
                                            #output的值是精度，选top5是选这一行精度最大的五个对应的列，也就是属于哪一类
                                            #pred是(bs,5) 值为类别号，0，1，...,9      
  pred = pred.t() #转置，pred:(5,bs)
  correct = pred.eq(target.view(1, -1).expand_as(pred)) #pred和target对应位置值相等返回1，不等返回0
                                                        #target原来是64行1列，值为类别；target.view(1, -1)把target拉成一行，expand_as(pred)又把target变成5行64列
  res = []
  for k in topk:# k=1和k=5
    correct_k = correct[:k].view(-1).float().sum(0)
    res.append(correct_k.mul_(100.0/batch_size))
  return res #res里是两个值，一个是top1的概率，一个是top5的概率

3.2 architecture evaluation

To evaluate the selected architecture, we randomly initialize its weights (weights learned during the search process are discarded), train it from scratch, and report its performance on the test set.

architecture evaluation这一部分做的就是把architecture search 部分搜到的cell 拿过来（normal cell 和reduction cell的权重），从头进行训练一下。这就和我们之前的那种train大同小异，就是网络结构定好了。

他说的随机初始化的权重不包括α。

train.py

这一部分和train_search.py的区别就是没有α那部分了，直接把α拿过来用

def main():
  if not torch.cuda.is_available():
    logging.info('no gpu device available')
    sys.exit(1)

  np.random.seed(args.seed)
  torch.cuda.set_device(args.gpu)
  cudnn.benchmark = True
  torch.manual_seed(args.seed)
  cudnn.enabled=True
  torch.cuda.manual_seed(args.seed)
  logging.info('gpu device = %d' % args.gpu)
  logging.info("args = %s", args)

  #得到train_search里学好的normal cell 和reduction cell，genotypes.DARTS就是选的学好的DARTS_V2
  genotype = eval("genotypes.%s" % args.arch) #DARTS_V2 = Genotype(normal=[('sep_conv_3x3', 0), ('sep_conv_3x3', 1), ('sep_conv_3x3', 0), ('sep_conv_3x3', 1), ('sep_conv_3x3', 1), ('skip_connect', 0), ('skip_connect', 0), ('dil_conv_3x3', 2)], normal_concat=[2, 3, 4, 5], reduce=[('max_pool_3x3', 0), ('max_pool_3x3', 1), ('skip_connect', 2), ('max_pool_3x3', 1), ('max_pool_3x3', 0), ('skip_connect', 2), ('skip_connect', 2), ('max_pool_3x3', 1)], reduce_concat=[2, 3, 4, 5])

  #这里的Network用的是model.py的NetworkCIFAR
  model = Network(args.init_channels, CIFAR_CLASSES, args.layers, args.auxiliary, genotype)
  model = model.cuda()

  logging.info("param size = %fMB", utils.count_parameters_in_MB(model))

  criterion = nn.CrossEntropyLoss()
  criterion = criterion.cuda()
  optimizer = torch.optim.SGD(
      model.parameters(),
      args.learning_rate,
      momentum=args.momentum,
      weight_decay=args.weight_decay
      )

  train_transform, valid_transform = utils._data_transforms_cifar10(args)
  train_data = dset.CIFAR10(root=args.data, train=True, download=True, transform=train_transform)
  valid_data = dset.CIFAR10(root=args.data, train=False, download=True, transform=valid_transform)

  train_queue = torch.utils.data.DataLoader(
      train_data, batch_size=args.batch_size, shuffle=True, pin_memory=True, num_workers=2)

  valid_queue = torch.utils.data.DataLoader(
      valid_data, batch_size=args.batch_size, shuffle=False, pin_memory=True, num_workers=2)

  scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, float(args.epochs))

  for epoch in range(args.epochs):
    scheduler.step()
    logging.info('epoch %d lr %e', epoch, scheduler.get_lr()[0])
    model.drop_path_prob = args.drop_path_prob * epoch / args.epochs

    train_acc, train_obj = train(train_queue, model, criterion, optimizer)
    logging.info('train_acc %f', train_acc)

    valid_acc, valid_obj = infer(valid_queue, model, criterion)
    logging.info('valid_acc %f', valid_acc)

    utils.save(model, os.path.join(args.save, 'weights.pt'))

model.py

model和model_search的区别也就在于cell 部分是把学到的权重直接拿来建网络

class Cell(nn.Module):

  def __init__(self, genotype, C_prev_prev, C_prev, C, reduction, reduction_prev):
    super(Cell, self).__init__()
    print(C_prev_prev, C_prev, C)

    if reduction_prev:
      self.preprocess0 = FactorizedReduce(C_prev_prev, C)
    else:
      self.preprocess0 = ReLUConvBN(C_prev_prev, C, 1, 1, 0)
    self.preprocess1 = ReLUConvBN(C_prev, C, 1, 1, 0)
    
    #这一部分就是根据是reduction cell 还是normal cell 把对应的节点和节点的操作找到
    if reduction:
      op_names, indices = zip(*genotype.reduce)
      concat = genotype.reduce_concat
    else:
      op_names, indices = zip(*genotype.normal)
      concat = genotype.normal_concat
    self._compile(C, op_names, indices, concat, reduction)

  def _compile(self, C, op_names, indices, concat, reduction):
    assert len(op_names) == len(indices)
    self._steps = len(op_names) // 2
    self._concat = concat
    self.multiplier = len(concat)

    self._ops = nn.ModuleList()
    for name, index in zip(op_names, indices):
      stride = 2 if reduction and index < 2 else 1
      op = OPS[name](C, stride, True)
      self._ops += [op]
    self._indices = indices

具体训练的细节：

A large network of 20 cells is trained for 600 epochs with batch size 96. The initial number of channels is increased from 16 to 36 to ensure our model size is comparable with other baselines in the literature (around 3M).
Other hyperparameters remain the same as the ones used for architecture search.

conclusion

你可能感兴趣的:(论文)

构建医学文献智能助手：基于 LangChain 的专业领域 RAG 系统实践
前言在当今医疗科技快速发展的时代，每天都有数以千计的医学研究成果在全球范围内发表。从临床试验报告到基础研究论文，从流行病学调查到药物研发数据，这些专业文献承载着推动医学进步的重要知识。然而，面对如此海量且专业性极强的文献资料，医疗从业者往往感到力不从心。如何在有限的时间内，准确把握文献核心价值，并将其转化为临床实践的指导？这个问题一直困扰着整个医疗行业。1.项目背景与业务价值1.1医学文献阅读的困
GPT-4o重磅升级！只需一条指令，教你秒出SCI级专业科研图！智写AI AI学术写作指南信息可视化人工智能
经过数月爆肝，七哥终于完成专业的学术AI使用教程，估计也有个80万字的详细操作指南。分为多个细分的专业写作场景，跟着一步一步操作，借助ChatGPT做学术、干科研、写论文、课题申报都变得超简单。欢迎加我交流（yida985），祝你一臂之力。七哥之前写过关于用AI生成流程图的教程，不过需要借助其他软件才能搞定完美的流程图。近期GPT-4o全新推出了“生图功能”，这个生图的过程就更加方便轻松了，全能G
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【软考高级系统架构论文】论企业集成平台的理解与应用 _Richard_ 2025年软考系统架构师系统架构
论文真题请围绕“企业集成平台的理解与应用”论题，依次从以下三个方面进行论述。概要叙述你参与管理和开发的、采用企业集成平台进行企业信息集成的软件项目以及你在其中所承担的主要工作。请给出至少4种企业集成平台应具有的基本功能，并对这4种功能的内涵进行简要阐述。具体阐述你参与管理和开发的项目是如何使用企业集成平台进行企业信息集成的，并围绕上述4种功能，详细论述在集成过程中遇到了哪些实际问题，是如何解决的。
根包含文件——Luaconf.h (src)收藏 skyremember lua integer 编译器 alignment 数据结构 c
根包含文件——Luaconf.h(src)收藏新一篇:C1902|旧一篇:Lock-free论文集functionStorePage(){d=document;t=d.selection?(d.selection.type!='None'?d.selection.createRange().text:''):(d.getSelection?d.getSelection():'');void(key
软件架构师论文_论基于架构(ABSD)的软件设计方法及应用 June_Xiao 软件架构师架构
2022年的论文题目是基于CBSD的软件设计方法及应用，本人写了基于ABSD的软件设计方法及应用，论文离题拿了3x分，悲催，这是我的第一次考架构师，是最后一次手写版考试，是最有可能通过的一次。下面是我的论文。论基于架构的软件设计方法及应用摘要2020年5月，我司中标了某省联网收费的省站直传项目，该项目将建设一套全省收费站与省中心相互通信传输数据的平台，主要分为上传、下发、监控三个子系统。，包括收费
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
计算机毕业设计Springboot农副产品线上商场系统基于Spring Boot的农产品电商交易平台设计与实现 Spring Boot架构下的农产品线上商城系统开发路可程序设计课程设计 spring boot 后端
计算机毕业设计Springboot农副产品线上商场系统r7duh7er（配套有源码程序mysql数据库论文）本套源码可以先看具体功能演示视频领取，文末有联xi可分享随着互联网技术的飞速发展，电子商务已经成为人们生活中不可或缺的一部分。尤其是在农产品销售领域，传统的线下销售模式面临着诸多限制，如销售渠道狭窄、信息不对称、销售成本高等问题。为了打破这些限制，提升农产品的销售效率和市场覆盖范围，开发一个
Gen AI：重塑未来的创造力工具箱一杯酒zpy 人工智能
目录页一、GenAI工具箱助力大学生涯1.通用GenAI工具2.GenAI科研辅助1.文献阅读与论文写作2.数据分析与可视化3.AI翻译工具二、GenAI办公、学习助手1.PPT制作2.表格制作3.AI思维导图4.AI办公5.AI图像处理6.AI视频处理7.AI音频处理8.AI编程工具9.AI搜索引擎说明：网盘资源密码获取：关注微信公众号【土木岛】，后台回复文件框中提示的对应关键词自动发送。点击查
刚入门3DGS的新手小白能够做的工作一碗姜汤计算机视觉 3d 计算机视觉
作为刚入门3DGaussianSplatting（3DGS）的新手，你可以从以下几个方向入手，逐步掌握核心概念并参与实践：1.基础学习与工具熟悉(1)理解核心概念必读资料原论文：3DGaussianSplattingforReal-TimeRadianceFieldRendering（Kerbletal.,SIGGRAPH2023）。通俗解读：博客或视频教程（如YouTube解析）。关键点：高斯球
学生成绩信息管理系统的设计与实现(论文+源码)_kaic 开心工作室计算机文章毕业设计 java 开发语言 spring boot perl 后端 batch swift
摘要近年来，随着国内的高考改革和教育信息化的发展，为了提高学生成绩管理效率和准确性，本文设计并实现了一种学生成绩管理系统，在研究中发现对于学校在管理学生成绩信息的效率上显著提升。现代教育管理中，学生成绩管理系统是必不可少的工具之一。首先，通过对相关文献的综合评估和需求分析，得出了一些适合用户的功能模块，这些模块被认为是最为合适的。采用面向对象的设计方法，选择了具备面向对象特性的Java语言，并使用
3秒搞定DeepSeek数学公式转Word！学生党救星（附代码实测） Uyker python 编辑器
适用场景：论文交稿deadline/报告美化/作业急救工具白嫖指南：免费+免安装方案优先一、终极方案：Mathpix截图转公式（强推！）效果：复杂矩阵→完美还原步骤：复制DeepSeek输出的LaTeX代码（例）\vec{F}=q(\vec{E}+\vec{v}\times\vec{B})打开Mathpix官网→按Ctrl+Alt+M截取公式右键粘贴到Word→自动变身标准公式！✅优势：识别准确率
良品超市进销存管理系统设计与实现（开题报告、高质量、毕业设计、毕业论文） AA-老高(接毕设) 计算机专业课程设计人工智能 java spring maven spring boot spring cloud
毕业论文（设计）题目良品超市进销存管理系统设计与实现课题来源□科研R应用□教学□其它成果类别□论文R设计一、课题的研究意义选题的目的良品超市作为一家日益壮大的零售企业，面临着激烈的市场竞争和日益复杂的供应链管理。在当前的商业环境中，如何高效管理商品的进销存，降低运营成本，提高顾客满意度，已成为企业亟需解决的问题。传统的手工记录和简单的电子表格无法满足日常运营中的快速更新和数据分析需求，常常导致库存
[论文阅读] 软件工程 | 探索软件生态系统中的开发者体验关键因素
探索软件生态系统中的开发者体验关键因素：从研究到实践引文格式@article{Zacarias2025,title={ExploringDeveloperExperienceFactorsinSoftwareEcosystems},author={Zacarias,RodrigoOliveiraandAntunes,L{\'e}oCarvalhoRamosandBarros,M{\'a}rciod
Fast Image Deconvolution using Hyper-Laplacian Priors论文阅读青铜锁00 #退化论文阅读论文阅读图像处理
FastImageDeconvolutionusingHyper-LaplacianPriors1.论文的研究目标与实际意义2.论文的创新方法2.1核心框架：交替最小化（AlternatingMinimization）2.2x子问题：频域FFT加速2.3w子问题：高效求解的核心创新2.3.1问题形式2.3.2查找表法（LUT）2.3.3解析解法（特定α\alphaα）2.3.4通用α\alphaα
PHP+MySQL毕业设计项目源码-3套
PHP+MySQL毕业设计项目源码-3套【下载地址】PHPMySQL毕业设计项目源码-3套本项目汇集了3套PHP+MySQL毕业设计源码及论文资料，专为计算机专业大学生打造，助力高效完成毕业设计。资源包括PHP酒店预订管理系统、PHP课程网站管理系统和PHP论文格式化系统，每套均提供源码、论文模板及详细的设计思路与实现说明。通过参考这些成熟项目，学生可以快速掌握开发流程，激发创新灵感，提升编程能力
[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实张较瘦_ 前沿技术论文阅读人工智能软件工程
AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda,VictoriaPichler,ZheyingZhang,PekkaAbrahamsson,GeirK.HanssenSubjects:
LnagChain思维链提示技术解析：原理、架构与源码实现(13) Android 小码蜂 LangChain框架入门架构人工智能 langchain
LANGCHAIN思维链提示技术解析：原理、架构与源码实现一、LangChain思维链提示概述1.1思维链提示的基本概念思维链提示（ChainofThought,CoT）是一种通过引导大型语言模型（LLM）生成中间推理步骤来提高复杂问题解决能力的技术。与传统的直接提问相比，思维链提示要求模型在给出最终答案之前，先展示其思考过程。这种方法最早由Wei等人在2022年的论文中提出，实验表明，思维链提示
[arXiv 2024] Medical SAM 2: Segment Medical Images as Video via Segment Anything Model 2 alfred_torres 医学图像分割 SAM2
arXiv2024|MedicalSAM2：通用2D/3D医学分割新范式，“把医学图像当视频分割”论文信息标题：MedicalSAM2:SegmentMedicalImagesasVideoviaSegmentAnythingModel2作者：JiayuanZhu,AbdullahHamdi,YunliQi,YuemingJin,JundeWu单位：牛津大学、新加坡国立大学项目主页：https:/
[CVPR 2025] 高效无监督Prompt与偏好对齐驱动的半监督医学分割 alfred_torres prompt 医学图像分割
CVPR2025|优化SAM：高效无监督Prompt与偏好对齐驱动的半监督医学分割论文信息标题：EnhancingSAMwithEfficientPromptingandPreferenceOptimizationforSemi-supervisedMedicalImageSegmentation作者：AishikKonwer,ZhijianYang,ErhanBas,CaoXiao,Pratee
实习/秋招记录：软件开发转AI或安全 Memories off 杂项职场和发展
没有很合适我的岗位，只能在所谓的AI岗和安全岗上做点尝试。记录我的转方向历程，持续更新。转AI知识点扫盲github上的教程，由点带面。简历编造主要是编造外包经历，所有外包需包含“大模型”这个要素，总共要三个外包。若可能，在准备的时候，练习一些内容，略微熟悉其操作。编造外包1：改资助项目的“数据驱动”为“大模型驱动”，此外包主要是结合大模型和本体（相对较熟悉，因为写了论文）。编造外包2：AIage
GIF&DDE qq_39573780 红外图像处理计算机视觉算法
红外图像动态范围压缩GIF&DDE本文主要介绍了一种高动态范围图像转化为8位可视图像的方法，根据论文[[1]][id]总结实现算法流程图1：算法流程图步骤：使用导向滤波将图像分为基础层和细节层，基础层表示图像的整体结构信息，细节层表示图像的细节纹理信息。对基础层使用直方图投影操作，将图像的动态范围从[0,65535]映射到[0，255]对细节层使用增益掩膜进行增强对基础层和细节层加权求和得到输出图
室内定位论文集-20241011期程序员石磊室内定位论文集基于深度学习的室内定位室内定位
QLOC：基于量子指纹的大规模定位实用算法研究问题当前的定位技术在处理涉及大量设备的大型部署时往往存在不准确和低效的问题。方法该研究引入了一种新颖的量子指纹基算法，称为QLOC，旨在为广泛的室内环境提供精确的定位服务，并尽量减少计算需求。创新点设计了一种高效的量子算法，在设备数量增加的情况下能很好地扩展。通过严格测试与真实世界场景和基准对比验证了所提方案的有效性。结论QLOC代表了一个重要的进展，
【毕设-基于STM32单片机的宠物/老人/电子围栏防丢失系统设计】单片机辅导毕业设计 stm32 毕业设计单片机宠物毕设课程设计嵌入式硬件
设计题目：基于STM32单片机的宠物/老人/电子围栏防丢失系统设计有需要请看演示视频主页介绍设计题目：基于STM32单片机的宠物/老人/电子围栏防丢失系统设计1.设计功能介绍2.作品演示介绍3.系统电路介绍4.程序流程介绍5.手机APP介绍6.设计交付介绍6.1题目选择6.2开题答辩6.3实物制作6.4论文撰写6.5毕业答辩1.设计功能介绍GPS定位功能：通过集成的GPS模块，系统能够实时获取宠物
cnn 一维时序数据_AI顶会解读|时序动作分割与检测，附代码链接
时序动作分割与检测时序动作的分割与检测是视频计算机视觉技术的一大常规任务，对自动驾驶和机器人等应用至关重要，下面3篇论文是腾讯AILab在这一方向的探索成果。1.动作识别中的时序帧间差异表征学习TemporalDistinctRepresentationLearningforActionRecognition本文由腾讯AILab、腾讯优图实验室、新加坡南洋理工大学、美国纽约州立大学布法罗分校合作完
Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
论文主要内容总结本文聚焦于多模态大语言模型（MLLMs）在指称消解任务中的语用能力研究，通过简单但抽象的视觉刺激（如颜色块和颜色网格）开展实验。具体内容如下：1.研究目的考察LLaVA-NeXT、Qwen2-VL和JanusPro等MLLMs在“导演-匹配者”式参考游戏中，对颜色和空间布局的语境化语用推理能力，验证其是否能像人类一样根据视觉上下文解析指称表达。2.实验方法模型：测试三种MLLMs的
Diff-Retinex: Rethinking Low-light Image Enhancement with A Generative Diffusion Model 论文阅读钟屿论文阅读人工智能深度学习学习图像处理计算机视觉
Diff-Retinex：用生成式扩散模型重新思考低光照图像增强摘要本文中，我们重新思考了低光照图像增强任务，并提出了一种物理可解释的生成式扩散模型，称为Diff-Retinex。我们的目标是整合物理模型和生成网络的优点。此外，我们希望通过生成网络补充甚至推断低光照图像中缺失的信息。因此，Diff-Retinex将低光照图像增强问题表述为Retinex分解和条件图像生成。在Retinex分解中，我
《Learning to See in the Dark》论文超详细解读（翻译＋精读）小西柚code 论文阅读深度学习计算机视觉人工智能
前言最近读到《LearningtoSeeintheDark》这篇论文，觉得很有意思，所以在这里记录一下。目录前言ABSTRACT—摘要翻译精读一、INTRODUCTION—简介翻译精读二、RELATEDWORKS—相关工作2.1Imagedenoising—图像降噪翻译精读2.2Low-lightimageenhancement—低光图像增强翻译精读2.3Noisyimagedatasets—带噪
二、大模型的能力（DataWhale大模型理论基础） Y_fulture 大模型理论基础（DW组队学习）人工智能 gpt-3 nlp
大模型的能力一、概述本节主要是通过对GPT-3论文中的基准测试深入研究，从而获得关于GPT-3更深程度的认识我们应该知道，GPT-3的结果参差不齐：在某些任务上，比如语言建模，GPT-3大幅度超越了现有技术的最高水平；在其他任务上，GPT-3与训练有素，拥有大量标签数据的系统竞争时，却明显落后。造成上述现象的原因：GPT-3并未明确针对这些任务进行训练，它只是作为一个语言模型，被训练来预测下一个词
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息