图波列夫

AnnaAraslanova/FBNet 程序分析

AnnaAraslanova/FBNet 是 FBNet 相对来说比较好的一个第三方实现。延迟测量采用 x86 处理器的结果近似。需要注意的是：

PyTorch GPU 并行对输入数据有要求；
随机超网络直接使用 BN 层似乎不妥。

supernet_main_file.py

train_supernet 训练随机超网络。

sample_architecture_from_the_supernet 从中选出最优结构。

if __name__ == "__main__":
    assert args.train_or_sample in ['train', 'sample']
    if args.train_or_sample == 'train':
        train_supernet()
    elif args.train_or_sample == 'sample':
        assert args.architecture_name != '' and args.architecture_name not in MODEL_ARCH
        hardsampling = False if args.hardsampling_bool_value in ['False', '0'] else True
    sample_architecture_from_the_supernet(unique_name_of_arch=args.architecture_name, hardsampling=hardsampling)

train_supernet

Created with Raphaël 2.2.0 train_supernet config_for_supernet create_directories_from_list get_logger SummaryWriter LookUpTable get_loaders get_test_loader FBNet_Stochastic_SuperNet weights_init SupernetLoss check_tensor_in_list CosineAnnealingLR TrainerSupernet TrainerSupernet.train_loop

设置随机种子，确保可复现。

    manual_seed = 1
    np.random.seed(manual_seed)
    torch.manual_seed(manual_seed)
    torch.cuda.manual_seed_all(manual_seed)
    torch.backends.cudnn.benchmark = True

CONFIG_SUPERNET 存储了超网络的配置参数。 create_directories_from_list 创建 tensorboard 日志文件路径。
get_logger 根据文件路径创建一个日志记录器并设置格式。
SummaryWriter 创建一个 TensorBoard 事件异步写入器。

1.7版本之后参数变成了logdir。

    create_directories_from_list([CONFIG_SUPERNET['logging']['path_to_tensorboard_logs']])
    
    logger = get_logger(CONFIG_SUPERNET['logging']['path_to_log_file'])
    writer = SummaryWriter(log_dir=CONFIG_SUPERNET['logging']['path_to_tensorboard_logs'])

LookUpTable 会将结果写入文件。

    #### LookUp table consists all information about layers
    lookup_table = LookUpTable(calulate_latency=CONFIG_SUPERNET['lookup_table']['create_from_scratch'])

get_loaders 划分训练和验证数据集。

    #### DataLoading
    train_w_loader, train_thetas_loader = get_loaders(CONFIG_SUPERNET['dataloading']['w_share_in_train'],
                                                      CONFIG_SUPERNET['dataloading']['batch_size'],
                                                      CONFIG_SUPERNET['dataloading']['path_to_save_data'],
                                                      logger)
    test_loader = get_test_loader(CONFIG_SUPERNET['dataloading']['batch_size'],
                                  CONFIG_SUPERNET['dataloading']['path_to_save_data'])

实例化 FBNet_Stochastic_SuperNet 。

nn.Module.apply 将fn递归地应用于每个子模块（由.children()返回）以及self。典型用途包括初始化模型的参数（另请参见 torch.nn.init）。

这里为什么调用 weights_init 而不是在内部初始化？

没有加载快照继续训练的功能。

torch.nn.DataParallel 在模块级实现数据并行性。此容器通过在批处理维度中进行分块，将输入拆分到指定设备上，从而使给定module的应用程序并行化（其他对象将在每个设备上复制一次）。在前向过程中，模块在每个设备上复制，每个副本处理输入的一部分。在向后传递期间，汇总每个副本的梯度到原始模块中。批量大小应大于使用的 GPU 数量。
另请参阅：Use nn.DataParallel instead of multiprocessing
允许将任意位置和关键字输入传递到 DataParallel，但某些类型是特殊处理的。在指定的dim上（默认为0）分散张量。浅复制元组、列表和字典类型。其他类型将在不同的线程之间共享，如果在模型的正向传递中写入，则可能会损坏。
在运行此 DataParallel 模块之前，并行化module必须在device_ids[0]上具有其参数和缓冲区。

每次前向时，模块都会复制到每个设备上，因此forward运行模块的任何更新都将丢失。例如，如果module具有在每个forward中递增的计数器属性，则它将始终保持在初始值，因为更新是对forward之后销毁的副本进行的。但是，DataParallel 保证device[0]上副本的参数和缓冲区与基本并行化module共享存储。因此将记录device[0]上的参数和缓冲区的原地更新。例如，BBatchNorm2d 和 spectral_norm() 依赖于此行为来更新缓冲区。
将调用module及其子模块上定义的前向和后向钩子len(device_ids)次，每个钩子的输入都位于特定的设备上。特别地，仅保证钩子在相应设备上的操作顺序正确。例如，不能保证在所有len(device_ids)个 forward() 调用之前执行通过 register_forward_pre_hook() 设置的钩子，但是每个钩子都会在该设备的相应 forward() 调用之前执行。

    #### Model
    model = FBNet_Stochastic_SuperNet(lookup_table, cnt_classes=10).cuda()
    model = model.apply(weights_init)
    model = nn.DataParallel(model, device_ids=[0])

网络权重和结构参数关联到不同的优化器。
SupernetLoss 计算带有延迟的损失。

torch.optim.lr_scheduler.CosineAnnealingLR 使用余弦退火计划设置每个参数组的学习率，其中 $\eta_{max}$ 设置为初始 lr， $T_{cur}$ 是自 SGDR 上次重启以来的纪元数：
$\begin{aligned} \eta_{t+1} = \eta_{min} + (\eta_t - \eta_{min})\frac{1 + \cos(\frac{T_{cur+1}}{T_{max}}\pi)}{1 + \cos(\frac{T_{cur}}{T_{max}}\pi)}, T_{cur} \neq (2k+1)T_{max};\\ \eta_{t+1} = \eta_{t} + (\eta_{max} - \eta_{min})\frac{1 - \cos(\frac{1}{T_{max}}\pi)}{2}, T_{cur} = (2k+1)T_{max}.\\ \end{aligned}$

    #### Loss, Optimizer and Scheduler
    criterion = SupernetLoss().cuda()

    thetas_params = [param for name, param in model.named_parameters() if 'thetas' in name]
    params_except_thetas = [param for param in model.parameters() if not check_tensor_in_list(param, thetas_params)]

    w_optimizer = torch.optim.SGD(params=params_except_thetas,
                                  lr=CONFIG_SUPERNET['optimizer']['w_lr'], 
                                  momentum=CONFIG_SUPERNET['optimizer']['w_momentum'],
                                  weight_decay=CONFIG_SUPERNET['optimizer']['w_weight_decay'])
    
    theta_optimizer = torch.optim.Adam(params=thetas_params,
                                       lr=CONFIG_SUPERNET['optimizer']['thetas_lr'],
                                       weight_decay=CONFIG_SUPERNET['optimizer']['thetas_weight_decay'])

    last_epoch = -1
    w_scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(w_optimizer,
                                                             T_max=CONFIG_SUPERNET['train_settings']['cnt_epochs'],
                                                             last_epoch=last_epoch)

TrainerSupernet 封装了训练过程。

    #### Training Loop
    trainer = TrainerSupernet(criterion, w_optimizer, theta_optimizer, w_scheduler, logger, writer)
    trainer.train_loop(train_w_loader, train_thetas_loader, test_loader, model)

get_logger

    """ Make python logger """
    # [!] Since tensorboardX use default logger (e.g. logging.info()), we should use custom logger
    logger = logging.getLogger('fbnet')
    log_format = '%(asctime)s | %(message)s'
    formatter = logging.Formatter(log_format, datefmt='%m/%d %I:%M:%S %p')
    file_handler = logging.FileHandler(file_path)
    file_handler.setFormatter(formatter)
    stream_handler = logging.StreamHandler()
    stream_handler.setFormatter(formatter)

    logger.addHandler(file_handler)
    logger.addHandler(stream_handler)
    logger.setLevel(logging.INFO)

    return logger

LookUpTable

Created with Raphaël 2.2.0 LookUpTable candidate_blocks, search_space _generate_layers_parameters calulate_latency? _create_from_operations End _create_from_file yes no

CANDIDATE_BLOCKS 列举了论文表2中的9种结构，详细参数在 PRIMITIVES 中。

Block type	expansion	Kernel	Group
k3_e1	1	3	1
k3_e1_g2	1	3	2
k3_e3	3	3	1
k3_e6	6	3	1
k5_e1	1	5	1
k5_e1_g2	1	5	2
k5_e3	3	5	1
k5_e6	6	5	1
skip	-	-	-

SEARCH_SPACE 对应论文表1网络结构（仅 TBS）。

Input shape	Block	f	n	s
$224^2 \times 3$	3x3 conv	16	1	2
$112^2 \times 16$	TBS	16	1	1
$112^2 \times 16$	TBS	24	4	2
$56^2 \times 24$	TBS	32	4	2
$28^2 \times 32$	TBS	64	4	2
$14^2 \times 64$	TBS	112	4	1
$14^2 \times 112$	TBS	184	4	2
$7^2 \times 184$	TBS	352	1	1
$7^2 \times 352$	1x1 conv	1984	1	1
$7^2 \times 1504~(1984)$	x7 avgpool	-	1	1
$1504$	fc	1000	1	-

由search_space的输入形状数量推断层数。
创建操作符字典self.lookup_table_operations。
_generate_layers_parameters 从 SEARCH_SPACE 中解析出层参数和输入参数。

    def __init__(self, candidate_blocks=CANDIDATE_BLOCKS, search_space=SEARCH_SPACE,
                 calulate_latency=False):
        self.cnt_layers = len(search_space["input_shape"])
        # constructors for each operation
        self.lookup_table_operations = {op_name : PRIMITIVES[op_name] for op_name in candidate_blocks}
        # arguments for the ops constructors. one set of arguments for all 9 constructors at each layer
        # input_shapes just for convinience
        self.layers_parameters, self.layers_input_shapes = self._generate_layers_parameters(search_space)

_create_from_operations 计算操作符的耗时并写入文件。

_read_lookup_table_from_file 从文件读取结果。

        # lookup_table
        self.lookup_table_latency = None
        if calulate_latency:
            self._create_from_operations(cnt_of_runs=CONFIG_SUPERNET['lookup_table']['number_of_runs'],
                                         write_to_file=CONFIG_SUPERNET['lookup_table']['path_to_lookup_table'])
        else:
            self._create_from_file(path_to_file=CONFIG_SUPERNET['lookup_table']['path_to_lookup_table'])

_generate_layers_parameters

_generate_layers_parameters 从search_space字典中读取参数，构造各层参数列表layers_parameters。这里的参数顺序需要与 PRIMITIVES 中一致。

        # layers_parameters are : C_in, C_out, expansion, stride
        layers_parameters = [(search_space["input_shape"][layer_id][0],
                              search_space["channel_size"][layer_id],
                              # expansion (set to -999) embedded into operation and will not be considered
                              # (look fbnet_building_blocks/fbnet_builder.py - this is facebookresearch code
                              # and I don't want to modify it)
                              -999,
                              search_space["strides"][layer_id]
                             ) for layer_id in range(self.cnt_layers)]
        
        # layers_input_shapes are (C_in, input_w, input_h)
        layers_input_shapes = search_space["input_shape"]
        
        return layers_parameters, layers_input_shapes

_create_from_operations

_calculate_latency

_write_lookup_table_to_file

        self.lookup_table_latency = self._calculate_latency(self.lookup_table_operations,
                                                            self.layers_parameters,
                                                            self.layers_input_shapes,
                                                            cnt_of_runs)
        if write_to_file is not None:
            self._write_lookup_table_to_file(write_to_file)

_calculate_latency

latency_table_layer_by_ops为每 TBS 创建一个字典，用于记录每个操作的耗时。
随机生成数据，globals() 返回表示当前全局符号表的字典。这始终是当前模块的字典（在函数或方法内部，这是定义它的模块，而不是调用它的模块）。
timeit.timeit 使用给定的语句、设置代码和计时器函数创建一个Timer 实例，并使用数字执行运行其 timeit() 方法。可选的globals参数指定用于执行代码的命名空间。

        LATENCY_BATCH_SIZE = 1
        latency_table_layer_by_ops = [{} for i in range(self.cnt_layers)]
        
        for layer_id in range(self.cnt_layers):
            for op_name in operations:
                op = operations[op_name](*layers_parameters[layer_id])
                input_sample = torch.randn((LATENCY_BATCH_SIZE, *layers_input_shapes[layer_id]))
                globals()['op'], globals()['input_sample'] = op, input_sample
                total_time = timeit.timeit('output = op(input_sample)', setup="gc.enable()", \
                                           globals=globals(), number=cnt_of_runs)
                # measured in micro-second
                latency_table_layer_by_ops[layer_id][op_name] = total_time / cnt_of_runs / LATENCY_BATCH_SIZE * 1e6
                
        return latency_table_layer_by_ops

_write_lookup_table_to_file

clear_files_in_the_list

add_text_to_file

clear_files_in_the_list 清空已有文件。
ops为操作符名称列表。第1行打印名称。

        clear_files_in_the_list([path_to_file])
        ops = [op_name for op_name in self.lookup_table_operations]
        text = [op_name + " " for op_name in ops[:-1]]
        text.append(ops[-1] + "\n")

打印操作符的耗时，每行为一个 TBS。
add_text_to_file 以文件形式保存结果。

        for layer_id in range(self.cnt_layers):
            for op_name in ops:
                text.append(str(self.lookup_table_latency[layer_id][op_name]))
                text.append(" ")
            text[-1] = "\n"
        text = text[:-1]
        
        text = ''.join(text)
        add_text_to_file(text, path_to_file)

_create_from_file

_read_lookup_table_from_file

        self.lookup_table_latency = self._read_lookup_table_from_file(path_to_file)

_read_lookup_table_from_file

从文件读取结果，第一行为名称。

        latences = [line.strip('\n') for line in open(path_to_file)]
        ops_names = latences[0].split(" ")
        latences = [list(map(float, layer.split(" "))) for layer in latences[1:]]
        
        lookup_table_latency = [{op_name : latences[i][op_id] 
                                      for op_id, op_name in enumerate(ops_names)
                                     } for i in range(self.cnt_layers)]
        return lookup_table_latency

get_loaders

随机裁减、翻转并标准化。

    train_transform = transforms.Compose([
        transforms.RandomCrop(32, padding=4),
        transforms.RandomHorizontalFlip(),
        transforms.ToTensor(),
        transforms.Normalize(CIFAR_MEAN, CIFAR_STD),
        ])
    train_data = datasets.CIFAR10(root=path_to_save_data, train=True, 
                                  download=True, transform=train_transform)

创建索引，划分数据集。
torch.utils.data.SubsetRandomSampler 从给定的索引列表中随机抽样元素，无需替换。

    num_train = len(train_data)                        # 50k
    indices = list(range(num_train))                   # 
    split = int(np.floor(train_portion * num_train))   # 40k
    
    train_idx, valid_idx = indices[:split], indices[split:]

    train_sampler = SubsetRandomSampler(train_idx)
    
    train_loader = torch.utils.data.DataLoader(
        train_data, batch_size=batch_size, sampler=train_sampler,
        pin_memory=True, num_workers=32)
    
    if train_portion == 1:
        return train_loader
    
    valid_sampler = SubsetRandomSampler(valid_idx)
    
    val_loader = torch.utils.data.DataLoader(
        train_data, batch_size=batch_size, sampler=train_sampler,
        pin_memory=True, num_workers=16)
    
    return train_loader, val_loader

get_test_loader

测试仅作归一化。

    test_transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize(CIFAR_MEAN, CIFAR_STD),
        ])
    
    test_data = datasets.CIFAR10(root=path_to_save_data, train=False,
                                 download=True, transform=test_transform)
    test_loader = torch.utils.data.DataLoader(test_data, batch_size=batch_size,
                                              shuffle=False, num_workers=16)
    return test_loader

FBNet_Stochastic_SuperNet

ConvBNRelu

MixedOperation

ConvBNRelu 构建基本模块，仅初始化了卷积参数。
torch.nn.ModuleList 将子模块保存在列表中。ModuleList 可以像常规 Python 列表一样编制索引，但它包含的模块已正确注册，并且所有 Module 方法都可以看到它们。
MixedOperation 运行操作符列表并求延迟加权和。

    def __init__(self, lookup_table, cnt_classes=1000):
        super(FBNet_Stochastic_SuperNet, self).__init__()
        
        # self.first identical to 'add_first' in the fbnet_building_blocks/fbnet_builder.py
        self.first = ConvBNRelu(input_depth=3, output_depth=16, kernel=3, stride=2,
                                pad=3 // 2, no_bias=1, use_relu="relu", bn_type="bn")
        self.stages_to_search = nn.ModuleList([MixedOperation(
                                                   lookup_table.layers_parameters[layer_id],
                                                   lookup_table.lookup_table_operations,
                                                   lookup_table.lookup_table_latency[layer_id])
                                               for layer_id in range(lookup_table.cnt_layers)])
        self.last_stages = nn.Sequential(OrderedDict([
            ("conv_k1", nn.Conv2d(lookup_table.layers_parameters[-1][1], 1504, kernel_size = 1)),
            ("avg_pool_k7", nn.AvgPool2d(kernel_size=7)),
            ("flatten", Flatten()),
            ("fc", nn.Linear(in_features=1504, out_features=cnt_classes)),
        ]))

forward

网络抽象为：

first

stages_to_search

last_stages

        y = self.first(x)
        for mixed_op in self.stages_to_search:
            y, latency_to_accumulate = mixed_op(y, temperature, latency_to_accumulate)
        y = self.last_stages(y)
        return y, latency_to_accumulate

MixedOperation

MixedOperation 根据proposed_operations字典构建操作列表、延迟列表及相应参数。
提取出proposed_operations的键得到列表ops_names。latency为字典。

    # Arguments:
    # proposed_operations is a dictionary {operation_name : op_constructor}
    # latency is a dictionary {operation_name : latency}
    def __init__(self, layer_parameters, proposed_operations, latency):
        super(MixedOperation, self).__init__()
        ops_names = [op_name for op_name in proposed_operations]
        
        self.ops = nn.ModuleList([proposed_operations[op_name](*layer_parameters)
                                  for op_name in ops_names])
        self.latency = [latency[op_name] for op_name in ops_names]
        self.thetas = nn.Parameter(torch.Tensor([1.0 / len(ops_names) for i in range(len(ops_names))]))

forward

$\begin{aligned} m_{l, i} & = \text{GumbelSoftmax}(\theta_{l, i}|\mathrm{\theta_{l}}) \\ & = \frac{\exp[(\theta_{l,i} + g_{l,i})/\tau]}{\sum_i \exp[(\theta_{l,i} + g_{l,i})/\tau]}, \end{aligned}$
$\begin{aligned} x_{l+1} = \sum_i m_{l, i} \cdot b_{l, i}(x_{l}), \end{aligned}$
$\begin{aligned} \text{LAT}(a) = \sum_l \sum_i m_{l,i} \cdot \text{LAT} (b_{l,i}). \end{aligned}$
torch.nn.functional.gumbel_softmax 从 Gumbel-Softmax 分布（[Concrete Distribution] [Gumbel-Softmax]）采样，并可选择离散化。

参数：

logits：[…, num_features]未标准化的概率对数
tau：非负标量温度
hard：如果为True，则返回的样本将被离散化为 one-hot 矢量，但可微，就好像它是 autograd 中的软样本一样
dim(int)：计算 softmax 的维数。默认值：-1。

返回：
采样与logits形状相同的张量，服从 Gumbel-Softmax 分布。如果hard=True，则返回的样本将是独热的，否则它们将是各dim概率和为1的概率分布。

此函数出于遗留原因，可能会在将来从 nn.Functional 中删除。

hard的主要技巧是做 y_hard - y_soft.detach() + y_soft
它实现了两件事：

使输出值完全独热（因为我们加然后减去 y_soft 值）
使梯度等于 y_soft 梯度（因为我们剥离所有其他梯度）

这里self.thetas需要加 torch.Tensor.unsqueeze 操作变成2维。

        soft_mask_variables = nn.functional.gumbel_softmax(self.thetas, temperature)
        output  = sum(m * op(x) for m, op in zip(soft_mask_variables, self.ops))
        latency = sum(m * lat for m, lat in zip(soft_mask_variables, self.latency))
        latency_to_accumulate = latency_to_accumulate + latency
        return output, latency_to_accumulate

weights_init

weights_init 仅初始化卷积和全连接。

    if deepth > max_depth:
        return
    if isinstance(m, torch.nn.Conv2d):
        torch.nn.init.kaiming_uniform_(m.weight.data)
        if m.bias is not None:
            torch.nn.init.constant_(m.bias.data, 0)
    elif isinstance(m, torch.nn.Linear):
        m.weight.data.normal_(0, 0.01)
        if m.bias is not None:
            m.bias.data.zero_()
    elif isinstance(m, torch.nn.BatchNorm2d):
        return
    elif isinstance(m, torch.nn.ReLU):
        return
    elif isinstance(m, torch.nn.Module):
        deepth += 1
        for m_ in m.modules():
            weights_init(m_, deepth)
    else:
        raise ValueError("%s is unk" % m.__class__.__name__)

SupernetLoss

    def __init__(self):
        super(SupernetLoss, self).__init__()
        self.alpha = CONFIG_SUPERNET['loss']['alpha']
        self.beta = CONFIG_SUPERNET['loss']['beta']
        self.weight_criterion = nn.CrossEntropyLoss()

forward

$\begin{aligned} \mathcal{L}(a, w_a) = \text{ CE}(a, w_a) \cdot \alpha \log(\text{LAT}(a))^\beta. \end{aligned}$

需要对torch.log(latency ** self.beta)求均值。

self.beta应放在外面，否则会失去作用。

        ce = self.weight_criterion(outs, targets)
        lat = torch.log(latency ** self.beta)
        
        losses_ce.update(ce.item(), N)
        losses_lat.update(lat.item(), N)
        
        loss = self.alpha * ce * lat
        return loss #.unsqueeze(0)

TrainerSupernet

AverageMeter 能够累积数据求均值。

    def __init__(self, criterion, w_optimizer, theta_optimizer, w_scheduler, logger, writer):
        self.top1       = AverageMeter()
        self.top3       = AverageMeter()
        self.losses     = AverageMeter()
        self.losses_lat = AverageMeter()
        self.losses_ce  = AverageMeter()
        
        self.logger = logger
        self.writer = writer
        
        self.criterion = criterion
        self.w_optimizer = w_optimizer
        self.theta_optimizer = theta_optimizer
        self.w_scheduler = w_scheduler
        
        self.temperature                 = CONFIG_SUPERNET['train_settings']['init_temperature']
        self.exp_anneal_rate             = CONFIG_SUPERNET['train_settings']['exp_anneal_rate'] # apply it every epoch
        self.cnt_epochs                  = CONFIG_SUPERNET['train_settings']['cnt_epochs']
        self.train_thetas_from_the_epoch = CONFIG_SUPERNET['train_settings']['train_thetas_from_the_epoch']
        self.print_freq                  = CONFIG_SUPERNET['train_settings']['print_freq']
        self.path_to_save_model          = CONFIG_SUPERNET['train_settings']['path_to_save_model']

train_loop

_training_step

_validate

首先训练网络权重self.train_thetas_from_the_epoch个 epoch。
调用 _training_step 一次训练一个 epoch，名字不具有表现力。

        
        best_top1 = 0.0
        
        # firstly, train weights only
        for epoch in range(self.train_thetas_from_the_epoch):
            self.writer.add_scalar('learning_rate/weights', self.w_optimizer.param_groups[0]['lr'], epoch)
            
            self.logger.info("Firstly, start to train weights for epoch %d" % (epoch))
            self._training_step(model, train_w_loader, self.w_optimizer, epoch, info_for_logger="_w_step_")
            self.w_scheduler.step()

然后交替训练权重和结构。交替更新一定程度上降低了效率。

        for epoch in range(self.train_thetas_from_the_epoch, self.cnt_epochs):
            self.writer.add_scalar('learning_rate/weights', self.w_optimizer.param_groups[0]['lr'], epoch)
            self.writer.add_scalar('learning_rate/theta', self.theta_optimizer.param_groups[0]['lr'], epoch)
            
            self.logger.info("Start to train weights for epoch %d" % (epoch))
            self._training_step(model, train_w_loader, self.w_optimizer, epoch, info_for_logger="_w_step_")
            self.w_scheduler.step()
            
            self.logger.info("Start to train theta for epoch %d" % (epoch))
            self._training_step(model, train_thetas_loader, self.theta_optimizer, epoch, info_for_logger="_theta_step_")
            
            top1_avg = self._validate(model, test_loader, epoch)
            if best_top1 < top1_avg:
                best_top1 = top1_avg
                self.logger.info("Best top1 acc by now. Save model")
                save(model, self.path_to_save_model)
            
            self.temperature = self.temperature * self.exp_anneal_rate

_training_step

需要显式构造latency_to_accumulate变量，且元素与设备数量相同。

_intermediate_stats_logging 记录损失、top1、top3、交叉熵以及延迟。
_epoch_stats_logging 记录 epoch 状态信息到 tensorboard。

        model = model.train()
        start_time = time.time()
        
        for step, (X, y) in enumerate(loader):
            X, y = X.cuda(non_blocking=True), y.cuda(non_blocking=True)
            # X.to(device, non_blocking=True), y.to(device, non_blocking=True)
            N = X.shape[0]
            
            optimizer.zero_grad()
            latency_to_accumulate = Variable(torch.Tensor([[0.0]]), requires_grad=True).cuda()
            outs, latency_to_accumulate = model(X, self.temperature, latency_to_accumulate)
            loss = self.criterion(outs, y, latency_to_accumulate, self.losses_ce, self.losses_lat, N)
            loss.backward()
            optimizer.step()
            
            self._intermediate_stats_logging(outs, y, loss, step, epoch, N, len_loader=len(loader), val_or_train="Train")
        
        self._epoch_stats_logging(start_time=start_time, epoch=epoch, info_for_logger=info_for_logger, val_or_train='train')
        for avg in [self.top1, self.top3, self.losses]:
            avg.reset()

_validate

验证准确率。

        model.eval()
        start_time = time.time()

        with torch.no_grad():
            for step, (X, y) in enumerate(loader):
                X, y = X.cuda(), y.cuda()
                N = X.shape[0]
                
                latency_to_accumulate = torch.Tensor([[0.0]]).cuda()
                outs, latency_to_accumulate = model(X, self.temperature, latency_to_accumulate)
                loss = self.criterion(outs, y, latency_to_accumulate, self.losses_ce, self.losses_lat, N)

                self._intermediate_stats_logging(outs, y, loss, step, epoch, N, len_loader=len(loader), val_or_train="Valid")
                
        top1_avg = self.top1.get_avg()
        self._epoch_stats_logging(start_time=start_time, epoch=epoch, val_or_train='val')
        for avg in [self.top1, self.top3, self.losses]:
            avg.reset()
        return top1_avg

_intermediate_stats_logging

accuracy 计算准确率。

        prec1, prec3 = accuracy(outs, y, topk=(1, 5))
        self.losses.update(loss.item(), N)
        self.top1.update(prec1.item(), N)
        self.top3.update(prec3.item(), N)

如果迭代数满足打印间隔或者是最后一次则记录信息。

        if (step > 1 and step % self.print_freq == 0) or step == len_loader - 1:
            self.logger.info(val_or_train+
               ": [{:3d}/{}] Step {:03d}/{:03d} Loss {:.3f} "
               "Prec@(1,3) ({:.1%}, {:.1%}), ce_loss {:.3f}, lat_loss {:.3f}".format(
                   epoch + 1, self.cnt_epochs, step, len_loader - 1, self.losses.get_avg(),
                   self.top1.get_avg(), self.top3.get_avg(), self.losses_ce.get_avg(), self.losses_lat.get_avg()))

_epoch_stats_logging

记录 epoch 状态信息到 tensorboard。

        self.writer.add_scalar('train_vs_val/'+val_or_train+'_loss'+info_for_logger, self.losses.get_avg(), epoch)
        self.writer.add_scalar('train_vs_val/'+val_or_train+'_top1'+info_for_logger, self.top1.get_avg(), epoch)
        self.writer.add_scalar('train_vs_val/'+val_or_train+'_top3'+info_for_logger, self.top3.get_avg(), epoch)
        self.writer.add_scalar('train_vs_val/'+val_or_train+'_losses_lat'+info_for_logger, self.losses_lat.get_avg(), epoch)
        self.writer.add_scalar('train_vs_val/'+val_or_train+'_losses_ce'+info_for_logger, self.losses_ce.get_avg(), epoch)
        
        top1_avg = self.top1.get_avg()
        self.logger.info(info_for_logger+val_or_train + ": [{:3d}/{}] Final Prec@1 {:.4%} Time {:.2f}".format(
            epoch+1, self.cnt_epochs, top1_avg, time.time() - start_time))

accuracy

torch.topk 返回给定输入张量沿给定维度的k个最大元素。如果未给定dim，则选择输入的最后一个维度。如果largest为False，则返回k个最小元素。返回(values, indices)的命名元组，其中索引是原始输入张量中元素的索引。如果布尔值选项sorted为True，则将确保返回的k个元素本身已排序。

    """ Computes the precision@k for the specified values of k """
    maxk = max(topk)
    batch_size = target.size(0)

    _, pred = output.topk(maxk, 1, True, True)
    pred = pred.t()
    # one-hot case
    if target.ndimension() > 1:
        target = target.max(1)[1]

    correct = pred.eq(target.view(1, -1).expand_as(pred))

    res = []
    for k in topk:
        correct_k = correct[:k].view(-1).float().sum(0)
        res.append(correct_k.mul_(1.0 / batch_size))

    return res

PRIMITIVES

    "skip": lambda C_in, C_out, expansion, stride, **kwargs: Identity(
        C_in, C_out, stride
    ),
    "ir_k3": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, expansion, stride, **kwargs
    ),
    "ir_k5": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, expansion, stride, kernel=5, **kwargs
    ),
    "ir_k7": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, expansion, stride, kernel=7, **kwargs
    ),
    "ir_k1": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, expansion, stride, kernel=1, **kwargs
    ),
    "shuffle": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, expansion, stride, shuffle_type="mid", pw_group=4, **kwargs
    ),
    "basic_block": lambda C_in, C_out, expansion, stride, **kwargs: CascadeConv3x3(
        C_in, C_out, stride
    ),
    "shift_5x5": lambda C_in, C_out, expansion, stride, **kwargs: ShiftBlock5x5(
        C_in, C_out, expansion, stride
    ),
    # layer search 2
    "ir_k3_e1": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 1, stride, kernel=3, **kwargs
    ),
    "ir_k3_e3": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 3, stride, kernel=3, **kwargs
    ),
    "ir_k3_e6": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 6, stride, kernel=3, **kwargs
    ),
    "ir_k3_s4": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 4, stride, kernel=3, shuffle_type="mid", pw_group=4, **kwargs
    ),
    "ir_k5_e1": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 1, stride, kernel=5, **kwargs
    ),
    "ir_k5_e3": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 3, stride, kernel=5, **kwargs
    ),
    "ir_k5_e6": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 6, stride, kernel=5, **kwargs
    ),
    "ir_k5_s4": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 4, stride, kernel=5, shuffle_type="mid", pw_group=4, **kwargs
    ),
    # layer search se
    "ir_k3_e1_se": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 1, stride, kernel=3, se=True, **kwargs
    ),
    "ir_k3_e3_se": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 3, stride, kernel=3, se=True, **kwargs
    ),
    "ir_k3_e6_se": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 6, stride, kernel=3, se=True, **kwargs
    ),
    "ir_k3_s4_se": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in,
        C_out,
        4,
        stride,
        kernel=3,
        shuffle_type="mid",
        pw_group=4,
        se=True,
        **kwargs
    ),
    "ir_k5_e1_se": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 1, stride, kernel=5, se=True, **kwargs
    ),
    "ir_k5_e3_se": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 3, stride, kernel=5, se=True, **kwargs
    ),
    "ir_k5_e6_se": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 6, stride, kernel=5, se=True, **kwargs
    ),
    "ir_k5_s4_se": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in,
        C_out,
        4,
        stride,
        kernel=5,
        shuffle_type="mid",
        pw_group=4,
        se=True,
        **kwargs
    ),
    # layer search 3 (in addition to layer search 2)
    "ir_k3_s2": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 1, stride, kernel=3, shuffle_type="mid", pw_group=2, **kwargs
    ),
    "ir_k5_s2": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 1, stride, kernel=5, shuffle_type="mid", pw_group=2, **kwargs
    ),
    "ir_k3_s2_se": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in,
        C_out,
        1,
        stride,
        kernel=3,
        shuffle_type="mid",
        pw_group=2,
        se=True,
        **kwargs
    ),
    "ir_k5_s2_se": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in,
        C_out,
        1,
        stride,
        kernel=5,
        shuffle_type="mid",
        pw_group=2,
        se=True,
        **kwargs
    ),
    # layer search 4 (in addition to layer search 3)
    "ir_k3_sep": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, expansion, stride, kernel=3, cdw=True, **kwargs
    ),
    "ir_k33_e1": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 1, stride, kernel=3, cdw=True, **kwargs
    ),
    "ir_k33_e3": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 3, stride, kernel=3, cdw=True, **kwargs
    ),
    "ir_k33_e6": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 6, stride, kernel=3, cdw=True, **kwargs
    ),
    # layer search 5 (in addition to layer search 4)
    "ir_k7_e1": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 1, stride, kernel=7, **kwargs
    ),
    "ir_k7_e3": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 3, stride, kernel=7, **kwargs
    ),
    "ir_k7_e6": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 6, stride, kernel=7, **kwargs
    ),
    "ir_k7_sep": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, expansion, stride, kernel=7, cdw=True, **kwargs
    ),
    "ir_k7_sep_e1": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 1, stride, kernel=7, cdw=True, **kwargs
    ),
    "ir_k7_sep_e3": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 3, stride, kernel=7, cdw=True, **kwargs
    ),
    "ir_k7_sep_e6": lambda C_in, C_out, expansion, stride, **kwargs: IRFBlock(
        C_in, C_out, 6, stride, kernel=7, cdw=True, **kwargs
    ),
}

ConvBNRelu

ConvBNRelu 模块选项很多，可设置不使用 BN，或者使用 FrozenBatchNorm2d。相对来说，nn.BatchNorm2d(C_out, affine=affine)更常见一些。

    def __init__(
        self,
        input_depth,
        output_depth,
        kernel,
        stride,
        pad,
        no_bias,
        use_relu,
        bn_type,
        group=1,
        *args,
        **kwargs
    ):
        super(ConvBNRelu, self).__init__()

        assert use_relu in ["relu", None]
        if isinstance(bn_type, (list, tuple)):
            assert len(bn_type) == 2
            assert bn_type[0] == "gn"
            gn_group = bn_type[1]
            bn_type = bn_type[0]
        assert bn_type in ["bn", "af", "gn", None]
        assert stride in [1, 2, 4]

        op = Conv2d(
            input_depth,
            output_depth,
            kernel_size=kernel,
            stride=stride,
            padding=pad,
            bias=not no_bias,
            groups=group,
            *args,
            **kwargs
        )
        nn.init.kaiming_normal_(op.weight, mode="fan_out", nonlinearity="relu")
        if op.bias is not None:
            nn.init.constant_(op.bias, 0.0)
        self.add_module("conv", op)

        if bn_type == "bn":
            bn_op = BatchNorm2d(output_depth)
        elif bn_type == "gn":
            bn_op = nn.GroupNorm(num_groups=gn_group, num_channels=output_depth)
        elif bn_type == "af":
            bn_op = FrozenBatchNorm2d(output_depth)
        if bn_type is not None:
            self.add_module("bn", bn_op)

        if use_relu == "relu":
            self.add_module("relu", nn.ReLU(inplace=True))

sample_architecture_from_the_supernet

Created with Raphaël 2.2.0 sample_architecture_from_the_supernet verification get_logger LookUpTable FBNet_Stochastic_SuperNet load hardsampling？ writh_new_ARCH_to_fbnet_modeldef End softmax yes no

加载模型。由于 save 保存的是 torch.nn.DataParallel 类型的模型，所以
load 的输入也需保持一致。其属性module为原模型。

    logger = get_logger(CONFIG_SUPERNET['logging']['path_to_log_file'])
    
    lookup_table = LookUpTable()
    model = FBNet_Stochastic_SuperNet(lookup_table, cnt_classes=10).cuda()
    model = nn.DataParallel(model)

    load(model, CONFIG_SUPERNET['train_settings']['path_to_save_model'])

    ops_names = [op_name for op_name in lookup_table.lookup_table_operations]
    cnt_ops = len(ops_names)

numpy.linspace 在指定的间隔内返回均匀间隔的数字。
scipy.special.softmax
如果是hardsampling，每个 TBS 直接取 $\theta$ 最大的操作符；否则计算概率：
$\begin{aligned} P_{\mathrm{\theta}_{l}}(b_l = b_{l,i}) = \text{softmax}(\theta_{l,i}; \mathrm{\theta}_l) = \frac{\exp(\theta_{l,i})}{\sum_i \exp(\theta_{l,i})}. \end{aligned} \begin{aligned} P_{\mathrm{\theta}}(a) = \prod_l P_{\mathrm{\theta}_l} (b_l = b_{l,i}^{(a)}), \end{aligned}$
writh_new_ARCH_to_fbnet_modeldef

    arch_operations=[]
    if hardsampling:
        for layer in model.module.stages_to_search:
            arch_operations.append(ops_names[np.argmax(layer.thetas.detach().cpu().numpy())])
    else:
        rng = np.linspace(0, cnt_ops - 1, cnt_ops, dtype=int)
        for layer in model.module.stages_to_search:
            distribution = softmax(layer.thetas.detach().cpu().numpy())
            arch_operations.append(ops_names[np.random.choice(rng, p=distribution)])
    
    logger.info("Sampled Architecture: " + " - ".join(arch_operations))
    writh_new_ARCH_to_fbnet_modeldef(arch_operations, my_unique_name_for_ARCH=unique_name_of_arch)
    logger.info("CONGRATULATIONS! New architecture " + unique_name_of_arch \
                + " was written into fbnet_building_blocks/fbnet_modeldef.py")

load

    model.load_state_dict(torch.load(model_path))

writh_new_ARCH_to_fbnet_modeldef

MODEL_ARCH 用于保存模型结构。
检查名字是否已存在。

    assert len(ops_names) == 22
    if my_unique_name_for_ARCH in MODEL_ARCH:
        print("The specification with the name", my_unique_name_for_ARCH, "already written \
              to the fbnet_building_blocks.fbnet_modeldef. Please, create a new name \
              or delete the specification from fbnet_building_blocks.fbnet_modeldef (by hand)")
        assert my_unique_name_for_ARCH not in MODEL_ARCH

将ops_names转为字符串列表ops，进一步按 stage 分组拼接为ops_lines

    ### create text to insert
    
    text_to_write = "    \"" + my_unique_name_for_ARCH + "\": {\n\
            \"block_op_type\": [\n"

    ops = ["[\"" + str(op) + "\"], " for op in ops_names]
    ops_lines = [ops[0], ops[1:5], ops[5:9], ops[9:13], ops[13:17], ops[17:21], ops[21]]
    ops_lines = [''.join(line) for line in ops_lines]
    text_to_write += '            ' + '\n            '.join(ops_lines)

记录每次的维度信息。e即 expantion_ratio。

    e = [(op_name[-1] if op_name[-2] == 'e' else '1') for op_name in ops_names]

    text_to_write += "\n\
            ],\n\
            \"block_cfg\": {\n\
                \"first\": [16, 2],\n\
                \"stages\": [\n\
                    [["+e[0]+", 16, 1, 1]],                                                        # stage 1\n\
                    [["+e[1]+", 24, 1, 2]],  [["+e[2]+", 24, 1, 1]],  \
    [["+e[3]+", 24, 1, 1]],  [["+e[4]+", 24, 1, 1]],  # stage 2\n\
                    [["+e[5]+", 32, 1, 2]],  [["+e[6]+", 32, 1, 1]],  \
    [["+e[7]+", 32, 1, 1]],  [["+e[8]+", 32, 1, 1]],  # stage 3\n\
                    [["+e[9]+", 64, 1, 2]],  [["+e[10]+", 64, 1, 1]],  \
    [["+e[11]+", 64, 1, 1]],  [["+e[12]+", 64, 1, 1]],  # stage 4\n\
                    [["+e[13]+", 112, 1, 1]], [["+e[14]+", 112, 1, 1]], \
    [["+e[15]+", 112, 1, 1]], [["+e[16]+", 112, 1, 1]], # stage 5\n\
                    [["+e[17]+", 184, 1, 2]], [["+e[18]+", 184, 1, 1]], \
    [["+e[19]+", 184, 1, 1]], [["+e[20]+", 184, 1, 1]], # stage 6\n\
                    [["+e[21]+", 352, 1, 1]],                                                       # stage 7\n\
                ],\n\
                \"backbone\": [num for num in range(23)],\n\
            },\n\
        },\n\
}\
"

读取./fbnet_building_blocks/fbnet_modeldef.py，追加后写入。
需要跳过末尾的右括号。
next 通过调用 _next_() 方法从迭代器中检索下一个项。如果给定default，则在迭代器耗尽时返回，否则引发 StopIteration。

    ### open file and find place to insert
    with open('./fbnet_building_blocks/fbnet_modeldef.py') as f1:
        lines = f1.readlines()
    end_of_MODEL_ARCH_id = next(i for i in reversed(range(len(lines))) if lines[i].strip() == '}')
    text_to_write = lines[:end_of_MODEL_ARCH_id] + [text_to_write]
    with open('./fbnet_building_blocks/fbnet_modeldef.py', 'w') as f2:
        f2.writelines(text_to_write)

参考资料：

Lambda Lambda Lambda
Print lists in Python (4 Different Ways)
Optional: Data Parallelism

你可能感兴趣的:(DeepLearning,NAS,NAS,AutoML,架构搜索,PyTorch)

NX636NX644美光固态闪存NX663NX665 18922804861 人工智能性能优化大数据服务器网络
美光固态闪存深度解析：NX636、NX644、NX663、NX665全面评测技术架构与核心性能美光NX636、NX644、NX663、NX665系列固态闪存均基于176层3DTLCNAND技术，采用美光自研主控芯片，支持PCIe4.0协议，理论带宽可达16GT/s。其中，NX665作为旗舰型号，连续读取速度突破7.4GB/s，随机写入性能较NX636提升约40%，相当于从“自行车道”升级至“高速公
NX585NX586美光固态闪存NX633NX635
美光NX系列固态闪存深度解析：技术、性能与市场洞察一、技术架构与核心创新美光NX系列固态闪存（如NX585、NX586、NX633、NX635）的技术根基源于其G9NAND技术平台，通过优化晶体管结构与制程工艺，显著提升存储密度与读写速度。例如，NX585的MT29F8T08GUCAG芯片在顺序读取速度上达到7.4GB/s，相当于每秒传输超过1.4万张高清照片。这一性能表现得益于多通道交互设计和动
Arraylist与LinkedList区别雪碧聊技术 Java八股文 ArrayList LinkedList
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
Android Jetpack Compose + MVI 开发流程深度分析你过来啊你 android compose mvi
MVI架构核心原理MVI（Model-View-Intent）是一种基于单向数据流的架构模式，其核心组件关系如下：[View]--Intents-->[ViewModel]--States-->[View]||用户交互事件处理业务逻辑||[View]=emptyList(),valisLoading:Boolean=false,valerror:String?=null,valnewTodoTit
CA复习功课陈小铃子 linux 运维服务器云原生
RHCSA复习笔记（完善版）一、文件管理创建文件/目录：touch[文件名]：创建空文件或更新现有文件时间戳。mkdir[目录名]：创建目录。常用选项：-p递归创建多级目录。查看文件/目录：ls[选项][文件/目录]：列出目录内容。常用选项：-l详细列表，-a显示隐藏文件，-h人性化大小显示。cat[文件名]：查看文件内容（小文件），无法翻页。less[文件名]：分页查看文件内容，支持搜索（/），
家庭服务具身智能机器人体系架构
硬件方面：差速移动机器人+六轴协作机械臂，软件方面选择ROS系统：底盘控制move_group，机械臂操纵MoveIt，大模型方面采用VLM+LLM：（1）视觉语言模型（VLM），用来实现环境理解与指令解析，候选模型为LLaVA和Qwen-VL。微调VLM需要2~4周，工作量主要是准备环境数据和标注期望输出。（2）大语言模型（LLM），用来实现任务分解与技能调用，候选工具有LangChain（任务
AWS架构师咸鱼一条_o.0?! aws 云计算
AWS架构师部分定义S3（S3存储桶）EC2弹性计算云EBS弹性块存储SNAPSHOT快照AMI：EC2镜像ELB弹性负载均衡器EFSDATABASEDATAWAREHOUSEOLTPOLAPElastiCacheVPCRoute53部分定义UserGroup:用户组下的用户继承该用户组所有权限Policy：Jasonformat：类似文字描述，指定object的类型。给user和group提供权
返利app排行榜？淘宝优惠券返利app哪个好桃朵APP
顶级互联网营销大牛东方微信号：26688专注互联网副业20年。强！（联系我可以开营销号）也就是桃朵APP（直接应用市场搜索：桃朵邀请码：123456）也就是乖淘APP（直接应用市场搜索：乖淘邀请码：123456）桃朵APP&乖淘APP创始人-东方微信号：（26688）专注网络引流20年。带过百万团队，徒弟年入百万者有30人。独立开发桃朵APP：对接首席，佣金全网最高，团队收入最高，模式最好，有引流
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
一文弄懂开源大型语言模型 (LLM) 应用程序开发平台--Dify Llama-Turbo AI大模型程序员 LLM 人工智能大模型 dify
Dify简介Dify是一个开源大型语言模型(LLM)应用程序开发平台，旨在弥合AI应用程序原型设计与生产部署之间的差距。本文为希望了解或扩展该平台的开发者和技术用户提供了Dify架构、组件和功能的技术概述。平台概述Dify提供端到端解决方案，通过可视化工具和API的组合，构建基于LLM的应用程序。其架构旨在支持AI应用程序开发的整个生命周期，包括模型集成、提示、知识管理、工作流编排和部署。主要特点
拼多多返利app叫什么,拼多多返利软件哪个最好一起高省
拼多多返利app叫高省佣金更高应用市场搜索高省高省码333888（助力新人送皇冠会员送千元礼包百度霸屏拉群后台找我）关于聪明的网购人来说，肯定会想到用返利软件来网购，但是现在返利软件太多了，哪个返利软件返利蕞高?哪个返利app的功能蕞强壮?这是咱们蕞关心的。今日就为我们引荐一个2022年返利佣钱蕞高的app软件，他不只可以返利省钱，蕞要害的是你还可以利用它来挣钱。2022年这个返利软件太火爆了!!
什么是arm-arm体系架构版本(指令集版本)-arm内核版本众里寻佳千百度1995 嵌入式-linux
1、什么是arm？arm公司：是英国一家电子公司的名字，该公司成立于1990年11月，是苹果电脑，Acorn电脑集团和VLSITechnology的合资企业。Acorn曾在1985年推出世界上首个商用单芯片RISC（ReducedInstructionSetComputing）处理器。ARM主要出售芯片设计技术的授权。ARM处理器：英国Acorn有限公司设计的低功耗成本的第一款RISC微处理器。全
手机赚钱软件哪个可靠?怎么用手机赚零花钱? 好项目高省
目前市面上有很多手机赚钱软件，但并不都是可靠的。建议用户在下载和使用这些软件前，先做好以下几点：京东618红包领取方法：打开京东搜索：“最爱领红包828”或者“红包多多148”，即可进入领取超级红包淘宝618红包领取方法：打开淘宝搜索：“开心就好665”，即可进入领取超级红包1.了解软件的开发商和运营情况。选择知名开发商或公司推出的软件，避免因为开发商或公司的信誉问题而带来风险。2.查看软件的权限
ARM指令集--简介小蘑菇二号 arm 指令集
目录1ARM指令集特点2ARM指令集分类3指令格式ARM指令集是专为ARM架构处理器设计的一系列机器指令集合。ARM（AdvancedRISCMachines）以其精简指令集计算机（RISC）设计理念为基础，提供了高效、低功耗的指令系统。ARM指令集历经多个版本迭代，目前最新的主流版本包括ARMv8-A（支持AArch64和AArch32两种执行状态）。1ARM指令集特点-**精简指令集**：指令
Python FastMCP：让你的AI工具链飞起来
PythonFastMCP：让你的AI工具链飞起来FastMCPFastMCP是什么？1.工具(Tools)：赋予LLM执行能力2.Resources（资源）：安全数据通道3.Prompts（提示模板）：标准化LLM交互4.组件协同：构建项目AI工具链5.部署架构与性能优化博主热门文章推荐：官方文档：FastMCP官方文档：https://gofastmcp.com/MCP协议规范：https:/
如何高效Bug跟踪与管理方法海姐软件测试缺陷管理 bug
在软件测试过程中，Bug的跟踪与管理直接影响项目质量和团队协作效率。结合多年测试经验，我总结了一套完整的Bug管理流程，涵盖工具使用、团队协作和优化策略。1.Bug管理核心流程（1）Bug提交阶段标准化缺陷报告（参考我上一篇回答：缺陷报告应包含哪些内容？）工具选择：Jira（适合敏捷团队，支持自定义工作流）禅道（国产开源，适合中小团队）Bugzilla（传统但稳定，适合C/S架构项目）（2）Bug
2025乐彩V8影视系统技术解析：双端原生架构与双H5免签封装实战双端原生+双H5免签封装+TV级性能优化，一套代码打通全终端生态 CH资源网ch-h点cn（测评师）架构性能优化
1.双端原生实现方案Android端：基于Kotlin+JetpackCompose架构，深度优化ExoPlayer内核，支持4KHDR硬解与DRM加密流iOS端：Swift+SwiftUI构建，集成AVFoundation定制播放器，实现画中画与杜比全景声支持TV专属优化：针对AndroidTV和AppleTV分别实现焦点引擎和遥控器键位映射452.双H5站免签封装方案系统创新性地实现双H5站点
前端Vue自定义顶部搜索框热门搜索历史搜索用于搜索跳转使用前端组件分享
前端Vue自定义顶部搜索框热门搜索历史搜索用于搜索跳转使用，下载完整代码请访问uni-app插件市场地址：https://ext.dcloud.net.cn/plugin?id=13128效果图如下：####自定义顶部搜索框用于搜索跳转使用方法```使用方法```####HTML代码实现部分```htmlimportCCBProjectListfrom'../../components/CCPro
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
iOS组件化详解 ideal树叶 iOS objective-c swift ios
一、为什么要做组件化开发？在iOS项目迭代过程中，随着业务复杂度提升、团队规模扩大，传统单体架构会逐渐暴露以下问题：代码耦合严重：模块间直接依赖（如#import"XXViewController.h"），改一处动全身，维护成本高；团队协作低效：多人开发同一仓库易冲突，代码合并成本高；编译速度慢：单工程代码量过大，每次编译需全量处理，耗时久；复用性差：功能模块无法单独抽离复用（如登录模块在多APP
阿里通义千问Qwen3深夜升级：架构革新+性能碾压俊哥V AI AI新闻热点由AI辅助创作 AI 人工智能
（以下借助DeepSeek-R1&Grok3辅助整理）北京时间2025年7月22日凌晨，阿里云通义千问团队发布了Qwen3旗舰模型的最新更新——Qwen3-235B-A22B-Instruct-2507-FP8。这一更新不仅在性能上实现了突破，还标志着开源大模型技术架构的重大进化。本报告基于官方发布信息、社区反馈以及相关分析，全面解读该更新的技术细节、性能表现、社区反应及未来展望。一、技术架构与战
大模型记忆灾难优化：分层存储架构与7B参数实战调优 AI咸鱼保护协会架构人工智能 AI gpu算力 gpu
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。大模型在处理长对话时遭遇的“健忘症”并非无解，智能分层存储架构正成为突破上下文限制的工程利刃。近年来，大型语言模型在文本生成、复杂推理等任务上展现出惊人能力，但其固定长度上下文窗口导致的“记忆灾难”日益凸显。当对话轮次或文档长度超出限制，关键信息被无情挤出，模型表现急剧下降——在
小架构step系列19：请求和响应秋千码途架构
1概述作为Web程序，通用形式是发起HTTP请求并获取返回的结果，在这个过程中，需要把请求映射到代码的接口上，提供这种接口的类一般称为Controller，也就是需要把请求映射到Controller的接口方法上，把请求的参数映射到接口的参数中，并从接口返回接口处理的结果。在后端渲染页面的场景中，返回的结果需要处理为视图View。而现在更普遍的是前后端分离，返回的结果一般处理为JSON格式的数据，前
iOS加固工具有哪些？从零源码到深度混淆的全景解读 2501_91590906 ios 小程序 uni-app iphone android webview https
在iOS安全加固领域，不同项目类型对保护需求有着本质差异：“我有源码”与“我只有IPA”两条路径决定了你该用什么工具。本文将从无需源码处理整个IPA包到源码级编译期混淆，分层探讨主流工具如何发挥价值，并附上适配方案建议。工具能力全览：哪些工具适合哪些场景？工具需改源码加固方式支持架构适用场景IpaGuard否IPA级符号+资源混淆OC/Swift/Flutter/H5无源码项目、外包交付obfus
什么是GPT-4T？亿只小灿灿人工智能 GPT-4T
1.引言：GPT-4T概述GPT-4T是OpenAI开发的新一代多模态大型语言模型，在GPT-4的基础上增强了对表格数据、数学表达式和代码的处理能力。其核心创新在于Transformer架构的优化，使模型能够更高效地处理结构化数据与文本的融合任务。本文将深入探讨GPT-4T的技术原理、应用场景及代码实现。2.GPT-4T核心技术解析2.1多模态输入处理GPT-4T支持三种主要输入模态：自然语言文本
京东返利app哪个佣金高？淘宝返利的软件有哪些桃朵APP
顶级互联网营销大牛东方微信号：26688专注互联网副业20年。强！（联系我可以开营销号）也就是桃朵APP（直接应用市场搜索：桃朵邀请码：123456）也就是乖淘APP（直接应用市场搜索：乖淘邀请码：123456）桃朵APP&乖淘APP创始人-东方微信号：（26688）专注网络引流20年。带过百万团队，徒弟年入百万者有30人。独立开发桃朵APP：对接首席，佣金全网最高，团队收入最高，模式最好，有引流
Selenium Python 代码之打开网页自动填充内容并搜索 iCloudEnd
SeleniumPython代码之打开网页自动填充内容并搜索流程通过id找到文本框inputElement.send_keys(Keys.BACK_SPACE)发送删除键，清除一下之前文字inputElement.send_keys(Keys.BACK_SPACE)发送需要查询对内容并送个回车inputElement=driver1.find_element_by_id("TextBox1")in
【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
阿里P8架构大神分享纯手写“kafka文档”看完直呼太牛！ chenxuyuana kafka java 分布式
什么是KafkaKafka是由Linkedin公司开发的，它是一个分布式的，支持多分区、多副本，基于Zookeeper的分布式消息流平台，它同时也是一款开源的基于发布订阅模式的消息引擎系统。kafka的外在表现很像消息系统，允许发布和订阅消息流，但是它和传统的消息系统有很大的差异：首先，kafka是个现代分布式系统，以集群的方式运行，可以自由伸缩其次，kafka可以按照要求存储数据，保存多久都可以
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，