美团技术团队

大规模食品图像识别：T-PAMI 2023论文解读

美团基础研发平台视觉智能部与中科院计算所展开科研课题合作，共同构建大规模数据集Food2K，并提出渐进式区域增强网络用于食品图像识别，相关研究成果已发表于T-PAMI 2023。本文主要介绍了数据集特点、方法设计、性能对比，以及基于该数据集的迁移实验等方面的内容，并对Food2K未来的工作进行了展望。希望能为从事相关工作的同学带来一些帮助或者启发。

1 引言

视觉智能部与中科院计算所于2020-2021年度展开了《细粒度菜品图像识别和检索》科研课题合作，本文系双方联合在IEEE T-PAMI2023发布论文《Large Scale Visual Food Recognition》 (Weiqing Min, Zhiling Wang, Yuxin Liu, Mengjiang Luo, Liping Kang, Xiaoming Wei, Xiaolin Wei, Shuqiang Jiang*) 的解读。IEEE T-PAMI全称为IEEE Transactions on Pattern Analysis and Machine Intelligence，是模式识别、计算机视觉及机器学习领域的国际顶级期刊，2022年公布的影响因子为24.314。

食品计算^[1]因能够支撑许多食品相关的应用得到越来越广泛的关注。食品图像识别作为食品计算的一项基本任务，在人们通过辨认食物进而满足他们生活需求方面发挥着重要作用，如食品营养理解^[2,3]和饮食管理^[4]等。此外，食品图像识别是细粒度视觉识别的一个重要分支，具有重要的理论研究意义。

现有的工作主要是利用中小规模的图像数据集进行食品图像识别，如ETH Food-101^[5]、Vireo Food-172^[6]和ISIA Food- 500^[7]，但是它们的数据规模不足以支撑更复杂更先进的食品计算模型的建立。考虑到大规模数据集已成为许多常规图像分类和理解任务发展的关键推动因素，食品计算领域也迫切需要一个大规模的食品图像数据集来进一步支撑各种食品计算任务，如跨模态食谱检索和生成^[8,9]。因此我们构建了一个新的大规模基准数据集Food2K。该数据集包含1,036,564张食品图像和2,000类食品，涉及12个超类（如蔬菜、肉类、烧烤和油炸食品等）和26个子类别。与现有的数据集相比，Food2K在类别和图像数量均超过其一个数量级。除了规模之外，我们还进行了严格的数据清理、迭代标注和多项专业检查，以保证其数据的质量。

在此基础上，我们进一步提出了一个面向食品图像识别的深度渐进式区域增强网络。该网络主要由渐进式局部特征学习模块和区域特征增强模块组成。前者通过改进的渐进式训练方法学习多样互补的局部细粒度判别性特征（如食材相关区域特征），后者利用自注意力机制将多尺度的丰富上下文信息融入到局部特征中，进一步增强特征表示。本文在Food2K上进行的大量实验证明了所提出方法的有效性，并且在Food2K上训练的网络能够改善各种食品计算视觉任务的性能，如食品图像识别、食品图像检索、跨模态菜谱-食品图像检索、食品检测和分割等。我们期待 Food2K及在Food2K上的训练模型能够支撑研究者探索更多的食品计算新任务。本论文相关的数据集、代码和模型可从网站下载：http://123.57.42.89/FoodProject.html。

2 Food2K数据集

Food2K同时包含西方菜和东方菜，在食品专家的帮助下，我们结合现有的食品分类方法建立了一个食品拓扑体系。Food2K包括12个超类（如“面包”和“肉”），每个超类都有一些子类别（如“肉”中的“牛肉”和“猪肉”），每种食品类别包含许多菜肴（如“牛肉”中的“咖喱牛肉”和“小牛排”），如下图2所示：

下图3展示了每个食品类别的图像数量，Food2K中每个类别的图像数量分布在[153,1999]之间不等，呈现出明显的长尾分布现象，与类别不平衡性。

下图4展示了Food2K与现有食品图像识别数据集的图像数量对比，可以看到Food2K在类别和图像数量上都远超过它们。

除此之外，Food2K还具有以下特征：

1）Food2K涵盖了更多样化的视觉外观和模式。不同食材组合、不同配饰、不同排列等都会导致同一类别的视觉差异。举例来说，新鲜水果沙拉因其不同的水果成分混合而呈现出不同的视觉外观。这些食品的独特特征导致了更高的类内差异，使大规模的食品图像识别变得更加困难。

2）Food2K包含更细粒度的类别标注。以“Pizza”为例，一些经典的食品数据集，如Food-101，只有较粗粒度的披萨类。而Food2K中的披萨类则进一步分为更多的类别。不同披萨图像之间的细微视觉差异主要是由独特的食材或同一食材的粒度不同引起的，这也导致了识别的困难。所有这些因素使Food2K成为一个新的更具挑战性的大规模食品图像识别基准，可以视为食品计算领域的“ImageNet”。

3 方法

食品图像识别需要挖掘食品图像的本身特点，并同时考虑不同粒度的图像特征进行识别。通过观察我们发现，食品图像有着明显的全局特征和局部特征。

首先，食品图像明显有着全局的外观、形状和其他结构方面的特征，且该特征存在较大的类内差异。如下图5的“奶油核桃饼”明显有着变化不一的形状，炒面有着丰富多样的纹理。虽然当前已经有很多方法来解决这一问题，但大多数方法主要集中在提取某种类型的特征，而忽略了其他类型的特征。

其次，食品图像中有细微差别的细节信息，部分细节信息是其关键的局部特征。在许多情况下，现有的神经网络无法很好地挖掘那些具有判别性的细节特征。如图5中第3栏所示，仅仅依靠全局特征是不足以区分“玉米羹”和“鸡蛋羹”，必须进一步挖掘其食材信息的不同（图中黄色框内）。因此，如何更好地挖掘食品图像的全局特征和局部特征，对于提升食品图像特征表达能力来说尤为重要。

第三，如下图6所示，不同的食材在不同的食品类别中所占的权重也是不一样的。“香菜”在“香菜”拌牛肉中是一个关键性食材，必不可少，但是在“老醋海蜇”这道菜中仅仅是一个配料，并不总是出现在该类别的所有图像中。因此需要挖掘局部特征之间的关系，突出重点局部特征。进而提高食品识别的准确率。

针对上述这些特点，本文设计了深度渐进式区域特征增强网络，它可以共同学习多样化且互补的局部和全局特征。该网络结构如下图7所示，该网络主要由三部分组成：全局特征学习模块、渐进式局部特征学习模块和区域特征增强模块。

其中，渐进式局部特征学习主要采用渐进式训练策略来学习互补的多尺度细粒度的局部特征，例如不同的食材相关信息。区域特征增强使用自注意力机模块，将更丰富的多尺度上下文信息合并到局部特中，以增强局部特征表示。然后，我们通过特征融合层将增强的局部特征和来自全局特征学习模块的全局特征融合到统一的特征中。

此外，在模型训练时，本文逐步渐进式地训练网络的不同阶段，最后将训练整个网络，并在此过程中引入 $K L$ 散度以增加各个阶段之间的差异性，以捕获更丰富多样化的局部信息。在推理阶段，考虑到每个阶段的输出特征和融合后的特征之间的互补性，我们将它们的预测结果结合起来得到最终分类得分。接下来，本文将详细介绍各个模块的计算原理。

全局-局部特征学习

食品识别可以看作是一个层次化的任务，在不同超类下的食品图像有着明显可分的视觉差异，因此可以基于他们的全局特征进行识别。

但是在同一超类下，不同子类的食品图像之间的差异却非常小。因此食品识别需要同时学习食品图像的全局特征和局部特征。因此，我们提取并融合了这两个特征，此过程可以使用两个子网络分别提取食品图像的全局和局部特征。这两个子网络可以是两个独立的网络，但是这部分工作为了提高效率并减小模型参数，本文中两个子网络共享基础网络的大部分层。

全局特征学习

渐进式局部特征学习

局部特征子网络旨在学习食品的区分性细粒度特征。由于食材和烹饪风格的多样性，食品图像的关键判别部分是多尺度和不规则的。作为本方法第一个创新点，我们提出了渐进式训练策略来解决这个问题。在这种策略中，我们首先训练具有较小感受野的网络较低阶段（可以理解为模型中较低的层），然后逐步扩大该局部区域范围，并引入新的层加入训练。

这种训练策略将迫使我们的模型提取更精细的判别性局部特征，例如与食材相关的特征。在此过程之后，我们从不同层提取特征以获得多尺度的特征表示。

因此，该策略可以首先在网络较浅的层中学习更稳定的细粒度信息，然后随着训练的进行逐渐将注意力转移到在较深的层中学习粗粒度信息。具体来说，当具有不同粒度的特征被送入网络时，它可以提取出有判别性的局部细粒度特征，例如食材成分信息。然而，简单地使用渐进式训练策略不会得到多样化的细粒度特征，因为通过渐进式训练学习到的多尺度特征信息可能集中在食品图像中相似的区域。

而作为本方法第二个创新点，我们引入KL散度对来自不同阶段的特征进行离散化，以增加它们之间的差异性。我们通过最大化不同阶段特征之间的KL散度值，可以迫使网络模型在不同阶段关注不同区域的多尺度特征，这有助于网络捕获尽可能多的细节信息。

区域特征增强

不同于一般的细粒度任务中的识别对象，食品图像没有固定的语义信息。现有的大部分食品识别方法直接挖掘这些判别性局部特征，忽略了局部特征之间的关系。因此，我们采用自注意力机制来学习不同局部特征之间的关系。该策略旨在捕获特征图中同时出现的食品特征。

训练和预测

在网络优化过程中，我们迭代更新网络的参数。首先，我们利用各 $U$ 个阶段的交叉熵损失，来反向传播以更新相应网络的参数。在此过程中，当前阶段的所有网络参数都将被优化，即使它们在之前的阶段已经被更新过。然后在特征融合阶段，我们利用另一个交叉熵损失函数来更新整个网络的参数。

此外，我们的网络以端到端的方式进行训练。在渐进式训练过程中，对于每个阶段的输出，我们采用以下交叉熵损失：

4 实验

首先，我们在Food2K上对现有的食品识别方法和我们提出的方法进行了比较。然后，我们研究Food2K在食品识别、食品图像检索、跨模态菜谱-食品图像检索、食品检测和食品分割五个食品计算任务上的泛化能力。

方法验证与分析

本文使用在ImageNet上预训练的ResNet^[10]作为基础网络。对于实验性能评估，使用Top-1准确率（Top-1）和Top-5准确率（Top-5）对食品类别识别进行评估。

在Food2K上的性能实验

表1展示了在Food2K上现有的食品识别方法和所提方法的性能比较。从表中可以看出，我们的方法在Top-1和Top-5准确率上分别高出主干网络（ResNet）2.24%和1.4%，以ResNet101为主干的网络超过了现有的食品识别方法，取得了较好的识别性能。同时，这也证实了结合渐进式训练策略和自注意力来增强局部特征表示的优势。

在Food2K上的消融实验

本文在消融实验中主要探讨了以下几个问题：

（1）网络不同组件的有效性：从下图8(a)中可以看出，渐进式策略（PL）的引入能够带来识别性能增益，且与区域特征增强（RE）相结合后进一步提高了性能。这说明我们提出的PL+RE的学习策略能够有效地学到更具判别性的局部特征。

（2）渐进式学习阶段的数量U：从下图8(b)中可以看出，当U从1到3时，我们的方法在Food2K上分别取得了81.45%、82.11%和83.03%的Top-1分类准确率。模型的分类性能连续提高了0.66%和0.92%。然而，当U = 4时，精度开始下降，可能的原因是浅层网络主要关注类别无关的特征。

（3）不同学习阶段的效果：为了更好地验证每个学习阶段和最终的连接阶段的贡献，我们还通过分别使用每个阶段的预测分数来进行评估。从下图8©中可以看出，相比于使用单一阶段进行预测，联合每个阶段的得分进行预测能够带来性能提升。此外，我们的方法将每个阶段的预测分数和联合特征的预测分数进行组合，能够实现最佳的识别性能。

（4）平衡参数 $α$ 和 $β$ ：我们还研究了公式 $L= αLcon + βL_{KL}$ 中平衡参数对性能的影响。我们发现，当 $α = 0 ， β = 1$ 时，即总损失仅包括 $K L$ 散度时，此时模型无法收敛。当 $α = 1 ， β = 0$ 时，即仅使用交叉熵损失进行优化，模型的性能明显下降。当 $α = 0.8 ， β = 0.2$ 时，模型取得了最佳的识别性能，这说明联合渐进式训练和KL散度的策略能够提高多样化局部细节特征的学习能力。

可视化

我们使用Grad-CAM来进行可视化分析。如下图9所示，以“Wasabi Octopus”为例，基线方法仅能获得有限的信息，不同的特征图倾向于关注相似的区域。相比之下，我们的方法在第一阶段更关注“Vegetable Leaf”，而第二阶段主要关注“Octopus”。而在第三阶段，我们的方法可以捕获该食品的总体特征，所以全局和局部特征都能被用于识别。

基于Food2k的泛化实验

食品图像识别

我们评估了在Food2K上预训练过的模型在ETH Food-101、Vireo Food-172和ISIA Food-500上的泛化能力。从表2中我们可以看出，使用Food2K进行预训练后所有方法都取得了一定程度的性能提升，这说明我们的数据集在食品图像识别任务上具有良好的泛化能力。

食品检测

我们评估了Food2K数据集对食品检测任务的泛化能力，评估任务为检测食品托盘中的食品。为了进行比较，我们还对在ETH Food-101上进行预训练的模型进行了评估。从表3中可以看出，使用Food-101和Food2K能够提升所有方法的mAP和AP75指标，且Food2K所带来的性能增益要超过Food-101。这说明我们的方法在食品检测任务上表现出良好的泛化性能。

食品分割

我们还评估了Food2K在食品分割任务上的性能。从表4中可以看出，对于所有使用Food2K进行预训练的模型均能带来性能的提升。这也证明了我们的数据集在分割任务上具有良好的泛化表现。

食品图像检索

我们进一步在食品图像检索任务上验证Food-2K的泛化能力。具体来说，我们在ETH Food-101、Vireo Food-172和ISIA Food-500数据集上实验，并使用与前文相同的数据集划分方式。测试集的每张图片依次作为查询项，其余的图片作为检索库。我们分别使用交叉熵损失函数和以Contrastive loss和Triplet loss为代表的度量学习损失函数来微调ResNet101网络，并使用mAP和Recall@1指标评估方法的性能。

表5的结果展示了在Food-2K数据集上预训练后微调的网络取得了不同程度的性能增益。具体来说，在Vireo Food-172数据集上取得了最优性能，并在三个数据集上分别取得了4.04%, 5.28% 和4.16%的性能增益。值得注意的是，当使用额外的ETH Food-101数据集预训练，以及在度量学习损失函数方法上微调的方法并没有取得性能增益，但使用Food2K数据集预训练仍然取得了性能增益，这是因为食品图像检索任务对目标数据集之间的差异较为敏感（ETH Food-101和Vireo Food-172），并间接表明来自Food2K的图像类别和尺度的多样性提升了食品图像检索任务的泛化性。

跨模态菜谱-食品图像检索

我们还在跨模态菜谱-食品图像检索任务上进一步验证Food2K的泛化能力。具体来说，我们在Recipe1M^[11]数据集上验证方法的性能，并使用与之相同的数据集划分方法。与此同时，我们使用MedR和Recall@K指标来评估。表6展示了我们使用不同的网络主干，并分别通过ImageNet、ETH Food-101和Food2K数据集预训练的结果。结果发现使用ETH Food-101和Food2K数据集预训练后在目标数据集上微调都取得了性能的增益，使用我们的Food-2K数据集取得了更大的性能增益。

5 未来工作

本文全面的实验证明了Food2K对于各种视觉和多模态任务具有较好的泛化能力。基于Food2K的一些潜在研究问题和方向如下。

（1）大规模鲁棒的食品图像识别：尽管一些细粒度识别方法（如PMG^[12，22]）在常规细粒度识别数据集中获得了最佳性能，但它们在Food2K上表现欠佳。虽然也有一些食品图像识别方法（如PAR-Net^[13]）在中小规模食品数据集上取得了较好的性能，但它们在Food2K大规模食品图像识别数据集上也并不能获得更好的性能。

我们推测，随着食品数据的多样性和规模的增加，不同食材、配饰和排列等因素产生了更复杂的视觉模式，以前的方法不再适用。因此，基于Food2K有更多的方法值得进一步探究。例如Transformers^[14，23]在细粒度图像识别方面产生了巨大的影响，其在大规模数据集上的性能高于CNNs。Food2K可以提供足够的训练数据来开发基于Transformers的食品图像识别方法来提高性能。

（2）食品图像识别的人类视觉评价：与人类视觉对一般物体识别的研究相比，对食品图像识别进行评价可能更加困难。例如，食品具有较强的地域和文化特征，因此来自不同地区的人对食品图像识别会有不同的偏见。最近的一项研究^[15]给出了人类视觉系统和CNN在食品图像识别任务中的比较。为了避免信息负担过重，需要学习的菜肴数量被限制在16种不同类型的食物中。更有趣的问题，值得进一步的探索。

（3）跨模态迁移学习的食品图像识别：我们已经验证了Food2K在各种视觉和多模态任务中的推广。未来我们可以从更多的方面来研究迁移学习。例如，食物有独特的地理和文化属性，可以进行跨菜系的迁移学习。这意味着我们可以使用来自东方菜系的训练模型对西方菜系进行性能分析，反之亦然。经过更细粒度的场景标注，如区域级甚至餐厅级标注，我们可以进行跨场景迁移学习来进行食品图像识别。此外，我们还可以研究跨超类别迁移学习的食品图像识别。例如，我们可以使用来自海鲜超类的训练模型来对肉类超类进行性能分析。这些有趣的问题也都值得深入探索。

（4）大规模小样本食品图像识别：最近，有一些基于中小型食品类别的小样本食品图像识别方法^[16,17]研究。LS-FSFR^[18]是一项更现实的任务，它旨在识别数百种新的类别而不忘记以前的类别，且这些数百种新的食品类别的样本数很少。Food2K提供了大规模的食品数据集测试基准来支持这项任务。

（5）更多基于Food2K的应用：本文验证了Food2K在食品图像识别、食品图像检索、跨模态菜谱-食品图像检索、食品检测和分割等各种任务中具有更好的泛化能力。Food2K还可以支持更多新颖的应用。食品图像生成是一种新颖而有趣的应用，它可以通过生成对抗网络（GANs）^[19]合成与现实场景相似的新的食品图像。例如，Zhu等人^[20]可以从给定的食材和指令中生成高度真实和语义一致的图像。不同的GANs，如轻量级的GAN ^[21]，也可以用于生成基于Food2K的食物图像。

(6) 面向更多任务的Food2K扩展：基于训练的Food2K模型可以应用于更多与食物计算任务中。另外，考虑到一些工作^[6]已经表明食材可以提高识别性能，我们计划扩展Food2K来提供更丰富的属性标注以支持不同语义级别的食品图像识别。我们还可以在Food2K上进行区域级和像素级标注使其应用范围更广。我们还可以开展一些新的任务，如通过在Food2K上标注美学属性信息，对食品图像进行美学评估。

6 总结及展望

在本文中，我们提出了具有更多数据量、更大类别覆盖率和更高多样性的Food2K，它可以作为一个新的大规模食品图像识别基准。Food2K适用于各种视觉和多模态任务，包括食品图像识别、食品图像检索、检测、分割和跨模态菜谱-食品图像检索。

在此基础上，我们进一步提出了一个面向食品图像识别的深度渐进式区域增强网络。该网络主要由渐进式局部特征学习模块和区域特征增强模块组成。渐进式局部特征学习模块通过改进的渐进式训练方法学习多样互补的局部细粒度判别性特征，区域特征增强模块利用自注意力机制将多尺度的丰富上下文信息融入到局部特征中以进一步增强特征表示。在Food2K上进行的大量实验证明了该方法的有效性。

美团本身有着丰富的食品数据及业务应用场景，如何利用多元化数据进行食品图像细粒度分析理解，解决业务痛点问题是我们持续关注的方向。目前，美团视觉智能部持续深耕于食品细粒度识别技术，并成功将相关技术应用于按搜出图、点评智能推荐、扫一扫发现美食等不同的业务场景中，不仅提升了用户体验，还降低了运营成本。

在技术沉淀层面，我们围绕此食品计算技术不断推陈出新，目前申请专利20项，发表CCF-A类会议或期刊论文4篇（如AAAI、TIP、ACM MM等）；我们还参加了2019年和2022年CVPR FGVC细粒度识别比赛，并取得了一冠一亚的成绩；同时在ICCV 2021上也成功举办了以LargeFineFoodAI为主题的视觉研讨会，为推动食品计算领域的发展贡献了一份绵薄之力。

未来，我们计划进一步围绕这条主线，探索多模态信息融入、多任务学习等技术路线，不断沉淀经验教训，并将相关技术推广到更多、更远、更有价值的生活服务场景中，从而更好地服务好社会。

7 参考文献

[1] W. Min, S. Jiang, L. Liu, Y. Rui, and R. Jain, “A survey on food computing,” ACM CSUR, vol. 52, no. 5, pp. 1–36, 2019.
[2] A. Meyers, N. Johnston, V. Rathod, A. Korattikara, A. Gorban, N. Silberman, S. Guadarrama, G. Papandreou, J. Huang, and K. P. Murphy, “Im2Calories: towards an automated mobile vision food diary,” in ICCV, 2015, pp. 1233–1241.
[3] Q. Thames, A. Karpur, W. Norris, F. Xia, L. Panait, T. Weyand, and J. Sim, “Nutrition5k: Towards automatic nutritional understanding of generic food,” in CVPR, 2021, pp. 8903–8911.
[4] Y. Lu, T. Stathopoulou, M. F. Vasiloglou, S. Christodoulidis, Z. Stanga, and S. Mougiakakou, “An artificial intelligence-based system to assess nutrient intake for hospitalised patients,” IEEE TMM, pp. 1–1, 2020.
[5] L. Bossard, M. Guillaumin, and L. Van Gool, “Food-101–mining discriminative components with random forests,” in ECCV, 2014, pp. 446–461.
[6] J. Chen and C.-W. Ngo, “Deep-based ingredient recognition for cooking recipe retrieval,” in ACM MM, 2016, pp. 32–41.
[7] W. Min, L. Liu, Z. Wang, Z. Luo, X. Wei, and X. Wei, “ISIA Food- 500: A dataset for large-scale food recognition via stacked globallocal attention network,” in ACM MM, 2020, pp. 393–401.
[8] J. Mar´ın, A. Biswas, F. Ofli, N. Hynes, A. Salvador, Y. Aytar, I. Weber, and A. Torralba, “Recipe1M+: A dataset for learning cross-modal embeddings for cooking recipes and food images,” IEEE T-PAMI, vol. 43, no. 1, pp. 187–203, 2021.
[9] H. Wang, G. Lin, S. C. H. Hoi, and C. Miao, “Structure-aware generation network for recipe generation from images,” in ECCV, vol. 12372, 2020, pp. 359–374.
[10] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, 2016, pp. 770–778.
[11] A. Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. Weber, and A. Torralba, “Learning cross-modal embeddings for cooking recipes and food images,” in CVPR, 2017, pp. 3020–3028.
[12] R. Du, D. Chang, A. K. Bhunia, J. Xie, Z. Ma, Y. Song, and J. Guo, “Fine-grained visual classification via progressive multigranularity training of jigsaw patches,” in ECCV, 2020, pp. 153– 168.
[13] J. Qiu, F. P.-W. Lo, Y. Sun, S. Wang, and B. Lo, “Mining discriminative food regions for accurate food recognition,” in BMVC, 2019.
[14] Dosovitskiy, Alexey, et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.” In ICLR, 2020.
[15] P. Furtado, M. Caldeira, and P. Martins, “Human visual system vs convolution neural networks in food recognition task: An empirical comparison,” in CVIU, 2020, pp. 102878.
[16] H. Zhao, K.-H. Yap, and A. Chichung Kot, “Fusion learning using semantics and graph convolutional network for visual food recognition,” in WACV, 2021, pp. 1711–1720.
[17] S. Jiang, W. Min, Y. Lyu, and L. Liu, “Few-shot food recognition via multi-view representation learning,” ACM TOMM, vol. 16, no. 3, pp. 87:1–87:20, 2020.
[18] A. Li, T. Luo, Z. Lu, T. Xiang, and L. Wang, “Large-scale few-shot learning: Knowledge transfer with class hierarchy,” in CVPR, 2019, pp. 7212–7220.
[19] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in NIPS, vol. 27, 2014.
[20] B. Zhu and C. Ngo, “CookGAN: Causality based text-to-image synthesis,” in CVPR, 2020, pp. 5518–5526.
[21] B. Liu, Y. Zhu, K. Song, and A. Elgammal, “Towards faster and stabilized gan training for high-fidelity few-shot image synthesis,” in ICLR, 2020.
[22] Zhu, H., Ke, W., Li, D., Liu, J., Tian, L., & Shan, Y. Dual cross-attention learning for fine-grained visual categorization and object re-identification. In CVPR 2-22(pp. 4692-4702).
[23] He, J., Chen, J. N., Liu, S., Kortylewski, A., Yang, C., Bai, Y., & Wang, C. . Transfg: A transformer architecture for fine-grained recognition. In AAAI 2022 (Vol. 36, No. 1, pp. 852-860).

8 本文作者

致岭、丽萍、君实、晓明等，均来自美团基础研发平台/视觉智能部。

阅读更多

| 在美团公众号菜单栏对话框回复【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词，可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品，著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容，敬请注明“内容转载自美团技术团队”。本文未经许可，不得进行商业性转载或者使用。任何商用行为，请发送邮件至[email protected]申请授权。

你可能感兴趣的:(计算机视觉,人工智能,深度学习)

复杂场景检测老翻车？陌讯算法实测提升 40% 2501_92453489 算法视觉计算机视觉视觉检测
在工业质检、安防监控等计算机视觉落地场景中，工程师常面临棘手问题：传统算法在光照突变、目标遮挡等复杂环境下，漏检率高达20%以上，泛化能力不足成为项目落地的最大阻碍。而陌讯AI视觉算法通过架构创新，正在重新定义复杂场景下的检测精度标准。技术解析：从单模态到多模态的跨越传统目标检测模型多依赖单一RGB图像输入，在特征提取阶段容易受环境干扰。以经典的FasterR-CNN为例，其区域提议网络（RPN）
深度学习超参数优化（HPO）终极指南：从入门到前沿
摘要：在深度学习的实践中，模型性能的好坏不仅取决于算法和数据，更在一半程度上取决于超参数的精妙设置。本文是一篇关于超参数优化（HyperparameterOptimization,HPO）的综合性指南，旨在带领读者从最基础的概念出发，系统性地梳理从经典到前沿的各类优化方法，并最终落地于实用策略和现代工具。无论您是初学者还是资深从业者，都能从中获得宝贵的见解。第一部分：夯实基础——HPO的核心概念1
工业大模型应用报告：新机遇、挑战与未来展望花生糖@ AIGC学习资料库大模型人工智能应用扩展屏应用开发 AI 机器学习
大模型在工业智能化发展中的新机遇、挑战与展望。以下是报告的核心内容概述：大模型为工业智能化发展带来新机遇大模型开启人工智能应用新时代，推动技术创新和应用。大模型有望成为驱动工业智能化的引擎，提高研发效率、拓展生产制造智能化应用边界、提升经营管理水平。大模型应用落地需要深度适配工业场景，解决行业知识和企业特定环境的理解问题。大模型和小模型在工业领域将长期并存小模型应用呈现倒U型分布，主要集中在生产制
AI时代的弯道超车之第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳 Hebron_Deb AI时代-弯道超车-逆袭人生人工智能
在这个AI重塑世界的时代，你还在原地观望吗？是时候弯道超车，抢占先机了！李尚龙倾力打造——《AI时代的弯道超车：用人工智能逆袭人生》专栏，带你系统掌握AI知识，从入门到实战，全方位提升认知与竞争力！内容亮点：AI基础+核心技术讲解职场赋能+创业路径揭秘打破信息差+预测行业未来第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳我们终于来到了第十七章，也是这本人物传记中该领域的最后一章。前面我们讲到了李飞飞
AI+Python赋能！长时序植被遥感动态分析全攻略：从物候提取到生态评估梦想的初衷~ 土壤植被遥感人工智能遥感植被土壤
在遥感技术与人工智能深度融合的2025年，AI大模型正重塑长时序植被遥感数据分析范式。从Landsat/Sentinel卫星数据的智能化去云处理，到MODIS植被产品的AI辅助质量控制，以ChatGPT、DeepSeeK为代表的大模型技术已成为提升遥感数据处理效率与精度的核心工具——尤其在长时序植被动态监测、物候期精准提取、时空变异归因分析及生态环境质量评估等领域，展现出传统方法难以企及的技术优势
认知革命牧羊少年的时间之旅
看完人类简史后产生了一个想法，人类经过几万年的演化从采集时代，农业社会，再到工业革命和最近的科技革命，每一次的演变升级都是对传统认知的一次革新。但是我们现在的科技发展是如此的迅速，但是认知的进步却非常缓慢。克隆人，基因设计，人工智能，生化科技，量子计算等很多领域都是传统文化所无法理解和接受的，但是这些却依然有条不紊在进行中。所以人类目前急需一次认知的革命才能追上科技的脚步，不然一定会造成认知和现实
天文图像处理：星系分类与天体定位 xcLeigh 计算机视觉CV 图像处理分类人工智能 AI 计算机视觉
天文图像处理：星系分类与天体定位一、前言二、天文图像处理基础2.1天文图像的获取2.2天文图像的格式2.3天文图像处理的基本流程三、天文图像预处理3.1去噪处理3.2平场校正3.3偏置校正四、星系分类4.1星系的分类体系4.2基于特征提取的星系分类方法4.3基于深度学习的星系分类方法五、天体定位5.1天体坐标系统5.2基于星图匹配的天体定位方法5.3基于深度学习的天体定位方法六、总结与展望致读者一
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
vLLM快速入门：开启高效推理与部署之旅
在如今这个人工智能飞速发展的时代，语言模型的应用已经深入到我们生活的方方面面，从智能聊天机器人到文本生成工具，都离不开强大的语言模型技术支持。而vLLM作为一个专注于高效推理和部署的开源项目，正在为研究人员和开发人员提供一种全新的解决方案，让语言模型的使用变得更加便捷、高效。初识vLLM：背景与意义vLLM（VeryLargeLanguageModelInference）是一个专注于大型语言模型推
深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代，大型语言模型（LLM）的推理和部署面临着诸多挑战，尤其是当模型规模日益庞大时，如何高效地利用硬件资源成为关键问题。vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。分布式推理策略的选择在开始分布式推理和部署之前，明确何时采用分布式推理以及可选的策略至关重要。1.单GPU推理：如果模型能够在单个
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep