啊菜来了

汉字风格迁移篇---汉字笔划提取、数据集和基准的实例分割

文章目录

Abstract
Introduction
Related Work
建议的数据集
算法分析
Conclusion
补充材料
- 笔划检测的更多分析
- 标准字体的更多可传输性结果
- 更多故障案例
- 有关先前方法的更多详细信息
- 有关下游任务的更多详细信息
- 字体生成
- 手写美学评估数据集。
- References
References

Abstract

笔画是汉字的基本元素，笔画提取一直是一项重要而长期的工作。由于训练数据有限，现有的笔划提取方法通常是手工制作的，并且高度依赖于领域专业知识。此外，没有标准化的基准来提供不同笔画提取方法之间的公平比较，我们认为，这是发展汉字笔画理解和相关任务的主要障碍。在这项工作中，我们提出了第一个公开可用的汉字笔划提取（CCSE）基准，包括两个新的大规模数据集：Kaiti CCSE（CCSE-Kai）和手写CCSE（CC SE-HW）。利用大规模数据集，我们希望利用深度模型（如CNN）的表示能力来解决笔划提取任务，但这仍然是一个悬而未决的问题。为此，我们将笔划提取问题转化为笔划实例分割问题。使用所提出的数据集训练笔划实例分割模型，我们大大超过了以前的方法。此外，用所提出的数据集训练的模型有利于下游字体生成和手写美学评估任务。我们希望这些基准结果能够促进进一步的研究。
源代码和数据集可在以下网址公开获取：https://github.com/lizhaoliu-Lec/CCSE

Introduction

笔画是汉字的基本元素，笔画提取一直是一项重要而长期的努力（Lee和Wu 1998）。给定一个汉字图像，笔划提取旨在将其分解为单个笔划（见图1）。它是许多汉字相关应用的基础，例如手写体合成（刘和连，2021）、字体生成（姜等，2019；曾等，2021；谢等，2021）、字体转换（黄等，2020）、手写体美学评价（徐等，2007；孙等，2015）等，研究表明，明确整合笔划信息可以提高汉字相关任务的执行能力（高和吴2020；黄等人2020；曾等人2021）。虽然利用笔画信息的各种任务已经得到了社会的广泛关注，并通过应用目前最先进的深度模型取得了实质性进展，但仅对汉字笔画的理解还比较落后。

通常，有两行作品：从骨骼图像中提取笔画（Fan和Wu 2000；Liu、Kim和Kim 2001；Liu，Jia和Tan 2006；Su、Cao和Wang 2009；Zeng等人2010）和从原始图像中提取（Lee和Wu 1998；Yu、Wu和Yuan 2012）。对于基于骨架的方法，细化算法（Arcelli和Di Baja 1985）通常用作预处理步骤，这会引入笔划失真和短笔划的丢失。因此，提出了从原始图像中提取笔划来解决这些问题。这种方法通常具有丰富的信息，如笔划宽度和曲率，从而获得良好的性能。最新的研究（Xu et al.2016）提出通过在骨架上找到交叉点并结合原始图像上的笔划片段来结合两个世界的优点。然而，由于缺乏大规模数据集来开发基于学习的方法，大多数以前的方法都是基于规则的，在算法设计过程中需要深入的专业知识。因此，它们固有地受到以下限制：首先，要将字符分解为笔划段，需要手工规则来找到分区arXiv:2210.13826v1[cs.CV]2022年10月25日的点，由于复杂的字符结构，这些点不可避免地包含分叉点。其次，这些方法通常是针对规则和高度结构化的标准字体而定制的，并且由于不同的手写习惯导致的笔划的类内差异较大，因此可能无法很好地处理手写字符。最后，他们的目标是仅优化笔划提取任务，而可能不会产生可转移的特征以利于下游任务。

【图1：（a）本文所考虑的25种汉字笔画的插图，它们是汉字的基石。（b）汉字笔画提取任务的图示。给定一个汉字，笔画提取任务要求模型将汉字分解为单个笔画。】

此外，没有标准化的基准来提供不同笔画提取方法之间的公平比较，这对于指导和促进进一步研究非常重要。缺乏公开可用的数据集导致评估协议不一致。具体而言，（Cao and Tan 2000；Qiguang 2004；Xu et al.2016）将准确度视为笔划提取任务的主要评估指标，其未考虑提取笔划的空间位置，因此无法全面衡量笔划提取算法的性能。（Chen等人，20162017）分别利用汉明距离和切割差异来测量笔划内部的一致性和笔划边界的相似性。它们要求提取的笔划和地面真实笔划严格按照空间位置和类别对齐，这很难评估遗漏和错误提取。因此，如何有效地评估具有合理协议的笔画提取算法仍然是一个未解决的问题。

为了促进笔划提取研究，我们提出了一个汉字笔划提取（CCSE）基准，包括两个新的大规模数据集和评估方法。作为CCSE基准的基础，数据集有两个要求：即字符级多样性和笔划级多样性。具体而言，数据集应包含尽可能多的汉字，以表示笔画之间的结构，笔画之间关系可能非常复杂（见图2的左侧）。此外，由于具有不同书写习惯的人即使对于同一笔划也会产生非常不同的外观（见图2的右侧），因此数据集应涵盖模型的这种多样性，以实现有效提取。为此，我们收集了大量的楷体（一种中文字体）汉字图像和手写汉字图像，以分别实现字符级多样性和笔划级多样性。

利用大规模数据集，我们希望利用深度模型（如CNN）的表示能力来解决笔划提取任务，但这仍然是一个悬而未决的问题。为此，我们将笔划提取问题转化为笔划实例分割问题。这种观点的改变不仅允许我们利用最先进的实例分割模型，而且还允许我们利用定义良好的评估度量（即，框AP和掩码AP）。我们使用最先进的实例分割模型进行实验，以产生便于进一步研究的基准结果。与以前的笔画提取方法相比，我们的方法不需要参考图像和深入的领域专业知识。此外，在我们的数据集上训练的深度模型能够产生可转移的特征，这些特征始终有利于下游任务。
我们将我们的贡献总结如下：

1、我们提出了包含两个高质量大规模数据集的第一个基准，这些数据集满足字符级和笔划级多样性的要求，用于构建有前景的笔划提取模型。

2、我们将笔划提取问题转化为笔划实例分割问题。通过这种方式，我们构建了深度笔画提取模型，该模型可扩展到具有高度多样性的字符和笔画差异的场景，同时产生可转移特征，以利于下游任务。

3、通过利用最先进的实例分割模型和定义良好的评估指标，我们建立了标准化的基准，以促进进一步的研究。

Related Work

Stroke Extraction
笔划提取旨在从手写图像中提取笔划（Lee和Wu 1998），由于复杂的字符结构（Cao和Tan 2000）和较大的类内方差（Xu等人，2016），这很难解决。现有的方法主要遵循从骨架化字符或原始字符范例中提取笔划。对于第一种方法，通过解决分叉点问题（Fan和Wu 2000）、将仿射变换应用于笔划（Liu、Jia和Tan 2006）、检测模糊区域（Su、Cao和Wang 2009）和使用附加参考图像（Zeng等人，2010），努力探索笔划之间的关系。然而，这些方法受到细化步骤的限制，细化步骤会导致笔划失真和短笔划的丢失。因此，提出了从原始图像中提取笔划来克服这一限制。这些方法侧重于通过组合笔划中的多个轮廓信息（Lee和Wu 1998）、探索像素笔划关系（Cao和Tan 2000）、检测多个方向的笔划（Su和Wang 2004）和使用角点（Yu、Wu和Yuan 2012）来利用字符中的丰富信息，如笔划宽度和曲率。最新的方法（Xu等人，2016）考虑了两个方面的优势，以进一步提高性能。尽管如此，这些方法通常仅在算法设计期间使用手工规则来改进笔划提取任务。因此，它们固有地遭受从复杂字符和高度不规则形状中提取笔画的痛苦。此外，它们不能被琐碎地用于诸如字体生成之类的下游任务，从而限制了它们的进一步应用。

Instance Segmentation
实例分割的目标是通过为图像中的每个实例（可计数对象）分配像素级标签来分割。现有方法大致可分为两类：两阶段（He等人，2017；Hsieh等人，2021）和一阶段（Bolya等人，2019）。两种方法包括实例检测和分割步骤。在计算机视觉中最重要的里程碑之一Mask R-CNN（He et al.2017）中，分割头应用于Faster R-CNN检测器（Ren et al.2015）检测到的实例，以获取实例分割掩码。基于掩码RCNN的方法通常需要密集的事先提案或锚来获得良好的结果，从而导致复杂的标签分配和后处理步骤。为了解决这个问题，YOLACT（Bolya等人2019）等单阶段方法通过将原型与掩模系数线性组合来产生实例掩模，而不依赖于预检测步骤。在本文中，我们受益于实例分割算法的快速发展，并专注于应用实例分割模型来处理笔划提取任务，因此我们主要考虑研究良好的两阶段方法，如Mask R-CNN作为我们的基线。

图2:CCSE-Kai数据集和CCSE-HW数据集中带注释的汉字样本，从左至右。

建议的数据集

图像采集和注释
为了实现有希望的笔画提取性能，我们收集了大量样本，这些样本涵盖了汉字的复杂结构和笔画的不同风格，分别是字符级别和笔画级别的多样性。由于频繁使用的汉字限制在很小的范围内，因此可能没有足够的笔画结构复杂的手写字符。因此，我们收集了常用的标准字体（例如Kai-Ti），以满足字符级别的多样性要求。然后，为了满足笔画水平的多样性，我们收集来自不同作家的手写汉字图像。我们将在下面详细介绍收集和注释的过程。
楷体图像采集与注释
为图像中的每个笔划添加标签既耗时又费力。由于Kai-Ti是日常生活中常用的标准中文字体，我们首先想到的是通过从字体设计数据库中检索空间信息来收集无注释的Kai-Ti数据集。但是，在字体设计过程中不会保留每个笔划的坐标。因此，我们广泛浏览了网络资源，发现了一个开源项目Make Me A Hanzi1，该项目为Kai Ti构建了一个笔画数据库。然后，这个项目通过cnchar2进一步发展，提供了更友好的界面，可以逐笔访问Kai Ti的图像。如图3所示，cnchar的结果具有清晰的笔划方向标记，浅棕色表示当前笔划的空间掩码和类别。关于笔划类别，cnchar的数据库包含最常用的25个类别（详见图1（a））。
https://github.com/theajack/cnchar
https://github.com/skishore/makemeahanzi

图3：Kai Ti图像采集过程示意图。我们使用开源字符渲染库cnchar以笔划增量方式生成汉字图像。字符ya是一笔画一笔画地书写的，笔画在图像中以浅棕色突出显示，笔画类在下面表示。

图4：笔划可分离和笔划不可分离手写体的比较。相应的楷体字符放在左边以供参考。

在cnchar的帮助下，我们从9523个独特的楷体汉字中获取笔画图像。然后，我们使用OpenCV3从浅棕色区域生成边界框和遮罩注释，从而生成我们的Kaiti CCSE（CCSE Kai）数据集。CCSE-Kai的可视化结果如图2左侧所示。我们可以看到，CCSE-Kai提供了具有复杂笔划结构的样本。CCSEKai中有超过100万例中风病例，详细统计数据将在后面详述。我们的CCSE Kai的优点如下：1）我们发现了一种自动化方法，可以在不需要大量人力的情况下有效地生成中风实例数据集。2） CCSE Kai通过覆盖大多数汉字（尽管使用频率很高）来满足字符级别的多样性。然而，它的缺点是显而易见的：由于标准字体库中的笔划相对固定，因此缺乏笔划级别的多样性。从这个意义上讲，使用CCSE Kai训练的模型在某些应用场景中可能无法提供令人满意的结果，在这些应用场景中需要从手写汉语中提取笔画。

手写图像采集与注释
由于CCSE Kai仅满足字符级别的多样性，我们的目标是通过利用具有各种样式的手写字符来提高数据集的笔划级别的多样。为此，我们进一步收集手写汉字，并以笔划实例的方式标记它们。具体而言，我们利用CASIA离线中文手写体数据集拥有约300人反复书写的7185种汉字，产生了近300万张手写汉字图像。

然而，如图4所示，一些人类作家绘制了一个笔划不可分离的字符，这在笔划提取任务中无法轻松处理。为了解决这个问题，我们对可与CASIA分离的笔划数据进行了子采样。此外，考虑到人类注释是劳动密集型和耗时的，我们为前300个最常用的汉字选择了10个样本，为后700个汉字选择了8个样本，总共产生了约7600个图像。然后，我们应用大量的人力仔细地为每个笔划提供注释，并最终创建手写CCSE（CCSE-HW）数据集。请注意，我们在笔划注释过程中采用了CCSE Kai中使用的笔划类别。CCSE-HW的可视化结果如图2右侧所示，从中我们可以看到，同一类别的笔划在尺度、覆盖范围和曲率等方面表现得非常不同。到目前为止，我们通过补充笔划级别的多样性来克服CCSE-Kai的缺点。通过CCSEKai和CCSE-HW，我们提供了具有丰富字符和笔划水平多样性的数据集，以有效和合理地构建我们的基准。

数据集统计
在本节中，我们分析了建议的CCSE-Kai和CCSE-HW数据集的属性。我们首先在数量和注释类型方面将数据集与现有数据集进行比较。然后，我们分析了提出的数据集和数据集中出现的固有困难。

表1：不同汉字笔画数据集之间的比较。我们提出了迄今为止最大的具有实例掩码注释的公开可用中文笔划数据集。酒吧艾娃。是Publicly Available的缩写。

与现有数据集的比较
我们分析了提议的数据集的大小，并与中国笔画提取的几种常用数据集（Cao和Tan 2000；Xun等人2015；Xu等人2016；Chen等人2016）进行了比较。总结如表1所示。与之前最大的图像相比，我们有大约4倍的图像量（例如，9523对2556）。值得注意的是，与仅提供类别级标签的现有数据集不同，我们为每个笔划提供了实例级掩码，其中包含详细的空间和形状信息。最重要的是，我们是第一个为笔划提取提供公开可用数据集的公司，促进笔划提取和下游任务的公平比较。

表2：掩模R-CNN和级联掩模R-CNN的实验结果。D是Dataset的缩写。K和H分别是CCSE-Kai和CCSE-HW的缩写。

图5:CCSE-HW和CCSE-Kai数据集中中风实例的统计数据。

CCSE-Kai和CCSE-HW分析
我们主要从实例级别和类别级别对数据集进行定量分析。结果如图5所示。从图5a和图5b中，我们观察到CCSEKai在一幅图像中平均提供了更多的笔划，正如我们所预期的那样，因为复杂的笔划结构通常在一个字符中引入更多的笔画和类别。这表明CCSE Kai确实改进了我们基准数据集的字符级别多样性。此外，如图5c所示，我们发现CCSE-HW在图像中覆盖的范围更广，这表明手写字符能够通过包括不同尺度的笔划来改善笔划级别的多样性。这些结果验证了我们的数据集满足了实现有希望的笔划提取性能的多样性要求。

然后，我们通过分析每个类别的笔划数和边界框的尺度统计来揭示数据集的内在困难，结果分别如图6和图7所示。从图6中，我们观察到笔画提取任务面临严重的类别不平衡问题，这可能导致对数据点较少的笔画进行分类的性能受到阻碍。此外，我们还从图7中发现：1）笔画通常是条形的，这是与普通物体检测的主要区别。2）笔划的形状也会出现类不平衡问题，使得很难定位具有非常条形的笔划。解决这些困难超出了本文的范围，我们将其留给未来的工作。

图6:CCSE-HW和CCSE-Kai中每个类别的注释实例数。

图7：我们提出的两个数据集中边界框比例的累积分布直方图。

算法分析

基线
为了构建笔划检测基线5，我们考虑了广泛使用的检测器Faster R-CNN（Ren等人，2015）、Cascade R-CNN和FCOS（Cai和V ascencelos 2018）。为了构建笔划实例分割基准结果，我们使用了Mask R-CNN（He等人，2017）及其级联版本（Cai和V asconcelos 2018）。笔划实例分割工作流的概述如图8所示。为了简单起见，我们使用K和H分别表示CCSE-Kai和CCSE-HW数据集。

实施细节。我们的实现基于detectron2（Wu等人，2019）框架。由于图像分辨率低，我们的数据集的训练成本很低，因此我们默认应用3×训练计划。所有实验在单个Titan XP GPU上执行。对于每个迭代，从{112120}中随机选择最小训练图像大小。对于边界框回归，我们默认使用广义IoU损失。至于其他超参数和模块选择，我们遵循detectron2中的默认设置。掩码R-CNN用作我们的默认笔划实例分割模型。对于train/val/test 分区，我们以9:1:1的比例随机划分CCSE-Kai和CCSE-HW。

图8：笔划提取任务的笔划实例分割模型概述（使用掩码R-CNN进行说明）。

Stroke Instance Segmentation笔划实例分割

主要结果在本节中，我们介绍了笔划实例分割的结果。定量结果见表2。我们还提供了图9中的定性结果。如表2所示，我们在CCSE-Kai和CCSE-HW的中风实例分割方面取得了有希望的结果。CCSE Kai的AP掩码较低。我们将其归因于CCSE Kai中笔画高度重叠的复杂字符。它可以通过裁剪具有复杂特征结构的模型来进一步改进。值得注意的是，如图9所示，我们能够产生具有高置信度的笔划实例分割结果，这表明了我们的数据集的有效性，并将实例分割应用于笔划提取。由于篇幅有限，我们将失效案例分析放在补充部分。

图9:CCSE结果在CCSE-Kai和CCSE-HW上使用了掩码R-CNN。放大的最佳视图。

标准字体的可转移性结果
一个人可能会问，所提出的数据集是否可以包含更多打印字体样式的字符图像，这些字体样式也是笔划可分离的。简单地标记更频繁使用的打印字体样式可以实现这一目标，但也会耗时费力。考虑到常用字体样式（如Kai-Ti、Song Ti、Hei Ti）的结构和外观高度相似，因此我们利用CCSE Kai数据集训练的模型来自动标记其他字体样式的字符图像。如图106所示，调整边界框和遮罩以使用由我们的CCSE-Kai训练的模型导出的标签需要很小的努力。

图10：在Kai-Ti数据集上训练模型的宋体、黑体笔划提取结果。

图11：从左到右，分别向CCSE-Kai和CCSE-HW的样本添加噪声背景。

背景的影响
由于所提出的数据集没有背景，因此在此设置下训练模型可能不适合具有噪声背景的实际应用。因此，我们进行实验来验证和纠正这个问题。如图11所示，我们将复杂背景添加到角色图像7中，并使用它们来测试用原始数据集训练的模型。如表3所示，性能显著下降。为了弥补这一点，我们建议用复杂的背景增强图像训练模型，这大大提高了性能。

表3：掩模R-CNN在具有复杂背景的图像上的实验结果。BG表示向数据集中的图像添加复杂背景。

表4：不同来源和目标的实验。S和T分别是Source和Target的缩写。

表5：（Xu et al.2016）中的传统笔划提取方法与我们的笔划实例分割方法之间的比较，通过准确度、精度、召回率和F1。Ks和Hs分别是来自K和H的100个随机采样数据点的子集。K∗s表示K中笔划最多的100个数据点。

跨域评估
为了评估训练笔划提取模型的鲁棒性，我们在跨域设置下进行了实验。具体而言，我们在源（S）训练集上训练模型，并在目标（T）测试集上评估模型。因此，如表4所示，我们用（S，T）∈ {（H，K），（K，H）}。跨域评估结果表明，由于字符水平和笔划水平差异不匹配导致的域差异，该模型无法提供令人满意的性能。因此，我们提出了一种简单的补救方法，通过组合源和目标数据集来训练模型。通过这种方式，与仅使用一个数据集相比，总体性能得到了改进。我们认为有一种更有效的数据方式来解决领域差异问题，如无监督的领域适应（Ganin和Lempitsky 2015）。

图12：（Xu et al.2016）中的方法和我们的笔划实例分割方法的定性结果。

与先前方法的比较
实验协议
以前的大多数方法（Sun、Qian和Xu，2014；Xu等人，2016）只能在提取的中风位置上提供结果，而没有相应的类别。这样，在无法访问外部数据库的情况下，他们只能用人类评估对100张图像进行结果基准测试（Sun、Qian和Xu，2014）。具体而言，给定提取的笔划图像，要求人类评估提取的结果是否包含期望的笔划。然后，准确性被用作评估标准对比。我们还提供了准确度、召回率和F1得分方面的结果，以进行更全面的评估。

表6：使用不同预训练数据集进行字体生成任务的实验。

定量结果
我们在表5中报告了最新的传统笔划提取方法（Xu等人，2016）与我们的笔划实例分割方法之间的比较。由于传统方法在正确识别笔划时产生完美的位置匹配，因此我们设置了高IoU阈值，即。，0.9，并且具有高于0.9的IoU重叠的提取笔划被认为是正确提取的。我们有以下观察：首先，传统方法在K∗s大于Ks，这表明它们在处理具有复杂结构的字符方面的局限性。其次，传统的方法比Kai-Ti数据集Ks更难识别手写数据集Hs中的字符，这表明具有高方差的笔划对这项任务构成了一个不小的挑战。最后，在所有数据集上（即K∗s、Ks和Hs），我们的笔划实例分割方法在所有度量下都大大超过了以前的方法。请注意，0.9是标准实例分割文献中非常高的IoU阈值（He等人，2017；Wu等人，2019）。当我们降低IoU阈值时，我们观察到更显著的收益。在高IoU阈值下提高笔划实例分割性能是一项具有挑战性的任务。

定性结果
我们在传统方法（Xu et al.2016）和图12中的方法之间进行了定性比较。我们观察到：1）传统方法可以很好地提取可分离和规则笔划（图12中第1-2行）。2）他们很难从结构复杂或形状不规则的字符中提取笔画（图12中的第3-4行）。与它们不同，我们可以很好地处理这些情况，证明了所提出的数据集和中风实例分割方法的有效性。

表7：使用不同预训练数据集的手写美学评估任务实验。

将功能转移到下游任务
字体生成
我们研究我们训练的特征是否可以转移到字体生成任务中（姜等人，2019；刘和连，2021）。我们使用fontRL（Liu和Lian，2021）进行实验，fontRL使用笔划边界盒网络（BBoxNet）在角色渲染之前将角色的每个笔划放置在所需位置。因此，我们使用不同的预训练模型来初始化BBoxNet，结果如表6所示。IoU和MAE分别用于评估生成的字体和GT字体之间的结构对齐和外观差异。使用在我们的数据集上预训练的模型，我们获得了比其他预训练模型更好的性能，尤其是在IoU上，这表明我们的预训练模型能够更好地理解字符结构，从而促进这项任务。

手写美学评估
我们使用不同的预训练模型研究了这项任务（Sun等人，2015）。给定手写字符图像，该任务要求模型输出分类结果（从好、中和坏）和回归结果（从0到150），以指示手写体的美学水平。我们使用不同的预训练模型初始化ResNet-50。此外，我们还使用了线性探测协议，该协议冻结了预训练模型，并训练分类和回归层，以进一步检查特征的有效性。在表7中，用我们的CCSE-HW数据集预处理的模型比用ImageNet预处理的具有超过1M张图像的模型表现得好得多，这表明具有领域特定字符结构知识的紧凑数据集比大规模通用视觉数据集更适合于手写美学评估任务。

Conclusion

在这项工作中，我们提出了第一个大规模汉字笔划提取（CCSE）基准，以改进笔划提取任务并促进进一步研究。为此，我们毫不费力地采集了大量汉字图像，并为它们提供笔划级注释，以创建CCSE-Kai和CCSE-HW数据集。所提出的数据集满足字符级和笔划级的多样性，以实现有前景的笔划提取。我们对所提出的数据集的特性进行了一系列分析，并指出了它们的内在困难。最后，我们对笔画实例分割模型进行了大量的实验，以分析产生有希望的结果的影响因素，并表明预训练模型与提出的数据集有利于下游任务。我们未来的工作将集中在提高严格IoU条件下的笔划分割性能。

补充材料

我们将补充材料整理如下。
在“笔划检测的更多分析”一节中，我们对中风检测过程进行了详细分析。
•在“标准字体的更多可转移性结果”一节中，我们提供了其他标准字体的更定性结果。
•在“更多失败案例”一节中，我们提供了关于中风实例分割的更多失败案例。
•在“先前方法的更多细节”一节中，我们提供了先前笔划提取方法的更多详情（Xu等人，2016）。
•在“下游任务的更多细节”一节中，我们提供了下游任务的实验细节，即实验设置、评估指标和更多结果。
•在“背景效应的更多结果”一节中，我们提供了背景效应的定性结果

笔划检测的更多分析

由于我们采用Mask R-CNN（He et al.2017）模型进行笔划实例分割，该模型首先执行笔划检测，然后进行分割，因此我们通过调整重要的超参数来分析Faster R-CNN的笔划检测过程（Ren et al.2015）（Mask R-CNN的检测部分）：阶段数、锚框、主干和图像分辨率。

阶段数的影响
在本节中，我们将对广泛使用的一级、两级和多级检测器进行实验，以了解它们在我们提出的数据集上的性能。结果如表1所示。请注意，我们将级联R-CNN的级数设置为3，得到了4级模型（RPN贡献1级）。结果表明，随着阶段数的增加，我们获得了更好的笔划检测结果。

表1：单级、两级和多级探测器的中风检测结果。

锚箱的作用
如先前的研究所示（Ren等人，2015），锚箱的比率对最终结果有很大影响。由于笔划的条形特性，我们分析了锚盒的选择如何影响笔划检测性能。具体而言，我们逐渐将具有较高比率的锚定框添加到Faster RCNN中。结果如表2所示，这表明采用更高比率的锚箱确实提高了行程检测性能。

表2：不同锚定比的笔划检测结果。
图像分辨率的影响
目前，大多数探测器是在COCO（Lin等人，2014）基准上评估的，该基准具有相对较大的图像分辨率，即（800∼1000). 然而，汉字图像的分辨率通常较小，即（80∼120). 目前尚不清楚探测器是否受到图像分辨率的影响。因此，我们提供了不同分辨率的实验，以观察其效果。具体而言，我们在将短尺寸调整为｛112、120｝、｛224、240｝和｛448、480｝之一的同时应用相等缩放策略，以查看Faster R-CNN检测器的性能。请注意，我们还相应地缩放锚定框。在表3中，我们实现了分辨率为｛448480｝的最佳APbox，但也带来了更高的计算成本。

骨干的影响
我们为Faster R-CNN提供了不同主干设置的实验，以展示它们如何影响最终性能。具体而言，我们考虑两种设置，例如，不同的主干架构和在ImageNet上预训练或未预训练（Deng等人，2009）。对于主干架构，我们使用ResNet-{50101}（He等人，2016）和FPN{50101｝（Lin等人，2017）。表4显示了实验结果，表明预训练和更深层次的模型提高了性能。

标准字体的更多可传输性结果

在图1中，我们展示了其他标准字体样式的更多可移植性结果。具体来说，我们利用CCSE-Kai数据集训练的模型来自动标记其他字体样式的字符图像。由于源字体样式（即Kai-Ti），大多数结果都具有竞争优势。我们将这种强大的表现归因于这些字体样式所共享的高度相似的笔划样式。我们注意到，在某些情况下，除Kai-Ti之外的笔划提取是不准确的。我们认为，这可以通过弱监督实例分割方法解决（Zhou等人，2018），因为在不同字体样式中，每个字符的笔划类别和笔划组成是相同的。我们把它留给未来的工作。

图1：使用在Kai-Ti数据集上训练的模型，Kai-Ti、Li-Ti、Hei-Ti、You Yuan、Song-Ti风格的笔划提取结果。放大的最佳视图。

有关先前方法的更多详细信息

我们在图3中提供了最新的传统笔画提取方法ACSE（Xu等人，2016）的工作流程，该方法包括三个步骤：字符分解、跨区域提取和基于斜率的笔画组合。在ACSE中，字符首先根据连接性分解为几个独立的组件。然后，提取骨架和轮廓以计算交叉点集和终点集。如果骨架的交叉点集为空，则相应的笔划将直接输出为简单笔划。根据交叉点集和终点集，每个组件被分成若干笔划段。最后，如果多个笔划段共享相似的坡度，则将它们组合为一个笔划。

有关下游任务的更多详细信息

在本节中，我们将详细介绍如何将在建议的CCSE-Kai和CCSE-HW数据集上预训练的模型用于下游字体生成和手写美学评估任务。

字体生成

数据集。按照之前的方法（刘和廉，2021），我们在数字手写字体FZJHSXJW上执行字体生成任务。训练集包括775个汉字和7004个笔画。测试集包含6763个汉字中，有注释的笔划骨架和相应的平均字体样式。为了评估，首先将生成的字体和GT字体转换为二进制掩码，其中1表示带有笔划的像素，0表示背景。然后将生成的字体和GT字体之间的并集交集（IoU）和平均绝对误差（MAE）用作度量

**实施细节。**我们利用（Liu和Lian，2021）中的fontRL作为基线方法，测试不同预训练数据集的字体生成性能。
字体生成过程如下：
给定平均字体样式的笔划轨迹，
1）应用修改参数网络（MPNet）将其弯曲成目标字体样式的描画轨迹；
2）边界框预测网络（BBoxNet）用于预测画布中弯曲笔划的位置；
3）对所有笔划重复上述过程以形成目标字体的完整骨架；
4）最终采用图像渲染模块（IRM）以图像到图像转换方式将完整骨架转换为字形字体图像。MPNet、BBoxNet和IRM按顺序进行训练。我们通过使用从不同数据集预训练的参数初始化BBoxNet进行实验：None、ImageNet（Deng等人，2009）、我们的CCSE-Kai和CCSE-HW，同时保持其他模块相同。L1损耗用作训练BBoxNet的损耗函数。对于优化，我们使用lr=1e的Adam优化器−前100个时期为4，lr=1e−过去50个时代为5。其他实验方案严格符合（刘和廉，2021）。

结果我们在图4中提供了关于训练损失、测试IoU和测试MAE的训练过程的演变。我们有以下观察结果：首先，在没有数据集进行预训练的情况下，训练损失的收敛速度缓慢且非常不稳定。其次，具有预训练数据集的所有模型都能够提供快速但不一定稳定的（即ImageNet）收敛。第三，用我们的CCSE-Kai和CCSE-HW预训练的模型不仅提供了快速和稳定的收敛，而且大大提高了IoU度量。这表明，通过提供有效的字符结构信息而不是一般的视觉特征，我们具有10K图像的数据集可以在该任务中胜过具有1M图像的更大的ImageNet数据集。

图2：更多故障案例。第一行是笔划实例分割结果，第二行是地面实况。放大的最佳视图。

图3：先前方法的总体工作流程（Xu等人，2016）。为了简单起见，仅使用分解的组件1。

手写美学评估数据集。

数据集。我们使用来自（Sun et al.2015）的中国手写美学评估数据集（CHAED），该数据集由1000张图像组成，每100个汉字中有10张。奇数和偶数图像分别用于训练和测试。每个图像由33人标记，从3个级别中选择一个：好、中、坏。对于每个图像，用pgood、pmedium和pbad表示将其标记为好、中和坏的人数。最终分类标签由arg maxi pi，i计算∈ {好、中、坏}。此外，美感得分按100×好+50×中+0×差计算。

图4：使用不同预训练模型的字体生成任务的结果。从左到右：（a）训练损失，（b）并集上的测试交集，（c）测试平均绝对误差。

图5：使用不同预训练模型的手写美学评估任务的结果。从左到右：（a）美学分类任务的训练损失，（b）美学分类的测试准确性，（c）美学回归任务的训练损耗，（d）美学回归的测试平均绝对误差。

**实施细节。**对于模型架构，我们使用ResNet-50作为具有不同预处理数据集的特征提取器，即None、ImageNet（Deng等人，2009）和我们的CCSE-HW。我们删除了在ImageNet或None中预训练的模型的原始1000类分类层。在CCSE-HW中预训练后，我们将FCN检测器头和分割头放在Mask RCNN中。通过这种方式，ResNet50用于生成R2048中的特征向量。最后一个分类层和回归层是随机初始化的完全连接层。我们分别利用推土机距离损失（Talebi和Milanfar 2018）和平滑-1损失作为美学分类任务和回归任务的目标函数。为了优化，我们使用SGD优化器，其中（lr，权重衰减，动量）=（5e−3、1e−2、9e−1). 我们对所有模型进行120个周期的训练，学习率每40个周期衰减0.1。我们使用批量大小=64。对于图像增强，在训练和测试期间分别应用随机五次裁剪和中心裁剪到224×224的大小。

结果我们在图5中提供了关于分类训练损失、回归训练损失、测试精度和测试平均绝对误差（MAE）的端到端训练过程的演变。与在None和ImageNet上预训练的模型相比（Deng等人，2009），在我们的CCSE-HW上预训练后的模型收敛更稳定、更快，在测试精度和MAE方面取得了比它们更好的结果。这些结果验证了使用我们的数据集预训练模型能够有利于下游手写体美学评估任务，证明了我们的数据集合和所提出的笔划实例分割模型的有效性。我们相信有一种更有效的方法来改进下游任务，我们将其留给未来的工作。

关于背景效果的更多结果

为了评估加入CCSE-Kai和CCSE-HW的背景的效果，我们进行了更多的实验。我们利用利用纯数据集和复杂背景增强数据集训练的模型来评估它们在噪声图像上的性能。在图6中，当使用在纯CCSE-Kai和CCSEHW上训练的模型时，我们毫不意外地发现在复杂背景上存在大量错误检测。我们推测这是因为复杂的背景包含笔划状结构和一些颜色干扰，这在训练阶段没有考虑在内。为了弥补这一点，我们建议用复杂的背景增强图像来训练模型。如图6所示，性能得到了大幅提升。可以看出，该模型可以显著减少误检。这进一步证明了我们的数据集是适用于现实世界的，只需付出很少的努力。

图6：从左到右，“纯”：没有添加复杂背景。“+BG”：添加复杂背景。“TrainedPure”：用于推理的模型是用纯数据集训练的。“Trained+BG”：用于推理的模型使用复杂的背景增强数据集进行训练。放大的最佳视图。

References

Deng, J.; Dong, W.; Socher, R.; Li, L.-J.; Li, K.; and Fei-
Fei, L. 2009. Imagenet: A large-scale hierarchical image
database. In CVPR, 248–255.
He, K.; Gkioxari, G.; Dollár, P .; and Girshick, R. 2017. Mask
r-cnn. In ICCV, 2961–2969.
He, K.; Zhang, X.; Ren, S.; and Sun, J. 2016. Deep residual
learning for image recognition. In CVPR, 770–778.
Lin, T.-Y .; Dollár, P .; Girshick, R.; He, K.; Hariharan, B.;
and Belongie, S. 2017. Feature pyramid networks for object
detection. In CVPR, 2117–2125.
Lin, T.-Y .; Maire, M.; Belongie, S.; Hays, J.; Perona, P .; Ra-
manan, D.; Dollár, P .; and Zitnick, C. L. 2014. Microsoft
coco: Common objects in context. In ECCV, 740–755.
Liu, Y .; and Lian, Z. 2021. FontRL: Chinese Font Synthesis
via Deep Reinforcement Learning. In AAAI, 2198–2206.
Ren, S.; He, K.; Girshick, R. B.; and Sun, J. 2015. Faster
R-CNN: Towards Real-Time Object Detection with Region
Proposal Networks. 91–99.
Sun, R.; Lian, Z.; Tang, Y .; and Xiao, J. 2015. Aesthetic Vi-
sual Quality Evaluation of Chinese Handwritings. In IJCAI,
2510–2516.
Talebi, H.; and Milanfar, P . 2018. NIMA: Neural image as-
sessment. TIP, 27: 3998–4011.
Xu, Z.; Liang, Y .; Zhang, Q.; Dong, L.; and Izquierdo, E.
2016. Decomposition and matching: Towards efficient auto-
matic Chinese character stroke extraction. In VCIP, 1–4.
Zhou, Y .; Zhu, Y .; Y e, Q.; Qiu, Q.; and Jiao, J. 2018. Weakly
supervised instance segmentation using class peak response.
In CVPR, 3791–3800.

References

Arcelli, C.; and Di Baja, G. S. 1985. A width-independent
fast thinning algorithm. TPAMI, 7: 463–474.
Bolya, D.; Zhou, C.; Xiao, F.; and Lee, Y . J. 2019. YOLACT:
Real-Time Instance Segmentation. In ICCV, 9156–9165.
Cai, Z.; and V asconcelos, N. 2018. Cascade R-CNN: Delv-
ing Into High Quality Object Detection. In CVPR, 6154–
6162.
Cao, R.; and Tan, C. L. 2000. A model of stroke extraction
from chinese character images. In ICPR, 368–371.
Chen, X.; Lian, Z.; Tang, Y .; and Xiao, J. 2016. A bench-
mark for stroke extraction of chinese characters. Acta Sci-
entiarum Naturalium Universitatis Pekinensis, 52: 49–57.
Chen, X.; Lian, Z.; Tang, Y .; and Xiao, J. 2017. An Auto-
matic Stroke Extraction Method using Manifold Learning.
In Eurographics, 65–68.
Fan, K.-C.; and Wu, W.-H. 2000. A run-length-coding-based
approach to stroke extraction of Chinese characters. PR, 33:
1881–1895.
Ganin, Y .; and Lempitsky, V . 2015. Unsupervised domain
adaptation by backpropagation. In ICML, 1180–1189.
Gao, Y .; and Wu, J. 2020. GAN-Based Unpaired Chinese
Character Image Translation via Skeleton Transformation
and Stroke Rendering. In AAAI, 646–653.
He, K.; Gkioxari, G.; Dollár, P .; and Girshick, R. 2017. Mask
r-cnn. In ICCV, 2961–2969.
Hsieh, T.-I.; Robb, E.; Chen, H.-T.; and Huang, J.-B. 2021.
Droploss for long-tail instance segmentation. In AAAI,
1549–1557.
Huang, Y .; He, M.; Jin, L.; and Wang, Y . 2020. RD-GAN:
few/zero-shot chinese character style transfer via radical de-
composition and rendering. In ECCV, 156–172.
Jiang, Y .; Lian, Z.; Tang, Y .; and Xiao, J. 2019. Scfont:
Structure-guided chinese font generation via deep stacked
networks. In AAAI, 4015–4022.
Lee, C.; and Wu, B. 1998. A Chinese-character-stroke-
extraction algorithm based on contour information. PR, 31:
651–663.
Liu, C.-L.; Kim, I.-J.; and Kim, J. H. 2001. Model-based
stroke extraction and matching for handwritten Chinese
character recognition. PR, 34: 2339–2352.
Liu, X.; Jia, Y .; and Tan, M. 2006. Geometrical-statistical
modeling of character structures for natural stroke extraction
and matching. In IWFHR.
Liu, Y .; and Lian, Z. 2021. FontRL: Chinese Font Synthesis
via Deep Reinforcement Learning. In AAAI, 2198–2206.
Qiguang, L. Z. H. 2004. Algorithm and implementation in
chinese charac-tersorder of strokes recognition. CAS, 7: 041.
Ren, S.; He, K.; Girshick, R. B.; and Sun, J. 2015. Faster
R-CNN: Towards Real-Time Object Detection with Region
Proposal Networks. 91–99.
Su, Y .-M.; and Wang, J.-F. 2004. Decomposing Chinese
characters into stroke segments using SOGD filters and ori-
entation normalization. In ICPR, 351–354.
Su, Z.; Cao, Z.; and Wang, Y . 2009. Stroke extraction based
on ambiguous zone detection: a preprocessing step to re-
cover dynamic information from handwritten Chinese char-
acters. IJDAR, 12: 109–121.
Sun, R.; Lian, Z.; Tang, Y .; and Xiao, J. 2015. Aesthetic Vi-
sual Quality Evaluation of Chinese Handwritings. In IJCAI,
2510–2516.
Sun, Y .; Qian, H.; and Xu, Y . 2014. A geometric approach to
stroke extraction for the Chinese calligraphy robot. In ICRA,
3207–3212.
Tian, Z.; Shen, C.; Chen, H.; and He, T. 2019. Fcos: Fully
convolutional one-stage object detection. In ICCV, 9627–
9636.
Wu, Y .; Kirillov, A.; Massa, F.; Lo, W.-Y .; and Girshick,
R. 2019. Detectron2. https://github.com/facebookresearch/
detectron2.
Xie, Y .; Chen, X.; Sun, L.; and Lu, Y . 2021. DG-Font: De-
formable Generative Networks for Unsupervised Font Gen-
eration. In CVPR, 5130–5140.
Xu, S.; Jiang, H.; Lau, F. C.-M.; and Pan, Y . 2007. An intel-
ligent system for chinese calligraphy. In AAAI, 1578–1583.
Xu, Z.; Liang, Y .; Zhang, Q.; Dong, L.; and Izquierdo, E.
2016. Decomposition and matching: Towards efficient auto-
matic Chinese character stroke extraction. In VCIP, 1–4.
Xun, E.; Xiaochen, L.; Weihua, A.; Sun, Y .; and Ramp, I.
2015. Stroke retrieval of handwritten Chinese character im-
ages for handwriting teaching. Scientiarum Naturalium Uni-
versitatis Pekinensis, 51: 241–248.
Y u, K.; Wu, J.; and Y uan, Z. 2012. Stroke extraction for
chinese calligraphy characters. JCIS, 8: 2493–2500.
Zeng, J.; Chen, Q.; Liu, Y .; Wang, M.; and Y ao, Y . 2021.
Strokegan: Reducing mode collapse in Chinese font genera-
tion via stroke encoding. In AAAI, 3270–3277.
Zeng, J.; Feng, W.; Xie, L.; and Liu, Z.-Q. 2010. Cascade
Markov random fields for stroke extraction of Chinese char-
acters. IS, 180: 301–311.

你可能感兴趣的:(汉字风格,人工智能)

《今日AI-人工智能-编程日报》-源自2025年3月21日小亦编辑部人工智能
一、AI编程领域最新动态AI编程工具崛起，程序员职业面临挑战Anthropic首席执行官DarioAmodei预言，未来一年内，90%的代码将由AI生成，传统程序员的工作可能被大幅替代。最新发布的AI编程模型（如Claude3.7、Sonnet3.7）在初级开发评估中表现优异，得分率超过60%，部分模型甚至在全球程序员排名中位列前0.1%。字节跳动的Trae海外版接入Claude3.7和GPT-4
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
普通人学习AI应该如何入手？2025年最新AI大模型学习路线+全套学习资料，适合新手小白！小城哇哇人工智能学习大数据语言模型 AI大模型 agi ai
引言随着人工智能（AI）技术的飞速发展，越来越多的人开始意识到掌握这项技能的重要性。然而，对于许多没有编程背景或数学基础的人来说，进入AI领域似乎是一个遥不可及的梦想。但实际上，通过合理的规划和适当的学习资源，任何人都可以逐步掌握AI的核心知识，并应用到实际工作中去。本文将为普通读者提供一份详细的2025年最新AI大模型学习路线图，并附带一套完整的自学资料，帮助您从零基础起步，顺利开启AI学习之旅
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
SpringBoot整合Swagger和Mybatis-Plus _拾柒_ spring boot mybatis
一、Swagger（一）、Swagger简介Swagger是一种用于描述、设计、构建和使用RESTful风格的Web服务的工具集和规范。它提供了一种标准的方式来定义API，并生成交互式文档，使得开发人员、测试人员和其他利益相关者可以快速了解和使用API。（二）、Swagger特点自动生成文档：基于API定义，Swagger可以自动生成交互式文档，其中包含了API的详细说明、请求示例、响应示例等信息
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
手机游戏《银河历险记2》：一场奇幻的星际解谜之旅 2501_90238385 游戏
《银河历险记2》是一款经典的解谜冒险游戏，故事发生在一个只有男孩和一只狗的星球上。一天，小狗被外星人抓走了，于是男孩踏上了营救小狗的冒险之旅。游戏的画面风格独特，采用了复古的像素艺术，营造出一种静谧而神秘的异星世界。游戏特色：奇幻与解谜的完美结合1.独特的像素艺术风格游戏的画面虽然简洁，但细节丰富，每个星球都有独特的风景和风格，从荒凉的沙漠到神秘的森林，让玩家仿佛置身于一个真实的异星世界。2.丰富
30秒生成电子合同：B2B系统+AI引擎缩短80%交易周期|数商云数商云网络 B2B系统数字化电商平台人工智能大数据云计算数据库运维 java spring
引言在数字经济时代，B2B（Business-to-Business）电子商务正在以前所未有的速度改变着企业的运营模式。随着交易量的不断攀升，传统的合同生成和审核流程逐渐成为制约交易效率的瓶颈。然而，随着人工智能（AI）技术的飞速发展，结合B2B系统的智能化升级，我们正见证一场合同生成效率的革命。本文将深入探讨“30秒生成电子合同：B2B系统+AI引擎缩短80%交易周期”这一创新模式，解析其背后的
【北京迅为】iTOP-RK3568开发板OpenHarmony系统南向驱动开发UART接口运作机制迅为电子 RK3568开发板 RK3568开发板 OpenHarmony
瑞芯微RK3568芯片是一款定位中高端的通用型SOC，采用22nm制程工艺，搭载一颗四核Cortex-A55处理器和MaliG522EE图形处理器。RK3568支持4K解码和1080P编码，支持SATA/PCIE/USB3.0外围接口。RK3568内置独立NPU，可用于轻量级人工智能应用。RK3568支持安卓11和linux系统，主要面向物联网网关、NVR存储、工控平板、工业检测、工控盒、卡拉OK
大学期间如何学习利用AI der丸子吱吱吱学习人工智能
一、引言人工智能（AI）是当今世界技术发展的重要方向，它已经渗透到医疗、金融、交通、娱乐等各个领域。随着AI技术的快速发展，它不仅改变了我们的生活，也带来了巨大的职业机会。然而，面对如此广阔的领域，作为大学生，如何在本科阶段有效地学习和利用AI，成了许多同学的困惑。本文将详细介绍大学生在本科阶段如何通过合理的学习路线、方法和工具，逐步掌握AI的核心技术，并为日后进入AI行业打下坚实的基础。通过这篇
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
模型上下文协议 (MCP)是什么？Model Context Protocol 需要你了解一下同学小张学习 AIGC AI-native agi gpt 开源协议
大家好，我是同学小张，+v:jasper_8017一起交流，持续学习AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，订阅我的大模型专栏，共同学习和进步。在人工智能领域，ModelContextProtocol（MCP）正逐渐成为连接AI模型与各类数据源及工具的重要标准。MCP究竟为何物？它又将如何改变AI应用的开发与使用？文章目录0.概念1.MCP的总体架构2.为何使用MCP？3.我的理解4
生成式对抗网络在人工智能艺术创作中的应用与创新研究辛迎蕌人工智能
摘要本文深入探究生成式对抗网络（GAN）在人工智能艺术创作领域的应用与创新。通过剖析GAN核心原理，阐述其在图像、音乐、文学等艺术创作中的实践，分析面临的挑战与创新方向，呈现GAN对艺术创作模式的变革，为理解人工智能与艺术融合发展提供全面视角。一、引言在人工智能与艺术深度融合的时代浪潮中，生成式对抗网络（GAN）作为一项突破性技术，为艺术创作带来了全新的可能性。它打破传统创作边界，以独特的对抗学习
知识图谱在人工智能语义理解与推理中的关键作用及发展研究 @王威& 人工智能
摘要本文聚焦知识图谱，深入剖析其在人工智能语义理解与推理中的核心作用。阐述知识图谱的构建原理、表示方法，分析其在自然语言处理、智能问答系统、推荐系统等多领域助力语义理解与推理的应用，探讨面临的挑战并展望未来发展方向，全面呈现知识图谱对人工智能发展的重要价值与深远影响。一、引言在人工智能追求更精准理解和处理人类语言与知识的进程中，知识图谱成为关键技术。它以结构化形式组织海量知识，揭示实体间复杂关系，
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
AI人工智能 Agent：在赋能传统行业中的应用 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：在赋能传统行业中的应用1.背景介绍1.1人工智能的发展历程1.1.1人工智能的起源与发展1.1.2人工智能的三次浪潮1.1.3人工智能的现状与挑战1.2传统行业面临的困境1.2.1效率低下1.2.2成本高企1.2.3决策滞后1.3人工智能赋能传统行业的必要性1.3.1提高效率1.3.2降低成本1.3.3优化决策2.核心概念与联系2.1人工智能Agent的定义2.1.1Age
UnityShader实现水渲染源 unity shader
今天分享一下如何使用Shader实现水体渲染和波浪扰动效果我们一般可以使用Plane去模拟水平面，创建好Plane后,结合自己项目的风格去搞一个水体贴图，可以在网上下载，我这里直接用这张1准备工作完毕，直接上代码Shader"Custom/WaterShader"{Properties{_BaseColor("BaseColor",Color)=(0,0.5,1,1)//水的基色_NormalM
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
硬件NAS将成为电子垃圾？ DeepSeek+NAS 家用NAS WinNAS 飞牛NAS 人工智能安卓NAS
随着人工智能（AI）技术的快速发展，传统的NAS设备正面临一场深刻的变革。过去，NAS的主要功能是提供数据存储和共享服务，但在AI时代，单纯的存储功能已无法满足用户需求。未来的NAS必须集成本地AI能力，才能成为真正的AI-NAS。然而，当前市场上的NAS产品硬件配置普遍较低，无法支持本地AI的运行。因此，现有的硬件NAS在三年内可能会被淘汰，取而代之的将是集成了AI和NAS功能的家用AI服务器。
【DeepSeek】全方位使用指南————简版諰. 人工智能 ai AI写作
一、平台概述DeepSeek（深度求索）是专注实现AGI的中国的人工智能公司，提供多款AI产品：智能对话（Chat）文生图（Art）代码助手（Coder）API开发接口企业定制解决方案二、注册与登录2.1账号创建访问官网https://www.deepseek.com点击右上角「注册」支持三种方式：手机号+短信验证邮箱注册（需验证邮件）第三方登录（微信/Google账号）2.2订阅计划套餐类型免费
【人工智能】注意力机制深入理解问道飞鱼机器学习与人工智能人工智能注意力机制
文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力（SparseAttention）****2.相对位置编码（RelativePositionEncoding）****3.图注意力网络（GraphAttentionNetwork,GAN）****
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。