随风飘动的小王

论文笔记 / Deep features for breast cancer histopathological image classification

仅供参考，如有翻译不到位的地方敬请指出。转载请标明出处！
论文地址：https://ieeexplore.ieee.org/abstract/document/8122889/citations#citations

摘要

乳腺癌（BC）是一种致命疾病，每年导致数百万人死亡。开发应用于患者图像的自动化恶性BC检测系统可以帮助更有效地处理该问题，使诊断更具可扩展性并且不易出错。同样重要的是，这种研究可以扩展到其他类型的癌症，对帮助挽救生命产生更大的影响。最近关于BC识别的结果表明，卷积神经网络（CNN）可以获得比手工制作的特征描述符更高的识别率，但是要付出的代价是开发系统的复杂性增加，需要更长的培训时间和特定的专业知识来细化调整CNN的架构。DeCAF（或深层）功能包括一个中间解决方案，它基于重新使用以前训练过的CNN作为特征向量，然后将其用作仅针对新分类任务训练的分类器的输入。鉴于此，我们提出了用于BC识别的DeCaf特征的评估，以便更好地理解它们与其他方法的比较。实验评估表明，这些特征可以成为快速开发高精度BC识别系统的可行替代方案，通常可以获得比传统手工制作的纹理描述符更好的结果，并且在某些情况下优于任务特定的CNN。

1、介绍

癌症目前是一种在全球范围内崛起的致命疾病。一些出版物，例如国际癌症研究机构（IARC）的出版物，是世界卫生组织（WHO）的一部分，仅报告了2012年因癌症导致的约820万人死亡的数字。预计到2030年，这种疾病的发病率将达到约2700万新病例[1]。在几种现有类型的癌症中，乳腺癌（BC）具有两个非常令人关注的特征：1）它是全世界女性中最常见的癌症; 2）与其他类型的癌症相比，它具有很高的死亡率。由于组织病理学分析仍然是最广泛使用的BC诊断方法[2]病理学家在显微镜下对组织学样本进行视觉检查，大部分诊断仍在继续进行，组织病理学图像的自动分类是一个研究课题，可以使BC诊断更快，更不容易出错。然而，直到最近，BC组织病理学图像识别系统的工作主要与小数据集一起工作，这通常是开发高精度图像识别系统的一个很大的限制。最近发布的BreaKHis数据集[3]包含超过7,900 幅图像，其中包含来自80多名患者的4种不同放大倍数，包括弥合这一差距的重要进展，允许研究人员将机器学习技术应用于此问题。

BC识别的当前最新结果遵循设计图像识别系统的两种最常见的方式。[3]中的方法，我们通常称为视觉特征描述符或手工制作的特征，遵循更“传统”的方法，其中对六个不同特征集和四个基本分类器的组合进行评估，并且最终系统由在验证集中产生最佳结果的组合定义。相反，在[4]和[5]中这些方法遵循深度学习趋势，其中卷积神经网络（CNN）被训练用于BC识别问题。第一种是基于单任务和多任务CNN架构的独立于放大的方法。第二个，这里称为从头开始的CNN或任务特定的CNN，可互换地，依赖于提取原始图像的几个小块来训练特定的CNN架构。报告的结果清楚地表明，后者可以实现更高的识别率。然而，这种系统的开发需要更长的培训时间，一些技巧如随机补丁[6]以提高性能，并且仍然有很多来自开发人员的专业知识来调整系统。

手工制作和任务特定的CNN方法的中间替代方案在文献中经常出现，通常被称为DeCAF特征或神经代码。该方法包括仅将预训练的CNN重新用作特征提取器，在该特征提取器之上，可以仅为新的分类任务学习新分类器的参数。这种方法已被证明是一种非常好的通用图像特征提取，可在各种任务中提供有竞争力的结果。虽然在大型训练集可用时从头开始训练CNN仍然是获得最佳准确度的最佳选择，但只要有适当的资源，DeCAF功能可以成为开发高精度系统的可行替代方案，类似于系统基于手工制作的功能。因此，如果DeCAF特征能够胜过其他视觉特征描述符，则可以将其设置为开发高精度图像识别系统的标准起点。与该领域相关的精确系统的开发，例如用于识别其他类型癌症的系统，可以更快地完成。

鉴于这些观点，这项工作的主要焦点在于评估DeCAF特征用于BC组织病理学图像分类，将BreaKHis数据集作为基准，旨在更好地理解这种方法与手工描述符和任务特定CNN的比较。更确切地说，我们的目标是利用预先训练的CNN从网络的不同层提取DeCAF特征，以了解这些特征是否足以与视觉特征描述符竞争，例如[3]中提出的那些。，以及它们如何与基于深度学习的方法进行比较，如CNN从头开始训练问题，如[4]，以及独立放大CNN方法，在[5]中提出。为了实现这些目标，我们利用[11]中最初描述的多特征向量（MFV）框架，这允许我们在不同场景中评估此特征集，例如通过组合子图像的分类结果（我们也称为补丁）和/或组合不同的特征集。在这种情况下，我们不仅可以在使用基于补丁的方法时评估DeCAF特征的性能，还可以结合来自预训练CNN的不同层的DeCAF特征。

2、相关工作

在文献中，首次发表的关于癌症诊断自动成像处理的工作已有40多年的历史[12]。尽管对这个问题有着长期的兴趣，但由于这种系统需要分析的图像的复杂性，为它开发解决方案仍然具有挑战性。

近年来发表的与该主题相关的大量研究论文证明了研究界对该主题的兴趣。值得一提的是，最近这些与BC分类相关的工作主要集中在整体幻像（WSI）。然而，WSI和其他形式的数字病理学的广泛采用一直面临着诸如实施和操作技术的高成本，大批量临床常规的生产力不足，内在的技术相关问题，未解决的监管问题等障碍。作为病理学家的“文化抵抗” [19]。

另一个相关方面是，直到最近，关于BC组织病理学图像分析的大部分工作都是在小型数据集上进行的。另一个缺点是科学界通常无法获得这些数据集，这不仅使其他研究人员难以开发新系统，因为他们需要收集图像来组成训练集，而且还要对基于系统。为了弥合这一差距，BreaKHis数据集已经发布并免费提供给研究界[3]。该数据库包含来自乳腺肿瘤的外科活检（SOB）的显微图像，共计7,909个图像分为良性和恶性肿瘤，这些图像已经在四种不同的放大因子（或缩放级别，这是我们使用的术语）中收集可互换的）：40 × ，100 × ，200 × 和 400 ×。从乳房组织活检载玻片产生样品，用苏木精和曙红（HE）染色。制备这些样品用于组织学研究，并由Prevenção＆Diagnose（P＆D）实验室的病理学家进行标记。采集的数字图像有3通道RGB（红 - 绿 - 蓝）TrueColor（24位色深，每通道8位）色彩空间，尺寸为700 × 460像素。图1显示了该组中的四个相应放大系数的样本。BreaKHis数据库的完整描述可以在[3]中找到。

图1。来自breakhis数据库的图像样本。不同的区域，属于同一张乳腺恶性肿瘤（用他染色），见于不同的放大因子：（a）40 × ，（b）100 × ，（c）200 ×，和（d） 400 ×。

自最近发布BreaKHis数据集以来，已经提出了一些使用该数据集的方法。在[3]中，作者提出了对六种不同视觉特征描述符的不同组合以及不同分类器的评估。他们报告的精度范围从80％到85％，这可能会因图像放大系数而异。Span-hol 等。[4]来自CNN的该集合的结果。鉴于CNN通常需要大型数据集，他们利用随机补丁技巧，包括在训练和测试阶段提取子图像。在训练期间，想法是通过在随机定义的位置提取补丁来增加训练集。并且在测试期间，从网格中提取补丁，并且在对每个补丁进行分类之后，将它们的分类结果组合。作者表明，采用这种方法，可以在准确度上观察到大约4到6个百分点的增加。最近，Bayramoglu 等人。[5]提出了一种对BC组织病理学图像进行分类的方法，该方法与放大因子无关。他们的实验结果与先前从手工制作的特征获得的最先进结果相竞争[3]。

值得一提的是，深度学习方法在多个任务中始终优于更传统的机器学习方法。尽管如此，实现良好的性能取决于训练集的大小，或取决于更专业的训练方案，例如随机补丁，这通常需要非常长的训练时间。避免必须处理大型训练数据集和长训练时间的解决方案，并且最近报告具有非常好的性能，是依赖于重用现有的预训练CNN。这种方法通常被称为DeCAF特征或神经代码，之前已应用于各种任务，如物体识别[7]，图像检索[8]，纹理识别[9]等[10]。

3、DeCAF功能

DeCAF功能的构思包括从图像中提取特征并将其用作分类器的输入，就像任何其他特征集一样。然而，DeCAF基于表示学习，其中神经网络的参数以原始数据（即图像的像素）可以转换为高级表示的方式学习[20]。DeCAF特征与当前使用CNN的标准[4]，[6]，[21]之间的主要区别在于，先前训练的CNN被简单地重新用作特征提取器，其输出被馈送到另一个分类器，训练有素关于特定问题的数据。

详细地说，DeCAF特征集包括重用预训练神经网络（通常是CNN）的架构和参数，通过前馈步骤传递输入图像，并使用网络的给定层的输出作为输入。分类器[7] - [8] [9] [10]。为了实现这一想法，我们使用预先训练的BVLC CaffeNet Model 1 （或简称为CaffeNet），Caffe深度学习框架2免费提供。该模型包含对AlexNet模型的轻微修改[21]鉴于它没有经过数据增强训练，并且池化和归一化层的顺序被切换，即在CaffeNet池中进行归一化。

CaffeNet模型已经在ImageNet数据集[22]上进行了培训，更具体地说是针对ILSVRC12挑战发布的数据集，在验证集上获得了57.4％的前1准确度和80.4％的前5准确度。该集包含大约120万个样本，分布在1,000个不同的类中。鉴于类的数量和可变性以及大量样本，主要假设是从在该数据集上训练的CNN获得的表示定义了非常好的通用特征提取器。

为了将CaffeNet模型转换为特征提取器，我们利用CNN最顶层的输出，例如层fc6，fc7和fc8（参考图示在图2的右下方）。然后，对应于那些层的输出的向量可以用作分类器的输入，仅对任务特定数据进行训练。

4、实验

在本节中，我们对BreaKHis数据集进行了广泛的实验评估，以评估不同情景下的DeCAF特征。考虑到图像级别和患者级别的准确度指标，独立评估每个级别的准确度。第二个度量标准的原因在于，通常，在医学成像中，决策是在患者方面做出的。为了更好地理解，我们在下面定义了两个指标。

图像级精度仅对应于正确分类图像总数的分数。那就是，让ñ我中号是数据集中的图像总数，和 ñC 正确分类的图像总数，图像级精度定义为：

图像级精度=Nc / Nim

另一方面，患者级精确度对应于每位患者的平均图像级准确度。更正式的是，让我们ñP 是患者总数， ñpC 是来自患者的正确分类图像的总和 p，和 ñp我中号同一患者的图像总数，患者级别的准确度定义为：

尽管CaffeNet模型中的层数相对较多，但在这项工作中，我们只关注从三个最顶层提取特征，即fc6，fc7和fc8，它们可能是三个最高级别的特征。这些层分别由4,096,4,096和1,000维组成。鉴于这些向量的高维性，我们仅考虑Logistic回归作为基本分类器，因为它在训练和分类阶段都很快，并且可以提供输出概率。

实验按以下方式组织。通过考虑基于补丁的识别和不同的配置，我们首先通过利用fc6，fc7或fc8层的输出单独评估DeCAF功能集的使用，并考虑具有1,4和16的系统补丁，基于[11]中提出的MFV框架。这些实验的主要目的是观察不同层的DeCAF特征的准确性差异，以及进行基于贴片的分类时的影响。

然后，我们进行类似的实验，但同时考虑多个特征集的组合，即来自网络的多个层的特征。同样，我们基于[11]中提出的框架实现了这个想法，其中功能组合考虑了补丁级别的输出。

为了与现有技术直接比较，在[3]，[4]中使用的五重复制的相同分区可用于数据集3的下载页面。

图2。alexnet模型的例证（摘自[21]），用作caffe模型的基线。在右下角，列出了顶层的引用名称。

A.结果

通过考虑先前描述的设置，第一评估使用来自三个上述层中的每一个的DeCAF特征，单独地，具有1,4和16个块。结果列于表I中。很明显，来自fc8层的特征比来自其他两层的特征表现更差，这在所有情况下都表现出最好的结果。与fc7和fc6相比，第一个具有轻微优势，在4个缩放级别中有3个具有最佳患者级别准确度，考虑到两个放大因子都在图像级别达到最佳准确度。关于补丁的使用，结果表明这可能是一个有趣的替代方案，以改善这些功能的结果。除了400 ×缩放级别，使用整个图像（单个补丁）实现最佳患者级别准确度，所有其他缩放级别的最佳结果是至少有4个补丁。具有缩放级别200 ×，具有16个补丁的系统表现得相当好。

B.使用组合的结果

这里给出的结果与评估来自层fc6，fc7和fc8的DeCAF特征的组合的实验有关（考虑到可以使用的四种可能的特征集，考虑到空间限制，仅指出为6,7和8）。即6 + 7 + 8,6 + 7,6 + 8和7 + 8。鉴于我们已经观察到同时组合来自三个层的特征没有提供最高的识别率，表II仅显示了成对组合的结果。

总的来说，尽管我们可以观察到某些情况下准确性的一些改进，但与单个特征集在时间上获得的最佳结果相比，最大增益幅度仅为0.3％，即从86.0％增加到患者准确率为86.3％ 200 × 放大系数，图像精度从84.3％增加到84.6％ 40 × 放大系数。

C.方法准确性的比较

在表III中，我们比较了基于传统手工制作的特征[3]，任务特定的CNN [4]和DeCAF特征（这项工作）的方法的准确性。这些方法在F1得分（也称为文献中的F-得分和F-度量[23]）方面进行了比较，由精度和召回之间的调和平均值给出（方程（3））

表I：精度，各自的标准偏差，没有层的组合。P代表患者级别的准确度，I代表图像级别的准确度，P代表补丁的数量。粗体，灰色背景，突出显示每个级别和放大系数的最佳结果

对于患者水平评估，我们考虑所有患者的平均F1评分，类似于公式（2）中定义的患者水平准确度。该指标可以更好地了解检测阳性病例（即恶性癌症）的准确性，其中这种检测中的错误对于这类问题是非常昂贵的（它可能花费患者的生命）。一般来说，F1得分更能突出DeCAF功能的优异表现。与[3]中发表的视觉特征提取器的性能相比，我们的方法在患者和图像级别得分方面优于其他方法。与来自[4]的任务专用CNN相比，我们可以观察到与整体精度相似的结果。然而，观察到方法之间的更小间隙，尤其是在100倍放大系数下。

表II：结合FC6，FC7和FC8层的脱咖啡特征得到的精度，各自的标准偏差。P代表患者级别的准确度，I代表图像级别的准确度，P代表补丁的数量。粗体，灰色背景，突出显示每个级别和放大系数的最佳结果。

表III：三种方法的F1得分（患者和图像水平）。最佳结果以粗体显示，在灰色背景下是在这项工作中获得更高结果的情况，与[3]中提供的结果相比较。多个分类器组合的结果标有*

D.讨论

为了更好地理解这里给出的结果，在表IV中我们汇总了这项工作中获得的最佳结果，并将它们与[3]，[4]和[5]中给出的最佳结果一起列出。[5]中公布的所有结果均基于患者评分，并且无法进行图像水平分析。

主要观察结果是，使用DeCAF特征通常可以获得比使用更传统的视觉特征描述符更好的结果，例如LBP（局部二进制模式）[24]和PFTAS（参数自由阈值分析）[25]，[26 ] ]，而且，在几乎一半的情况下，甚至击败CNN的结果[4] ，[5] 。与传统方法相比[3]，仅在200 × 缩放级别与图像级精度相关，而DeCAF在患者精确度方面失去了 400 ×放大系数。在其余情况下，使用DeCAF功能获得的识别率至少提高0.4％，但这种差异可能高达4.1％。与[4]中提出的基于CNN的方法相比，取得了更高的成果，DeCAF的功能优于该方法200 ×：缩放级别，并在 400 ×在图像准确性。在不考虑[4]中提出的分类器组合的情况下，具有DeCAF特征的系统在该放大因子中也以患者精度击败CNN。并在40 ×放大系数，图像级精度接近CNN。但是，对于相同缩放级别的患者级别准确度，以及两种指标100 ×放大倍数，CNN以更大的幅度击败我们的结果，范围从4.5％到6.0％。这指出特定于任务的CNN可能更好地处理具有更细粒度结构的图像，而DeCAF特征可以更好地适用于更粗粒度的问题。

表IV：与文献的比较。最好的结果以粗体显示，在灰色背景下是在这项工作中获得更高结果的情况，与[3]中的结果相比较。多个分类器组合的结果标有*

5、结论

在这项工作中，我们使用BreaKHis数据集展示了使用DeCAF特征进行乳腺癌识别的研究。BreaKHis数据集的大尺寸使我们有机会在同一数据集上比较从头开始训练的CNN与从自然图像训练的另一个CNN重新利用的（DeCAF）特征，这通常是医学图像数据集不可能的，因为它们是太小。从结果我们可以看出，这些特征是使用深度学习快速创建图像识别系统的可行替代方案，并且该系统可以比使用视觉特征描述符的系统更好地执行。与从零开始训练的CNN相比，DeCAF具有可比较的识别率。请注意，专门针对该问题培训CNN需要更复杂和更慢的培训方案。

该结果对于计算机辅助诊断中基于未来分类的系统的设计是重要的，因为它表明深度学习的特征，即使通过在其他类型的图像上训练的CNN获得，也是有价值的。通过这项研究，我们向医学图像分析和CAD / CADx系统的转移学习迈出了一步，如[27]，CNN在ImageNet上训练，可以检测医学图像中的结节。

作为未来的工作，一个方向是使用补丁提高DeCAF功能的识别准确性。进一步研究贴片的大小以及重叠贴片可能有助于提高DeCAF功能所获得的准确度。另一项可以产生良好结果的调查是将这些特征与其他视觉描述符和任务特定的CNN结合起来，以利用这些方法的互补性。此外，对特征和分类器选择的更好调查也可以提高性能。

个人总结

我会把我看的每篇文章都会翻译吗出来，由于不是专业的，可能翻译的不好，请大家多多包涵。如有侵权，麻烦联系我！

论文笔记＜交通灯＞＜多智能体＞CoLight管理交通灯青椒大仙KI11 论文阅读
今天看的是论文Colight:学习网络级合作进行交通信号控制论文提出的CoLight模型是一种基于强化学习和图注意力网络的交通信号灯控制方法，旨在解决城市道路网络中的交通信号的写作问题，提升车辆通行效率。问题定义为：将交通信号控制问题建模为马尔可夫博弈，每个路口由一个智能体控制，智能体通过观察部分系统状态（当前相位和各车道车辆数），选择动作（下一时间段的相位），目标是最小化路口周围车道的平均队列长
《基于超声的深度学习模型用于降低BI-RADS 4A乳腺病变的恶性率》论文笔记 MobileNet 往事随风、、论文笔记机器学习深度学习论文阅读人工智能机器学习健康医疗
《APPLICATIONOFDEEPLEARNINGTOREDUCETHERATEOFMALIGNANCYAMONGBI-RADS4ABREASTLESIONSBASEDONULTRASONOGRAPHY》《基于超声的深度学习模型用于降低BI-RADS4A乳腺病变的恶性率》原文地址：链接文章目录摘要简介方法患者图像获取与处理深度学习模型统计分析结果讨论结论摘要本研究旨在开发一个基于超声（US）图像
论文笔记--Language Models are Unsupervised Multitask Learners Isawany 论文阅读论文阅读语言模型 transformer chatgpt 自然语言处理
论文笔记GPT-2--LanguageModelsareUnsupervisedMultitaskLearners1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1数据集WebText2.2.2分词方法3.GPT-1&GPT-24.文章亮点5.原文传送门6.References1.文章简介标题：LanguageModelsareUnsupervisedMultitaskLearners
You Only Look Once Unified, Real-Time Object Detection论文笔记 __Lo__ 目标检测论文阅读深度学习
文章结构统一检测框架(UnifiledDetection)核心思想YOLO将目标检测视为一个端到端的回归问题，输入的图像经过SingleForwardPass，直接输出物体的信息（边界框的位置、边界框的置信度、类别概率）；优势在于速度快，全局理解上下文，这里全局理解上下文的意思是识别物体和背景的关系，减少误检。网络设计网格划分（GridDivision）将图像划分为一个S×S的网格，文中S=7；共
【论文笔记】UnifiedQA：新SOTA，生成模型一统问答任务 iLuz 深度学习自然语言处理
目录引言模型介绍1.输入格式2.实验结果总结引言问答任务有多种形式，常见的有抽取式问答(EX)、摘要式问答(AB)、多选题式问答(MC)、判断式问答(YN)。一般的解决方案是针对不同形式的问答任务设计不同的模型。例如，抽取式问答、多选题式问答、判断式问答可以转化为分类任务，摘要式问答可以转换为生成任务。尽管任务形式不同，但模型所需的语义理解和推理能力是共通的，或许不需要format-special
[论文笔记] [2008] [ICML] Extracting and Composing Robust Features with Denoising Autoencoders Alexzhuan DL 神经网络机器学习
在06年以前，想要去训练一个多层的神经网络是比较困难的，主要的问题是超过两层的模型，当时没有好的策略或方法使模型优化的很好，得不到预期的效果。在06年，Hinton提出的stackedautoencoders改变了当时的情况，那时候的研究者就开始关注各种自编码模型以及相应的堆叠模型。这篇的作者提出的DAE（DenoisingAutoencoders）就是当时蛮有影响力的工作。那个时候多层模型效果得
【论文笔记】SecAlign: Defending Against Prompt Injection with Preference Optimization AustinCyy 论文笔记论文阅读
论文信息论文标题：SecAlign:DefendingAgainstPromptInjectionwithPreferenceOptimization-CCS25论文作者：SizheChen-UCBerkeley；Meta,FAIR论文链接：https://arxiv.org/abs/2410.05451代码链接：https://github.com/facebookresearch/SecAli
CLIP论文笔记：Learning Transferable Visual Models From Natural Language Supervision Q同学的nlp笔记论文阅读语言模型人工智能 nlp 自然语言处理
导语会议：ICML2021链接：https://proceedings.mlr.press/v139/radford21a/radford21a.pdf当前的计算机视觉系统通常只能识别预先设定的对象类别，这限制了它们的广泛应用。为了突破这一局限，本文探索了一种新的学习方法，即直接从图像相关的原始文本中学习。本文开发了一种简单的预训练任务，通过预测图片与其对应标题的匹配关系，从而有效地从一个包含4亿
论文笔记：Large Language Models are Zero-Shot Next LocationPredictors UQI-LIUWJ 论文笔记论文阅读语言模型人工智能
1intro下一个地点预测（NL）包括基于个体历史访问位置来预测其未来的位置。NL对于应对各种社会挑战至关重要，包括交通管理和优化、疾病传播控制以及灾害响应管理NL问题已经通过使用马尔可夫模型、基于模式的方法以及最近的深度学习（DL）技术（进行了处理。然而，这些方法并不具备地理转移能力因此，一旦这些模型在某个地理区域训练完毕，如果部署到不同的地理区域，它们将面临严重的性能下降尽管已经做出努力改善地
论文笔记：LSTPrompt: Large Language Models as Zero-Shot Time Series Forecastersby Long-Short-Term Prompt UQI-LIUWJ 论文笔记论文阅读语言模型 prompt
202402arxiv1intro1.1大模型+时间序列预测一般有两种类型的方法使用海量时间序列数据重新训练一个时间序列领域的大模型论文笔记：TimeGPT-1_timegpt论文-CSDN博客直接利用现有的大模型，设计prompt，将时间序列数据转换成大模型理解的文本，实现时间序列预测代价小+有成熟的可供使用的大模型1.2本文思路之前的方法大多集中在如何将时间序列数据转换成文本上将时间序列的数字
【论文笔记】ResNet论文的全面解析浩瀚之水_csdn #论文阅读笔记人工智能
论文：DeepResidualLearningforImageRecognition发表时间：2015发表作者：(MicrosoftResearch)He-Kaiming,Ren-Shaoqing,Sun-Jian论文链接：论文链接一、ResNet论文基本信息论文标题与发表信息论文标题：《DeepResidualLearningforImageRecognition》发表时间：2015年，并在20
论文笔记：TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents CvBeginner 论文笔记轨迹预测计算机视觉
论文笔记：TrafficPredict:TrajectoryPredictionforHeterogeneousTraffic-Agents摘要这是百度在AAAI2019发布的一篇文章。这篇文章提出了一种基于4D-graph的方法实现复杂场景下的轨迹预测，研究对象包含行人、机动车和自行车。实现方法本文提出了一个基于LSTM的算法，名为TrafficPredict。构建了一个4DGraph，输入是轨
论文笔记：MobileNetV2: Inverted Residuals and Linear Bottlenecks 菜鸡信息技术 Deep Learning
MobileNetV2:InvertedResidualsandLinearBottlenecksMobileNetV2是MobileNetV1的改进版，Invertedresidual是个非常精妙的设计！MobileNetV1引入depthwiseseparableconvolution代替standardconvolution，减少运算量。MobileNetV1的结构其实非常简单，是类似于VG
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 深度学习人工智能计算机视觉机器学习 transformer 论文阅读
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
Meta的AIGC视频生成模型——Emu Video 好评笔记 AIGC 深度学习人工智能机器学习 transformer 校招面试八股
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
[论文笔记] 超详细解读DeepSeek v3全论文技术报告心心喵论文笔记论文阅读
DeepSeek-V3是一个强大的专家混合（Mixture-of-Experts，MoE）语言模型，总共671B参数，每个token激活37B参数（可以理解为有多个专家，但每个token只会选择一部分专家进行推理，所以一个token的预测，只会用到37B参数），DeepSeek-V3使用了多头潜在注意力（
[论文笔记] pai-megatron qwen1.5报错心心喵论文笔记 python
Qwen1.5-0.5b-chat使用example中fintune.py报错·Issue#77·QwenLM/Qwen1.5·GitHub解决方案：transformers升级到4.37.0pipinstallsetuptools==65.5.1pipinstalltransformers==4.37.0
基于不确定性感知学习的单图像自监督3D人体网格重建（论文笔记与思考） Gamma and Beta 读博笔记算法笔记学习 3d 论文阅读
文章目录论文解决的问题提出的算法以及启发点论文解决的问题首先这是Self-Supervised3DHumanmeshrecoveryfromasingleimagewithuncertainty-awarelearning（AAAI2024）的论文笔记。该文中主要提出了一个自监督的framework用于人体的姿态恢复。主要是解决了现有的方法对大型数据集的依赖。提出的算法以及启发点论文总体的框架其实
LLM论文笔记 28: Universal length generalization with Turing Programs Zhouqi_Hua 大模型论文阅读论文阅读语言模型自然语言处理笔记人工智能
Arxiv日期：2024.10.4机构：HarvardUniversity关键词图灵机CoT长度泛化核心结论TuringPrograms的提出提出TuringPrograms，一种基于图灵机计算步骤的通用CoT策略。通过将算法任务分解为逐步的“磁带更新”（类似图灵机的读写操作），允许模型通过简单的文本复制与局部修改完成复杂计算通用性：适用于任何算法任务（加法、乘法、SGD），不依赖任务特定的数据格
LLM论文笔记 27: Looped Transformers for Length Generalization Zhouqi_Hua 大模型论文阅读论文阅读语言模型人工智能论文笔记笔记
Arxiv日期：2024.9.25关键词长度泛化transformer结构优化核心结论1.RASP-L限制transformer无法处理包含循环的任务的长度泛化2.LoopTransformer显著提升了长度泛化能力InputInjection显著提升了模型的长度泛化性能，尤其在二进制加法等复杂任务上效果显著在推理中，通过输出置信度判断迭代停止点的策略能够实现接近最佳的性能主要方法Transfor
Fast-BEV：A Fast and Strong Bird’s-Eye View Perception Baseline——论文笔记 m_buddy BEV Perception 论文阅读人工智能深度学习
参考代码：Fast-BEV一稿多投的另一篇：Fast-BEV:TowardsReal-timeOn-vehicleBird’s-EyeViewPerception1.概述介绍：这篇文章提供了一种可实际部署的BEV感知方案，能够在当今车端主流计算单元上（NvidiaOrin）实现不错的帧率。从camera到BEV的转换思想来自于M2BEV，但是对这个转换方法中使用查找表和映射方法改进，使得整体视角转
读论文笔记-Flamingo：少样本视觉语言模型 joseanne_josie 论文阅读语言模型人工智能
读论文笔记-Flamingo：少样本视觉语言模型Plomblems本文拟解决多模态机器学习中，如何将训练好的模型快速适应到少量标注数据的新任务中的问题。Motivations已有的VLM虽然能在zero-shot的场景下适应于新任务，但他们只解决了有限的使用情况（如CLIP只解决了图片分类），由于主要缺乏生成语言的能力其不能应用于开放性任务。其他的一些方法虽然研究了基于视觉的语言生成但在数据量少的
论文笔记-基于多层感知器（MLP）的多变量桥式起重机自适应安全制动与距离预测 sagima_sdu 论文阅读
《IETCyber-SystemsandRobotics》出版山东大学TenglongZhang和GuoliangLiu团队的研究成果，文章题为“AdaptiveSafeBrakingandDistancePredictionforOverheadCranesWithMultivariationUsingMLP”。摘要桥式起重机的紧急制动及其制动距离预测是其安全运行中的关键难题。本文采用多层感知器
论文笔记：How Can Large Language Models Understand Spatial-Temporal Data? UQI-LIUWJ 论文笔记论文阅读语言模型人工智能
arxiv2024011introLLM在NLP和CV领域表现出色，但将它们应用于时空预测任务仍然面临挑战，主要问题包括：数据不匹配传统的LLMs设计用于处理序列文本数据，而时空数据具有复杂的结构和动态性，这两者之间存在显著差异模型设计限制现有的时空预测方法通常需要为特定领域设计专门的模型，这限制了模型的通用性和适应性数据稀缺和泛化能力传统的时空预测方法在面对数据稀缺或稀疏的情况下表现不佳，且泛化
SentiGAN: Generating Sentimental Texts via Mixture Adversarial Networks论文笔记 catbird233 深度生成模型笔记
另一篇很好的解释：https://www.itcodemonkey.com/article/6378.html摘要在自然语言生成领域,不同情感标签的生成越来越受到人们的关注。近年来,生成性对抗网(gan)在文本生成方面取得了良好的效果。然而,gan产生的文本通常存在质量差、缺乏多样性和模式崩溃的问题。本文提出了一个新的框架--sentyan,它有多个生成器和一个多类判别器,以解决上述问题。在我们的
[论文笔记]Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Com 愤怒的可乐自然语言处理论文翻译/笔记论文阅读语言模型人工智能
引言今天带来论文Adaptive-RAG:LearningtoAdaptRetrieval-AugmentedLargeLanguageModelsthroughQuestionComplexity的笔记。检索增强的大型语言模型(LLMs)已经成为一个有希望的方法，将外部知识库的非参数化知识整合到LLMs中，从而提高了几个任务的响应准确性。但并不是所有用户请求都只属于简单或复杂类别中的一个。在这项
论文笔记--Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Isawany 论文阅读论文阅读 bert 语言模型 transformer nlp
论文笔记--Sentence-BERT:SentenceEmbeddingsusingSiameseBERT-Networks1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1池化层2.2.2目标函数3.文章亮点和不足4.原文传送门5.References1.文章简介标题：Sentence-BERT:SentenceEmbeddingsusingSiameseBERT-Networks
论文笔记《TAG-DTA:Binding-region-guidedstrategytopredictdrug-target affinity using transformers》 I_dyllic 深度学习论文阅读 python 深度学习
TAG-DTA:结合区域引导策略，使用transformer预测药物-靶标亲和力对目标特异性化合物选择性的适当评估在药物发现环境中至关重要，促进药物-靶标相互作用(DTI)的识别和潜在线索的发现。考虑到这一点，准确预测无偏药物-靶标结合亲和力(DTA)指标对于理解绑定过程至关重要。然而，大多数硅计算方法忽略了蛋白质组学、化学和药理学空间之间的相互依赖关系以及模型构建过程中的可解释性。此外，这些方法
[论文笔记] Deepseek技术报告解读: MLA&MTP 心心喵论文笔记论文阅读
1.RMSNorm归一化层classRMSNorm(nn.Module):def__init__(self,dim:int,eps:float=1e-8):super().__init__()self.eps=epsself.weight=nn.Parameter(torch.ones(dim))#可学习的缩放参数def_norm(self,x:torch.Tensor):returnx*torc
《DFC-Net：Deep Flow-Guided Video Inpainting》论文笔记 m_buddy Video&Image Inpainting DFC-Net
参考代码：DFC-Net1.概述导读：这篇文章分析的是视频领域的inpainting，这篇文章充分使用了视频内在的空间（指一帧图像中的内容）与时序（不同视频帧）信息，以及视频帧之间生成的光流信息实现了一个保持视频内在连续的修补方法，文章将其称为DFC-Net（DeepFlowCompletionnetwork）。该方法首先通过前后视频帧之间的光流关系推断缺失区域的合成光流估计信息（估计光流信息比直
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla