南宫凝忆

多模态推荐系统综述：二、特征交互 Fusion

二、Fusion

融合不同的多模态信息，与bridge相比，融合更关注项目之间的多模态内部关系。
它可以灵活地融合不同权重和焦点的多模态信息。
注意机制是应用最为广泛的特征融合。

2.1 粗粒度注意力。

一些模型应用注意力机制在粗粒度级别融合来自多种模式的信息。

注：将多模态信息分为用户侧和项目侧，包括各自的id信息和side信息：UVCAN、MCPTR。

UVCAN: User-Video Co-Attention Network for Personalized Micro-video Recommendation 2019

UVCAN将多模态信息分为用户侧和物品侧，包括各自的id信息和side信息。它利用用户侧的多模态数据，通过自注意力生成项目侧的融合权重。

协同过滤的插图通过三步推理堆叠了注意力网络框架来探索用户对微视频特征的关注。

MCPTR: Multi-Modal Contrastive Pre-training for Recommendation 2022

MCPTR建议并行合并项目和用户信息。每个模态占据相同的位置，自注意力机制决定融合权重。
方法包含两个过程：预训练和微调。
在预训练阶段，我们提出了一种基于辅助信息和隐式反馈矩阵 R 的多模态对比表示模型。具体来说，我们提出的预训练模型包含两个组成部分：用户建模和项目建模。
在用户建模部分，我们首先使用文本编码器来获取每个评论文本的表示，然后使用模内聚合来获取用户的评论嵌入。接下来，应用图编码器来捕获齐次图 Gu 的结构信息。对于这两种不同的模态信息，我们开发了模态间聚合以获得用户的多模态表示。
在项目建模中，我们利用文本编码器、图像编码器和图编码器对每个项目的描述文本、图像和齐次图 Gi 进行编码。然后，我们应用模间聚合来获得项目的多模态表示。此外，由于对于同一项目，描述文本和图像信息是互补的，因此它们具有相似的语义。我们开发了一种自我监督的对比学习方法来调整它们之间的表示。
最后，采用基于反馈矩阵R的二元交叉熵损失函数来捕获目标用户u与其对应的目标项目i的潜在相关性。在微调过程中，现有的推荐模型利用预先训练的用户/项目嵌入作为初始化，并仅基于反馈矩阵 R 微调这些嵌入。

注：CMBF、MML、MCPTR、HCGCN引入交叉注意力机制来分别共同学习图像和文本模态的语义信息。

CMBF: Cross-Modal-Based Fusion Recommendation Algorithm 2021

CMBF引入交叉注意力机制来分别共同学习图像和文本模态的语义信息，然后将它们连接起来。
现有的多模态推荐算法都是提取单一模态的特征并简单拼接不同模态的特征来预测推荐结果。这种融合方法不能完全挖掘多模态特征的相关性，丢失了不同模态之间的关系，影响了预测结果。
在本文中，我们提出了一种基于跨模态的融合推荐算法（CMBF），该算法可以捕获单模态特征和跨模态特征。我们的算法使用一种新颖的跨模态融合方法来完全融合多模态特征并学习不同模态之间的交叉信息。

基于CMBF的拟议框架概述。图像/文本特征学习层和跨模态融合层的详细信息分别如图2和图3所示。

特征学习层的图示。(a)代表图像特征学习层，(b)代表文本特征学习层。

跨模式融合层的图示。

MML: Multimodal Meta-Learning for Cold-Start Sequential Recommendation 2022

MML基于id信息设计了一个注意力层，并辅以视觉和文本信息。
在MAML框架下，我们提出的MML将多模态信息（即相关的文本和图像数据）作为一种辅助信息纳入元学习过程中，以减少任务发散并提高跨任务知识迁移的有效性。具体来说，我们在两个方面利用项目的多模态信息。
首先，为了尽量减少新老用户顺序特征的差异，我们精心设计了一组对应三种不同模态（即ID、文本和图像）的多模态元学习器，这可以通过参考彼此的预测来稳定和改进元训练过程。
其次，考虑到新项目的特征差异，我们设计了一个冷启动项目嵌入生成器，它利用多模态信息来预热新项目的 ID 嵌入。 MML的整体架构如图1(a)所示。
为了快速适应数据不足的冷启动用户，我们将MAML扩展到我们的场景，并设计一个三阶段算法来训练元学习器、嵌入生成器和依次预测融合层如图1(b)所示。文章详细介绍了训练算法。

HCGCN: Learning Hybrid Behavior Patterns for Multimedia Recommendation 2022

MCPTR每个模态占据相同的位置，自注意力机制决定融合权重。相比之下，HCGCN更关注项目本身的视觉和文本信息。

2.1 细粒度注意力。

多模态数据包含全局和细粒度特征，例如录音的音调或一件衣服上的图案。
由于粗粒度融合通常是侵入性和不可逆的，它会损坏原始模态的信息并降低推荐性能。
细粒度融合，选择性地融合不同模态之间的细粒度特征信息

注：细粒度融合在时尚推荐场景中意义重大。

POG: Personalized Outfit Generation for Fashion Recommendation at Alibaba iFashion 2019

POG是一个基于Transformer架构的大型在线服装推荐系统。在编码器中，通过多层注意力挖掘时尚图像中属于搭配方案的深层特征，不断实现细粒度的集成。

FOM 的架构。我们一次掩盖一件衣物。例如，我们在套装中遮盖一条牛仔裤。模型学会从候选池中选择正确的牛仔裤，以完成对套装中其它衣物的搭配。

POG的架构，是一个带有Per网络和Gen网络的编码器-解码器架构。套装物品是根据Per网络的用户偏好信号和Gen网络的兼容性信号逐步生成的。

NOR: Explainable Outfit Recommendation with Joint Outfit Matching and Comment Generation 2019

NOR应用了编码器-解码器变压器架构，其中包含细粒度的自注意力结构。它可以根据搭配信息生成相应的方案描述。

所提出的神经套装推荐 (NOR) 架构的概述。 NOR包含三个部分：（1）顶部和底部图像编码器（对应图（a）），（2）匹配解码器（对应图（b）），以及（3）生成解码器（对应于图©)。

神经时尚推荐架构 (NOR) 的详细信息。 (a) 顶部和底部图像编码器从图像中提取视觉特征 Ft 和 Fb。 (b) 使用相互注意机制，我们将视觉特征转换为潜在表示vt和vb。然后匹配解码器预测匹配指示符rtb。 © 在每个时间戳 τ 处，生成解码器采用跨模态注意机制来生成单词 wτ 。

EFRM: Explainable Fashion Recommendation: A Semantic Attribute Region Guided Approach 2019

EFRM还设计了语义提取网络（SEN）来提取局部特征，最后将两个特征与细粒度的注意力偏好融合。
大多数先前的时尚推荐模型都以全局内容表示来理解服装图像，缺乏对用户语义偏好的详细理解，这通常会导致推荐性能较差。

传统的（a）全局视觉空间和我们的（b）语义属性视觉空间之间的区别。

SAERS包含两个主要组件，即语义提取网络（SEN）和细粒度偏好注意（FPA）。
具体来说，利用 SEN，我们首先获得语义特征空间中的时尚商品投影。接下来，我们设计 FPA 将用户投影到相同的语义特征空间中。
然后，我们在成对学习框架下共同学习全局视觉空间和语义属性视觉空间中的项目表示。
最后，通过属性偏好推断，我们可以生成可解释的推荐。

VECF: Personalized Fashion Recommendation with Visual Explanations based on Multimodal Attention Network 2019

VECF执行图像分割，将每个补丁的图像特征与其他模态集成。
对于一个时尚图像来说，并不是所有的区域对于用户来说都同样重要，即人们通常会关心时尚图像的少数部分。为了模拟这种人类感觉，我们在许多预先分割的图像区域上学习了一个注意力模型，基于该模型我们可以了解用户对图像上的哪些地方真正感兴趣，并相应地以更准确的方式表示图像。此外，通过发现这种细粒度的视觉偏好，我们可以通过突出显示图像的某些区域来直观地解释推荐。
为了更好地学习注意力模型，我们还引入了用户评论信息作为弱监督信号，以收集更全面的用户偏好。在我们的最终框架中，视觉和文本特征通过多模态注意力网络无缝耦合。

所提出的 VECF 模型。红线表示为时尚形象建模设计的注意力机制。蓝线突出显示了用户评论的建模。

UVCAN: User-Video Co-Attention Network for Personalized Micro-video Recommendation

UVCAN像VECF一样对视频截图进行图像分割，并通过注意力机制分别将图像块与id信息和文本信息融合。

MM-Rec: Multimodal News Recommendation 2022

MM-Rec首先通过目标检测算法Mask-RCNN从新闻图像中提取感兴趣区域，然后利用共同注意力将POI与新闻内容融合。

在论文中，我们提出了一种名为 MM-Rec 的多模态新闻推荐方法，该方法利用文本和视觉新闻信息进行新闻推荐。
在我们的方法中，我们首先通过预训练的 Mask R-CNN 模型提取新闻图像的兴趣区域 (ROI) 以进行对象检测。
然后，我们使用预先训练的视觉语言模型对新闻文本和新闻图像 ROI 进行编码，并通过共同注意 Transformer 对其固有的跨模态相关性进行建模，以学习准确的多模态新闻表示。
此外，我们还提出了一种跨模态候选新闻感知注意力网络，通过评估候选新闻与点击新闻之间的跨模态相关性，选择相关的点击新闻进行用户建模，这有助于模拟用户对候选新闻的特定兴趣。

注：有些模型设计了独特的内部结构，以实现更好的细粒度融合。

MKGformer: Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion 2023

MKGformer通过共享一些QKV参数和相关的感知融合模块来实现细粒度的融合。
大多数多模态知识图谱MKG远未完成，不同的任务和模式需要改变模型架构，并且并非所有图像/对象都与文本输入相关，这阻碍了对不同现实场景的适用性。我们提出了一种具有多级融合的混合变压器来解决这些问题。具体来说，我们利用具有统一输入输出的混合变压器架构来完成各种多模态知识图任务。此外，我们提出了多级融合，它通过粗粒度前缀引导交互和细粒度相关感知融合模块集成了视觉和文本表示。

MKGformer，一种用于统一多模态 KGC 的混合 Transformer，它实现了跨视觉 Transformer 和文本 Transformer 的最后几层的实体多模态特征的多级融合建模，即 M-编码器。
之前的工作表明预训练模型（PLM）可以激活与 Transformer Encoder 中的自注意力层和前馈网络（FFN）层的输入相关的知识。受此启发，我们将视觉信息视为补充知识，并在 Transformer 架构中提出多级融合。
具体来说，我们首先在 M-Encoder 的自注意力部分提出一个粗粒度的前缀引导交互模块，以预先减少下一步的模态异质性。其次，M-Encoder 的 FFN 部分提出了相关感知融合模块，以获得细粒度的图像文本表示，从而减轻不相关图像/对象的错误敏感性。特别是，除了多模态链接预测之外，MKGformer 可以通过对特定任务头的简单修改来更广泛地应用于 MRE 和 MNER 任务，如图（a）所示。

MGAT: Multimodal Graph Attention Network for Recommendation 2020

MGAT使用门控注意力机制来关注用户的本地偏好。

MARIO: Modality-Aware Attention and Modality-Preserving Decoders for Multimedia Recommendation 2022

MARIO通过考虑每种方式对每次交互的个体影响来预测用户偏好。因此模型设计了一种模态感知注意力机制来识别各种模态对每次交互的影响，并对不同模态进行点乘。

项目对在（a）视觉模态、（b）文本模态和（c）交互模态方面的相似性。每个子图中的放大部分显示了相同项目对之间的相似性。结果表明，即使对于相同的项目对，它们的视觉模态、文本模态和交互模态的相似性也有很大差异。

预训练项目嵌入（从每种模态获得）的相似性与最终项目嵌入（通过 MMGCN 和 LATTICE 获得）的相似性之间差异的密度函数。预训练嵌入中的模态特定属性未准确保留在最终嵌入中。

MARIO概述，由三个组件组成：（C1）基于交互和多模态信息的编码器； (C2) 基于注意力网络的预测器； (C3) 用于模态保存的解码器。
首先，MARIO获得每个ui的嵌入ui∈Rd和每个vj的多重模态嵌入 ̄ vVj , ̄ vTj, ̄ vINj ∈ Rd 分别对应视觉、文本和交互模态（图 4- （A））。
给定 ui 、 ̄ vVj 、 ̄ vTj 和 ̄ vINj ，MARIO 使用注意力网络来推断每个模态 m 对 ui 和 vj 之间的每次交互的影响 ̄ amij 。然后，MARIO 根据模态特定的影响获得 vj 相对于 ui 的个性化嵌入，我们用 vij ∈ Rd 表示（图 4-(b)）。
基于 ui 和 vij ，MARIO 预测每个用户 ui 对每个项目 vj 的偏好 ˆrij 。同时，MARIO 使用解码器在其个性化嵌入 vij 中保留每个 vj 的模态特定属性（图 4-©）。
最后，MARIO 更新 ui 、 ̄ vVj 、 ̄ v Tj 和 ̄ vINj ，旨在共同最小化两个损失（图 4-(d)）：（1）贝叶斯个性化排名（BPR）损失，用于保留ui 和 vj 的交互信息以及（2）模态保留（MP）损失，用于保留 vj 相对于视觉和文本模态的模态特定属性。

2.3 联合注意力。

基于细粒度融合，一些模型设计了组合融合结构，希望细粒度特征的融合也能保留全局信息的聚合。

Non-invasive Self-attention for Side Information Fusion in Sequential Recommendation 2021

NOVA 将辅助信息引入顺序推荐。它指出，直接将不同的模态特征与普通注意力融合通常效果很小，甚至会降低性能。因此，它提出了一种具有两个分支的非侵入式注意力机制，将id嵌入到一个单独的分支中，以在融合过程中保留交互信息。

侵入性和非侵入性方法的图示。侵入式方法不可逆地融合各种信息，然后将它们输入顺序模型。对于非侵入式方法，边信息仅参与注意力矩阵计算，而项目信息保存在独立的向量空间中。

BERT4Rec.项目 ID 和位置分别编码为向量，然后加在一起作为集成的项目表示。在训练期间，项目 ID 被随机屏蔽（显示为 [M]）以便模型恢复。

用于特征融合的侵入式和非侵入式自注意力方式的比较。两者都通过融合函数融合项目相关和行为相关的辅助信息，但 NOVA 仅在 Query & Key 中融合它们。

NOVA-BERT。每个 NOVA 层都有两个输入：项目表示和辅助信息。

NRPA: Neural Recommendation with Personalized Attention 2019

NRPA提供了一个个性化的注意力网络，它考虑了用户评论所代表的用户偏好。它利用个性化的词级注意力为每个用户/项目选择评论中更重要的词，并依次通过细粒度和粗粒度的融合传递评论信息注意力层。

NRPA 包含两个组件，即，用于学习评论表示的评论编码器，用于从评论中学习用户/项目表示的用户/项目编码器。
在评论编码器中，我们利用卷积神经网络（CNN）从单词中提取评论的语义特征，然后使用个性化的单词级注意力来为每个用户/项目选择评论中更重要的单词。
在用户/项目编码器中，我们应用个性化评论级别的注意力，通过根据权重聚合所有评论表示来学习用户/项目表示。此外，用户/项目的单词和评论级注意力向量由两个多层神经网络生成，并以用户/项目 ID 嵌入作为输入。这两个注意力向量可以看作是分层视图（即单词和评论级别）下每个用户和项目的指标。
最后，我们将用户和目标项目的表示结合起来，并将它们输入因子分解机层，以预测用户对该项目投票的评分。

VLSNR:Vision-Linguistics Coordination Time Sequence-aware News Recommendation 2022

VLSNR是顺序推荐的另一个应用——新闻推荐。它可以对用户的临时和长期兴趣进行建模，并通过多头注意力和GRU网络实现细粒度和粗粒度的融合。

用户对多模态新闻的动态兴趣。蓝色双向箭头代表外部相关性。红色虚线代表内部相关性。

VLSNR：视觉语言协调时间序列感知新闻推荐，它利用融合模块来处理时间序列中的跨模态信息。
我们通过上述时间感知网络建立用户模型，通过历史点击和候选者之间的相关性来评估，这有助于理解用户的可变兴趣。
在我们的方法中，我们将图像和标题传输到 CLIP 编码器以学习新闻的表示。这使得文本和图像的语义能够很好地映射在同一特征空间中。
然后，我们构建了一系列注意力层，这有助于检测图像和文本之间更深层的交互。此外，我们提出了一个注意力 GRU 网络来学习用户的时间兴趣。

Multi-Order Attentive Ranking Model for Sequential Recommendation 2019

MARank设计了一个多阶注意力层，它将注意力和Resnet结合成一个统一的结构来融合信息。

(a) 所提出模型 MARank 的总体架构。 pu 和 E 分别表示检索到的用户嵌入和 Su t−1,n 中先前项目的嵌入。
(b) 多阶注意力网络的图示。由于用于编码用户和项目的残差网络共享相同的架构，我们仅详细阐述 ResN etI 的具体结构。

2.4 其他融合方法。

一些简单的方法，包括平均池化、连接操作和门控机制。它们很少单独出现，并且经常与图和注意力机制结合使用。现有工作表明，简单的交互如果使用得当，不会损害推荐效果，并且可以降低模型的复杂度。
一些早期模型采用RNN和LSTM等结构，试图通过多模态信息对用户时间偏好进行建模。然而，随着注意力机制和CNN等深度学习技术的发展，这些年它们的使用已经越来越少。一些模型通过线性和非线性层融合多模态特征。

Interest-Related Item Similarity Model Based on Multimodal Data for Top-N Recommendation 2019

吕等人在该处设置线性层以融合文本和视觉特征。

在该框架中，利用项目潜在因子进行相似度计算，并利用多模态特征通过IRN计算兴趣相关性，从而综合用户对目标项目的偏好预测概率。

使用图像特征计算项目之间的兴趣相关性。以物品ID作为输入，输出是两者之间的兴趣相关性。

使用多模态特征计算项目之间的兴趣相关性。以物品ID作为输入，输出是两者之间的兴趣相关性。

视觉特征和文本特征之间的知识共享单元。

MMT-Net: Transfer learning via contextual invariants for one-to-many cross-domain recommendation. 2020

人工标记餐厅数据的三个上下文不变量，并通过三层MLP网络进行交互。

参考论文

Multimodal Recommender Systems: A Survey

求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
JAVA 高频八股文 Day03 Conqueror675 java 开发语言
12.TCP和Http的区别是什么TCP是传输层协议，负责建立可靠的点对点连接，确保数据有序、完整地传输（如铁路轨道）；HTTP是应用层协议，基于TCP构建，定义了Web服务交互的报文格式和规则（如货运订单）。TCP关注数据如何可靠送达，通过三次握手建立连接、流量控制等机制保证传输；HTTP关注传输内容的意义，提供请求/响应语义（GET/POST等）和无状态通信。补充：说一下什么是三次握手四次挥手
【证明】对极几何：本质矩阵内在性质 Powerful_QI slam 线性代数矩阵
--这是目录--1.本质矩阵内在性质表述2.预备知识2.1线性代数基础2.1.1奇异值与特征值的关系2.1.2矩阵加减单位阵后特征值的变化2.2引理：一个常用的矩阵变换3.证明1.本质矩阵内在性质表述本质矩阵(EssentialMatrix)EEE是一个3阶方阵，满足E=t∧RE=t^{\land}RE=t∧R其中RRR为旋转矩阵，ttt为平移量，t∧t^{\land}t∧运算定义如下（参考了
为Layui Table组件添加前端搜索功能 caifox菜狐狸 JavaScript 学习之旅：从新手到专家前端 layui javascript table 前端搜索表格搜索前端框架
在现代Web开发中，数据展示和交互功能是构建高效、用户友好界面的关键要素之一。Layui作为一款广受欢迎的前端UI框架，以其简洁的代码、丰富的组件和强大的功能，为开发者提供了极大的便利。其中，Layui的Table组件更是以其强大的数据展示能力和灵活的配置选项，成为了许多项目中不可或缺的部分。然而，在实际应用中，仅仅展示数据往往是不够的。用户通常需要根据自己的需求快速查找特定信息，这就需要为表格添
Vue.js 过渡 & 动画 lsx202406 开发语言
Vue.js过渡&动画引言在Web开发中，过渡与动画是提升用户体验的关键元素。Vue.js作为一款流行的前端框架，提供了强大的过渡与动画功能，使得开发者能够轻松实现丰富的交互效果。本文将深入探讨Vue.js中的过渡与动画，包括其原理、应用场景以及实现方法。一、Vue.js过渡原理Vue.js过渡是利用CSS3的transition属性实现的。当Vue.js侦测到数据变化时，会自动触发过渡效果。过渡
JavaScript之DOM操作与事件处理详解 AA-代码批发V哥 JavaScript javascript
JavaScript之DOM操作与事件处理详解一、DOM基础：理解文档对象模型二、DOM元素的获取与访问2.1基础获取方法2.2集合的区别与注意事项三、DOM元素的创建与修改3.1创建与插入元素3.2修改元素属性与样式3.2.1属性操作3.2.2样式操作3.3元素内容的修改四、DOM元素的删除与替换4.1删除元素4.2替换元素五、事件处理：实现页面交互5.1事件绑定的三种方式5.1.1HTML属性
游戏开发日记 future1412 学习数据结构 c#
如何用数据表来储存，位置坐标（XYZ）：决定了对象在世界中的摆放资源ID/图片URL：决定了使用什么模型或贴图事件ID/特效：是否触发某些事件（例如点击、交互）逻辑索引（GridIndex）：用于程序检索和映射用途这在策略类、模拟类、RPG游戏中非常常见，例如建筑布局、怪物摆放、地图资源点等。这个表格决定的是玩家事件，使用了的图片名称URL，格子的出入口设置，格子的类型，是否为检察点，场景id，副
《Effective Python》第十三章测试与调试——使用 pdb 进行交互式调试不学无术の码农 Effective Python 精读笔记 python 开发语言
引言本文基于《EffectivePython:125SpecificWaystoWriteBetterPython,3rdEdition》第十三章：测试与调试中的Item114:ConsiderInteractiveDebuggingwithpdb，旨在系统总结书中关于Python内置调试器pdb的使用方法，结合笔者在实际开发中的调试经验，探讨其应用场景、技巧以及延伸思考。Python开发过程中，
浏览器的事件循环中的任务队列（消息队列）小吴在摸渝前端
在浏览器的事件循环中，任务队列是有优先级的。这些优先级决定了在一次事件循环中，哪些任务会被优先执行。以下是一些主要的任务队列及其优先级：微任务队列（优先级最高）：这个队列用于存放需要最快执行的任务。添加任务到微任务队列的主要方式是使用Promise和MutationObserver1。交互队列（优先级高）：这个队列用于存放用户操作后产生的事件处理任务，例如鼠标点击、页面滚动等。延时队列（优先级中）
ModBus总线协议小仇学长 STM32 网络 Modbus协议
一、知识点1.什么是Modbus协议？Modbus是一种工业通信协议，最早由Modicon公司在1979年提出，目的是用于PLC（可编程逻辑控制器）之间的数据通信。它是主从式通信，即一个主机（主设备）控制一个或多个从机（从设备）。它常用于RS-232、RS-485串口通信，也可以用于TCP/IP网络通信（叫做ModbusTCP）。2.核心特征特征项内容通信结构主从式（Master/Slave）通信
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时图像字幕制作知识大胖 NVIDIA GPU和大语言模型开发教程人工智能机器人
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订阅摄像头源、应用BLIP模型进行图像字幕制作，并实时显示结果。这种集成展示了生成式AI在增强人机交互方面的强大功能
【代码学习】扩散模型原理+代码李加号pluuuus CV基础代码学习扩散模型机器学习算法学习
来源：超详细的扩散模型（DiffusionModels）原理+代码-知乎(zhihu.com)代码：drizzlezyk/DDPM-MindSpore(github.com)DDPM1.Unet1.1正弦位置编码classSinusoidalPosEmb(nn.Cell):def__init__(self,dim):super().__init__()half_dim=dim//2#将给定的维度除
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
前端面试题——5.AjAX的缺点？浅端前端面试题前端面试题
①传统的web交互是：用户一个网页动作，就会发送一个http请求到服务器，服务器处理完该请求再返回一个完整的HTML页面，客户端再重新加载，这样极大地浪费了带宽。②AJAX的出现解决了这个问题，它只会向服务器请求用户所需要的数据，并在客户端采用JavaScript处理返回的数据，操作DOM更新页面。③AJXA优点：无刷新更新页面异步服务器通信前端后端负载均衡④AJAX缺点：干掉了Back和Hist
前端面试题——手写实现 ajax 阿水爱踢中锋 ajax js 前端
凡是和后台有过数据交互的小伙伴肯定都接触过ajax.我们可以通过ajax来实现页面的无刷新请求数据，这样就能在保证良好用户体验的同时，将更多的内容展示给用户ajax在我们的开发工作中已经司空见惯，几乎所有我们频繁使用的库和框架都提供了经过完善封装后的ajax方法，如jQuery、zepto、angular等等，这使得我们的数据请求变得异常简洁明了但是这也带来了很明显的缺陷，就是我们知道如何去使用封
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
微软语音合成标记语言SSML文档结构和事件（详细文档和实例）阿酷tony AI数字人微信语音合成 microsoft 微软语音 SSML文档结构 SSML结构 SSML语音合成
说明：MicrosoftAzure中国技术文档网站，请访问https://docs.azure.cn包含输入文本的语音合成标记语言(SSML)确定了文本转语音输出的结构、内容和其他特征。例如，可以使用SSML来定义段落、句子、中断/暂停或静音。可以使用事件标记（例如书签或视素）来包装文本，这些标记可以稍后由应用程序处理。有关如何在SSML文档中构建元素的详细信息，请参阅以下部分。备注某些语音不支持
2025年UDP洪水攻击防护实战全解析：从T级流量清洗到AI智能防御上海云盾商务经理杨杨 udp 人工智能网络协议
一、2025年UDP洪水攻击的新特征AI驱动的自适应攻击攻击者利用生成式AI动态调整UDP报文特征（如载荷内容、发送频率），攻击流量与正常业务流量差异率低至0.5%，传统指纹过滤规则失效。反射放大攻击升级黑客通过劫持物联网设备（如摄像头、传感器）构建僵尸网络，利用DNS/NTP协议漏洞发起反射攻击，1Gbps请求可放大至50-500倍流量，峰值突破8Tbps。混合协议打击70%的UDP攻击伴随TC
推荐系统中的归因分析 liliangcsdn 人工智能大数据
推荐系统中，归因分析(AttributionAnalysis)分析用户完成转化前到底是哪个渠道最起决定性作用。参考网络相关资料，常用的用户转化归因分析模型有如下6种，现收录参阅。1）最后点击归因转化全部归因于用户转化前最后一次点击的渠道。用户8月1日小红书种草，8月5日搜索官网，8月10日淘宝广告点击并完成下单。“最后点击归因”将此次转化归于淘宝广告，适用电商促销季投放归因。2）首次点击归因转化价
FPS手游逆向分析--------矩阵的精确定位柠檬味的榴莲 FPS手游的一些逆向分析矩阵线性代数
2.1精确定位矩阵通过上述步骤我们找到了矩阵，但矩阵确会在每次打开游戏后由于内存的分配而重新加载，如何实现自动寻找矩阵便是我们要考虑的问题2.1.1通过特征码定位矩阵所谓特征码就是总出现在变动值附近的不变动的值与上文的通用特征码不同定位矩阵的特征码在不同的游戏中是不一样的矩阵16条的第一条就是矩阵头部主特征码是相对于矩阵头部计算的偏移副特征码是相对于主特征码计算的偏移填入模板即可模板特征码定位矩阵
LLM Agent在多模态任务中的推理机制详解
文章目录一、引言二、多模态LLMAgent的基本架构2.1系统组成2.2工作流程图三、多模态表示与对齐3.1跨模态嵌入空间3.2模态对齐技术四、多模态推理策略4.1基于提示的推理(Prompt-basedReasoning)4.2多模态思维链(CoT)推理4.3多模态工具使用五、实现案例：多模态问答系统5.1系统架构5.2示例应用六、高级多模态推理技术6.1多模态递归推理6.2多模态记忆与检索6.
LLaMA-Omni 深度解析：打开通往无缝人机语音交互的大门 kakaZhui 前沿多模态大模型：论文与实战 llama 交互 LLM TTS 语音识别语音合成人工智能
一、引言：语音交互大模型今天我们来看语音交互大模型LLaMA-Omni，它由中国科学院计算技术研究所的研究者们推出，是一个基于强大的Llama-3.1-8B-Instruct构建的语音语言模型。LLaMA-Omni不仅实现了低至226ms的惊人交互延迟，还能同时生成高质量的文本与语音回复，真正意义上让大语言模型（LLM）具备了“听说”的能力。这篇博客将带你由浅入深，全方位地探索LLaMA-Omni
新能源汽车HMI案例：仪表盘与中控屏的沉浸式交互设计深空数字孪生汽车交互 HMI
新能源汽车HMI案例：仪表盘与中控屏的沉浸式交互设计内容摘要在新能源汽车的驾驶舱里，仪表盘和中控屏不再只是简单的信息显示工具，而是变成了沉浸式交互体验的核心。这些屏幕通过智能设计，不仅能提供丰富的信息，还能通过语音、手势甚至眼神与驾驶者互动。但如何在保证驾驶安全的同时，提供这种沉浸式体验呢？这是一个既充满挑战又极具吸引力的问题。接下来，我们将通过几个实际案例，深入探讨新能源汽车HMI设计的奥秘，看
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl