DataFunTalk

陈宏申：浅谈京东电商商品文案挖掘难点与优化实践

导读： 在电商推荐中，除了推送商品的图片和价格信息外，文案也是商品非常重要的维度。基于编码器解码器范式的序列文本生成模型是文案挖掘的核心，但该种方法面临着两大技术挑战：一是文案生成结果不可靠和生成质量不可控，无法满足业务对电商商品文案内容可靠性的严格要求；二是序列文本生成模型经常面临数据坍塌，比较容易生成万金油式的安全文案，文案内容本身的多样性会越来越低，且无法捕捉语言本身的流行或演化趋势。针对以上两大挑战，在以文案生成系统为核心的基础上，引入了文案摘要清洗系统和文案质量评估系统，总结提出了一个通用的电商商品文案挖掘方案。今天将和大家分享京东电商平台的电商商品文案挖掘的优化实践，包括以下几方面内容：

电商商品文案挖掘的挑战和方案框架
电商商品文案摘要清洗系统的优化实践
电商商品文案生成系统的优化实践
电商商品文案质量评估系统的优化实践

–

01 电商商品文案挖掘的挑战和方案框架

1. 电商商品文案的应用场景

首先来看一下电商商品文案的应用场景。

电商商品文案不仅可以用于描述商品的独特卖点，同时可以用于介绍商品的一些特质。根据电商商品文案的长度，可分为短文案和长文案。例如，15字的短文案可以体现茅台酒、手机的卖点，同时也描述了商品的特点；百余字的长文案可以描述眼霜、一本书等。

2. 电商商品文案挖掘的两大挑战

基于编码器解码器范式的序列文本生成模型可以用于文案挖掘，就是把商品的一些信息，例如标题、类别等进行模型投喂，然后直接拿某种类型的文案作为一个参考答案进行模型训练和学习。毫无疑问，基于编码器解码器范式的序列文本生成模型，肯定是文案挖掘的核心，但是在业务实践中，该种方法存在两个方面的技术挑战。

序列文本生成模型天然存在生成结果不可靠、生成质量不可控的问题，而京东电商平台对电商商品文案的内容本身的可靠性有着相对严格的要求，这就面临第一个技术挑战：文本生成质量如何控制。

另一个问题是序列文本生成模型经常容易面临数据坍塌。在业务实践中观察序列文本生成模型的结果，经常能看到：如果文本生成的业务场景比较复杂或者编码解码问题本身比较难，序列文本生成模型越倾向于生成那种频率比较高、相对平均且安全的文案；而且该模型在推上线运行后，会学习它自己已经生成的线上文案，长此以往，该模型越会生成那种万金油式的安全文案，线上文案的内容本身的多样性会随着系统的运行越来越低。另外，序列文本生成模型由于模型本身的设计，也不太容易捕捉语言本身的流行或者演化趋势，比如一些新词、新的流行语或时尚一点的东西，该模型都不太可能捕捉得到。这是电商商品文案挖掘的应用实践中面临的第二个巨大技术挑战。

3. 电商商品文案挖掘方案框架

根据业务实践，总结提出了一个通用的电商商品文案挖掘方案框架，如上图所示，挖掘方案的核心是文案生成系统；在此基础上针对文案挖掘的两大技术挑战，引入了文案摘要清洗系统和文案质量评估系统。

文案摘要清洗系统核心解决的是数据坍塌，没有新的资源引入和没有新的创作素材的问题，如果能够将人工创作的一些素材片段引入到文案生成中，那么自然有机会打破数据坍塌，不致使模型收敛到常用热门的平均的表达形式上。

在电商平台的商品文案中，常见的人工文案素材来源有哪些呢？

最为典型的人工文案素材就是商品的评论。电商用户在购买了商品之后会评价，甚至有的用户会撰写很多很长的使用体验；大家买东西的时候也会经常刷评论，看一看比较高质量的用户评论所提示的信息。

另一个人工创作的文案素材来源就是商品标题和商品详情页的商品描述，其中在京东电商平台上的商品详情页常是图片搭配精美的广告宣传来展示的，因此需要提前做一些清洗加工，例如图片文字的OCR，一些异常识别等，然后提取出人工所创作的文案素材，再合并上结构化的商品信息（标题、类别属性等），最终输入到文案生成模型中，用于生成商品的文案。

经生成模型生成的文案需要经过文案质量评估系统剔除不合格的文案。在文案质量评估系统的设计上有较高要求，即剔除不合格的文案后，需要达到人工审核后直接上线的要求。

以上就是电商商品文案挖掘方案的总体框架，接下来将分别介绍该方案框架如何在短文案和长文案中应用落地。

4. 电商商品文案挖掘方案的应用落地

(1) 案例一，短文案应用形式

首先以一个暖水袋的案例来介绍短文案的应用形式。

在上图中的左上角，是一个用户对某个暖水袋的评价：保暖效果非常好、灌水方便不烫手、外面的绒非常柔软舒适等。为了最终生成短文案，可以把这整个一大长段的用户评价，按标点符号先截成一些词句，然后这些词句经过一个初筛模型去判别哪些句子可以作为商品的卖点。例如，“灌入90度热水”这个词句是半截话，就不适合作为商品的卖点；“外面的绒套接触皮肤非常柔软舒适”就非常适合作为商品的卖点。有了这样的词句，电商商品文案的表达形式就更丰富，可以输入到文案生成模型中去，上图中的文案生成模型是一个传统的transformer-pointer-network的深度学习模型，后面会介绍相关的优化实践。最后通过精选模型的优质短文案，例如优质绒面外套，能够持久保持崭新的质感，无接口无缝隙等，会推送到线上去做展示。

总结来说，初筛模型就是要从大量不相关的文案词句中摘取一些相关的文案，文案生成模型就是把初筛模型摘取出来的结果进行总结和凝练，精选模型是要把初筛和凝练的结果同时再做一个筛选和把关，最终得到满足业务需求的结果。

(2) 案例二，长文案应用形式

接下来以下图中的案例来介绍长文案的应用形式。

长文案相关的初筛模型是复用短文案的，以短词句形式来抽取文案素材，作为文案生成模型的输入。例如商品标题、商品属性信息的知识图谱、商品详情页和商品评论中抽取出的词句片段，输入到文案生成模型中。在精滤模型上，不仅会用总结的规则去剔除明显出错的一些内容，还会用多组语言模型去做投票比较和筛选，筛选出有明显问题的文案；为了严格确保最终输出到平台的文案质量不会有问题，只要有一个语言模型认定当前的文案可能有问题，则直接剔除该文案。最后输出到平台上，如上图中这样一个百余字左右的商品营销短文。

介绍完电商商品文案挖掘的挑战、方案总体框架及其应用落地形式，接下来将分别介绍三个系统（文案摘要清洗系统、文案生成系统、文案质量评估系统）的优化实践。

–

02 电商商品文案摘要清洗系统的优化实践

如前文介绍，文案摘要清洗系统是需要筛选和清洗商品的用户评价或详情页OCR内容，从中抽取出相关的文案词句作为文案生成模型输入的文案素材。

1. 基于预训练的自对抗筛选模型

如上图所示，以上是文案摘要清洗系统中的筛选分类模型。从模型结构上看，该模型实际上是一个预训练模型，直接在预训练模型上进行FINE-TUNE和分类；同时也是一个自对抗模型。比如启动阶段只有1000~10000之间的样例，现在希望这个模型可以挖掘出这一类的文案，给出的这些样例可以作为正例，但没有负例，并且实际业务中也没有那么多资源用人工打标的方式去构造什么样文案是不满足业务需求的负例。因此干脆把所有待清洗的文案词句都认为是负例，这样模型就可以学习正例和负例。同时模型学习过程中，需要注意样本的均衡，尤其要特别注意正负样例的采样和采样的倍数，以保证模型不会学得太偏。因为是把所有待清洗的词句都当作负例，负例数量是正例的十倍百倍都不止，所以需要把正例进行加权等处理，同时测试的时候，拿负例作为进攻方。

该模型不需要严格地区分正例和负例，如果能百分之百严格区分的话，那么将得不到任何有效的结果，没法从待清洗的词句中筛选文案词句；该模型是应该有差错的，正是这些差错才能最终筛选出有效结果，即一些和正例可能特别像的待清洗文案词句，就会被模型识别为正例。在训练的过程中，待清洗文案词句被标记为负例；但在测试的时候，因为该模型不可能达到百分百的准确率，比如有2%的失误，就会有2%的待清洗的文案词句可能和正例特别像，就通过了该模型的筛选。以上就是利用对抗的思想去筛选出和正例可能特别像的待清洗文案词句。

2. 采用级联思想的文案筛选优化实践

但如果只筛选一遍，比如有99%的准确率，1%的待清洗文案通过筛选，在实际业务中筛选出来的文案仍然是一个非常大的量级，同时依然包含了大量不满足业务需求的文案词句，例如负向情感问题、和商品不相关的问题等。因此采用了级联的思想，连接多个模型，通过层层过滤、逐层筛选清洗的方式，筛选出质量非常高的文案词句，如下图所示。因为文案摘要清洗系统的原则是宁可错杀，不可放过低质量的文案词句。

在实际业务中，虽然级联的这些模型的结构和框架相同，但每个模型的训练目标是不同的，例如有区分情感的，有区分和商品相关性的，并且初期的第一个阶段，仅仅是做一个笼统的清洗，相当于是孔比较大的筛子，例如只要和人工采集的文案正样本有一点不像的文案词句，就会被剔除。

–

03 电商商品文案生成系统的优化实践

在文案生成系统中，实际业务中使用了非常经典的transformer-pointer。

Transformer可以从标注的，比如四万个词或十万个词里面，去预测文案生成的每一个词串当中下一个词可能是哪个；而Pointer就是从输入的，比如50个词或100个词猜，因此引入Pointer之后，文案生成的难度大大降低，同时文案生成的效果也有比较大的提升。如上图所示，如果只有右边的标准transformer的话，文案生成的难度会大很多。

1. 引入超大规模预训练语言模型的优化实践

在业务实践中，引入了超大规模预训练语言模型来提升文案生成流畅度和多样性。

近几年来，语言模型在往通用AI方向发展，模型规模增长出现摩尔定律似的增长，即每隔数月模型规模增长数倍，模型性能大幅提升，如上图所示，GPT3是GPT2模型参数量的116倍，其所需算力相当于BERT的1900倍，而switch transformer又达到GPT3的9倍。现阶段的实际业务仍然使用的是T5级别，相当于预训练的大型transformer，并且是蒸馏之后的一个版本，规模上要小很多，也更实用。

超大规模预训练的语言模型在业务实践中主要带来了哪些方面的收益呢？电商业务涉及到很多品类，比如有家电、服装等等，如果对每一个品类都去设计一个模型，可能需要有30多个模型。使用超大规模预训练的语言模型，可以使用一个模型搞定所有的品类。另一好处是针对一些小的品类。有一些小的品类，训练样本非常少，通常只能借助迁移学习，用其他大的品类的数据来训练模型，然后再用几十条、上百条或者上千条极长尾的小品类去FINE-TUNE这个模型，这是一个妥协的方式，但超大规模预训练的语言模型是在一个通用的语言模型上去做FINE-TUNE，则不需要另外再去FINE-TUNE。

2. 后验式蒸馏提升中长尾商品文案生成效果的优化实践

在电商场景下，中长尾商品特别多，并且商品的热度分布极其不均，二八效应非常显著。例如，80%的商品都是没有任何用户评价，所有商品的平均用户评论数大概是3～5，这意味着，只有少部分商品有上万条，甚至几十万条评论，商品的长尾分布现象极其严重。热门商品的素材资源（用户评论、问答等）丰富，热门商品文案生成较为容易；但中长尾商品素材较少，中长尾商品文案生成较难。

借助前面提到的超大规模预训练的语言模型，可以缓解中长尾商品文案生成难的问题，但当线上无法采用那么大的模型时，怎么去解决这个问题呢？

在实际业务中进行如下优化：将热门商品上如用户评价等丰富的素材都用于训练文案生成模型，然后将热门商品文案生成模型的知识做蒸馏，后验式蒸馏到中长尾商品文案生成模型中，也就是把热门商品的用户行为蒸馏到几乎没有用户行为的商品上去，来提升中长尾商品文案的生成效果。

最终得到的实际效果如上图所示：每个类目上的中长尾商品的生成文案质量都几乎有10%以上的提升，并且越是长尾的商品，文案生成效果提升越为显著。在短文案和长文案的具体挖掘应用实践分别在已发表的两篇文章中：

《(AAAI21) Probing Product Description Generation via Posterior Distillation》，

《(SIGIR20) User-Inspired Posterior Network for Recommendation Reason Generation》。

其中，在长文案的应用实践中，还加入中间隐藏层的知识蒸馏，去降低信息短路，以提升知识蒸馏的效率，如下图所示。

在短文案的应用实践中，模型的知识蒸馏仅限于学习预测时候的分布，但是应用于生成长文案的模型本身比较大，如果仅仅在输出（Output）这一部分进行知识蒸馏提取的话，信息丢失比较多，因此必须多看几个部分。

3. 基于参考模板的文案生成优化实践

除了前面提到的小品类由于商品的热度分布不均没有充分的训练数据外，新的文案类型也常面临着训练数据不足，尤其对比那些经长时间的业务运转已经累积了数百万训练数据的文案类型，起步阶段的新文案类型可能只有百余篇、千余篇可用于训练的文案。同时线上环境受限于计算资源，无法使用结构上特别复杂的模型，就没有那么强的能力生成优质的商品文案。

那要如何给一个新商品去生成优质的文案或新的文案类型呢？

首先找出类似商品的文案，参考这些文案，整理人工参考文案模板，并将参考文案模版做为文案生成模型中预测时的输入，因此如下图所示，在预测生成商品文案的词串时，下一个词将有三个来源：① 大概几万字的常用解码词典，② 约几十个的类似商品的参考文案模板词，③ 数百的商品文案生成的常规输入，如品类、品牌、标题等。其中，类似商品的参考文案模板的引入大大降低了文案生成的难度，因为相当于模型提前看到了参考答案。

如果从本质上看，在模型框架上，非常像transformer-pointer模型，但相比于标准的transformer-pointer，增加了另外一个信息copy的来源：类似商品的参考文案模版词，因此需要引入一个检索模型；该检索模型可以用外援的，也可以用in-value计算，也可以用向量召回的方式去做类似商品的文案的提取。

4. 基于训练集增强的文案生成优化实践

针对训练数据不足，如下图所示，进行了以下两种方式的训练集增强：一是利用同义词替换从词的角度做训练数据量的增加；二是利用句子改写，仅变换自己的表达形式，即同义不同表达方式，从句子的角度上做训练集增强。在具体落地方案上，同义词替换可以采用BERT Mask的方式；句子集上的替换，直接利用比较成熟的中英文互译系统，将中文先翻译成英文，再从英文翻译成中文。

当然，无论是词级别的样本的数据增强，还是句子级别的样本的数据增强，都可能是带噪音的，因此在实际的应用中，需要给样本赋予不同的学习权重。

简单的做法，可以是增强的样本的学习权重比较低，质量比较可靠的原始样本学习权重相对高一点。

灵活一点的做法是引入一个验证集去做测试，比如一个增强的样本的初始学习权重和原始样本的学习权重一样，如果最终的性能表现在验证集上测试表现更好，就维持该学习权重。如果最终的表现更差，则自动降低该增强的样本的学习权重，来避免增强的样本带来的负面影响。因为做训练集增强是希望生成模型可以学到不同类型的句子表达，如果带来负面影响，则应降低其对效果的影响，训练集增强优化始终以提升文案生成的能力为准。已发表论文做了详细的阐述：《(ACL20) Data Manipulation: Towards Effective Instance Learning for Neural Dialogue Generation via Learning to Augment and Reweight》。

–

04 电商商品文案质量评估系统的优化实践

文案质量评估系统是要剔除生成的低质量文案，可以复用文案摘要清洗系统的基于判别的模式，如下图所示。也可以用如GPT或者单纯的预训练语言模型等方式去判别句子的流畅度，或者通过主体模型和人工审核整理的关键词或其他的各个方面去判别文案的质量。当然也可以结合不同模态的商品信息，进行文案质量评估。

今天的分享就到这里，谢谢大家。
本文首发于微信公众号“DataFunTalk”。

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
docker-compose方式搭建lnmp环境——筑梦之路筑梦之路 linux系统运维国产化 docker android adb
docker-compose.yml文件#生成docker-compose.ymlcat>docker-compose.ymlnginx/conf.d/default.conf">www/index.phpecho"开始启动服务..."docker-composeup-d#获取本机ipip_addr=$(hostname-I|awk'{print$1}')echo"部署完成！"echo"访问测试页
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
C++设计模式：简单工厂、工厂方法、抽象工厂起个别名 C++算法 c++
1.工厂模式的特点在我们现实生活中，买馒头和自己蒸馒头、去饭店点一份大盘鸡和自己养鸡，杀鸡，做大盘鸡，这是全然不同的两种体验：自己做麻烦，而且有失败的风险，需要自己承担后果。买现成的，可以忽略制作细节，方便快捷并且无风险，得到的肯定是美味的食物。对于后者，就相当于是一个加工厂，通过这个工厂我们就可以得到想要的东西，在程序设计中，这种模式就叫做工厂模式，工厂生成出的产品就是某个类的实例，也就是对象。
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
cesium添加原生MVT矢量瓦片方案 zhu_zhu_xia cesium vue arcgis cesium webgl javascript
项目中需要基于cesium接入mvt格式的服务并支持属性拾取查询，通过一系列预研测试，最后选择cesium-mvt-imagery-provider开源插件完成，关键源码信息如下：npmicesiumcesium-mvt-imagery-provider//安装依赖包//加载图层importCesiumMVTImageryProviderfrom"cesium-mvt-imagery-provid
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AIGC工具与软件开发流程的深度集成方案 Irene-HQ 软件开发测试 AIGC 测试工具 github AIGC 程序人生面试
一、代码开发环节集成路径‌环境配置标准化‌安装AIGC工具包并配置环境变量（如设置AIGC_TOOL_PATH），确保团队开发环境一致‌。在IDE插件市场安装Copilot等工具，实现编码时实时建议调用‌。‌人机协作新模式‌‌需求解析‌：上传PRD文档，AI自动提取业务规则生成类结构（如支付模块的PaymentService雏形）‌。‌代码补全‌：输入注释//JWT验证中间件，生成OAuth2.0
NGS测序基础梳理02-簇生成（Cluster Generation）及flow cell介绍 qq_21478261 #生物信息生物信息学
本文图解Illumina测序平台，flowcell表面簇生成（ClusterGeneration）过程。写作时间：2020，有问题可留言或者我的公众号。本文将了解到什么？1flowcell2簇生成为何要进行簇生成？簇生成步骤1）文库与flowcell表面P5杂交与互补链合成2）双链变性3）桥式PCR扩增4）反链切除5）DNA链3'封闭参考资料：1flowcell为何要先介绍flowcell？因为簇
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr