PaperWeekly

NAACL 2022 | DOP-Tuning: 面向对话摘要领域自适应的轻量级微调方法

©作者 | 曾伟豪

单位 | 北京邮电大学

研究方向 | 对话摘要生成

本文介绍一下我们组在面向领域迁移的对话摘要任务上的工作。

论文标题：

Domain-Oriented Prefix-Tuning: Towards Efficient and Generalizable Fine-tuning for Zero-Shot Dialogue Summarization

论文来源：

NAACL 2022

论文链接：

https://arxiv.org/abs/2204.04362

代码链接：

https://github.com/Zeng-WH/DOP-Tuning

Motivations

当前的对话摘要模型往往缺乏在新领域上的泛化性，因为大规模的生成式预训练模型往往需要大量的人工标注的黄金摘要，在 few/no labeled 的场景下无法扩展到新的领域。

当前研究摘要领域迁移的方法需要耗时的预训练和大规模额外的语料库。他们仅关注沉重的预训练步骤而不是轻量化的微调过程。

Contributions

我们第一个探索对话摘要的领域迁移任务的 fine-tuning 方法，并且在 TODSum（TODSum 是我们提出的对话摘要数据集）和 QMSum 两个数据集上建立了实用且全面的 benchmarks.

本文提出了轻量且有效的面向领域的 Prefix-tuning 的模型，该模型使用领域词初始化的 prefix 模块以及离散的 prompt 来从大规模预训练模型中交互式地提取知识。

进行了充分的实验和定量分析来证明了我们提出的方法的有效性，并且讨论了面向领域迁移的对话摘要所存在的挑战。

Methodology

模型结构包括 Domain-Oriented Prefix，Prompt Encoder 以及 Decoder 三个部分。

▲ 模型结构

3.1 Domain-Oriented Prefix

为了缓解领域耦合的问题，我们提出了 domain-oriented 的 prefix 模块来从源域和目标域中获取共享的知识。

采用 two-step 构建 Domain-Oriented Prefix，包括初始化和参数化。

▲ Domain-Oriented Prefix

3.1.1 Initialization

1. 利用 LDA 主题模型从对话文本中提取每个领域的关键词，并且将他们拼接起来构成 domain word（prefix）序列

2. 随机初始化 domain word 序列组成可学习的矩阵

3.1.2 Parametrization

1. 利用 MLP 和预训练的 BART 模型分别得到 domain word 序列的表示，重新训练 MLP 使用 MSE loss 使得 MLP 的输出与预训练的 BART 的 decoder hidden states 相同，以此从预训练模型中解藕出领域知识。

2. 在更新 MLP 参数的过程中保持预训练的 BART 的参数固定。

3. 得到 MLP 的参数初始化，并使用预训练好的 MLP 来映射 prefix 表示的初始化 embeddings。

3.2 Prompt Encoder

3.2.1 Discrete Prompts

1. 将 TODSum 数据集中的对话状态和 QMSum 中的 queries 作为离散的Prompts。

2. 对于对话状态这种结构化的信息，将结构化的信息转化为文本序列。

3.2.2 Transformer Layer

1. 将离散的 prompt 序列以及对话文本序列作为 encoder 的输入序列。

2. 通过修改添加 domain-oriented prefix 序列的键值对来修改 self- attention 机制。

3.3 Decoder

将 Prefix 模块也加到 decoder 上，以类似的方式修改 cross-attention 和 self- attention 机制。

3.4 Training Strategy

采用如下的训练目标更新梯度：

在训练过程中中固定 BART 的参数，而更新 prefix 的参数。在训练时使用来自源域的领域词作为 prefix 序列。当训练完成以后，保存 domain-oriented 的 prefix 模块的参数，而丢弃掉预训练好的 BART 模块的参数。

在测试的过程中，目标域的领域词则被 MLP 模块映射为 prefix 表示。

Experimental Setup

4.1 Datasets

在两个 multi-domain 对话摘要数据集上评估了模型的效果。

4.1.1 TODSum

TODSum 是基于经典对话数据集 MultiWOZ 提出的 task-oriented 对话摘要数据集。根据领域信息，数据集可以被划为 5 个领域：restaurant，hotel，attraction，taxi 以及 train。在实验时，选择 5 个域中的 4 个域作为源域，剩下的域作为目标域，从源域中抽取 200 个样本作为验证集，源域的剩余数据作为训练集，目标域的数据作为测试集。

4.1.2 QMSum

QMSum数据集包括上千条会议录音数据，包括三个领域：academic，committee 以及 product。采用类似于 TODSum 数据集的处理方式。

4.2 Main Results

4.2.1 Results on TODSum

▲ TODSum

可以看到，Prefix-Tuning 相比较 BART，BART w. DS., 表现要差，是因为对话文本很长且复杂，仅使用 fine-tuning 参数的 20% 很难理解领域知识，以及识别对话中的关键内容。在与 Prefix-tuning 具有相同量级的参数下，DOP- tuning 在 5 个领域都有了较大的提升。这表明由领域词初始化的 prefix 模块以及有对话状态组成的离散的 prompts 发挥了重要的作用。除此之外，模型比全参数 fine-tuning 的模型 BART 要好，说明模型可以有效地从源域和目标域中解藕出知识。上述结果表示，在有限的数据情况下，模型仍然可以达到 SOTA 的结果。

4.2.2 Results on QMSum

▲ QMSum

整体表现的趋势与在 TODSum 数据集上的表现一致，但是可以看出在 Rouges 的分数相对而言较低，是因为领域并没有明显的领域词，导致了严重的领域耦合的问题。除此之外，由于会议文本过长，很难从对话中捕捉核心内容。总的来说，这些结果表明多领域设置对于会议摘要是非常必要且有意义的。

Qualitative Analysis

5.1 Effect of Domain Words

探究领域词数量的影响，可以看到领域词数量在 140 时使 rouge 达到了峰值，当低于 140 时，效果降低，说明参数量不足影响了模型的表现。当领域词数量超过阈值时，模型的表现下降，说明了太长的 prefix 序列给 BART 增加了负担，并且引入了额外的噪声。但是，领域词数量的变化并没有对模型的表现的有太大的影响（只有 2～3% 的起伏），说明了 domain-oriented prefix 模块和有效性和模型的鲁棒性。

5.2 Quality of Domain Words

探究领域词的质量的影响，将领域词的中的一定比例的词语以与领域无关的词汇替代。可以看到，随着更多的噪声被引入，模型受到更大的影响且表现下降。当噪声的比例超过 100% 时，模型的表现甚至比 Prefix- Tuning 糟糕。这是因为，我们使用完全无关的词汇去初始化 Prefix 模块，相比较随机初始化引入了更多的噪声影响了 DOP 的表现。从这一点看，引入高质量的领域词有利于领域解藕，高质量的领域词对摘要生成是重要的。

5.3 Ablation Study

研究了 domain-oriented initialization 和 discrete prompts 的影响。同时去掉两个模块与原始 prefix-tuning 相同。可以看到去除 prefix- tuning 中的 domain- oriented 初始化会使模型表现严重下降，说明 domain word 信息在面对新领域时引入相关知识的重要性。同时，移除离散的 prompts 也会使模型表现更糟糕（但仍然会好于 Prefix-Tuning），说明离散的 prompts 能让模型更关注对话中核心的内容进而提升模型的表现。

5.4 Effect of Prefix Module in Encoder and Decoder

由于 DOP-method 在 encoder 和 decoder 中均引入了 prefix 模块，研究两个部分的 prefix 模块对模型表现的影响。可以看到，当两个部分的 prefix 被移除后，模型的表现均下降，说明了两个模块的 prefix 都是必要且高效的。

一个有趣的现象是移除 encoder 的 prefix 的影响要小于移除 decoder 的 prefix 的影响。一个比较合理的解释是在 encoder 和 decoder 端的 prefix 的作用是不一样的。在 encoder 端的 prefix 主要帮助模型理解对话，而 decoder 端的 prefix 主要帮助模型生成。因此，对于摘要生成，decoder 端的 prefix 模块对模型更有用。

5.5 Human Evaluation

对模型进行了人工评估。

表中显示，所有模型的流畅程度都较高，说明在较强的 backbone 上微调的抽象摘要模型能够生成更流畅的句子。在事实一致性上，DOP 以及 BART ws DS 好于 Prefix-tuning 的表现，说明对话状态信息能引导模型更关注与核心的信息，例如槽值和意图。初次之外，DOP-tuning 在领域相关性上的表现超过了其他基线模型。说明了 domain-oriented 模块在提升模型识别领域相关特征以及从源域和目标域解藕出知识的能力。

5.6 Effect of Training Data

5.6.1 Performance in Few-shot Settings

对于 TODSum 数据集，固定源域的数据规模，将目标域的数据加入训练数据。可以看到随着目标域数据的增加，BART w. DS 和 DOP 的表现提升，但 DOP-tuning 始终好于 BART w. DS. 说明目标域的知识增加可以让模型学到目标域的信息。

5.6.2 Effect of Source Domain Data Size

保持 zero-shot 的设置不变，调整源域数据的规模

可以看到随着数据规模的减小，BART w. DS 的表现变差，而 DOP-tuning 能够相对优秀地保持稳定。说明 DOP-tuning 对数据规模不太敏感，并且具有一定程度的鲁棒性。这与主实验的结果一致，模型在有限和 unseen data 上表现优异。

5.7 Prefix Length vs. Input Length

研究 Prefix Length 和 input Length 的关系，具体而言 source input length，target input length 以及对应的 optimal prefix length 的关系。可以得出更长的 inputs 可能更青睐于更短的 prefix.

Challenges

总结了抽象对话摘要的低资源领域迁移的挑战：

1. Confusion between domains with high similarity

对于词汇表高度重合的领域，如restaurant 和 hotel，train 和 taxi，模型会产生 domain-confusing 句子。以 hotel- restaurant 对作为例子，当 restaurant 作为目标域，“book a restaurant room that can accommodate 3 people”会被生成，这样的句子其实更应该存在 hotel 领域中。但需要注意的是，这种 challenge 并不会影响关键因素的准确率，但 language style 则是不合适的。

2. Information dispersion

由于对话数据通常是长序列，因此模型很难对长对话中的所有方面都能 pay attention，因此会产生对话中关键元素的注意力的偏差，尤其是在轻量和小参数训练的场景下。

Conclusion

在本文中，我们提出了基于高效且可泛化的微调方法面向领域的 domain-oriented prefix-tuning 模型解决对话摘要中的领域迁移的方法。使用领域词初始化的 prefix 模块能够从源域解藕出目标域的知识，而离散的 prompts 能够提升模型的泛化性。在 zero-shot 和 few-shot 下的实验说明我们的方法在两个数据集下取得了巨大的进步。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

AI新高度——DEEPSEEK 数字隐士·赛博智者 ai
DeepSeek是由中国人工智能公司「深度求索」开发的一系列高性能大语言模型产品及相关技术体系，其定位为通用人工智能（AGI）探索者，目前已发展成为全球增长最快、性能领先的开源模型之一。下面是关于DeepSeek的详细介绍：一、DeepSeek的开发者与背景‌公司名称‌：杭州深度求索人工智能基础技术研究有限公司（成立于2023年）‌核心支持‌：由中国知名对冲基金「高毅资产」创立并提供资金与技术资源
【机器学习&深度学习】适合微调的模型选型指南一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、不同规模模型微调适用性二、微调技术类型对显存的影响三、选择建议（根据你的硬件）四、实际模型推荐五、不同模型适合人群六、推荐几个“非常适合微调”的模型七、推荐使用的微调技术八、场景选择示例场景1：智能客服（中文）场景2：法律问答（中文RAG）场景3：医学问答/健康咨询场景4：AI写作助手（中英文）场景5：代码补全/AI编程助手对比总结表九、不同参数模型特点9.1参数规模vs能力9.2微型模型
@dataclass装饰器简单用法 yuuki456 python 开发语言
dataclass是从Python3.7版本开始，作为标准库中的模块被引入，提供便捷的数据类创建和管理方式。引言Dataclass是Dataclasses模块的一种装饰器，当使用@dataclass装饰器时，会自动生成一些特殊的方法，包括：__init__:根据类属性初始化实例。__repr__:用于打印或调试时显示实例信息。__eq__:用于比较两个实例是否相等。还可以根据需要生成__lt__,
python汉语编程，将关键字与文言文对应 xinhuanjieyi 汉语编程 python
以下是将Python3.13的35个关键字与宋词中的典雅字词（或意象化表达）进行创意关联的版本，力求保留宋词意境的同时与关键字语义形成朦胧呼应：宋词风关键字映射谧（mì）-False（取自“静谧”，喻“假”之空寂，如“谧夜无痕”）缈（miǎo）-None（“缥缈”之虚，如“空山缈云踪”）瑧（zhēn）-True（“瑧”通“真”，喻“真”之确然，如“瑧意自昭昭”）俦（chóu）-and（“俦侣”喻“
windows11安装node.js，选择同时安装Chocolatey包管理工具 xinhuanjieyi node.js
https://nodejs.org/dist/v21.1.0/node-v21.1.0-x64.msi下载，安装到D:\ide\node.js我勾选了安装Chocolatey包管理工具，默认没打勾弹出powershell命令窗口，安装过程中python程序安装报错实际上电脑里已经安装了python多个版本，环境变量都配好了，不知道为什么这个安装工具说没检测到python。以下是窗口信息：Forc
Python编程实现大雪纷飞郭学会 pygame python
大雪纷飞。importpygameimportrandomimportmathimportnumpyasnp#配置参数SCREEN_WIDTH,SCREEN_HEIGHT=1280,720SNOW_COLOR=(245,245,255)TERRAIN_COLOR=(45,65,89)BACKGROUND_COLOR=(13,27,42)classTerrainGenerator:"""多噪声融合地
Python流星雨
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python大雪纷飞代码 SuRuiYuan1 python pygame 开发语言
创建一个模拟大雪纷飞效果的Python程序，可以使用`pygame`库来实现。`pygame`是一个专门用于制作游戏和图形应用的Python库，非常适合用来创建这种视觉效果。首先，你需要确保已经安装了`pygame`。如果没有安装，可以通过运行以下命令进行安装：```bashpipinstallpygame```接下来，这里有一个简单的例子代码，它将模拟出大雪纷飞的效果：```pythonimpo
Python@dataclass装饰器实践首尔的初雪是眼泪 python python windows
目录1.基本使用1.1示例：基本的数据类1.2__init__自动生成2.字段的默认值2.1带有默认值的字段2.2field()函数3.不可变数据类(frozen=True)4.比较与排序4.1支持排序的dataclass5.继承与dataclass5.1继承dataclass6.总结在Python中，@dataclass是一个非常有用的装饰器，它能够自动为类生成一些常见的方法，例如__init_
Python @dataclass 装饰器详解添财小哥 python 开发语言
1.用途和主要功能@dataclass是Python3.7引入的一个装饰器（位于标准库dataclasses模块中），用于简化“纯数据”类的定义。它自动为类生成常用的特殊方法（如init、repr、eq等），避免手动编写冗余模板代码。这样定义的数据类在代码量和可读性上都有显著优势，如便于维护、减少错误。使用@dataclass后，我们“可以直接创建和操作对象，而无需手动编写这些基础方法”。总体而言
【Python】pyttsx3 宅男很神经 python 开发语言
Pythonpyttsx3库：从入门到精通的终极文本转语音指南第1部分：pyttsx3简介与核心概念第1章：pyttsx3概览1.1什么是pyttsx3？pyttsx3是一个跨平台的文本转语音(Text-To-Speech,TTS)Python库。它的显著特点是它完全离线运行，不需要互联网连接即可将文本转换为语音。pyttsx3作为一个封装层，可以与多种操作系统底层的TTS引擎进行交互。这意味着它
python包管理神器uv使用教程寻找窝的考拉Plus python 人工智能开发语言
文章目录uv简介安装`uv`管理python查看可用的python版本查看python版本安装指定的python版本卸载指定Python版本设置当前项目固定使用的Python版本uvpythonpin特殊说明常用命令添加项目级依赖移除依赖查看项目的依赖树导出requirements.txt文件示例项目流程针对项目换源`uv`与传统工具的区别小知识点uvrunmain.pyuv简介uv是一个较新的P
Python Json数据排序 weixin_33851177 python json java
importhashlib#recursivelycalculateeachelementblock'shashcode,andreorderthechildnodesinthelistbasingonthehashcode#finallywillgettheorderedjsonobjectandoverallhashcodedefordered(jsonNode):ifisinstance(j
Pydantic：拯救你的数据结构，让Python类型提示火力全开！（开发者血泪史终结者） syntaxseeker 数据结构 python 开发语言其他
文章目录一、现实毒打：没有Pydantic的日子有多惨？二、Pydantic登场：你的数据守护神！三、动手！秒懂Pydantic魔法四、Pydantic的杀手锏：为什么它这么香？五、实战场景：Pydantic在哪里大放异彩？六、避坑指南&最佳实践（血泪教训！）七、结语：拥抱Pydantic，告别数据焦虑！还在为混乱的JSON数据抓狂？被API返回的诡异字段逼疯？深夜调试时因为一个None值崩溃砸键
PyMySQL连接池去追风，去看海 Python mysql python
背景在用python写后端服务时候，需要与mysql数据库进行一些数据查询或者插入更新等操作。启动服务后接口运行一切正常，隔了第二天去看服务日志就会报错，问题如下：pymysql.err.OperationalError:(2006,"MySQLserverhasgoneaway(BrokenPipeError(32,'Brokenpipe'))")MySQL默认的wait_timeout时间28
python 数据库连接池_python数据库连接池 weixin_39532466 python 数据库连接池
一DBUtils的认识首先管理数据库连接池的包是DBUtils，为高频度并发的数据库访问提供更好的性能，可以自动管理连接对象的创建和释放，最常用的两个外部接口是PersistentDB和PooledDB，前者提供了单个线程专用的数据库连接池，后者则是进程内所有线程共享的数据库连接池。二DBUtils简介DBUtils是一套Python数据库连接池包，并允许对非线程安全的数据库接口进行线程安全包装。
【机器学习&深度学习】本地部署 vs API调用：关键看显存！一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、本地部署VSAPI调用1.模型运行方式2.性能与速度3.成本4.隐私与安全5.何时选择哪种方式？二、为什么推荐本地部署？1️⃣零依赖网络和外部服务，更可靠稳定2️⃣无调用次数限制，更适合高频或批量推理3️⃣避免长期API费用，节省成本4️⃣保护用户隐私和数据安全5️⃣可自定义、深度优化6️⃣加载一次即可复用，低延迟高性能7️⃣离线可用（重要！）三、适合本地部署的情况四、本地部署条件4.1模
【Linux】Ubuntu中，如何创建软件的快捷方式放到桌面上 lijiatu10086 linux ubuntu 运维
本文主要介绍Ubuntu中，如何创建软件的快捷方式放到桌面上首先进入到/usr/share/applications/路径下，找到自己想要的软件，这里以我的vim为例子ricardo@DESKTOP-8T8LHV5:/usr/share/applications$lsbyobu.desktopio.snapcraft.SessionAgent.desktoppython2.7.desktopvim
Python+Pymysql+PooledDB实现数据库连接池 liuage_ python 数据库
1.引言在测试中，频繁地创建和销毁数据库连接会消耗大量的资源，并且可能导致数据库连接的泄露或者性能下降。因此，使用连接池可以有效地管理数据库连接，提高程序的性能和可靠性。2.实现MySQL连接池的类我们将使用Python的pymysql库和dbutils库中的PooledDB来实现MySQL连接池。终端输入命令安装两个库pipinstallpymysqlpipinstalldbutils以下是实现
深度学习 vs 传统机器学习：哪个更适合你的项目？ AI大模型应用之禅深度学习机器学习人工智能 ai
深度学习vs传统机器学习：哪个更适合你的项目？关键词：深度学习、传统机器学习、特征工程、数据量、计算资源、项目选择、算法对比摘要：本文将用"炒菜"和"拼图"等生活案例，从核心原理、适用场景、资源需求等维度对比深度学习与传统机器学习。通过具体代码示例和真实项目场景分析，帮助开发者和企业决策者快速判断：你的项目该选深度学习还是传统机器学习？背景介绍目的和范围随着AI技术普及，"该用深度学习还是传统机器
Python 机器学习实战：泰坦尼克号生还者预测 (从数据探索到模型构建) 程序员阿超的博客 Python python 机器学习开发语言泰坦尼克号 Kaggle Scikit-learn 实战教程
引言：挑战介绍泰坦尼克号的沉没是历史上最著名的海难之一。除了其悲剧色彩，它还为数据科学提供了一个经典且引人入胜的入门项目。Kaggle平台上的“Titanic:MachineLearningfromDisaster”竞赛，要求我们利用乘客数据来预测哪些人更有可能在这场灾难中幸存。这是一个典型的二元分类问题：目标变量Survived只有两个值，0（遇难）或1（生还）。这个项目之所以经典，是因为它涵盖
colour-demosaicing：实现多款CFA去马赛克算法的Python开源包常琚蕙
colour-demosaicing：实现多款CFA去马赛克算法的Python开源包colour-demosaicingCFA(ColourFilterArray)DemosaicingAlgorithmsforPython项目地址:https://gitcode.com/gh_mirrors/co/colour-demosaicing项目介绍在数字图像处理领域，马赛克效应（Mosaicing）是
Python Web开发之“基于flask的轻量级Web应用” 诚威_lol_中大努力中夏令营复习 python 前端 flask
参考文章1：https://cloud.tencent.com/developer/article/2373503参考文章2：基于Flask的自定义网站设计与实现（代码全文+讲解V1.0）_flask框架制作网页-CSDN博客参考文章3：Python+Flask+MysqL设计网页-李明惠-博客园(cnblogs.com)最基本的例子来源-参考文章1：说明：导入Flask类——>app=Flask
pychram虚拟环境中安装不同python版本小炫y python
安装AnacondaAnaconda|TheWorld'sMostPopularDataSciencePlatform安装时选justme路径可以改，其他默认都可以。然后打开anacondaprompt输入指令安装需要的python版本，condacreate-npython39Python=3.9再输入y确认查看python虚拟环境路径，condainfo-e然后在pycharm中设置一下就可以
LLM大语言模型学习笔记（1） Arixs666 大语言模型语言模型笔记人工智能
1.概念大语言模型（LLM，LargeLanguageModel），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。LLM通常指包含数百亿（或更多）参数的语言模型，它们在海量的文本数据上进行训练，从而获得对语言深层次的理解。2.能力2.1涌现能力区分大语言模型（LLM）与以前的预训练语言模型（PLM）最显著的特征之一是它们的涌现能力。涌现能力是一种令人惊讶的能力，它在小型模型中不明显
Selenium浏览器驱动全面指南：Chrome、Firefox与IE
本文还有配套的精品资源，点击获取简介：Selenium是一个用于自动化Web应用程序测试的工具，支持多种浏览器，包括GoogleChrome、MozillaFirefox和InternetExplorer（IE）。本指南详细介绍如何配置和使用与这三种主流浏览器协同工作的Selenium驱动程序。包括ChromeDriver、GeckoDriver和IEDriverServer，以及在Python中
【python数据分析】数据建模之Kmeans聚类斑点鱼 SpotFish python 数据建模聚类 python 数据分析
K-means聚类：最常用的机器学习聚类算法，且为典型的基于距离的聚类算法。K均值：基于原型的、划分的距离技术，它试图发现用户指定个数(K)的簇以欧式距离作为相似度测度Kmeans聚类案例分析：make_blobs聚类数据生成器#导入模块from sklearn.cluster import KMeansfromsklearn.datasetsimportmake_blobs#创建数据x,y_tr
深刻解析如何解决在pycharm中导入tensorflow的子模块keras时的报错（导入语法正确） lovingf pycharm python tensorflow keras
只是导入时报错，但代码仍可以运行1.导入方式正确，但pycharm将其标红2.通过查看tensorflow的官方文件，猜测可能是python版本不适配python需为python3.6-3.9，而我的为python3.113.配置python3.9的环境（详情可看我的另一篇文章），但依然报错4.经过仔细分析，觉得可能是pycharm与tensorflow的适配问题，pycharm无法寻找到tens
我的第一个开源项目：用Python搭建轻量级静态网页服务器—— 零基础也能实现的Web开发初体验
一、为什么选择静态服务器？极简高效：无需数据库或复杂后端逻辑，适合展示简历、作品集等静态内容学习曲线平缓：是理解HTTP协议和Web服务原理的最佳入门方式资源消耗低：单文件Python脚本即可运行，内存占用小于10MB二、完整开发流程（含代码逐行解析）第一步：创建项目结构PWS/#项目根目录├──static/#静态资源文件夹│├──index.html#主页│├──style.css#样式表│└
docker 结合shell使用方法，让你更理解docker的运行顺序 cdg==吃蛋糕 docker linux 运维
dockerrun-itd\#不多解释，-itd带交互后台运行--namecdg\#容器名称python\#镜像名称/bin/bash-c\#运行bashshell-c执行后面脚本"touch/1.py;\#在根目录touch一个1.py文件echo-e'importrequests\nr=requests.get(\"http://www.baidu.com\")\nprint(r.text)'
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(