zenRRan

清华ACL'22 | 一文读懂刘知远所在实验室18篇论文详情

每天给你送来NLP技术干货！

来自：TsinghuaNLP

近日，ACL 2022录用结果出炉，我组18篇论文被ACL 2022录用，其中主会论文13篇，Findings论文5篇。以下为论文列表及介绍：

一

ACL 2022主会

Packed Levitated Marker for Entity and Relation Extraction

作者：叶德铭，林衍凯，李鹏，孙茂松

类型：Long Paper

摘要：最近的命名实体识别和关系抽取工作专注于研究如何从预训练模型中获得更好的span表示。然而，许多工作忽略了span之间的相互关系。在这篇文章中，我们提出了一种基于悬浮标记的span表示方法，我们在编码过程中通过特定策略打包标记来考虑span之间的相互关系。对于命名实体识别任务，我们提出了一种面向邻居span的打包策略，以更好地建模实体边界信息。对于关系抽取任务，我们设计了一种面向头实体的打包策略，将每个头实体以及可能的尾实体打包，以共同建模同头实体的span对。通过使用增强的标记特征，我们的模型在六个NER数据集上优于基线模型，并在ACE04/ACE05端到端关系抽取数据集上以更快的速度获得了4 F1以上的提升。论文代码开源于https://github.com/thunlp/PL-Marker。该工作与腾讯微信模式识别中心合作完成。

QuoteR: A Benchmark of Quote Recommendation for Writing

作者：岂凡超，杨延辉，易靖，程志立，刘知远，孙茂松

类型：Long Paper

摘要：在写作中人们经常引用名言名句来提高文章文采和说服力。为了帮助人们更快地找到合适的名言名句，研究者提出了名言名句推荐任务。该任务旨在自动推荐适合当前上下文的名言名句。现在已经有许多名言名句推荐方法，但是他们的评测基于不同的未公开数据集。为了推进这一领域的研究，我们构建了一个名为QuoteR的大规模名言名句推荐数据集。该数据集完全公开，由英语、现代汉语、古诗文三部分构成，每一部分都比此前的相应未公开数据集要大。基于该数据集，我们对此前的所有名言名句推荐方法进行了公平而详尽的评测。此外，我们还提出了一个名言名句推荐模型，其性能显著超过前人方法。

以下为根据上下文“从盘面上看，股票价格会呈现某种带漂移的无规则行走，涨跌无常，难以捉摸。[Quote],这话放在投资领域也同样受用。事物是在不断变化的，历史数据只能起一定程度的参考作用。投资者想凭借历史数据准确预测未来几乎是不可能的。”推荐的名言示例：

MSP: Multi-Stage Prompting for Making Pre-trained Language Models Better Translators

‍ ‍ ‍ ‍ ‍ ‍ ‍

作者：谭知行，张祥文，王硕，刘洋

类型：Long Paper

摘要：提示方法在近期已成为应用预训练模型到下游任务的前沿方法。我们提出多阶段提示，一种简单且自动的应用预训练模型到翻译任务上的方法。为了更好地减少预训练与翻译之间的差异，多阶段提示将使用预训练模型进行翻译的过程分解为三个独立的阶段：编码阶段、再编码阶段、解码阶段。在每个阶段，我们独立地采用连续型提示来使得预训练模型能够更好地转移到翻译任务上。实验表明我们的方法能够显著提升预训练模型进行机器翻译的性能。

Integrating Vectorized Lexical Constraints for Neural Machine Translation

作者：王硕，谭知行，刘洋

类型：Long Paper

摘要：词汇化约束的神经机器翻译(NMT)使用预先指定的短语对来控制的NMT模型的生成结果。该任务在许多实际场景中有着重要的意义。但是，由于NMT模型内部是连续的向量，和离散的词汇约束存在着表示形式上的差异。现有的大多数工作都讲NMT模型视作一个黑盒子，仅在数据层面或者解码算法上施加词汇约束，不考虑其模型内部的信息处理方式。在本工作中，我们将离散的词汇约束进行向量化，将其映射为注意力机制可以直接利用的连续型键(key)和值(value)，从而可以直接将约束集成到NMT模型中。实验结果表明，我们的方法在四个语言对上始终优于几个具有代表性的基线方法。

Pass off Fish Eyes for Pearls: Attacking Model Selection of Pre-trained Models

作者：朱璧如，秦禹嘉，岂凡超，邓仰东，刘知远，孙茂松，顾明

类型：Long Paper

摘要：为特定的下游任务选择合适的预训练模型 (PTM) 通常需要在该下游任务上微调来确定，然而这一过程是十分缓慢的。为了加速这一过程，研究人员提出了基于特征的模型选择 (FMS) 方法，该方法无需微调即可快速评估 PTM 对特定任务的可迁移性。在这项工作中，我们认为当前的 FMS 方法具有安全方面的隐患。为了验证我们的观点，我们分别从模型层面和数据层面设计了两种算法评估FMS的鲁棒性。实验结果证明，这两种方法都能成功地使 FMS 错误地判断PTM的可迁移性。我们的研究指出了提高FMS鲁棒性的新方向。该工作与清华大学软件学院邓仰东老师团队合作完成。

PPT: Pre-trained Prompt Tuning for Few-shot Learning

作者：顾煜贤，韩旭，刘知远，黄民烈

类型：Long Paper

摘要：随着预训练语言模型的参数量越来越大，如何高效地将大模型向下游任务适配逐渐受到研究者们的关注。最近，一种被称为 prompt tuning 的方法提供了一种可能的解决方式。这种方法通过在固定整体模型参数的情况下，端到端地调整拼接在输入前的一组 soft prompt，从而在下游数据充足的情况下达到和训练整体模型参数相当的结果。但是，我们发现 soft prompt 的优化较为困难，导致 prompt tuning 在数据量较少的情况下性能较差。因此，我们提出了一个新的训练框架 PPT (Pre-trained Prompt Tuning)。在这个框架中，为了解决 soft prompt 优化困难的问题，我们将 soft prompt 先在无标注数据上进行预训练，从而得到一个较好的初始化，然后再通过上述的 prompt tuning 向下游任务适配。为了提升我们框架的通用性，我们将多个经典的文本分类任务归为了三种形式，并为每种形式分别设计了一种预训练任务。我们通过大量的实验证明，PPT 框架可以显著提升 prompt tuning 在少数据场景下的性能，达到甚至超过模型整体参数微调的水平。并且，在数据量增多时，PPT 的优势仍然可以保持。该工作与清华大学黄民烈老师团队合作完成。

Prototypical Verbalizer for Prompt-based Few-shot Tuning

作者：崔淦渠，胡声鼎，丁宁，黄龙涛，刘知远

类型：Long Paper

摘要：针对预训练语言模型(PLM)的提示微调(prompt-based tuning)在少次学习中十分有效。通常，提示微调会将输入文本包装成填空问题。为了做出预测，这种方法通过一个表达器(verbalizer)将输出的单词映射到标签上。该表达器可以是人工设计的，也可以是自动构建的。然而，人工表达器严重依赖于特定领域的先验知识，而自动寻找合适的标签词仍然是一项挑战，本文提出了直接从训练数据中构建的原型表达器ProtoVerb。具体而言，ProtoVerb通过对比学习将学到的原型(prototype)向量作为表达器。通过这种方式，原型归纳了训练实例，并且能够包含丰富的类级别语义。我们在主题分类和实体分类任务上进行了实验，实验结果表明，ProtoVerb的性能明显优于现有的自动生成的表达器，特别是在训练数据极其匮乏的场景下。更令人惊讶的是，即使是在未微调的预训练语言模型上，ProtoVerb也能够提升提示微调的性能，这表明ProtoVerb也是一种优雅的非微调预训练模型利用方式。该工作与阿里AAIG自然语言处理实验室黄龙涛老师团队合作完成。

bert2BERT: Towards Reusable Pretrained Language Models

作者：陈诚，尹伊淳，尚利峰，蒋欣，秦禹嘉，王凤玉，王智，陈晓，刘知远，刘群

类型：Long Paper

摘要：近年来，研究人员倾向于不断训练更大的语言模型，以探索深度模型的上限。然而，大型语言模型预训练需要消耗大量的计算资源，并且大多数模型都是从头开始训练的，没有重复利用现有的预训练模型，这是一种浪费。在本文中，我们提出了bert2BERT，它可以通过参数初始化有效地将现有较小的预训练模型的知识转移到大型模型，提高大模型的预训练效率。具体来说，我们在基于 Transformer 的语言模型上扩展了之前的Net2Net方法。此外，我们提出了一种两阶段的预训练方法，以进一步加快训练过程。我们对具有代表性的 PLM（例如，BERT 和 GPT）进行了广泛的实验，并证明 (1) 我们的方法与从头开始学习、StackBERT和 MSLT在内的基线方法相比可以节省大量的训练成本; (2) 我们的方法是通用的，适用于不同类型的预训练模型。该工作由华为诺亚实验室刘群老师团队主导完成。

Cross-Lingual Contrastive Learning for Fine-Grained Entity Typing for Low-Resource Languages

作者：韩旭，罗宇琦，陈暐泽，刘知远，孙茂松，周伯通，费昊，郑孙聪

类型：Long Paper

摘要：细粒度实体分类（Fine-grained Entity Typing，FGET）旨在为文本中的实体标注细粒度实体类型，这对于诸多与实体相关的 NLP 任务具有重要意义。FGET 的一个关键挑战是资源不足问题 —— 为拥有复杂层次结构的实体类型来讲，手动标记数据比较困难，尤其对于英语以外的语言来讲，人工标注的数据更是十分稀缺。在本文中，我们提出一个跨语言对比学习框架来学习低资源语言上的 FGET 模型。具体来说，我们以多语言预训练语言模型作为模型主干，帮助将实体分类所需知识从资源丰富的语言（如英语）转移到资源匮乏的语言（如中文）。此外，我们引入了基于实体对的启发式规则以及机器翻译来获取跨语言远程监督数据，并在远程监督数据上实施跨语言对比学习来增强模型的实体分类能力。实验结果表明，基于上述框架，可以较为轻松地为低资源语言学习有效的 FGET 模型，即使没有任何特定语言的人工标记数据。该工作与腾讯 TencentNLP Oteam 郑孙聪老师团队合作完成。

Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification

作者：胡声鼎，丁宁，汪华东，刘知远，王金刚，李涓子，武威，孙茂松

类型：Long Paper

摘要：使用特定任务提示微调(prompt-tuning)预训练语言模型(PLM)是一种很有前景的文本分类方法。先前的研究表明，与具有额外分类器的普通微调方法相比，提示微调在低数据场景中具有显着优势。提示微调的核心思想是在输入中插入文本片段，即模板，并将分类问题转换为掩码语言建模(MLM)问题，其中关键步骤是在标签空间和标签词空间之间构建投影，即表达器(verbalizer)。表达器通常是手工制作或通过梯度下降搜索的，这可能缺乏覆盖范围，并给结果带来相当大的偏差和高方差。在这项工作中，我们专注于将外部知识整合到表达器中，形成知识增强的提示微调方法(KPT)，以改善和稳定表达器。具体来说，我们使用外部知识库(KB)扩展表达器的标签词空间，并在使用扩展的标签词空间进行预测之前使用预训练模型本身对扩展的标签词空间进行细化。零样本和少样本文本分类任务的广泛实验证明了知识增强的提示微调的有效性。该工作与美团搜索与NLP部门合作完成。

Fully Hyperbolic Neural Networks

作者：陈暐泽，韩旭，林衍凯，赵和旭，刘知远，李鹏，孙茂松，周杰

类型：Long Paper

摘要：双曲神经网络在复杂数据建模方面有着巨大潜力。然而，现有的大部分双曲神经网络并不能称之为「完全双曲」的，因为它们仅是在双曲空间中编码特征，而仍在双曲空间原点的切空间（一个欧几里得子空间）中进行大部分操作。在不同的空间中频繁切换引入额外的开销和不稳定性。在本文中，我们提出了一个完全的双曲框架，基于洛伦兹变换（包括Boost和Rotation）来建立基于洛伦兹模型的双曲神经网络，以实现神经网络的基本操作。此外，我们还证明了现有双曲神经网络所使用的切空间的线性变换是洛伦兹Rotation的一种松弛情况，且无法表达洛伦兹Boost，限制了现有双曲神经网络的能力。在四个NLP任务上的实验结果表明，我们的方法在构建浅层和深层网络方面都有更好的表现。该工作与腾讯微信模式识别中心合作完成。

Program Transfer for Complex Question Answering over Knowledge Bases

作者：曹书林，史佳欣，姚子俊，吕鑫，侯磊，李涓子，刘知远，肖镜辉，于济凡，张含望

类型：Long Paper

摘要：在知识库（KB）上回答复杂问题的程序归纳法旨在将问题分解为一个由多个函数组合而成的程序，程序在知识库的执行从而最终答案。程序归纳的学习依赖于给定知识库的大量平行问题-程序对。然而，对于大多数知识库来说，通常是缺乏这样的标注的，这使得学习非常困难。在本文中，我们提出了Program Transfer的方法，其目的是利用富资源知识库上的程序标注作为外部监督信号来帮助缺乏程序标注的低资源知识库的程序归纳。对于Program Transfer，我们设计了一个新颖的两阶段解析框架，并设计了一个高效的基于知识库本体的剪枝策略。首先，一个Sketch解析器将问题翻译成sketch，即函数的组合；然后，给定问题和sketch，一个参数分析器从知识库中搜索具体的函数参数。在搜索过程中，我们结合知识库的本体来调整搜索空间。在ComplexWebQuestions和WebQuestionSP上的实验表明，我们的方法明显优于SOTA方法，证明了Program Transfer和我们框架的有效性。该工作与清华大学李涓子老师团队和华为诺亚实验室刘群老师团队合作完成。

A Simple but Effective Pluggable Entity Lookup Table for Pre-trained Language Models

作者：叶德铭，林衍凯，李鹏，孙茂松，刘知远

类型：Short Paper

摘要：预训练的语言模型难以记住大规模语料库中丰富事实知识，对于出现频率比较低的实体，预训练模型更容易遗忘它们的上下文信息。在本文中，我们通过聚合一个实体在不同句子中的的输出表示，按照需求构建了一个可插拔的实体词表。构建的词向量可以兼容地插入句子中直接作为输入，将实体知识注入预训练语言模型中。与之前的知识增强型模型相比，我们的方法只需要2‰~5%的预计算量，并且能够从新领域文本获取知识实现领域迁移。在知识探测任务和关系分类任务上的实验表明，我们的方法可以灵活地将知识注入BERT/RoBERTa/BART等多种不同架构的预训练模型。该工作与腾讯微信模式识别中心合作完成。

二

Findings of ACL 2022

Sememe Prediction for BabelNet Synsets Using Multilingual and Multimodal Information

作者：岂凡超，吕传承，刘知远，孟笑君，孙茂松，郑海涛

类型：Long Paper

摘要：在语言学中，义原被定义为语义的最小单位。人工标注单词的义原知识库已成功应用到各种NLP任务中。然而，现有的义原知识库只涵盖了少数几种语言，阻碍了义原的广泛利用。针对这一问题，文章提出了BabelNet同义词集的义位预测任务(SPBS)，旨在基于BabelNet多语言百科词典构建多语言义原知识库。通过自动预测BabelNet同义词集的义原，该同义词集中的多个语言的词将同时获得义原注释。然而，以往的SPBS方法并没有充分利用BabelNet中丰富的信息。在本文中，我们利用BabelNet中的多语言同义词、多语言定义和图像来实现SPBS。我们设计了一个多模态信息融合模型，对这些信息进行编码和组合，进行义原预测。实验结果表明，我们的模型明显优于以前的方法。该工作与清华大学深圳研究院郑海涛老师团队合作完成。

Going "Deeper": Structured Sememe Prediction via Transformer with Tree Attention

作者：叶奕宁，岂凡超，刘知远，孙茂松

类型：Long Paper

摘要：含有单词和最小语义单位的义原知识库在很多NLP任务中有较好的表现。由于人工构建义原知识库费时费力，一些研究试图通过对未标注词语的义原进行预测来实现自动的知识库构建。然而已有的研究忽略了义原语义系统中非常重要的一部分——层次结构。本篇工作中，我们首次尝试结构化的义原预测，即将单词对应的义原预测为树状结构。同时，我们针对性地修改了注意力计算方法，由此设计了基于transformer的义原树预测模型，并在实验中验证了它的有效性。我们也对模型的效果进行了定量和定性的分析。本工作的代码将会开源。

Do Pre-trained Models Benefit Knowledge Graph Completion? A Reliable Evaluation and a Reasonable Approach

作者：吕鑫，林衍凯，曹艺馨，侯磊，李涓子，刘知远，李鹏，周杰

类型：Long Paper

摘要：近年来，预训练语言模型（PLM）已被证明可以从大量文本中捕获事实性知识，这促使了基于PLM的知识图谱补全（KGC）模型的提出。然而，这些模型在性能上仍然落后于目前最佳的KGC模型。在本工作中，我们发现了这些模型性能较弱的两个主要原因。即（1）不准确的评估设定。在封闭世界假设（CWA）下的评估可能会低估基于PLM的KGC模型，因为这类模型引入了更多的外部知识；（2）对PLM的不恰当利用。大多数基于PLM的KGC模型只是简单地将实体和关系的标签拼接起来作为输入，这导致句子的不连贯，这无法利用PLM中的隐性知识。为了缓解这些问题，我们提出了在开放世界假设（OWA）下的更准确的评估方式，即人工检查不在知识图谱中的知识的正确性。此外，我们还提出了一个新的基于PLM的KGC模型（PKGC）。其基本思想是将每个三元组及额外信息转换为自然的提示句，并进一步将其输入PLM进行分类。我们在两个KGC数据集上的实验结果表明，OWA在评估KGC方面更为可靠，尤其是在链接预测方面。此外，我们的PKCG模型在CWA和OWA设置下均取得了很好的性能。该工作与清华大学李涓子老师团队和腾讯微信模式识别中心周杰老师团队合作完成。

ELLE: Efficient Lifelong Pre-training for Emerging Data

作者：秦禹嘉，张家杰，林衍凯，刘知远，李鹏，孙茂松，周杰

类型：Long Paper

摘要：当前的预训练语言模型（PLM）通常使用固定的、不更新的数据进行训练，而忽略了在现实世界场景中，各种来源的数据可能会不断增长，而这需要 PLM 能够持续地整合各方面的信息。虽然这个目标可以通过对所有新老数据重新大规模训练来实现，但众所周知，这样的过程在计算上是十分昂贵的。为此，我们提出了ELLE，旨在对新来的数据进行高效的持续预训练。具体来说，ELLE包括 (1) 功能维持的模型扩展，它能够灵活地扩展现有 PLM 的宽度和深度，以提高知识获取的效率；(2) 预植领域提示词（prompt），从而让模型能够更好地区分预训练期间学到的通用知识，正确地激发下游任务的知识。我们在 BERT 和 GPT 上使用来自5个领域的数据来试验，结果表明ELLE在预训练效率和下游性能方面优于各种传统的持续学习方法。该工作与腾讯微信模式识别中心周杰老师团队合作完成。

Prompt Tuning for Discriminative Pre-trained Language Models

作者：姚远，董博文，张傲，张正彦，谢若冰，刘知远，林乐宇，孙茂松，王建勇

类型：Short Paper

摘要：在精调预训练语言模型方面，Prompt Tuning取得了令人印象深刻的成果。然而，现有的工作主要集中在对生成式预训练语言模型的Prompt Tuning上，其预训练任务为还原遮盖的文本符号，如BERT。对于判别式的预训练语言模型，例如ELECTRA，是否以及如何能够有效地进行Prompt Tuning，仍然是一个开放挑战。在这项工作中，我们提出了DPT，这是第一个用于判别式预训练语言模型的Prompt Tuning框架，它将NLP任务重新形式化为一个判别式语言建模问题。在文本分类和问答任务上的实验结果表明，与传统精调方法相比，DPT取得了明显更高的性能，同时也避免了在全量数据和低资源场景下精调大模型的不稳定问题。该工作与清华大学计算机系王建勇老师团队以及腾讯搜索应用部林乐宇老师团队完成。

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！  后台回复【五件套】
下载二：南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易，还望给个在看！

你可能感兴趣的:(大数据,算法,编程语言,python,神经网络)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo