zenRRan

从ACL2022中看当下NLP热点和最新的有趣工作

每天给你送来NLP技术干货！

转载自 | PaperWeekly

作者 | AlbertYang

单位 | Amazon/Georgia Tech

研究方向 | NLP

作为拖延症患者马上要 NAACL 了才写这个 ACL 的参会总结 :( 。

Onsite 会议上见到了许久未见的前老板 Bonnie Webber（ACL 2020 终身成就奖 /Lifetime Achievement Award），更巧的是她主持了老板 Diyi Yang 的 Rising Star Talk，Diyi 还有一个 outstanding paper 和一个 tutorial，大概暗示 Diyi 不久的将来也会成为领域里的传奇吧 :) 。
接下来我主要从大模型的视角出发，根据 ACL 2022 中 tutorial，workshop，invited talks（the next big ideas, keynote, rising star talks）列了一下自己眼中的 NLP 热点和最新的有趣工作。

『继续预训练大模型仍然是工业界的大方向之一』

在“Zero- and Few-Shot NLP with Pretrained Language Models” 的Tutorial中，Iz Beltagy 在最后一部分介绍了预训练时候的顾虑。

除了讲述标准模型架构和高效训练方法的相关问题之外，我认为有两点值得关注，其一是在开启预训练之前就要根据经验公式，来预估给定计算资源时能够达到最好效果的模型大小，试想一个 OPT-175B 的模型需要 1000 张 80G 的 A100 训练两个月，即使是工业界也只有极少数的 lab 有这样的资源，是不可能允许多次实验尝试来决定最优模型的。其二是预训练数据本身的筛选与构建应该被给予更多关注。

另外还有专门讨论模型预训练的 workshop：“Workshop on Challenges & Perspectives in Creating Large Language Models”

『让大模型解决更全面的NLP问题，以及NLP之外的问题』

包括 Extend large-scale Transformer models to multi-task, multimodal, multilingual settings。

2.1 Cross-task Generalization

2.1.1 Instructions as Task Descriptions

和 FLAN，T0，InstructGPT 类似，“NatrualInstructions” 也是利用对任务描述的 instructions 作为 prompt 的一部分，让在多个已知任务上预训练（meta-training）的模型能够根据未知任务上的 instruations 实现 cross-task generalization：

“Cross-Task Generalization via Natural Language Crowdsourcing Instructions.”（以及之后的“NatrualInstructions V2”）
“MetaICL：Learning to Learn In Context”（Meta-training 指在训练阶段就让模型见到不同 task 的指令，而不是直接在 inference 阶段把 task 指令给 GPT3）。
“Adapting Language Models for Zero-shot Learning by Meta-tuning on Dataset and Prompt Collections”（earlier work）
“Meta-learning via Language Model In-context Tuning”

2.1.2 Continual / Lifelong Learning

有一些特定的方法能帮助 Continual/Lifelong Learning，比如“Continual Sequence Generation with Adaptive Compositional Modules”利用了类似 MoE 的方法来组合不同任务的模块。

2.2 Multimodal Learning

我整理的 multimodality paper list 几个月不更新已经有点 out-of-date 了：

https://github.com/JingfengYang/Multi-modal-Deep-Learning

2.2.1 视觉

随着 Transformer 在视觉任务上也展现出越来越好的效果，多模态预训练在 ACL 会议上也被大量关注，最新的进展可以在 Tutorial：“Vision-Language Pretraining：Current Trends and the Future”中找到。但现如今视觉语言预训练的目标大多还是以语言词汇 mask 或者视觉语言对的判定作为目标，图片的 mask 复原（MAE 方式）在多模态预训练中还没有见到很有效的进展，tutorial 中指出这是值得研究的下一个突破点。

确实，语言由于词汇语义信息丰富，作为监督目标是效果比较好的（Jacob Andreas 举办的“Learning with Natural Language Supervision” 的 workshop 也强调了这一点），如何在多模态预训练中用好图片低密度的语义信息（如 BEiT）作为目标，仍值得研究。

2.2.2 表格

多模态预训练还包含了更多的模态，比如语言和表格，和视觉语言预训练类似，如何设计更好的预训练目标，如何实现更好的表格与文本对齐，也是值得探究的问题。我在谷歌的文章在这一方向上做了进一步的探究：“TableFormer: Robust Transformer Modeling for Table-Text Encoding” 。

2.2.3 代码

另外 Code pretraining 等在工业界越来越多的公司来做，除了 OpenAI 的 codex、微软的收费 codepilot 之外，AWS 发布了 CodeWhisperer，Luke 在 Meta 也在预训练 code generation model。semantic parsing 大概要被这些模型统治了，或者至少要靠 code generation model 来帮助生成数据，来解决没有训练数据的窘境（我和 Jacob Andreas 聊天时他强力推荐的方法）。

2.3 Multilingual Learning

2.3.1 有趣的方向

除了更多的 Multilingual 预训练模型以及针对更多下游任务的应用不断出现（e.g. “mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models”），我认为比较有趣的和值得探索的有以下几个方面：

1. “Multi Task Learning For Zero Shot Performance Prediction of Multilingual Models” 提出了更严格的多任务框架来预测多语模型 Zero-shot cross-lingual transfer 的表现，不需要在目标 low-resource language 评估，甚至在 low-resource language 完全没有标注数据作为测试集时，即可预测模型的零资源跨语言迁移效果。

2. 关于预训练多语模型为什么表现好，仍是一个没有定论的问题。：“Cross-Lingual Ability of Multilingual Masked Language Models：A Study of Language Structure”再次指出词表 overlap（anchor）并不是 pretrained multilingual model 跨语言能力的原因，Constituent 的顺序也不是，而语义的组合才是。而之前有研究关于 word anchor 有类似或者相反的结论。

3. 关于如何预训练更好的多语模型和覆盖更多样的语言，除了在同一语系（如 indo-European language）中使用 subword 或者 character 可以有多共享的词汇作为“anchor”（比如“Canine：Pre-training an Efficient Tokenization-Free Encoder for Language Representation”）。

对于差异很大的语言，比如中文和英文，我认为还应该设法让模型学到不同语言间共享的语法结构，比如类似 Universal Dependency（UD）的结构，在我们之前的工作（“Frustratingly Simple but Surprisingly Strong：Using Language-Independent Features for Zero-shot Cross-lingual Semantic Parsing”）中 UD 被证明对 zero-shot cross-lingual semantic parsing 帮助巨大。

2.3.2 Special Theme

这次 ACL 的 special theme 就是 “Language Diversity: from Low-Resource to Endangered Languages”，在 rising star talk上Sebastian Ruder 做了 “Scaling NLP Systems to the Next 1000 Languages”的演讲。确实，对于语料极少语言的 NLP 问题是从社会影响和公平性角度极为重要的问题。

『用好大模型』

学术界没有大量的计算资源来预训练模型，不过仍有许多极有价值的问题适合去做，比如其中一大类就是如何用好预训练模型。How to use large-scale models ？

3.1 Decoding / Sampling

对于极大规模的模型，在大部分场景下无法 fine-tune，如何设计更加有效的 Decoding 和 Sampling，以直接利用模型的生成能力是研究的重点。比如 Ryan Cotterell 在“Typical decoding for natural language generation”提出的 sampling 算法能生成更自然的语言并且减少重复生成的问题。

如何设计更好的constrained decoding 算法来实现 controllable generation 仍是重点，比如“COLD Decoding: Energy-based Constrained Text Generation with Langevin Dynamics” ，以及我比较喜欢的 constrained decoding 做 IE 的方法 “Multilingual Autoregressive Entity Linking”（我们的工作“SEQZERO: Few-shot Compositional Semantic Parsing with Sequential Prompts and Zero-shot Models.”也用了类似的方法）。

另外，non-autoregressive generation/multi-stage generation 也还是常用的方式（我在之前的工作“Planning and Generating Natural and Diverse Disfluent Texts as Augmentation for Disfluency Detection.”做过类似尝试）。

3.2 Prompt

基于 prompt 的方式已经成为一种主要的利用大规模模型的方法（清华的 OpenPrompt 拿了 best demo 奖)，除了常见的 prompt，in-context learning （类似 GPT3 给定 few-shot 输入输出样例子）之外，利用生成的 explanations 去帮助模型得到更好的结果，以及将 instructions 作为 prompt 的一部分，这些都成了常用的进一步提升生成结果的方法。会议 / tutorial / talk 中提到的一些有趣的论文有：

“Noisy channel language model prompting for few-shot text classification”
“Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?”
“Can Explanations Be Useful for Calibrating Black Box Models?”
“The Unreliability of Explanations in Few-Shot In-Context Learning”
“Cross-Task Generalization via Natural Language Crowdsourcing Instructions”
“Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations”

3.2 Effiecient Models

如何设计更高效的模型（模型压缩，quantization，adapter 等）仍是热点，比如：

“Structured Pruning Learns Compact and Accurate Models”

3.3 Language Models as KG

把大模型视为 knowledge base，它可以帮助我们生成有助于解决任务的知识进而帮助任务本身：

“Generated Knowledge Prompting for Commonsense Reasonin”

3.4 Language Models to Generate Data

大模型强大的生成能力或者 zero-shot/few-shot 能力可以帮助生成标注数据以及生成数据作为数据扩增的方式，比如“Generating Data to Mitigate Spurious Correlations in Natural Language Inference Datasets” （我们 EMNLP 2020 的工作“Planning and Generating Natural and Diverse Disfluent Texts as Augmentation for Disfluency Detection”也可以算是最早用预训练模型（GPT2）生成扩增数据的工作之一了，那时 BART 和 T5 刚出来，还没有 GPT3）。

3.4 Zero/few-shot Learning & Learning with Limited Data

大模型时代我们可以更好地在有限数据的场景下学习（limitted data learning）或者 few/zero-shot learning。两个极其火爆的 tutorial 是了解相关工作的极好材料：

“Learning with Limited Text Data”：我老板 Diyi Yang 介绍了 data augmentation 的相关工作（欢迎关注我们最近的工作“SUBS：Subtree Substitution for Compositional Semantic Parsing”），Colin Raffel 提出了一个统一的框架来理解各种 semi-supervised learning 方法，Ankur Parikh 从 multilinguality 的视角下做了介绍（感谢 Ankur Parikh 在 Google 内部对我们 ACL TableFormer 工作的审核，我们在致谢中提到了他）。
“Zero- and Few-Shot NLP with Pretrained Language Models” 具体介绍了prompting/in-context learning，instructions/task descriptions, adapter, meta-training, evaluation, pretraining.

『大模型无法完成的』

另外学术界更关注的还是大模型做不了的、由模型或者问题本身性质决定的问题，以及预训练框架的本质缺陷。

4.1 Ambiguity

Yejin Choi 在 KeyNote 中提到的 Ambiguity 现象可以 cover 到很大一部分问题。她提到 Ambiguity 是自然语言的内在性质，自然语言理解不是严格的分类问题（“language understanding is not categorization”），我们应该接受无处不在的 ambiguity，NLP 最基本的任务 POS Tagging 中 POS 的定义在随时间而变化；给定不同的场景（context），两句话的 NLI 关系可能由蕴含变为相斥（“Partial-input baselines show that NLI models can ignore context, but they don’t.”）。

情感分类由最初的只有 postive negtive 标签，到引入了 neutral 的标签；由于标注者的个体不同，人的标注不可避免会有 ambiguity 和 bias（“Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection”）；自动问答中也有 AmbigQA、SituatedQA 这样的数据集（Eunsol Choi 在 rising star talk 中再次强调了同一个问题的答案可能随时间temporal、地点 geographical 等背景的变化而变化）。

nonmonotonic reasoning 中，引入新的知识后，原有的推论和逻辑会被推翻。最近 temporal modeling 本身也成为比较火的领域（如 TKGC，时序 /event 数据的建模等）。

另外模型如何理解 ambiguous 的数据，以及利用 ambiguous 的数据提升模型也有很多有趣的工作，Swabha Swayamdipta 在 rising star talk 中着重介绍了用 training dynamics 发现 ambiguous，并生成 ambiguous 数据来帮助提升模型（OOD）泛化能力的工作（“WANLI：Worker and AI Collaboration for Natural Language Inference Dataset Creation”）。

4.2 Reasoning / Logic / Structure

在“the next big ideas” talk 中，逻辑/推理/结构这些大模型本质的缺陷再次被着重强调。Heng Ji 强调了结构在 multilingual transfer（例如我们之前的“Frustratingly Simple but Surprisingly Strong: Using Language-Independent Features for Zero-shot Cross-lingual Semantic Parsing”文章）, 长文本理解，多模态泛化中都应发挥更关键的作用。

Dan Roth 提到知识的解构（decompose），重组（compose）和规划（plan）的决策过程是实现推理（如temporal/numerical reasoning）的关键，如何利用各种各样的 Incidental supervision signal（比如 Comparable texts/Language-world mapping）是学习这个决策（decision）过程的途径。感觉有点类似 Zhiting Hu 的 Panoramic Learning—training AI agents with ALL types of experiences 了哈哈哈。

“符号主义真的还需要吗？”的争论仍在继续，一方面 Hang Li 等仍在强调逻辑的重要性（用类似 MoE 的方式组合 Neural Prediction 和 Symbolic Prediction）。

一方面 Yejin Choi 在 keynote 中 Continuum 部分所说，随着大模型的成功，“语言（language），知识（knowledge），推理（reasoning）”应该在大模型时代融为一体，而我们之前过分强调了形式和逻辑的作用（“Reasoning is intuitive inference where logic plays a marginal role”），用形式语言和逻辑 cover 掉所有自然语言中的 variation 是永远不可能的。

4.3 Out-of-distribution （OOD）Generalization & Robustness

大模型在 out-of-distribution data 上泛化的能力仍是模型实际应用中最应该关心的问题之一。

在语言中 Compositionality 关注度明显提升，在和 Luke 的聊天中他提到他们最近的 code pretrained model 规模增大的情况下 compositional generalization 也会有明显的提升，在和 Jacob Andreas 的交流中他还是强调了数据在compositionality 的作用（包括数据扩增，利用大模型生成数据等），Sash（Alexander Rush）貌似最近也对 compositionality 极感兴趣，可惜没找到机会和他聊天。

此外，利用大模型逐步 prompting 是最近比较火热的提升 compositionality 方式。更具体的细节可以看我的讲述 compositionality 的文章以及我们的两篇 NAACL 工作：十年内就能实现通用人工智能？先把组合泛化研究明白吧！

关于 Robustness，利用 out-of-distribution/perturbed data 来 attack 模型来检验或者提升模型仍然持续有文章出现（比如我们的“TableFormer：Robust Transformer Modeling for Table-Text Encoding”）。

4.4 Long Document Understanding / Generation

这里包括 Corpus / Discourse / Story / Screenplay / long dialogue/ Movie / TV series 等的理解和生成

大模型对长文本的理解和生成仍是最大的问题之一。一种解决方案是提升模型允许编码的序列长度和改进 self-attention 效率，一种是先 retrieve 出来重要的短文本再编码，另外一种就通过结构进行多层级编码或解码。在“the next big ideas”演讲中，Heng Ji 重新强调了 corpus-level IE 的重要性，Mirella Lapata 强调了故事的重要性。

4.5 Knowledge

关于在大模型时代的知识图谱（KG），Heng Ji 基本提到了可能的用法：1）To pretrained LM 2）GNN 3）Structural constraints during inference 4）Structure alignment via weak supervision and self-supervised learning。

大模型本身也可以当作知识库（生成知识）或者帮助 KG 的构建，比如 Yejin Choi 也有一系列 commonsense KG 构建和使用的工作。

Semi-parametric 的方法也成了主流之一，retrieval-augmented 的方法已经被广泛应用于理解和生成任务，这方面依然不断有有趣的工作出现，如“Training Language Models with Memory Augmentation”。

另外，“Semiparametric Methods in NLP: Decoupling Logic from Knowledge” workshop 也是我最喜欢的 workshop 之一，除了 cover 到大部分相关方向，Deepmind 提到的用 retrievel 的方式做蛋白质结构预测的工作，让许久不做 biology 的我着实眼前一亮。

4.6 Problem Definition / Dataset Creation / Evaluation

Edaurd Hovy 在 big ideas 演讲里提到了应该从问题本身思考，找出有什么 wrong/worst case/never seen cases，明白”why things go wrong”，再寻找解决方案。这也是我一直以来认为在研究和工程中应该遵循的方式，好好做 error analysis，发现问题，再对症下药。

另一方面，做 NLP 最重要的不应该是模型本身，人（human）应该调动主管能动性去更好地定义问题，构建数据集，进行更好的evaluation（evaluation仍然是generation中老大难的问题）。

『Large LM的目的：更好地为人类所用(help people instead of replacing people)』

5.1 Interactive Learning / Human-in-the-loop / Human-AI Collaboration

Eduard Hovy 在 big ideas 的演讲中提到了除了相对客观的在 LM 或者 web 中的知识（Commonsense knowledge about Schema mined from web/LM）人以及社会的知识也极为重要（Commonsense knowledge about people and people in groups：roles）。

并且人应该去指导模型达成想要的目标。我想这也是interactive learning，human-in-the-loop learning 作为热门研究话题要达到的一部分目的。比如有趣的工作有 Ensol Choi的“Simulating Bandit Learning from User Feedback for Extractive Question Answering”，以及 Yejin 提到的“Reframing human-ai collaboration for generating free-text explanations”。

5.2 SocialNLP

我老板 Diyi Yang 给的 rising star talk 详细讲述了人和社会因素应该在 NLP 中发挥更大的作用（很高兴见证终身成就奖老板 Bonnie 主持 Rising Star 老板的 talk）。另外 Diyi 的 outstanding paper “Inducing Positive Perspectives with Text Reframing”定义了“积极转述”这个很有社会影响的问题，很开心对这个工作有过微小的贡献。

5.3 Complex Tasks

随着大模型能力越来越强，可能可以做一些人类非常关心的，更复杂的，使我们成为人的任务，比如 Mirella Lapta 提到的 story understanding 和 story telling，我非常喜欢她提到的类似“stories make us human”的观点。

5.4 安全性/隐私

大模型的安全性问题仍然是重点，federated learning 在这次 ACL 中有一个workshop“Federated Learning for Natural Language Processing”。Privacy 方面也持续有文章值得关注，比如“Are Large Pre-Trained Language Models Leaking Your Personal Information?”。

5.5 Personalization

Personalization 在工业界（搜索，推荐，广告）和学术界关注度都很高，比较吃惊的是和Jason Eisner的聊天中他提到最近他也对Personalization很感兴趣并期待和工业界合作。

『结语』

Onsite Conference 的体验还是很好的，最开心的是很多 big name 在会议上有充足的时间来面对面交流，从 paper/talk/tutorial 中也学到了不少。

论文解读投稿，让你的文章被更多不同背景、不同方向的人看到，不被石沉大海，或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

EMNLP 2022 和 COLING 2022，投哪个会议比较好？

一种全新易用的基于Word-Word关系的NER统一模型

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

ACL'22 | 快手+中科院提出一种数据增强方法：Text Smoothing

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易，还望给个在看！

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

从ACL2022中看当下NLP热点和最新的有趣工作

你可能感兴趣的:(大数据,算法,编程语言,python,机器学习)