PaperWeekly

COLING 2022 | CogBERT：脑认知指导的预训练语言模型

©作者 | 陈薄文

单位 | 哈尔滨工业大学

来源 | 哈工大SCIR

论文标题：

CogBERT：Cognition-Guided Pre-trained Language Model

论文作者：

丁效，陈薄文，杜理，秦兵，刘挺

论文链接：

https://aclanthology.org/2022.coling-1.284.pdf

介绍

本文研究了利用认知语言处理信号（如眼球追踪或 EEG 数据）指导 BERT 等预训练模型的问题。现有的方法通常利用认知数据对预训练模型进行微调，忽略了文本和认知信号之间的语义差距。为了填补这一空白，我们提出了 CogBERT 这个框架，它可以从认知数据中诱导出细粒度的认知特征，并通过自适应调整不同 NLP 任务的认知特征的权重将认知特征纳入 BERT。

实验结果表明：1）认知指导下的预训练模型在 10 个 NLP 任务上可以一致地比基线预训练模型表现更好；2）不同的认知特征对不同的 NLP 任务有不同的贡献。基于这一观察，我们给出为什么认知数据对自然语言理解有帮助的一个细化解释；3）预训练模型的不同 transformer 层应该编码不同的认知特征，词汇级的认知特征在 transformer 层底部，语义级的认知特征在 transformer 层顶部；4）注意力可视化证明了 CogBERT 可以与人类的凝视模式保持一致，并提高其自然语言理解能力。

▲ 图1. 人类眼球动作捕捉数据示意图

背景与简介

随着预训练模型的出现，当代人工智能模型在诸多任务上得到了超越人类的表现。随着预训练模型取得越来越好的结果，但是研究人员对于预训练模型却并没有知道更多。

另一方面，从语言处理的角度来看，认知神经科学研究人类大脑中语言处理的生物和认知过程。研究人员专门设计了预训练的模型来捕捉大脑如何表示语言的意义。之前的工作主要是通过明确微调预训练的模型来预测语言诱导的大脑记录，从而纳入认知信号。

然而，前人基于认知的预训练模型的工作，其思路无法对认知数据为何对 NLP 有帮助进行精细的分析和解释。而这对于指导未来的认知启发式 NLP 研究，即应该从认知数据中诱导出什么样的认知特征，以及这些认知特征如何对 NLP 任务做出贡献，具有重要意义，否则这只是相当于往预训练模型加入更多的数据，而对认知数据如何帮助预训练模型任然知之甚少。

例如，图 1 显示了以英语为母语的人的眼球追踪数据，其中图 1(a) 说明了人类正常阅读时的关注次数。图 2(b) 和 (c) 分别显示了在 NLP 任务中的情感分类（SC）和命名实体识别（NER）的关注次数。我们可以看到，对于同一个句子，在不同的 NLP 任务下，人类的注意力是不同的。特别是，对于情感分类任务，人们更关注情感词，如``terrible'和``chaos'。而对于 NER 任务，人们倾向于关注命名的实体词，如``ISIS'和``Syria'。但是先前的研究不能通过简单地在认知数据上微调预先训练好的模型来给出这种细粒度的分析。

为了促进这一点，我们提出了 CogBERT，一个认知指导的预训练模型。具体来说，我们专注于使用眼球追踪数据的效果，该数据通过追踪眼球运动和测量固定时间来提供母语者的凝视信息。我们没有直接在认知数据上对 BERT 进行微调，而是首先根据认知理论提取心理语言学特征。

然后，我们在眼动数据中过滤掉统计学上不重要的特征（这意味着具有这些特征的单词的人类注意力并不明显高于/低于单词的平均注意力）。随后，我们通过在不同的 NLP 任务上进行微调，将这些经过认知验证的特征纳入 BERT。在微调过程中，我们将根据不同的 NLP 任务，为每一类特征学习不同的权重。

方法

本文的方法主要基于一个二阶段的过程，其中一个阶段被用来产生基于认知的特征模板，第二个阶段在于将这些认知启发的特征模板通过特殊设定的架构融入预训练模型当中。

3.1 方法

心理语言学研究表明 [1]，人类阅读能力的获得体现在两个方面。底层线索 (ower strands) 和高层线索 (upper strands)。底层线索（包括语音学、形态学等）随着阅读者的重复和练习而变得准确和自动。同时，高层线索（包括语言结构、语义等）相互促进，并与底层线索交织在一起，形成一个熟练的读者。即意味着，人类本质上的语言习得能力，其中一个重要的关键是对文本中的一系列特征进行越来越熟练的提取和识别。

这意味着，人类的眼球动作行为一定程度上可以被语言特征所反应，受以往工作的启发，我们构建了一个初始的认知特征集，包括使用 spaCy 工具 [2] 从文本中提取的 46 个细粒度的认知特征，并将其分为下层特征（词级）和上层特征（语义/语法级）。我们对这 46 种语言特征进行了广泛的统计显著性分析，找到了其中 14 个对于人类眼球动作有显著影响的特征，并根据特征特点，将其分为了上层特征和下层特征，展示在下表 1 当中。

▲ 表1. 特征层级分类图

3.2 加权认知特征向量学习

▲ 图2. 加权认知特征向量学习模型

我们可以通过使用 spaCy 工具从文本中提取特征。然而，这些特征不应该被赋予相同或随机的权重，因为它们对适应人类对句子的理解的贡献是不同的。因此，如图 2 所示，给定一个输入句子，我们训练一个四层的 Bi-LSTM [3]，将每个单词嵌入到一个加权的八维认知特征向量。根据前述的心里语言学理论，我们认为认知特征可以解释人类眼动信息的分配。因此，我们使用眼球追踪数据（Zuco 1.0、Zuco 2.0 和 Geco）[4,5,6] 的眼球动作信息中的关注次数 (nFix) 作为监督信号来训练 Bi-LSTM 模型。

这部分的目的在实践上实现前述所提到的理论，即人类的阅读行为可以被特征解释，同样的，在模型层面上即意味着，模型要学会去利用语言特征的组合去逼近人类的阅读行为。但是在本模型中，所需要的本不是最后对于眼球动作数据的逼近，而是需要其中通过眼球动作数据学来的特征向量。

3.3 特征向量融入预训练语言模型

▲ 图3. 特征向量融入预训练语言模型

如图 3(a) 所示，对于每个有单词的输入句子，我们可以从 Bi-LSTM 模型中获得其对应的特征矩阵。对于每个底层特征（即词长、词位、NER 和内容词），我们可以从 Bi-LSTM 模型中为其生成一个初始特征向量，随后这些特征向量将会被对角化放在一个矩阵的对角线上。

对于每个上层特征（即 NP chunk、情感词、Mod\&Aux 和 Obj\&Comp），我们可以从 Bi-LSTM 模型中分别为其生成一个初始的特征矩阵。如果相邻的词组成了一个上层特征，它在特征矩阵中的值是由 Bi-LSTM 模型得到的相邻词的平均特征得分，而其余数值都填为 0。同时对于每一个特征，会有一个经由高斯采样出的权重每个特征进行放缩，用来提来该特征在该条数据或者任务当中的重要性。

经由上述过程生成的特征矩阵经过放缩后分别被卷积神经网络进行处理用于提取特征形成基于特征的注意力矩阵，同时为了保留原始的模型注意力信息和特征的注意力矩阵，本文添加了一个门控向量，该向量会分别与模型原本的注意力矩阵和特征注意力矩阵进行相乘并求和，求得一个原注意力矩阵和当前注意力矩阵的线性加权。

同时可以注意到，本模型当中，底层特征将会融入在预训练模型的底层，而高层特征则会融入在预训练模型的高层。

实验及分析

4.1 数据集

本文在多个数据集上进行了大量的实验，实验结果包括了 GLUE Benchmark [7], CoNLL2000 Chunking [8] 以及 Eye-tracking [9] 和模型本身的一些分析。

4.2 基线方法

1. BERT 不进行迁移，直接在目标领域上进行预测。RoBERTa 微调源领域模型的全部参数进行领域适应；

2. fMRI-EEG-BERT 一种认知数据增强的预训练语言模型，利用了核磁共振与脑电磁场数据；

3. Eye-tracking BERT 一种认知数据增强的预训练语言模型，利用了眼球动作捕捉进行微调后再在下游任务上微调；

4. CogBERT (Random) 本论文所提出的模型，但是特征分数并未经由一阶段进行生成，而是随机生成的。

4.3 实验结果与分析

如表 2 所示，本文所提出的模型能够在所有任务上超越模型的原本基线，同时超越大多数的认知增强的预训练语言模型，并能够在大多数任务上达到或者超越经由语法增强的预训练语言模型，体现了本文所提出模型的有效性。

▲ 表2. GLUE Benchmark实验结果

在 CoNLL 2000 Chunking 的数据集上，本文提出的模型可以超越 BERT 基线模型，同时本文提出的模型还可以超越先前专门用于序列标注而设计的模型。体现了认知增强的模型可以被用在广泛的自然语言处理任务上。

▲ 表3. CoNLL2000 Chunking实验结果

同时，本文也在认知相关任务上进行了测试。在眼动数据预测的任务当中，本文所提出的模型可以在英语和荷兰语的数据上超越相应的基线模型。同时由于本文模型是基于 BERT 单语言版本，实验证明我们的模型也能够超越 BERT 多语言版本，同时能够超越 XLM-17 这一在 17 种语言上预训练的模型，最终能以仅单语言的模型版本达到可比或者超越 XLM-100 这一在 100 种语言上预训练的模型。证明了融入认知数据对于认知任务具有强力的增益。

▲ 表4. Eye-tracking Prediction实验结果

在对于模型本身的分析方面，首先展示在模型学习中不同任务里，不同特征所得到的权重。在 COLA（语法可接受性）上，本文的模型对语法相关特征给出了高权值。在 MRPC（转述句识别）上，模型认为命名实体是最为重要的特征，即可能如果两个句子并不在描述同一个实体，那么两个句子大概率不是转述句。在 RTE（文本蕴含）中，模型认为名词短语是最为重要的特征，这可能意味着如果两个句子具有类似的名词短语结构，那么两个句子具有较大的概率是蕴含关系。在 CoNLL 2000 Chunking 和 CoNLL 2003 NER 任务当中，模型可以很直观的给出名词短语和实体词为最重要特征，符合了任务的设计。

▲ 表5. 特征权重分析实验结果

我们观察到，替换下层或上层的认知特征会降低模型的性能，而去除所有层的认知特征会进一步影响模型的性能。我们还注意到，尽管可读性对于我们的模型来说没有认知特征那么重要，但去除它也会损害模型的性能。不分层的融入特征意味着我们将所有的特征整合到 BERT 的每一层，不分层的糟糕表现表明，以分层的方式整合特征是认知引导的 NLP 的一个有效方法。

▲ 表6. 消融实验结果

在本文中，由于下层特征融入到预训练模型的底层，而上层特征融入到高层当中，因此有必要去寻找合适的分层边界。本文量化地讨论了 BERT 的哪一层应该是下层和上层认知特征的边界，并对 SST2、MRPC、QNLI 和 STS-B 任务的开发集进行了比较实验，并在图中说明了结果。Y 轴是不同 NLP 任务的性能。X 轴是层数。例如，如果层数为 6，我们将下层的认知特征纳入 BERT 的 1-6 层，将上层的认知特征纳入其余层。

研究发现，当层数边界在 4 左右时，所有任务都达到了最佳性能，这意味着 BERT 的低层更适合纳入下层认知特征，而当我们将上层认知特征纳入更高的层数时，它们更有用。这些结果可以有效地指导未来认知强化预训练模型的研究，同时也进一步验证了前人关于预训练模型的相关研究 [10]。

▲ 图4. 任务表现与特征层数分析图

为了定性地分析我们方法的有效性，我们将 CogBERT 的注意力可视化，并与 BERT 和人类进行比较。我们从 SST2、NER 和 MRPC 任务中选择案例。为了与人类的认知进行比较，给定一个特定的 NLP 任务，我们要求四个注释者在阅读句子时突出他们的注意词。对于 BERT 和 CogBERT，我们从预训练模型的较高层次中选择注意力得分，这可以捕捉到任务的特定特征。SST2 和 NER 的注意力可视化图。

图 (a) 展示了 CoNLL-2003 NER 任务的注意力可视化，说明 CogBERT 像人类一样对 NER 词 "Asian Cup"、"Japan"和 "Syria"给予了更多的关注，而 BERT 对这些词的关注很少。图 (b) 说明了 SST2 任务的注意力可视化，显示 CogBERT 捕获了关键的情感词`fun'和`okay'，而这两个词从人类的判别行为来说对人类的判断也很重要。

相比之下，BERT 未能关注这些词。这些实验结果表明，尽管预训练模型在众多 NLP 任务中取得了可喜的改进，但它们离人类智能的水平还很远。通过学习人类阅读中的注意力机制，认知引导的预训练模型可以提供一种接近人类认知的有效方法。

▲ 图5. 注意力可视化

结论

我们提出了 CogBERT，一个能够有效地将认知信号纳入预训练模型的框架。实验结果表明，CogBERT 在多个 NLP 基准数据集上取得了超越基线的结果，同时模型表明证明对认知任务同样有用。分析表明，CogBERT 可以自适应地学习特定任务的认知特征权重，从而对认知数据在 NLP 任务中的工作方式做出精细的解释。这项工作为学习认知增强的预训练模型提供了一个新的方法，广泛阐述的实验可以指导未来的研究。

参考文献

[1] H.S. Scarborough, F. Fletcher-Campbell, Janet Soler, and G. Reid. 2009. Connecting early language and literacy to later reading (dis)abilities: Evidence, theory, and practice. Approaching difficulties in literacy development: assessment, pedagogy, and programmes.

[2] Matthew Honnibal and Ines Montani. 2017. spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing.

[3] Hochreiter, Sepp & Schmidhuber, Jürgen. (1997). Long Short-term Memory. Neural computation. 9. 1735-80. 10.1162/neco.1997.9.8.1735.

[4] Nora Hollenstein, Jonathan Rotsztejn, Marius Troen-dle, Andreas Pedroni, Ce Zhang, and Nicolas Langer. 2018. Zuco, a simultaneous eeg and eye-tracking re- source for natural sentence reading. Scientific Data, 5:180291.

[5] Nora Hollenstein, Marius Troendle, Ce Zhang, and Nicolas Langer. 2020. Zuco 2.0: A dataset of physiological recordings during natural reading and annotation.

[6] Uschi Cop, Nicolas Dirix, Denis Drieghe, and Wouter Duyck. 2016. Presenting geco: An eyetracking corpus of monolingual and bilingual sentence reading. Behavior Research Methods, 49.

[7] Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R. Bowman. 2019. GLUE: A multi-task benchmark and analysis platform for natural language understanding. In the Proceedings of ICLR.

[8] Erik Sang and Sabine Buchholz. 2000. Introduction to the conll-2000 shared task: Chunking. Proc of CoNLL-2000 and LLL-2000.

[9] Nora Hollenstein, Federico Pirovano, Ce Zhang, Lena Jäger, and Lisa Beinborn. 2021. Multilingual language models predict human reading behavior.

[10] Ian Tenney, Dipanjan Das, and Ellie Pavlick. 2019.BERT rediscovers the classical NLP pipeline. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4593–4601, Florence, Italy. Association for Computational Linguistics.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

COLING 2022 | CogBERT：脑认知指导的预训练语言模型

介绍

结论

你可能感兴趣的:(可视化,大数据,自然语言处理,编程语言,python)