PaperWeekly

预训练语言模型论文分类整理：综述、基准数据集、PLM的设计和分析

©作者 | 王晓磊

学校 | 中国人民大学博士生

研究方向 | 对话系统

1. 引言

近年来，以 BERT 和 GPT 系列为代表的大规模预训练语言模型（Pre-trained Language Model, PLM）在 NLP 的各个领域取得了巨大成功。本文整理了自 BERT 和 GPT 诞生以来与 PLM 相关的论文，根据引用数筛选出163篇具有代表性的工作，并按照综述、基准数据集、PLM的设计、PLM的分析、高效的PLM和PLM的使用六大类型进行了初步划分。

本文整理的论文列表已经同步更新到 GitHub，也会进行持续的更新，欢迎大家关注和 Star。

https://github.com/RUCAIBox/PLMPapers

本文尽可能地在每篇论文的后面附上了 PDF 链接、代码实现和项目主页，以方便读者进一步了解相关工作。

2. 综述

"Pre-trained models for natural language processing: A survey". Science China Technological Sciences(2020)
"Which *BERT? A Survey Organizing Contextualized Encoders". EMNLP(2020)
"A Primer in BERTology: What We Know About How BERT Works". TACL(2020)
"From static to dynamic word representations: a survey". International Journal of Machine Learning and Cybernetics(2020)
"Overview of the Transformer-based Models for NLP Tasks". 2020 15th Conference on Computer Science and Information Systems (FedCSIS)
"A Survey on Contextual Embeddings". arXiv(2020)
"The NLP Cookbook: Modern Recipes for Transformer Based Deep Learning Architectures". IEEE Access(2021)
"Pre-Trained Models: Past, Present and Future". arXiv(2021)
"A Survey of Transformers". arXiv(2021)

3. 基准数据集

XNLI: "XNLI: Evaluating Cross-lingual Sentence Representations". EMNLP(2018)
GLUE: "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". ICLR(2019)
SuperGLUE: "SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems". NeurIPS(2019)
CLUE: "CLUE: A Chinese Language Understanding Evaluation Benchmark". COLING(2020)
XTREME: "XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization". ICML(2020)
XGLUE: "XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation". EMNLP(2020)
DialoGLUE: "DialoGLUE: A Natural Language Understanding Benchmark for Task-Oriented Dialogue". arXiv(2020)

4. PLM的设计

4.1 通用设计

GPT: "Improving Language Understanding by Generative Pre-Training". OpenAI(2018)
GPT-2: "Language Models are Unsupervised Multitask Learners". OpenAI(2019)
BERT: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". NAACL(2019)
XLNet: "XLNet: Generalized Autoregressive Pretraining for Language Understanding". NeurIPS(2019)
SBERT: "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks". ACL(2019)
UniLM: "Unified Language Model Pre-training for Natural Language Understanding and Generation". NeurIPS(2019)
MASS: "MASS: Masked Sequence to Sequence Pre-training for Language Generation". ICML(2019)
Chinese-BERT-wwm: "Pre-Training with Whole Word Masking for Chinese BERT". arXiv(2019)
"Cloze-driven Pretraining of Self-attention Networks". EMNLP(2019)
"BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model". Workshop on Methods for Optimizing and Evaluating Neural Language Generation(2019)
GPT-3: "Language Models are Few-Shot Learners". arXiv(2020)
T5: "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer". JMLR(2020)
BART: "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension". ACL(2020)
Poly-encoders: "Poly-encoders: Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring". ICLR(2020)
SpanBERT: "SpanBERT: Improving Pre-training by Representing and Predicting Spans". TACL(2020)
ERNIE 2.0: "ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding". AAAI(2020)
SemBERT: "Semantics-Aware BERT for Language Understanding". AAAI(2020)
"Leveraging Pre-trained Checkpoints for Sequence Generation Tasks". TACL(2020)
ProphetNet: "ProphetNet: Predicting Future N-gram for Sequence-to-SequencePre-training". EMNLP(2020)
UniLMv2: "UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training". ICML(2020)
MacBERT: "Revisiting Pre-Trained Models for Chinese Natural Language Processing". EMNLP(2020)
MPNet: "MPNet: Masked and Permuted Pre-training for Language Understanding". arXiv(2020)
DEBERTA: "DeBERTa: Decoding-enhanced BERT with Disentangled Attention". ICLR(2021)
PALM: "PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation". EMNLP(2020)

4.2 知识增强

ERNIE(Baidu): "ERNIE: Enhanced Representation through Knowledge Integration". arXiv(2019)
KnowBert: "Knowledge Enhanced Contextual Word Representations". EMNLP(2019)
ERNIE(Tsinghua): "ERNIE: Enhanced Language Representation with Informative Entities". ACL(2019)
COMET: "COMET: Commonsense Transformers for Automatic Knowledge Graph Construction". ACL(2019)
K-BERT: "K-BERT: Enabling Language Representation with Knowledge Graph". AAAI(2020)
WKLM: "Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model". ICLR(2020)
LUKE: "LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention". EMNLP(2020)
K-Adapter: "K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters". ICLR(2021)
KEPLER: "KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation". TACL(2021)

4.3 多语言

XLM: "Cross-lingual Language Model Pretraining". arXiv(2019)
"Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond". TACL(2019)
UDify: "75 Languages, 1 Model: Parsing Universal Dependencies Universally". EMNLP(2019)
Unicoder: "Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks". EMNLP(2019)
XLM-R: "Unsupervised Cross-lingual Representation Learning at Scale". ACL(2020)
"Multilingual Alignment of Contextual Word Representations". ICLR(2020)
mBART: "Multilingual Denoising Pre-training for Neural Machine Translation". TACL(2020)
mT5: "mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer". NAACL(2021)
InfoXLM: "InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training". NAACL(2021)

4.4 多模态

ViLBERT: "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks". NeuralIPS(2019)
LXMERT: "LXMERT: Learning Cross-Modality Encoder Representations from Transformers". EMNLP(2019)
VideoBERT: "VideoBERT: A Joint Model for Video and Language Representation Learning" ICCV(2019)
MulT: "Multimodal Transformer for Unaligned Multimodal Language Sequences". ACL(2019)
VisualBERT: "VisualBERT: A Simple and Performant Baseline for Vision and Language". arXiv(2019)
B2T2: "Fusion of Detected Objects in Text for Visual Question Answering". EMNLP(2019)
VL-BERT: "VL-BERT: Pre-training of Generic Visual-Linguistic Representations". ICLR(2020)
Unicoder-VL: "Unicoder-VL: A Universal Encoder for Vision and Language by Cross-Modal Pre-Training". AAAI(2020)
VLP: "Unified Vision-Language Pre-Training for Image Captioning and VQA". AAAI(2020)
UNITER: "UNITER: UNiversal Image-TExt Representation Learning". ECCV(2020)
Oscar: "Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks". ECCV(2020)
"12-in-1: Multi-Task Vision and Language Representation Learning". CVPR(2020)
ActBERT: "ActBERT: Learning Global-Local Video-Text Representations". CVPR(2020)
VLN: "Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Tasks". CVPR(2020)
VILLA: "Large-Scale Adversarial Training for Vision-and-Language Representation Learning". arXiv(2020)
ImageBERT: "ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data". arXiv(2020)
ALIGN: "Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision". ICML(2021)
ClipBERT: "Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling". CVPR(2021)
DALL·E: "Zero-Shot Text-to-Image Generation". arXiv(2021)
CLIP: "Learning Transferable Visual Models From Natural Language Supervision". arXiv(2021)

4.5 信息检索

ORQA: "Latent Retrieval for Weakly Supervised Open Domain Question Answering". ACL(2019)
REALM: "REALM: Retrieval-Augmented Language Model Pre-Training". arXiv(2020)
RAG: "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". NeurIPS(2020)
DPR: "Dense Passage Retrieval for Open-Domain Question Answering". EMNLP(2020)

5. PLM的分析

5.1 知识

"What Does BERT Look at? An Analysis of BERT’s Attention". BlackBoxNLP(2019)
"BERT Rediscovers the Classical NLP Pipeline". ACL(2019)
"How Multilingual is Multilingual BERT?". ACL(2019)
"A Structural Probe for Finding Syntax in Word Representations". NAACL(2019)
"Language Models as Knowledge Bases?". EMNLP(2019)
"What Does BERT Learn about the Structure of Language?". ACL(2019)
"Linguistic Knowledge and Transferability of Contextual Representations". NAACL(2019)
"Assessing BERT's Syntactic Abilities". arXiv(2019)
"Probing Neural Network Comprehension of Natural Language Arguments" ACL(2019)
"How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings". EMNLP(2019)
"Visualizing and Measuring the Geometry of BERT". NeurIPS(2019)
"Designing and Interpreting Probes with Control Tasks". EMNLP(2019)
"Open Sesame: Getting inside BERT’s Linguistic Knowledge". BlackboxNLP(2019)
"What do you learn from context? Probing for sentence structure in contextualized word representations". ICLR(2019)
"Commonsense Knowledge Mining from Pretrained Models". EMNLP(2019)
"Do NLP Models Know Numbers? Probing Numeracy in Embeddings". EMNLP(2019)
"On the Cross-lingual Transferability of Monolingual Representations". ACL(2020)
"Cross-Lingual Ability of Multilingual BERT: An Empirical Study". ICLR(2020)
"What BERT Is Not: Lessons from a New Suite of Psycholinguistic Diagnostics for Language Models". TACL(2020)
"How Much Knowledge Can You Pack Into the Parameters of a Language Model?". EMNLP(2020)
"How Can We Know What Language Models Know?". TACL(2020)
"oLMpics-On What Language Model Pre-training Captures". TACL(2020)
"Information-Theoretic Probing with Minimum Description Length". EMNLP(2020)
"Inducing Relational Knowledge from BERT". AAAI(2020)
AutoPrompt: "AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts". EMNLP(2020)
"Emergent linguistic structure in artificial neural networks trained by self-supervision". PNAS(2020)
"Evaluating Commonsense in Pre-Trained Language Models". AAAI(2020)
"Inducing Relational Knowledge from BERT". AAAI(2020)

5.2 鲁棒性

"Universal Adversarial Triggers for Attacking and Analyzing NLP". EMNLP(2019)
"Pretrained Transformers Improve Out-of-Distribution Robustness". ACL(2020)
BERT-ATTACK: "BERT-ATTACK: Adversarial Attack Against BERT Using BERT". EMNLP(2020)
"Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment". AAAI(2020)

5.3 稀疏性

"Are Sixteen Heads Really Better than One?". NeurIPS(2019)
"Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned". ACL(2019)
"Revealing the Dark Secrets of BERT". EMNLP(2019)
"The Lottery Ticket Hypothesis for Pre-trained BERT Networks". NeurIPS(2020)
"When BERT Plays the Lottery, All Tickets Are Winning". EMNLP(2020)

5.4 其他

"Scaling Laws for Neural Language Models". arXiv(2020)
"Extracting Training Data from Large Language Models". arXiv(2020)

6. 高效的PLM

6.1 模型训练

RoBERTa: "RoBERTa: A Robustly Optimized BERT Pretraining Approach". arXiv(2019)
"Efficient Training of BERT by Progressively Stacking". ICML(2019)
Megatron-LM: "Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism". arXiv(2019)
ELECTRA: "ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators". ICLR(2020)
"Large Batch Optimization for Deep Learning: Training BERT in 76 minutes". ICLR(2020)
GShard: "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv(2020)
Admin: "Understanding the Difficulty of Training Transformers". EMNLP(2020)
ZeRO: "ZeRO: Memory optimizations Toward Training Trillion Parameter Models". SC20: International Conference for High Performance Computing, Networking, Storage and Analysis
Switch Transformers: "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity". arXiv(2021)

6.2 模型压缩

DistilBERT: "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter". arXiv(2019)
PKD: "Patient Knowledge Distillation for BERT Model Compression". EMNLP(2019)
"Distilling Task-Specific Knowledge from BERT into Simple Neural Networks". arXiv(2019)
Q8BERT: "Q8BERT: Quantized 8Bit BERT". 5th Workshop on Energy Efficient Machine Learning and Cognitive Computing - NeurIPS 2019
ALBERT: "ALBERT: A Lite BERT for Self-supervised Learning of Language Representations". ICLR(2020)
TinyBERT: "TinyBERT: Distilling BERT for Natural Language Understanding". EMNLP(2020)
Layerdrop: "Reducing Transformer Depth on Demand with Structured Dropout". ICLR(2020)
Q-BERT: "Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT". AAAI(2020)
MobileBERT: "MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices". ACL(2020)
"Compressing BERT: Studying the Effects of Weight Pruning on Transfer Learning". 5th Workshop on Representation Learning for NLP(2020)
MiniLM: "MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers". arXiv(2020)
FastBERT: "FastBERT: a Self-distilling BERT with Adaptive Inference Time". ACL(2020)
DeeBERT: "DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference". ACL(2020)

7. PLM的使用

7.1 两阶段

"Sentence Encoders on STILTs: Supplementary Training on Intermediate Labeled-data Tasks". arXiv(2018)
"How to Fine-Tune BERT for Text Classification?". CCL(2019)
"Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks". ACL(2020)
"Intermediate-Task Transfer Learning with Pretrained Language Models: When and Why Does It Work?". ACL(2020)

7.2 多任务

MT-DNN: "Multi-Task Deep Neural Networks for Natural Language Understanding". ACL(2019)
"BAM! Born-Again Multi-Task Networks for Natural Language Understanding". ACL(2019)
"Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding". arXiv(2019)

7.3 Adapter

"BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning". ICML(2019)
Adapter: "Parameter-Efficient Transfer Learning for NLP". ICML(2019)

7.4 Prompt

PET: "Exploiting Cloze-Questions for Few-Shot Text Classification and Natural Language Inference". EACL(2021)
"It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners". NAACL(2021)
"Prefix-Tuning: Optimizing Continuous Prompts for Generation". arXiv(2021)
LM-BFF: "Making Pre-trained Language Models Better Few-shot Learners". ACL(2021)
"What Makes Good In-Context Examples for GPT-3?". arXiv(2021)
"The Power of Scale for Parameter-Efficient Prompt Tuning". arXiv(2021)

7.5 其他

"To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks". RepL4NLP(2019)
"An Embarrassingly Simple Approach for Transfer Learning from Pretrained Language Models". NAACL(2019)
"Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping". arXiv(2020)
SMART: "SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization". EMNLP(2020)
"Revisiting Few-sample BERT Fine-tuning". ICLR(2021)

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

你可能感兴趣的:(人工智能,css,项目管理,github,搜索引擎)

CSS实现前端响应式布局
一、响应式布局概述响应式布局的定义与重要性响应式布局是一种能够使网页在不同设备上（如桌面电脑、平板电脑、手机等）都能呈现出良好视觉效果和用户体验的设计方法。它通过使用灵活的布局、可适应的图像和媒体查询等技术，确保网页能够根据设备的屏幕尺寸、分辨率和方向进行自动调整和优化。在当今数字化时代，响应式布局至关重要。随着移动设备的广泛使用，用户越来越多地通过各种设备访问网页。如果网页不能在不同设备上良好地
【国内超大型智能算力中心建设白皮书 2024】 AI大模型 lose and dream 人工智能开源 git 开源软件 github gitlab 开放原子
文末有福利！智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构（一）总体架构图8智算中心总体架构智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
我在黑马程序员学web前端新手来了@click 前端
1网页由三部分组成1.、html负责网页的结构2.css、负责网页的美化，控制网页元素的样式3、js，负责网页交互html常见的标签：1、form表单input输入框select下拉菜单option下拉列表2、table表格thead表头ｔｂｏｄｙ是表体tr行th表头加粗ｔｄ是列ｂｒ是换行2/CＳＳ常见的三种引入方式行内样式、内部样式、外部样式用ｌｉｎｋ关键字常用的元素选择器：标签选择器、id选择
米信使股票群诈骗真相！郑洪盛国浩盟国一带一路项目就是资金盘不要被骗了！不成功不收费
讲述:郑洪盛国浩盟国慈善投票被骗无法出金真相！套路太深教你该如何避！！骗子引诱人上当方式很简单：先给你一点甜头尝尝，一开始入金能正常提现，也能赚一点，但当投入更多钱时，你发现你的运气开始变差了。所以，荐股类骗局最大的迷惑性是：给受害人一种假象，你是投资亏损的，而不是被骗的！广大市民对此要提高警惕，如果是还没有投资，千万不要抱有侥幸心理，一定要及时远离！一定不要打草惊蛇低碳项目数字体育，人工智能ai
后端校招 | 高分简历 + 高频 C++ 面试题整理（附GitHub题库推荐）壹張先森 c++java 开发语言
一、为什么专门做一期C++面试题分享？我发现很多后端同学在面试准备时：Java岗位题资源非常多但C++后端面试内容分散、缺少整合所以我整理了GitHub上高频C++后端面试题+答案解析，今天精选5道送给你：二、精选高频C++面试题（附答题技巧）1.new和malloc的区别？特性newmalloc返回类型指定类型指针void*构造函数会调用构造函数不会调用释放方式deletefree重载支持支持重
CSS样式中的布局、字体、响应式布局
目录一、使用内联块级元素布局二、使用float布局三、使用弹性盒子布局四、服务器字体五、响应式布局相关文章积累CSS样式属性：padding、margin、display:flex、font、position、cursor、:hover、:nth-child()、border-radius一、使用内联块级元素布局让想要横着的元素（left、mid、right）变成内联块级元素。示例leftmidr
前端学习路线推荐 oldfifteen
第一阶段：HTML+CSS:HTML进阶、CSS进阶、div+css布局、HTML+css整站开发、JavaScript基础：Js基础教程、js内置对象常用方法、常见DOM树操作大全、ECMAscript、DOM、BOM、定时器和焦点图。JS基本特效：常见特效、例如：tab、导航、整页滚动、轮播图、JS制作幻灯片、弹出层、手风琴菜单、瀑布流布局、滚动事件、滚差视图。JS高级特征：正则表达式、排序算
Jenkins credentials 增加了github credential 但是在Git SCM 凭证中不显示
不能直接选择secrettext类型，选择usernamewithpassword类型username填github用户名password填在GitHubdevelopersetting中生成的accesstoken
git 使用笔记鸟它鸟
git配置命令配置描述用户gitconfig--globaluser.name"liangjiapengjetson"别名配置gitconfig--globalalias.cicommit配置commit的别名为ci也可以直接再~/.gitconfig下进行配置,在[alias]标识下编写即可,例如ci=commitgit操作命令克隆github仓库到本地[email protected]
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
MJExtension AlanGe
MJExtension：https://github.com/CoderMJLee/MJExtensionExamples【示例】AddMJKeyValueprotocoltoyourmodelifneeded【如果有需要,请在模型中加入MJKeyValue协议】ThemostsimpleJSON->Model【最简单的字典转模型】typedefenum{SexMale,SexFemale}Sex
解决引入TransXNet模块后显存爆炸问题的全面指南 pk_xz123456 算法大数据 python 机器人数据挖掘深度学习
解决引入TransXNet模块后显存爆炸问题的全面指南前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.问题背景与现状分析1.1MF-PSN和TransXNet项目概述MF-PSN（Multi-FeaturePyramidStereoNetwork）是一个基于金字塔特征的多特征立体匹配网络，它通过构建多层次的特征金字塔来处理不同尺度的立体匹配问题
WEB：DOM （一）基础概念 —— 节点与选择重生之我是Java开发战士 WEB 前端
文章目录一、DOM核心概念解析1.1什么是DOM？1.2DOM与HTML的关系二、DOM节点（Node）详解2.1节点类型2.2节点的基本属性2.3元素节点特有的属性和方法三、DOM选择与访问3.1传统选择方法3.1.1getElementById()3.1.2getElementsByTagName()3.1.3getElementsByClassName()3.2现代选择方法（CSS选择器）3
人工智能时代下的数据新职业：新兴工作岗位版图研究司南锤 economics 人工智能
目录摘要第一章：AI驱动的数据价值链重构1.1从“沉睡金矿”到“流动的血液”：数据作为核心经济资产的激活1.2知识的新经济学：零边际成本革命1.3AI作为新的“操作系统”：重塑产业竞争格局第二章：基石层：数据准备与质量保障中的角色2.1数据标注与标签领导力：数据标注经理/主管2.2“地面真实”的守护者：AI数据质量专家第三章：技术核心层：构建AI与机器学习全生命周期的工程角色3.1AI生产线架构师
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
2025前端面试题全攻略：高频考点解析与实战指南
助力金三银四跳槽季，覆盖90%大厂核心考点，技术进阶+面试技巧双提升一、HTML/CSS核心篇1.语义化与布局实战问题1：如何用HTML5语义化标签优化新闻详情页？答案要点：使用包裹主体内容，划分章节标记发布时间，+处理图文SEO优势：提升关键内容权重，增强可访问性问题2：实现等间距三栏布局（中间自适应）.container{display:flex;gap:20px;/*关键：替代margin方
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
CSS 单位完全指南：掌握 em、rem、vh、vw 等响应式布局核心单位编程随想▿ CSS css 前端 html 网页布局
目录一、绝对单位vs相对单位二、核心相对单位详解1.em单位2.rem单位（Rootem）3.vh与vw单位4.vmin与vmax单位三、实战应用场景对比五、专家建议与最佳实践六、总结一、绝对单位vs相对单位绝对单位（如px）固定不变，而相对单位则基于其他参考值动态计算，更适合响应式设计：/*绝对单位示例*/.fixed-size{width:300px;/*始终为300像素*/}/*相对单位示例
前端实现抛物线小球动画效果：从原理到代码实践编程随想▿ 前端抛物线 JS vue react.js
目录引言一、抛物线动画的核心原理二、纯HTML/CSS实现抛物线动画1.HTML结构2.CSS动画3.效果说明三、动态交互：JavaScript实现抛物线动画1.HTML结构2.JavaScript逻辑3.效果说明四、Vue.js实现抛物线动画1.组件结构2.实现思路五、React实现抛物线动画1.组件代码2.实现思路六、注意事项七、总结引言在前端开发中，动画效果是提升用户体验的重要手段之一。抛物
HTTPS协议的应用场景分析 Arwen303 https 网络协议 http
HTTPS协议的应用场景分析一、Web服务与交互网页浏览场景：用户通过浏览器访问各类网站（如门户网站、资讯平台），传输HTML、CSS、JavaScript等静态资源。应用：主流网站普遍采用HTTPS，确保页面内容安全加载。例如，Wikipedia、新浪等站点通过HTTPS防止内容被篡改。安全需求：防止页面被中间人劫持植入恶意广告或脚本。在线表单与用户登录场景：用户提交注册表单、登录账号时传输用户
Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
Android高级技能(一)：CI/CD与自动化构建半夜偷你家裤衩子 Android android ci/cd 自动化
摘要当应用开发进入成熟阶段，手动进行构建、测试和发布将变得效率低下且容易出错。持续集成(CI)和持续部署(CD)是现代化软件开发的标准实践，能极大地提升开发效率和应用质量。本文将深入探讨如何在Android项目中实施CI/CD流程，内容涵盖Git工作流、Gradle高级自动化以及如何利用Jenkins或GitHubActions搭建自动化流水线。目录CI/CD核心理念什么是持续集成(Continu
Android源码导入Android Studio CYRUS STUDIO android android studio ide
版权归作者所有，如有转发，请注明文章出处：https://cyrus-studio.github.io/blog/前言需要先把Android源码编译一遍然后执行下面指令就可以导入android源码了关于Android源码编译可以参考这篇文章【LineageOS源码下载和编译（XiaomiMi6X，wayne）】。生成android.ipr文件1.进入到下面的目录cd./development/to
nuc10黑苹果无法wifi上网
家里小书房重新整理了下，也想放一台mac台式机用来工作学习，可惜公司已经有一台macmini，手头又有macpro，实在不好意思再购一台mac台式机。就打算重新把nuc10安装黑苹果。具体的nuc10黑苹果安装参考https://zhuanlan.zhihu.com/p/146191643安装好了后，一切都正常，就是没有wifi。这里记录下解决方案：下载wifi驱动https://github.c
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
OracleERP云软件二次开发：业务流程管理与自定义教程 kkchenjj 工业软件二次开发全集工业软件 ERP 数据库开发语言
OracleERP云软件二次开发：业务流程管理与自定义教程OracleERP云平台概览OracleERP云平台架构OracleERPCloud采用了一种多层架构设计，旨在提供高度可扩展、安全且灵活的云解决方案。其架构主要分为以下几个层次：用户界面层：提供直观的用户界面，支持多种设备访问，包括桌面、平板和手机。这一层利用了现代Web技术，如HTML5、CSS3和JavaScript，确保了良好的用户
LeetCode 77 Java实现零一魔法 LeetCode java leetcode 开发语言算法
1.题目原题链接：77.组合-力扣（LeetCode）:https://leetcode.cn/problems/combinations/给定两个整数n和k，返回范围[1,n]中所有可能的k个数的组合。（可以按任何顺序返回答案）示例输入：n=4,k=2输出：[[2,4],[3,4],[2,3],[1,2],[1,3],[1,4],]2.题解参考//https://github.com/cc01c
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu