zenRRan

预训练语言模型论文分类整理

点击下面卡片，关注我呀，每天给你送来AI技术干货！

机构｜中国人民大学高瓴人工智能学院博士生

导师｜赵鑫教授

研究方向 | 对话系统

1. 引言

近年来，以 BERT 和 GPT 系列为代表的大规模预训练语言模型（Pre-trained Language Model, PLM）在 NLP 的各个领域取得了巨大成功。本文整理了自 BERT 和 GPT 诞生以来与 PLM 相关的论文，根据引用数筛选出163篇具有代表性的工作，并按照综述、基准数据集、PLM的设计、PLM的分析、高效的PLM和PLM的使用六大类型进行了初步划分。

本文整理的论文列表已经同步更新到 GitHub，也会进行持续的更新，欢迎大家关注和 Star。

https://github.com/RUCAIBox/PLMPapers

本文尽可能地在每篇论文的后面附上了 PDF 链接、代码实现和项目主页，以方便读者进一步了解相关工作。

2. 综述

"Pre-trained models for natural language processing: A survey". Science China Technological Sciences(2020)
"Which *BERT? A Survey Organizing Contextualized Encoders". EMNLP(2020)
"A Primer in BERTology: What We Know About How BERT Works". TACL(2020)
"From static to dynamic word representations: a survey". International Journal of Machine Learning and Cybernetics(2020)
"Overview of the Transformer-based Models for NLP Tasks". 2020 15th Conference on Computer Science and Information Systems (FedCSIS)
"A Survey on Contextual Embeddings". arXiv(2020)
"The NLP Cookbook: Modern Recipes for Transformer Based Deep Learning Architectures". IEEE Access(2021)
"Pre-Trained Models: Past, Present and Future". arXiv(2021)
"A Survey of Transformers". arXiv(2021)

3. 基准数据集

XNLI: "XNLI: Evaluating Cross-lingual Sentence Representations". EMNLP(2018)
GLUE: "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". ICLR(2019)
SuperGLUE: "SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems". NeurIPS(2019)
CLUE: "CLUE: A Chinese Language Understanding Evaluation Benchmark". COLING(2020)
XTREME: "XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization". ICML(2020)
XGLUE: "XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation". EMNLP(2020)
DialoGLUE: "DialoGLUE: A Natural Language Understanding Benchmark for Task-Oriented Dialogue". arXiv(2020)

4. PLM的设计

4.1 通用设计

GPT: "Improving Language Understanding by Generative Pre-Training". OpenAI(2018)
GPT-2: "Language Models are Unsupervised Multitask Learners". OpenAI(2019)
BERT: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". NAACL(2019)
XLNet: "XLNet: Generalized Autoregressive Pretraining for Language Understanding". NeurIPS(2019)
SBERT: "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks". ACL(2019)
UniLM: "Unified Language Model Pre-training for Natural Language Understanding and Generation". NeurIPS(2019)
MASS: "MASS: Masked Sequence to Sequence Pre-training for Language Generation". ICML(2019)
Chinese-BERT-wwm: "Pre-Training with Whole Word Masking for Chinese BERT". arXiv(2019)
"Cloze-driven Pretraining of Self-attention Networks". EMNLP(2019)
"BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model". Workshop on Methods for Optimizing and Evaluating Neural Language Generation(2019)
GPT-3: "Language Models are Few-Shot Learners". arXiv(2020)
T5: "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer". JMLR(2020)
BART: "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension". ACL(2020)
Poly-encoders: "Poly-encoders: Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring". ICLR(2020)
SpanBERT: "SpanBERT: Improving Pre-training by Representing and Predicting Spans". TACL(2020)
ERNIE 2.0: "ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding". AAAI(2020)
SemBERT: "Semantics-Aware BERT for Language Understanding". AAAI(2020)
"Leveraging Pre-trained Checkpoints for Sequence Generation Tasks". TACL(2020)
ProphetNet: "ProphetNet: Predicting Future N-gram for Sequence-to-SequencePre-training". EMNLP(2020)
UniLMv2: "UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training". ICML(2020)
MacBERT: "Revisiting Pre-Trained Models for Chinese Natural Language Processing". EMNLP(2020)
MPNet: "MPNet: Masked and Permuted Pre-training for Language Understanding". arXiv(2020)
DEBERTA: "DeBERTa: Decoding-enhanced BERT with Disentangled Attention". ICLR(2021)
PALM: "PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation". EMNLP(2020)

4.2 知识增强

ERNIE(Baidu): "ERNIE: Enhanced Representation through Knowledge Integration". arXiv(2019)
KnowBert: "Knowledge Enhanced Contextual Word Representations". EMNLP(2019)
ERNIE(Tsinghua): "ERNIE: Enhanced Language Representation with Informative Entities". ACL(2019)
COMET: "COMET: Commonsense Transformers for Automatic Knowledge Graph Construction". ACL(2019)
K-BERT: "K-BERT: Enabling Language Representation with Knowledge Graph". AAAI(2020)
WKLM: "Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model". ICLR(2020)
LUKE: "LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention". EMNLP(2020)
K-Adapter: "K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters". ICLR(2021)
KEPLER: "KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation". TACL(2021)

4.3 多语言

XLM: "Cross-lingual Language Model Pretraining". arXiv(2019)
"Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond". TACL(2019)
UDify: "75 Languages, 1 Model: Parsing Universal Dependencies Universally". EMNLP(2019)
Unicoder: "Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks". EMNLP(2019)
XLM-R: "Unsupervised Cross-lingual Representation Learning at Scale". ACL(2020)
"Multilingual Alignment of Contextual Word Representations". ICLR(2020)
mBART: "Multilingual Denoising Pre-training for Neural Machine Translation". TACL(2020)
mT5: "mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer". NAACL(2021)
InfoXLM: "InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training". NAACL(2021)

4.4 多模态

ViLBERT: "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks". NeuralIPS(2019)
LXMERT: "LXMERT: Learning Cross-Modality Encoder Representations from Transformers". EMNLP(2019)
VideoBERT: "VideoBERT: A Joint Model for Video and Language Representation Learning" ICCV(2019)
MulT: "Multimodal Transformer for Unaligned Multimodal Language Sequences". ACL(2019)
VisualBERT: "VisualBERT: A Simple and Performant Baseline for Vision and Language". arXiv(2019)
B2T2: "Fusion of Detected Objects in Text for Visual Question Answering". EMNLP(2019)
VL-BERT: "VL-BERT: Pre-training of Generic Visual-Linguistic Representations". ICLR(2020)
Unicoder-VL: "Unicoder-VL: A Universal Encoder for Vision and Language by Cross-Modal Pre-Training". AAAI(2020)
VLP: "Unified Vision-Language Pre-Training for Image Captioning and VQA". AAAI(2020)
UNITER: "UNITER: UNiversal Image-TExt Representation Learning". ECCV(2020)
Oscar: "Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks". ECCV(2020)
"12-in-1: Multi-Task Vision and Language Representation Learning". CVPR(2020)
ActBERT: "ActBERT: Learning Global-Local Video-Text Representations". CVPR(2020)
VLN: "Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Tasks". CVPR(2020)
VILLA: "Large-Scale Adversarial Training for Vision-and-Language Representation Learning". arXiv(2020)
ImageBERT: "ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data". arXiv(2020)
ALIGN: "Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision". ICML(2021)
ClipBERT: "Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling". CVPR(2021)
DALL·E: "Zero-Shot Text-to-Image Generation". arXiv(2021)
CLIP: "Learning Transferable Visual Models From Natural Language Supervision". arXiv(2021)

4.5 信息检索

ORQA: "Latent Retrieval for Weakly Supervised Open Domain Question Answering". ACL(2019)
REALM: "REALM: Retrieval-Augmented Language Model Pre-Training". arXiv(2020)
RAG: "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". NeurIPS(2020)
DPR: "Dense Passage Retrieval for Open-Domain Question Answering". EMNLP(2020)

5. PLM的分析

5.1 知识

"What Does BERT Look at? An Analysis of BERT’s Attention". BlackBoxNLP(2019)
"BERT Rediscovers the Classical NLP Pipeline". ACL(2019)
"How Multilingual is Multilingual BERT?". ACL(2019)
"A Structural Probe for Finding Syntax in Word Representations". NAACL(2019)
"Language Models as Knowledge Bases?". EMNLP(2019)
"What Does BERT Learn about the Structure of Language?". ACL(2019)
"Linguistic Knowledge and Transferability of Contextual Representations". NAACL(2019)
"Assessing BERT's Syntactic Abilities". arXiv(2019)
"Probing Neural Network Comprehension of Natural Language Arguments" ACL(2019)
"How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings". EMNLP(2019)
"Visualizing and Measuring the Geometry of BERT". NeurIPS(2019)
"Designing and Interpreting Probes with Control Tasks". EMNLP(2019)
"Open Sesame: Getting inside BERT’s Linguistic Knowledge". BlackboxNLP(2019)
"What do you learn from context? Probing for sentence structure in contextualized word representations". ICLR(2019)
"Commonsense Knowledge Mining from Pretrained Models". EMNLP(2019)
"Do NLP Models Know Numbers? Probing Numeracy in Embeddings". EMNLP(2019)
"On the Cross-lingual Transferability of Monolingual Representations". ACL(2020)
"Cross-Lingual Ability of Multilingual BERT: An Empirical Study". ICLR(2020)
"What BERT Is Not: Lessons from a New Suite of Psycholinguistic Diagnostics for Language Models". TACL(2020)
"How Much Knowledge Can You Pack Into the Parameters of a Language Model?". EMNLP(2020)
"How Can We Know What Language Models Know?". TACL(2020)
"oLMpics-On What Language Model Pre-training Captures". TACL(2020)
"Information-Theoretic Probing with Minimum Description Length". EMNLP(2020)
"Inducing Relational Knowledge from BERT". AAAI(2020)
AutoPrompt: "AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts". EMNLP(2020)
"Emergent linguistic structure in artificial neural networks trained by self-supervision". PNAS(2020)
"Evaluating Commonsense in Pre-Trained Language Models". AAAI(2020)
"Inducing Relational Knowledge from BERT". AAAI(2020)

5.2 鲁棒性

"Universal Adversarial Triggers for Attacking and Analyzing NLP". EMNLP(2019)
"Pretrained Transformers Improve Out-of-Distribution Robustness". ACL(2020)
BERT-ATTACK: "BERT-ATTACK: Adversarial Attack Against BERT Using BERT". EMNLP(2020)
"Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment". AAAI(2020)

5.3 稀疏性

"Are Sixteen Heads Really Better than One?". NeurIPS(2019)
"Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned". ACL(2019)
"Revealing the Dark Secrets of BERT". EMNLP(2019)
"The Lottery Ticket Hypothesis for Pre-trained BERT Networks". NeurIPS(2020)
"When BERT Plays the Lottery, All Tickets Are Winning". EMNLP(2020)

5.4 其他

"Scaling Laws for Neural Language Models". arXiv(2020)
"Extracting Training Data from Large Language Models". arXiv(2020)

6. 高效的PLM

6.1 模型训练

RoBERTa: "RoBERTa: A Robustly Optimized BERT Pretraining Approach". arXiv(2019)
"Efficient Training of BERT by Progressively Stacking". ICML(2019)
Megatron-LM: "Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism". arXiv(2019)
ELECTRA: "ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators". ICLR(2020)
"Large Batch Optimization for Deep Learning: Training BERT in 76 minutes". ICLR(2020)
GShard: "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv(2020)
Admin: "Understanding the Difficulty of Training Transformers". EMNLP(2020)
ZeRO: "ZeRO: Memory optimizations Toward Training Trillion Parameter Models". SC20: International Conference for High Performance Computing, Networking, Storage and Analysis
Switch Transformers: "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity". arXiv(2021)

6.2 模型压缩

DistilBERT: "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter". arXiv(2019)
PKD: "Patient Knowledge Distillation for BERT Model Compression". EMNLP(2019)
"Distilling Task-Specific Knowledge from BERT into Simple Neural Networks". arXiv(2019)
Q8BERT: "Q8BERT: Quantized 8Bit BERT". 5th Workshop on Energy Efficient Machine Learning and Cognitive Computing - NeurIPS 2019
ALBERT: "ALBERT: A Lite BERT for Self-supervised Learning of Language Representations". ICLR(2020)
TinyBERT: "TinyBERT: Distilling BERT for Natural Language Understanding". EMNLP(2020)
Layerdrop: "Reducing Transformer Depth on Demand with Structured Dropout". ICLR(2020)
Q-BERT: "Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT". AAAI(2020)
MobileBERT: "MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices". ACL(2020)
"Compressing BERT: Studying the Effects of Weight Pruning on Transfer Learning". 5th Workshop on Representation Learning for NLP(2020)
MiniLM: "MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers". arXiv(2020)
FastBERT: "FastBERT: a Self-distilling BERT with Adaptive Inference Time". ACL(2020)
DeeBERT: "DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference". ACL(2020)

7. PLM的使用

7.1 两阶段

"Sentence Encoders on STILTs: Supplementary Training on Intermediate Labeled-data Tasks". arXiv(2018)
"How to Fine-Tune BERT for Text Classification?". CCL(2019)
"Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks". ACL(2020)
"Intermediate-Task Transfer Learning with Pretrained Language Models: When and Why Does It Work?". ACL(2020)

7.2 多任务

MT-DNN: "Multi-Task Deep Neural Networks for Natural Language Understanding". ACL(2019)
"BAM! Born-Again Multi-Task Networks for Natural Language Understanding". ACL(2019)
"Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding". arXiv(2019)

7.3 Adapter

"BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning". ICML(2019)
Adapter: "Parameter-Efficient Transfer Learning for NLP". ICML(2019)

7.4 Prompt

PET: "Exploiting Cloze-Questions for Few-Shot Text Classification and Natural Language Inference". EACL(2021)
"It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners". NAACL(2021)
"Prefix-Tuning: Optimizing Continuous Prompts for Generation". arXiv(2021)
LM-BFF: "Making Pre-trained Language Models Better Few-shot Learners". ACL(2021)
"What Makes Good In-Context Examples for GPT-3?". arXiv(2021)
"The Power of Scale for Parameter-Efficient Prompt Tuning". arXiv(2021)

7.5 其他

"To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks". RepL4NLP(2019)
"An Embarrassingly Simple Approach for Transfer Learning from Pretrained Language Models". NAACL(2019)
"Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping". arXiv(2020)
SMART: "SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization". EMNLP(2020)
"Revisiting Few-sample BERT Fine-tuning". ICLR(2021)

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

点击上面卡片，关注我呀，每天推送AI技术干货~

整理不易，还望给个在看！

你可能感兴趣的:(人工智能,机器学习,编程语言,自然语言处理,深度学习)

米信使股票群诈骗真相！郑洪盛国浩盟国一带一路项目就是资金盘不要被骗了！不成功不收费
讲述:郑洪盛国浩盟国慈善投票被骗无法出金真相！套路太深教你该如何避！！骗子引诱人上当方式很简单：先给你一点甜头尝尝，一开始入金能正常提现，也能赚一点，但当投入更多钱时，你发现你的运气开始变差了。所以，荐股类骗局最大的迷惑性是：给受害人一种假象，你是投资亏损的，而不是被骗的！广大市民对此要提高警惕，如果是还没有投资，千万不要抱有侥幸心理，一定要及时远离！一定不要打草惊蛇低碳项目数字体育，人工智能ai
程序员的技术栈及学习路径 Honeysea_70 基础知识学习经验分享笔记
程序员的技术栈是非常多元的，通常涵盖了多个领域和技术。程序员的技术栈通常根据工作需求、项目类型以及个人兴趣的不同而有所不同，但通常会有一定的共性。下面是一个较为典型的程序员的技术栈，以及如何从入门到进阶地学习这些技术。1.编程语言掌握多种编程语言一个资深程序员通常会熟练掌握至少两到三种编程语言，每种语言的侧重点不同，适用于不同的开发场景。主流编程语言：JavaScript：前端开发的核心语言，Re
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
VSCode使用Jupyter完整指南配置机器学习环境 z日火校招学习日记 vscode jupyter 机器学习
接下来开始机器学习部分第一步配置环境：VSCode使用Jupyter完整指南1.安装必要的扩展打开VSCode，按Ctrl+Shift+X打开扩展市场，搜索并安装以下扩展：必装扩展：Python(Microsoft官方)-Python语言支持Jupyter(Microsoft官方)-Jupyternotebook支持Pylance(Microsoft官方)-Python智能提示和语法检查推荐扩展：
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
解决引入TransXNet模块后显存爆炸问题的全面指南 pk_xz123456 算法大数据 python 机器人数据挖掘深度学习
解决引入TransXNet模块后显存爆炸问题的全面指南前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.问题背景与现状分析1.1MF-PSN和TransXNet项目概述MF-PSN（Multi-FeaturePyramidStereoNetwork）是一个基于金字塔特征的多特征立体匹配网络，它通过构建多层次的特征金字塔来处理不同尺度的立体匹配问题
AI产品经理成长记《零号列车》第一集邂逅0XAI列车黑客思维者 AI产品经理养成人工智能 AI产品经理大模型智能体
《零号列车》绝非传统意义上的AI产品经理教程——它是我沉淀二十多年跨行业数字化转型与工业4.0实战经验后，首创的100集大型小说体培养指南。那些曾在千行百业验证过的知识与经验，不再是枯燥的文字堆砌，而是化作一场沉浸式的学习旅程。这里没有生硬的理论灌输，而是用跌宕起伏的故事情节，串联起AI技术的底层逻辑。你会跟着角色的脚步推进剧情，在不知不觉中吃透机器学习、大模型应用等专业概念；更有深入浅出的技术拆
人工智能时代下的数据新职业：新兴工作岗位版图研究司南锤 economics 人工智能
目录摘要第一章：AI驱动的数据价值链重构1.1从“沉睡金矿”到“流动的血液”：数据作为核心经济资产的激活1.2知识的新经济学：零边际成本革命1.3AI作为新的“操作系统”：重塑产业竞争格局第二章：基石层：数据准备与质量保障中的角色2.1数据标注与标签领导力：数据标注经理/主管2.2“地面真实”的守护者：AI数据质量专家第三章：技术核心层：构建AI与机器学习全生命周期的工程角色3.1AI生产线架构师
JavaScript语言基础全解析：语法、面向对象与异步编程白仑色前端系列 javascript udp 开发语言
引言：JavaScript的三大核心支柱JavaScript作为一门跨平台、多范式的编程语言，已从最初的网页脚本发展为全栈开发的基石。其语言基础可概括为三大核心：语法基础（变量、数据类型、控制流等）、面向对象与原型系统（独特的原型继承机制）、异步编程模型（处理非阻塞操作的核心方案）。掌握这三部分，不仅能写出规范的代码，更能深入理解JavaScript的设计哲学。本文将系统讲解这三大模块，每个知识点
Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
这么简单的从零到一做HTML 网页，你确定不来看看吗？ paid槮 html 服务器前端
HTML网页的介绍HTML(HypertextMarkupLanguage,超文本标记语言)是一种用于创建网页的标准标记语言,是一种与Python不同的编程语言。网页文件的扩展名通常为,html或.htm,这两种扩展名都可使用,并不会影响文件内容简单的HTML网页框架每一个HTML网页都包含一个基础框架，其他的内容都是在基础框架内进行扩充的。示例代码:这里是标题在这里填入正文这是一个较为基础的HT
Java与机器学习的邂逅：Weka框架入门指南墨夶 Java学习资料1 java 机器学习数据挖掘
在这个数据驱动的时代，机器学习已经成为各行业创新和优化的关键技术。而Java，作为一门成熟且广泛应用的编程语言，在企业级应用开发中占据着重要地位。将二者结合起来，利用Java实现机器学习算法，不仅可以充分发挥其强大的生态系统优势，还能为开发者提供一个高效、稳定的开发环境。今天，我们将带您走进Java与机器学习的世界，探索如何使用Weka这一著名的机器学习库来开启您的智能之旅。Weka简介及其优势什
机器学习基础：从数据到智能的入门指南
一、何谓机器学习在我们的日常生活中，机器学习的身影无处不在。当你打开购物软件，它总能精准推荐你可能喜欢的商品；当你解锁手机，人脸识别瞬间完成；当你使用语音助手，它能准确理解你的指令。这些背后，都离不开机器学习的支撑。机器学习是一门让计算机能够从数据中学习并改进的学科。随着传感器技术的飞速发展，我们身边充满了各种传感器，如手机中的摄像头、麦克风，交通监控中的传感器等，它们收集了海量的数据。这些数据就
Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla