marasimc

预训练语言模型（PLMs）综述

预训练语言模型（PLMs）

内容来自AACL 2022 Tutorial：

https://d223302.github.io/AACL2022-Pretrain-Language-Model-Tutorial/

https://d223302.github.io/AACL2022-Pretrain-Language-Model-Tutorial/lecture_material/AACL_2022_tutorial_PLMs.pdf

预训练语言模型(PLMs)是在大规模语料库上以自监督方式进行预训练的语言模型。在过去的几年中，这些PLM从根本上改变了自然语言处理社区。传统的自监督预训练任务主要涉及恢复损坏的输入句子，或自回归语言建模。在对这些PLM进行预训练后，可以对下游任务进行微调。按照惯例，这些微调包括在PLM之上添加一个线性层，并在下游任务上训练整个模型；或将下游任务表述为句子补全任务，并以seq2seq的方式微调下游任务。在下游任务上对PLM进行微调通常会带来非凡的性能提升，这就是plm如此受欢迎的原因。

在本教程中，从两个角度提供广泛而全面的介绍:为什么这些PLM有效，以及如何在NLP任务中使用它们。

第一部分对PLM进行了一些有见地的分析，部分解释了PLM出色的下游性能。其中一些结果帮助研究人员设计更好的预训练和微调方法

第二部分首先关注如何将对比学习应用于PLM，以改进由PLM提取的表示，然后说明如何在不同情况下将这些PLM应用于下游任务。这些情况包括在数据稀缺的情况下对PLM进行微调，以及使用具有参数效率的PLM。

Part 1 Introduction

PLM + fine tune

Part 2 Why do PLMs work

2.1 Contextualized word respresentation

词向量表示方法，比如Word2Vec/Glove，BERT可以被视为一种先进的词向量表示方法，即上下文词向量表示(contextualized word respresentation)，不仅仅包括：相似的token有相似的embedding表示（这在word2vec/Glove中已经实现了），还考虑了token的上下文信息，因此相同的词可能有不同的词向量表示。

2.2 BERTology - What does each layer learn?

2.3 BERT Embryology - What BERT learned during training?

2.4 When do you need billions of words of pretraining data

2.5 cross-discipline capability（跨学科能力）

2.6 Pre-training on Artificial Data

Part 3 How to Use PLMs: Contrastive learning for Pre-trained Language Models

Why Contrastive?（为什么需要对比学习）

想要在以下场景对词有一个比较好的表示：

相似的输入有相似的表示（positive pairs）

不相似的输入有不相似的表示（negative pairs）

3.1 Why we need sentence-level representation?

Provide as a backbone that can be useful on a variety of downstream sentence-level tasks（提供可用于各种下游句子级任务的主干）

Good generalization ability on tasks without much training data e.g. even linear probing can achieve good performance（良好的泛化能力，不需要大量的训练数据。即使是线性探测也能取得良好的性能）

Efficient sentence-level clustering or semantic search by innerproducts（基于内部产品的高效句子级聚类或语义搜索）

Measure similarities among sentence pairs（句子对间的度量相似性）

Unsupervised methods are more desirable in order to be applied to languages beyond English（非监督的方法是更可取的，以便应用英语以外的语言）

3.2 Pre-BERT methods

3.3 How to obtain sentence-level representations from BERTs

不能简单地从token-level的表示中获得。

BERT表示空间中的各向异性问题(anisotropy problem)：

表示退化（representation degeneration）：学习的嵌入在向量空间中占据一个狭窄的圆锥；

限制向量空间的表现力

BERT flow:

BERT-whitening

3.4 Cotrastive learning method

Designed positives —— DeCLUTR、ConSERT

Generating Positives

Bootstrapping Methods —— BYOL

Dropout Augmenttions —— SimCSE (Unsupervised)、Supervised SimCSE、mSimCSE

Equivariant Contrastive Learning

Prompting

Ranking-based Methods —— RankEncoder

3.5 conlusion

Contrastive learning should have more potential in NLP for using pre-trained language models in representation learning!

Part 4 How to Use PLMs: Parameter-efficient fine-tuning

Problem: PLMs are gigantic (in terms of numbers of parameters, model size, and the storage needed to store the model)

Solution: Reduce the number of parameters by parameter-efficient fine-tuning

一个标准的fine-tuning实际执行的操作？-> 更改PLM的隐藏层表示以使得它能够在下游任务更好地表现。

4.1 Adapter

Adapter：一个被嵌入transformer的小的可训练子模块
在fine-tuning期间，仅更新adapters与classifier head的参数。
通过采用adapter结构，所有下游任务共享PLM参数，每层的adapters以及classifier heads则是特定任务的模块。

4.2 LoRA

LoRA: Low-Rank Adaptation of Large Language Models
- 平行地插入transformer的feed-forward层，也可以插入multi-head attention层
- 考虑LoRA平行地插入feed-forward层的情况：

通过采用LoRA结构，所有下游任务共享PLM参数，每层的LoRA以及classifier heads则是特定任务的模块

4.3 Prefix tuning

Prefix Tuning: 在每层之前插入可训练前缀

标准的self-attention结构：
加上prefix后的self-attention结构：
Only the prefix (key and value) are updated during finetuning

4.4 (Soft) Prompt tuning

Soft Prompting：在输入层预先嵌入前缀

如何确定软提示嵌入的长度？
- 提示长度必须足够长
- 当提示长度足够长时，增加提示长度会减少性能增益
如何初始化软提示嵌入？
- 随机初始化
- 从前5000个高频词的词嵌入中采样
- 采用下游任务的类别标签

4.5 summary

优势1：大幅度减少特定任务的参数
优势2：训练数据不容易过拟合;更好的域外性能
优势3：需要微调的参数更少，使它们在小数据集训练时更有优势
应该使用哪种parameter-efficient fine-tuning 策略？

Part 5 How to Use PLMs: Using PLMs with different amounts of data

目标：fine-tune一个PLM以适配下游任务
- 习惯上，我们假设我们有足够的对应目标任务的有标签数据
- 有时，我们可能有额外的用于其他任务的有标签数据（是否可以用于当前任务的训练呢？）
- 有时，用于目标任务的有标签数据很稀缺
- 有时，我们只有少量用于目标任务的有标签数据，还有与当前任务有关的无标签数据
- 有时，我们没有任何用于当前任务的有标签数据
对于不同大小规模的数据，应该怎么使用PLM？
- Target task dataset (labeled)
- Datasets of other tasks (labeled)
- Data related to target task (Unlabeled)

5.1 Intermediate-task fine-tuning: using labeled data from other tasks

What kind of intermediate tasks can help target task?

Same type of tasks is the most beneficial
- 当对整个模型进行微调时，将为每个中间任务提供一个全尺寸模型
- 当使用soft prompt tuning进行微调时，只需要transfer软提示嵌入，而不是一整个模型——Soft Prompt Transfer (SPoT)
  - Soft Prompt Transfer (SPoT)：任务的软提示符可以用作该任务的任务嵌入
  - Soft Prompt Transfer (SPoT)：给定一个新任务，我们可以先只使用该新任务进行训练，然后找到一个任务嵌入与新任务的任务嵌入最相似的间接任务，并使用它进行转移。

5.1.1 Multi-task fine-tuning: 5-1.1: using labeled data from other tasks

5.1.2 Prompt tuning for few-shot learning

标准的fine-tuning通常假设有大量的有标签训练数据
数据稀缺在处理下游任务时是很常见的
Few-shot learning：有一些（less than a hundred）有标签训练数据
通过将数据集中的数据点转换为自然语言提示（natural language prompts），模型可能更容易知道它应该做什么

prompt tuning中需要什么？
- A prompt template: 将数据点转换为自然语言提示
- A PLM: 执行语言建模
- A Verbalizer：标签与词汇的映射
提示微调(prompt tuning)与标准微调(standard fine-tuning)的区别
- input format不同：
  
  prompt tuning: natural language prompt with a mask token to fill in.
  
  standard fine-tuning: simply combining sentences with a separator token
- prompt tuning: simply use the language model head and the verbalizer to predict the class of the downstream task.
  
  standard fine-tuning: initialize a new classifier head for fine-tuning
在数据稀缺的情况下prompt tuning表现更好：<
- 引入了人类知识，且没有引入额外的参数。
如何选择verbalizer？
- 人工设计：需要特定任务的知识
- Prototypical verbalizer：使用可学习的原型向量去表示一个类，而不是使用词汇表中的词汇
  - I. 获得instance representation
  - II. 通过对比学习(contrastive learning)获得learnable prototypr vector
    - ①instance-instance contrastive
    - ②instance-prototype contrastive
  - III. 执行推断：找出与测试数据的instance representation 最相近的prototype
  - 方法对比：
    - 人工设计verbalizer在大多数情况下是最优的，但是这依赖于特定任务领域的知识
    - Prototypical verbalizer 不依赖于特定任务领域的知识，但是即使在一个类别仅有一个label的情况下也有较好的表现
LM-BFF: better few-shot fine-tuning of language models
- 核心：prompt + demonstration
  - standard prompt tuning:
  - prompt + demonstration:
- Demonstrations can improve the performance of prompt tuning and makes the variance smaller
prompting vs. probing
- “提示”的概念在最近的NLP社区中首次用于探究（probing）PLM的事实知识
- probing是探索PLM中编码了哪些知识的过程，PLMs通常在probing期间被固定
- Prompting通常使用自然语言去询问PLM，PLM在prompting期间可以被微调
- prompting与probing的目的不同

5.2 Semi-supervised learning with PLMs

Semi-Supervised learning（半监督学习）：有少量的带标签数据以及大量的无标签数据
核心思想：使用带标签数据训练一个好的模型，然后使用训练后的模型为无标签数据打标签（pseudo-label）。
方法1：Pattern-Exploiting Training (PET) ，步骤：
1. Use different prompts and verbalizer to prompt-tune different PLMs on the labeled dataset
2. Predict the unlabeled dataset and combine the predictions from different models
3. Use a PLM with classifier head to train on the soft-labeled data set
方法2：Self-Training with Task Augmentation (STraTA)
- Self-training：使用模型在无标签数据集上的预测作为伪标签
- 如何初始化模型对于最终性能是至关重要的
teacher model：为无标签数据打标签的模型

student model：使用带标签数据与伪标签数据训练得到的模型
- Task augmentation：使用无标签数据生成一个NLI数据集，然后将NLI数据集作为intermediate task进行微调，获得基础模型。
步骤：
1. Train an NLI data generator using another labeled NLI dataset using a generative language model （训练一个NLI数据生成器）
2. Use the trained data generator to generate NLI dataset using the in-domain unlabeled data （使用训练得到的数据生成器，结合无标签数据生成NLI数据集）
3. Use the generated in-domain NLI dataset to fine-tune an NLI model. The finetuned model is used to initialize the teacher model and student model in self-training （使用生成的NLI数据集去微调NLI模型，微调得到的模型用于初始化teacher模型与student模型）

5.3 Zero-shot learning

Zero-shot inference：不使用任何训练数据去推断下游任务。
GPT-3 shows that zero-shot (with task description) is possible
zero-shot的能力从何而来？
- 假设：在预训练期间，训练数据集隐含地包含不同任务的混合
- 假设：多任务训练实现了zero-shot泛化

Conclusion and Future work

6.1 Conclusion

Researchers have studied why PLMs are useful from many aspects
Contrastive learning is a powerful method to obtain high quality sentence embedding in an unsupervised way
Parameter-efficient fine-tuning can achieve comparable performance to full-model fine-tuning
PLMs can be used in with different amount of labeled and unlabeled datasets, and incorporating human knowledge is very critical the performance

6.2 Future work

Why PLMs work is not completely answered yet, including the mathematical theory / learning theory behind the PLMs （为什么PLMs的工作还没有完全地解决，包括其背后的数学理论/学习理论）
How can we create better negative and positive samples for contrastive learning in an unsupervised way （我们如何在无监督的情况下为对比学习创造更好的负样本和正样本）
How can we combine parameter-efficient fine-tuning methods with other methods (pruning, compression, quantization) to further reduce the parameters?（我们如何将参数高效微调方法与其他方法(剪枝、压缩、量化)结合起来进一步减少参数?）
How does those few-shot learning methods perform domain-specific datasets? （那些few-shot学习方法怎么在特定领域的数据集上执行）
How trust-worthy are the prediction of PLMs, especially in few-shot and zero-shot? （PLMs的预测可行度如何，尤其在few-shot和zero-shot领域）
Why is the variance between different prompts very large for certain tasks? Does this imply the PLM fail to understand human language?（为什么在某些任务中不同提示之间的差异非常大?这是否意味着PLM无法理解人类语言?）
How do we continuously adapt PLMs to different domain and datasets from different time? （我们如何不断地使PLMs适应不同时间的不同领域和数据集?）

CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
代理IP服务如何优化AI大模型训练的分布式计算效率 http
AI大模型训练就像一场接力赛，每个计算节点都是接力选手，而代理IP则是保证选手们“跑得更稳、交接更顺”的隐形教练。在分布式计算中，效率瓶颈往往不是算力本身，而是数据调度与通信协作的隐性损耗。接下来，我们从三个实操场景拆解代理IP的增效逻辑。场景一：数据采集与分发的“高速公路”分布式训练的第一步是将海量数据切分到不同计算节点。假设某团队要训练法律文书解析模型，需从20个省级法院网站抓取判例。如果所有
【核心算法篇十三】《DeepSeek自监督学习：图像补全预训练方案》再见孙悟空_ 「2025 DeepSeek技术全景实战」算法学习计算机视觉 deepSeek 深度学习 transformer 人工智能
引言：为什么自监督学习成为AI新宠？在传统监督学习需要海量标注数据的困境下，自监督学习（Self-SupervisedLearning）凭借无需人工标注的特性异军突起。想象一下，如果AI能像人类一样通过观察世界自我学习——这正是DeepSeek图像补全方案的技术哲学。根据，自监督学习通过设计巧妙的"预训练任务"（PretextTask），让模型在无标签数据中自动学习图像语义特征。而图像补全正是这类
HarmonyOS Next智能语音助手的语音合成与模型优化实战 harmonyos
本文旨在深入探讨基于华为鸿蒙HarmonyOSNext系统（截止目前API12）构建智能语音助手过程中语音合成与模型优化技术的实战应用，基于实际开发经验进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、语音助手功能需求与架构规划（一）功能需求梳理语音指令识别需求智能语音助手需要准确识别用户的语音指令
【大语言模型_3】ollama本地加载deepseek模型后回答混乱问题解决没枕头我咋睡觉大语言模型语言模型人工智能自然语言处理
背景：本地下载了DeepSeek-R1-Distill-Qwen-7B模型后，通过ollamacreateDeepSeek-R1-Distill-Qwen-7B-fds7b.mf加载模型启动后回答混乱，无法使用。解决方法重新下载模型，选择了DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf重新编写ds7b.mf文件，文件内容如下：FROM/root/zml/DeepSe
全网最全！DeepSeek 新手入门教程合集人工智能deepseek
如果你是初次接触DeepSeek的普通用户或开发者，面对海量教程却无从下手？别担心！本文为你整理全网最易懂、最实用的DeepSeek学习资源，涵盖快速上手、编程实战、系统手册等，附直达链接，收藏这一篇就够了！一、快速入门指南《DeepSeek入门教程》-博客园亮点：手把手教你注册账号、获取APIKey，并提供Python调用多轮对话的代码示例，适合初级开发者。直达链接：点击查看核心内容：API调用
【Python】Python入门——判断语句 zhoushanguhe Python python 编程开发语言
Python入门——判断语句。内容包括if语句、条件表达式、三元运算、match语句等。目录一、if语句1.基本if-else语句2.常用比较运算符3.if-else连写4.pass语句5.变量的作用域二、条件表达式三、三元运算四、match语句五、其他一、if语句1.基本if-else语句当条件成立时，执行某些语句；否则执行另一些语句。注意：if和else后需要加上冒号:if语句的代码块需要缩进
兄弟们，我的deepseek终于可以控制浏览器了：Part 1/n，含代码几道之旅 Dify：智能体（Agent）工作流知识库全搞定几道之旅AI专栏VVVIP 人工智能
文章目录前言helloworld前言其实，deepseek控制浏览器咱之前就发过，只不过当时没有想到这么好的标题，哈哈。所依赖的，依然是BrowserUse这个项目BrowserUse项目官网helloworld按照官网配置好环境后，只需新建一个python文件（例如，叫main.py?）然后运行即可。fromlangchain_openaiimportChatOpenAIfrombrowser_
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
国外7个最佳大语言模型 (LLM) API推荐程序员后端
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
SMT贴片加工报价构成要素与成本优化策略解析安德胜SMT贴片其他
内容概要在现代电子制造领域，SMT贴片加工报价的精准核算直接影响企业供应链成本控制效能。本文通过结构化分析框架，系统解构报价体系的五大核心要素，并建立可操作的优化模型。研究路径覆盖从基材选型到生产规划的完整价值链，重点揭示各环节成本动因的相互作用机制。为直观呈现报价要素的关联性，特构建以下参数对照表：要素类别成本占比范围关键波动因素优化切入点PCB基材成本15-25%层数/板材类型/表面处理工艺标
C语言-回调函数的应用 woainizhongguo. C/C++c语言
什么是回调函数回调函数就是一个被作为参数传递的函数。在C语言中，回调函数只能使用函数指针实现，在C++、Python、ECMAScript等更现代的编程语言中还可以使用仿函数或匿名函数。工作机制⑴定义一个回调函数；⑵提供函数实现的一方在初始化的时候，将回调函数的函数指针注册给调用者；⑶当特定的事件或条件发生的时候，调用者使用函数指针调用回调函数对事件进行处理。应用案例（1）应用层：通过调用hal层
Python Union 联合类型注解详解人才程序员杂谈 python 服务器 java linux 后端软件工程开发语言
文章目录PythonUnion联合类型注解详解1.什么是Union联合类型？**语法（Python3.9及之前版本）**：**语法（Python3.10及之后版本）**：2.Union联合类型注解示例**(1)使用Union来表示多个类型的参数****(2)使用`|`来表示联合类型（Python3.10及之后版本）**3.使用Union进行复杂类型注解**(1)使用Union与列表结合****(2
Ubuntu22.4.03服务器版安装及搭建深度学习环境的问题总结蜡笔小祎在线学习问题集合深度学习人工智能
Ubuntu22.4.03服务器版安装流程整个流程已经有很多分享帖了，这里概述一下：下载iso制作启动U盘，按f2进入安装，选择语言，键盘布局english，ubuntuserver安装，DHCP自动配置网络（问题1），代理服务器我们没填，配置阿里云镜源http://mirrors.aliyun.com/ubuntu/，磁盘分区（问题2），设置服务器密码，安装ssh远程工具，重启reboot。可参
OpenAI揭示o3的推理过程，以弥合与DeepSeek-R1的差距 c++服务器开发人工智能 deepseek
生成式人工智能开发商OpenAI公司首席执行官SamAltman最近在RedditAMA问答活动中承认，该公司在开源软件研究方面站在了“历史错误的一边”。尽管OpenAI公司尚未发布其开源模型，但已经迈出了提高透明度的第一步。正如该公司在其X帐号上所宣布的那样，其最新的推理模型o3-mini现在展示了其思维链（CoT）跟踪的更详细版本。此前，OpenAI公司的推理模型仅展示了CoT的高级概述，这使
释放 DeepSeek 的力量：像专家一样本地安装与探索！ guzhoumingyue AI python
要在本地运行DeepSeek，您需要遵循以下步骤。请确保您的计算机上已安装Python和Git，并且满足DeepSeek的依赖项。步骤1:安装依赖项安装Python和pip确保您已安装Python（建议使用Python3.6及以上版本）。您可以通过在终端/命令提示符中输入以下命令来检查Python是否已安装：bash复制代码python--version或者bash复制代码python3--ver
国鑫DeepSeek 671B本地部署方案：以高精度、高性价比重塑AI推理新标杆 Gooxi国鑫人工智能服务器
随着DeepSeek大模型应用火爆全球，官方服务器总是被挤爆。而且基于企业对数据安全、网络、算力的更高需求，模型本地化部署的需求日益增长，如何在有限预算内实现高效、精准的AI推理能力，成为众多企业的核心诉求。国鑫作为深耕AI领域的技术先锋，推出基于4台48GRTX4090或8台24GRTX4090服务器的2套DeepSeek“满血”版本地部署方案，以FP16高精度、高性价比、强扩展性三大优势，为企
ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
教你本地复现Deep Research：DeepSeek R1+ LangChain+Milvus 大模型入门教程 langchain 人工智能大模型学习大模型 DeepSeek AI大模型大模型教程
金融机构、律所、科研党的福音来了！不久前，OpenAI新推出了一项名叫DeepResearch（深度研究）的功能，迅速风靡全球。我们可以将其理解为大模型+超级搜索+研究助理的三合一。在这项功能里，用户输入查询问题后，只需要选择DeepResearch选项，OpenAIo3就能自动查找分析数百优质在线资源，并对其进行综合整理并加工，为用户生成一份具备专业分析师水准的综合报告。不仅内容生成更加详实，而
“深入浅出”系列之QT：（10）Qt接入Deepseek 我真不会起名字啊 qt 开发语言
项目配置：在.pro文件中添加网络模块：QT+=corenetworkAPI配置：将apiUrl替换为实际的DeepSeekAPI端点将apiKey替换为你的有效API密钥根据API文档调整请求参数（模型名称、温度值等）功能说明：使用QNetworkAccessManager处理HTTP请求自动处理JSON序列化/反序列化支持异步请求处理包含基本的错误处理扩展建议：添加更完善的错误处理（HTTP状
大模型产品Deepseek（九）、LMstudio + AnythingLLM提交文件、网页内容，回复更专业准确伯牙碎琴大模型 DeepSeek 大模型知识库 LMstudio 嵌入数据联网查询
使用LMstudio和AnythingLLM向DeepSeek提交数据以提高回复的准确性在本篇文章中，我们将介绍如何使用LMstudio和AnythingLLM工具将文件或网页内容提交给DeepSeek，确保它能够提供更专业和精准的回答。这种方式特别适合那些无法使用Ollama部署但有数据投喂需求的场景。一.准备工作在开始之前，确保您已经安装了LMstudio和AnythingLLM工具，并且De
Python的那些事第二十七篇：Python中的“数据魔法师”NumPy 暮雨哀尘 Python的那些事 python numpy 开发语言数据分析算法数组索引
摘要在这篇幽默风趣的论文中，我们将深入探讨NumPy——Python中最强大的数值计算库之一。它不仅提供了高性能的多维数组对象，还让复杂的数学运算变得像吃冰淇淋一样简单。本文将通过生动的代码示例和幽默的比喻，带你领略NumPy的魔法世界，让你在欢笑中掌握这个强大的工具。一、引言：为什么NumPy是程序员的“超级英雄”？1.1NumPy的起源：从“数据苦力”到“数据魔法师”想象一下，你被困在一个全是
第26篇：pFedLoRA: Model-Heterogeneous Personalized Federated Learning with LoRA使用lora微调的模型异构个性化联邦学习还不秃顶的计科生联邦学习深度学习人工智能开发语言
第一部分：解决的问题联邦学习（FederatedLearning,FL）是一种分布式机器学习方法，允许客户端在本地数据上训练模型，同时通过中心服务器共享学习成果。传统FL框架假设客户端使用相同的模型结构（模型同构），但在实际中可能面对：统计异质性：客户端的数据分布不均（non-IID）。资源异质性：客户端硬件资源有限。模型异质性：客户端可能拥有不同的模型结构。模型异构的个性化联邦学习（MHPFL）
零基础学会asp.net做AI大模型网站/小程序十六：专栏总结借雨醉东风 asp.net 小程序后端
本专栏以实战为主，轻理论。如果哪里有不太懂的，可关注博主后加个人微信（平台规定文章中不能贴联系方式，需先关注博主，再加微信），后续一起交流学习。-------------------------------------正文----------------------------------------目录本专栏总结后续方向项目简介项目结构使用方法项目地址关键特点LLaMA机器学习简介使用LLaMA
GPT (Generative Pre-trained Transformer) 彬彬侠自然语言处理 gpt transformer 预训练 NLP 自然语言处理
GPT(GenerativePre-trainedTransformer)是由OpenAI提出的一个基于Transformer架构的自回归语言模型。GPT模型通过大规模无监督预训练，使用大量的文本数据进行学习，然后再进行微调（fine-tuning）来适应具体的下游任务。GPT的设计目标是能够理解和生成自然语言文本，并且它以其出色的自然语言生成能力在多个领域取得了显著的成果。GPT的基本原理GPT
Vision Transformer（ViT）：用 Transformer 颠覆图像识别金外飞176 论文精读 transformer 深度学习人工智能
VisionTransformer（ViT）：用Transformer颠覆图像识别在计算机视觉领域，卷积神经网络（CNN）长期以来一直是图像识别任务的主流架构。然而，近年来，自然语言处理（NLP）领域中大放异彩的Transformer架构也开始在图像识别中崭露头角。今天，我们将深入探讨一种创新的架构——VisionTransformer（ViT），它将Transformer的强大能力直接应用于图像
Python爬虫TLS dme. Python爬虫零基础入门爬虫 python
TLS指纹校验原理和绕过浏览器可以正常访问，但是用requests发送请求失败。后端是如何监测得呢？为什么浏览器可以返回结果，而requests模块不行呢？https://cn.investing.com/equities/amazon-com-inc-historical-data1.指纹校验案例1.1案例：ascii2dhttps://ascii2d.net/importrequestsres
python爬虫Selenium库详细教程_python爬虫之selenium库的使用详解嘻嘻哈哈学编程程序员 python 爬虫 selenium
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.2访问页面2.3查找元素2.3.1单个元素下面
排序算法：冒泡排序（Python）娱乐不打烊丶排序算法算法数据结构
思路：大家一定都喝过汽水吧，汽水中常常有许多小小的气泡，往上飘，这是因为组成小气泡的二氧化碳比水要轻，所以小气泡才会一点一点的向上浮。而冒泡排序之所以叫冒泡排序，正是因为这种排序算法的每一个元素都可以向小气泡一样，根据自身大小，一点一点向着数组的一侧移动。一图解百惑，上图！那么，话不多说，上代码！defbubble_sort(input_list):#冒泡排序：每次循环，锁定一个最值，并朝着最大或
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。