JMXGODLZ

复刻ChatGPT语言模型系列-（一）基座模型选取

前言

今天开始我将会推出一系列关于复刻ChatGPT语言模型的博文。本系列将包括以下内容：

复刻ChatGPT语言模型系列-（一）基座模型选取
复刻ChatGPT语言模型系列-（二）参数高效微调
复刻ChatGPT语言模型系列-（三）指令学习微调
复刻ChatGPT语言模型系列-（四）文本生成解码
复刻ChatGPT语言模型系列-（五）强化学习RLHF
复刻ChatGPT语言模型系列-（六）LLM模型评估

在本系列的第一篇博文中，我们将会探讨如何选取一个好的预训练语言模型作为基座。选择一个优秀的基座模型非常重要，因为它会直接影响到后续模型的训练和性能表现。乱花渐欲迷人眼，目前社区涌现出许多优秀的大模型，这让我们选择起来十分困难。因此，本文将介绍并分析这些大模型，从中选择出适合作为基座的模型。我们将深入探究这些模型的特点和性能，并分析其优缺点。本文旨在为大家提供选取基座模型的参考意见，帮助大家更好地复刻ChatGPT语言模型。

以下是目前已经开放的基座模型清单，本文将专注介绍已开源模型，而其他模型则请读者自行了解。

模型名称	发布时间	发布机构	语言	参数规模	Tokens规模	模型结构	是否开源
T5	2019-10	Google	英	13B		T5-style	√
GPT-3	2020-05	OpenAI	英	175B	300B	GPT-style	x
CPM1	2021-03	Tsinghua	中	2.6B		GPT-style	√
LaMDA	2021-05	Google	英	137B	2.8T	GPT-style	x
CPM2	2021-07	Tsinghua	中	11B/198B(MoE)		Encoder-Decoder	√
Jurassic	2021-08	AI21	英	178B	300B	GPT-style	x
MT-NLG	2021-10	Microsoft, NVIDIA	英	530B	270B	GPT-style	x
ERNIE 3.0	2021-12	Baidu	中	260B	300B	Multi-task	x
Gopher	2021-12	DeepMind	英	280B	300B	GPT-style	x
Chinchilla	2022-04	DeepMind	英	70B	1.4T	GPT-style	x
PaLM	2022-04	Google	多语言	540B	780B	GPT-style	x
OPT	2022-05	Meta	英	125M-175B	180B	GPT-style	√
BLOOM	2022-07	BigScience	多语言	176B	366B	GPT-style	√
GLM-130B	2022-08	Tsinghua	中、英	130B	400B	GLM-style	√
Wenzhong	2022-09	IDEA	中	3.5B		GPT-style	√
LLaMA	2023-02	Meta	多语言	7B-65 B	1.4T	GPT-sryle	√
MOSS	2023-04	FUDAN	中、英	16B	700B	GPT-sryle	√

参考链接：https://zhuanlan.zhihu.com/p/614766286

微调模型

模型名称	发布时间	发布机构	语言	模态	参数规模	基础模型	是否开源
GPT-3.5	2021-06	OpenAI	多语言	文本	175B	GPT-3	x
FLAN	2021-09	Google	英	文本	137B	LaMDA	x
T0	2021-10	Hugging Face	英	文本	13B	T5	√
Flan-PaLM	2022-10	Google	多语言	文本	540B	PaLM	x
BLOOMZ	2022-11	Hugging Face	多语言	文本	176B	BLOOM	√
mT0	2022-11	Hugging Face	多语言	文本	13B	mT5	√
ChatGPT	2022-11	OpenAI	多语言	文本	173B	GPT3.5	x
Alpaca	2023-3-14	StandFord	英	文本	7B	LLaMA	√
ChatGLM	2023-3-14	Tsinghua	中、英	文本	{:[6B],[130B]:}	GLM	√
GPT-4	2023-3-14	OpenAI	多语言	文本、图像	√	GPT-4	x
ERNIE Bot	2023-3-15	Baidu	中	文本、图像	260B√	ERNIE	x
Bard	2023-3-21	Google	英	文本	137B	LaMDA	x
MOSS	2023-4	FUDAN	中、英	文本	16B	CodeGen	√

CPM

CPM模型是由智源、清华开发的一种基于大规模中文训练数据进行生成式预训练的中文预训练语言模型。该模型具有26亿个参数和100GB中文训练数据，是目前最大的中文预训练语言模型之一。CPM模型在各种中文自然语言处理任务中表现出色，包括对话、文章生成、填空测试和语言理解等任务。

论文标题：CPM: A large-scale generative Chinese Pre-trained language model

论文地址：CPM: A large-scale generative Chinese Pre-trained language model - ScienceDirect

模型结构：基于Transformer的自回归模型，GPT类结构；

训练数据：100G中文语料；

改动点：较GPT3采用更大的batch_size。

OPT

OPT-175B是Meta AI在2022年5月3日发布的一款开放模型，是模型参数超过千亿级别的开放模型之一。相比于GPT-3，该模型更加开放便于访问，并在以下五个方面表现出其开放性：

论文：该模型提供了某些能力可能存在的证明，并揭示可以建立在此基础上的一般思想。
API访问：该模型允许研究人员探索和评估现有基础模型的能力和局限性，例如推理和偏差。
模型权重：研究人员可以使用该模型的权重来逐步改进现有模型、开发更深入的可解释技术和更有效的微调方法。
训练数据：该模型让研究人员更好地理解训练数据在模型行为中的作用，例如情境学习从何而来。
计算：该模型允许研究人员尝试新的架构、培训目标/程序、进行数据集消融，并在不同领域开发全新的模型。虽然这种方法具有最大的理解和改进潜力，但也相当昂贵。

作为一个大规模的语言模型，OPT-175B具有超过1750亿个参数，是目前为止最大的语言模型之一。该模型通过在公开可用的数据集上进行训练，允许更多的社区参与了解这项基础新技术。为了保持完整性并防止滥用，Meta AI将在非商业许可下发布他们的模型，以专注于研究用例。该模型的访问权限将授予学术研究者、政府机构、民间社会和学术界组织的人员，以及世界各地的工业研究实验室。

项目地址：GitHub - facebookresearch/metaseq: Repo for external large-scale work

论文地址：https://arxiv.org/pdf/2205.01068.pdf

模型结构： Decoder Only

Model	#L	#H	d_model	LR	Batch
125M	12	12	768	6.0 e-4	0.5M
350M	24	16	1024	3.0 e-4	0.5M
1.3B	24	32	2048	2.0 e-4	1M
2.7B	32	32	2560	1.6 e-4	1M
6.7B	32	32	4096	1.2 e-4	2M
13B	40	40	5120	1.0 e-4	4M
30B	48	56	7168	1.0 e-4	4M
66B	64	72	9216	0.8 e-4	2M
175B	96	96	12288	1.2 e-4	2M

训练过程：

OPT与GPT3的训练过程比较如下：

Model	GPU	FLOPs	days
OPT	1024 80G A100	√4.30E+23	33
GPT3	10,000 32G V100	√3.14E+23	14.8

Meta将OPT系列模型的训练过程记录在logbook中，地址如下：metaseq/README.md at main · facebookresearch/metaseq · GitHub。这个logbook主要记录了作者训练OPT系列模型的辛酸历程，包括遇到的一些问题、讨论分析以及解决方法。

有兴趣的可以仔细阅读原文，或者OPT logbook：训练大规模语言模型的一些经验。

总结如下，Meta主要遇到收敛/数值稳定性问题、机器故障问题。

面对收敛/数值稳定性问题：Meta主要采取降低学习率、参照成熟框架设置参数、切换激活函数的方法；
面对机器故障问题：Meta主要开发监控、自动化工具进行监测。

LLAMA

LLaMA（Large Language Model Meta AI），由 Meta AI 发布的一个开放且高效的大型基础语言模型，共有 7B、13B、33B、65B（650 亿）四种版本。其数据集来源都是公开数据集，无任何定制数据集，保证了其工作与开源兼容和可复现，整个训练数据集在 token 化之后大约包含 1.4T 的 token。

关于模型性能，LLaMA 的性能非常优异：具有 130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过 GPT-3（参数量达 1750 亿），而且可以在单块 V100 GPU 上运行；而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。

关于训练集，其来源都是公开数据集，无任何定制数据集，保证了其工作与开源兼容和可复现。整个训练数据集在 token 化之后大约包含 1.4T 的 token。其中，LLaMA-65B 和 LLaMA-33B 是在 1.4万亿个 token 上训练的，而最小的模型 LLaMA-7B 是在 1万亿个 token 上训练的。

论文标题：LLaMA: Open and Efficient Foundation Language Models

论文链接：https://arxiv.org/pdf/2302.13971.pdf

模型结构：

PreLayerNorm-RMSNorm-Root Mean Square Layer Normalization
ROPE旋转位置编码（替换绝对/相对位置编码）
SwiGLU激活函数（替换ReLU）-GLU Variants Improve Transformer

改动点：

过了1T的Token：过去的研究发现最好的性能不是在最大的模型上，而是在过了更多token的模型上；

与OpenAI提出大模型缩放法则不同的是，DeepMind认为当前许多大模型是训练不充分的；

OpenAI在《Scaling Laws for Neural Language Models》中，指出在给定计算量的时候，模型性能的提升主要在于增加参数规模而不是增加数据量；

DeepMind在《Training Compute-Optimal Large Language Models》中，指出在每条曲线的最小值的左侧，模型太小了——在较少数据上训练的较大模型将是一种改进。在每条曲线的最小值的右侧，模型太大——在更多数据上训练的较小模型将是一种改进。最好的模型处于最小值。

BLOOM

BLOOM 是 BigScience（一个围绕研究和创建超大型语言模型的开放协作研讨会）中数百名研究人员合作设计和构建的 176B 参数开源大语言模型，同时，还开源了BLOOM-560M、BLOOM-1.1B、BLOOM-1.7B、BLOOM-3B、BLOOM-7.1B 其他五个参数规模相对较小的模型。BLOOM 是一种 decoder-only 的 Transformer 语言模型，它是在 ROOTS 语料库上训练的，该数据集包含 46 种自然语言和 13 种编程语言（总共 59 种）的数百个数据来源。

论文标题：BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

论文链接：https://arxiv.org/pdf/2211.05100.pdf

模型结构：

核心介绍：

基于Megatron-LM GPT2模型开发，模型结构为Decoder-only类型；
ALiBi Positional Embeddings。它允许外推比训练模型的输入序列更长的输入序列，同时有助于加速训练收敛。因此，即使训练时使用长度为 2048 的序列，模型也可以在推理过程中处理更长的序列。思路来源于： Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation；
Embedding LayerNorm。在 embedding 层之后立即添加额外的归一化层（layer norm 层）。这个方法来源于 bitsandbytes^17库 (Dettmers et al., 2022)，作者的实验发现这样可以显著提高训练的稳定性。另外，模型最终的训练是在 bfloat16 下进行的。思路来源于：8-bit Optimizers via Block-wise Quantization

同时开发人员也记录了项目的开发过程：千亿参数开源大模型 BLOOM 背后的技术，关键信息如下：

基于Megatron-DeepSpeed 实现了 3D 并行以允许大模型以非常有效的方式进行训练。包括数据并行 (Data Parallelism，DP)、张量并行 (Tensor Parallelism，TP)、流水线并行 (Pipeline Parallelism，PP)。
用 FP16 训练巨型 LLM 模型是一个禁忌。FP16会产生精度溢出，使用BF16进行训练。
CUDA 融合核函数。为了快速高效地训练 BLOOM，有必要使用 Megatron-LM 提供的几个自定义 CUDA 融合核函数。特别地，有一个 LayerNorm 的融合核函数以及用于融合缩放、掩码和 softmax 这些操作的各种组合的核函数。Bias Add 也通过 PyTorch 的 JIT 功能与 GeLU 融合。这些操作都是瓶颈在内存的，因此将它们融合在一起以达到最大化每次显存读取后的计算量非常重要。因此，例如，在执行瓶颈在内存的 GeLU 操作时同时执行 Bias Add，运行时间并不会增加。这些核函数都可以在 Megatron-LM repository 代码库中找到。
硬件故障也颇有挑战。

WenZhong

闻仲语言模型出自IDEA研究院的封神榜模型系列，专注于生成任务，提供了多个不同参数量的生成模型，例如GPT2等。

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系，成为中文AIGC和认知智能的基础设施。

项目地址：GitHub - IDEA-CCNL/Fengshenbang-LM: Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系，成为中文AIGC和认知智能的基础设施。

GLM

GLM-130B 是清华大学与智谱AI共同研制的一个开放的双语（英汉）双向密集预训练语言模型，拥有 1300亿个参数，使用通用语言模型（General Language Model， GLM）的算法进行预训练。 2022年11月，斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测，GLM-130B 是亚洲唯一入选的大模型。GLM-130B 在广泛流行的英文基准测试中性能明显优于 GPT-3 175B(davinci)，而对 OPT-175B 和 BLOOM-176B 没有观察到性能优势，它还在相关基准测试中性能始终显著优于最大的中文语言模型 ERNIE 3.0 Titan 260B。GLM-130B 无需后期训练即可达到 INT4 量化，且几乎没有性能损失；更重要的是，它能够在 4×RTX 3090 (24G) 或 8×RTX 2080 Ti (11G) GPU 上有效推理，是使用 100B 级模型最实惠的 GPU 需求。

GLM介绍

论文标题：GLM: General Language Model Pretraining with Autoregressive Blank Infilling

论文地址：https://arxiv.org/pdf/2103.10360v2.pdfhttps://arxiv.org/pdf/2103.10360v2.pdf

训练目标：

$\max _\theta \mathbb{E}_{\boldsymbol{z} \sim Z_m}\left[\sum_{i=1}^m \log p_\theta\left(\boldsymbol{s}_{z_i} \mid \boldsymbol{x}_{\text {corrupt }}, \boldsymbol{s}_{\boldsymbol{z}_{maxθEz∼Zm[∑i=1mlogpθ(szi∣xcorrupt ,sz<i)]$

$\begin{aligned} & p_\theta\left(\boldsymbol{s}_i \mid \boldsymbol{x}_{\text {corrupt }}, \boldsymbol{s}_{\boldsymbol{z}_{=pθ(si∣xcorrupt ,sz<i)j=1∏lip(si,j∣xcorrupt ,sz<i,si,<j)$

模型结构：

改变层归一化、残差网络结构的顺序（避免出现数值错误）
新增线性层输出结果
使用GeLUs激活函数替代ReLU

微调方式：

对于分类任务，对于token分类，就使用目标token的表示；对于序列分类那就是使用cls的表示。
对于生成任务，partB 部分直接换成 mask 即可。

讨论分析：

BERT	XLNET	Encoder-Decoder	UniLM
BERT中不能很好处理连续的多个token; mask token是独立的，不能捕捉mask token之间的依赖关系。	xlnet使用了双流的注意力机制，改变了transformer的结构，增加了耗时。	使用了两个transformer模型实现了单向和双向注意力，加入token来识别mask span，浪费模型能力；训练和微调不一致。	在自编码框架下使用了mask来统一单双向的注意力。对于生成任务来说，还是不够高效。

与bert对比
bert是自编码模型，预测mask的字符。因为模型中的mask token是独立的，bert不能捕捉mask token之间的依赖性。bert的另一个缺点是不能预测多个连续的mask token，尤其是待预测长度未知情况下。

与xlnet的对比
都是自回归的模型。xlnet需要知道预测token的长度；使用双流注意力机制解决了信息泄漏的问题，改变了transfomer的结构，增加了耗时；xlnet决定一个token是否被独立预测。

与编码解码模型对比
T5也是处理的空白填充的任务目标，但是GLM使用了单个的transformer编码器学习单向和双向的注意力。通过共享参数使参数比编码解码模型更有效。T5在编码和解码阶段使用不同的位置编码，使用哨兵标记来识别不同的mask跨度，哨兵标记造成了模型能力的浪费和预训练微调的不一致性。

与UniLM对比
UniLM是通过在自编码框架下改变在双向，单向，互相之间的attention mask来统一预训练目标；由于自编码模型的独立假设，自回归模型不能完全捕捉当前token对于前面token的依赖。对于微调下游任务来说，自编码会比自回归更加低效。

GLM130B

130B的原因是该大小能够在一个A100服务器(40G*8)上进行推理
千亿模型训练的问题：硬件故障、梯度爆炸、内存溢出、3D并行、无法恢复优化器状态、TCP通信阻塞
[MASK]、[gMASK]分别用作短文本、长文本生成
结构优化点：RoPE、DeepNorm、GeLU
预训练：95%的MASK自回归任务、5%的多任务指令学习(T0、DeepStruct)
400B的Token，但是据估计130B模型需要4T的Token
GLM-130B FP16-需要260G显存存储模型权重

UniLM

许多人指出GLM和UniLM的模型结构非常相似。下面将对UniLM的模型结构进行详细介绍。

UniLM是微软研究院在Bert的基础上，最新产出的预训练语言模型，被称为统一预训练语言模型。它可以完成单向、序列到序列和双向预测任务，可以说是结合了AR和AE两种语言模型的优点，Unilm在抽象摘要、生成式问题回答和语言生成数据集的抽样领域取得了最优秀的成绩。

论文标题：Unified Language Model Pre-training for Natural Language Understanding and Generation

论文地址：https://arxiv.org/pdf/1905.03197.pdf

预训练阶段：

输入：Token Embedding、Position Embedding、Segment Embedding（区分任务目标）
预训练目标：随机掩码[MASK]语言模型+NSP
单向语言模型：predict the masked token of “x1x2 [MASK] x4”, only tokens x1, x2 and itself can be used.
双向语言模型：predict the masked token of “x1x2 [MASK] x4”, all tokens can be used.
Seq2Seq语言模型： given source segment t1t2 and its target segment t3t4t5, we feed input “[SOS] t1 t2 [EOS] t3 t4 t5 [EOS]” into the model. While both t1 and t2 have access to the first four tokens, including [SOS] and [EOS], t4 can only attend to the first six tokens.
训练过程：1/3训练双向语言模型；1/3训练Seq2Seq语言模型；1/6训练从左到右单向语言模型；1/6训练从右到左单向语言模型；BERT-Large作为初始化模型；15%概率掩码，80%为[MASK]，10%为随机Token，10%保持不变

微调阶段：

NLU任务：类似于BERT，取[SOS]表征句子输入
NLG任务：“[SOS] S1 [EOS] S2 [EOS]”. The model is fine-tuned by masking some percentage of tokens in the target sequence at random, and learning to recover the masked words. EOS也会被MASK

MOSS

MOSS是一个支持中英双语和多种插件的开源对话语言模型，moss-moon系列模型具有160亿参数，在FP16精度下可在单张A100/A800或两张3090显卡运行，在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到，后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

以下根据知乎回答总结MOSS的训练过程：

MOSS 001(OpenChat 001)

数据来源：从OpenAI的论文附录里扒了一些它们API收集到的user prompt，然后用类似Self-Instruct的思路用text-davinci-003去扩展出大约40万对话数据。
基座模型：16B基座（CodeGen）
实验结果：一月份的OpenChat 001就已经具备了指令遵循能力和多轮能力，而且还惊喜的发现它具有很强的跨语言对齐能力，它的基座预训练语料中几乎不存在中文，但是却可以理解中文并用英文回答。

MOSS 002

优化点：OpenChat 001不具备中文能力，不知道关于自己的信息（比如名字、能力等），且安全性较低
数据来源：一方面加入了约30B中文token继续训练基座，另一方面也加入了大量中英文helpfulness, honesty, harmlessness对话数据，这部分数据共计116万条对话，目前也全部已在huggingface开源：fnlp/moss-002-sft-data · Datasets at Hugging Face

MOSS 003

优化点1：继续加大中文语料的预训练，截止目前MOSS 003的基座语言模型已经在100B中文token上进行了训练，总训练token数量达到700B，其中还包含约300B代码。
优化点2：在开放内测后，我们也收集了一些用户数据，我们发现真实中文世界的用户意图和OpenAI InstructGPT论文中披露的user prompt分布有较大差异（这不仅与用户来自的国家差异有关，也跟产品上线时间有关，早期产品采集的数据中存在大量对抗性和测试性输入），于是我们以这部分真实数据作为seed重新生成了约110万常规对话数据，涵盖更细粒度的helpfulness数据和更广泛的harmlessness数据。此外，还构造了约30万插件增强的对话数据，目前已包含搜索引擎、文生图、计算器、方程求解等。

基座模型选取

基于训练一个中文ChatGPT模型的出发点，需要选用具备中文支持性高、模型参数量大且已开源的基座模型。我们的候选项包括GLM、LLAMA、MOSS、BLOOM、CPM、闻仲模型，接下来将在这些候选项中进行比较，以确定最终选项。

首先是CPM模型，其训练语料中，文章、对话语料居多，模型参数量较少，微调后的模型泛化性较差，生成结果与对话风格较大；
另外，闻仲模型，模型参数量同样较小；
接下来，LLAMA模型，尽管该模型在英文支持性方面表现不错，但据统计其Tokenizer中仅包括约700个中文字符，中文支持性较差；
BLOOM模型虽然支持多语言，但是其中文语料仅占16%，这意味着其可能无法提供足够的中文知识；

GLM模型则是支持中英文双语的130B模型，是亚洲唯一入选斯坦福大模型评测的模型。GLM模型在中文支持性和模型参数量方面表现出色，此外，该模型已开源，可以为我们提供强大的基座模型。

综上所述，GLM模型是复刻中文ChatGPT的一个较优基座模型选择。

当然目前也有不少基于其他基座模型的工作，比如：

GitHub - ymcui/Chinese-LLaMA-Alpaca: 中文LLaMA&Alpaca大语言模型+本地CPU/GPU部署 (Chinese LLaMA & Alpaca LLMs)

GitHub - LianjiaTech/BELLE: BELLE: Be Everyone’s Large Language model Engine（开源中文对话大模型）

总结

本文着重探讨如何选取一个好的预训练语言模型作为基座，最终选择在中文支持性和模型参数量方面表现出色的GLM模型。后续系列包括：

复刻ChatGPT语言模型系列-（二）参数高效微调
复刻ChatGPT语言模型系列-（三）指令学习微调
复刻ChatGPT语言模型系列-（四）文本生成解码
复刻ChatGPT语言模型系列-（五）强化学习RLHF
复刻ChatGPT语言模型系列-（六）LLM模型评估

《智守数据堡垒——AI驱动的MySQL数据治理合规框架》墨夶数据库学习资料2 人工智能 mysql 数据库
在当今数字化转型加速的时代，企业面临着前所未有的数据挑战。一方面，海量的数据为企业带来了巨大的商业价值；另一方面，如何确保这些数据的安全性、一致性和合法性成为了亟待解决的问题。尤其是在金融、医疗等高度监管行业中，任何数据泄露或不当使用都可能导致严重的法律后果和社会影响。为此，构建一个既高效又能满足法律法规要求的数据治理体系显得尤为重要。今天，我们将探讨一种创新性的解决方案——利用人工智能（AI）技
ollama教程——使用LangChain调用Ollama接口实现ReAct walkskyer ollama入门教程 langchain react.js 前端
ollama入门系列教程简介与目录相关文章:Ollama教程——入门：开启本地大型语言模型开发之旅Ollama教程——模型：如何将模型高效导入到Ollama框架Ollama教程——兼容OpenAIAPI：高效利用兼容OpenAI的API进行AI项目开发Ollama教程——使用LangChain：Ollama与LangChain的强强联合Ollama教程——生成内容API：利用Ollama的原生AP
ChatGPT大模型极简应用开发-目录 uncle_ll #GPT chatgpt 人工智能 LLM 大模型 GPT
引言要理解ChatGPT，了解其背后的Transformer架构和GPT技术一路的演进则变得非常必要。ChatGPT背后的LLM技术使普通人能够通过自然语言完成过去只能由程序员通过编程语言实现的任务，这是一场巨大的变革。然而，人类通常容易高估技术的短期影响而低估长期影响。进一步学习关于LLM技术原理的论文、视频、图书等。在阅读这本书或者后续学习过程中，你有任何疑问都可以随时请教ChatGPT等工具
Pytorch 三小时极限入门教程 power-辰南人工智能深度学习 pytorch 人工智能
一、引言在当今的人工智能领域，深度学习占据了举足轻重的地位。而Pytorch作为一款广受欢迎的深度学习框架，以其简洁、灵活的特性，吸引了大量开发者投身其中。无论是科研人员探索前沿的神经网络架构，还是工程师将深度学习技术落地到实际项目，Pytorch都提供了强大的支持。本教程将带你从零基础开始，一步步深入了解Pytorch的核心知识，助你顺利踏上深度学习的征程。二、Pytorch基础环境搭建安装An
思维图GOT：用大语言模型解决复杂问题硅谷秋水大模型人工智能机器学习语言模型人工智能自然语言处理
23年8月份来自瑞士和波兰的大学以及一个数据公司Cledar的大语言模型论文“GraphofThoughts:SolvingElaborateProblemswithLargeLanguageModels“。思维图（GoT）是一个框架，提高大型语言模型（LLM）中的提示功能，超出思维链或思维树(ToT)等范式所提供的能力。GoT的关键思想和主要优势是能够将LLM生成的信息建模为任意图，其中信息单位
【国内直连】国内可用的ChatGPT中文版镜像集合（2025年1月更新）
更新时间：2025年01月18日全方位指南，带您轻松使用ChatGPT中文版，支持GPT-4，无需！本文提供详细的ChatGPT中文版使用说明，包括镜像站推荐、官网注册教程以及常见问题解答，帮助您快速掌握ChatGPT的使用方法。目录什么是ChatGPT中文版？国内可用的ChatGPT中文版镜像网站推荐为什么选ChatGPT中文版ChatGPT官网与中文版的区别如何快速开始使用ChatGPT中文版
文心一言 vs gpt-4 全面横向比较周盛欢文心一言
文心一言是中国百度公司研发的大规模语言模型，它有超多的参数，就像一个超级大脑，特别擅长理解并生成中文内容。在聊天啊、写文章啊、答题这些任务上表现不错，对中国文化和国情有更深的理解和适应能力。GPT-3.5是OpenAI公司的上一代大模型，比GPT-3更智能一些。而GPT-4作为其升级版，大家预计它会有更大的模型参数量，更强的学习和推理能力，可能会在各种语言任务上实现更大突破。所以，如果拿文心一言跟
NVIDIA下一代Hopper架构曝光，采用5nm工艺晶体管超1400亿 Java小海. 架构人工智能后端程序人生 java
据媒体报道，NVIDIA下一代主要面向高性能计算、人工智能等Hopper架构，将会采用5nm工艺制程，晶体管多达1400亿个，面积核心达到了900平方毫米，是有史以来最大的GPU。作为参考，NVIDIA自家旗舰Ampere架构的A100为542亿个晶体管（每平方毫米约为6560万个晶体管），AMD阵营中采用Aldebaran架构的InstinctMI200系列为582亿个晶体管（每平方米约为736
NVIDIA Hopper解说白总Server redis 数据库缓存 rust mongodb 大数据数据仓库
NVIDIAHopper架构是NVIDIA推出的面向高性能计算（HPC）和人工智能（AI）的最新一代GPU架构。它代表了NVIDIA在加速计算领域的最新进展，旨在为AI训练和推理、HPC应用提供前所未有的性能提升。NVIDIAHopper架构和基于该架构的GPU产品H100的详细信息：NVIDIAHopper架构技术特点：第四代TensorCore：Hopper架构引入了第四代TensorCore
LLMs，即大型语言模型 maopig AI 语言模型人工智能自然语言处理
LLMs，即大型语言模型，是一类基于深度学习的人工智能模型，它们通过海量的数据和大量的计算资源进行训练，可以理解和生成自然语言。LLMs的核心架构是Transformer，其关键在于自注意力机制，使得模型能够同时对输入的所有位置进行“关注”，从而更好地捕捉长距离的语义依赖关系。LLMs在众多领域都有广泛的应用，如自然语言理解（NLU），语言生成，以及语音识别和合成等。例如，它们能够理解人类的语言
【论文速读】| 利用大语言模型在灰盒模糊测试中生成初始种子云起无垠论文速读/精读语言模型 p2p 人工智能
基本信息论文标题:HarnessingLargeLanguageModelsforSeedGenerationinGreyb0xFuzzing作者:WenxuanShi,YunhangZhang,XinyuXing,JunXu作者单位:NorthwesternUniversity,UniversityofUtah关键词:Greyb0xfuzzing,LargeLanguageModels,Seed
第79期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.TrojanWhi
第60期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能语言模型网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.映射你的模型：评估
【LLM】大语言模型（LLMs）林九生人工智能语言模型人工智能自然语言处理
大型语言模型（LLMs）1.什么是大型语言模型？大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练，学习语言的语法、语义和各种语言特征，从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理：1.1定义大型语言模型是由大量参数组成的神经网络，这些参数通过在
全新 Hopper 架构的Transformer 引擎有什么特点？扫地的小何尚人工智能
Transformer引擎是全新Hopper架构的一部分，将显著提升AI性能和功能，并助力在几天或几小时内训练大型模型。Transformer模型是当今广泛使用的语言模型（例如asBERT和GPT-3）的支柱。Transformer模型最初针对自然语言处理用例而开发，但因其通用性，现在逐步应用于计算机视觉、药物研发等领域。与此同时，模型大小不断呈指数级增长，现在已达到数万亿个参数。由于计算量巨大，
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
chatgpt赋能python：Python：免费下载音乐的神器 atest166 ChatGpt python chatgpt 开发语言计算机
Python：免费下载音乐的神器Python是一种优秀的编程语言，在各个领域都有广泛的应用。如果你是一个音乐爱好者，那么Python可以帮助你轻松免费下载你喜欢的音乐。介绍在过去，许多网站和应用程序提供免费下载音乐的服务，但现在这些服务已经不复存在。然而，Python可以帮助你免费下载音乐，并且速度非常快。Python有许多库可以帮助你从网上下载免费音乐。其中，最著名的库是"youtube_dl"
《AI语言模型的关键技术探析：系统提示、评估方法与提示工程》 XianxinMao 人工智能语言模型自然语言处理
文章主要内容摘要1.系统提示(SystemPrompt)定义:用于设置模型行为、角色和工作方式的特殊指令重要性:定义模型行为边界影响输出质量和一致性可将通用模型定制为特定领域助手挑战:技术集成复杂兼容性问题效果难以精确预测2.模型评估方法创新方向:自一致性(Self-Consistency)评估PlanSearch方法强化学习(RL)应用核心特点:多次采样和交叉验证策略空间探索动态权重调整实践价值
《多模态语言模型：一个开放探索的技术新领域》 XianxinMao 语言模型人工智能算法
核心主题多模态语言模型的特点仍处于探索和定义阶段没有固定的标准任务和评估方法研究方向高度开放技术路径主要存在两种方法：后期融合(LateFusion)从语言模型backbone开始添加图像编码器效果稳定，成本可控早期融合(EarlyFusion)从多模态数据集预训练效果尚不明显需要更大规模计算资源开放和透明的重要性促进知识累积和技术迭代降低技术准入门槛避免技术垄断便于安全性审计主要挑战技术层面数据
1.8 GPT-4：开创人工智能的新纪元少林码僧 AI大模型应用实战专栏人工智能
GPT-4：开创人工智能的新纪元自从OpenAI推出GPT-4以来，人工智能领域经历了显著的突破。作为“生成预训练转换器”家族中的最新成员，GPT-4不仅在功能上进行了提升，更在语言处理能力、理解深度以及适应性方面带来了全新的变革。本篇文章将深入探讨GPT-4的特点、创新以及它如何定义未来人工智能技术的发展。GPT-4的技术亮点1.规模与深度的进一步提升GPT-4的规模比前代模型更大，训练数据量和
第83期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.混乱中建立秩序：人
【Python】已解决：ModuleNotFoundError: No module named ‘sklearn‘ 屿小夏 python sklearn 人工智能
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
通过Java代码实现图片的放大和缩小
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
基于生成式人工智能的网联自动驾驶：通感融合决策技术罗伯特之技术屋行业信息处理技术与政策研究专栏人工智能自动驾驶机器学习
【摘要】探讨了生成式人工智能在网联自动驾驶技术中的潜在价值。现有研究主要侧重于传统感知决策和车联网技术，但却忽视了生成式人工智能在推动自动驾驶方面的重要作用。首先讨论了生成式人工智能技术如何提高自动驾驶决策、训练、感知和导航等模块的性能，接着探讨了其在融合了语义通信、通感一体和新型空口技术的下一代车联网中的角色，然后提出了基于人工智能代理的网联自动驾驶模型，最后强调生成式人工智能是实现车辆高级别自
人工智能英语学习笔记「已注销」
基础篇单词mythologyn.ancientmythsingeneral;ideasthatmanypeoplethinkaretruebutthatdonotexistorarefalse神话Examples:AsatyrishalfmanandhalfgoatinGreekandRomanmythology.在希腊和罗马神话中，森林之神是半人半羊的样子。Thishasbeenwellillu
从小白到高手：人工智能学习中的挑战与突破博雅智信人工智能深度学习机器学习 python 大语言模型
引言：人工智能学习之路充满挑战学习过程中常见的问题与困境环境安装与配置问题简单报错反复调试，时间浪费大学习进度慢，难以找到合适的方向网上资料过多，选择困难导师催进度，任务压力大不敢多问：与同事、师兄师姐的尴尬理论与实践脱节，缺乏实战经验专注力不足，容易被干扰找一个师傅带着的好处高效解决问题，避免走弯路个性化学习路线与系统化知识框架实战经验的传授与导师的成长指导1.引言：人工智能学习之路充满挑战人工
文秘要学计算机吗,高考志愿：计算机专业和文秘专业哪个适合女生？ weixin_39707851 文秘要学计算机吗
原标题：高考志愿：计算机专业和文秘专业哪个适合女生？肯定是文秘专业更加适合女生吧，这对绝大部分女生来说是适用的。其实目前对高中毕业之后读大专的话，能够选择的热门专业不多。目前这个文秘类的专业，像这种速度方向的专业的话，还算是比较热门的。对于绝大部分大专生而言，尤其是女生而言是比较适合报考这种文秘类的专业的。因为目前来说像文秘类这种专业，社会上的需求比较大的。虽然目前有出现这种人工智能方面的软件，减
计算机专业毕业可以做文秘吗,高考志愿：计算机专业和文秘专业哪个适合女生？... ShuYini 计算机专业毕业可以做文秘吗
原标题：高考志愿：计算机专业和文秘专业哪个适合女生？肯定是文秘专业更加适合女生吧，这对绝大部分女生来说是适用的。其实目前对高中毕业之后读大专的话，能够选择的热门专业不多。目前这个文秘类的专业，像这种速度方向的专业的话，还算是比较热门的。对于绝大部分大专生而言，尤其是女生而言是比较适合报考这种文秘类的专业的。因为目前来说像文秘类这种专业，社会上的需求比较大的。虽然目前有出现这种人工智能方面的软件，减
华为 Ascend 平台 YOLOv5 目标检测推理教程 Lunar* 目标检测华为 YOLO 目标检测
1.背景介绍随着人工智能技术的快速发展，目标检测在智能安防、自动驾驶、工业检测等领域中扮演了重要角色。YOLOv5是一种高效的目标检测模型，凭借其速度和精度的平衡广受欢迎。华为Ascend推理框架（ACL）是AscendCANN软件栈的核心组件，专为AscendAI加速硬件（如Atlas300I）设计，可实现高性能的深度学习推理。在本文中，我们将介绍如何基于华为AscendACL推理框架对YOLO
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

复刻ChatGPT语言模型系列-（一）基座模型选取

前言

微调模型

CPM

OPT

LLAMA

BLOOM

WenZhong

GLM

GLM介绍

GLM130B

UniLM

MOSS

MOSS 001(OpenChat 001)

MOSS 002

MOSS 003

基座模型选取

总结

你可能感兴趣的:(chatgpt,语言模型,人工智能)