OneFlow深度学习框架

开源语言大模型演进史：高质量基础模型竞赛

本文是开源 LLM 发展史系列文章的第二部分。第一部分《开源语言大模型演进史：早期革新》回顾了创建开源 LLM 的最初尝试。本文将研究目前可用的最受欢迎的开源基础模型（即已进行预训练但尚未微调或对齐的语言模型）。

（本文作者为Rebuy公司AI总监、深度学习博士Cameron R. Wolfe。以下内容经授权后由OneFlow编译发布，转载请联系授权。原文：https://cameronrwolfe.substack.com/p/the-history-of-open-source-llms-better）

作者 | Cameron R. Wolfe

OneFlow编译

翻译｜宛子琳、杨婷

语言大模型（LLM）的开源研究非常有价值，它旨在使一项强大而有影响力的技术实现民主化。虽然目前开源 LLM 已得到广泛应用和研究，但最初，它的发展却并不顺利，经历了一些难以克服的困难。

换句话说，最初的开源 LLM 表现不佳，受到了严厉批评。本文将探讨这一系列研究，这些研究通过为所有人提供高质量的预训练 LLM 改善了上述局面。考虑到预训练语言模型的高昂成本，在这里我们将主要探讨具有重大影响力的模型，这些高质量基础模型使得人们能够以相对低廉的成本进行研究。

“虽然训练方法看似简单，但 LLM 的强大能力令人惊叹。”——引自[14]

引自[10, 12, 14, 15]

开源 LLM 的早期阶段

在本系列的第一部分，我们探讨了开源 LLM 的早期研究，其间提出了一些重要的基础模型，如 OPT 和 BLOOM 。然而，与闭源预训练模型（如 GPT-3）相比，人们认为这些模型的表现普遍较差。我们该如何解决这一问题？首先，我们需要更深入了解 LLM 的训练过程。

训练 pipeline：如下图所示，LLM 的训练过程分为多个步骤。首先，我们需要在大量原始文本上对模型进行预训练。其次，我们需要使用 SFT 和 RLHF 等技术对模型进行对齐。最后，通过进一步的微调或在上下文中学习，使 LLM 更好地适应特定任务。

最近，强有力的实证证据表明：语言模型的大部分知识都是在预训练阶段获得。对齐过程只是教会了模型如何正确地格式化或显化在预训练中获得的知识。正如 LIMA 提出的，这个想法被称为“表面对齐假设（Superficial Alignment Hypothesis）“。虽然这个假设看似与本文主题不完全相关，但我们从中学到了重要的一点：即经过不充分预训练的模型不太可能通过微调或对齐“修复”。

“模型的知识和能力几乎都是在预训练过程中获得的，而对齐过程则教会了模型与用户交互时应使用的子分布格式。” ——引自 [3]

如何解决？鉴于初始开源 LLM 的质量较差，如果要取得研究进展，社区就必须从零开始创建高质量的基础模型，这一点很快就得到了明确。此外，这些模型需要在更多的数据上进行预训练，以提升能力。然而，由于高昂的预训练成本（尤其在大量数据上执行时），创建更好的开源基础模型必须由资金充足的组织（如 Meta 或 MosaicML ）来承担，他们可以负担训练这些模型的成本，并将其免费提供给社区中的其他人使用。

创建更好的基础模型

在开源 LLM 的早期发展阶段，由于其质量较差，未能得到广泛的使用和探索，但这一问题很快就得到了解决。接下来，我们将回顾几种模型，这些模型通过强大的预训练 LLM，改变了上述态势，使开源 LLM 广泛可用。

LLaMA：开源模型质量的飞跃

LLaMA [1] 是最早发布的开源且高质量的预训练 LLM 之一。但 LLaMA 并非单一模型，而是包含多个 LLM 的套件，其模型规模从 70 亿到 650 亿个参数不等。这些模型在性能和推理效率之间作了不同的权衡。尽管 LLaMA 不能商用（仅限于研究），但作为一个具有重要影响力的提案，它从多个方面推动了开源 LLM 的研究。

（引自[1]）

数据：受 Chinchilla [2]的启发，LLaMA 模型是在一个超 1.4 万亿个文本词元的语料库上进行预训练的。这个预训练数据集比之前的开源 LLM 要大得多。数据的来源和分布如上图所示。有趣的是，LLaMA 仅使用公开可用的数据来源进行预训练，这意味着，任何具备足够计算能力的人都可以复制整个预训练过程。

“GPT-4从各种商业许可、创作且公开可用的数据来源中进行学习，其中可能包括公开的个人信息。”——来自GPT-4博文

这种特性尤其令人向往，许多专有 LLM 使用的是不公开的内部训练数据。简而言之，LLaMA 从各个方面为提高 LLM 的透明度和开放性迈出了重要一步。

（引自[1]）

效果提升：与之前的模型相比，LLaMA 代表着开源 LLM 表现的重大飞跃。尽管模型表现仍落后于顶级的专有 LLM（如 ChatGPT 或 GPT-4 ），但其尚未对齐。值得注意的是，LLaMA-13B 与 GPT-3 [3]的表现相当，而 LLaMA-65B 在多种情况下的表现都优于 PaLM [4]，这表明 LLaMA 套件的表现与其他广泛应用的基础模型相当。详细指标请参考上方表格。

（引自[5, 6, 7, 8]）

开源模型的爆炸式增长：LLaMA 发布后最有趣的一点是随之而来的开源 LLM 研究浪潮。LLaMA 模型的权重公开之后，开源研究社区迅速发布了各种不同的模型变体和软件包。这些迭代包括从 LLaMA 的微调版到用于在笔记本电脑上高效运行任何 LLaMA 模型推理的 C++ 库，真正展现出开源研究的优势。我们仅用了几周时间，就从仅能通过 API 与这些强大模型交互，变为可以在笔记本电脑上运行它们！

MPT：高质量、可商用且开源的LLM

(from [10])

尽管 LLaMA 给人留下了深刻印象，但该套件中的模型均不能商用——它们仅从研究角度具有价值。幸运的是，LLaMA 发布后很快被 MosaicML 开发并发布了可商用（采用 Apache 2.0 许可发布）的 MPT 套件。首先发布的是 MPT-7B [9]，它引起了广泛关注（基本上是LLaMA-7B 的商用版）。实际上，在更大的 MPT-30B [10]模型发布之前，MPT-7B 在 HuggingFace 上获得了超300万次下载量！

(from [9, 10])

这两个模型的主要区别在于：

它们使用略有不同的数据混合进行预训练，请参考上图。
MPT-30B 使用更长的上下文长度进行训练，达到了8千个词元。

然而，这两个模型的表现都十分出色，适合商用，在人工智能社区广受欢迎。

(from [9])

MPT是否达到了大众的期待？尽管 LLaMA 显著提升了开源 LLM 的 SOTA 表现，但 MPT 套件能够与之媲美。特别是，LLaMA-7B 模型在多个标准基准测试中的效果可与 MPT-7B 相媲美（可参考上图）。此外，MPT-30B 模型效果也与 GPT-3 相当。与类似规模的开源模型（如 LLaMA-30B 和 Falcon-40B）相比，MPT-30B 的表现稍显逊色，具体详见下图。然而，MPT-30B 在编码相关任务上表现更好，并且可以在单个 GPU 上进行部署（通过量化技术）。

（引自 [10]）

MPT 变体：除预训练 MPT-7B 和 MPT-30B 模型之外，还发布了多种经微调的 MPT 模型，如 instruct 和 chat 4 等版本。此外，通过在数据上微调，创建了“StoryWriter”版本的 MPT-7B 模型，该版本使用了 64K 词元上下文长度的微调数据。相比微调，预训练 LLM 的成本相对较高，通过微调可以以较低成本创建各种不同的 MPT 变体。具体详见下图。

但不止于此！MPT 模型非常实用（尤其对于从事商业应用的人士而言），除此之外，这些模型还搭载了一整套由 MosaicML 发布的完整软件工具（即 LLM foundry）。这套开源代码可用于 MPT 模型的预训练和微调，使 MPT 套件成为了极具价值的工具，可在各种专门的应用场景中进一步探索 LLM 的应用。

Falcon：开源模型质量的新高峰

（引自 [1]）

虽然在开源 LLM 领域已经取得了明显进展，但相当长的一段时间里，开源模型的表现仍落后于专有 LLM。然而，Falcon 套件的发布[11]首次真正实现了与专有 LLM 相媲美的质量，为开源领域提供了可靠的替代选择。Falcon提供了两个变体——Falcon-7B 和 Falcon-40B。除商业许可之外，这些 Falcon 模型使用了一个庞大且经精选的语料库还进行预训练，因此表现优秀。值得一提的是，Falcon-40B 的 instruct 变体在 OpenLLM 排行榜上表现出色（明显领先），这一优势持续了数月。

“通过对数据质量和 LLM 现有观念的挑战，只要使用经充分过滤（filtering ）和去重的网络数据训练，模型表现就能与使用精选数据训练的模型相媲美。” ——引自[12]

从网络上整理数据：Falcon 模型在一个名为 RefinedWeb [12] 的巨大文本语料库上进行训练，其中包含超 5 万亿个词元。实际上，Falcon-7B 和 Falcon-40B 的预训练仅使用了 RefinedWeb 数据集中的 1.5 万亿个词元和 1 万亿个词元。尽管大多数 LLM 模型通常是在经过精选的公共数据源上进行预训练，但 Falcon 的开发者选择利用网络数据（即 CommonCrawl）构建他们自己的预训练数据集。为了筛选这些数据，他们创造了一个全新的 pipeline，这个 pipeline 使用了简洁有效的组件。可参考下图获取详细信息。

（引自[12, 13]）

RefinedWeb 语料库的例子表明，可以从网络上有效管理大量高质量文本数据（超出了之前探索的数据集规模）。经过滤后，通过这些数据训练的模型效果甚至可以优于通过精选数据源训练的同类模型。

（引自[12]）

上图为 Falcon-7B 和 Falcon-40B 的具体训练数据集。值得注意的是，Falcon-7B 仅使用了英语数据进行训练，而 Falcon-40B 使用了多种欧洲语言进行预训练。

新的 SOTA。目前，尚未有任何关于 Falcon 模型的公开信息。因此，我们只能通过 OpenLLM 排行榜对这些模型进行正式评估，其中 Falcon-40B 的表现引人注目，特别是 Falcon-40B-Instruct，它的表现明显优于其他模型，曾被认为是 SOTA 模型。详细信息可参考下图。

（引自开源 LLM 排行榜）

从定性角度来说，一些业内人士认为，基于 LLaMA 的模型在效果上优于 Falcon-40B。虽然我们需要了解不同的看法和见解，但这些观点都带有主观性。在标准化自然语言基准测试中，Falcon LLM 的表现非常出色，长期保持着开源模型中的 SOTA 表现。

LLaMA-2：当前的 SOTA 模型

（引自[14]）

尽管 Falcon-40B 在一段时间内曾是最先进的开源 LLM，但最近发布的 LLaMA-2 系列模型取代了它的领先地位。与 LLAMA-1 类似，LLaMA-2 [14] 由几个不同的 LLM 组成，参数大小从 70 亿到 700 亿不等，且仅使用公开可用的数据进行预训练。LLAMA-2 模型的预训练和微调版均已发布，但由于我们专注于开源基础模型领域，因此本部分仅介绍了预训练模型。

“虽然有一些公开发布的预训练 LLM（如BLOOM）在质量上能与闭源预训练的 LLM（如GPT-3和 Chinchilla）相匹敌，但这些模型都不适合作为 ChatGPT、BARD和 Claude 等闭源产品 LLM 的替代品。”——引自[14]

LLaMA-2 发布了一组在大规模数据集上进行预训练的基础模型，拥有更好的表现，这进一步缩小了开源和闭源语言模型之间的差距。不久后我们将见证，这些模型虽无法与专有模型的表现相媲美，但它们比以往的任何开源模型的表现都更接近于专有模型。

（引自[14]）

不同之处？除了一些细微（但影响深远）的差别之外，LLaMA-2 采用的方法与其之前版本的模型非常相似。首先，LLaMA-2 模型预训练的数据量增加了 40% 以上，总计达 2 万亿个词元，而 LLaMA-1 的数据量为 1.4 万亿个词元。此外，LLaMA-2 模型使用稍长的上下文长度进行训练，较大的模型在其底层架构中使用分组查询注意力 (GQA)。有趣的是，作者在[14]中指出，LLaMA-2 的预训练设置了知识更丰富的数据样本源。这样的改变是为了强调事实来源，增加知识量，减少幻觉。

（引自[15]）

什么是GQA？正如[15]中提出的，GQA 是一种对多头自注意力机制（multi-headed self-attention）的修改，旨在提高 LLM 的推理效率。在典型的多头自注意力机制中，存在N个查询（query）、键（key）和值（value），形成了 N 个自注意力头。而在 GQA 中，我们将这 N 个头分为多个组，每个组内共享键头和值头，如上图所示。这种方法实际上是标准多头自注意力和多查询注意力之间的一种插值方法，通过在所有 N 个头上的共享键和值的投影来实现。研究发现[15]，GQA 在保持多头自注意力性能的同时，能够显著提高推理速度，与多查询注意力相当。

（引自[14]）

LLaMA-2 效果优越。与流行的开源模型（如MPT、Falcon和LLaMA-1）相比，LLaMA-2 的表现十分出色。事实上，LLaMA-2-70B 在所有任务中都创造了开源 LLM 的新 SOTA，如上图所示。但值得注意的是，LLaMA-2 在基于编码的任务（例如 HumanEval）方面表现相对较差，这点受到了一定的批评。

与专有模型相比，LLaMA-2 基础模型的表现相对较差。然而，这个比较是与经过对齐的模型（如GPT-3.5、GPT-4等）进行的。与其他流行的基础 LLM（如PaLM [4]）相比，LLaMA-2 的表现仍然非常出色。

商业许可。LLaMA-1 只能用于研究，而 LLaMA-2 则采用商业许可方式发布，这意味着像 MPT 和 Falcon 一样，LLaMA-2 模型可以用于商业应用。但 LLaMA-2 的许可并非标准的 Apache 2.0，它有一些注意事项需要从业者考虑。其中最重要的是，任何由 LLaMA-2 提供支持的拥有超过 7 亿月活用户的实体或应用都必须从 Meta（元数据公司）获得许可证后才能使用 LLaMA-2。

开源LLM的发展趋势

鉴于 LLaMA、MPT、Falcon 和 LLaMA-2 在质量上相比以往的模型有了较大突破，那么当前的开源 LLM 为何能取得如此出色的表现呢？下文简要解释了这些模型的几个关键特性，这些特性赋予了它们出色的表现，并推动了它们迅速受到关注。特别是，这些模型通过大量数据进行预训练，并且它们特别强调推理效率。

更好的数据=更好的效果！

预训练数据集规模是当前开源 LLM 与之前模型的关键区别。虽然 OPT 和 BLOOM 等模型分别使用了 1800 亿和 3410 亿个词元进行训练，但当前的开源模型使用了规模更大的预训练数据集：

LLaMA：1.4 万亿词元
MPT：1 万亿词元
Falcon：1-1.5 万亿词元
LLaMA-2：2 万亿词元

与之前的模型相比，当前开源 LLM 的预训练数据量（几乎）增加了一个数量级！事实上，这些预训练数据集的规模与专有 LLM 使用的数据集规模相当。例如，MassiveText 数据集（用于训练 Gopher[13]和Chinchilla[2]）包含约 2.3 万亿个词元，尽管在预训练时实际上只使用了其中的一个子集。见下图。

扩展并非一切！除大幅增加预训练数据量外，目前的开源 LLM 还密切关注数据的构成和质量，这是效果提升的关键。例如，在 MPT 的训练数据集中增加了代码的比例，从而提升了模型在与编程相关任务上的表现。此外，Falcon-40B 提出了一种全新 pipeline，用于从网络上构建高质量的文本语料库。而 LLaMA-2 则声称使用了更新的数据 pipeline 和混合方式进行预训练。总之，关注预训练数据集的质量和组成似乎是近期开源 LLM 研究的共同趋势。

“我们执行了更严格的数据清理，更新了数据组合，增加了 40% 的总词元，将上下文长度加倍，使用了分组查询注意力 (GQA) ，以提高模型的推理可扩展性。”——（引自[14]）

优化以加快推理速度

在选择使用开源或专有的 LLM 时，从业者需要考虑的不仅仅是效果。付费语言模型 API 可能在广泛的任务范围内取得令人印象深刻的表现，但它们通常无法针对特定领域的数据进行微调。然而，使用开源 LLM 构建应用程序时，我们需要考虑模型的部署成本。考虑到托管 LLM 的困难，近期的开源模型更加注重快速和简便的推理过程。实际上，MPT-30B [10] 经过了专门设计，以便在单个 GPU 上进行部署。

（引自[15][16][17]）

修改后的架构。除了比大多数专有模型略小之外，当前的开源 LLM 还采用了各种架构技巧（如上图所示）来加速推理过程，例如：

低精度层范数
Flash Attention
多查询注意力
并行Transformer
分组查询注意力

此外，当前的开源 LLM 还采用了其他几种架构修改（例如 RoPE 嵌入、ALiBi、SwiGLU 激活等）来提高模型效果。当前的开源 LLM 对纯解码器 Transformer 架构进行了简单修改，以提高性能、加快推理速度。

结语

本文研究了开源 LLM 的发展历程，从最初的低质量模型（如BLOOM和OPT）到最近的强大基础模型（如LLaMA和MPT）的发展演变。近期的模型主要关注更大、更优质的预训练数据集，从而显著提高模型质量。

由于高质量的基础模型是任何 LLM 应用的基础要求，这些模型对于提升开源 LLM 的受欢迎程度产生了重要影响。如今，任何从业者都可以利用这些强大的基础 LLM 进行研究或商业应用，而无需从零开始预训练模型，从而节省了大量资金和时间。

参考文献（请上下滑动）

[1] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." arXiv preprint arXiv:2302.13971 (2023).

[2] Hoffmann, Jordan, et al. "Training compute-optimal large language models." arXiv preprint arXiv:2203.15556 (2022).

[3] Zhou, Chunting, et al. "Lima: Less is more for alignment." arXiv preprint arXiv:2305.11206 (2023).

[4] Chowdhery, Aakanksha, et al. "Palm: Scaling language modeling with pathways." arXiv preprint arXiv:2204.02311 (2022).

[5] Taori, Rohan et al. “Stanford Alpaca: An Instruction-following LLaMA model.” (2023).

[6] Chiang, Wei-Lin et al. “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality.” (2023).

[7] Geng, Xinyang et al. “Koala: A Dialogue Model for Academic Research.” (2023).

[8] Yuvanesh Anand, Zach Nussbaum, Brandon Duderstadt, Benjamin Schmidt, and Andriy Mulyar. GPT4All: Training an assistant-style chatbot with large scale data distillation from GPT-3.5-Turbo, 2023.

[9] “Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable Llms.” MosaicML, 5 May 2023, www.mosaicml.com/blog/mpt-7b.

[10] “MPT-30B: Raising the Bar for Open-Source Foundation Models.” MosaicML, 22 June 2023, www.mosaicml.com/blog/mpt-30b.

[11] “Introducing Falcon LLM”, Technology Innovation Institute, 7 June 2023, https://falconllm.tii.ae/.

[12] Penedo, Guilherme, et al. "The RefinedWeb dataset for Falcon LLM: outperforming curated corpora with web data, and web data only." arXiv preprint arXiv:2306.01116 (2023).

[13] Rae, Jack W., et al. "Scaling language models: Methods, analysis & insights from training gopher." arXiv preprint arXiv:2112.11446 (2021).

[14] Touvron, Hugo, et al. "Llama 2: Open Foundation and Fine-Tuned Chat Models." arXiv preprint arXiv:2307.09288 (2023).

[15] Ainslie, Joshua, et al. "GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints." arXiv preprint arXiv:2305.13245 (2023).

[16] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).

[17] Dao, Tri, et al. "Flashattention: Fast and memory-efficient exact attention with io-awareness." Advances in Neural Information Processing Systems 35 (2022): 16344-16359.

[18] Dao, Tri. "FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning." arXiv preprint arXiv:2307.08691 (2023).

注释：

1.GPT-4 的博客文章也提到语言模型掌握的大部分知识是来自预训练阶段！

2. Chinchilla 论文 [2] 提供了一些有价值的见解，论文表明，当我们同时增加模型预训练数据量时，增加语言模型大小（即参数数量）是最有效的。

3.尽管 LLM 的应用趋势是更长的上下文长度，但大多数开源 LLM（例如 LLaMA、Falcon 和 MPT-7B）都是使用相对较短的上下文长度（仅 2K 个词元）进行训练的。

4.MPT 模型的 Chat 版不能商用，因为它们的训练数据无法商用（例如 ShareGPT）。

5.该模型最近在 OpenLLM 排行榜上被 LLaMA-2-70B 的不同微调版所取代。

6.LLaMA-2 的微调版是 LLaMa-2-Chat，它使用了监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来针对聊天用例进行优化。

7.多种不同的LLM（甚至包括Falcon-40B）都使用多查询注意力来提高推理速度。

8.顺便一提，因为 FlashAttention-2 [18] 的发布，最近FlashAttention 变得更快了。

其他人都在看

GPU架构与计算入门指南
为什么开源大模型终将胜出
LoRA和QLoRA微调语言大模型
OpenAI规模经济与第二护城河
开源语言大模型演进史：早期革新
全面对比GPT-3.5与LLaMA 2微调
语言大模型推理性能工程：最佳实践

试用OneFlow: github.com/Oneflow-Inc/oneflow/

你可能感兴趣的:(开源语言大模型演进史：高质量基础模型竞赛)

燕山大学编译原理期末考试能运行就算成功经验分享
软件工程专业的首先，这一门课无法在三四天内速成（指零基础的）要是有考前才开始学到同学至少要提前一周开始学习（我觉得这都比较紧张，两周才算宽裕），b站上的速成课不全！不全！不全！不要想着完全看速成课，你要非这样我也没办法。考试范围如下：编译程序构成、编译程序与解释程序区别，词法分析、语法分折、语义分折及其任务，文法，语言，句型，句子，短语，推导，归约，句柄，文法、语言二义性，文法分类，有穷自动机、正
燕山大学软件用户界面设计考题能运行就算成功经验分享
2024年考题，考前完全不知道考什么，趁着现在还记得，造福下后辈。全部是简答。1.描述下实用性和它的三个维度2.写出五个功能可见性的例子3.关键性模型Keystroke-LevelModel(KLM)字母的意思4.undo四个设计原则（笔记和翻译根本没有，看到时已经懵了）5.GUI三种设计方式6.瀑布模型为什么不适合ui设计后面是大题，跟写实验报告差不多，这次是个预定家政服务的题，写信息点描述中心
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
探索虚拟世界的裂缝：CVE-2021-3929与3947漏洞利用工具详解缪昱锨Hunter
探索虚拟世界的裂缝：CVE-2021-3929与3947漏洞利用工具详解去发现同类优质开源项目:https://gitcode.com/在安全研究的最前沿，有一类工具因其独特魅力和教育价值而备受关注。今天，我们将深入探讨一个面向专业安全研究人员与对系统底层运作好奇者的开源项目——CVE-2021-3929-3947，这是一套针对特定虚拟机逃逸漏洞的实际演示代码。项目介绍本项目旨在展示如何利用已知的
Python Pandas 如何进行数据分组统计 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 网络 ai
PythonPandas如何进行数据分组统计关键词：PythonPandas、数据分组、groupby、聚合函数、数据透视表、数据统计、数据分析摘要：本文将深入探讨如何使用PythonPandas库进行高效的数据分组统计操作。我们将从基础概念入手，详细讲解groupby机制的原理和使用方法，介绍各种聚合函数的应用，探讨高级分组技巧，并通过实际案例展示如何解决复杂的数据分析问题。文章还将涵盖性能优化
Python可视化环境：Matplotlib_Seaborn+Conda配置 Python编程之道 Python人工智能与大数据 Python编程之道 python matplotlib conda ai
Python可视化环境：Matplotlib/Seaborn+Conda配置关键词：Python可视化、Matplotlib、Seaborn、Conda、环境配置摘要：本文主要探讨了如何利用Conda来配置Python可视化所需的Matplotlib和Seaborn环境。首先介绍了Python可视化的背景和重要性，明确目标读者为想要学习Python可视化的初学者和有一定基础的开发者。接着详细解析了
Nuitka 打包Python程序 Humbunklung 学海泛舟 python 开发语言 nuitka
文章目录Nuitka打包Python程序**一、Nuitka核心优势**⚙️**二、环境准备（Windows示例）****三、基础打包命令****单文件脚本打包****带第三方库的项目**️**四、高级配置选项****示例：完整命令**⚠️**五、常见问题与解决****六、Nuitkavs其他工具****七、最佳实践建议****八、使用举例**总结Nuitka打包Python程序需要把Python
go语言interface设计的一点思考
昨天到公司看到有人在群里把go跟java的interface做比较，提出go宣称的“非侵入式”好像也没那么好用，甚至跟java差不多。但实际上go语言的接口设计并不只是语法本身，也包含了开发流程跟思维方式在里面，下面把当时在群里的回答整理一下放出来。其实可以这样来理解：Java语言的开发风格是设计先行，即先定义规范，然后去挨个实现（就是先定义有什么方法，然后再写出来方法体）。而go语言是“先做再说
SQL Server的个人学习笔记萌尛喵 sql 学习数据库
1.基础SQLServer是由Microsoft开发和销售的关系数据库管理系统或RDBMS。SQLServer建立于SOL之上，是一种用于关系数据交互的标准编程语言。2.组件SQLServer主要由数据库引擎和SQLOS两个组件组成。①数据库引擎SQLServer的核心组件是数据库引擎。数据库引擎由处理查询的关系引擎和管理数据库文件、页面、索引等的存储组成。数据库引擎也创建并执行数据库对象，如存储
解锁 Hello World 的 N 种炫酷玩法
目录一、引言二、编程语言之美2.1C语言艺术字输出2.2用汇编语言实现经典三、硬件交互的奇妙世界3.1Arduino与LED的舞蹈3.2STM32点亮小灯四、AI模型应用的创新之旅4.1OpenAIAPI初体验4.2LangChain框架的魅力五、总结与展望一、引言在编程的世界里，“HelloWorld”就像是一把神奇的钥匙，开启了无数人探索编程奥秘的大门。它作为编程学习的经典入门示例，有着不可替
什么是DPoS（Delegated Proof of Stake，委托权益证明） MonkeyKing.sun DPoS
DPoS（DelegatedProofofStake，委托权益证明）是一种基于PoS（权益证明）演进而来的共识算法，设计初衷是提高性能、增强治理效率、实现社区自治。一、什么是DPoS（委托权益证明）？DPoS是一种将记账权“委托给投票选出的代表节点”的共识机制。普通用户不直接参与出块，而是通过投票选出“代表人”代为记账和验证交易。可以理解为：“股东大会投票选董事会代表他们管理公司”。二、DPoS的
python与anaconda安装（先安装了python后安装anaconda，基于python已存在的基础上安装anaconda）——逼死强迫症、超详解苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
版权声明：本文为CSDN博主「牛斌帅」的原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/qq_43529415/article/details/100847887目录一、安装python（python3.7.4）1、下载(1)下载1(32位)(2)下载2(64位)2、安装3、配置python环境变量4、检验pytho
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
DAY 1 变量与格式化字符串
文章目录题目1：变量的认识小结：多重赋值题目2：格式化字符串小结：格式化字符串题目3：变量的基础运算题目1：变量的认识题目:定义三个变量a,b,c，并分别将整数1,2,3赋值给它们。然后，使用print()函数将每个变量的值单独打印出来，每个值占一行。输入:无输出:123a=1b=2c=3print(a)print(b)print(c)小结：多重赋值多重赋值：多重赋值允许你在一行代码里给多个变量同
SQL学习笔记1
1.数据库1、什么是数据库数据库（DB）即用于存放数据的服务器，如MySQL等软件是数据库管理系统（DBMS），用于管理存放在数据库中的数据，SQL是用于操作DBMS的标准语言。2、数据库的类型数据库分为关系型数据库和非关系型数据库；关系型数据库是指用建立在关系模型上互相关联的二维表组成的数据库，MySQL是用于管理关系型数据库的数据库管理系统2.MySQL启动与连接1、MySQL启动安装好MyS
探索Java性能优化的利器：Java Microbenchmark Harness（JMH）柯茵沙
探索Java性能优化的利器：JavaMicrobenchmarkHarness（JMH）jmhhttps://openjdk.org/projects/code-tools/jmh项目地址:https://gitcode.com/gh_mirrors/jm/jmhJavaMicrobenchmarkHarness（简称JMH）是一个用于构建、运行和分析Java以及其他在JVM上运行的语言的微基准测
selenium元素等待及滚动条滚动测试也算程序员？ selenium python 测试工具单元测试测试用例压力测试功能测试
selenium三大等待，sleep（强制）、implicitlyWait（隐式等待）、WebDriverWait（显式等待），主要记一下最后面的WebDriverWait。WebDriverWait是三大等待中最常用也是最好用的一种等待方式，比起另外两种而言，B格更高、更智能。写法为：#WebDriverWait(driver,等待总时长,查询间隔时间).until(EC.visibility_
Go 中 gRPC Metadata 使用详解 Code季风深入探索Go RPC：构建与实践 golang 开发语言后端学习 rpc
在分布式系统中，客户端和服务端之间的通信不仅仅是数据的交换，还涉及到身份验证、日志追踪等额外信息的传递。gRPC提供了一种名为Metadata的机制来满足这种需求。本文将通过一个具体的示例来讲解如何在Go语言中使用gRPC的Metadata。一、简介Metadata是一种键值对结构，它可以在不改变请求或响应消息体的情况下携带额外的信息。这些信息通常用于认证（如token）、追踪（如traceid）
Python实例之十大歌手评分 *濒危物种* 算法前端 python
实例背景：十大歌手，为丰富校园文化生活，学校拟组织一场歌手大赛，从参赛选手中选拔出十名相对突出的学生，授予“校园十大歌手”称号。比赛之中设置有评委组，每名选手演唱完毕之后会由评委组的十名评委打分。为保证比赛公平公正、防止作弊和恶意打分，计算得分(即平均分)时会先去掉最高分和最低分要求实现：根据每位评委的输入分数，实现计算每位选手得分的功能。【重要步骤提示】定义列表放评委给分找出列表的最高分和最低分
Go中interface接口的设计理念 Code季风 golang 开发语言学习 rpc
Go语言中的接口（interface）是一种非常强大的抽象机制，它允许开发者定义行为的集合，而不必关心这些行为是如何具体实现的。接口在Go中扮演着核心角色，尤其是在实现多态性和代码解耦方面。以下是对Go中接口设计理念的深入讲解：接口的基本概念在Go中，接口是一组方法签名的集合。一个类型如果实现了某个接口中的所有方法，则称该类型实现了这个接口。值得注意的是，Go中的接口是隐式实现的，这意味着你不需要
Nagios监控系统插件套装：1.4.13版本深入解析 Kiki-2189
本文还有配套的精品资源，点击获取简介：Nagios是一款开源系统监控工具，用于实时监控网络服务、系统状态和IT基础设施，确保IT环境的稳定运行。本文详细解析了"Nagios-plugins-1.4.13.tar.gz"这个插件包，涵盖了Nagios核心功能、插件工作原理、安装配置、常见插件、自定义插件制作、故障报警与通知、性能数据记录以及扩展集成等方面。通过解压、编译安装和配置插件包中的内容，用户
OpenCV CUDA模块设备层-----线性插值函数log() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于创建线性插值访问器，支持对GPU内存中的图像数据进行双线性插值采样。主要应用于图像缩放、旋转等几何变换中需要亚像素级精度的场景。为输入图像构造一个基于“双线性插值”的访问器对象LinearInterPtrSz，可以在CUDA核函数中按需访问缩放后的像素值
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
学校老师课堂点名管理系统带TkinterUI界面深度学习乐园 oracle 数据库
完整源码项目包获取→点击文章末尾名片！基于PythonTkinter的学生管理系统，有最基本的增删改查功能，还有随机点名、顺序点名功能##1、研究现状综述目前，在学生信息管理领域，各大高校面临的难题在于对学生信息管理的效率过低，传统的人工管理造成了资金和劳动力的浪费。因此，大部分学者研究的是针对高校的学生信息或成绩管理系统，而用python语言的也很少，其中大多用的是PyQt5模块。而且，针对低年
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
钉钉小程序开发实战：打造一个简约风格的登录页面脑袋大大的钉钉生态创业者专栏钉钉小程序
在上一篇文章中，我们已经介绍了如何搭建钉钉小程序的基础环境，并完成了项目的初始化配置。本文将继续深入，手把手带你实现一个简约风格的登录页面，这是大多数企业级应用不可或缺的一部分。钉钉小程序基于前端Web技术栈，采用类似于Vue的模板语法和组件化结构，非常适合快速构建轻量级企业内部应用。登录页虽然看似简单，但却是用户与系统交互的第一步，良好的体验和简洁的设计往往能给用户留下深刻印象。本章节直接上干货
模板应用更新同步到所有开发中的应用 z日火开发分享 elasticsearch Upstream
需求是为多个Vue3应用方便地同步模板更新，并且模板自身也可能演进，采用Git上游仓库(Upstream)策略。这种方法在操作上相对直观，更贴近常规的Git工作流，并且能较好地处理模板更新中可能涉及到的配置文件、依赖项以及Vue组件本身的变更。策略：Git上游仓库(Upstream)核心思想：你的每一个应用项目（应用1,应用2,应用3）都会将你的Vue3模板项目仓库视为一个“上游”(upstrea
手把手教程：在 VS2017 32位 Windows 环境下编译 OR-Tools 9.6 并集成到 C++ 项目 A小庞 C++知识算法 c++开发语言 or-tools 算法库
OR-Tools是Google开源的优化算法库，支持路径规划、线性规划、约束编程等多种功能。本文将详细介绍在VisualStudio201732位Windows环境下编译OR-Tools9.6的两种方法：联网自动下载依赖和手动编译依赖项，并提供避坑指南。方法一：联网自动下载依赖（推荐新手）步骤1：克隆OR-Tools仓库gitclonehttps://github.com/google/or-to
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f