才能我浪费

MPT-7B：开源，商业可用，性能堪比LLaMA-7B的LLM新成员

简介：

Meta开源了LLama，不过有很多限制，很难商业运用。于是现在MosaicML开发了MPT-7B模型，它是一个基于Transformer在1T文本/代码Token上训练出来的模型。该模型开源，与LLaMA-7B模型效果相匹配，而且可用于商业用途。

代码：https://github.com/mosaicml/llm-foundry/

模型：mosaicml/mpt-7b-instruct · Hugging Face

演示：MPT-7B-Instruct - a Hugging Face Space by mosaicml

博客：https://www.mosaicml.com/blog/mpt-7b

看过资料后感觉MPT-7B作为一个高效LLM模型的同时，也是MosaicML推介他们AI平台的一个广告。后续资料主要翻译自MosaicML的博文，翻译过程中内容有所修改，如果其中出现“我们”等字眼，指的都是MosaicML。

介绍MPT-7B：开源，商业上可用的LLM的新标准

MPT-7B在9.5天内在MosaicML平台上进行了培训，零人工干预，成本为~20万美元。从今天开始，你可以训练、微调和部署自己的私有 MPT 模型，可以从我们的检查点之一开始，也可以从头开始训练。除了基本的MPT-7B之外，我们还发布了三个微调模型：MPT-7B-Instruct，MPT-7B-Chat和MPT-7B-StoryWriter-65k+，最后一个使用65k Token的上下文长度！

大型语言模型（LLM）正在改变世界，但对于那些资源丰富的行业实验室之外的人来说，训练和部署这些模型可能非常困难。这导致了一系列以开源LLM为中心的活动，例如Meta的LLaMA系列，EleutherAI的Pythia系列，StabilityAI的StableLM系列以及Berkeley AI Research的OpenLLaMA模型。

我们在MosaicML发布了一个名为MPT (MosaicML Pretrained Transformer)的新模型系列，以解决上述模型的局限性，并最终提供一个商业上可用的开源模型，该模型与LLaMA-7B相匹配（并且在许多方面超过LLaMA-7B）。我们的MPT型号系列是：

许可用于商业用途（与LLaMA不同）。
在大量数据上训练（像LLaMA这样的1T Token与Pythia的300B，OpenLLaMA的300B和StableLM的800B）。
得益于ALiBi，准备处理极长的输入（我们训练了高达65k的输入，可以处理高达84k的输入，而其他开源模型为2k-4k）。
针对快速训练和推理进行了优化（通过 FlashAttention 和 FasterTransformer)
配备高效的开源训练代码。

我们在一系列基准上对MPT进行了严格的评估，MPT达到了LLaMA-7B设定的高质量标准。
今天，我们将发布基本 MPT 模型和其他三个微调变体，它们演示了在此基本模型上进行构建的多种方法：
MPT-7B Base：
MPT-7B Base是一款具有6.7B参数的解码器式转换器。它是在1T文本和代码Token上进行训练的，这些Token由MosaicML的数据团队策划。这个基本模型包括用于快速训练和推理的FlashAttention和用于微调和外推长上下文长度的ALiBi。

License: Apache-2.0
HuggingFace Link:https://huggingface.co/mosaicml/mpt-7b

MPT-7B-StoryWriter-65k+
MPT-7B-StoryWriter-65k+ 是一款旨在阅读和编写具有超长上下文长度的故事的模型。

License: Apache-2.0
HuggingFace Link:https://huggingface.co/mosaicml/mpt-7b-storywriter

MPT-7B-Instruct
MPT-7B-Instruct是简短指令的模型。通过在我们在发布的数据集上微调MPT-7B来构建，该数据集源自Databricks Dolly-15k和Anthropic’s Helpful and Harmless数据集。

License: CC-By-SA-3.0
HuggingFace Link:https://huggingface.co/mosaicml/mpt-7b-instruct

MPT-7B-Chat
MPT-7B-Chat是一个类似聊天机器人的对话生成模型。通过在 ShareGPT-Vicuna、HC7、Alpaca、Useful and Harmless 和 Evol-Instruct 数据集上微调 MPT-3B 构建。

License: CC-By-NC-SA-4.0 (non-commercial use only)
HuggingFace Link:https://huggingface.co/mosaicml/mpt-7b-chat

我们希望企业和开源社区能够在此基础上再接再厉：除了模型检查点（checkpoints）之外，我们还开源了整个代码库，用于通过我们新的 MosaicML LLM Foundry 进行预训练、微调和评估 MPT！
这个版本不仅仅是一个模型检查点：它是一个完整的框架，用于构建强大的LLM，MosaicML一直强调效率，易用性和对细节的严格关注。这些模型是由MosaicML的NLP团队在MosaicML平台上构建的，使用与我们的客户完全相同的工具（可以问问我们的客户，比如Replit！）。
我们从头到尾在零人工干预的情况下训练MPT-7B：在440 GPU上训练了9.5 天，MosaicML平台检测并解决了4个硬件故障，并自动恢复了训练运行，并且由于我们所做的架构和优化改进，没有灾难性的损失峰值。可以查看我们empty training logbook for MPT-7B!

介绍 Mosaic Pretrained Transformers (MPT)

MPT 模型是 GPT 风格的仅解码器转换器，具有多项改进：性能优化的层实现、提供更高训练稳定性的架构更改，以及通过使用 ALiBi 替换位置嵌入（embeddings）来消除上下文长度限制。由于这些修改，客户可以高效地训练MPT模型（40-60%MFU），而不会偏离损耗峰值，并且可以为MPT模型提供标准HuggingFace管道和FasterTransformer。

MPT-7B （基本型号）

MPT-7B的能力与LLaMA-7B相匹配，在标准学术任务上优于其他开源7B-20B模型。为了评估模型质量，我们编译了 11 个通常用于上下文学习（ICL）的开源基准，并以行业标准的方式对其进行格式化和评估。我们还添加了我们自己策划的 Jeopardy 基准，以评估该模型为具有挑战性的问题提供事实正确答案的能力。

有关MPT与其他型号之间的zero-shot性能比较，请参见表1：

表 1 - MPT-7B 与 LLaMA-7B 与其他开源模型在学术任务中的zero-shot精度。 MPT-7B和LLaMA-7B在所有任务中都具有相似的质量，每个模型在6个任务中的12个任务中得分最高（以红色表示）。这两种模型的性能都优于其他开源语言模型，甚至是参数计数大得多的模型。

为了确保同类比较，我们完全重新评估了每个模型：模型检查点通过我们的开源LLM Foundry评估框架运行，具有相同的（空）提示字符串，没有特定于模型的提示调整。有关评估的完整详细信息，请参阅附录。在之前的基准测试中，我们的设置比单个 GPU 上的其他评估框架快 8 倍，并且无缝地实现了多个 GPU 的线性扩展。对 FSDP 的内置支持使得评估大型模型并使用更大的批量大小来进一步加速成为可能。

我们邀请社区使用我们的评估套件进行他们自己的模型评估，并提交包含其他数据集和 ICL 任务类型的拉取请求，以便我们确保进行最严格的评估。

MPT-7B-StoryWriter-65k+

大多数开源语言模型只能处理最多具有几千个tokens的序列（参见图 1）。但是，借助 MosaicML 平台和 8xA100-40GB 的单个节点，您可以轻松微调 MPT-7B 以处理高达 65k 的上下文长度！处理这种极端上下文长度适应的能力来自ALiBi，这是MPT-7B中的关键架构选择之一。

为了展示此功能并让您考虑使用 65k 上下文窗口可以做什么，我们发布了 MPT-7B-StoryWriter-65k+。StoryWriter 从 MPT-7B 对 2500 步进行了微调，这些步骤是书籍65 语料库中包含的小说书籍的 3k Token摘录。

《了不起的盖茨比》的全文不到68k个Token。我们让StoryWriter阅读了《了不起的盖茨比》并生成了一个尾声。我们生成的尾声之一如图 2 所示。StoryWriter在大约20秒内（每分钟约15万字）读完了《了不起的盖茨比》。由于序列长度较长，其“打字”速度比我们的其他MPT-7B型号慢，每分钟约105个单词。

尽管 StoryWriter 的上下文长度为 65k 进行了微调，但 ALiBi 使模型能够推断出比训练更长的输入：在《了不起的盖茨比》的情况下为 68k 个令牌，在我们的测试中高达 84k 个标记。

图 1 - MPT-7B-StoryWriter-65k+ 与其他模型的训练上下文长度。任何其他开源模型的最长上下文长度为 4k。 GPT-4 的上下文长度为 8k，模型的另一个变体的上下文长度为 32k。

图 2 - MPT-7B-StoryWriter-65k+ 为《了不起的盖茨比》写了尾声。尾声的结果是提供《了不起的盖茨比》的全文（大约 68k 个Token）作为模型的输入，后跟“尾声”一词，并允许模型从那里继续生成。

MPT-7B-Instruct

图3 - 与MPT-7B-Instruct的交互。该模型将格式化为 YAML 的内容正确转换为格式为 JSON 的相同内容。

LLM预训练模型根据提供的输入继续生成文本。但在实践中，我们希望LLM将输入视为要遵循的指令。指令微调是训练LLM以这种方式执行指令遵循的过程。通过减少对智能Prompt的依赖，指令微调使LLM更易于访问，直观且可立即使用。指令微调的进展是由 FLAN、Alpaca 和 Dolly-15k 数据集等开源数据集推动的。

我们创建了一个商业上可用的指令遵循模型变体，称为MPT-7B-Instruct。我们喜欢Dolly的商业许可证，但想要更多的数据，所以我们用Anthropic的Help&Harmless数据集的一个子集来增强Dolly，在保持商业许可证的同时，数据集大小翻了两番。

这里发布的这个新的聚合数据集用于微调MPT-7B，从而产生了MPT-7B-Instruct，这是商业上可用的。有趣的是，我们发现MPT-7B-Instruct是一个有效的指令遵循者。（有关示例交互，请参阅图 3。MPT-1B-Instruct对7万亿个Token进行了广泛的训练，应该可以与更大的dolly-v2-12b竞争，后者的基本模型Pythia-12B只在300亿个Token上进行了训练。

我们正在发布MPT-7B-Instruct的代码，权重和在线演示。我们希望MPT-7B-Instruct的小尺寸，有竞争力的性能和商业许可证将立即对社区有价值。

MPT-7B-Chat

图 4 - 与 MPT-7B-Chat 的交互。与聊天模型的多轮对话，其中它提出了解决问题的高级方法（使用 AI 保护濒危野生动物），然后使用 Keras 在 Python 中提出其中一个的实现。

我们还开发了MPT-7B-Chat，MPT-7B的对话版本。MPT-7B-Chat已使用ShareGPT-Vicuna，HC3，Alpaca，Helpand Harmless和Evol-Instruct进行了微调，确保它为各种对话任务和应用程序做好了准备。它使用 ChatML 格式，该格式提供了一种方便且标准化的方式来传递模型系统消息，并有助于防止恶意提示注入。

MPT-7B-Instruct专注于为指令遵循提供更自然和直观的界面，而MPT-7B-Chat旨在为用户提供无缝，引人入胜的多回合交互。（有关示例交互，请参阅图 4）

与MPT-7B和MPT-7B-Instruct一样，我们将发布MPT-7B-Chat的代码，权重和在线演示。

我们如何在 MosaicML 平台上构建这些模型

今天发布的模型是由MosaicML NLP团队构建的，但我们使用的工具与MosaicML的每个客户都可以使用的工具完全相同。将MPT-7B视为演示 - 我们的小团队能够在短短几周内构建这些模型，包括数据准备，培训，微调和部署（以及撰写此博客！让我们来看看使用 MosaicML 构建 MPT-7B 的过程：

数据

我们希望MPT-7B成为高质量的独立型号，并为各种下游用途提供有用的起点。因此，我们的预训练数据来自 MosaicML 策划的来源组合，我们在表 2 中进行了总结，并在附录中进行了详细描述。文本使用EleutherAI GPT-NeoX-20B标记器进行标记化，并且模型在1万亿个令牌（Tokens）上进行了预训练。该数据集强调英语自然语言文本和未来用途的多样性（例如，代码或科学模型），并包括最近发布的 RedPajama 数据集的元素，以便数据集的网络爬虫和维基百科部分包含 2023 年的最新信息。

表 2 - MPT-7B 预训练的数据组合。来自十个不同的开源文本语料库的数据混合。使用EleutherAI GPT-NeoX-20B标记器对文本进行标记化，并且模型在根据此组合采样的1T令牌上进行预训练。

分词器（Tokenizer）

我们使用了EleutherAI’sGPT-NeoX20B tokenizer。此 BPE Tokenizer具有许多理想的特征，其中大多数与标记化代码相关：

在包括代码在内的各种数据组合上进行训练（The Pile)
应用一致的空格分隔，这与 GPT2 Tokenizer不同
包含重复空格字符的标记，允许使用大量重复空格字符对文本进行出色的压缩。

Tokenizer的词汇表大小为 50257，但我们将模型词汇表大小设置为 50432。造成这种情况的原因有两个：首先，使其成为128的倍数（如Shoeybi et al.），我们发现在最初的实验中，MFU提高了四个百分点。其次，保留可用于后续 UL2 训练的令牌。

高效的数据流

我们利用 MosaicML 的 StreamingDataset 将数据托管在标准云对象存储中，并在训练期间有效地将其流式传输到我们的计算集群。

训练计算

所有MPT-7B模型都使用以下工具在MosaicML平台上进行了训练：

计算： 来自甲骨文云的 A100-40GB 和 A100-80GB GPU
编排和容错：MCLI 和 MosaicML 平台
数据：OCI 对象存储和流式处理数据集
培训软件： Composer， PyTorch FSDP， and LLM Foundry

如表 3 所示，几乎所有的训练预算都花在了基础 MPT-7B 模型上，在 440xA100-40GB GPU 花了 ~9.5 天, 花费 ~$200k。模型finetune花费的计算要少得多，而且便宜得多——每个模型的价格在几百到几千美元之间。

表 3 - 每个 MPT-7B 型号的训练详细信息。训练时间“是从作业开始到结束的总运行时间，包括检查点、定期评估、重新启动等。“成本”的计算价格为 2 美元/A100-40GB/小时，MosaicML 平台上预留 GPU 的定价为 2.50 美元/A100-80GB/小时。

这些培训配方中的每一个都可以完全定制。例如，如果您想从我们的开源MPT-7B开始，并在具有较长上下文长度的专有数据上进行微调，则可以立即在MosaicML平台上执行此操作。

再举一个例子，要在自定义域（例如生物医学文本或代码）上从头开始训练新模型，只需使用 MosaicML 的 hero 集群产品保留短期大型计算块即可。只需选择所需的模型大小和令牌预算，将数据上传到 S3 等对象存储，然后启动 MCLI 作业。您将在短短几天内拥有自己的定制LLM！

查看我们之前的LLM博客文章，以获取有关培训不同LLM的时间和成本的指导。在此处查找特定型号配置的最新吞吐量数据。与我们之前的工作一致，所有MPT-7B模型都使用Pytorch FullShardedDataParallelism（FSDP）进行训练，并且没有张量或管道并行性。

训练稳定性

正如许多团队所记录的那样，在数百到数千个GPU上训练具有数十亿个参数的LLM是非常具有挑战性的。硬件将经常以创造性和意想不到的方式出现故障。损失峰值会破坏训练。团队必须 24/7 全天候“照看”训练运行，以防出现故障，并在出现问题时应用手动干预。查看OPT日志，了解任何培训LLM的人面临的许多危险的坦率例子。

在 MosaicML，我们的研究和工程团队在过去 6 个月中孜孜不倦地工作以消除这些问题。因此，我们的MPT-7B训练日志（图5）非常无聊！我们从头到尾在 7 万亿个Token上训练 MPT-1B，无需人工干预。没有损失峰值，没有中游学习率变化，没有数据跳过，自动处理死GPU等。

图 5 - （非常平淡的）MPT-7B 训练日志。MPT-7B在1xA9-5GB上进行了440.100天的40T令牌训练。在此期间，训练作业遇到了 4 次硬件故障，所有这些故障都被 MosaicML 平台检测到。每次失败时，运行都会自动暂停并恢复，无需人工干预。

图6 - 随时间变化的损耗曲线，突出显示硬件故障和自动恢复。如果作业运行时发生硬件故障，MosaicML平台会自动检测故障，暂停作业，封锁任何损坏的节点，然后恢复作业。在MPT-7B训练运行期间，我们遇到了4次这样的故障，每次作业都会自动恢复。

我们是怎么做到的？首先，我们通过架构和优化改进解决了收敛稳定性问题。我们的MPT模型使用ALiBi而不是位置嵌入(positional embeddings)，我们发现这可以提高对损失峰值的弹性。我们还使用 Lion 优化器而不是 AdamW 训练我们的 MPT 模型，后者提供稳定的更新幅度并将优化器状态内存减少一半。

其次，我们使用 MosaicML 平台的 NodeDoctor 功能来监控和解决硬件故障，并使用 JobMonitor 功能在解决这些故障后恢复运行。这些功能使我们能够训练MPT-7B，尽管在运行过程中发生了4个硬件故障，但从头到尾都没有人为干预。参见图 6，了解 MosaicML 平台上自动恢复的特写视图。

推理

MPT 旨在快速、简单且廉价地部署推理。首先，所有MPT模型都是从HuggingFace PretrainedModel基类中子类化的，这意味着它们与HuggingFace生态系统完全兼容。您可以将 MPT 模型上传到 HuggingFace Hub，使用标准管道生成输出，例如 'model.generate（...）'，建立Hugging Face（在这里看到我们的一些！），等等。

性能如何？借助MPT的优化层（包括FlashAttention和低精度层范数），MPT-7B在使用“model.generate（...）”时的开箱即用性能。'比其他 1B 型号（如 LLaMa-5B）快 2.7-7 倍。这使得仅使用 HuggingFace 和 PyTorch 即可轻松构建快速灵活的推理管道。

但是，如果您真的需要最佳性能怎么办？在这种情况下，请将 MPT 权重直接移植到 FasterTransformer 或 ONNX。查看LLM Foundry的推理文件夹以获取脚本和说明。

最后，为了获得最佳托管体验，请直接在 MosaicML 的推理服务上部署 MPT 模型。从 MPT-7B-Instruct 等模型的托管端点开始，和/或部署您自己的自定义模型端点，以实现最佳成本和数据隐私。查看推理博客文章了解更多详情！‍

下一步是什么？

这个MPT-7B版本是MosaicML构建和战斗测试开源软件（Composer，StreamingDataset，LLM Foundry）和专有基础设施（MosaicML训练和推理）两年工作的结晶，使客户能够在任何计算提供商，任何数据源上训练LLM，效率，隐私和成本透明 - 并且第一次就让事情顺利进行。

我们相信MPT，MosaicML LLM Foundry和MosaicML平台是为私人，商业和社区使用构建自定义LLM的最佳起点，无论您是想微调我们的检查点还是从头开始训练自己的检查点。我们期待看到社区如何基于这些工具和工件进行构建。

重要的是，今天的MPT-7B型号只是一个开始！为了帮助我们的客户解决更具挑战性的任务并不断改进他们的产品，MosaicML将继续生产越来越高质量的基础模型。令人兴奋的后续模型已经在训练中。期待很快听到更多关于他们的消息！

感觉有帮助的朋友，欢迎赞同、关注、分享三连。^-^

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。