AGI-杠哥

揭秘大语言模型：什么是LLM大模型？

前言
自从去年chatgpt横空出世以来，它火爆也让大语言模型这个词变的很流行，到底什么是大语言模型，今天从初学者的角度介绍一下大语言模型的基本概念、组成部分和基本工作流程等。下面的介绍中如果涉及到一些专业术语不太理解，也没关系，只要有一个感性认识即可，毕竟我们不打算造车，只要做到自己部署开源大模型的时候，不至于脸盲就可以了。

一、大语言模型特点和基本组成
大语言模型（Large Language Models，简称LLMs）是一类具有大量参数的深度学习模型，它们在自然语言处理（NLP）领域中，通过处理大量的文本数据来学习语言模式、语法和语义，从而理解和生成人类语言。

1.1 大模型特点
大规模参数：大语言模型拥有大量的参数，这使得它们能够学习丰富的语言特征和模式。
深度学习架构：它们通常基于深度神经网络，如Transformer架构，该架构包括自注意力机制，能够处理长距离依赖关系。
预训练能力：在大量文本数据上进行预训练，以学习语言的通用表示，这使得模型能够泛化到多种不同的任务。
微调灵活性：可以在特定任务上进行微调，以适应不同的应用场景，如翻译、摘要、问答等。
上下文理解：能够理解输入文本的上下文，生成连贯和相关的输出。
多任务学习：一些大模型能够处理多种语言任务，展现出一定的通用性。
生成能力：除了理解语言，许多大模型还能够生成连贯和语法正确的文本。
计算资源需求：训练和运行这些模型需要大量的计算资源，通常需要使用GPU或TPU等高性能计算设备。
1.2 大语言模型基本组成

词嵌入（Embeddings）：
作用：将单词转换为连续向量，以便神经网络能够处理。向量表示的词语包含了语义信息，使得相似词在向量空间中距离较近。
典型方法：如Word2Vec、GloVe、BERT等。
编码器（Encoder）和解码器（Decoder）：
作用：编码器将输入文本转换为内部表示，解码器将内部表示转换为输出文本。
典型架构：变压器模型包含多层的编码器和解码器，每一层都有自注意力机制和前馈神经网络。
3.自注意力机制（Self-Attention Mechanism）：
作用：在处理输入序列时，模型可以关注序列中的不同部分，理解词语之间的依赖关系。
特点：可以并行处理序列中的所有词语，提高计算效率。
4.前馈神经网络（Feedforward Neural Networks）：
作用：在变压器的每一层中，前馈神经网络用于进一步处理和转换编码后的表示。
结构：通常是全连接层，带有激活函数（如ReLU）。
5.位置编码（Positional Encoding）：
作用：因为变压器架构没有顺序信息，位置编码添加到词嵌入中，提供序列中每个词的位置信息。
实现：通过正弦和余弦函数生成的固定位置编码或可训练的位置编码。
6.损失函数（Loss Function）：
作用：衡量模型输出与实际目标之间的差距，用于指导模型参数的更新。
常用类型：交叉熵损失函数（Cross-Entropy Loss）在语言模型中常用。
7.优化器（Optimizer）：
作用：根据损失函数的反馈，调整模型参数以最小化损失。
常用方法：如Adam、SGD（随机梯度下降）等。
二、大语言模型工作原理和工作流程
2.1工作原理
预训练：大语言模型通常在大量的文本数据上进行预训练。这些文本可能来自互联网、书籍、新闻等。预训练阶段使用的任务包括但不限于掩码语言模型（MLM）、下一句预测（NSP）等。
微调：在预训练完成后，模型可以在特定任务的数据集上进行微调，以适应特定的应用场景，如问答、文本分类、摘要生成等。
编码器-解码器架构：许多大模型使用Transformer架构，它由编码器和解码器组成。编码器处理输入文本，解码器生成输出文本。
自注意力机制： Transformer架构中的自注意力机制使模型能够在处理每个单词时考虑到整个文本序列，从而捕捉长距离依赖关系。
层次化表示：模型通过多个层次（或称为“层”）来学习从单词到句子的复杂表示。
优化和迭代：通过反向传播和梯度下降等优化算法不断更新模型的参数，直至模型在特定任务上的性能达到满意水平。
2.2工作流程
大模型其核心原理是基于神经网络，特别是变压器（Transformer）架构。以下是大语言模型的基本工作流程：

数据收集和预处理：收集大量的文本数据，包括书籍、文章、网站等。数据经过清理、分词、去重等预处理步骤。
训练：使用预处理后的数据训练模型。训练的目标是通过调整模型的参数，使其能够预测给定上下文中的下一个词语或生成有意义的文本。
推理：训练完成后，模型可以根据输入的文本生成相关的响应或进行文本生成任务。
2.3 流程示例
输入处理：输入文本被分词并转换为词嵌入向量。
编码：词嵌入向量通过多个编码器层处理，每层包含自注意力机制和前馈神经网络。
解码：内部表示通过多个解码器层处理，生成预测的输出文本。
输出生成：解码器输出通过软最大（Softmax）层，转换为最终的词语序列。
三、大语言模型中的参数
在深度学习模型中，参数是模型从输入数据中学习到的知识的数学表示。它们可以被视为模型的"记忆"，存储了模型在训练过程中学到的模式和规律。大语言模型的参数量是指模型中需要学习和调整的变量数量。参数量的大小直接影响模型的性能和能力。为了让这点更容易理解，可以把模型想象成一个复杂的计算机器，参数就像是这个机器中的齿轮和零件。

3.1参数的作用
学习和记忆：
模型通过训练数据调整参数，这些参数帮助模型记住语言中的模式、语法和词汇间的关系。
比如，当模型学到“猫”和“狗”都可能与“宠物”相关时，这就是参数在起作用。
生成和预测：
参数决定模型如何从输入的文本生成相应的输出。
例如，当你输入“今天的天气如何？”，模型的参数帮助它生成一个合理的回答，比如“今天的天气晴朗”。
3.2参数量的实际意义
更高的准确性和流畅性：
更多的参数意味着模型有更多的“齿轮和零件”，可以处理更复杂的语言模式。
比如，一个拥有10亿参数的模型可能会比一个拥有1亿参数的模型在理解和生成复杂句子时表现得更好。
更广的知识范围：
大量的参数允许模型在训练中记住更多的知识和信息。
这意味着模型可以回答更多种类的问题，并且在多个领域（如科学、历史、娱乐）中表现得更加智能。
更好的上下文理解：
大量的参数帮助模型更好地理解上下文，从而生成更加相关和连贯的回答。
比如，当你与模型进行对话时，更多的参数帮助模型更好地理解你之前说过的话，从而提供更相关的回答。
3.3结合工作原理的解释
当我们谈到模型的训练时，模型从大量的文本数据中学习。每一段文本都会影响模型的参数，这些参数帮助模型理解和生成语言。

词嵌入（Embeddings）：
参数决定每个词如何转换为数值向量。更多的参数意味着可以捕捉更细微的语义差异。
编码器和解码器：
参数决定模型如何将输入文本编码成内部表示，并从这些表示中生成输出。更多的参数帮助模型更准确地捕捉和再现语言结构。
自注意力机制：
参数决定模型如何在处理文本时关注不同的部分。更多的参数帮助模型更好地理解词与词之间的关系。
简单来说，模型的参数量就像是一个机器中的齿轮和零件，数量越多，这个机器就越强大、越聪明。更多的参数让模型能够更好地理解和生成语言，表现得更加智能和连贯。

四、预训练模型
预训练模型（Pre-trained Model）是深度学习，尤其是自然语言处理（NLP）领域中的一个重要概念。以下是预训练模型的定义、用途、建立过程，以及它们如何根据用户反馈进行优化的介绍：

4.1 定义：
预训练模型是指在一个大型数据集上预先训练好的深度学习模型。这些模型已经学习了语言的基本规律、语法结构、语义信息等，能够捕捉到语言的丰富特征。

4.2 用途：
迁移学习：预训练模型可以在新的任务上进行微调，利用已有的知识来提高学习效率和性能。
通用语言表示：为各种NLP任务提供通用的语言表示，如文本分类、情感分析、机器翻译等。
知识迁移：将从大规模数据中学到的知识迁移到特定领域的任务中。
4.3建立过程：
数据收集：收集大量的文本数据，这些数据可以是来自互联网、书籍、新闻等。
预训练任务：设计任务让模型在大规模数据上进行学习，如掩码语言模型（MLM）或下一句预测（NSP）。
模型训练：使用深度学习框架（如TensorFlow或PyTorch）训练模型，通常需要大量的计算资源。
模型保存：训练完成后，保存模型的参数，以便进行微调或部署。
五、transformers 库
transformers 库是由 Hugging Face 团队开发的一个开源库，专门用于处理自然语言处理（NLP）任务中的预训练模型。这个库提供了许多先进的深度学习模型，这些模型已经在大规模的文本数据集上进行了预训练，能够捕捉到语言的丰富特征和模式。

5.1 主要特点：
预训练模型：库中包含了BERT、GPT、RoBERTa、T5等流行的预训练模型，这些模型已经在大量的文本数据上进行了训练，能够理解语言的语法和语义。

易于使用： transformers 提供了统一和简洁的API，使得加载预训练模型、微调和应用这些模型变得非常简单。

模型微调：用户可以在特定任务的数据集上对预训练模型进行微调，以适应不同的NLP任务，如文本分类、情感分析、问答等。

多语言支持：许多模型支持多种语言，不仅限于英语。

模型转换：可以轻松地将模型集成到TensorFlow或PyTorch框架中。

社区贡献： transformers 库拥有活跃的社区，不断有新的模型和功能被添加。

5.2使用原理：
加载预训练模型：选择适合任务的预训练模型，并使用库提供的API加载模型和相关的分词器。

数据处理：使用分词器将文本转换为模型能理解的格式（通常是输入ID、注意力掩码等）。

模型推理：将处理后的数据输入模型，进行推理或训练。

微调：在特定任务的数据集上进一步训练模型，调整模型参数以提高任务性能。

保存和部署：微调后的模型可以被保存并部署到生产环境中。

AI时代的职场新潮流

听说AI要来抢工作了？别担心，新岗位可比旧岗位有趣多了！想象一下，你从搬砖工升级成了机器人操作员，从算盘小能手变成了大数据分析师，这不是美滋滋吗？所以，社会生产效率提升了，我们也能更轻松地工作。不过，想成为AI界的佼佼者？那就得赶紧学起来，不然就会被同行们甩得连AI的尾巴都摸不着了！

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

具身智能行业 [shenhonglei] 具身觉醒：智能进化的未来之路人工智能机器人
具身智能行业综合分析资源下载-具身智能导图.xmind资源下载-具身智能导图.xmind一、行业概况定义与核心特征具身智能（EmbodiedAI）指通过物理实体（如机器人、自动驾驶设备等）与环境的动态交互，实现感知、认知和行动控制的智能系统。其核心特征是“知行合一”，强调通过实际交互提升智能水平，而非仅依赖数据训练。技术融合：结合人工智能（AI）、机器人技术、多模态大模型
【AGI】DeepSeek开源周：The whale is making waves！ LeeZhao@ AIGC重塑生活神器 agi 开源人工智能 AIGC 生活语言模型
DeepSeek开源周：Thewhaleismakingwaves！思维火花引言一、DeepSeek模型体系的技术演进1.通用语言模型：DeepSeek-V3系列2.推理优化模型：DeepSeek-R1系列3.多模态模型：Janus系列二、开源周三大工具库的技术解析1.FlashMLA：解码效率的极限突破（2025.02.24）2.DeepEP：MoE通信范式的重构（2025.02.25）3.De
【AGI】中国大模型扛把子：通义家族 LeeZhao@ AIGC重塑生活神器 agi 人工智能 AIGC 面试自然语言处理语言模型
中国大模型扛把子：通义家族引言一、通义千问的技术架构与模型谱系二、技术突破与性能优势三、开源生态与行业影响四、未来展望：从“千问时代”到通用智能五、通义家族大模型列表（1）多模态大模型（2）大语言模型结语引言在人工智能大模型领域，中国科技企业正以惊人的速度突破技术边界。阿里云推出的**通义千问（Qwen）**系列大模型，凭借其多层次的技术架构、多样化的模型生态及开源战略，已成为全球AI领域的重要标
Bert学习笔记缓释多巴胺。大模型相关知识语言模型 bert
一、Bert架构BERT使用了双向的TransformerGPT使用从左到右的单向信息ELMo把单独训练的从左到右及从右到左的LSTM模型进行合并二、Bert预训练任务2.1遮蔽语言模型MLM任务：随机屏蔽（masking）部分输入token，然后只预测那些被屏蔽的token。问题：预训练任务与微调任务不一致原因：在finetuning期间从未看到[MASK]token，预训练和finetunin
大语言模型对程序员行业的影响及未来发展走势分析 Hello kele 人工智能 java 人工智能 AI编程
随着人工智能技术的快速发展，特别是大语言模型（如DeepSeek、OpenAI、Grok等）的出现，对程序员这个行业产生了深远的影响。在这篇文章中，我们将探讨这些变化，分析影响，并展望未来的发展趋势。一、当前影响1.自动化代码生成大语言模型的一个直接影响是代码自动化的能力。这些模型可以理解代码上下文，并生成功能性代码。例如，GitHubCopilot已经成为许多开发者的辅助工具，能够根据注释或部分
DeepSeek：AI赋能的无限可能——从日常生活到职业进阶的全场景探索 Hello kele 人工智能人工智能
引言在人工智能技术飞速发展的今天，DeepSeek作为一款国产AI工具，凭借其强大的推理能力、自然语言处理效率和场景化应用潜力，正在重塑人类解决问题的方式。从撰写演讲稿到制定投资策略，从家庭教育到企业管理，DeepSeek通过“自然语言对话”的交互模式，将复杂任务简化为几步提示词的输入，真正实现了“所想即所得”。本文将从七大核心场景出发，系统解析DeepSeek如何成为个人与组织的智能助手，推动效
RAG 检索增强生成：技术详解与应用展望君君学姐 RAG检索增强生成
RAG检索增强生成：技术详解与应用展望一、引言随着人工智能技术的飞速发展，自然语言处理（NLP）领域迎来了前所未有的变革。其中，检索增强生成（Retrieval-AugmentedGeneration，简称RAG）作为一种新兴的技术框架，正逐渐成为大模型应用中的热门选择。RAG通过结合信息检索（IR）和自然语言生成（NLG）的能力，旨在提升模型在回答问题、生成文本等任务中的准确性和可靠性。本文将深
人工智能开发趋势光影少年人工智能
人工智能开发趋势：未来技术的演进与创新引言人工智能（AI）正在以惊人的速度发展，并在各行各业中发挥越来越重要的作用。从自然语言处理到计算机视觉，从自动化决策到自主学习，AI的发展方向正变得更加智能化、自动化和人性化。本文将探讨当前AI开发的最新趋势，并展望未来的发展方向。1.生成式AI的崛起近年来，生成式AI（如ChatGPT、StableDiffusion、DALL·E）展现出强大的内容创作能力
大模型驱动的智能代码生成系统 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型驱动的智能代码生成系统关键词大模型智能代码生成自然语言处理计算机视觉系统设计与实现摘要本文深入探讨了基于大模型的智能代码生成系统的构建与实现。首先，我们分析了智能代码生成的背景与意义，随后介绍了大模型的基本原理及其在代码生成中的潜力。接着，我们详细阐述了智能代码生成系统的设计与实现过程，包括系统需求分析、架构设计、模型集成与优化等方面。随后，本文通过自然语言处理、计算机视觉和代码生成应用，展
LLM辅助编程：代码自动生成与优化 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
LLM,代码生成,代码优化,编程辅助,AI编程,自然语言处理,深度学习1.背景介绍随着软件开发的日益复杂化，程序员面临着越来越高的开发压力和效率要求。传统的编程方式依赖于手动编写代码，这不仅耗时费力，而且容易出现错误。近年来，随着深度学习技术的快速发展，基于大型语言模型（LLM）的代码生成和优化技术逐渐成为软件开发领域的新兴热点。LLM是一种强大的人工智能模型，能够理解和生成人类语言。通过训练大量
Oumi ：AI开发的未来？人工智能开源
Oumi：AI开发的未来？前言在人工智能领域，开源技术正以前所未有的速度推动着创新和变革。今天，我们将聚焦一个备受瞩目的开源AI平台——Oumi。它不仅以其强大的功能和灵活的架构吸引了全球开发者和企业的目光，还通过简化AI开发的整个生命周期，为用户提供了前所未有的便利。github地址：https://github.com/oumi-ai/oumi官网地址：https://oumi.ai/什么是O
关于采用源始经为底层框架开发中文编程系统的可能性太翌修仙笔录 deepseek 超算法认知架构第三代人工智能算法人工智能
用中文写代码和Python哪个有前景在编程语言选择方面，**Python的发展前景明显优于中文编程语言**。以下是具体分析：---###一、核心结论**优先选择Python**，因为：1.**全球通用性**：Python是国际主流编程语言，适用于跨国协作和开源项目2.**就业市场需求**：Python在人工智能/大数据/Web开发等领域的岗位需求持续增长3.**技术生态优势**：拥有超过30万个第
URL中的特殊字符与web安全 vortex5 web安全数据库 hibernate
在现代Web应用中，URL作为客户端与服务器之间的通信桥梁，承载着大量的重要信息。URL中的特殊字符，看似只是一些常见的符号，但在Web安全领域，它们与其他安全知识密切相关，如在Base64编码、SQL注入，路径遍历等场景中，一些字符需要正确处理，以避免混淆或引起解析问题。本篇文章将详细探讨URL中的特殊字符及其与Web安全的密切关系。通过分析URL中特殊字符的作用、编码规则和它们在SQL注入、路
神经网络ＶＳ决策树 Persistence is gold 神经网络决策树人工智能
神经网络（NeuralNetworks）和决策树（DecisionTrees）是两种不同的机器学习算法，各自具有独特的优点和适用场景。以下是它们的详细比较：神经网络优点:强大的学习能力:神经网络，尤其是深度神经网络，能够自动学习数据中的复杂特征，可以处理高维和非线性的问题。适用性广泛:神经网络适用于分类、回归、图像处理、语音识别、自然语言处理等多种任务。多层结构:通过增加隐藏层，神经网络可以逐层提
只需几步！在本地电脑轻松部署DeepSeek大模型魔法小匠 AI大模型 AI大模型 DeepSeek Ollama 大模型部署大模型API
使用Ollama进行本地部署AI大模型一、Ollama简介Ollama是一个开源的本地大语言模型运行框架，支持在Windows、Linux和macOS上本地运行大语言模型。它提供了丰富的模型库，包括Qwen、Llama等1700+大语言模型，并支持用户上传自己的模型。Ollama还允许用户通过编写Modelfile配置文件来自定义模型的推理参数，支持多GPU并行推理加速。二、安装Ollama（一）
【免费收藏】清华大学DeepSeek使用手册合集 600页完整版周师姐 AI写作学习人工智能 pdf
DeepSeek资料链接：https://pan.quark.cn/s/c927326f70c5在人工智能席卷全球的当下，DeepSeek作为前沿深度学习技术，正推动着全面AI时代的到来。今日，特别为大家推荐《DeepSeek：从入门到精通》，本书由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后团队精心编写。它深度解析DeepSeek的技术核心，详尽阐释其应用场景与操作方法，尤
YOLOv12改进之A2(区域注意力) 清风AI 深度学习算法详解及代码复现深度学习机器学习计算机视觉人工智能算法
注意力回顾注意力机制作为深度学习领域的核心技术，已广泛应用于自然语言处理和计算机视觉等多个领域。在YOLOv12改进之A2中，注意力机制扮演着关键角色。已有研究成果包括：Transformer架构：引入了自注意力机制，有效捕捉输入序列中的长距离依赖关系。CBAM模块：提出了通道和空间注意力的结合，显著提升了图像分类和目标检测的性能。SENet：引入了通道注意力机制，通过自适应学习特征通道的重要性，
CES Asia 2025：科技盛宴助力中国数字经济腾飞 CES_Asia 科技机器人人工智能智能音箱智能电视
备受瞩目的CESAsia2025第七届亚洲消费电子技术贸易展（赛逸展）将在首都北京盛大开幕。本届展会以“科技新视界，创新赢未来”为主题，聚焦人工智能、5G、物联网、元宇宙等前沿科技领域，集中展示全球消费电子行业的最新创新成果，为行业发展注入新动能。政策东风助力，CESAsia2025亮点纷呈近年来，中国高度重视数字经济发展，出台了一系列政策措施，为消费电子产业创造了良好的发展环境。CESAsia2
ChatGLM3-6B：技术架构、核心原理、微调操作与场景应用详解 zhangjiaofa DeepSeek R1&AI人工智能大模型 ChatGLM
ChatGLM3-6B：技术架构、核心原理、微调操作与场景应用详解引言ChatGLM3-6B是ChatGLM系列的最新开源模型，继承了前两代模型的优秀特性，如对话流畅、部署门槛低等，并在多个方面进行了显著提升。本文将深入探讨ChatGLM3-6B的技术架构、核心原理、微调操作以及场景应用，帮助读者全面了解这一强大的语言模型。技术架构基础模型ChatGLM3-6B的基础模型ChatGLM3-6B-B
【大模型技术】LlamaFactory 的原理解析与应用大数据追光猿大模型 transformer 人工智能语言模型 python github docker 机器学习
LlamaFactory是一个基于LLaMA系列模型（如LLaMA、LLaMA2、Vicuna等）的开源框架，旨在帮助开发者和研究人员快速实现大语言模型（LLM,LargeLanguageModel）的微调、推理和部署。它提供了一套完整的工具链，支持从数据准备到模型训练、优化和应用的全流程开发。以下是关于LlamaFactory的解析：1.LlamaFactory的核心功能（1）模型微调支持多种微
【大模型基础_毛玉仁】0.系列文章 XiaoJ1234567 大模型基础_毛玉仁大语言模型基础语言模型大模型基础_毛玉仁
更多内容：XiaoJ的知识星球系列文章【大模型基础_毛玉仁】系列文章参考本系列文章，是对浙江大学毛玉仁、高云君等人著作的《大模型基础》的阅读笔记。原书涵盖传统语言模型、大语言模型架构、提示工程、参数高效微调、模型编辑和检索增强生成等几大模块。原书参考链接及目录如下：《大模型基础》Github:https://github.com/ZJU-LLMs/Foundations-of-LLMs《大模型基础
开源模型应用落地-qwen2-7b-instruct-LoRA微调-LLaMA-Factory-单机多卡-RTX 4090双卡（五）开源技术探险家开源模型-实际应用落地 #开源模型-微调实战密码自然语言处理深度学习语言模型
一、前言本篇文章将使用LLaMA-Factory去高效微调QWen2系列模型，通过阅读本文，您将能够更好地掌握这些关键技术，理解其中的关键技术要点，并应用于自己的项目中。二、术语介绍2.1.LoRA微调LoRA(Low-RankAdaptation)用于微调大型语言模型(LLM)。是一种有效的自适应策略，它不会引入额外的推理延迟，并在保持模型质量的同时显着减少下游任务的可训练参数数量。2.2.参数
芯科科技通过全新并发多协议SoC重新定义智能家居连接电子科技圈 Silicon Labs 智能家居边缘计算 mcu 物联网 iot 人工智能机器学习
MG26系列SoC现已全面供货，为开发人员提供最高性能和人工智能/机器学习功能致力于以安全、智能无线连接技术，建立更互联世界的全球领导厂商SiliconLabs（亦称“芯科科技”，NASDAQ：SLAB），日前宣布其MG26系列无线片上系统（SoC）现已通过芯科科技及其分销合作伙伴全面供货。作为业界迄今为止最先进、高性能的Matter和并发多协议解决方案，MG26SoC的闪存和RAM容量是芯科科技
【大模型系列篇】Vanna-ai基于检索增强(RAG)的sql生成框架木亦汐丫大模型语言模型 sql agi ai 数据库人工智能 embedding
简介Vanna是基于检索增强(RAG)的sql生成框架Vanna使用一种称为LLM（大型语言模型）的生成式人工智能。简而言之，这些模型是在大量数据（包括一堆在线可用的SQL查询）上进行训练的，并通过预测响应提示中最有可能的下一个单词或“标记”来工作。Vanna优化了提示（通过向量数据库使用嵌入搜索）并微调LLM模型以生成更好的SQL。Vanna可以使用和试验许多不同的LLM，以获得最准确的结果。V
中国人工智能大赛成果发布会 | 代码安全智能体让研发安全又高效安全
2024年12月20日，由厦门市人民政府主办，以“融新汇智竞促发展”为主题的第五届中国人工智能大赛成果发布会在厦门成功举办。人工智能安全论坛于成果发布会期间举办，重点聚焦人工智能安全技术专家，共同探讨安全治理的实践经验，探索智能体安全、大模型安全、数据安全、内容安全等方面面临的挑战和解决方案。百度安全技术委员会主席包沉浮受邀出席，分享了智能体技术在代码安全应用上的最新实践经验。百度安全技术委员会主
重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！ zhangjiaofa DeepSeek R1&AI人工智能大模型人工智能 DeepSeek R1 多模态
一、引言在当今人工智能飞速发展的时代，多模态AI技术正逐渐成为研究与应用的焦点。近日，一项令人瞩目的成果引发了广泛关注——VLM-R1开源项目成功将DeepSeek的R1方法从纯文本领域迁移至视觉语言领域，为多模态AI的发展开辟了新的道路，极大地拓展了多模态领域的想象空间。本文将深入探讨这一创新性成果，从其灵感来源、验证结果、实际案例、带来的新思路以及开源资源等多个方面进行剖析，带您全面了解这一前
《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》程序猿阿伟人工智能
在数字化时代，数据如汹涌浪潮般不断涌现，其规模之大、增长速度之快超乎想象。企业和组织每天都要面对海量数据的存储与传输挑战，如何在有限的资源条件下高效处理这些数据，成为亟待解决的关键问题。此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。信息论，作为一门研究信息的度量、传输、存储和处理的学科，为理解数据的本质提供了深刻
《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》人工智能深度学习
在数字化时代，数据如汹涌浪潮般不断涌现，其规模之大、增长速度之快超乎想象。企业和组织每天都要面对海量数据的存储与传输挑战，如何在有限的资源条件下高效处理这些数据，成为亟待解决的关键问题。此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。信息论，作为一门研究信息的度量、传输、存储和处理的学科，为理解数据的本质提供了深刻
「AI」人工智能的发展阶段：ANI、AGI与ASI 何曾参静谧「AI」人工智能人工智能 agi
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「定制」定制开发集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」BlockUI集合「Py」Python程序设计「Math」探秘数学世界「PK」Paras
对深度学习中的基本概念—梯度的理解 Humingway 深度学习深度学习人工智能
本文讨论一下对“梯度”的理解。“梯度”是深度学习中基本又非常核心的概念，没有它就没有人工智能的今天。然而，即使抛开令人眼花缭乱的术语（比如sgd、ada、moment、adam）不谈，即使最简单的“梯度”本身，也值得讨论一下。1.提出问题该如何理解梯度？让我们结合具体的例子来体会一下。2.定义例子首先，我们定义一个简单的例子，来模拟一下深度学习的学习过程。已知：有一个正确的数据对（或者叫样本），(
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置