SmallerFL

大语言模型LLM基础扫盲速通版

文章目录

1. 什么是LLM？
2. LLM如何工作？
3. LLM开发的关键里程碑
4. 训练可用LLM模型的完整流程
5. LLM具备的能力
6. 领先的LLM模型包含哪些？
7. 建议从头开始训练LLM吗？
8. LLM的训练数据源包含哪些？
9. 其他关于LLM的常见问题
- 9.1 Transformer在LLM中有何意义？
- 9.2 在LLM中，微调 (fine-tuning) 是什么？
- 9.3 模型大小如何影响LLM的性能？
- 9.4 LLM 能生成编程语言的代码吗？
- 9.5 LLM的“上下文学习”是什么？
- 9.6 LLM中的“零样本”和“小样本”学习是什么？

1. 什么是LLM？

LLM 是“大型语言模型”（Large Language Model）的缩写。它指的是使用深度学习技术训练出来的，具有大规模参数量的语言处理模型。这些模型通常在互联网上的大量文本数据上进行训练，以学习自然语言的模式和结构。训练后的 LLM 能够执行各种自然语言处理任务，如文本生成、机器翻译、问答系统、摘要生成、情感分析等。

当我们说人类语言时，不仅仅指中文、英语或法语等，人类语言还延伸到：

摩尔斯电码
遗传密码
象形文字
加密
手语
肢体语言
乐谱
化学信号
表情符号和符号
动物交流
触觉通信
交通标志和信号
数学方程
编程语言

LLM 经过数百、数千亿、甚至数万亿个参数的训练，能够从广泛的数据源中学习到规律。

这种广泛的训练使他们能够根据收到的输入预测和生成文本，以便他们可以参与对话、回答查询甚至编写代码。

2. LLM如何工作？

大型语言模型使用神经网络和机器学习 (ML) 的混合。正是这种混合使得该技术能够首先处理然后生成原始文本和图像。神经网络是 LLM 的大脑。这些网络从大量数据中学习，随着接触更多数据而不断进步。

随着模型接受更多数据的训练，它会学习语言的模式、结构和细微差别。这就像同时教它语法规则、诗歌节奏和技术手册的术语一样。

然后，机器学习模型帮助模型根据句子前面的单词预测下一个单词。这个过程重复了无数次，提高了模型生成连贯且上下文相关的文本的能力。

LLM 现在采用 Transformer 架构，该架构允许模型查看并权衡句子中不同单词的重要性，这与我们阅读句子并寻找上下文线索来理解其含义时的情况相同。

虽然 LLM 可以生成原创内容，但其输出的质量、相关性和创新性可能会有所不同，需要人工监督和改进。

3. LLM开发的关键里程碑

大型语言模型并不总是像今天这样有用。随着时间的推移，它们得到了很大的发展和迭代。

让我们回顾一下 LLM 历史上的一些关键时刻。这样你就可以了解他们取得了多大的进步，以及与几十年的缓慢进步相比，过去几年的快速发展。

（1）2010 年之前：早期基础

1950 年代至 1970 年代：早期的人工智能研究为自然语言处理奠定了基础。最著名的是，名为“Eliza”的技术人员是世界上第一个聊天机器人。

1980 年代至 1990 年代：NLP 统计方法的发展，逐渐摆脱基于规则的系统。

（2）2010 年：初始模型

2013 年推出了 word2vec，这是一种计算词语向量表示的工具，通过捕捉词语的语义，显著提高了 NLP 任务的质量。

（3）2014-2017：RNN 和注意力机制

2014 年：序列到序列 (seq2seq) 模型和循环神经网络 (RNN) 在机器翻译等任务中变得流行。

2015年：引入注意力机制，提高神经机器翻译系统的性能。

2017年：《Attention is All You Need》论文中提出了Transformer模型，以对序列的高效处理为NLP任务树立了新的标准。

（4）2018 年：GPT 和 BERT 的出现

2018 年 6 月：OpenAI 推出 GPT（生成式预训练变压器），这是一种利用无监督学习生成连贯且多样化文本的模型。

2018 年 10 月：Google AI 推出 BERT（来自 Transformers 的双向编码器表示），它使用 Transformer 模型的双向训练来提高对语言上下文的理解。

（5）2019-2020：更大、更强大的类型

2019 年：推出 GPT-2，这是 GPT 的改进版本，具有 15 亿个参数，展示了该模型在扩展段落中生成连贯且上下文相关的文本的能力。

2020 年：OpenAI 发布 GPT-3，这是一个拥有 1750 亿个参数的更大模型，在生成类似人类的文本、翻译和回答问题方面表现出卓越的能力。

（6）2021-2023：LLM的专业化、多模态性和民主化

2021-2022：开发专门的模型，例如用于对话应用程序的 Google LaMDA 和用于开放预训练变压器的 Facebook OPT。

2021 年：引入多模态模型，例如 OpenAI 的 DALL·E，能够根据文本描述生成图像，以及 CLIP，可以在自然语言环境中理解图像。

2022 年：GPT-4 和其他先进模型（如 Midjourney）的出现，继续突破 LLM 在各个领域和任务（包括图像生成）中生成和理解自然语言方面的潜力。它也更容易被更多人接受。

下图是2023年之前的大模型发布的时间线：

4. 训练可用LLM模型的完整流程

（1）模型定义与准备

选择或设计模型架构：根据任务需求选择适合的神经网络结构，例如Transformer架构。
初始化模型参数：设定初始权重和偏置值，这些通常是随机初始化或者从预训练模型加载。

（2）数据收集与预处理

数据源采集：获取来自多种渠道的数据，如网页、书籍、新闻文章等。确保数据的质量和多样性。
数据清洗：去除噪声、重复内容和其他不需要的信息，以提高数据质量。
分词器训练：如果需要自定义分词规则，则需训练一个合适的分词器（Tokenizer），将文本转换成模型可以理解的形式。
数据格式化：将文本转化为适合输入给模型的形式，比如将句子分割成tokens，并添加特殊标记如[CLS]和[SEP]。

（3）预训练（Pre-training）

Next Token Prediction：通过预测下一个token的任务来学习语言模式。这是无监督学习的一部分，旨在让模型掌握广泛的语言规律。
掩码语言建模（Masked Language Modeling, MLM）：随机遮蔽一部分词汇，然后让模型去预测被遮蔽的词汇。这有助于模型更好地理解和表示上下文信息。
使用大规模语料库：利用大量未标注的数据进行预训练，使模型能够获得丰富的语言知识。

（4）监督微调（Supervised Fine-Tuning, SFT）

引入带标签的数据集：针对特定下游任务，使用带有明确标签的数据集对模型进行微调。
指令跟随能力：通过提供具体的指令，使模型学会按照指示生成响应或执行任务。
减少错误输出：修正预训练期间可能学到的一些不正确的行为或输出。

（5）可选，强化学习与人类反馈（Reinforcement Learning from Human Feedback, RLHF）

偏好对齐：通过人类评估者的反馈，调整模型的输出使其更符合人类的价值观和期望。
控制有害内容：防止模型生成任何可能引起伤害的内容，如仇恨言论、虚假信息等。
优化对话风格：改善模型的回答方式，使得其语气更加自然友好，更适合人机交互。

（6）模型评估与验证

内部测试：在开发过程中持续监控模型性能，确保其稳定性和准确性。
外部基准测试：使用公共可用的基准数据集来衡量模型相对于其他同类模型的表现。
用户反馈：收集真实用户的评价，了解实际应用场景下的用户体验。

（7）部署与推理

模型压缩：为了降低计算成本和加速推理速度，可能会采用量化、剪枝等技术简化模型。
服务化部署：将训练好的模型部署到生产环境中，供API或其他应用程序调用。
在线更新机制：建立定期更新机制，以便随着新数据的到来不断改进模型。

5. LLM具备的能力

以下是 LLM 能力的列表：

文本生成
语言翻译
总结
问答
情绪分析
对话代理
代码生成与解释
命名实体识别
文本分类
内容推荐
语言建模
拼写检查和语法校正
释义和重写
关键字和短语提取
对话系统

6. 领先的LLM模型包含哪些？

GPT系列：由 OpenAI 推出
LLaMA：由 Meta 推出
PaLM 2：由 Google DeepMind 推出
Gemini：由 Google DeepMind 推出
Claude：由 Anthropic 推出
Qwen：由阿里巴巴推出
…

7. 建议从头开始训练LLM吗？

从头开始训练 LLM 一般公司难以承担成本，需要大量的资源、时间和技术支持。

训练一个大型模型需要大量的计算资源。为了训练一个与 GPT-3、GPT-4 等规模相当的模型，通常需要数百到上千个 GPU 卡，可能花费数百到数千万美元。

训练时间因硬件资源和模型规模而异。使用高性能的硬件（如TPU集群），训练一个大规模的模型可能需要几周到几个月的时间。

所以目前很多公司的策略是采用开源模型，如 LLaMA、Qwen 等，把这些已经训练好的模型权重作为基础模型，在此基础上增加新的语料进行微调或增量训练，以此大大降低时间和机器成本。

8. LLM的训练数据源包含哪些？

网页内容
书籍和文献
社交媒体平台
新闻文章和期刊
百科全书和其他参考
开源项目和代码库

下面是一些开源的数据集：

数据集名称	使用者	类型	语言	大小	描述 ️
proof-pile	proof-GPT	预训练 (PT)	英文 LaTeX	13GB	一个预训练数据集，类似于Pile但包含LaTeX语料库以增强模型在证明上的能力。
peS2o	/	预训练 (PT)	英文	7.5GB	用于预训练的高质量学术论文数据集。
StackOverflow 帖子	/	预训练 (PT)	/	35GB	以Markdown格式的原始StackOverflow数据，用于预训练。
SlimPajama	/	预训练 (PT)	主要为英文	/	RedPajama的清理和去重版本
NMBVC	/	预训练 (PT)	中文	/	大规模、持续更新的中文预训练数据集。
falcon-refinedweb	tiiuae/falcon系列	预训练 (PT)	英文	/	CommonCrawl的精炼子集。
CBook-150K	/	预训练 (PT), 构建数据集	中文	150K+书籍	原始中文书籍数据集。需要一些预处理流程。
Common Crawl	LLaMA（经过一些处理后）	构建数据集, 预训练 (PT)	/	/	最著名的原始数据集之一，很少直接使用。一种可能的预处理流程是CCNet
nlp_Chinese_Corpus	/	预训练 (PT), TF	中文	/	包括维基百科、百度百科、百度问答、一些论坛问答和新闻语料库的中文预训练语料库。
The Pile (V1)	GLM（部分）、LLaMA（部分）、GPT-J, GPT-NeoX-20B, Cerebras-GPT 6.7B, OPT-175b	预训练 (PT)	多语言, 代码	825GB	包含22个更小的高质量数据集的多样化开源语言模型数据集，涵盖许多领域和任务。
C4 Huggingface数据集 TensorFlow数据集	Google T5系列, LLaMA	预训练 (PT)	英文	305GB	Common Crawl网页爬虫语料库的巨量清理版本。经常被使用。
ROOTS	BLOOM	预训练 (PT)	多语言, 代码	1.6TB	包括Wikipedia和StackExchange等子数据集的多样化开源数据集，用于语言模型。
PushshPairs reddit 论文	OPT-175b	预训练 (PT)	/	/	Reddit原始数据，一种可能的处理流程见此论文
Gutenberg项目	LLaMA	预训练 (PT)	多语言	/	书籍数据集，主要是小说。未经过预处理。
CLUECorpus	/	预训练 (PT), 微调, 评估	中文	100GB	来源于Common Crawl的中文预训练语料库。

9. 其他关于LLM的常见问题

9.1 Transformer在LLM中有何意义？

Transformer 模型至关重要，因为它们使 LLM 能够通过自注意力机制处理文本中的长距离依赖关系。该机制允许模型衡量句子中不同单词的重要性，从而提高语言模型在理解和生成语言方面的表现。

9.2 在LLM中，微调 (fine-tuning) 是什么？

微调是在预训练之后的环节，针对特定任务进一步训练它。此过程会调整模型权重，使其在特定任务（如情绪分析、处理编程语言或其他专门应用程序）上表现更好。

9.3 模型大小如何影响LLM的性能？

模型大小通常以参数数量来衡量，它会影响 LLM 捕捉复杂语言模式的能力。根据多篇论文的实验表明，具有数千亿个参数的超大型模型通常表现更好，但在训练过程中需要更多的计算资源。

9.4 LLM 能生成编程语言的代码吗？

是的，LLM 可以生成各种编程语言的代码。它们通过提供代码片段、调试帮助和翻译代码来帮助开发人员，这要归功于它们在包含编程代码的各种数据集上进行的训练。

9.5 LLM的“上下文学习”是什么？

上下文学习是指 LLM 能够仅根据推理过程中提供的输入文本来学习和执行特定任务，而无需进行额外的微调。这使模型能够动态适应新任务或指令，从而增强其在广泛应用中的多功能性。

9.6 LLM中的“零样本”和“小样本”学习是什么？

零样本（zero shot）学习允许 LLM 利用其一般的语言理解能力来执行未经过明确训练的特定任务。

少样本（few shot）学习涉及在提示中为模型提供一些任务示例来指导其推理。

这两种方法都展示了模型在极少或没有额外训练数据的情况下进行泛化和适应新任务的能力。

欢迎关注本人，我是喜欢搞事的程序猿；一起进步，一起学习；

欢迎关注知乎/CSDN：SmallerFL

也欢迎关注我的wx公众号（精选高质量文章）：一个比特定乾坤

机器学习-K近邻算法 shy_snow python 机器学习机器学习近邻算法人工智能
k-近邻分类算法，即物以类聚的思想，通过已知分类中的点和未知分类的点距离最近的前k个点的分类来预测未知点的分类。kNN.pyfromnumpyimport*importoperatordefcreateDataSet():group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels=['A','A','B','B']returngroup,label
从数据到智慧：AI原生知识库构建的完整技术栈解析 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 大数据 ai
从数据到智慧：AI原生知识库构建的完整技术栈解析关键词AI原生知识库、知识图谱、向量数据库、大语言模型、RAG技术、知识工程、智能问答系统摘要在人工智能飞速发展的今天，构建能够真正理解、组织和应用知识的系统已成为企业数字化转型的核心竞争力。本文将深入剖析AI原生知识库的完整技术栈，从数据采集与预处理，到知识表示与建模，再到存储架构与检索增强生成技术，全方位解读如何将原始数据转化为可行动的智慧。我们
【人工智能】大比拼：文心一言 VS ChatGPT —— 禅与计算机程序设计艺术亲自测评 AI天才研究院 ChatGPT 人工智能文心一言 chatgpt
收到了百度“文心一言”的内测邀请，现在给大家亲身体验测评一下！禅与计算机程序设计艺术先说结论：文心一言表现基本符合预期。与ChatGPT有一定差距，应该在几个月左右。但是禅与计算机程序设计艺术，挺期待ChatGLM-130B版本的效果的。因为，ChatGLM-6B在本地测评的效果，还是非常不错的！目录文心一言写一篇论文介绍一下你自己，从技术原理、应用场景、未来发展、当前不足等方面，不少于3000字
1. RAG 权威指南：从本地实现到生产级优化的全面实践 javascript
1.RAG权威指南：从本地实现到生产级优化的全面实践大型语言模型（LLM）的知识受限于其训练数据，这是一个众所周知的痛点。检索增强生成（RAG）技术应运而生，它如同一座桥梁，将这些强大的基础模型与企业所需的实时、动态信息连接起来，极大地拓展了AI的能力边界。RAG将LLM从一个封闭的知识库，转变为一个能够提供准确、实时且紧密贴合上下文的动态工具。本文将作为你的向导，带你深入探索RAG的世界。我们首
AI技术正在深度重构全球产业格局，其影响已超越工具属性，演变为推动行业变革的核心引擎。
一、AI如何重塑AI的工作与行业（AI助手领域）能力升级理解与生成：基于LLM（大语言模型），AI能处理开放式问题、撰写报告、翻译代码，替代部分人类知识工作。个性化交互：通过用户历史对话分析，提供定制化建议（如学习计划、投资策略）。多模态扩展：结合图像/语音识别（如GPT-4V），实现图文分析、医学影像解读等跨模态任务。行业变革客服行业：AI客服处理70%+常规咨询（如阿里小蜜），人力转向复杂问题
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
大模型——什么是 Vibe Coding？从零开始学习 AI 辅助编程不二人生大模型学习人工智能大模型辅助编程
大模型——什么是VibeCoding？从零开始学习AI辅助编程VibeCoding：代码消失，直觉驱动的软件开发新浪潮？生成式人工智能的指数级增长正不断重塑各个行业，软件开发领域也不例外。大约在2025年初，一股源自美国硅谷的新思潮开始引起关注：开发者似乎可以借助AI工具，在几乎不直接编写代码的情况下构建产品。这种依赖直觉、跳脱传统编码苦役的开发方式，被赋予了一个颇具时代感的名字——VibeCod
Gemini vs DeepSeek：Transformer 架构下的技术路线差异与企业级选择 charles666666 transformer 架构深度学习语言模型产品经理人工智能
一、引言：从商业价值切入Gemini和DeepSeek都基于Transformer架构，但在技术路线和应用场景上各有侧重。本文将解密同源Transformer下的技术分野，帮助企业做出更明智的大模型选型决策。二、Transformer核心机制精要Transformer架构是现代大语言模型的基础，其核心机制包括自注意力机制和前馈神经网络。自注意力机制使模型能够捕捉序列中元素的全局依赖关系，但也是GP
脑电分析入门指南：信号处理、特征提取与机器学习 Ao000000 信号处理机器学习人工智能
脑电分析入门指南一、为什么要研究脑电1.课题目标（解决什么问题）2.输入与输出二、脑电分析的整体流程三、每一步详解1.数据采集2.预处理3.特征提取4.特征选择/降维5.分类与识别四、研究过程中遇到的挑战与解决方法五、学习感受一、为什么要研究脑电1.课题目标（解决什么问题）本课题旨在通过对脑电（EEG）的采集与分析，提取有用的神经信息，实现对某类脑状或行为的识别/预测/评估。例如：情绪识别、疾病诊
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
大型语言模型中的提示工程系统综述：技术与应用 AI专题精讲 Paper阅读语言模型人工智能自然语言处理
摘要提示工程已成为扩展大型语言模型（LLMs）和视觉语言模型（VLMs）能力的不可或缺的技术。这种方法利用任务特定的指令（称为prompt），在不修改核心模型参数的情况下增强模型效能。与更新模型参数不同，prompt仅通过给定指令即可引出所需的模型行为，从而实现预训练模型在下游任务中的无缝集成。prompt可以是提供上下文以引导模型的自然语言指令，也可以是激活相关知识的学习向量表示。这一新兴领域已
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
后端领域的自然语言处理技术应用大厂资深架构师 Spring Boot 开发实战自然语言处理 easyui 人工智能 ai
后端领域的自然语言处理技术应用关键词：后端领域、自然语言处理、技术应用、算法原理、实际案例摘要：本文聚焦于后端领域中自然语言处理技术的应用。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示其原理和架构。详细讲解了核心算法原理并给出Python源代码示例，同时介绍了数学模型和公式。通过项目实战，展示代码实际案例并进行详细解释。分析了自然语
企业内网系统：从传统开发到智能赋能的进化之路飞算JavaAI开发助手科技人工智能大数据 java
在当今数字化浪潮中，企业内网系统作为支撑日常运营的核心基础设施，其开发效率与质量直接关系到企业的竞争力。传统开发模式下，程序员需要手动完成需求分析、架构设计、代码编写、测试调试等全流程工作，不仅耗时费力，还容易因人为疏忽导致质量隐患。而随着人工智能技术的突破性进展，以飞算JavaAI为代表的智能开发工具正在重塑企业内网系统的开发范式，为程序员提供从设计到落地的全链路智能支持。一、传统企业内网系统开
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
检索增强生成(RAG)技术演进：从论文到工业级应用 AGI大模型与大数据研究院 AI大模型应用开发实战 ai
检索增强生成(RAG)技术演进：从论文到工业级应用关键词：RAG、检索增强生成、大语言模型、知识检索、工业应用、技术演进、AI系统架构摘要：本文深入探讨检索增强生成(RAG)技术从学术研究到工业应用的完整演进历程。我们将从基础概念出发，逐步解析RAG的核心原理、架构设计、实现细节和优化策略，并通过实际案例展示如何构建高效可靠的工业级RAG系统。文章还将分析当前技术挑战和未来发展方向，为读者提供全面
颠覆人机交互！多模态 AI Agents 大模型如何用 5 大模式开启智能新时代？
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列七颠覆人机交互！多模态AIAgents大模型如何用5大模式开启智能新时代？一、从“单一感知”到“多模态融合”：A
深入剖析开源AI阅读器项目Saga Reader基于大模型的文本转换与富文本渲染优化方案魑魅丶小鬼人工智能
引言AI阅读器作为一种新型的内容消费工具，正在改变人们获取和处理信息的方式。本文将介绍SagaReader项目中如何利用大型语言模型(LLM)进行网页内容抓取、智能优化和富文本渲染，特别是如何通过精心设计的提示词(prompt)引导LLM生成样式丰富的HTML内容，提升用户阅读体验。关于SagaReader基于Tauri开发的著名开源AI驱动的智库式阅读器（前端部分使用Web框架），能根据用户指定
实操 SpringBoot+MCP！清风孤客 spring boot 后端 java 人工智能
引言随着人工智能的飞速发展，大语言模型(LLM)正在革命性地重塑用户与软件的交互范式。想象一下这样的场景：用户无需钻研复杂的API文档或者在繁琐的表单间来回切换，只需通过自然语言直接与系统对话——“帮我查找所有2023年出版的图书”、“创建一个新用户叫张三，邮箱是[email protected]”。这种直观、流畅的交互方式不仅能显著降低新用户的学习曲线，更能大幅削减B端系统的培训成本和实施
如何学习智能体搭建
如何学习智能体搭建前言随着人工智能的发展，智能体（Agent）成为自动化、交互式应用和自主决策系统中的核心角色。本书将从零基础出发，系统讲解智能体的基本原理、常见框架、实战搭建与进阶技巧，帮助你快速上手并应用于实际项目。目录智能体基础认知智能体的核心组成主流智能体开发框架本地智能体与云端智能体选型智能体的任务自动化与插件集成智能体的知识检索与上下文管理智能体的多模态扩展智能体安全与可控性智能体实战
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
Char Studio 使用入门：高效构建企业级对话系统的实战指南 charles666666 人工智能产品经理语言模型自然语言处理架构
数字化浪潮推动下，企业与用户的交互模式正经历深刻变革，对话系统作为核心交互手段，其重要性日益凸显。然而，众多企业在构建对话系统时，却深陷诸多困境，难以自拔。一、开篇痛点场景：企业对话系统开发的典型困境企业在自行开发对话系统时，往往面临预算超支、周期漫长以及维护成本居高不下等问题。开发团队需要投入大量时间和精力进行底层技术架构的搭建，例如自然语言处理算法的研究、对话逻辑的设计等，这不仅消耗了大量的人
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
构建你的AI应用开发平台：如何在Ubuntu上使用Docker部署Dify kaixin_啊啊商业合作 cpolar 人工智能 ubuntu docker
文章目录前言1.Docker部署Dify2.本地访问Dify3.Ubuntu安装Cpolar4.配置公网地址5.远程访问6.固定Cpolar公网地址7.固定地址访问前言本文主要介绍如何在LinuxUbuntu系统使用Docker快速部署大语言模型应用开发平台Dify,并结合cpolar内网穿透工具实现公网环境远程访问本地Dify服务！Dify是一款开源的大语言模型(LLM)应用开发平台。它融合了后
[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
【人工智能】Spring AI Alibaba，一个面向 Java 开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。本本本添哥 A -AIGC 人工智能大模型人工智能 java spring
一、SpringAIAlibaba介绍SpringAIAlibaba是一个面向Java开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。该项目基于SpringAI构建，并且是阿里云通义系列模型及服务在JavaAI应用开发领域的最佳实践。SpringAIAlibaba的目标是为开发者提供一套高层次的AIAPI抽象以及与云原生基础设施的深度集成方案，从而帮助他们快速构建智能应用
模型融合与人机协同：构建人机共生的智能未来 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在科技日新月异的今天，人工智能（AI）已经成为了我们生活中不可或缺的一部分。从智能手机，到自动驾驶汽车，再到医疗诊断，AI的应用已经渗透到了我们生活的方方面面。然而，尽管AI的发展已经取得了显著的成就，但是我们仍然面临着一个重大的挑战：如何让AI系统更好地理解和适应人类的需求，以实现人机共生的智能未来。为了解决这个问题，越来越多的研究者开始探索模型融合和人机协同的方法。2.核心概念与联
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方