Funny_AI_LAB

大语言模型(LLM)发展历程及模型相关信息汇总（2023-07-12更新）

大语言模型(large language model，LLM)发展历程及模型相关信息汇总（2023-07-12更新）

LLM发展时间轴：以下用表格形式汇总了从 BERT（2018-10-11）到 Baichuan（203-06-15）共计 58种语言大模型的相关信息：主要从 模型名称，发布时间，模型参数，发布机构，github/官网，发表论文7个维度进行统计。

排序	模型名称	发布时间	模型参数	发布机构	GitHub/官网	论文
57	Baichuan-7B	2023-06-15	70亿	百川智能	https://github.com/baichuan-inc/baichuan-7B
56	Aquila-7B	2023-06-10	70亿	BAAI	https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
55	Falcon	2023-05-24	400亿	Technology Innovation Institute	https://falconllm.tii.ae/
54	Guanaco	2023-05-23	70亿~650亿	University of Washington	https://github.com/artidoro/qlora	QLORA: Efficient Finetuning of Quantized LLMs
53	RWKV	2023-05-22	70亿	RWKV Foundation	https://github.com/BlinkDL/RWKV-LM	RWKV: Reinventing RNNs for the Transformer Era
52	CodeT5+	2023-05-13	160亿	Salesforce	https://github.com/salesforce/CodeT5	CodeT5+: Open Code Large Language Models for Code Understanding and Generation
51	PaLM2	2023-05-10	10亿~100亿	Google	https://ai.google/static/documents/palm2techreport.pdf	PaLM 2 Technical Report
50	RedPajamaINCITE	2023-05-05	28亿	TOGETHER	https://huggingface.co/togethercomputer/RedPajama-INCITE-Instruct-3B-v1	Releasing 3B and 7B RedPajama-INCITE family of models including base, instruction-tuned & chat models
49	MPT	2023-05-05	70亿	MosaicML	https://github.com/mosaicml/llm-foundry	Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs
48	StarCoder	2023-05-05	70亿	Hugging Face	https://github.com/bigcode-project/starcoder/	Star Coder: May the Source be With You!
47	OpenLLaMa	2023-05-03	70亿	Berkeley Artificial Intelligence Research	https://github.com/openlm-research/open_llama	OpenLLaMA: An Open Reproduction of LLaMA
46	StableLM	2023-04-20	30亿&70亿	Stability AI	https://stability.ai/blog/stability-ai-launches-the-first-of-its-stablelm-suite-of-language-models	Stability AI Launches the First of its StableLM Suite of Language Models
44	Koala	2023-04-03	130亿	Berkeley Artificial Intelligence Research	https://github.com/young-geng/EasyLM	Koala: A Dialogue Model for Academic Research
43	Vicuna-13B	2023-03-31	130亿	LM-SYS	https://github.com/lm-sys/FastChat	Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality
42	BloombergGPT	2023-03-30	500亿	Bloomberg	https://www.bloomberg.com/company/press/bloomberggpt-50-billion-parameter-llm-tuned-finance/	BloombergGPT: A Large Language Model for Finance
41	GPT4All	2023-03-29	70亿	Nomic AI	https://github.com/nomic-ai/gpt4all	GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo
40	Dolly	2023-03-24	60亿	Databricks	https://huggingface.co/databricks/dolly-v1-6b	Hello Dolly: Democratizing the magic of ChatGPT with open models
39	ChatGLM-6B	2023-03-14	62亿	清华大学	https://github.com/THUDM/ChatGLM-6B	ChatGLM-6B: An Open Bilingual Dialogue Language Model
38	GPT-4	2023-03-14	未知	OpenAI	https://cdn.openai.com/papers/gpt-4.pdf	GPT-4 Technical Report
37	StanfordAlpaca	2023-03-13	70亿	Stanford	https://github.com/tatsu-lab/stanford_alpaca	Alpaca: A Strong, Replicable Instruction-Following Model
36	LLaMA	2023-02-24	70亿～650亿	Meta	https://github.com/facebookresearch/llama	LLaMA: Open and Efficient Foundation Language Models
35	GPT-3.5	2022-11-30	1750亿	OpenAI	https://platform.openai.com/docs/models/overview	GPT-3.5 Model
34	BLOOM	2022-11-09	1760亿	BigScience	https://huggingface.co/bigscience/bloom	BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
33	BLOOMZ	2022-11-03	1760亿	BigScience	https://github.com/bigscience-workshop/xmtf	Crosslingual Generalization through Multitask Finetuning
32	mT0	2022-11-03	130亿	BigScience	https://github.com/bigscience-workshop/xmtf	Crosslingual Generalization through Multitask Finetuning
31	Flan-U-PaLM	2022-10-20	5400亿	Google	https://github.com/google-research/t5x/blob/main/docs/models.md	Scaling Instruction-Finetuned Language Models
30	Flan-T5	2022-10-20	110亿	Google	https://github.com/google-research/t5x/blob/main/docs/models.md	Scaling Instruction-Finetuned Language Models
29	WeLM	2022-09-21	100亿	微信	https://welm.weixin.qq.com/docs/api/	WeLM: A Well-Read Pre-trained Language Model for Chinese
28	PLUG	2022-09-01	270亿	阿里达摩院	https://github.com/alibaba/AliceMind/tree/main/PLUG	PLUG: Pre-training for Language Understanding and Generation
27	OPT	2022-05-02	1750亿	Meta	https://github.com/facebookresearch/metaseq/tree/main/projects/OPT	OPT: Open Pre-trained Transformer Language Models
26	PaLM	2022-04-05	5400亿	Google	https://github.com/lucidrains/PaLM-pytorch	PaLM: Scaling Language Modeling with Pathways
25	Chinchilla	2022-03-29	700亿	Google DeepMind	https://www.deepmind.com/blog/an-empirical-analysis-of-compute-optimal-large-language-model-training	Training Compute-Optimal Large Language Models
24	CodeGen	2022-03-25	160亿	Salesforce	https://github.com/salesforce/codegen	CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis
23	GLM-130B	2022-03-17	1300亿	清华大学	https://github.com/THUDM/GLM-130B	GLM: General Language Model Pretraining with Autoregressive Blank Infilling
22	InstructGPT	2022-03-04	1750亿	OpenAI	https://github.com/openai/following-instructions-human-feedback	Training Language Models to Follow Instructions with Human Feedback
21	AlphaCode	2022-02-08	410亿	Google DeepMind	https://www.deepmind.com/blog/competitive-programming-with-alphacode	Competition-Level Code Generation with AlphaCode
20	MT-NLG	2022-01-28	5300亿	Microsoft	https://github.com/microsoft/DeepSpeed	Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model
19	LaMDA	2022-01-20	1370亿	Google	https://github.com/conceptofmind/LaMDA-rlhf-pytorch	LaMDA: Language Models for Dialog Applications
18	WebGPT	2021-12-17	1750亿	OpenAI	https://openai.com/research/webgpt	WebGPT: Browser-assisted question-answering with human feedback
17	GLaM	2021-12-13	12000亿	Google	https://ai.googleblog.com/2021/12/more-efficient-in-context-learning-with.html	GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
16	Gopher	2021-12-08	2800亿	Google DeepMind	https://www.deepmind.com/blog/language-modelling-at-scale-gopher-ethical-considerations-and-retrieval	Scaling Language Models: Methods, Analysis & Insights from Training Gopher
15	T0	2021-10-15	110亿	Hugging Face	https://github.com/bigscience-workshop/t-zero	Multitask Prompted Training Enables Zero-Shot Task Generalization
14	FLAN	2021-09-03	1370亿	Google	https://github.com/google-research/FLAN	Finetuned Language Models Are Zero-Shot Learners
13	Codex	2021-07-07	120亿	OpenAI	https://github.com/openai/human-eval	Evaluating large language models trained on code
12	ERNIE3.0	2021-07-05	100亿	百度	https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-3.0	ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
11	PanGu-Alpha	2021-04-26	2000亿	华为	https://openi.pcl.ac.cn/PCL-Platform.Intelligence/PanGu-Alpha	PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation
10	SwitchTransformer	2021-01-11	16000亿	Google	https://huggingface.co/google/switch-large-128	Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
9	mT5	2020-10-22	130亿	Google	https://huggingface.co/google/mt5-base	mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer
8	GShard	2020-06-30	6000亿	Google	https://arxiv.org/pdf/2006.16668.pdf	GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
7	GPT-3	2020-05-28	1750亿	OpenAI	https://github.com/openai/gpt-3	Language Models are Few-Shot Learners
6	Turing-NLG	2020-02-13	170亿	Microsoft	https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/	Turing-NLG: A 17-billion-parameter language model by Microsoft
5	T5	2019-10-23	110亿	Google	https://github.com/google-research/t5x	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
4	XLNet	2019-06-19	3.4亿	Google Brain	https://github.com/zihangdai/xlnet	XLNet: Generalized Autoregressive Pretraining for Language Understanding
3	Baidu-ERNIE	2019-04-19	3.4亿	百度	https://github.com/PaddlePaddle/ERNIE	ERNIE: Enhanced Representation through Knowledge Integration
2	GPT-2	2019-02-14	15亿	OpenAI	https://github.com/openai/gpt-2	Language Models are Unsupervised Multitask Learners
1	BERT	2018-10-11	3.4亿	Google	https://github.com/google-research/bert	Bidirectional Encoder Representations from Transformers
0	GPT-1	2018-06-11	1.17 亿	OpenAI	https://github.com/openai/finetune-transformer-lm	Improving Language Understanding by Generative Pre-Training

其中具有代表性的节点作品：

-结合对齐和翻译的神经网络机器翻译模型

论文题目：Neural Machine Translation by Jointly Learning to Align and Translate (2014)

论文解读：论文笔记《Neural Machine Translation by Jointly Learning to Align and Translate》

这篇文章引入了一种注意力机制（attention mechanism），用于提升递归神经网络（RNN）的长序列建模能力。这使得 RNN 能够更准确地翻译更长的句子——这也是后来开发出原始 Transformer 模型的动机。

Transformer：注意力机制

论文题目：Attention Is All You Need (2017)

论文解读：详解Transformer （Attention Is All You Need）

这篇论文介绍了原始 Transformer 模型的结构。该模型由编码器和解码器两部分组成，这两个部分在后续模型中分离成两个独立的模块。此外，该论文还引入了缩放点积注意力机制（Scaled Dot Product Attention Mechanism）、多头注意力机制（Multi-head Attention Blocks）和位置编码（Positional Input Encoding）等概念，这些概念仍然是现代 Transformer 系列模型的基础。

BERT: 语言理解的深度双向 Transformer 预训练

论文题目：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)

论文解读：[详解] 一文读懂 BERT 模型

在原始的 Transformer 模型之后，大语言模型研究开始向两个方向分化：基于编码器结构的 Transformer 模型用于预测建模任务，例如文本分类；而基于解码器结构的 Transformer 模型用于生成建模任务，例如翻译、摘要和其他形式的文本内容生成。

GPT1:通过生成预训练改进语言理解

论文题目：Improving Language Understanding by Generative Pre-Training (2018)

论文解读：ChatGPT1论文解读《Improving Language Understanding by Generative Pre-Training》（2018）

在预训练阶段增加Transformer中间层可以显著提升效果；整个模型在12个数据集中的9个取得了更好的效果，说明该模型架构设计很不错，值得继续深入研究；辅助目标学习对于数据量越大的场景，可以越提升模型的泛化能力。

GPT2:

论文题目：Language Models are Unsupervised Multitask Learners（2019）

GPT-2模型依旧使用Transformer模型的decoder，但相比于GPT-1，数据和模型参数变得更大，大约是之前的10倍，主打zero-shot任务。

GPT3:

论文题目：Language Models are Few-Shot Learners（2020）

论文解读：GPT-3阅读笔记：Language Models are Few-Shot Learners

GPT-3不再追求极致的zero-shot学习，即不给你任何样例去学习，而是利用少量样本去学习。因为人类也不是不看任何样例学习的，而是通过少量样例就能有效地举一反三。
由于GPT-3庞大的体量，在下游任务进行fine-tune的成本会很大。因此GPT-3作用到下游子任务时，不进行任何的梯度更新或fine-tune。

GPT4:生成式预训练变换模型

论文题目：GPT-4 Technical Report（2023）

论文解读：GPT-4大模型硬核解读，看完成半个专家

—论文解读：GPT系列论文阅读笔记

整理数据来源于网上公开资源，如有不对之处请指正，谢谢。

参考：

1.关于 ChatGPT 必看的 10 篇论文

2.理解大语言模型–10篇论文的简明清单

3.GPT-4论文精读【论文精读·53】

4 .通向AGI之路：大型语言模型（LLM）技术精要

5.万字长文：LLM - 大语言模型发展简史

【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
LLMOps 是什么？ AI Agent首席体验官人工智能 chatgpt
1.LLMOps是什么？LLMOps（LargeLanguageModelOperations）指的是一系列用于管理、部署和优化大规模语言模型（LLMs）的操作和实践。这些操作可以涵盖多个领域，例如模型的训练、推理优化、部署、监控、故障排除等。在实际应用中，LLMOps的目标是提高语言模型的效率和效果，确保模型能够在各种实际场景中顺利运行。通常，它包括以下几个关键方面：模型训练：如何高效地训练大规
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
使用Yeager.ai轻松构建LangChain工具和代理 qahaj 人工智能 langchain python
技术背景介绍在现代AI开发框架中，如何快速构建、测试和部署AI解决方案是一个重要的课题。Yeager.ai为此提供了一个完整的生态系统，旨在简化AI智能体和工具的创建过程。它的核心组件yAgents是一个无代码的LangChain代理构建器，能够让用户轻松地集成各种语言模型和资源，非常适合开发者、研究人员和AI爱好者在不同应用场景中使用。核心原理解析Yeager.ai利用LangChain框架，通
第二十一篇：伦理/道德Ethics flying_1314 NLP ethics 伦理/道德隐私偏见双重用途
目录什么是伦理/道德？我们为什么要关心？为什么道德很难？学习成果大纲反对NLP道德检查的论据我们应该审查科学吗？H5N1透明度不是更好吗？AIvs.Cybersecurity核心NLP伦理概念偏见词嵌入中的偏差双重用途OpenAIGPT-2隐私GDPRAOL搜索数据泄露小组讨论提示自动刑期预测自动简历处理语言社区分类打包带走~什么是伦理/道德？我们应该如何生活——苏格拉底•正确的做法是什么？•为什
如何使用Langchain加载AZLyrics网页到可用文档格式 dgay_hua langchain python
##技术背景介绍在处理歌词数据时，尤其是从网页上获取歌词文本内容，用于自然语言处理或文本分析是常见的需求。AZLyrics是一个提供歌词的主要平台，为我们提供了大量的歌词数据。如果我们可以将这些网页内容自动加载到结构化的文档格式中，将极大地提升我们处理和分析歌词的效率。##核心原理解析Langchain提供了一种简单的方式来将网页内容转换为可用的文档格式。通过使用其文档加载器（DocumentLo
使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
向量数据库技术系列三-Chroma介绍恰恰虎 chromadb 数据库向量
一、前言Chroma是一个开源的AI原生向量数据库，旨在帮助开发者更加便捷地构建大模型应用，将知识、事实和技能等文档整合进大型语言模型（LLM）中。它提供了简单易用的API，支持存储嵌入及其元数据、嵌入文档和查询、搜索嵌入等功能。主要有以下特点:轻量级：Chroma是一个基于向量检索库实现的轻量级向量数据库，不需要复杂的配置和大规模基础设施支持，非常适合小型或中型项目。易用性：提供简单的API，易
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Github上神仙级大模型项目：大语言模型(LLM)入门学习路线图，三个月让你从大模型基础到精通！ AI大模型-大飞 github 语言模型学习人工智能 AI大模型程序员 AI
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

大语言模型(LLM)发展历程及模型相关信息汇总（2023-07-12更新）

你可能感兴趣的:(AIGC,语言模型,人工智能,自然语言处理,nlp,AIGC)