wshzd

大语言模型（LLM）评估综述

论文地址：https://arxiv.org/abs/2307.03109

Github地址：https://github.com/MLGroupJLU/LLM-eval-survey

一、背景

随着ChatGPT和GPT-4的推出，大型语言模型（LLM）在学术界和工业界的热度日益升高，这主要归功于它们在各种应用中的无与伦比的表现。随着LLM在研究和日常使用中继续发挥重要作用，对它们的评估变得越来越重要。过去的几年里，人们从各个角度（比如自然语言任务、推理、鲁棒性、可信度、医疗应用和伦理考虑等一系列因素）对LLM进行了大量的研究，如下图2所示：

尽管做出了很多努力，但仍然缺乏对整个评估范围的全面概述。此外，LLM的持续演化也为评估提出了新的方面，从而挑战了现有的评估协议，并强化了需要彻底的、多方面的评估技术的需求。尽管像（Bubeck等人，2023）这样的现有研究声称GPT-4可以被视为AGI的火花，但由于其评估方法的人造性质，其他人对此进行了质疑。

本论文对这些LLM的评估方法进行了全面的回顾，重点关注三个主要维度：评估什么，在哪里评估，以及如何评估。首先，从评估任务的角度提供一个概览，包括一般的自然语言处理任务，推理，医疗应用，伦理，教育，自然和社会科学，代理应用，以及其他领域。其次，通过深入研究评估方法和基准来回答“在哪里”和“如何”评估的问题，这些都是评估LLM性能的关键组成部分。然后，总结了LLM在不同任务中的成功和失败案例。最后，讨论了LLM评估面临的一些未来挑战。

二、大型语言模型基础知识

语言模型（LMs）是一种具有理解和生成人类语言能力的计算模型。LMs具有预测词序列的可能性或者根据给定输入生成新文本的变革性能力。N-gram模型是最常见的LM类型，它根据前文的上下文估计词概率。然而，LMs也面临挑战，比如稀有或未见过的词的问题、过拟合的问题，以及捕获复杂语言现象的困难。传统的LMs的参数量较小，GPT-3后模型证明参数量超过10B的模型具有涌现性（尽管有论文证明可能是Prompt的设计问题，但是模型泛化能力确实比之前的模型强太多），比如GPT-3，InstructGPT和GPT-4等，他们的核心模块是Transformer中的自注意力模块，这是进行语言建模任务的基本构建块。Transformers革新了NLP领域，它们能比RNN和CNN更有效地处理顺序数据，实现并行化，并捕获文本中的长距离依赖关系。

LLMs的一个关键特性是基于上下文的学习，在这里，模型被训练基于给定的上下文或提示生成文本。这使得LLMs能生成更连贯和与上下文相关的回应，使得它们适合于交互和对话应用。来自人类反馈的强化学习（RLHF）是LLMs的另一个关键方面，这种技术涉及使用人类生成的反馈作为奖励进行模型的微调，从而使模型能够从其错误中学习并随着时间的推移提高其性能。

在自回归语言模型中，如GPT-3和PaLM，给定上下文序列X，LM任务旨在预测下一个标记y。模型通过最大化在给定上下文的条件下的标记序列的概率进行训练，即，P(y|X) = P(y|x1, x2, ..., xt−1)，其中x1, x2, ..., xt−1是上下文序列中的标记，t是当前位置。通过使用链式规则，条件概率可以分解为给定其前序上下文的每个标记的条件概率的乘积，即，

其中T是序列长度。这样，模型以自回归的方式预测每个位置的每个标记，生成一个完整的文本序列。与LLMs交互的一种常见方法是提示工程，用户设计并提供特定的提示文本以指导LLMs生成期望的响应或完成特定任务。这在现有的评估工作中被广泛采用。人们也可以进行问答交互，向模型提问并得到回答，或参与对话交互，与LLMs进行自然语言对话。

总的来说，LLMs凭借其Transformer架构、基于上下文的学习和RLHF能力，已经革新了NLP，并在各种应用中充满了希望。表1提供了传统机器学习、深度学习和LLMs的简要比较。

三、评估什么

我们应该评估LLMs在哪些任务上的表现？在本节中，我们将现有的任务划分为以下几类：自然语言处理任务、伦理和偏见、医疗应用、社会科学、自然科学和工程任务、代理应用（使用LLMs作为代理）以及其他任务。

3.1 自然语言处理任务

大型语言模型的最初目标是提高自然语言处理任务的性能，包括自然语言理解、推理、生成、多语言任务和自然语言真实性。因此，大多数评估研究主要集中在自然语言任务上。评估结果如下表2所示：

3.2 鲁棒性、伦理、偏见和可信度

评估LLMs包括鲁棒性、伦理、偏见和可信度等关键方面。这些因素在全面评估LLMs的性能方面越来越重要。

3.3 社会科学

社会科学涉及对人类社会和个体行为的研究，包括经济学、社会学、政治学、法学等学科。评估LLMs在社会科学中的表现对于学术研究、政策制定和社会问题解决非常重要。这样的评估可以帮助提高模型在社会科学中的适用性和质量，增加对人类社会的理解，并促进社会进步。

3.4 自然科学和工程

在自然科学和工程领域评估LLMs的表现可以帮助指导科学研究、技术开发和工程研究的应用和发展。

3.5 医疗应用

最近，LLMs在医疗领域的应用引起了重要的关注。在这一部分，我们回顾了将LLMs应用于医疗应用的现有工作。具体来说，我们将它们分为表5所示的四个方面：医疗问答、医学检查、医疗评估和医疗教育。

3.6 代理应用

LLMs并非只专注于通用语言任务，它们可以在各种领域中被利用作为强大的工具。为LLMs配备外部工具可以大大扩展模型的能力。比如KOSMOS-1，它能够理解一般模式，按照指示进行学习，并基于上下文进行学习。Karpas等人强调，知道何时以及如何使用这些外部符号工具至关重要，这种知识是由LLMs的能力决定的，特别是当这些工具可以可靠地运作时。此外，还有两项其他研究，Toolformer和TALM，探索了使用工具来增强语言模型的可能性。Toolformer采用一种训练方法来确定特定API的最佳使用方式，并将获得的结果集成到后续的token预测中。另一方面，TALM将无法区分的工具与基于文本的方法相结合，以增强语言模型，并采用一种被称为"自我游戏"的迭代技术，由最少的工具演示来指导。申等人提出了HuggingGPT框架，该框架利用LLMs连接机器学习社区内的各种人工智能模型（如Hugging Face），旨在解决人工智能任务

3.7 其他应用

除了上述分类，LLMs还在其他各种领域进行了评估，包括教育、搜索和推荐、性格测试和特定应用等。

四、在哪里评估：数据集和基准

测试 LLMs 的评估数据集用于测试和比较不同语言模型在各种任务上的性能，如第 3 节所示。这些数据集，如GLUE和SuperGLUE，旨在模拟现实世界的语言处理场景，并涵盖多样化的任务，如文本分类、机器翻译、阅读理解和对话生成。本节不会讨论针对语言模型的任何单一数据集，而是针对LLMs的基准。由于LLMs的基准正在发展，我们在表7.5中列出了19个流行的基准。每个基准都关注不同的方面和评估标准，为各自的领域提供了宝贵的贡献。为了更好的总结，我们将这些基准划分为两个类别：通用语言任务的基准和特定下游任务的基准。

五、如何评估

在本节中，我们将介绍两种常见的评估方法：自动评估和人工评估。实际上，“如何评估”的分类也并不确定。我们的分类基于评估标准是否可以自动计算。如果它可以自动计算，我们将其归类为自动评估；否则，它就属于人工评估。

5.1 自动评估

自动评估大型语言模型是一种常见且可能是最受欢迎的评估方法，通常使用标准度量或指标和评估工具来评估模型的性能，如准确率、BLEU 、ROUGE 、BERTScore 等。例如，我们可以使用BLEU分数来量化模型生成的文本与参考文本在机器翻译任务中的相似性和质量。实际上，大多数现有的评估努力都采用这种评估协议，因为它的主观性、自动计算和简单性。因此，大多数确定性任务，如自然语言理解和数学问题，通常采用这种评估协议。与人工评估相比，自动评估不需要人工参与，这节省了评估成本并且耗时较少。例如，和Bang等人都使用自动评估方法评估大量任务。最近，随着LLMs的发展，一些先进的自动评估技术也被设计出来帮助评估。Lin和Chen提出了LLM-EVAL，这是一个用于与LLMs进行开放领域对话的统一的多维自动评估方法。PandaLM可以通过训练一个作为“裁判”的LLM来实现可复制的自动语言模型评估，该LLM用于评估不同的模型。由于自动评估论文的大量存在，我们不会详细介绍它们。自动评估的原理实际上与其他AI模型评估过程相同：我们只是使用一些标准度量来计算这些度量下的某些值，这些值作为模型性能的指标。

5.2 人工评估

LLMs的能力已经超越了在一般自然语言任务上的标准评估度量。因此，在一些非标准情况下，自动评估不适用时，人工评估成为一个自然的选择。例如，在开放生成任务中，嵌入的相似度度量（如BERTScore）是不够的，人工评估更可靠。虽然一些生成任务可以采用某些自动评估协议，但在这些任务中，人工评估更受欢迎，因为生成总是可以比标准答案更好。LLMs的人工评估是通过人的参与来评估模型生成结果的质量和准确性的一种方式。与自动评估相比，手动评估更接近实际应用场景，可以提供更全面和准确的反馈。在LLMs的手动评估中，通常邀请评估员（如专家、研究者或普通用户）来评估模型生成的结果。例如，Ziems等人使用了专家的注释进行生成。通过人工评估，Liang等人对6种模型的总结和虚假信息场景进行了人工评估，Bang等人评估了类比推理任务。由Bubeck等人完成的开创性的评估工作使用GPT-4进行了一系列的人工测试，他们发现GPT-4在多个任务上的表现接近或甚至超过了人的表现。这项评估要求人类评估员实际测试和比较模型的性能，而不仅仅是通过自动评估度量评估模型。需要注意的是，即使是人工评估也可能有高的方差和不稳定性，这可能是由于文化和个体差异造成的Peng等人。在实际应用中，这两种评估方法都会根据实际情况进行考虑和权衡。

六、总结

在这一部分，总结了LLMs在不同任务中的成功和失败案例。

6.1 LLMs能够在哪些方面表现出色？

LLMs在生成文本方面展现出熟练度，能够产生流畅且准确的语言表达。
LLMs在语言理解方面表现出色，能够进行情感分析和文本分类等任务。
LLMs具备强大的语境理解能力，能够生成与输入一致的连贯回答
LLMs在多个自然语言处理任务中表现出令人称赞的性能，包括机器翻译、文本生成和问答任务。

6.2 LLMs在什么情况下可能会失败？

LLMs在生成过程中可能会表现出偏差和不准确性，导致产生有偏差的输出。
LLMs在理解复杂的逻辑和推理任务方面能力有限，在复杂的环境中经常出现混乱或错误。
LLMs在处理大量数据集和长期记忆方面面临限制，这可能在处理冗长的文本和涉及长期依赖的任务方面带来挑战。
LLMs在整合实时或动态信息方面存在局限性，使得它们不太适合需要最新知识或快速适应变化环境的任务。
LLMs对提示非常敏感，尤其是敌对提示，这会触发新的评估和算法，以提高其鲁棒性。
在文本摘要领域，可以观察到LLMs可能在特定的评估指标上表现出低于标准的性能，这可能归因于那些特定指标的内在限制或不足。
LLMs在反事实任务中不能取得令人满意的表现。

七、重大挑战

评估作为一门新学科:我们对大模型评估的总结启发我们重新设计了许多方面。在本节中，我们将介绍以下7个重大挑战。

设计AGI基准测试：什么是可靠、可信任、可计算的能正确衡量AGI任务的评估指标？
设计AGI基准完成行为评估：除去标准任务之外，如何衡量AGI在其他任务、如机器人交互中的表现？
稳健性评估：目前的大模型对输入的prompt非常不鲁棒，如何构建更好的鲁棒性评估准则？
动态演化评估：大模型的能力在不断进化、也存在记忆训练数据的问题。如何设计更动态更进化式的评估方法？
可信赖的评估：如何保证所设计的评估准则是可信任的？
支持所有大模型任务的统一评估：大模型的评估并不是终点、如何将评估方案与大模型有关的下游任务进行融合？
超越单纯的评估:大模型的增强：评估出大模型的优缺点之后，如何开发新的算法来增强其某方面的表现？

八、结论

评估具有深远的意义，在AI模型，尤其是大型语言模型的进步中变得至关重要。本文提出了第一份从三个方面对LLMs的评估进行全面概述的调查：评估什么、如何评估和在哪里评估。我们的目标是通过封装评估任务、协议和基准，增强对LLMs当前状态的理解，阐明它们的优点和局限性，并为未来LLMs的进步提供洞见。我们的调查显示，当前的LLMs在许多任务中都存在一定的限制，特别是推理和鲁棒性任务。同时，现代评估系统需要适应和发展的需求仍然明显，以确保准确评估LLMs的固有能力和局限性。我们确定了未来研究应该解决的几个重大挑战，希望LLMs可以逐步增强它们对人类的服务。

Python面向对象编程(OOP)详解：通俗易懂的全面指南盛夏绽放 python 开发语言有问必答
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章目录Python面向对象编程(OOP)详解：通俗易懂的全面指南一、OOP基本概念1.什么是面向对象编程？2.OOP的四大支柱3.核心概念对比表二、类和对象1.类(Class)vs对象(Object)2.类结构详解三、OOP三大特性详解1.封装(Encapsulation)2.继承(Inherita
马斯克整出的半仙儿，Chat GPT会让多少白领失业？可能会带来哪些变化？良辰美景5566
这几天，ChatGPT火了，是美国一家叫OpenAI的高科技公司研发的，背后的投资人是谁？——埃隆马斯克！这哥们儿只要一出手，注定就和新奇呀伟大呀啥的绑在一起了，他搞的项目，比如特斯拉、星链、脑机接口，光听名字就透着不俗。很多人纳闷儿，他这次搞得ChatGPT是个啥玩意儿？简单说就是一个人工智能聊天软件，这个软件比以往的智能聊天软件强在哪儿？这么说吧，这简直就是个半仙儿啊。如果您是一位老人，这个C
量子计算与AI融合的技术突破与实践路径
量子计算与人工智能的融合正开启一个全新的技术纪元，这种"量智融合"不是简单的技术叠加，而是多领域、多学科的横向连接，通过协同创新实现非线性增长。本文将深入探讨这一领域的最新进展、技术实现路径以及行业应用案例。电子-光子-量子一体化芯片：硬件基础突破2025年7月，美国波士顿大学、加州大学伯克利分校和西北大学团队联合开发出全球首个电子-光子-量子一体化芯片系统。这一突破性成果发表在《自然·电子学》杂
117、Python机器学习：数据预处理与特征工程技巧多多的编程笔记 python 机器学习开发语言
Python开发之机器学习准备：数据预处理与特征工程机器学习是当前人工智能领域的热门方向之一。而作为机器学习的核心组成部分，数据预处理与特征工程对于模型的性能有着至关重要的影响。本文将带领大家了解数据预处理与特征工程的基本概念，以及它们在实际应用场景中的重要性。数据预处理数据预处理是机器学习中的第一步，它的主要目的是将原始数据转换成适合进行机器学习模型训练的形式。就像我们在做饭之前需要清洗和准备食
2025年各细分产业链企业数据(汽车、数字经济、食品、制造业) 经管数据库汽车智能手机数据分析
本数据包含2025年及之前的所有上中下游企业信息，67个细分产业。汽车专区、数字经济专区、数字创意专区、未来产业专区、高端装备专区、新能源专区、食品农业专区、传统制造业专区等71个文件。汽车专区：充电桩制造动力电池汽车材料制造汽车制造汽车制造设备汽车座椅制造驱动电机制造燃料电池汽车制造燃料电池系统制造新能源汽车制造智能驾驶智能视觉数字经济专区：5g边缘计算大数据类服务器光通信集成电路区块链人工智能
2024年，想要靠做软件测试获得高薪，还有机会吗？朱公子的Note 软件测试
2024年，科技行业风云变幻，随着自动化技术和人工智能的发展，软件测试领域的竞争愈发激烈。很多人会问，现在还投身软件测试，真的能拿到高薪吗？尤其是当越来越多的自动化工具涌现，手动测试员会不会被淘汰？时间过得真快，一眨眼，2024年已经过去了一大半。最近正值金九银十招聘季，后台不免又出现了这几个同学们关心的问题：2024年还能转行软件测试吗？零基础转行可行吗？那么，2024年，软件测试行业的高薪岗位
2023-09-15 五角大楼探索生成式人工智能解决方案泰格
佳文砺道智库2023-09-1409:58发表于北京据“防务头条”网9月12日报道，美国研究机构“特殊竞争力研究项目”（SCSP）的一份报称告，如果美国想在制定生成式人工智能的开发和使用规范方面引领全球，就必须增加联邦研发支出，建立新的政府机构，或者改变现有的政府机构。生成式人工智能可以加速新药和网络安全解决方案的发现，从根本上实现更好的计算机网络，并提高公众的理解。但在对手手中，它可能会导致更多
【vLLM 学习】Encoder Decoder Multimodal HyperAI超神经 vLLM vLLM KV缓存大语言模型推理加速内存管理开源项目在线教程
vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多vLLM中文文档及教程可访问→https://vllm.hyper.ai/*在线运行vLLM入门教程：零基础分步指南源码examples/offline_inference/encoder_decoder_multimodal.py#SPDX-License-Identifier:Apach
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
Synergizing RAG and Reasoning: A Systematic Review-RAG与推理能力深度结合-新方向数据分析能量站机器学习人工智能
欢迎关v：数据分析能量站0论文小结一、研究背景与核心问题大语言模型（LLM）在处理复杂任务时面临两大瓶颈：知识局限性：纯LLM存在“知识幻觉”（编造事实）和“领域知识缺口”；推理浅度：传统检索增强生成（RAG）仅通过关键词匹配获取信息，无法处理多跳推理、语义歧义等复杂需求。核心主张：RAG与推理的深度整合（RAG+Reasoning）是突破上述瓶颈的关键，通过“检索提供实时知识，推理赋予逻辑能力”
人工智能服务器处理器的全新定义两大头部品牌旗舰款的王者之争！云储存cpu_云服务器处理器_企业服务器处理器
一、旗舰处理器架构解析IntelXeon6900系列代表着英特尔在服务器处理器领域的最新成果，采用增强版Intel7制程工艺打造。该系列最高配置56个物理核心，通过超线程技术支持112个逻辑线程，在处理多线程任务时展现出卓越的性能表现。内存子系统方面，支持8通道DDR5-4800内存配置，最高可扩展至4TB容量，为内存密集型应用提供了充足带宽。特别值得一提的是其集成的AMX高级矩阵扩展指令集，这项
院级医疗AI管理流程—基于数据共享、算法开发与工具链治理的系统化框架 Allen_Lyb 医疗高效编程研发人工智能算法时序数据库经验分享健康医疗
医疗AI：从“单打独斗”到“协同共进”在科技飞速发展的今天，医疗人工智能（AI）正以前所未有的速度改变着传统医疗模式。从最初在影像诊断、临床决策支持、药物发现等单一领域的“单点突破”，医疗AI如今已迈向“系统级协同”的新阶段。曾经，医疗AI的应用多集中在某一特定环节，比如利用深度学习算法分析医学影像，辅助医生进行疾病诊断。这种单点突破式的应用虽然在一定程度上提高了医疗效率，但随着医疗行业对AI技术
python--自动化的机器学习（AutoML） Q_ytsup5681 python 自动化机器学习
自动化机器学习（AutoML）是一种将自动化技术应用于机器学习模型开发流程的方法，旨在简化或去除需要专业知识的复杂步骤，让非专家用户也能轻松创建和部署机器学习模型**[^3^]。具体介绍如下：1.自动化的概念：自动化是指使设备在无人或少量人参与的情况下完成一系列任务的过程。这一概念随着电子计算机的发明和发展而不断进化，从最初的物理机械到后来的数字程序控制，再到现在的人工智能和机器学习，自动化已经渗
人人皆有神功：AI如何改变程序员的江湖地位？ nbsaas-boot 人工智能大数据
在人类的历史中，每一次技术革命都重新洗牌了社会的力量结构：工业革命带来机器力量的爆发，信息时代成就了程序员的黄金时代。而如今，随着通用人工智能（AGI）和大模型技术的突飞猛进，我们正在步入一个**“人人皆有神功”的AI江湖时代**。当AI成为每个人的智能助手，编程是否还重要？程序员将何去何从？本文将以“武林江湖”的隐喻，探索AI时代的技术平权与社会重构。一、技术平权真的来了吗？过去，程序员之所以被
CPO：对比偏好优化—突破大型语言模型在机器翻译中的性能边界 AI专题精讲强化学习人工智能强化学习 AI技术应用
温馨提示：本篇文章已同步至"AI专题精讲"CPO：对比偏好优化—突破大型语言模型在机器翻译中的性能边界摘要中等规模的大型语言模型（LLMs），如参数量为7B或13B的模型，在机器翻译（MT）任务中展现出良好性能。然而，它们仍未能达到最先进的传统编码器-解码器翻译模型，或是如GPT-4（OpenAI,2023）等更大规模LLM的表现。在本研究中，我们致力于弥合这一性能差距。我们首先评估了在机器翻译任
大型语言模型的智能本质是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力语言模型人工智能自然语言处理
大型语言模型的智能本质是什么基于海量数据的统计模式识别与生成系统，数据驱动的语言模拟系统，其价值在于高效处理文本任务（如写作、翻译、代码生成），而非真正的理解与创造大型语言模型（如GPT-4、Claude等）的智能本质可概括为基于海量数据的统计模式识别与生成系统，其核心能力源于对语言规律的深度学习，但缺乏真正的理解与意识。以下从本质特征、技术机制、典型案例及争议点展开分析：一、智能本质的核心特征统
工业大模型应用报告：新机遇、挑战与未来展望花生糖@ AIGC学习资料库大模型人工智能应用扩展屏应用开发 AI 机器学习
大模型在工业智能化发展中的新机遇、挑战与展望。以下是报告的核心内容概述：大模型为工业智能化发展带来新机遇大模型开启人工智能应用新时代，推动技术创新和应用。大模型有望成为驱动工业智能化的引擎，提高研发效率、拓展生产制造智能化应用边界、提升经营管理水平。大模型应用落地需要深度适配工业场景，解决行业知识和企业特定环境的理解问题。大模型和小模型在工业领域将长期并存小模型应用呈现倒U型分布，主要集中在生产制
AI时代的弯道超车之第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳 Hebron_Deb AI时代-弯道超车-逆袭人生人工智能
在这个AI重塑世界的时代，你还在原地观望吗？是时候弯道超车，抢占先机了！李尚龙倾力打造——《AI时代的弯道超车：用人工智能逆袭人生》专栏，带你系统掌握AI知识，从入门到实战，全方位提升认知与竞争力！内容亮点：AI基础+核心技术讲解职场赋能+创业路径揭秘打破信息差+预测行业未来第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳我们终于来到了第十七章，也是这本人物传记中该领域的最后一章。前面我们讲到了李飞飞
AI+Python赋能！长时序植被遥感动态分析全攻略：从物候提取到生态评估梦想的初衷~ 土壤植被遥感人工智能遥感植被土壤
在遥感技术与人工智能深度融合的2025年，AI大模型正重塑长时序植被遥感数据分析范式。从Landsat/Sentinel卫星数据的智能化去云处理，到MODIS植被产品的AI辅助质量控制，以ChatGPT、DeepSeeK为代表的大模型技术已成为提升遥感数据处理效率与精度的核心工具——尤其在长时序植被动态监测、物候期精准提取、时空变异归因分析及生态环境质量评估等领域，展现出传统方法难以企及的技术优势
飞算JavaAI
一、产品简介飞算JavaAI是专为Java开发者打造的智能开发助手，深度适配Java技术栈。通过大语言模型（LLM）实现自然语言到代码的转换，覆盖需求分析、接口设计、表结构设计、业务逻辑生成、代码生成与合并等全流程开发环节。其核心优势在于：全流程自动化：从需求输入到完整工程代码生成，单日可完成传统数周的开发任务。代码质量保障：生成的代码符合阿里巴巴Java开发规范，支持静态代码分析工具自动检测安全
认知革命牧羊少年的时间之旅
看完人类简史后产生了一个想法，人类经过几万年的演化从采集时代，农业社会，再到工业革命和最近的科技革命，每一次的演变升级都是对传统认知的一次革新。但是我们现在的科技发展是如此的迅速，但是认知的进步却非常缓慢。克隆人，基因设计，人工智能，生化科技，量子计算等很多领域都是传统文化所无法理解和接受的，但是这些却依然有条不紊在进行中。所以人类目前急需一次认知的革命才能追上科技的脚步，不然一定会造成认知和现实
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
ColQwen-Omni：RAG全模态检索来了，支持【文本|图像|视频|音频】四种模态！致Great 音视频
还记得ColPali、ColQwen和DSE吗？这些模型开创了视觉文档检索的新范式：无需费力地从文档中提取文本进行处理，只需将文档页面视为一系列图像（屏幕截图），然后训练视觉语言模型（VLM）直接将其内容表示为向量。ColPali的实践表明，这种策略通常比其他替代方法更快、更简单，并且能带来更好的检索性能。自发布一年以来，ColPali和ColQwen系列模型已被下载数百万次，被誉为“2024年顶
如何增强LLM（大语言模型）的“置信度”和“自信心” ：LLM的“自信”不是“什么都能答”，而是“该答的答得准，不该答的敢说不”。 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力语言模型人工智能自然语言处理深度学习 transformer 机器学习
如何增强LLM（大语言模型）的“置信度”和“自信心”Pleaseprovideafirmanswer,andforthosewhodon’tknow,pleasereply‘unknown’LLM（大语言模型）的“置信度”（对输出内容的准确性判断）和“自信心”（稳定输出可靠信息的能力），核心逻辑与传统模型相通——让模型在“已知且可靠的知识范围内输出”，同时避免“强行回答陌生问题”。但LLM因生成式
vLLM快速入门：开启高效推理与部署之旅
在如今这个人工智能飞速发展的时代，语言模型的应用已经深入到我们生活的方方面面，从智能聊天机器人到文本生成工具，都离不开强大的语言模型技术支持。而vLLM作为一个专注于高效推理和部署的开源项目，正在为研究人员和开发人员提供一种全新的解决方案，让语言模型的使用变得更加便捷、高效。初识vLLM：背景与意义vLLM（VeryLargeLanguageModelInference）是一个专注于大型语言模型推
深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代，大型语言模型（LLM）的推理和部署面临着诸多挑战，尤其是当模型规模日益庞大时，如何高效地利用硬件资源成为关键问题。vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。分布式推理策略的选择在开始分布式推理和部署之前，明确何时采用分布式推理以及可选的策略至关重要。1.单GPU推理：如果模型能够在单个
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite