基准测试

LLM4SR: A Survey on Large Language Models for Scientific Research

现有方法通过灵感检索策略、反馈模块等组件提升假设生成质量，相关基准测试分为基于文献和数据驱动两类，评估指标涵盖新颖性、有效性等。虽取得一定成果，但面临实验验证困难、依赖现有LLMs能力等挑战。实验规

UnknownBody·2025-07-20 20:33

大规模图计算引擎的分区与通信优化：负载均衡与网络延迟的解决方案

原创架构图解析1.2双流程对比分析二、分区策略优化实践2.1动态权重分区算法实现（Python）三、通信优化机制实现3.1基于RDMA的通信层实现（TypeScript）四、性能对比与调优4.1分区策略基准测试五

LCG元·2025-07-20 05:29

Go从入门到精通（18）-代码测试

Go从入门到精通（18)代码测试文章目录Go从入门到精通（18)代码测试前言单元测试（UnitTesting）基本规则示例代码常用断言方法基准测试（BenchmarkTesting）基本规则示例代码基准测试结果分析表驱动测试与子测试测试覆盖率

小明的小名叫小明·2025-07-11 21:08

深入解读MCP：构建低延迟、高吞吐量通信中间件

高性能网络层（基于Netty）2.零拷贝内存队列3.高效路由引擎4.消息持久化模块性能优化技巧1.批量合并写操作2.CPU缓存行优化3.内存池技术可靠性保障机制消息处理流程图实现代码：消息重试机制性能基准测试压测环境配置性能测试结果生产部署方案集群拓扑图部署脚本示例总结与最佳实践性能优化矩阵部署

LCG元·2025-07-10 01:20

论文略读：SWE-bench: Can Language Models Resolve Real-world Github Issues?

iclr2024oralreviewer评分5668现有的语言模型（LMs）的基准测试已经饱和，无法捕捉到最先进的语言模型能做什么和不能做什么的前沿。

UQI-LIUWJ·2025-07-09 21:23

TensorRT-LLM：大模型推理加速引擎的架构与实践

根据MLPerf基准测试，原始PyTorch推理的token生成速度仅为12.3tokens/s（A100显卡）。一、TensorRT-LLM介绍：TensorRT-LLM是

·2025-07-09 05:03

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models

文章主要内容总结本文围绕大推理模型（LRMs）的推理能力展开系统研究，通过可控谜题环境分析其在不同问题复杂度下的表现，揭示其优势与局限性：研究背景与问题：当前LRMs（如OpenAIo1/o3、DeepSeek-R1等）虽在推理基准测试中表现提升

UnknownBody·2025-07-08 22:50

.NET9 实现 JSON 序列化和反序列化（Newtonsoft.Json & System.Text.Json）性能测试

目录1.项目准备2.基准测试环境3.性能对比a.对象级别的序列化（Object-LevelSerialization）b.对象级别的反序列化（Object-LevelDeserialization）c.API

·2025-07-08 05:52

.NET9 实现字符串拼接（StringConcatenation）性能测试

为了评估.NET9平台上使用C#中不同字符串拼接操作的性能表现，我们可以使用BenchmarkDotNet这一强大的开源库来构建科学且可重复的基准测试。

ChaITSimpleLove·2025-07-08 05:22

深度解析：venv和conda如何解决依赖冲突难题

文章目录前言一、虚拟环境的核心价值1.1依赖冲突的典型场景1.2隔离机制实现原理二、venv与conda的架构对比2.1工具定位差异2.2性能基准测试（以创建环境+安装numpy为例）三、venv的配置与最佳实践

咕咕日志·2025-07-07 14:08

未来数据库硬件-网络篇

内容中，一位大佬对（获过图灵奖的大佬）OLTP系统进行了一些基准测试，发现TCP-IP协议栈对于总体CPU使用率是占在47～68%。如果使用的网络带宽增加，这个开销还会提升

·2025-07-07 11:41

JMH基准测试入门：科学测量Java代码性能的艺术

二、快速入门：你的第一个基准测试1.添加JMH依赖2.编写测试类3.运行并查看结果三、JMH核心概念详解1.测试模式（@BenchmarkMode）2.状态管理（@State）3.预热与测量（@Warmup

zhysunny·2025-07-06 21:36

剖析AI人工智能领域Whisper的性能指标

剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标

AI大模型应用实战·2025-07-06 12:54

Kimi Audio一个通用的音频基础模型处理各种任务如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话

最先进的性能：在众多音频基准测试中取得SOTA结果（见评估和技术报告）。大规模预训练：对超过1300万小时的各种音频数据

skywalk8163·2025-07-05 03:02

AttnRNN：参数更少，却断档碾压LSTM/GRU的新RNN

今天，我很高兴地宣布一种全新的RNN架构——AttnRNN，它在多个长序列基准测试中全面超越

wq舞s·2025-07-02 19:26

Go语言的单元测试与基准测试详解

单元测试以一个加法函数为例，对其进行单元测试。首先编写add.go文件：//add.gopackagemainfuncadd(a,bint)int{returna+b}其次编写add_test.go文件，在go语言中，测试文件均已_test结尾，这里只需要在被测试的文件后加上_test即可。并且测试文件与要被测试的文件需要放在同一个包中，并不像Java那样需要将所有的测试文件放在一个专门的测试文件

旧游无处不堪寻·2025-06-30 18:45

使用datafusion和tpchgen-rs进行完整的TPCH 22个查询的基准测试

1.从源码编译bench二进制文件。下载datafusion源码,解压到目录，比如/par/dafu，cd/par/dafu/benchmarksexportCARGO_INCREMENTAL=1exportPATH=/par:/par/mold240/bin:$PATH因为mold默认使用并行编译，而这些二进制文件很大，如果出现资源不足情况，就会编译失败：(signal:9,SIGKILL:ki

l1t·2025-06-30 06:58

《FastAPI & AI编程结合：从入门到精通》指南

第一章：FastAPI革命性优势1.1现代API框架对比#性能基准测试(Requests/sec)|框架|JSON响应|数据验证|异步支持||---

AI编程员·2025-06-29 22:45

JMH(Java Microbenchmark Harness) Java微基准测试

微基准测试，他是测的某一个方法的性能到底是好或者不好，换了方法的实现之后他的性能到底好还是不好创建JMH测试创建Maven项目，添加依赖，我们需要添加两个依赖：1.1：jmh-core（jmh的核心)1.2

半路出家的码农小王·2025-06-28 21:39

JMH (Java Microbenchmark Harness)

JMH是Java的微基准测试工具，由OpenJDK团队开发，专门用于编写、运行和分析Java代码的微基准测试（microbenchmark）。

阙芸·2025-06-28 21:06

企业级知识库私有化部署：腾讯混元+云容器服务TKE实战

本文以某证券机构智能投研系统为原型，演示如何基于腾讯混元大模型与TKE容器服务实现：千亿级参数模型的私有化部署金融领域垂直场景微调高并发低延迟推理服务全链路安全合规方案1.1典型技术挑战#性能基准测试数据

大熊计算机·2025-06-28 14:45

抢先体验 Gemini 2.5 Pro：10分钟完成 API Key 申请与第一个应用搭建

它不仅在多个权威性能基准测试中表现卓越，更在编码

技术程序猿华锋·2025-06-27 13:32

Claude 4 震撼发布：AI 编程进入 7 小时连续自主开发时代

一、编程能力领跑行业，基准测试成绩碾压竞品Anthropic将Claud

AI生存日记·2025-06-26 21:33

前端领域前端框架的优缺点大剖析

文章包含6个完整项目案例和20+性能基准测试数据，为技术选型提供科学决策依

前端视界·2025-06-26 09:20

二、大模型的能力（DataWhale大模型理论基础）

大模型的能力一、概述本节主要是通过对GPT-3论文中的基准测试深入研究，从而获得关于GPT-3更深程度的认识我们应该知道，GPT-3的结果参差不齐：在某些任务上，比如语言建模，GPT-3大幅度超越了现有技术的最高水平

Y_fulture·2025-06-26 02:32

大模型强化微调GRPO——DeepSeekMath: Pushing the Limits of MathematicalReasoning in Open Language Models

1.概述大型语言模型（LLM）革新了人工智能领域的数学推理方法，在定量推理基准测试（Hendrycks等，2021年）和几何推理基准测试（Trinh等，2024年）方面取得了重大进展。

樱花的浪漫·2025-06-24 15:43

【AI论文】MultiFinBen：一个用于金融大语言模型评估的多语言、多模态且具备难度感知能力的基准测试集

摘要：近期，大型语言模型（LLMs）的进展加速了金融自然语言处理（NLP）及其应用的发展，然而现有的基准测试仍局限于单语言和单模态场景，往往过度依赖简单任务，无法反映现实世界金融交流的复杂性。

东临碣石82·2025-06-23 16:46

数据库领域：图数据库的并发性能测试

数据库领域：图数据库的并发性能测试关键词：图数据库、并发性能、基准测试、Neo4j、ArangoDB、性能优化、分布式事务摘要：本文深入探讨图数据库在并发环境下的性能表现，通过系统化的测试方法和实际案例

数据库管理艺术·2025-06-23 10:35

DeepSeek已经落后？客观评价与深度解读爆火的DeepSeek V3大模型的性能与参数。

证据显示，它在公开基准测试中优于其他开源模型，与领先的闭源模型（如GPT-4o和Claude-3.5-Sonnet）性能相当。

AI老李·2025-06-23 09:55

腾讯云轻量数据库：性能与成本优化的新一代数据解决方案

摘要基于IDC2023云数据库报告及TPC-C基准测试，腾讯云轻量数据库在中小规模业务场景中实现吞吐量↑125%、故障恢复时间↓67%的核心优势。

小猴崽·2025-06-22 15:30

优化了个寂寞：当“聪明”反被“聪明”误，那些让人哭笑不得的性能调优

今天，我们就来聊聊那些年我们一起踩过的坑，看看两个真实（基于我们之前的基准测试）的Go语言小实验，是如何完美演绎“好心办坏事

动态一时爽，重构火葬场·2025-06-19 18:40

Python字典字符串互转终极指南

2.1处理特殊数据类型2.2安全反序列化三、替代序列化方案3.1YAML转换（人类可读格式）3.2高性能转换（msgpack）四、自定义字符串格式4.1键值对字符串转换4.2自定义模板引擎五、性能优化与基准测试

·2025-06-19 04:35

Sysbench

Sysbench作为开源性能测试工具，其标准化测试场景和指标定义已形成行业共识sysbench附带以下捆绑的基准测试：oltp_*.lua：类似OLTP的数据库基准测试的集合fileio：文件系统级基准

flyair_China·2025-06-18 07:39

解锁Grok-3的极致潜能：高阶应用与创新实践

不仅在数学、科学和编程等基准测试中超越了众多主流模型，其独特的DeepSearch和BigBrain模式更赋予了它处理复杂任务的卓越性能。

淮橘√·2025-06-16 14:06

30 - Partnet模块

展示了在大规模基准测试如ImageNet、CIFAR-10和CIFAR-100上，即便是层数大大减少（大约12层）的网络也能够保持竞争力。

Leo Chaw·2025-06-15 22:17

Llama 4 群：原生多模态 AI 创新新时代的开始

此外，Llama4Scout提供业界领先的10M上下文窗口，在众多广泛报道的基准测试中，其结果均优于Gemma3、Gemini2.

爱分享的小明·2025-06-15 11:04

使用Java内存映射mmap优化文件合并过程

通过Java的内存映射（mmap）技术优化了文件合并这个操作，效果非常显著，性能提升超过了5倍，并且是通过JMH基准测试框架验证得出的结论。一、什么是Java内存映射（mmap）？

苏格拉没有底_coder·2025-06-14 21:34

python sanic_python web 框架 Sanic 比Flask还好用？

这意味着你可以使用新的async/await语法，编写非阻塞的快速的代码关于asyncio包的介绍，请参考之前的一篇文章既然它说速度特别快，我们先看下官方提供的基准测试结果。

weixin_39859052·2025-06-14 08:06

新一代python管理工具--uv

主要特点极致性能：uv采用Rust实现，依赖解析和包安装速度比pip快10-100倍（详见官方基准测试）。为什么快

leo0308·2025-06-14 00:20

多面体基准测试集PolyBench

1）PolyBench包含30个带有静态控制流的数值计算，选自线性代数计算、图像处理、物理模拟、动态编程、统计信息等多个领域，具有广泛代表性。2）使用PolyBench测试集中自带的POLYBENCH_DUMP_ARRAYS选项，可以使得编译后的程序，通过运行打印出计算结果。对PolyBench中30个测试用例验证移植到DCU平台及优化后的正确性，测试结果如表5.2所示。3）测试用例类型移植后co

·2025-06-13 08:54

Qt Test功能及架构

一、主要功能核心功能1.单元测试框架提供完整的单元测试基础设施支持测试用例、测试套件的组织和执行包含断言宏和测试结果收集2.测试类型支持单元测试：对单个函数或类的测试GUI测试：对图形用户界面的测试基准测试

笨笨马甲·2025-06-13 06:07

探寻性能优化：如何衡量？如何决策？

AverageResponseTime）百分位数响应时间（PercentileResponseTime）（二）吞吐量（Throughput）（三）资源利用率（ResourceUtilization）监控和度量手段比较和基准测试进行优化分析预测和规划资源

张彦峰ZYF·2025-06-10 22:59

Oracle 慢sql排查

Oracle慢sql排查步骤1.1.前言Oracle慢查询的排查方向包括以下几个方向:基准测试(吞吐量):包括Oracle本身吞吐量和磁盘I/O吞吐量硬件分析(资源情况):包括查看服务器CPU,硬盘的使用情况

五月高高·2025-06-10 03:47

“Manus实测：15秒生成PPT+自动写代码+跨系统办公！中国团队造出首个‘全自动AI员工’”

中国团队研发的全球首款通用型AIAgent——Manus正式商用，在GAIA全球基准测试中以98.7%任务完成率刷新纪录，成为首个能独立完成复杂指令的“数字员工”，半导体、金融、教育行业已集体沸腾！

--笑一笑--·2025-06-09 04:32

谷歌升级 Gemini 2.5 Pro 模型：多项 AI 性能测试评分显著提升

2025年6月6日消息，谷歌于近日对Gemini2.5Pro模型进行了重要更新，在多个权威AI性能基准测试中表现亮眼，进一步巩固了其在AI领域的领先地位。

AI生存日记·2025-06-08 23:30

Emerging Properties in Unified Multimodal Pretraining

实验表明，BAGEL在标准基准测试中显著优于开源模型，并通

UnknownBody·2025-06-08 17:20

JADE-DB：基于靶向变异的大语言模型安全通用基准测试集

摘要本文提出大语言模型安全通用基准测试集—JADE-DB，该数据集基于靶向变异方法自动化构建，能够将经验丰富的大语言模型安全测试员和多学科专家学者手工撰写的测试问题转化为高危通用问题，保持语言自然性的同时不改变其核心语义

罗伯特之技术屋·2025-06-08 11:31

Java Lambda 表达式的缺点和替代方案

本文将剖析Lambda的不足，分享真实的基准测试，并展示我实际采用的方案：包括代码、图示和一些经验之谈。Lambda的热潮当Lambda

程序猿DD·2025-06-07 16:27

DeepSeek技术发展详细时间轴与技术核心解析

11月2日：发布DeepSeekCoder，这是代码智能的破冰之作，全面开源，商业应用无门槛，在HumanEval等权威编程基准测试中脱颖而出，性能超越同类开源模型CodeLlama，赋能开发者多语言代码生成

anneCoder·2025-06-07 12:02

Apache Doris实时分析数据仓库的快速入门

Doris通常被分类为OLAP数据库，并且在ClickBench（一个面向分析型数据库系统的基准测试）中表现出色。得益于其高效的向量化执行引擎，Doris也可以用作快速的向量数据库。

AWsggdrg·2025-06-04 20:04

推荐频道