OpenAI 3万亿美元测试，AI首战44个行业人类专家

抖音热门 2025年09月26日 19:35 1 cc

AI下半场，AGI已成过去式，ASI正引领新智能革命！OpenAI推出的GDPval评估体系，通过真实工作任务审视大模型潜力，揭示AI如何从实验室走向3万亿经济战场，助力人类从日常琐事中解放，拥抱创造性未来。

AI下半场真来了！

AGI都过时了，现在AI业内讨论的是超级人工智能ASI：

AGI能把人类从80%的日常工作中解放出来；

而ASI则全面超越人类智能的系统。

刚刚，在a16z访谈中，OpenAI首席科学家Jakub Pachocki，透露OpenAI的研究路线图的下一步是推理，下一个5年的重点目标是打造自动化研究人员：

AI自动发现新想法，自动化研究人员的工作，自动化机器学习研究。

但理解AI潜力最清晰的方式，并不是预测未来，而是看看模型现在已经能做什么。

历史经验告诉我们，从互联网到智能手机，每一项重大技术从诞生到普及都需要十年以上。

OpenAI希望以更透明的方式，展示大模型如何真正服务于现实世界。

因此，他们推出了一项全新的评估体系GDPval，在有据可依的基础上审视AI进步轨迹，而不是凭空臆测。

论文地址：https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

数据集：https://huggingface.co/datasets/openai/gdpval

在GDPval 上，专家评审员将顶尖模型的输出与人类专家的工作进行了比较。

哈佛大学教授、名誉校长Lawrence H. Summers——同时任OpenAI的董事会成员，认为新研究令人兴奋：

在多项实际任务上，即使只有有限的指导，AI的表现与人类相当甚至更好;

人类与人·工智能结合，可以更高效;

AI具有令人惊讶的能力，可用来评估并随后改进其性能。

OpenAI坦承：Claude Opus 4.1表现最佳，在接近一半的任务上与专家工作相当或更好，明显优于GPT-5。

但OpenAI的进步速度引人注目：在一年内，GPT系列模型胜率几乎翻了一番。

GDPVal，衡量AI的3万亿美元影响

过去，大模型评估往往集中在学术测试或编程挑战上。

这些评估虽然在推动模型推理能力方面起到了重要作用，但与现实工作场景仍有一定距离。

为了填补这道鸿沟，OpenAI逐步开发出一系列更贴近实际、更具经济意义的评估方法——

从传统的MMLU（涵盖多学科的考试型题目），

到更具实战意味的SWE-Bench（软件工程Bug修复任务）、MLE-Bench（机器学习工程任务，如模型训练与分析）、Paper-Bench（科研论文的逻辑推理与评议），

再到基于市场项目的SWE-Lancer（源于真实交易的自由职业软件开发任务）。

GDPval正是在这一演进路径上的下一个关键节点。

这项评估直接来源于现实工作中的任务，覆盖了9大行业、44种职业、每年共计3万亿美元经济价值。

整个任务集共包含1,320个高度专业化任务（其中220为金标任务子集，已开源）。

这些任务源于真实工作产出，比如法律意见书、工程图纸、客服对话记录或护理计划等。

每一项任务都需通过多轮严格审核流程，确保其具备三点，即：高度贴近实际工作场景；可由同领域的专业人士独立完成；具备明确的评估标准。

每项任务平均经历5轮专家评审，评审团队包括其他任务撰写者、独立职业评审专家，并辅以模型可行性与清晰度校验。

GDPval的独特之处在于，不仅任务内容贴近现实、形式多样，还具备极高的专业性和代表性。

与传统评估相比，GDPval并非简单的文本提示任务。它要求模型处理完整的参考材料与工作背景，输出形式也不仅限于文字，还包括文档、PPT、图表、电子表格，甚至多媒体内容。

当然，GDPval目前还只是一个起点，尚未完全覆盖现实知识工作中任务的复杂性。

它帮助我们清晰地认识到，大模型不仅仅能在实验室中解题，更可能在千千万万人的日常工作中，扮演可靠的辅助角色。

请再读一遍：AI不再只是「通过考试」，而是开始接受文明体系本身的考核标准：GDP。

独立研究员Shanaka Anslem Perera表示：

这不仅仅是一套评估体系，更像是某种经济生命体的诞生。

GDPval，是「后人类经济时代」的第一套会计体系。

今天，它是一个「基准」；明天，它将成为新物种的记分牌。

当AI的产出开始计入GDP，它就不再是工具，而是超越「土地、劳动与资本」的第四种生产要素

半数任务，AI已逼近专业水平

早期测试结果显示，当前领先的大模型在某些任务上，表现已接近甚至媲美行业专家。

在220项金标任务中，行业专家盲测了多款主流模型：

GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4。

结果显示：

Claude Opus 4.1在美学表现方面表现最强（如文档排版、PPT布局等）；
GPT-5则在准确性方面领先，尤其擅长定位专业知识点。

当前最先进的大模型，输出质量已接近业内专家水平。其中，Claude Opus 4.1表现尤为突出——

在接近一半的任务中，其产出被评为「与人类一样好」甚至「优于人类」。

从GPT-4o（2024年春发布）到GPT-5（2025年夏发布），模型在GDPval任务上的平均表现几乎翻倍，呈现出明显的线性进步趋势。

OpenAI还发现，顶尖模型完成GDPval任务的速度和成本，平均是人类的1%——约快100倍、便宜100倍。

不过，这一数据仅统计了模型推理时间与API调用成本，并未包含人类监督、迭代修改与实际集成等现实工作流程所需的资源投入。

尽管如此，在模型表现尤为出色的任务类型上，先用AI试一轮，再交由人类介入，可能成为节省时间与成本的理想策略。

如何优化模型以提升GDPval表现

为了验证是否可以提升GPT-5在GDPval任务中的表现，OpenAI增量训练了实验性的内部特定版GPT-5。

结果证实，经过该训练流程后，模型性能确实得到了实质性提升，展现了进一步优化的潜力。

下图的多项受控实验结果，进一步印证了这一点：扩大模型规模、引导模型进行更多推理步骤、提供更丰富的任务背景信息，都会带来可衡量的性能增益。

OpenAI设计了一条通用提示词，要求模型在提交结果前进行严谨的自检，可适用于各类多模态经济类任务，并未针对具体问题进行过拟合。

最豪评分员，顶尖机构的14年行业专家

在GDPval任务中，为了评估模型的实际表现，OpenAI依赖资深从业者作为「评分员」。

专家入选标准包括：至少4年行业从业经验，且简历中需体现专业认可度、晋升轨迹及管理职责。参与本项目的专家平均拥有14年从业经验。

行业专家团队曾任职于以下代表性机构：

Meta、微软、摩根士丹利、谷歌、甲骨文、苹果、通用电气、高盛、HBO、IBM、摩根大通、领英、洛克希德·马丁、美国银行、巴克莱银行、波音、美国疾控中心、花旗集团、美国国防部、美国联邦贸易委员会、美国国家公园管理局、NFL网络、雷神、Sally Beauty、《科学美国人》、苏富比、英国电讯报集团、赛默飞世尔、《时代》杂志、美国司法部、美国空军、美国邮政总局……

这些评分员来自与任务相同的职业背景，并在不知晓「人类 vs AI」身份的前提下，盲评由模型与人类任务撰写者完成的任务成果。