Nature:人类的“最后考试”已经开始了

时间:2026年3月4日
来源:AAAS

编辑推荐:

来自世界各地的庞大研究团队设计了一项考试,旨在展示人工智能目前还无法做到的事情。

广告
   X   

当人工智能系统开始在传统的学术评估中轻松获胜时,研究人员意识到他们遇到了一个问题:这些测试太简单了。曾经被认为难度极高的热门评估,例如大规模多任务语言理解(MMLU)考试,如今已不足以对先进的人工智能系统进行有效的测试。

为了弥补这一差距,一个由近 1000 名研究人员组成的全球联盟(其中包括一位德克萨斯农工大学的教授)创造了一种不同的考试——这种考试范围广泛、极具挑战性,并且深深植根于专家人类知识,以至于当前的 AI 系统总是无法通过。

“人类的最后考试”(HLE)是一项包含2500道题的评估,涵盖数学、人文科学、自然科学、古代语言以及高度专业化的子领域。该团队的工作已在《自然》杂志上发表论文,项目文档可在lastexam.ai 网站上查阅。

众多贡献者中包括德克萨斯农工大学计算机科学与工程系的教学副教授Tung Nguyen 博士,他参与了问题的编写和完善。

Nguyen表示:“当人工智能系统在人类基准测试中表现极其出色时,人们很容易认为它们正在接近人类水平的理解能力。但高层次的理解能力(HLE)提醒我们,智能不仅仅是模式识别——它还包括深度、背景知识和专业知识。”

重点不在于难倒人类,而在于精确而系统地揭示人工智能目前还无法做到的事情。

一项旨在衡量人工智能局限性的全球性努力

HLE的考题由来自世界各地的各领域专家编写和审核,确保每个考题都有一个唯一、明确、可验证的答案,且无法通过网络搜索立即找到答案。考题取材于专家级的学术难题:从翻译古代帕尔米拉铭文到识别鸟类的微观解剖结构,再到分析圣经希伯来语发音的复杂特征。

每个问题都经过了主流人工智能模型的测试。如果任何系统都能正确回答,该问题就会被移除。最终得到的考试题目经过精心设计,难度刚好超出当前人工智能的能力范围。

实验结果显示,即使是最先进的模型也难以应对。GPT-4o 的准确率仅为 2.7%;Claude 3.5 Sonnet 达到 4.1%;OpenAI 的旗舰模型 o1 也只有 8%。包括 Gemini 3.1 Pro 和 Claude Opus 4.6 在内的最先进模型,准确率也达到了 40% 到 50% 左右。

为什么新的基准很重要

Nguyen表示,人工智能超越传统基准的问题不仅仅是学术上的。他在 2500 个公开问题中贡献了 73 个 (贡献数量第二多),并且在数学和计算机科学领域贡献的问题最多。

他表示:“如果没有准确的评估工具,政策制定者、开发人员和用户就有可能误解人工智能系统的实际功能。基准测试为衡量进展和识别风险奠定了基础。”

正如该团队的论文所指出的,虽然人工智能可能在为人类设计的考试中表现出色,但这些测试并不一定衡量的是“智能”。它们衡量的是人工智能在一系列为截然不同的学习者设计的任务中的表现。

这不是威胁,而是一种工具。

尽管书名带有末日色彩,《人类的最后考试》并非暗示人类的终结。相反,它旨在强调人类独有的知识宝库依然浩瀚,以及人工智能系统仍需付出多大的努力。

Nguyen表示:“这并非一场与人工智能的竞赛,而是一种了解这些系统优势和劣势的方法。这种了解有助于我们构建更安全、更可靠的技术。而且,更重要的是,它提醒我们人类的专业知识为何仍然至关重要。”

面向未来的考试

HLE旨在成为一个长期、透明的基准,用于评估先进的人工智能系统。为了实现这一目标,团队公开了部分考试内容,但对大部分考题进行了隐藏,以防止人工智能模型记住答案。

Nguyen表示:“就目前而言,《人类的最后考试》是对人工智能与人类智能之间差距最清晰的评估之一,尽管技术进步迅速,但这种差距仍然很大。”

大规模研究

Nguyen指出,这个庞大的项目体现了跨学科、国际研究工作的重要性。

“这个项目的非凡之处在于它的规模,”他说。“几乎所有学科的专家都参与其中。不仅有计算机科学家,还有历史学家、物理学家、语言学家、医学研究人员。这种多样性恰恰暴露了当今人工智能系统的不足——或许具有讽刺意味的是,正是人类的共同努力才使得这些问题得以显现。”

生物通微信公众号
微信
新浪微博


生物通 版权所有