• 数学领域:在 2025 年美国数学邀请赛(AIME)中,GPT-5 以 94.6% 的得分率实现无工具超越;在 MATH 基准测试中,准确率飙升至 92%,相较 GPT-4o 提升 31 个百分点;
• 健康领域:在医疗问答基准 MedQA 中,GPT-5 斩获 89.7 分,全面碾压 GPT-4o、o1 等历代模型;在 PubMedQA 科学文献问答任务中,以 86% 的准确率刷新行业纪录;
• 综合排名:登陆大模型测评平台 LMArena 后,GPT-5 在推理、语言理解、代码生成等 12 个公开基准测试中实现全领域霸榜,综合评分领先第二名达 18.2 分;
• 精准度革命:相较 GPT-4o,事实错误率直降 45%;在 CMMLU 常识推理中,深度思考模式下错误减少 80%;在 LongFact 与 FActScore 开放性验证中,幻觉现象发生率仅为前代 o3 模型的 1/6。