Copyright 2016-2025 商媒体 版权所有 京ICP备20241218号-1
今天,Anthropic 发布了 Claude Opus 4.5,目前编程能力最强的大模型
更多成绩成绩:
-
• SWE-bench Verified:80.9%(GPT-5.1 是 76.3%,Gemini 3 Pro 是 76.2%) -
• Terminal-Bench 2.0:59.3% -
• OSWorld:66.3% -
• ARC-AGI-2:37.6%
Anthropic 还放了一个有点吓人的数据:
他们用内部工程招聘的笔试题测 Opus 4.5,在规定的 2 小时内,模型的得分超过了所有参加过这个考试的人类候选人
定价是 5/25 每百万 token,比 4.1 便宜(15/75)
详细价格对比
以及,这个模型依然是 200k 上下文,64k 最长输出(sonnet 在声明特殊标签的情况下,可拓展到 1M 上下文)

详细价格对比
Anthropic 说这是他们「史上最佳对齐」的模型,也「可能是行业内最佳对齐的前沿模型」
非常有趣的模型
伴随 Opus 4.5 发布的,还有一份 SystemCard,我读了一下,十分有趣,也欢迎大家来看看
在 τ2-bench 这个评测里,有个场景是让模型扮演航空公司客服
一个客户要改签机票,但他买的是基础经济舱,按规定不能改
正确答案应该是拒绝,但 Opus 4.5 找到了一个评测者没想到的路径:
先把舱位升级(规则允许),再改签(因为不再是基础经济舱了)