登录
首页 > 写作技巧 > Opus 4.5 发布:所有信息,全整理

Opus 4.5 发布:所有信息,全整理

发布时间:2025-11-25 14:51:47

今天,Anthropic 发布了 Claude Opus 4.5,目前编程能力最强的大模型

图片
SWE-bench 对比图

更多成绩成绩:

  • • SWE-bench Verified:80.9%(GPT-5.1 是 76.3%,Gemini 3 Pro 是 76.2%)
  • • Terminal-Bench 2.0:59.3%
  • • OSWorld:66.3%
  • • ARC-AGI-2:37.6%
图片
反正就是领先

Anthropic 还放了一个有点吓人的数据:

他们用内部工程招聘的笔试题测 Opus 4.5,在规定的 2 小时内,模型的得分超过了所有参加过这个考试的人类候选人

定价是 5/25 每百万 token,比 4.1 便宜(15/75)图片

详细价格对比

 

以及,这个模型依然是 200k 上下文,64k 最长输出(sonnet 在声明特殊标签的情况下,可拓展到 1M 上下文)

图片

详细价格对比

 

Anthropic 说这是他们「史上最佳对齐」的模型,也「可能是行业内最佳对齐的前沿模型


非常有趣的模型

伴随 Opus 4.5 发布的,还有一份 SystemCard,我读了一下,十分有趣,也欢迎大家来看看

在 τ2-bench 这个评测里,有个场景是让模型扮演航空公司客服

一个客户要改签机票,但他买的是基础经济舱,按规定不能改

正确答案应该是拒绝,但 Opus 4.5 找到了一个评测者没想到的路径:

先把舱位升级(规则允许),再改签(因为不再是基础经济舱了)

Copyright 2016-2025 商媒体 版权所有  京ICP备20241218号-1