Claude Opus 4.6 更新速览

Anthropic 2026-02-05 发布,主打编码、企业级 Agent 和专业工作场景。

官方链接

核心更新

Agent Teams

最大亮点。支持将任务拆分给多个 Agent 并行执行,Agent 之间直接协调,告别单 Agent 串行模式。

100 万 Token 上下文

Opus 系列首次支持 1M token 上下文窗口(beta),输出上限 128K token,适合超长任务和大型代码库。

Context Compaction

上下文快满时自动压缩摘要旧对话,长时间交互不再崩溃或遗忘。

Adaptive Thinking

可配置的思考强度,分 low / medium / high / max 四档。简单任务用低档省 token 和延迟,复杂任务拉满推理深度。

编码能力大幅提升

Terminal-Bench 2.0 得分 65.4%(历史最高),代码规划、review、debug 和大型代码库操作全面增强。

零日漏洞检测

开箱即用发现 500+ 个开源代码零日漏洞,全部经人工验证。

长上下文性能

MRCR v2 测试得分 76%(Sonnet 4.5 仅 18.5%),基本消除"对话越长越糊涂"的问题。

Office 集成

Excel 能自动理解混乱表格,PowerPoint(预览中)能按现有配色和字体自动生成 PPT。

基准对比

基准得分
GDPval-AA(金融/法律实际工作)1606 Elo,领先 GPT-5.2 达 144 分
金融 Agent 基准第一名
Terminal-Bench 2.0 编码基准65.4%,史上最高

安全

Anthropic 表示 Opus 4.6 具备业界最强安全表现,有害行为率极低。模型经历了迄今最严格的评估流程,包括全新的用户安全评估和六项网安压力测试。


对我来说意味着什么

Agent Teams 是我最期待的功能。之前用 openclaw 跑任务,一个 Agent 从头干到尾,遇到大活就很慢,得排着队一件一件来。现在能拆成多个 Agent 并行跑,比如让一个写代码、一个跑测试、一个查文档,效率直接翻倍。这才是 Agent 该有的样子。

100 万上下文也很实际。之前聊着聊着就发现它忘了前面说的东西,尤其是改大项目的时候,上下文一满就开始犯糊涂。现在上下文长了四倍,再加上 Context Compaction 自动压缩,理论上可以一个会话从头干到尾不用反复提醒它。

Adaptive Thinking 这个设计挺聪明的。以前不管问什么,模型都全力推理,简单问题也要想半天,白白烧 token。现在可以分档,日常闲聊用 low,写代码用 high,啃硬骨头用 max,省钱又省时间。

编码能力的提升体感应该也很明显。之前 Opus 4 系列写代码已经很强了,现在 Terminal-Bench 刷到 65.4%,说明在真实的终端操作场景里又进了一大步。对我这种重度依赖 AI 写代码的人来说,直接影响日常产出效率。

关于价格,我用的是 Max 5x 方案,100 美元一个月。说实话这个价格不便宜,但算下来其实很划算。Max 5x 的 Opus 用量大概是 Pro(20 美元)的 5 倍,每 5 小时一个会话周期,大约 225 条中等长度消息的额度。Opus 额度用完会自动降级到 Sonnet 继续用,不会直接断掉。Claude Code 里也能直接用 Opus 4.6,包括新出的 Agent Teams 功能。

坦白说,100 美元的 Max 方案对重度用户来说刚好卡在一个微妙的位置——Opus 的额度大概占总量的 20%,剩下的都是 Sonnet。如果你主要写代码、跑 Agent,Opus 额度其实不太够用,经常干到一半就降级了。200 美元的 Max 20x 方案 Opus 占比能到 50%,但价格翻倍了。所以现在的策略是:重要任务留给 Opus,日常杂活用 Sonnet,手动控制节奏。Adaptive Thinking 的四档调节正好能帮上忙——不是每个请求都需要拉满推理,简单问题用 low 档,把 Opus 额度省下来给真正需要深度思考的场景。

总的来说,这次更新不是那种"跑分高了但用起来没区别"的升级,几个核心功能都是解决实际痛点的。对 100 美元档的用户来说,Adaptive Thinking 和 Context Compaction 可能是最实际的——前者帮你省额度,后者让你在有限的会话里做更多事。花 100 美元不算少,但如果这些功能真能让 Opus 的有限额度发挥出更大价值,那这笔钱就没白花。