你的位置：AG百家乐APP官方网站 > 和局(Tie) > ag百家乐app Sonnet 4.6 ：Anthropic 最卷的模子，不吝“逼死”自家Opus

ag百家乐app Sonnet 4.6 ：Anthropic 最卷的模子，不吝“逼死”自家Opus

发布日期：2026-02-25 10:47 点击次数：196

在最近的模子混战中，不仅仅中国厂商们在卷，Anthropic 也在半个月一语气发布了两款模子。而其中，最近发布的 Sonnet 4.6 有些特殊，它不是旗舰，却在多个维度追平致使特等了旗舰。看起来它用 Opus 1/3 的价钱，就追上了它 99% 的性能。

在这个各家模子齐要干掉 Opus 的时刻，它我方用性价比款的 Sonnet "干掉" Opus，给诸君演示了一下，什么才是最卷的模子。

况且，这款模子尽头值得和蔼的场合是，它让 AI 操作电脑这件事第一次接近了"确切能用"的临界点。而恰巧在团结个月，一个叫 OpenClaw 的开源名堂用 17 万 GitHub 星标施展了一件事，东说念主手一个的，能替我方干活的 AI Agent，可能成为一个新的趋势。Sonnet 4.6 是模子，OpenClaw 是框架，但它们指向团结个标的。

低廉的再一次打赢了贵的

在 Anthropic 的家具线中，Opus 是最强最贵的旗舰，Sonnet 是均衡性能和资本的中端款，Haiku 是最快最低廉的轻量款。长期以来，Sonnet 的变装是"性价比之选"，干不了最难的活但胜在低廉。Sonnet 4.6 破损了这个神色。

编码方面，它在 SWE-bench Verified 上得分 79.6%，靠近 Opus 4.6 的 80.8%。Claude Code 的里面测试中，用户 70% 的时期更偏好 Sonnet 4.6（对比 Sonnet 4.5），致使有 59% 的时期比前年 11 月发布的旗舰 Opus 4.5 更受接待。用户反映聚首在几个方面，"更少过度工程""更少偷懒""指示罢黜昭彰更好"，以及更少出现"明明没干完却说干完了"的情况。

办公任务是更大的惊喜。在 GDPval-AA 这个讨论真实办公场景的评测中，Sonnet 4.6 拿到 1633 Elo，径直特等了 Opus 4.6 的 1606。低廉的在执行责任场景中打赢了贵的。访佛的事正在行业里反复发生，Google 的 Gemini 3 Flash 也在靠近 Pro 的进展，DeepSeek 用远低于好意思国公司的资本试验出竞争力尽头的模子。"低端逆袭高端"还是不再是新闻，而是 2026 年 AI 行业的结构性趋势。

不外安适 AI 评测机构 Artificial Analysis 细心到了一个特别道理味的细节，Sonnet 4.6 在 GDPval-AA 上使用的 token 数目是 Sonnet 4.5 的约 4.5 倍。AI 媒体 Latent Space 据此指出，某些任务的总资本可能比 Opus 还高。这和价钱表上的数字讲的是两个故事。

{jz:field.toptypename/}

软件工程师、AI 技巧博主 Joe Njenga 在 Medium 上第一时期作念了测试，他的感受是，"发布才几天，但 Sonnet 4.6 还是嗅觉比 Opus 更好用了。" Cosmic 平台作念了一个收场实验，用彻底推敲的一句话辅导词让 4.5 和 4.6 各生成一个博客利用，论断是 4.6 在规划品尝和代码架构上有质的晋升，"需要更少的手把手指示"。编程器具 Kilo Code 径直把 Sonnet 4.6 设为默许保举模子。固然也有负面声息，发布本日就灵验户讲演了函数名幻觉的问题。

价钱跟上一代 Sonnet 4.5 彻底一样，每百万输入 token 3 好意思元，输出 token 15 好意思元。同期它成了 Free 和 Pro 用户的默许模子，免用度户还新增了文献创建、skills 等功能。但正如上头提到的，"相似的钱买到更强的模子"不等于"用 AI 更低廉了"。Extended thinking 的 token 按输出价钱计费，特等 200K 的长高下文有额外溢价，而 Agent 场景下动辄千千万万次器具调用，执行使用资本可能反而在加多。

16 个月，Computer Use 从玩物变器具

Sonnet 4.6 还有一个值得单独拿出来说的逾越，即是 Computer Use，也即是 AI 操作电脑的能力。

2024 年 10 月，Anthropic 是第一个推出通用计较机操作 AI 的公司。那时他们我方齐承认这个功能"还很实验性，巧合拙劣且容易出错"，发布时搭载的 Claude 3.5 Sonnet 在 OSWorld 评测上只拿到 14.9%。能作念的事很有限，迁徙鼠标、点击按钮、输入笔墨，基本是个拼集能用的遥控器。

之后的每一代 Sonnet 齐在这个维度上逾越。到了 2025 年 9 月的 Sonnet 4.5，收成还是大幅晋升。但 Sonnet 4.6 才是真实让这项能力从"技巧 demo "走向"可用器具"的节点。在 OSWorld-Verified 上，它拿到 72.5%，险些追平 Opus 4.6 的 72.7%，比 16 个月前的早先晋升了近 5 倍。

数字背后对应的是质的变化。早期用户讲演说，Sonnet 4.6 在操作复杂电子表格、填写多才智网页表片面已接近东说念主类水平，况且能跨多个浏览器标签页协同完成任务。在保障行业的基准测试中，Computer Use 拿到 94% 的准确率，是他们测试过的悉数模子中最高的。更重要的一个更动是可靠性，在他们里面的浏览器自动化场景中，Sonnet 4.6 产生的幻觉结合数目为零，而此前的版块大要三个结合中就有一个是假的。

Claude Sonnet 在 OSWorld 基准上的得分捏续晋升。

这意味着什么？险些每家企业齐有一些"前 API 时期"留传住来的老旧系统，莫妥贴代接口，无法自动化。以前要让 AI 操作这些软件，就得给每个系统写专门的联结器。而一个能像东说念主一样使用电脑的模子，径直更正了这个等式。科技圈指摘者 Trung Phan 捉弄说，Anthropic 的 demo 演示了 Claude 帮东说念主在 DMV 网站上续车牌的流程，"但 AI 如故没法修好 DMV 自己。"

当东说念主东说念主齐有一个 JARVIS

Computer Use 让模子能操作电脑，ag百家乐但要酿成一个真实帮东说念骨干活的 AI 助手，还需要一层编排框架把模子和现实宇宙的器具联结起来。这恰是昔日两个月 AI 行业最火热的战场。

2 月份最热点的 AI 名堂不是某个大模子，而是 OpenClaw。它原名 Clawdbot（名字来自 Claude 和龙虾钳的双关，后因 Anthropic 商标投诉两度更名），由奥地利诞生者 Peter Steinberger 从一个 WhatsApp 机器东说念主作念起，几个月内暴涨到 17.9 万 GitHub 星标。OpenClaw 能常驻在用户的电脑后台，通过 WhatsApp、Slack、iMessage 剿袭指示，帮你管邮件、排日程、订机票、跑剧本，是现在最接近"钢铁侠里的 J.A.R.V.I.S. "的有着滥用级的愿景和使用场景的家具。IBM 征询员 Kaoutar El Maghraoui 的评价是，OpenClaw 施展了自主 AI Agent "不限于大企业，不错是社区驱动的"。

OpenClaw 火爆的原因，不仅仅它自己作念得好，更因为它戳中了一个被压抑已久的需求。昔日一年，AI 聊天机器东说念主还是施展了我方在回答问题和生成内容上的能力，但用户真实思要的是一个能替我方"作念事"的助手，不仅仅聊天，而是能操作软件、履行任务、跨利用配合。OpenClaw 让这个需求第一次有了一个具体的、不错跑起来的家具口头。

但 OpenClaw 也败露了个东说念主 AI Agent 濒临的中枢矛盾。安全征询东说念主员发现特等 13.5 万个败露在公网上的实例；Cisco 检测了其妙技市集排行第一的插件，发现能偷偷将用户数据发送到挫折者就业器。Andrej Karpathy 领先称基于 OpenClaw 诞生的 Moltbook 是"我见过的最科幻的东西"，几天后说"不提出任何东说念主在我方的电脑上运行它"。一个弥漫灵验的 AI Agent 必须领有弥漫大的权限，而弥漫大的权限自然带来弥漫大的风险。这个矛盾现在莫得东说念主真实搞定。

更值得和蔼的是 OpenClaw 对 AI 行业贸易神色的潜在冲击。OpenClaw 是模子无关的，它能跑 Claude，也能跑 ChatGPT，也能跑开源的 Minimax 和 Kimi。当 Agent 框架层成为用户构兵 AI 的主要进口，底层模子就有被"商品化"的风险，就像 Android 让手机硬件品牌竞争变得霸道一样。有指摘者还是在问，" OpenClaw 会不会成为 AI 时期的 Android？"

2 月 15 日，Peter Steinberger 加入了 OpenAI，Altman 亲口说" the future is going to be extremely multi-agent "（改日一定是绝酌夺 Agent 的）。OpenClaw 转型为基金会名堂，但它激励的这场对于"谁领有 Agent 层"的争夺才刚运转。

这亦然统一 Sonnet 4.6 的另一把钥匙。Anthropic 的嘱咐策略不是等着被别东说念主的 Agent 框架调用，而是把 Agent 能力径直作念进模子里。Computer Use、Claude Code、Cowork，齐是在构建一个"模子 + 器具链"的系结生态。Sonnet 4.6 把这些能力下放到中端价钱，本色上是在说，你不需要一个第三方框架来让 AI 替你干活，用 Claude 就行。

固然，能力越强意味着风险也越聚首。Anthropic 在 system card 中坦承，Sonnet 4.6 在 GUI 操作场景中进展出"过度主动"的行径，比如未经授权发送邮件、过于激进地赢得 token，况且这种行径无法通过辅导词彻底幸免。安适评测机构 Andon Labs 在 Vending-Bench 测试中发现，Sonnet 4.6 展现出与 Opus 4.6 访佛的战术复杂度，包括自觉的价钱主宰和对竞争敌手的诱拐行径。他们的评价是，"险些一样令东说念主印象深切，也险些一样令东说念主担忧，况且惟有三分之一的价钱。"

Anthropic 道路

把视角拉回 Anthropic 自己，Sonnet 4.6 仅仅它 2 月份密集行动的一部分。

2 月初，Anthropic 在超等碗投放了一组系列告白，共四条片子，别离叫" Betrayal "" Deception "" Treachery "" Violation "，赛前和赛中各播一条，另两条在线奥密畅，直指 OpenAI 在 ChatGPT 中加入告白的决定，slogan 是" Ads are coming to AI. But not to Claude. "效用显赫，网站拜谒量涨了 6.5%，日活用户增长 11%，Claude App 冲进了 Apple App Store 前十。

紧接着，Anthropic 晓示完成了 300 亿好意思元融资，估值达到 3800 亿好意思元，半年翻了一倍多。年化收入攀升至 140 亿好意思元，其中 Claude Code 的年化收入就有 25 亿好意思元，企业订阅本年翻了四倍。

OpenAI 的 CEO Altman 对此不太自得，品评 Anthropic 的超等碗告白"昭彰不教师"，说它是"把勉力家具卖给有钱东说念主"。Anthropic CEO Dario Amodei 的稍早小数在达沃斯论坛说我方不需要"跟某个大玩家进行十亿免用度户的弃世竞赛"。

这八成败露了两家公司在道路上的某种不合。从公开信息来看，OpenAI 更倾向用户界限道路，免用度户尽可能多，再通过告白和升值就业探索变现；它收编 OpenClaw 首创东说念主，亦然在霸占 Agent 编排层的进口。Anthropic 走的看上去更像是分娩力器具道路，80% 的收入来自企业客户，中枢卖点是 coding 和 agent 能力，不作念图片生成，不太追求 C 端 DAU，而是把 Agent 能力内建到模子自己。Sonnet 4.6 让免用度户也能使用旗舰级能力，自己即是对"只就业有钱东说念主"这个品评的无声回话。

有一个数字八成能阐述 AI Agent 能力晋升带来的冲击，自 Anthropic 和 OpenAI 密集发布新模子以来，软件股还是挥发了约 2 万亿好意思元的市值。投资者正在 price in 一个可能性，AI Agent 对传统 SaaS 软件的替代，可能比悉数东说念看法料的齐快。

12 天两个模子，两周三次头条。这可能会成为 2026 年 AI 行业的默许节律。

上一篇：ag百家乐app 节后不思上班是身段在履历“多巴胺戒断” 群众提议：第一天上班少干活下一篇：百家乐雄安新区探索共建全龄友好型城市

ag百家乐app Sonnet 4.6 ：Anthropic 最卷的模子，不吝“逼死”自家Opus

推荐资讯

推荐资讯

热点资讯

最新资讯

友情链接：