你的位置:AG百家乐APP官方网站 > 和局(Tie) > ag百家乐app Sonnet 4.6 :Anthropic 最卷的模子,不吝“逼死”自家Opus

ag百家乐app Sonnet 4.6 :Anthropic 最卷的模子,不吝“逼死”自家Opus

发布日期:2026-02-25 10:47 点击次数:192

ag百家乐app Sonnet 4.6 :Anthropic 最卷的模子,不吝“逼死”自家Opus

在最近的模子混战中,不仅仅中国厂商们在卷,Anthropic 也在半个月一语气发布了两款模子。而其中,最近发布的 Sonnet 4.6 有些特殊,它不是旗舰,却在多个维度追平致使特等了旗舰。看起来它用 Opus 1/3 的价钱,就追上了它 99% 的性能。

在这个各家模子齐要干掉 Opus 的时刻,它我方用性价比款的 Sonnet "干掉" Opus,给诸君演示了一下,什么才是最卷的模子。

况且,这款模子尽头值得和蔼的场合是,它让 AI 操作电脑这件事第一次接近了"确切能用"的临界点。而恰巧在团结个月,一个叫 OpenClaw 的开源名堂用 17 万 GitHub 星标施展了一件事,东说念主手一个的,能替我方干活的 AI Agent,可能成为一个新的趋势。Sonnet 4.6 是模子,OpenClaw 是框架,但它们指向团结个标的。

低廉的再一次打赢了贵的

在 Anthropic 的家具线中,Opus 是最强最贵的旗舰,Sonnet 是均衡性能和资本的中端款,Haiku 是最快最低廉的轻量款。长期以来,Sonnet 的变装是"性价比之选",干不了最难的活但胜在低廉。Sonnet 4.6 破损了这个神色。

编码方面,它在 SWE-bench Verified 上得分 79.6%,靠近 Opus 4.6 的 80.8%。Claude Code 的里面测试中,用户 70% 的时期更偏好 Sonnet 4.6(对比 Sonnet 4.5),致使有 59% 的时期比前年 11 月发布的旗舰 Opus 4.5 更受接待。用户反映聚首在几个方面,"更少过度工程""更少偷懒""指示罢黜昭彰更好",以及更少出现"明明没干完却说干完了"的情况。

办公任务是更大的惊喜。在 GDPval-AA 这个讨论真实办公场景的评测中,Sonnet 4.6 拿到 1633 Elo,径直特等了 Opus 4.6 的 1606。低廉的在执行责任场景中打赢了贵的。访佛的事正在行业里反复发生,Google 的 Gemini 3 Flash 也在靠近 Pro 的进展,DeepSeek 用远低于好意思国公司的资本试验出竞争力尽头的模子。"低端逆袭高端"还是不再是新闻,而是 2026 年 AI 行业的结构性趋势。

不外安适 AI 评测机构 Artificial Analysis 细心到了一个特别道理味的细节,Sonnet 4.6 在 GDPval-AA 上使用的 token 数目是 Sonnet 4.5 的约 4.5 倍。AI 媒体 Latent Space 据此指出,某些任务的总资本可能比 Opus 还高。这和价钱表上的数字讲的是两个故事。

{jz:field.toptypename/}

软件工程师、AI 技巧博主 Joe Njenga 在 Medium 上第一时期作念了测试,他的感受是,"发布才几天,但 Sonnet 4.6 还是嗅觉比 Opus 更好用了。" Cosmic 平台作念了一个收场实验,用彻底推敲的一句话辅导词让 4.5 和 4.6 各生成一个博客利用,论断是 4.6 在规划品尝和代码架构上有质的晋升,"需要更少的手把手指示"。编程器具 Kilo Code 径直把 Sonnet 4.6 设为默许保举模子。固然也有负面声息,发布本日就灵验户讲演了函数名幻觉的问题。

价钱跟上一代 Sonnet 4.5 彻底一样,每百万输入 token 3 好意思元,输出 token 15 好意思元。同期它成了 Free 和 Pro 用户的默许模子,免用度户还新增了文献创建、skills 等功能。但正如上头提到的,"相似的钱买到更强的模子"不等于"用 AI 更低廉了"。Extended thinking 的 token 按输出价钱计费,特等 200K 的长高下文有额外溢价,而 Agent 场景下动辄千千万万次器具调用,执行使用资本可能反而在加多。

16 个月,Computer Use 从玩物变器具

Sonnet 4.6 还有一个值得单独拿出来说的逾越,即是 Computer Use,也即是 AI 操作电脑的能力。

2024 年 10 月,Anthropic 是第一个推出通用计较机操作 AI 的公司。那时他们我方齐承认这个功能"还很实验性,巧合拙劣且容易出错",发布时搭载的 Claude 3.5 Sonnet 在 OSWorld 评测上只拿到 14.9%。能作念的事很有限,迁徙鼠标、点击按钮、输入笔墨,基本是个拼集能用的遥控器。

{jz:field.toptypename/}

之后的每一代 Sonnet 齐在这个维度上逾越。到了 2025 年 9 月的 Sonnet 4.5,收成还是大幅晋升。但 Sonnet 4.6 才是真实让这项能力从"技巧 demo "走向"可用器具"的节点。在 OSWorld-Verified 上,它拿到 72.5%,险些追平 Opus 4.6 的 72.7%,比 16 个月前的早先晋升了近 5 倍。

数字背后对应的是质的变化。早期用户讲演说,Sonnet 4.6 在操作复杂电子表格、填写多才智网页表片面已接近东说念主类水平,况且能跨多个浏览器标签页协同完成任务。在保障行业的基准测试中,Computer Use 拿到 94% 的准确率,是他们测试过的悉数模子中最高的。更重要的一个更动是可靠性,在他们里面的浏览器自动化场景中,Sonnet 4.6 产生的幻觉结合数目为零,而此前的版块大要三个结合中就有一个是假的。

Claude Sonnet 在 OSWorld 基准上的得分捏续晋升。

这意味着什么?险些每家企业齐有一些"前 API 时期"留传住来的老旧系统,莫妥贴代接口,无法自动化。以前要让 AI 操作这些软件,就得给每个系统写专门的联结器。而一个能像东说念主一样使用电脑的模子,径直更正了这个等式。科技圈指摘者 Trung Phan 捉弄说,Anthropic 的 demo 演示了 Claude 帮东说念主在 DMV 网站上续车牌的流程,"但 AI 如故没法修好 DMV 自己。"

当东说念主东说念主齐有一个 JARVIS

Computer Use 让模子能操作电脑,ag百家乐但要酿成一个真实帮东说念骨干活的 AI 助手,还需要一层编排框架把模子和现实宇宙的器具联结起来。这恰是昔日两个月 AI 行业最火热的战场。

2 月份最热点的 AI 名堂不是某个大模子,而是 OpenClaw。它原名 Clawdbot(名字来自 Claude 和龙虾钳的双关,后因 Anthropic 商标投诉两度更名),由奥地利诞生者 Peter Steinberger 从一个 WhatsApp 机器东说念主作念起,几个月内暴涨到 17.9 万 GitHub 星标。OpenClaw 能常驻在用户的电脑后台,通过 WhatsApp、Slack、iMessage 剿袭指示,帮你管邮件、排日程、订机票、跑剧本,是现在最接近"钢铁侠里的 J.A.R.V.I.S. "的有着滥用级的愿景和使用场景的家具。IBM 征询员 Kaoutar El Maghraoui 的评价是,OpenClaw 施展了自主 AI Agent "不限于大企业,不错是社区驱动的"。

OpenClaw 火爆的原因,不仅仅它自己作念得好,更因为它戳中了一个被压抑已久的需求。昔日一年,AI 聊天机器东说念主还是施展了我方在回答问题和生成内容上的能力,但用户真实思要的是一个能替我方"作念事"的助手,不仅仅聊天,而是能操作软件、履行任务、跨利用配合。OpenClaw 让这个需求第一次有了一个具体的、不错跑起来的家具口头。

但 OpenClaw 也败露了个东说念主 AI Agent 濒临的中枢矛盾。安全征询东说念主员发现特等 13.5 万个败露在公网上的实例;Cisco 检测了其妙技市集排行第一的插件,发现能偷偷将用户数据发送到挫折者就业器。Andrej Karpathy 领先称基于 OpenClaw 诞生的 Moltbook 是"我见过的最科幻的东西",几天后说"不提出任何东说念主在我方的电脑上运行它"。一个弥漫灵验的 AI Agent 必须领有弥漫大的权限,而弥漫大的权限自然带来弥漫大的风险。这个矛盾现在莫得东说念主真实搞定。

更值得和蔼的是 OpenClaw 对 AI 行业贸易神色的潜在冲击。OpenClaw 是模子无关的,它能跑 Claude,也能跑 ChatGPT,也能跑开源的 Minimax 和 Kimi。当 Agent 框架层成为用户构兵 AI 的主要进口,底层模子就有被"商品化"的风险,就像 Android 让手机硬件品牌竞争变得霸道一样。有指摘者还是在问," OpenClaw 会不会成为 AI 时期的 Android?"

2 月 15 日,Peter Steinberger 加入了 OpenAI,Altman 亲口说" the future is going to be extremely multi-agent "(改日一定是绝酌夺 Agent 的)。OpenClaw 转型为基金会名堂,但它激励的这场对于"谁领有 Agent 层"的争夺才刚运转。

这亦然统一 Sonnet 4.6 的另一把钥匙。Anthropic 的嘱咐策略不是等着被别东说念主的 Agent 框架调用,而是把 Agent 能力径直作念进模子里。Computer Use、Claude Code、Cowork,齐是在构建一个"模子 + 器具链"的系结生态。Sonnet 4.6 把这些能力下放到中端价钱,本色上是在说,你不需要一个第三方框架来让 AI 替你干活,用 Claude 就行。

固然,能力越强意味着风险也越聚首。Anthropic 在 system card 中坦承,Sonnet 4.6 在 GUI 操作场景中进展出"过度主动"的行径,比如未经授权发送邮件、过于激进地赢得 token,况且这种行径无法通过辅导词彻底幸免。安适评测机构 Andon Labs 在 Vending-Bench 测试中发现,Sonnet 4.6 展现出与 Opus 4.6 访佛的战术复杂度,包括自觉的价钱主宰和对竞争敌手的诱拐行径。他们的评价是,"险些一样令东说念主印象深切,也险些一样令东说念主担忧,况且惟有三分之一的价钱。"

Anthropic 道路

把视角拉回 Anthropic 自己,Sonnet 4.6 仅仅它 2 月份密集行动的一部分。

2 月初,Anthropic 在超等碗投放了一组系列告白,共四条片子,别离叫" Betrayal "" Deception "" Treachery "" Violation ",赛前和赛中各播一条,另两条在线奥密畅,直指 OpenAI 在 ChatGPT 中加入告白的决定,slogan 是" Ads are coming to AI. But not to Claude. "效用显赫,网站拜谒量涨了 6.5%,日活用户增长 11%,Claude App 冲进了 Apple App Store 前十。

紧接着,Anthropic 晓示完成了 300 亿好意思元融资,估值达到 3800 亿好意思元,半年翻了一倍多。年化收入攀升至 140 亿好意思元,其中 Claude Code 的年化收入就有 25 亿好意思元,企业订阅本年翻了四倍。

OpenAI 的 CEO Altman 对此不太自得,品评 Anthropic 的超等碗告白"昭彰不教师",说它是"把勉力家具卖给有钱东说念主"。Anthropic CEO Dario Amodei 的稍早小数在达沃斯论坛说我方不需要"跟某个大玩家进行十亿免用度户的弃世竞赛"。

这八成败露了两家公司在道路上的某种不合。从公开信息来看,OpenAI 更倾向用户界限道路,免用度户尽可能多,再通过告白和升值就业探索变现;它收编 OpenClaw 首创东说念主,亦然在霸占 Agent 编排层的进口。Anthropic 走的看上去更像是分娩力器具道路,80% 的收入来自企业客户,中枢卖点是 coding 和 agent 能力,不作念图片生成,不太追求 C 端 DAU,而是把 Agent 能力内建到模子自己。Sonnet 4.6 让免用度户也能使用旗舰级能力,自己即是对"只就业有钱东说念主"这个品评的无声回话。

有一个数字八成能阐述 AI Agent 能力晋升带来的冲击,自 Anthropic 和 OpenAI 密集发布新模子以来,软件股还是挥发了约 2 万亿好意思元的市值。投资者正在 price in 一个可能性,AI Agent 对传统 SaaS 软件的替代,可能比悉数东说念看法料的齐快。

12 天两个模子,两周三次头条。这可能会成为 2026 年 AI 行业的默许节律。

友情链接:

闲家(Player) 庄家(Banker) 和局(Tie) 庄对子(BankerPair) 闲对子(PlayerPair) 幸运6 百家乐app

Copyright © 1998-2026 AG百家乐APP官方网站™版权所有

gzsonghuafen.com 备案号 备案号: 

技术支持:®ag百家乐  RSS地图 HTML地图