白鲸出海—让中国互联网服务世界

{{user_info.user_name}}
您当前是白鲸会员
开通VIP,享受更多服务
会员到期时间:{{user_info.expire_date*1000 | formatDatebyDay}}
合作查看次数: {{users_vip_equities.view_cooperation || 0}}次
合作发布次数: {{users_vip_equities.release_cooperation || 0}}次
公司查看次数: {{users_vip_equities.view_company || 0}}次
报告下载次数: {{users_vip_equities.download_book || 0}}次
鲸币数量:{{user_info.jingbi}}
发布
当前位置:白鲸出海 > 资讯 > 正文

Anthropic又“踢馆”!Sonnet 4.6操作电脑接近人类

Annie Liu  •  •  原文链接

继发布新旗舰模型 Claude Opus 4.6 后不到两周,OpenAI 的劲敌 Anthropic 于再次推出重磅产品Claude Sonnet 4.6,以中端的价格提供接近旗舰级模型的智能水平,这对 AI 行业构成了一次重大的定价格局重塑。

美东时间 2 月 17 日周三,Anthropic 官宣发布 Claude Sonnet 4.6,新模型在编程、操作电脑、长文本推理、智能体规划、知识工作和设计等方面实现全面升级,定价与前代 Sonnet 4.5 相同,仍为每百万 token 输入 3 美元、输出 15 美元,但据称性能已接近定价为每百万 token 输入 15 美元、输出 75 美元的旗舰 Opus 模型,且定价却只有后者的五分之一。

对于每天进行数百万次 API 调用的企业部署 AI 智能体而言,这一成本性能比的改变具有变革意义。在操作电脑能力方面,Sonnet 4.6 在标准基准测试 OSWorld 上得分达 72.5%,不到一年半时间提升到接近人类水平。在早期测试中,开发者在约七成情况下更偏好 Sonnet 4.6 而非前代,甚至在近六成的情况下更偏好它,而非去年 11 月发布的 Anthropic 旗舰模型 Opus 4.5。

此次发布正值 Anthropic 加速进军企业市场。据报道,Anthropic 上周五刚以 3800 亿美元估值完成 300 亿美元的新融资,估值较去年9月翻倍。同在本周三,印度 IT 巨头 Infosys 宣布与 Anthropic 合作,将 Claude 模型整合至其 Topaz AI 平台,用于银行、电信和制造业。Anthropic 还在班加罗尔开设了首个印度办事处。

操作电脑能力16个月提升五倍,接近人类水平

新模型再次证明,Anthropic 在操作计算机的能力上进步尤为显著。

2024 年 10 月首次推出这一功能时,Anthropic 曾坦承“仍处于实验阶段——有时笨拙且容易出错”。此后的数据显示,该司的模型进步速度惊人:Sonnet 3.5 在2024年10月的OSWorld基准测试中得分14.9%,Sonnet 3.7 在 2025 年 2 月达到 28.0%,Sonnet 4 在同年6月达到 42.2%,Sonnet 4.5 在同年 10 月攀升至 61.4%,本周三发布的 Sonnet 4.6 已达到 72.5%。


OSWorld 基准测试在模拟计算机上呈现数百项跨越 Chrome、LibreOffice、VS Code 等真实软件的任务,没有特殊 API 或专用连接器,模型像人类一样通过点击虚拟鼠标和虚拟键盘与计算机交互。Anthropic 表示,该模型能够处理导航复杂电子表格或填写多步骤网页表单等任务,然后在多个浏览器标签页间整合信息。

这一能力对企业应用至关重要。几乎每个组织都有难以自动化的遗留软件——保险门户网站、政府数据库、企业资源规划系统、医院排班工具——这些都是在 API 出现之前构建的。一个能够像人一样查看屏幕并与之交互的模型,无需构建定制连接器就能实现这些系统的自动化。

Pace 的 CEO Jamie Cuffe 表示,Sonnet 4.6 在该公司复杂的保险计算机使用基准测试中达到 94%的准确率,是所有 Claude 模型中表现最好的。Cuffe 说:“它以我们从未见过的方式进行故障推理和自我纠正。”

Convey 联合创始人 Will Harvey 称其为"我们在评估中测试过的所有模型中的明确改进"。

Anthropic 还指出,计算机操作存在提示注入攻击风险——恶意行为者在网站上隐藏指令以劫持模型。该公司的评估显示,Sonnet 4.6 在抵御此类攻击方面较 Sonnet 4.5 有重大改进。

编程能力大幅提升 开发者偏好度超前代旗舰

在 Claude Code 中,Anthropic 的早期测试发现,开发者在约 70% 的情况下更偏好 Sonnet 4.6 而非 Sonnet 4.5。用户报告称,新模型在修改代码前更有效地读取上下文,合并共享逻辑而非重复,这使得它在长时间使用时比早期模型更不令人沮丧。

用户甚至在 59% 的情况下更偏好 Sonnet 4.6 而非去年 11 月的旗舰模型 Opus 4.5。他们评价Sonnet 4.6 显著降低了过度工程化和"懒惰"倾向,在指令遵循方面明显更好。他们报告称虚假成功声明更少,幻觉更少,多步骤任务的持续执行更一致。

早期客户反馈突出了前端代码和金融分析方面的改进。多位测试者独立描述称,Sonnet 4.6的视觉输出明显更精致,布局、动画和设计感都优于以前的模型。客户达到生产质量结果所需的迭代轮数也更少。

基准测试中,Sonnet 4.6甚至可以和最新的Anthropic旗舰模型Opus 4.6比肩。

在行业标准的软件实际编码测试SWE-bench Verified中,Sonnet 4.6的得分为79.6%,接近Opus 4.6的80.8%。在模拟计算机使用的OSWorld-Verified测试中,Sonnet 4.6的得分为72.5%,与Opus 4.6的72.7%基本持平。

在办公任务GDPval-AA Elo测试中,Sonnet 4.6的得分高达1633,远超Opus 4.6的1606。在模拟财务分析的测试中,Sonnet 4.6的得分达到63.3%,击败了所有对比模型,包括得分为60.1%的Opus 4.6。


AI编程神器Cursor的联合创始人兼CEO Michael Truell表示:“Claude Sonnet 4.6在各方面都显著优于Sonnet 4.5,包括长期任务和更困难的问题。”

GitHub产品副总裁Joe Binder证实,该模型“已经在复杂代码修复方面表现出色,尤其是在跨大型代码库搜索至关重要时。对于大规模运行智能体编程的团队,我们看到了强劲的解决率和开发者所需的一致性。”

CodeRabbit AI副总裁David Loker称该模型“在绝大多数实际PR中远超其重量级”。

Factory AI的Leo Tchourakov表示团队“正在将Sonnet流量转移到这个模型”。Hercules创始人兼CEO Brendan Falk更直言:“Claude Sonnet 4.6是我们迄今见过的最好模型。它具有Opus 4.6级别的准确性、指令遵循和用户界面,而成本显著更低。”

中端价格提供旗舰性能,大规模部署成本锐减

Sonnet 4.6的定价策略是此次发布最重要的看点。定价维持在每百万token输入3美元、输出15美元,与前代Sonnet 4.5相同。而Anthropic的旗舰Opus模型定价为每百万token输入15美元、输出75美元——是Sonnet价格的五倍。

Anthropic称,以前需要使用Opus级模型才能达到的性能——包括在实际具有经济价值的办公任务上——现在通过Sonnet 4.6即可获得。对于目前部署每天进行数百万次API调用的AI智能体的数千家企业而言,这一成本计算改变了一切。

据报道,在许多企业最关心的类别中,Sonnet 4.6的表现匹配甚至超越了运行成本高出五倍的模型。一家运行每天处理1000万token的AI智能体的企业,以前被迫在较低成本的劣质结果和快速扩大支出的优质结果之间选择。Sonnet 4.6在很大程度上消除了这种权衡。

多位早期测试者明确描述Sonnet 4.6消除了使用更昂贵Opus层级的必要性。

Hex Technologies首席技术官Caitlin Colgrove表示,该公司正将大部分流量转移到Sonnet 4.6,指出“除了最困难的分析任务外,我们在所有任务上都看到了Opus级别的性能,且具有更高效和灵活的配置。在Sonnet定价下,这对我们的工作负载是显而易见的选择。”

智能内容管理平台Box的首席技术官Ben Kus表示,该模型在真实企业文档的重度推理问答中比Sonnet 4.5高出15个百分点。Replit的总裁Michele Catasta称性能成本比“非凡”。

金融科技公司Mercury的产品副总裁Ryan Wiggins更直白地说:“Claude Sonnet 4.6更快、更便宜,而且更有可能第一次就搞定。这种改进组合令人惊讶,我们没想到会在这个价位看到它。”

百万token上下文窗口实现长期战略规划

Sonnet 4.6配备100万token的上下文窗口(测试版),足以在单个请求中容纳整个代码库、冗长合同或数十篇研究论文。更重要的是,Anthropic称该模型能够有效地跨所有上下文进行推理。

该公司通过一项不寻常的评估展示了这一能力。Vending-Bench Arena测试模型长期运营模拟业务的能力,不同AI模型相互竞争以获得最大利润。在没有人工提示的情况下,Sonnet 4.6开发出一种新颖策略:它在前十个模拟月中大量投资产能,支出显著高于竞争对手,然后在最后阶段急剧转向专注盈利。该模型在365天模拟结束时约有5700美元余额,而Sonnet 4.5约为2100美元。

这种自主执行的多月战略规划代表着一种质的不同能力,超越了回答问题或生成代码片段。这是使AI智能体适用于实际业务运营的长期推理类型。

Claude Sonnet 4.6现已在所有Claude计划、Claude Cowork、Claude Code、API和所有主要云平台上提供。Anthropic还将其免费层级默认升级为Sonnet 4.6。开发者可以通过Claude API使用claude-sonnet-4-6立即访问。

激烈竞争背景下的快速发布节奏

Sonnet 4.6的发布正值AI行业激烈竞争时期。这是Anthropic在不到两周内的第二次重大AI模型发布,体现了在行业中保持竞争力所需的快节奏开发。Anthropic在12天前刚刚推出了Claude Opus 4.6。

Anthropic的快速进展也加速了软件股近期的大规模抛售。投资者越来越担心AI可能颠覆这些业务,iShares扩展科技软件行业ETF今年以来已暴跌逾20%。Sonnet 4.6不太可能缓解这些担忧,因为Anthropic表示该模型将为更多用户带来"大幅改进的编程技能"。

Anthropic近期推出的新工具进展引发华尔街担忧,投资者尤其担心一批软件公司最终可能被AI淘汰。Anthropic发布的新版Opus模型旨在更好地进行财务研究后,金融服务类股也大幅下跌。这些反应反映了人们对哪些公司和服务最终将被AI颠覆的广泛担忧。

Anthropic CEO Dario Amodei本周三表示,“在演示中有效的AI模型与在受监管行业中有效的模型之间存在巨大差距”,其企业AI解决方案的合作方Infosys帮助弥合了这一差距。报道称,印度目前约占全球Claude使用量的6%,仅次于美国。

在竞争格局中,Sonnet 4.6在多个基准测试中超越了Google的Gemini 3 Pro和OpenAI的GPT-5.2。

GPT-5.2和Sonnet 4.6在智能体计算机使用、智能体搜索和智能体金融分析方面的测试结果对比分别为:38.2%对72.5%、77.9%对74.7%、59.0%对63.3%。其中,逊于GPT-5.2的一项采用的是Sonnet 4.6非Pro 版本的得分。

Gemini 3 Pro在视觉推理和多语言基准测试上表现竞争力,但在企业投资激增的智能体类别上落后。

据报道,OpenAI也在与投资者进行融资谈判,融资额可能接近1000亿美元。


文章信息来自于网易科技,不代表白鲸出海官方立场,内容仅供网友参考学习。对于因本网站内容所引起的纠纷、损失等,白鲸出海均不承担侵权行为的连带责任。如若转载请联系原出处。

友情提醒:白鲸出海目前仅有微信群与QQ群,并无在Telegram等其他社交软件创建群,请白鲸的广大用户、合作伙伴警惕他人冒充我们,向您索要费用、骗取钱财!


分享文章

扫一扫 在手机阅读、分享本文

58805
{{votes}}
分享文章

扫一扫 在手机阅读、分享本文

58805
{{votes}}

要回复文章请先登录注册

与CEO聊合作

(备注姓名、公司及职位)