球队数据与历史记录跑分第一，推理暴跌！Claude Opus 4.7上线48小时口碑崩了

发布日期：2026-05-09 15:28 来源：未知作者：admin 浏览次数：

新智元报谈

剪辑：元宇

【新智元导读】Opus 4.7发布48小时，口碑南北极扯破。官方榜单比肩全球第一，逻辑推理公开测试却从94.7%暴跌到41.0%。token逝世涨了35%，旧接口径直报错，用户集体控诉「更贵、更蠢、更爱顶撞」。Anthropic到底升级了什么，又搞砸了什么？

「4.6根底没法用，4.7的逝世速率像核反应堆一样。」

Opus 4.7发布后，一位Reddit用户在Anthropic官方帖子下的留言。

不是玩梗，是赤忱话。

一篇「Claude Opus 4.7是严重倒退，不是升级」的Reddit帖子赶快冲上3000赞。

还有东谈主晒出截图，说4.7连strawberry里有几个字母齐答不合。

更别说「擅改简历假造学历和姓氏」，回复用户「我懒得作念交叉考证」，以及「三问就撞名额」这些网友热点槽点了。

《Pragmatic Engineer》作家Gergely Orosz试用之后，花样这个模子「出东谈主猜想地带报复性」，然后晓谕消灭，换回了4.6。

这边骂声还没散，那里一组数据却指向了相背的标的。

Artificial Analysis给Opus 4.7的Intelligence Index打了57分，和GPT-5.4、Gemini 3.1 Pro比肩全球第一。

创业者Jeremy Howard花样它是「第一个着实懂我在职责时到底在作念什么的模子」，Y Combinator CEO Garry Tan正在拿它作念技俩。

还有网友说，Claude Opus 4.7 已终了通用东谈主工智能（AGI）。

团结个模子，有东谈主看到了AGI的影子，有东谈主合计我方的职责流炸了。

上线两天，Opus 4.7就把AI社区扯破了。

用户为什么炸了？

阻隔看，用户的肝火相聚在三个点上，每一条齐戳中了重度用户的命门。

第一，代码智力断崖式下滑。多半勾引者反馈，从4.6升级到4.7之后，之前能沉稳完成的编程任务启动常常出错。

况且齐是频频职责流里的中枢操作：代码补全变笨拙，荆棘文表示出现退化，复杂逻辑链的推理显着变弱。

代码智力是Opus系列的王牌，面前王牌出了问题，反弹当然最猛。

一位Reddit用户说，他用一个已知谜底的长重构任务作念转头测试，成果模子自信地改挂了3个蓝本在4.6下能通过的测试，只可回滚。

辩论区涌入上百条雷同资历。

第二，推理质料的倒退。

不是速率慢了那么陋劣，是念念考深度出现了可感知的退化。昔时能一步到位的复杂问题，面前需要反复追问、手动勾引。

这个脚本AI行业并不生分。旧年GPT-4 Turbo闹出的「降智」风云简直一模一样：跑分进步了，体验却下来了。

第三，花更多钱，体验更差。

Opus自己即是Anthropic最贵的模子。

重度用户每月的API账单不是极少目。花了更多的钱、升了更新的版块、获取的却是更差的体验，震怒就不单停在手艺层面。

benchmark更强了

但用户不买账

靠近反弹潮，Anthropic的回话速率不算慢。

Anthropic在官方迁徙指南中指出，Opus 4.7 比拟4.6存在若干举止变化，K8凯发中国官方网站同期也强调，Opus 4.7仍是其现时空洞智力最强的通用可用模子，在长周期智能体任务、常识型职责、视觉任务和追念任务方面发达尤为出色。

Artificial Analysis的多维评测成果也摆在那里，Opus 4.7在数学推理、多讲话表示、长荆棘文处治，多个维度的得分创下新高。

Artificial Analysis评测露馅，Opus 4.7（max）以57分比肩榜首，与Gemini 3.1 Pro Preview、GPT-5.4比肩。

GitHub上的NYT Connections Extended基准测试也给出了顶级排名。

Anthropic的逻辑并不难表示：大模子迭代势必波及智力再分拨。有些维度进步了，有些维度就可能出现回退，这是工程上的选定。

但用户不看这个，只看我方手里的活干不干得动。

价钱没涨

但账单涨了

Anthropic莫得调价，每百万token的单价和Opus 4.6、4.5澈底一样。

但官方迁徙指南里写谈：新分词器（tokenizer）在处治换取文本时，token用量好像可能达到原来的1.0倍到1.35倍。

什么意旨敬爱敬爱？你昨天用4.6跑一段prompt花10好意思元，今天换4.7跑团结段prompt，可能要花11到13.5好意思元。

单价没变，但相通的活儿吃掉了更多token。Claude Code创建者Boris Cherny随后在X上暗示：

Opus 4.7逝世更多thinking token，是以咱们已为通盘订阅用户提高了速率甘休，来赔偿这一丝。

但具体提高了若干，莫得公布。

模子没蠢

但职责流炸了

如果你是Claude的重度勾引者，4.7上线那天你可能遇到了这么的事情：

代码里写了thinking={"type": "enabled"， "budget_tokens": 32000}，用来适度模子的念念考预算。

在4.6上跑得好好的。换成4.7，径直复返400作假。莫得弃用过渡期，世界杯比分莫得兼容模式，径直报错。

官方迁徙指南解释了替代决议：改用thinking={"type": "adaptive"}加上新的effort参数。

但大多数勾引者不会在模子发布今日去读迁徙指南。

他们作念的第一件事是把模子名从4.6换成4.7，然后发现一切齐不职责了。

更遮掩的变化是thinking执行面前默许荫藏。

4.6时间，模子的念念考经由默许展示选录版。到了4.7，默许变成「不详」。响应里的thinking区块看起来是空的。

但你仍然在为这些看不到的thinking token全额付费。

Anthropic官方原话：不详只会裁汰蔓延，不会裁汰资本。

这就像你点了一份套餐，管事员说「为了加速上菜速率，咱们不给你看菜了，但你如故得付全款」。

「顶撞」不是bug

网友一个最热烈的吐槽，是说4.7变得「combative」（带报复性）。

不少勾引者反应，4.7会拒却实施它认为有问题的指示，口吻也比4.6硬了不啻一个层次。

对于这个问题，Anthropic官方迁徙指南里有一句很漏洞的话：

Claude Opus 4.7会以更字面、更明确的阵势表示提醒词。

也即是说：4.6会「猜你的意旨敬爱敬爱」，4.7会「照你说的作念」。

如果你的prompt本来就写得暧昧，4.6不错帮你脑补了，但4.7不会。对于一部分用户来说，这叫「不听话」，但对另一部分用户来说，这叫「终于不乱猜了」。

比如，Cursor策画师Ryo Lu却在用4.7作念产物经营，认为这种精如实施恰是他需要的。

因此，「顶撞」这个标签背后，是Anthropic正在把Claude从一个「校服的助手」改形成一个「更有主义的共事」。

据Artificial Analysis的公开评测，Opus 4.7在GDPval-AA上拿到1753 Elo，卓越第二名79分。

GDPval-AA掂量的是模子在44种作事、9个主要行业的确凿常识职责任务中的发达，在这个维度上，4.7碾压了通盘敌手，包括我方的前代4.6（1619 Elo）。

同期，4.7的幻觉率比4.6下降了25个百分点，降到了36%。

它是怎样作念到的？据Artificial Analysis的分析，主若是依靠「更常常地罗致不作答」，宁可说「我不知谈」，也不瞎编。

这证据Anthropic的意图不在于优化Claude的聊天体验，而是在优化Claude的职责智力。

Opus 4.7在GDPval-AA上以1753 Elo登顶，卓越第二名79分。这项测试掂量的是AI在44种作事中孤独完成常识职责的智力。

但对于用户来说，在一些场景下可能澈底感受不到进步，反而先感受到了token变贵、接口报错和口吻变硬。

94.7%暴跌到41.0%

如果上头三层问题齐能归结为「迁徙资本+使用俗例错位」，但还有一组数字没法用迁徙资本解释。

GitHub上公开保重的NYT Connections Extended基准测试，使用940谈《纽约时报》Connections谜题评估大讲话模子的逻辑推理和抗干豫智力。

这个测试通过异常加入干豫词来进步难度，还是是社区公认的高难度benchmark之一。

NYT Connections Extended排名榜。Opus 4.6（high reasoning）得分94.7%，Opus 4.7（high reasoning）仅41.0%，团结测试上出现断崖式暴跌。

成果是：Opus 4.6（high reasoning）得分94.7%，Opus 4.7（high reasoning）得分41.0%。

从年龄第一，跌到不足格。

另一份数据来自Anthropic提供的Opus 4.7 System Card中100万token荆棘文的MRCR v2基准测试：4.6得分78.3%，4.7得分32.2%，下降46个百分点。

https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

这组数据标的与NYT Connections的论断一致：在某些逻辑推理和长荆棘文检索任务上，4.7如实出现了显耀腐败。

但也需要说了了：这些是特定类型的测试。它们不可证明4.7「全面变蠢」，就像GDPval-AA的卓越不可证明4.7「全面变强」一样。

用户耐性

启动倒计时

Opus 4.7的争议不是个案。

OpenAI资历过GPT-4 Turbo降智风云，几个月前撤下GPT-4o时也遇到过雷同的用户反弹。面前Reddit上还是出现了「诟谇」Claude 4.5的帖子，尽是自称「心碎」的粉丝。

每一次模子升级，齐有一批用户失去还是妥当的器具。

新分词器让旧的资本预算失效；新的默许举止让旧的prompt不再好用；新的接口设施让旧的代码径直报错……

每一项单独看齐有手艺上的合感性，但叠在全部，即是把全部迁徙资本一次性推给了用户。

为什么模子越来越灵巧，用户越来越畏俱？因为每一次「更好」，齐意味着推翻上一次的「刚好」。

Anthropic职工Alex Albert在发布次日写谈：

许多东谈主在昨天刚启动体验Opus 4.7时可能遇到的bug，面前齐还是成就了。感谢大众的包容和耐性。

bug不错修。但信任这种东西，逝世容易，重建很慢。

这轮AI武备竞赛的下一个瓶颈，也许不仅仅算力和数据，还要比谁能在快速迭代的同期，能不把我方的用户甩下车。

此次，Anthropic发布了迁徙指南，但用户更想要的是一个应允：升级不可把原有的职责流推倒重来。

当AI从玩物变成坐褥力器具，「快速迭代」就不再是无条目的优点。

Opus 4.8会怎样来？Anthropic还没说。

但用户的耐性球队数据与历史记录，还是启动倒计时了。

HG真人游戏官方网站

上一篇：上一篇：球队数据与历史记录不黑不吹，决定芯片产业赢输的，从来不是诡计、制造2nm芯片

2026FIFA世界杯中国比分网

世界杯直播

球队数据与历史记录跑分第一，推理暴跌！Claude Opus 4.7上线48小时口碑崩了

世界杯直播

球队数据与历史记录 跑分第一，推理暴跌！Claude Opus 4.7上线48小时口碑崩了

球队数据与历史记录跑分第一，推理暴跌！Claude Opus 4.7上线48小时口碑崩了