Claude Opus 4.7 的 xhigh 努力等級以及 ultrareview 功能
Anthropic 在 4 月 16 日釋出了 Claude Opus 4.7,同一天 Claude Code 也更新了幾個直接影響日常使用的功能。這篇記錄一下我注意到的改變,以及實際用起來差在哪裡。
Opus 4.7 是什麼等級的更新
Opus 4.7 是 Opus 4.6 的直接升級,同樣的定價($5 / $25 per million tokens),但各方面都有提升。
| 指標 | Opus 4.6 | Opus 4.7 |
|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% (+6.8pp) |
| Vision 解析度 | 標準 | 3.3x 更高解析度 |
| 推理精準度 | — | 加入 self-verification |
SWE-bench 是拿真實 GitHub issue 來考 AI 的測試——給模型看 issue 和程式碼,叫它直接把 bug 修好或把功能做出來,最後跑測試看過不過。SWE-bench Verified 是裡面品質比較穩的那批題目。87.6% 就是 Opus 4.7 答對的比例,目前公開模型裡最高,比 GPT-5.4 和 Gemini 3.1 Pro 都高。
xhigh 努力等級
Opus 4.7 新增了 xhigh 這個努力等級,插在原本的 high 和 max 之間:
low → medium → high → xhigh → max
等級越高,Claude 投入的思考 token 越多,回應品質越好,但消耗也越大。xhigh 填補了「high 不夠但 max 太燒」的空缺——根據 Anthropic 的數據,xhigh 在 100k tokens 預算下的 SWE-bench 得分是 71%,已經超過 Opus 4.6 在 200k tokens 下的 max 表現。
Claude Code 現在把 Opus 4.7 的預設努力等級設為 xhigh。想手動切換用 /effort <等級> 即可,不帶參數的話會開啟互動式滑桿選擇。
/ultrareview:更深的程式碼審查
這是這次更新裡我最想試的功能。/ultrareview 讓 Claude 針對目前的程式碼做一輪深度審查,找出「一個細心的人類 reviewer 會發現的問題」——邏輯錯誤、邊緣案例、潛在的安全漏洞、或不一致的命名。
/ultrareview
Claude 會根據目前的工作上下文(CLAUDE.md、最近改過的檔案)跑完整審查,回傳詳細的問題清單。Anthropic 說會給 Pro 和 Max 方案三次免費試用。
/ultrareview vs /review vs /simplify
這三個指令在 code review 領域的定位各不相同:
| 指令 | 定位 | 努力等級 | 主要用途 |
|---|---|---|---|
/review | 快速審查 | 一般 | 看一輪有無明顯問題 |
/ultrareview | 深度審查 | Opus 4.7 xhigh | 上線前的嚴格把關 |
/simplify | 品質重構 | 一般 | 找出可以精簡或重用的地方 |
/review 適合日常開發中快速確認,速度快、token 少。/ultrareview 是要合 PR 進主線、或是某段邏輯你真的不確定的時候才動用,它比 /review 深很多,但等待時間和 token 消耗也明顯更高。/simplify 不是在找 bug,而是在問「這段程式碼能不能寫得更簡單」,跑完通常會直接幫你改。
用下來的感覺是:/simplify 日常都可以跑,/review 在 commit 前跑,/ultrareview 留給真正重要的節點。
整體感受
說實話,在 4.7 出來之前,4.6 這段時間用起來有點讓人洩氣。明明是以前能跑過的簡單任務,常常莫名跑到一半就中斷,或給出一些明顯偷懶的回應,整體感覺比幾個月前退步不少。這種「降智」的狀況在社群裡也有不少人反映,但 Anthropic 一直沒有正式承認。
4.7 出來之後這個問題改善滿多的。複雜的多步驟重構任務更少走錯路,也更少需要中途修正,整體穩定性比 4.6 後期好很多。SWE-bench 數字是一回事,光是「不會隨便中斷」這點就已經值回票價了。
xhigh 作為預設是個好決定——它把 max 留給真正需要的時候,對控制 token 消耗很有幫助。/ultrareview 還在很早期,但回傳的問題清單品質確實比 /review 細很多,值不值得等就看任務的重要性了。
資料來源:
留言