Claude Opus 4.7 的 xhigh 努力等級以及 ultrareview 功能

Anthropic 在 4 月 16 日釋出了 Claude Opus 4.7，同一天 Claude Code 也更新了幾個直接影響日常使用的功能。這篇記錄一下我注意到的改變，以及實際用起來差在哪裡。

Opus 4.7 是什麼等級的更新

Opus 4.7 是 Opus 4.6 的直接升級，同樣的定價（$5 / $25 per million tokens），但各方面都有提升。

指標	Opus 4.6	Opus 4.7
SWE-bench Verified	80.8%	87.6% (+6.8pp)
Vision 解析度	標準	3.3x 更高解析度
推理精準度	—	加入 self-verification

NOTE — SWE-bench 是什麼

SWE-bench 是拿真實 GitHub issue 來考 AI 的測試——給模型看 issue 和程式碼，叫它直接把 bug 修好或把功能做出來，最後跑測試看過不過。SWE-bench Verified 是裡面品質比較穩的那批題目。87.6% 就是 Opus 4.7 答對的比例，目前公開模型裡最高，比 GPT-5.4 和 Gemini 3.1 Pro 都高。

xhigh 努力等級

Opus 4.7 新增了 xhigh 這個努力等級，插在原本的 high 和 max 之間：

low → medium → high → xhigh → max

等級越高，Claude 投入的思考 token 越多，回應品質越好，但消耗也越大。xhigh 填補了「high 不夠但 max 太燒」的空缺——根據 Anthropic 的數據，xhigh 在 100k tokens 預算下的 SWE-bench 得分是 71%，已經超過 Opus 4.6 在 200k tokens 下的 max 表現。

Claude Code 現在把 Opus 4.7 的預設努力等級設為 xhigh。想手動切換用 /effort <等級> 即可，不帶參數的話會開啟互動式滑桿選擇。

/ultrareview：更深的程式碼審查

這是這次更新裡我最想試的功能。/ultrareview 讓 Claude 針對目前的程式碼做一輪深度審查，找出「一個細心的人類 reviewer 會發現的問題」——邏輯錯誤、邊緣案例、潛在的安全漏洞、或不一致的命名。

/ultrareview

Claude 會根據目前的工作上下文（CLAUDE.md、最近改過的檔案）跑完整審查，回傳詳細的問題清單。Anthropic 說會給 Pro 和 Max 方案三次免費試用。

/ultrareview vs /review vs /simplify

這三個指令在 code review 領域的定位各不相同：

指令	定位	努力等級	主要用途
`/review`	快速審查	一般	看一輪有無明顯問題
`/ultrareview`	深度審查	Opus 4.7 xhigh	上線前的嚴格把關
`/simplify`	品質重構	一般	找出可以精簡或重用的地方

/review 適合日常開發中快速確認，速度快、token 少。/ultrareview 是要合 PR 進主線、或是某段邏輯你真的不確定的時候才動用，它比 /review 深很多，但等待時間和 token 消耗也明顯更高。/simplify 不是在找 bug，而是在問「這段程式碼能不能寫得更簡單」，跑完通常會直接幫你改。

用下來的感覺是：/simplify 日常都可以跑，/review 在 commit 前跑，/ultrareview 留給真正重要的節點。

整體感受

說實話，在 4.7 出來之前，4.6 這段時間用起來有點讓人洩氣。明明是以前能跑過的簡單任務，常常莫名跑到一半就中斷，或給出一些明顯偷懶的回應，整體感覺比幾個月前退步不少。這種「降智」的狀況在社群裡也有不少人反映，但 Anthropic 一直沒有正式承認。

4.7 出來之後這個問題改善滿多的。複雜的多步驟重構任務更少走錯路，也更少需要中途修正，整體穩定性比 4.6 後期好很多。SWE-bench 數字是一回事，光是「不會隨便中斷」這點就已經值回票價了。

xhigh 作為預設是個好決定——它把 max 留給真正需要的時候，對控制 token 消耗很有幫助。/ultrareview 還在很早期，但回傳的問題清單品質確實比 /review 細很多，值不值得等就看任務的重要性了。

資料來源：

Opus 4.7 是什麼等級的更新

xhigh 努力等級

/ultrareview：更深的程式碼審查

/ultrareview vs /review vs /simplify

整體感受

留言