Claude Opus 4.7 的 xhigh 努力等級以及 ultrareview 功能

Anthropic 在 4 月 16 日釋出了 Claude Opus 4.7,同一天 Claude Code 也更新了幾個直接影響日常使用的功能。這篇記錄一下我注意到的改變,以及實際用起來差在哪裡。


Opus 4.7 是什麼等級的更新

Opus 4.7 是 Opus 4.6 的直接升級,同樣的定價($5 / $25 per million tokens),但各方面都有提升。

指標Opus 4.6Opus 4.7
SWE-bench Verified80.8%87.6% (+6.8pp)
Vision 解析度標準3.3x 更高解析度
推理精準度加入 self-verification
NOTE — SWE-bench 是什麼

SWE-bench 是拿真實 GitHub issue 來考 AI 的測試——給模型看 issue 和程式碼,叫它直接把 bug 修好或把功能做出來,最後跑測試看過不過。SWE-bench Verified 是裡面品質比較穩的那批題目。87.6% 就是 Opus 4.7 答對的比例,目前公開模型裡最高,比 GPT-5.4 和 Gemini 3.1 Pro 都高。


xhigh 努力等級

Opus 4.7 新增了 xhigh 這個努力等級,插在原本的 highmax 之間:

low → medium → high → xhigh → max

等級越高,Claude 投入的思考 token 越多,回應品質越好,但消耗也越大。xhigh 填補了「high 不夠但 max 太燒」的空缺——根據 Anthropic 的數據,xhigh 在 100k tokens 預算下的 SWE-bench 得分是 71%,已經超過 Opus 4.6 在 200k tokens 下的 max 表現。

Claude Code 現在把 Opus 4.7 的預設努力等級設為 xhigh。想手動切換用 /effort <等級> 即可,不帶參數的話會開啟互動式滑桿選擇。


/ultrareview:更深的程式碼審查

這是這次更新裡我最想試的功能。/ultrareview 讓 Claude 針對目前的程式碼做一輪深度審查,找出「一個細心的人類 reviewer 會發現的問題」——邏輯錯誤、邊緣案例、潛在的安全漏洞、或不一致的命名。

/ultrareview

Claude 會根據目前的工作上下文(CLAUDE.md、最近改過的檔案)跑完整審查,回傳詳細的問題清單。Anthropic 說會給 Pro 和 Max 方案三次免費試用。

/ultrareview vs /review vs /simplify

這三個指令在 code review 領域的定位各不相同:

指令定位努力等級主要用途
/review快速審查一般看一輪有無明顯問題
/ultrareview深度審查Opus 4.7 xhigh上線前的嚴格把關
/simplify品質重構一般找出可以精簡或重用的地方

/review 適合日常開發中快速確認,速度快、token 少。/ultrareview 是要合 PR 進主線、或是某段邏輯你真的不確定的時候才動用,它比 /review 深很多,但等待時間和 token 消耗也明顯更高。/simplify 不是在找 bug,而是在問「這段程式碼能不能寫得更簡單」,跑完通常會直接幫你改。

用下來的感覺是:/simplify 日常都可以跑,/review 在 commit 前跑,/ultrareview 留給真正重要的節點。


整體感受

說實話,在 4.7 出來之前,4.6 這段時間用起來有點讓人洩氣。明明是以前能跑過的簡單任務,常常莫名跑到一半就中斷,或給出一些明顯偷懶的回應,整體感覺比幾個月前退步不少。這種「降智」的狀況在社群裡也有不少人反映,但 Anthropic 一直沒有正式承認。

4.7 出來之後這個問題改善滿多的。複雜的多步驟重構任務更少走錯路,也更少需要中途修正,整體穩定性比 4.6 後期好很多。SWE-bench 數字是一回事,光是「不會隨便中斷」這點就已經值回票價了。

xhigh 作為預設是個好決定——它把 max 留給真正需要的時候,對控制 token 消耗很有幫助。/ultrareview 還在很早期,但回傳的問題清單品質確實比 /review 細很多,值不值得等就看任務的重要性了。


資料來源:

留言