金曜日, 8月 1, 2025
金曜日, 8月 1, 2025
- Advertisment -
ホームニューステックニュースClaude Code (Actions) 精度低下仮説と検証方法まとめ【2025‑07-31 最新版】

Claude Code (Actions) 精度低下仮説と検証方法まとめ【2025‑07-31 最新版】



はじめに

この記事は 2025‑05 に公開した「Claude Code の精度低下仮説と検証方法」を、2025‑07‑31 の時点で得られている最新の公式リリース情報・コミュニティ報告・検証ノウハウで全面更新したものです。特に v1.0.63 で新たに発見された重大な問題群(CLI フリーズ、Sub-Agent 仕様無視、並列実行ハング)と、8 月 28 日から適用される新しい週次レートリミット への対応策を中心に加筆しました。


🆕 2025‑07 時点で押さえておくべき大きな変化

項目 5 月時点 7 月時点(最新)
最新バージョン v1.0.24〜1.0.61 v1.0.63(npm 公開は 7 月 30 日)
Plan Mode デフォルト寄りで賛否両論 安定化+Sub‑Agent と組合せ可(Plan→Auto 切替が高速)
Interleaved Thinking β機能(手動ヘッダが必要) CLI ではデフォルト ON、環境変数 DISABLE_INTERLEAVED_THINKING=1 で無効化可
Sub‑Agents 未実装 /agents コマンドで複数エージェントを作成可能。ただし v1.0.62 でバグ多発、v1.0.63 で暫定修正。
MCP 通信 SSE/HTTP β 6 月 18 日から正式サポート/mcp --http など)。
レートリミット 5 時間ローリングのみ 8 月 28 日から週次クォータ導入(Pro/Max の数%が対象)。

報告されている主な症状(7 月版)

  1. Sub‑Agent 関連の新規問題

    • /agents で生成したエージェント設定が v1.0.62 で失われる/実行されない。
    • 代替 slash‑command から Sub‑Agent への移行でトークン爆発。
  2. Interleaved Thinking 起因の挙動変化

    • Tool Call 直後に ブロックが連続し token 消費が 20〜40 % 増
    • Vertex AI 経由では βヘッダ衝突で 400 エラー(回避策: 環境変数で無効化)。
  3. Plan Mode は改善傾向

    • v1.0.60 以降、プラン→実装→レビューの 3 段階が高速化し、プラン文書だけ返す症状はほぼ解消
  4. レートリミット強化の影響

    • ロングラン自動化フローが 5 時間+週次上限で停止。CI/CD で夜通し走らせている利用者が要調整。

🚨 v1.0.63 で新たに発見された重大な問題(7月31日追加)

  1. CLI フリーズ問題

    • v1.0.63 にアップすると、ターミナルで Paste 操作直後にセッションが固まる。v1.0.62 までは再現せず。
    • Windows/macOS 双方から報告が相次ぐ。特に大きなコードブロックの貼り付け時に頻発。
  2. Sub-Agent が仕様無視

    • ツール許可や spec(tools セクション)を完全に無視し始める現象が多発。
    • /agents run でも勝手に外部コマンドを叩くケースあり、セキュリティリスクも懸念。
  3. 並列インスタンス起動バグ

    • claude -p を並列実行すると片方がハングする問題が X(Twitter)で報告。
    • v1.0.63 固有で、背景ではポート競合が疑われる。
  4. v1.0.63 品質劣化の声

    • 「システムプロンプト処理の変更で”賢さ”が落ちた」 というポストが中国圏/英語圏で急増。
    • Auto-Update を止めて 1.0.55 or 1.0.59 に戻すユーザーが継続増加

精度低下の原因仮説アップデート

🆕 仮説⑤:Interleaved Thinking と Sub‑Agent 呼び出しオーバーヘッド

内容

  • v1.0.60 からデフォルト有効になった interleaved thinking が、Sub‑Agent 間で頻繁に ブロックを生成。
  • 並列思考そのものは質を高めるが、トークン上限とレートリミットを早期に消費し、「レスポンスが途中で切れる」 印象を悪化させている。

🆕 仮説⑥:急ピッチのリリースによる回帰バグ

  • 7 月だけで 1.0.54 → 1.0.63 まで 10 以上のマイナーバージョンが公開。npm の auto‑update を有効にしたまま CI で動かすと毎日挙動が変わる
  • 特に 1.0.62 は Sub‑Agent 周りで重大な回帰。コミュニティでは 「自動更新を切って 1.0.59 にピン止め」 が定番ワークアラウンドに。

(旧仮説①〜④は本文末尾に検証結果を追記)


検証方法の設計(更新版)

1. バージョン固定ベンチマーク(差分追跡を自動化)


for ver in 1.0.59 1.0.63; do
  npm i -g @anthropic-ai/claude-code@$ver
  claude eval human-eval.json \
    --no-plan-mode \
    --disable-interleaved-thinking \
    --report "report-${ver}.json"
done
  • --disable-interleaved-thinking で β機能を統一オフにし、モデル品質のみ比較。
  • 生成トークン数・実行時間・pass@k を CSV で吐き出し GitHub Actions に添付。

2. Sub‑Agent 回帰テスト


matrix:
  cc_version: ['v1.0.59', 'v1.0.63']
steps:
  - run: |
      claude /agents list
      claude /agents run refactor README.md
      git diff --stat > agent-${{ matrix.cc_version }}.txt
  • /agents run が完走するか、出力ファイル差分が期待どおりかを確認。
  • v1.0.62 で fail → v1.0.63 で pass を検証し、回帰解消をモニタリング。

3. レートリミット耐性テスト(擬似負荷)

end=$((SECONDS+18000))  
while [ $SECONDS -lt $end ]; do
  claude 'Summarize CHANGELOG' --silent
done
  • 新週次クォータに備え、5 時間連続利用+API 連打でどの時点で RateLimitError が返るかを記録。

今すぐ使えるワークアラウンド(7 月版)

目的 設定例 補足
🚨 v1.0.63 の重大バグを回避 npm i -g @anthropic-ai/[email protected] 最優先対応。CLI フリーズ・Sub-Agent 仕様無視・並列ハングを避ける。
自動更新を完全無効化 export CLAUDE_CODE_AUTO_UPDATE=false package.json に固定バージョンを明記することも推奨。
Interleaved Thinking を無効化 export DISABLE_INTERLEAVED_THINKING=1 トークン消費 2〜4 割削減。
Plan Mode を常時 OFF claude config set mode=auto v1.0.60 以降デフォルトが auto に近づいたが明示推奨。
レートリミット警告を早期検知 claude --debuggrep "RateLimitError" 週次上限到達を CI でフック。

🎯 推奨する緊急対応アクション(7月31日版)

優先度 対策 理由
★★★ npm i -g @anthropic-ai/[email protected] でバージョン固定し、自動更新を CLAUDE_CODE_AUTO_UPDATE=false で無効化 v1.0.63 の重大バグ群を回避
★★★ Paste/Freeze の再現テストを手元で確認し、再現する場合は GitHub Issue #4772 を Subscribe CLI フリーズの影響範囲を把握
★★☆ Sub-Agent を使う場合は allowed_tools を明示し、CLI ログで tool call をトレース 仕様無視による予期しない動作を防ぐ
★☆☆ CI で週次上限に触れるかトークン集計 → アラート閾値を設定 8月28日のレートリミット施行に備える

旧仮説①〜④の検証結果

仮説 5 月時点の想定 7 月時点の状況
① モデル RL トレードオフ 精度低下原因か 部分的に当たり。Sonnet 4 以降は安全性寄りチューニング継続、コード生成は Sub‑Agent+Interleaved で補完する設計へ移行。
② Plan Mode デフォルト化 コードがプランだけになる 収束。Plan Mode は UX 改善で歓迎派が増加。バグ報告は激減。
③ MCP マルチスレッドバグ 文脈喪失・JSON 破壊 6 月 18 日パッチでほぼ解消。SSE/HTTP 切替が鍵。
④ レートリミット強化 打ち切り疑惑 正式発表で確定。8 月 28 日適用。上限仕様が公開されたため再現性あり。

まとめ

  • ⚠️ v1.0.63 は重大なバグが多発しており、CLI フリーズ・Sub-Agent 仕様無視・並列実行ハングなどが報告されています。現時点では v1.0.59 への緊急ダウングレードを強く推奨します。
  • 一方で Plan Mode と Interleaved Thinking の組み合わせ自体は機能向上が見られており、安定版での恩恵は大きいです。ただしトークン消費増には注意が必要。
  • 8 月 28 日施行の週次レートリミット により、長時間 CI や 24/7 エージェント運用は設計見直し必須です。上限ギリギリのワークロードはトークン最適化か有料追加枠の検討を。
  • 7 月は 10 以上の連続リリース が行われ、特に v1.0.62-1.0.63 では品質回帰が発生。「バージョン固定+自動更新無効化+自動回帰テスト」 の導入が今後の安定運用の鍵となります。

📊 Windowsのコマンド消失問題続報

ユーザーからの追加情報として、Reddit で報告されていた v1.0.62 の “コマンドが検出されない” 問題は v1.0.63 で一応 fix されたとの続報がありました。ただし v1.0.63 には上記の別バグ群があるため、様子見が推奨されています。



Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -