LLM は文章生成だけなら単体で動きますが、コード修正、テスト、ログ確認、PR 対応まで進めるには、環境を観測し安全に操作する Agent Harness が必要です。本稿では、モデルと実務の間に置くハーネスを、決定表、五手順、購入前の検証観点で整理します。
モデル単体で止まる三つの理由
1
状態が見えません。 ファイル差分、依存関係、失敗したテストの前後関係を継続的に保持できないと、提案は正しくても作業は完了しません。
2
権限が粗くなります。 読み取り、編集、シェル実行、外部通信を同じ扱いにすると、秘密情報や本番データを守れません。
3
検証が戻りません。 lint、unit test、xcodebuild の結果がモデルへ戻らない場合、修正は「それらしい回答」で終わります。
決定表:どこまで実務を任せられるか
| 方式 | できること | 弱点 | 適した場面 |
|---|---|---|---|
| モデル単体 | 説明、設計案、コード断片 | 実行と検証なし | 初期相談 |
| ローカル Harness | 編集、テスト、ログ回収 | 端末負荷と権限管理 | 個人開発 |
| MacPull リモート Mac | macOS、Xcode、SSH/VNC、CI 検証 | ノード選定が必要 | チームの実務自動化 |
Agent Harness を載せる五手順
- 1. 作業ディレクトリを分け、リポジトリ、生成物、秘密情報を混ぜないようにします。
- 2. 読み取り、編集、シェル、ネットワークを段階権限にし、危険操作は確認制にします。
- 3. 成功条件を
test → lint → buildの順に固定し、結果を必ずモデルへ返します。 - 4. 失敗ログ、差分、再試行理由を保存し、同じ失敗を二度踏まない履歴を作ります。
- 5. MacPull の Apple Silicon ノードへ SSH/VNC で接続し、Xcode や CI 負荷を実測してから月額へ進みます。
可引用パラメータ
2026 年の運用目安
- Harness の最小ループは 観測、編集、検証、要約 の四工程です。
- CI 連携では短い失敗なら 2 秒、4 秒、8 秒 の退避で再試行し、長時間失敗は人へ戻します。
- iOS や macOS を含む実務検証は 24GB メモリ以上、512GB SSD の Mac mini M4 帯から始めると安定します。
まとめ:Harness はモデルを「作業者」に変える土台です
Agent Harness 検証用の Mac mini M4 ノードを用意する
macOS、Xcode、SSH/VNC、CI 検証を一つの Apple Silicon 環境で固定。モデルを実務へ接続する前に、MacPull で安全に試せます。