Anthropic Claudeの16名のAIエージェントからなるコンプレックスは、自己完結型にC言語コンパイラを作成しました
Anthropicは実験の一環として、16人の自律型AIエージェントを集め、ゼロからRustで書かれたC言語コンパイラを共同開発しました。結果は「クリーン」な実装で、Linux 6.19カーネルのビルドやPostgreSQL、SQLite、Redis、FFmpeg、QEMUなどのプロジェクトをコンパイルできますが、品質と効率ではGCCに大きく劣ります。
どのように行われたか
- 準備
Claude Opus 4.6の16個のインスタンスを、インターネットアクセスなしでDockerコンテナ内で起動。各エージェントは共通リポジトリをクローンし、ロックファイル経由でタスクを受け取ります。
- 自律的計画
中央コーディネーターがないため、各エージェントは次に「明らか」に見える作業を自分で決定。衝突時にはコードが自動結合されます。
- 開発
エージェントはCコンパイラをゼロから書く任務を受け、2週間で約2000セッションのClaude Codeを使用しました。
- テスト
モデルのコンテキストを長いリクエストで汚さないように、サマリーモード(数行だけ出力)でテストが実行されます。高速化のため、1–10 %のテストのみを迅速に処理するモードも追加。
最終製品
- 規模:約100,000行のRustコード
- 機能:x86、ARM、RISC‑VでLinux 6.19カーネルをビルド可能。PostgreSQL、SQLite、Redis、FFmpeg、QEMUをコンパイルし、GCCテストの約99 %に合格
- 制限:16ビットマシンコードは生成できず(Linux起動にはGCCが必要)、アセンブラとリンカでエラーが発生。コード性能はGCCより低く、Rustソースの品質も経験豊富なプログラマーに比べ劣る
実験費用
- 指標:Claude APIトークン約20,000ドル
- 追加コスト(モデル学習、プロジェクト管理、テストセット)は上記金額に含まれていない
教訓と結論
1. 自律性の限界:コード量が約100,000行になると、エージェントはプロジェクト全体を完全には把握できなくなる。これは自律型AIの上限と思われる
2. サポートの必要性:機能拡張を試みると既存コードが壊れることが多い
3. 開発環境の重要性:インターネットから隔離し、テスト設定を正しく行うことがエージェントの安定動作に不可欠
結論
この実験は、現代のAIモデルが最小限の監督で複雑なソフトウェアシステムを生成できることを示しています。しかし、コード品質、性能、信頼性は従来のコンパイラより低く、経験豊富な開発者を完全に置き換えるには至っていません。プロジェクト規模は数十万行までしか拡大できず、ソフトウェア開発の完全自律化にはまだ遠い道のりです
コメント (0)
感想を共有してください。礼儀正しく、話題に沿ってお願いします。
コメントするにはログイン