AIはスポーツベッティングで低い効果を示し、イングランド・プレミアリーグの試合で全てのお金を失った。
4
hardware
ケリーベンチ実験の結果について簡潔に
スタートアップ *General Reasoning* は、KellyBench と呼ばれるテストを行い、Google Gemini 3.1 Pro、OpenAI ChatGPT‑4、Anthropic Claude Opus 4.6、xAI Grok 4.20 などの主要な AI システム8つを、2023–2024 英格ランド プレミアリーグシーズン中に賭けを行う能力で評価しました。
各エージェントにはすべてのチームと過去試合の完全な統計情報が提供されましたが、インターネットへのアクセスは禁止されており、事前に得たデータのみを使用できました。
テストの進行
1. 3 回の挑戦:各システムはシーズン中に3回の賭けシリーズを実施できます。
2. 賭け内容:試合結果(勝ち・引き分け・負け)とゴール数。
3. 目的:リスク管理しながら利益を最大化すること。
勝者と敗者
| AI システム | 平均結果 | 備考 |
|---|---|---|
| Anthropic Claude Opus 4.6 | -11 %(1 回の試行でほぼ損益分岐) | 最も「公平」な参加者でしたが、やはり金を失いました |
| Google Gemini 3.1 Pro | +34 %(最初の試行で利益)、その後破産 | 初めは利益、次に損失 |
| xAI Grok 4.20 | 即座に破産、残り2回の試行を完了しなかった | すべての中で最も弱い |
結果として、各モデルはシーズン中に金銭的損失を被り、一部は完全に「失敗」しました。これは研究者の結論を裏付けています:最先端の AI システムでも、実世界での長期予測には困難があります。
将来の AI に対する意味
- 人間の代替に関する懸念は過大評価されているようです。
- 現在のベンチマークは「静的」条件を多用し、実際の混沌と複雑さを反映していません。
- AI はコード生成などのタスクで成功していますが、多くの他領域では人間に比べて制約があります。
したがって、KellyBench 実験は、AI がまだ動的で予測不可能な課題(スポーツ予測など)で人間と競争できないことを示しています。
コメント (0)
感想を共有してください。礼儀正しく、話題に沿ってお願いします。
コメントするにはログイン