AIはスポーツベッティングで低い効果を示し、イングランド・プレミアリーグの試合で全てのお金を失った。

AIはスポーツベッティングで低い効果を示し、イングランド・プレミアリーグの試合で全てのお金を失った。

4 hardware

ケリーベンチ実験の結果について簡潔に

スタートアップ *General Reasoning* は、KellyBench と呼ばれるテストを行い、Google Gemini 3.1 Pro、OpenAI ChatGPT‑4、Anthropic Claude Opus 4.6、xAI Grok 4.20 などの主要な AI システム8つを、2023–2024 英格ランド プレミアリーグシーズン中に賭けを行う能力で評価しました。

各エージェントにはすべてのチームと過去試合の完全な統計情報が提供されましたが、インターネットへのアクセスは禁止されており、事前に得たデータのみを使用できました。

テストの進行

1. 3 回の挑戦:各システムはシーズン中に3回の賭けシリーズを実施できます。
2. 賭け内容:試合結果(勝ち・引き分け・負け)とゴール数。
3. 目的:リスク管理しながら利益を最大化すること。

勝者と敗者

AI システム平均結果備考
Anthropic Claude Opus 4.6-11 %(1 回の試行でほぼ損益分岐)最も「公平」な参加者でしたが、やはり金を失いました
Google Gemini 3.1 Pro+34 %(最初の試行で利益)、その後破産初めは利益、次に損失
xAI Grok 4.20即座に破産、残り2回の試行を完了しなかったすべての中で最も弱い

結果として、各モデルはシーズン中に金銭的損失を被り、一部は完全に「失敗」しました。これは研究者の結論を裏付けています:最先端の AI システムでも、実世界での長期予測には困難があります。

将来の AI に対する意味

- 人間の代替に関する懸念は過大評価されているようです。
- 現在のベンチマークは「静的」条件を多用し、実際の混沌と複雑さを反映していません。
- AI はコード生成などのタスクで成功していますが、多くの他領域では人間に比べて制約があります。

したがって、KellyBench 実験は、AI がまだ動的で予測不可能な課題(スポーツ予測など)で人間と競争できないことを示しています。

コメント (0)

感想を共有してください。礼儀正しく、話題に沿ってお願いします。

まだコメントはありません。コメントを残して、あなたの意見を共有してください!

コメントを残すにはログインしてください。

コメントするにはログイン