AIロボットは人間との長時間の会話で効率が低下することが、Microsoftの大規模研究で確認されました。
Microsoft Research と Salesforce の調査:大規模 AI モデルが対話で方向性を失う理由
【研究対象】
200 000+ ステップの会話を LLM 主要モデル(GPT‑4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、OpenAI o3、DeepSeek R1、Llama 4)で検証
【主な結論】
| 指標 | 結果 |
|---|---|
| 単一クエリの精度 | 90 % 正答(GPT‑4.1、Gemini 2.5 Pro) |
| 長い対話の精度 | 約65 % ― 効率が約3分の1低下 |
| モデル挙動 | 最初の誤った回答を「再利用」し続ける傾向 |
| 回答長 | ステップごとに20–300 % 増加、幻覚・推測増大 |
| 信頼性 | 112 % に低下(モデルがクエリ完了前に早期回答を生成) |
【原因】
1. 誤った基盤の再利用 – 最初の結論に固執し、後続回答もそれに依存。
2. コンテキスト膨張 – 新しい質問ごとに追加情報が増え、モデルは「作り出した」事実を真実とみなす。
3. 思考トークンの問題 – o3 や DeepSeek R1 などの追加トークンでも、早期回答生成という罠を突破できず。
【ユーザーへの影響】
- 実際の対話で低信頼性:テーマが逸れ、架空情報に走る。
- 誤情報リスク増大:検索エンジンから生成系ツールへ移行することで、不正確データ取得の可能性上昇。
- 質の高いプロンプトの重要性:Microsoft は過去にプロンプト設計の低品質を指摘し、失敗した質問や「悪い」ヒントが AI の潜在能力を発揮できない原因になると述べている。
【結論】
大型言語モデルはまだ開発段階。単一クエリで高精度を示すものの、多ステップ対話では信頼性が課題。安全かつ効果的に利用するためには:
1. 明確で具体的な質問を書く。
2. モデル回答を適宜修正・調整できる準備をする。
3. 生成コンテンツだけに依存せず、事実確認を行う。
最終的に、モデルの改善と長期対話への耐性向上が、AI をユーザーにとって信頼できるパートナーへと変える鍵である。
コメント (0)
感想を共有してください。礼儀正しく、話題に沿ってお願いします。
コメントするにはログイン