AIロボットは人間との長時間の会話で効率が低下することが、Microsoftの大規模研究で確認されました。

24.02.2026 5 hardware

Microsoft Research と Salesforce の調査：大規模 AI モデルが対話で方向性を失う理由

【研究対象】
200 000+ ステップの会話を LLM 主要モデル（GPT‑4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、OpenAI o3、DeepSeek R1、Llama 4）で検証

【主な結論】
| 指標 | 結果 |
|---|---|
| 単一クエリの精度 | 90 % 正答（GPT‑4.1、Gemini 2.5 Pro） |
| 長い対話の精度 | 約65 % ― 効率が約3分の1低下 |
| モデル挙動 | 最初の誤った回答を「再利用」し続ける傾向 |
| 回答長 | ステップごとに20–300 % 増加、幻覚・推測増大 |
| 信頼性 | 112 % に低下（モデルがクエリ完了前に早期回答を生成） |

【原因】
1. 誤った基盤の再利用 – 最初の結論に固執し、後続回答もそれに依存。
2. コンテキスト膨張 – 新しい質問ごとに追加情報が増え、モデルは「作り出した」事実を真実とみなす。
3. 思考トークンの問題 – o3 や DeepSeek R1 などの追加トークンでも、早期回答生成という罠を突破できず。

【ユーザーへの影響】
- 実際の対話で低信頼性：テーマが逸れ、架空情報に走る。
- 誤情報リスク増大：検索エンジンから生成系ツールへ移行することで、不正確データ取得の可能性上昇。
- 質の高いプロンプトの重要性：Microsoft は過去にプロンプト設計の低品質を指摘し、失敗した質問や「悪い」ヒントが AI の潜在能力を発揮できない原因になると述べている。

【結論】
大型言語モデルはまだ開発段階。単一クエリで高精度を示すものの、多ステップ対話では信頼性が課題。安全かつ効果的に利用するためには：

1. 明確で具体的な質問を書く。
2. モデル回答を適宜修正・調整できる準備をする。
3. 生成コンテンツだけに依存せず、事実確認を行う。

最終的に、モデルの改善と長期対話への耐性向上が、AI をユーザーにとって信頼できるパートナーへと変える鍵である。

AIロボットは人間との長時間の会話で効率が低下することが、Microsoftの大規模研究で確認されました。

Related news

新作：「ダーウィンのパラドックス！」— キャラクターと触手が特徴のプラットフォーマー、レビュー

AMDは過去最高の時価総額である4540億ドルを達成し、インテルをほぼ3分の1上回った。

DeepSeekの価値を100億ドルまで引き上げる可能性がある、3億ドル投資交渉。

第一四半期の世界的なPC供給は3.2％増加したが、メモリ価格の上昇は消費者を恐れさせている。

コメント (0)

コメントするにはログイン