GoogleはGemini 3 Deep Thinkを開始しました。これは科学的課題向けの高度なAIサービスで、リクエストに合わせて回答を「調整」し続けます

GoogleはGemini 3 Deep Thinkを開始しました。これは科学的課題向けの高度なAIサービスで、リクエストに合わせて回答を「調整」し続けます

7 software

GoogleはGemini 3 Deep Thinkの更新版を発表

Google社は、推論と高度な科学技術課題解決が可能な人工知能「Gemini 3 Deep Think」の大規模アップデートを発表しました。

変更点
パラメータ 新機能 見た目 目的
理論から実践へ移行 複雑な問題を制約なしに、欠損情報で解決する Geminiアプリ内統合 Google AI Ultra購読者が利用可能、API経由では申請必須(エンジニア・企業向け)
開発パートナー 研究者共同で難問を解決

性能指標
テスト 結果 コメント
Humanity’s Last Exam 48.4 % 外部ツールなし
ARC‑AGI‑284.6 % AIアシスタントベンチマーク
Codeforces(Elo)3455 ソフトウェア解法の高評価
IMO 2025 金メダル 国際オリンピック参加レベルに相当
化学/物理 同じ結果 多分野での汎用性を示す
CMT‑Benchmark(理論物理)50.5 % 複雑概念の優れた理解

AIエージェント「Aletheia」
DeepMind Google研究室でGemini 3 Deep ThinkベースにAletheiaが作られました。主な特徴:

1. 仮説検証 – 提案された解法の弱点を発見し、反復的に修正する。
2. 不確実性認識 – 答えがわからないと伝えることができる。
3. 外部情報との連携 – Google検索とウェブナビゲーションを利用するが、架空のリンクは作らない。

達成レベル
GoogleはAletheiaの成功を5段階に分けました:

ステップ 説明 例
0 – 「わずかな新規性」完全自律モードでエルドシ問題3件解決(第1レベル)
1 – 「最小限の新規性」追加結果1件自律モードで取得
2 – 「公開に適した」人間との協働と補助ツールを含む成果
3–4 – 「顕著/画期的突破」未達成

Aletheiaがエルドシ問題に対処する様子
* 700件の未解決問題から13件を解決。
* そのうち実際に新しいものは4件のみ。残りは既知の問題。
* 提出された212件のうち6.5 %が内容的に正しく、68.5 %が根本的な誤り、31.5 %が課題を誤解している。

開発者はAIが「質問を簡単に答えるように再解釈」しやすく、人間よりもエラーが多いと指摘。結局のところ、数学者を人工知能で完全に置き換えることはまだできません。

まとめ:Gemini 3 Deep ThinkとそのエージェントAletheiaはさまざまな科学分野で印象的な成果を示していますが、解決精度と信頼性には依然として大きな制約があります。GoogleはAIの深い推論能力と自己検証機能の向上に取り組み続けています

コメント (0)

感想を共有してください。礼儀正しく、話題に沿ってお願いします。

まだコメントはありません。コメントを残して、あなたの意見を共有してください!

コメントを残すにはログインしてください。

コメントするにはログイン