AppleはiPhone用の独自AIアシスタントを開発しており、ユーザーの代わりにアプリを起動できる。
Appleは、ユーザーインターフェースを操作するためのコンパクトなローカルAIエージェントを開発しています
Appleは、新しいアルゴリズム「Ferret‑UI Lite」に取り組んでおり、これはアプリケーションのインターフェースを「理解」し、ユーザーに代わってそれらと対話できるものですが、すべてがデバイス上で行われます。モデルは30億パラメータを持ち、テストでは24倍大きい大型モデルと同等またはそれ以上の結果を示しています。
プロジェクトの起源
2023年12月に9人の研究者チームが「FERRET: Refer and Ground Anything Anywhere at Any Granularity」という論文を発表しました。この中で、さまざまなデータタイプで学習し、テキスト説明と画像の特定部分を結びつけることができるマルチモーダル言語モデルが紹介されました。
それ以来、AppleはFerretシリーズを拡張しています:
| モデル | 用途 |
|---|---|
| Ferretv2 | 改良されたベースモデル |
| Ferret‑UI | モバイルインターフェース向けの専用MLLM |
| Ferret‑UI 2 | 複数プラットフォームと高解像度をサポート |
Ferret‑UIは、現代のマルチモーダル大型言語モデル(MLLM)が抱える問題の一つ、「UI要素の認識が不十分」である点に対処します。モデルはFerret上に「任意解像度」を追加し、画像の詳細化を高め、改良された視覚特徴を利用しています。
新たな成果
最近、Appleはさらに2つのバージョンを発表しました:
1. Ferret‑UI Lite – 30億パラメータの軽量モデルで、モバイルデバイス上でローカルに実行できるよう最適化されています。
2. Ferret‑UI 2 – 複数プラットフォームと高解像度スクリーンショットをサポートする拡張版。
Ferret‑UI Liteの大きな特徴は、サーバー上で動作する大型モデルに比べて計算リソースが格段に少なくても競争力を保つ点です。
重要性
現在存在するほとんどのGUIエージェントは、強力な推論・計画能力を持つ巨大基盤モデルに依存しています。これらはグラフィカルインターフェースをナビゲートする際に優れた成果を上げますが、そのサイズゆえにデバイス上で直接実行するには不適切です。
Ferret‑UI Liteは、以下の要素を組み合わせてこの課題を解決します:
- 小規模LLMから学んだ複数の主要コンポーネントとアイデア
- GUI領域から収集した実際および合成データ
- インターフェースセグメンテーション品質を最適化する動的フレーミング技術
- 制御された微調整と強化学習
結果として、低レベルのUI要素との結びつき、画面上で起こっていることの理解、多段階計画、および自己分析において、大型競合GUIエージェントに匹敵またはそれを凌駕するモデルが完成しました
コメント (0)
感想を共有してください。礼儀正しく、話題に沿ってお願いします。
コメントするにはログイン