Appleは、コンパクトなAIモデルに画像をよりよく説明させることを学習しました。
Appleは画像説明のための新技術「RubiCap」を公開
Appleの研究者たちは、*RubiCap*という手法を開発し、小規模なAIモデルでも大規模な同種よりも正確で詳細な画像説明を生成できるようにしました。
RubiCapの仕組み
1. 画像解析
詳細テキストを作成するため、モデルはまずフレーム内の多くのオブジェクトと領域を認識します。これにより表面的な説明ではなく構図を深く理解できます。
2. 実用価値
このスキルは子AIモデルの訓練、テキストから画像を生成するジェネレーター、そして専門機能(例:視覚コンテンツの向上)に活かせます。
3. リソース課題
詳細説明システムの従来の学習方法は、初期フェーズと強化学習時の両方で大量の計算資源を必要とします。
実験手法
- 画像選択:*PixMoCap* と *DenseFusion‑4V‑100K* のセットからランダムに50,000枚を抽出
- 説明生成:既存のコンピュータビジョンモデル(Google Gemini 2.5 Pro、OpenAI GPT‑5、Alibaba Qwen 2.5‑VL‑72B‑Instruct、Google Gemma‑3‑27B‑IT、Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct)とAppleの学習中モデルを使用
- 品質評価:Gemini 2.5 Pro を専門家として採用し、説明を分析・一致点・誤りを特定し、明確な評価基準を策定
- 審査評価:Qwen 2.5‑7B‑Instruct が各基準に対してスコアを付与し、学習モデルへの報酬信号を生成
結果
- 学習中のモデルは具体的なフィードバックを受け取り、「正解」一つに頼らずに説明精度を迅速に向上させました
- Apple は 2B、3B、7B の 3 つの独自モデル(それぞれ 20億、30億、70億パラメータ)を作成
- 画像説明タスクで RubiCap は競合他社を32億・72億パラメータで上回り、場合によっては 7B モデルよりも 3B モデルが優れた結果を示し、モデルサイズが必ずしも性能を保証するわけではないことを確認
このように、RubiCap 技術は少ないリソースと効率的な学習で高品質な画像説明を実現できる方法を示しています
コメント (0)
感想を共有してください。礼儀正しく、話題に沿ってお願いします。
コメントするにはログイン