FastVLM
Appleが、CVPR 2025において、テキスト入力に加え、視覚的な理解を可能にする視覚言語モデル(VLM)に関して、シンプルな設計で精度とレイテンシのトレードオフを大幅に改善する新しいタイプのVLM「FastVLM」を発表しています。
高解像度画像向けに設計されたハイブリッドアーキテクチャのビジュアルエンコーダーを活用したFastVLMは、正確で高速かつ効率的なビジュアルクエリ処理を実現し、デバイス上で動作するリアルタイムアプリケーションの開発に適しています。
VLMは、視覚的理解とテキスト理解を組み合わせることで、様々な有用なアプリケーションを実現できます。これらのモデルの精度は一般的に入力画像の解像度に対応するため、精度と効率性の間でパフォーマンスのトレードオフが生じることが多く、高い精度と優れた効率性の両方が求められるアプリケーションではVLMの価値が限られていました。
FastVLMは、高解像度画像向けに構築されたハイブリッドアーキテクチャのビジョンエンコーダであるFastViTHDを活用することで、このトレードオフに対処します。シンプルな設計により、FastVLMは精度と効率の両方において従来のアプローチを凌駕し、リアルタイムのデバイス内アプリケーションに適したデバイス内ビジュアルクエリ処理を実現します。











![[USBで録画や再生可能]Tinguポータブルテレビ テレビ小型 14.1インチ 高齢者向け 病院使用可能 大画面 大音量 簡単操作 車中泊 車載用バッグ付き 良い画質 HDMI端子搭載 録画機能 YouTube視聴可能 モバイルバッテリーに対応 AC電源・車載電源に対応 スタンド/吊り下げ/車載の3種類設置 リモコン付き 遠距離操作可能 タイムシフト機能付き 底部ボタン 軽量 (14.1インチ)](https://m.media-amazon.com/images/I/51-Yonm5vZL._SL500_.jpg)