米Microsoftはは6月12日(現地時間)、Windows向け「Copilot Vision」機能の正式提供を開始した。対応環境はWindows 10およびWindows 11であり、米国から提供を開始し、欧州以外の国々へ順次拡大される予定である。
Copilot Visionは、従来のテキスト入力や音声入力に加えて、ユーザーが指定したアプリケーションやウィンドウの画面をAIが視覚的に認識し、リアルタイムで内容を分析して助言や操作支援を行う機能である。たとえば、「このグラフについて説明して」と質問したり、写真編集ソフト上で「この写真の照明を改善するにはどうすればいい?」とアドバイスを求めることが可能となる。
最大2つのアプリケーション画面を同時に共有でき、アプリ間をまたいだ文脈を理解したうえで、より高度なサポートを提供できる。たとえば、旅行のパッキングリストを管理するアプリと、ネットで見つけた推奨持ち物リストの画面を同時に共有し、「私のリストに不足しているものはある?」と質問すれば、両方のリストを比較検討してもらえる。
また、「Highlights(ハイライト)」というステップバイステップのガイド機能を備える。ユーザーが「(特定のタスクの)やり方を見せて (show me how)」と指示すると、アプリケーション上の操作すべき箇所を視覚的に強調表示し、具体的な手順を示してくれる。これにより、テキストによる説明だけでは分かりにくい操作も、視覚的なナビゲーションによってスムーズに実行できる。
Copilot Visionの利用には、Windows用Copilotアプリを起動し、コンポーザー内のメガネ・アイコンをクリックする。次に共有したいアプリやブラウザウィンドウを選択することで、Copilot Visionのセッションが開始される。
この機能はオプトイン形式であり、ユーザーが明示的にセッションを開始しない限り作動しない。また、ユーザーがセッションを終了するか、共有したウィンドウを閉じることで、Copilotの視覚的アクセスも終了する。
Copilotは共有された画面以外の情報にアクセスせず、DRM(デジタル著作権管理)保護されたコンテンツや有害な情報は解析対象外となる。