米Microsoftはは6月12日(現地時間)、Windows向け「Copilot Vision」機能の正式提供を開始した。対応環境はWindows 10およびWindows 11であり、米国から提供を開始し、欧州以外の国々へ順次拡大される予定である。


Copilot Visionは、従来のテキスト入力や音声入力に加えて、ユーザーが指定したアプリケーションやウィンドウの画面をAIが視覚的に認識し、リアルタイムで内容を分析して助言や操作支援を行う機能である。たとえば、「このグラフについて説明して」と質問したり、写真編集ソフト上で「この写真の照明を改善するにはどうすればいい?」とアドバイスを求めることが可能となる。

最大2つのアプリケーション画面を同時に共有でき、アプリ間をまたいだ文脈を理解したうえで、より高度なサポートを提供できる。たとえば、旅行のパッキングリストを管理するアプリと、ネットで見つけた推奨持ち物リストの画面を同時に共有し、「私のリストに不足しているものはある?」と質問すれば、両方のリストを比較検討してもらえる。

また、「Highlights(ハイライト)」というステップバイステップのガイド機能を備える。ユーザーが「(特定のタスクの)やり方を見せて (show me how)」と指示すると、アプリケーション上の操作すべき箇所を視覚的に強調表示し、具体的な手順を示してくれる。これにより、テキストによる説明だけでは分かりにくい操作も、視覚的なナビゲーションによってスムーズに実行できる。

Copilot Visionの利用には、Windows用Copilotアプリを起動し、コンポーザー内のメガネ・アイコンをクリックする。次に共有したいアプリやブラウザウィンドウを選択することで、Copilot Visionのセッションが開始される。

この機能はオプトイン形式であり、ユーザーが明示的にセッションを開始しない限り作動しない。また、ユーザーがセッションを終了するか、共有したウィンドウを閉じることで、Copilotの視覚的アクセスも終了する。

Copilotは共有された画面以外の情報にアクセスせず、DRM(デジタル著作権管理)保護されたコンテンツや有害な情報は解析対象外となる。
セッション中に取得された画像、音声、画面内容などは、セッション終了と同時に削除され、ログとして保存されることはない。ただし、対話内容のテキスト履歴については保存され、ユーザーが任意に削除可能である。
編集部おすすめ