2025-9-12
株式会社 東芝
曖昧な言語指示でも検知条件を指定可能な、インフラ・プラント設備の点検向け画像異常検知AIを開発
-言語指示をAIが最適化し正常画像と組み合わせることで、過検知を従来比 約半分に抑制-
概要
当社は、鉄道・道路・工場・電力設備・プラントなど、老朽化が進むインフラ・プラント設備の点検業務において、従来の画像検知手法に加え、現場で使われる曖昧な言語指示でも検知条件を指定可能にすることで、異常や異常につながる多種多様な変状箇所を高精度に検知可能なAIを新たに開発しました。本技術は、危険箇所やアクセスが困難なへき地での点検作業において、ドローンやAIによる自動化を促進し、省力化と点検精度の向上を実現するとともに、社会インフラの長期安定稼働と保守点検のDX推進に貢献します。
インフラ・プラントの設備点検へのAI導入は、危険な場所やへき地での現場の画像の取得が困難なことが、AI活用の障壁となっていました。従来、画像中の変状をAIで検知するには大量の現場画像の収集が不可欠でしたが、当社はこれまで、数枚の画像(正常画像)のみで、点検画像との比較で変状箇所を見つける画像検知手法「差分検知型画像異変検知技術(*1)」を開発してきました。この技術は、点検画像の撮影位置や角度が正常画像とずれていても高精度に変状箇所の検知が可能で、正常であるにも関わらず特徴的なパターンを異常として検知してしまう「過検知」も抑制することができます。しかし、背景や周囲の構造物が複雑な画像では過検知の抑制に限界があり、大量の正常画像の準備が再び課題となっていました。
今回新たに開発した技術では、「画像と言語を組み合わせたAIモデル(Vision-Language Model:VLM)」を適用し、言語による曖昧な指示でもAIが最適化し、柔軟に検知条件を指定できるように対応しました。さらに、「差分検知型画像異変検知技術」を用いて正常画像と組み合わせることで、大量の正常画像の入手が困難な状況においても、過検知を抑え、高精度な変状検知を可能としました。当社は、公開データセットを用いて本技術の有効性を確認したところ、従来手法(*2)と比べて、過検知を約半分に抑制することに成功し(*3)、トップレベルの性能であることを確認しました。
当社は本技術の詳細を、2025年9月15日から19日に開催されるコンピュータビジョンの国際会議「ICIAP2025(23th International Conference on Image Analysis and Processing)」で発表予定です。
開発の背景
社会インフラの長期的な安定稼働を実現するために、インフラ・プラント設備保全の重要性がますます高まっています。特に国内では、高度経済成長期に整備された道路・橋・トンネルなどの老朽化が急速に進んでおり、保全を担う点検員の高齢化や人手不足、さらには、危険な場所やへき地においての作業負担といった課題が深刻化しています。こうしたことから、ドローンやロボット、固定したカメラなどを用いて撮影した点検画像をAIで解析し、変状箇所を自動検知することで、安全で効率的な点検作業の実現と異常箇所の早期発見が期待されています。
インフラ・プラントで発生するさまざまな不特定多数の変状をAIで検知するには、(1)多種多様な変状の種類ごとに大量の学習データを用意し学習させる手法、(2)正常時の画像と点検画像を正確に位置合わせした上で画素の差分を比較する手法、(3)生成AIを用いて画像と見つけたい変状を言語として指示することで検知する手法があります(図1)。
当社はこれまで、(2)の手法をベースとした差分検知型画像異変検知技術を開発してきました。本手法では、大量の画像で事前に学習された既存の深層モデルの特徴量を活用し、点検画像と正常画像の深層特徴量の差分を算出することで、変状箇所を特定します。この手法は、学習済みの深層モデルを利用するため、現場ごとに画像を収集して再学習する必要がなく、各点検現場に即座に適用可能であり、高精度に変状箇所の検知が可能です。また当社が開発した手法は点検画像の撮影位置や角度が正常画像とずれていても過検知を抑制できますが、背景や周囲の構造物が複雑な画像では過検知の抑制に限界がありました(図2)。(3)はこうした過検知の抑制にも有効ですが、曖昧な指示は、結果として検知精度の低下につながっていました。
[画像1]https://digitalpr.jp/simg/1398/117960/550_273_2025091217404168c3dc892fb29.png
図1: 画像による変状箇所検知の例
本技術の特長
そこで当社は、(2)の画像検知と(3)の言語指示による検知の手法を組み合わせ、その有効性を最大化するため、近年注目されているVLMに着目しました。VLMを用いることで、ユーザーが指定した言語から意味的に最適な画像を見つけ出すことができます。ユーザーが初期入力した言語が曖昧な場合、検知精度が不安定になるという課題がありますが、曖昧な表現をより適切なものにAIが自動的に修正する仕組みを導入することで、柔軟で高精度な変状検知を実現しました。
例えば、道路上の「障害物」を検知対象とする場合、「障壁物」や「妨げ物」といった言い換え表現が存在します。
さらに、差分検知型画像異変検知技術の正常画像同士の深層特徴量の差分を算出することで、見え方の違いによって異常と誤検知されやすいパターンを抽出し、異常度を調整することで過検知をさらに抑制することができました(図3)。
提案手法は、公開データセットで、VLMを用いた従来手法と比較して過検知率を約半減させることに成功しました(図4)。
[画像2]https://digitalpr.jp/simg/1398/117960/550_298_2025091217404468c3dc8c032e3.png
図2: 従来技術(差分検知型画像異変検知技術)の課題(イメージ)
[画像3]https://digitalpr.jp/simg/1398/117960/550_312_2025091217404668c3dc8e41ac9.png
図3: 提案手法のポイント
[画像4]https://digitalpr.jp/simg/1398/117960/550_223_2025091217404768c3dc8fc53ae.jpg
図4: 公開データセットによる従来技術との精度比較
今般提案した手法は鉄道・道路・工場・電力・プラントなど、さまざまなインフラ・プラント設備に適用可能です。例えば、ドローンで撮影し、太陽光パネルや橋梁の裏面にできたハチの巣や、異物・ケーブル断線など、撮影が困難な箇所の異常の検知や、走行車両に設置したカメラ画像から、設備のひびやさびといった変状・送電線の断線・部品の脱落などを検知することも可能です。さらには、インフラ・プラント設備の水・油漏れ・ひび割れといった、発生頻度の少ない異常の検知も可能です(図5)。
[画像5]https://digitalpr.jp/simg/1398/117960/550_295_2025091217405068c3dc92e5366.png
図5: 提案手法の想定適用先
今後の展望
当社は今後、当社の鉄道システム事業部門やエネルギーアグリゲーション事業部門などと連携し、本技術の点検業務への適用を目指します。実用化に向けて、システム開発および検知精度のさらなる向上を目指し研究開発に取り組み、ICTソリューション事業部門などとも連携し新たなサービスの創出も進めてまいります。
※1 https://www.global.toshiba/jp/technology/corporate/rdc/rd/topics/22/2205-01.html
※2 AprilGAN、Chen, X., Han, Y., Zhang, J.: A zero-/few-shot anomaly classification and segmentation method for cvpr 2023 vand workshop challenge tracks 1&2: 1st place on zero-shot ad and 4th place on few-shot ad. arXiv preprint arXiv:2305.17382 (2023)
※3 Unsupervised Anomaly Localization In the Wild via Token Optimization and Test-Time Score Correction、Naoki Kawamura、Gaku Minamoto、Tomohiro Nakai、Satoshi Ito、Osamu Yamaguchi、Takahiro Takimoto、23th International Conference on Image Analysis and Processing 2025