IEEE主催のサーモ画像超解像化コンペで東京・渋谷のクーガーが世界2位を獲得

近い将来、AIは人間には見えない景色、例えば温度分布を見て周りの状況を把握するようになる——スパイ映画かSFの設定のようなテクノロジーをまた一歩現実に近づける、コンピュータビジョンのコンペティションが開催された。

主催者は、電子工学・情報工学分野で世界最大の学会であり、国際的な技術標準化機関でもあるIEEE(アイトリプルイー)。彼らが開催したコンペ「Thermal Image Super-Resolution Challenge」は、解像度の低いサーモグラフィー画像から、機械学習で高解像度の画像を生成する手法を競うものだ。

6月14日に結果が発表されたこのコンペでは、東京・渋谷に拠点を置くクーガーのAIリサーチャー、Sabari Nathan氏とPriya Kansal氏によるモデルが2位に入賞。コンピュータビジョンの2大カンファレンスのうちの1つ「CVPR」に論文が採択された。

自動運転やロボへの応用も期待されるサーモ画像解析

クーガーは、AI、IoT、AR/VR、ブロックチェーンなどの技術を組み合わせて、人型AI「バーチャルヒューマンエージェント」の開発を進めている企業だ。同社はこの開発の一環として、AIエージェントの視覚を担う画像情報の分析・解析についても研究開発を行っている。

クーガーのAIチームは2019年9月、Facebookが主催するアイトラッキングの認識精度を競うコンペで、2D画像の眼球位置を推定する「Semantic Segmentation Challenge(セマンティックセグメンテーションチャレンジ)」においても世界3位を獲得している。今回のIEEEのコンペでクーガーから提出されたモデルは、Facebookのコンペで使われたコンピュータビジョンのためのアイデアを応用したものだという。

IEEEが今回のコンペを実施した目的は、画期的で新規性のある、精度の高いサーモグラフィー画像解析の機械学習ソリューションを探すためだ。

写真などの画像データが可視光を扱うのに対し、サーモグラフィー画像は熱を扱うため、照明その他の環境条件の影響を受けない。このため医療や軍事、物体検出など幅広い用途で利用が可能だ。例えば空港や学校といった施設で熱がある患者を見分けることでウイルス感染拡大を防ぐ、夜間の運転時に人を検知することで事故を防ぐといった場面では既に活用が進んでいる。

IEEEが2004年から開設する「Perception Beyond the Visible Spectrum(PBVS)」(可視域外の知覚)に関するワークショップでも、こうした可視光以外の画像解析には、さまざまな応用範囲があるとして期待が寄せられてきた。

例えば自律走行中の自動運転車が、可視光のみでは逆光のときに進行方向の状況が判別できない、といった場合に、サーモグラフィー画像が視野を補えば、障害物や標識などを見分けることが可能になる。自動運転モビリティやドローン、ロボットなどへの応用のほか、人工衛星からの画像や、光の届かない水中の画像分析などにも活用できるサーモグラフィー画像解析へのニーズは、今後ますます高まるはずだ。

ここで課題となるのが、センサーで撮影されたサーモグラフィー画像の解像度、質である。一般にサーモグラフィー画像の解像度は、写真などの画像の解像度に比べると低い。このため、機械学習による解析・処理によって画像の質を上げることで、何が写っているかが判別できるようにする必要がある。今回のコンペでは、低解像度のサーモグラフィー画像から、より精度の高い高解像度画像(超解像画像)をつくり出す手法が競われた。

従来、低解像度画像の解像度を上げるために行われる機械学習では、与えられた画像にダウンサンプリングを行い、ノイズやぼかしを加えた質の悪い画像と元の画像とを使って学習を行うアプローチが取られてきた。一方、異なる解像度のカメラから得られた一対の画像を使って学習を行うアプローチはほとんど採用されてきていない。

今回のコンペでは、3つの解像度が異なる赤外線カメラで撮影された実際の低・中・高解像度の画像セットを学習データとして用いる、新しい機械学習の手法が評価された。

コンペの評価は2種類の方法で行われた。1つは3つの異なる解像度で撮影された元画像にノイズを加えてダウンサンプリングし、それぞれのデータから元の解像度と同じ解像度の画像を生成して、元画像と比較するというもの。もう1つは、中解像度カメラで撮影された実画像から超解像画像を生成して、対になる高解像度画像と比較するというものだ。2つめの課題ではクーガーチームが1位に評価されており、トータルで2位を勝ち取る結果となった。

高解像度画像の生成例(左が実画像、右が生成画像)

実用に耐えるサーモ画像認識ソリューション目指す

クーガーチームが用いた手法では、3レイヤーでのアップサンプリングと、畳み込みブロックアテンションモジュール(Convolutional Block Attention Module:CBAM)を組み合わせている。

3層化したのは、1層につき1つの特徴量に対応するため。1レイヤーでは同種画像の分析には強いが、複数の特徴量、今回の場合では解像度の異なる画像の分析を1度にこなすのが難しい。そこで3レイヤーで3種のスケールの高解像化に対応できるようにすることで、アウトプットの精度を担保したという。

通常は調整パラメータが多くなるため、こうした構造のアプローチは取られないそうだ。学習データを豊富に持つ研究室ならデータ量でカバーしようとするところを、少ないデータでも処理できるように工夫した結果がこのアプローチだという。またCBAMで、注目する特徴量として何を有効にするかを決めることで、うまく処理が行えているとのこと。Sabari Nathan氏は「Facebookのコンペティションの経験もあり、やり切れることは分かっていたので」このアプローチを採用したと述べている。

クーガーの手法を使った超解像画像の生成は1秒以下と、高速での処理が可能だ。「動作が軽いので、実際にいろいろな場面で使える」とクーガー代表取締役CEOの石井敦氏は話している。

「今回のコンペでは、軽量であることは評価対象ではなかったが、我々としてはバーチャルヒューマンエージェントで動かすことを前提に実用化を目指しているので、そこにもこだわった。人間の視覚は複雑で、色や距離、雰囲気などを瞬時に見て取る力がある。今回のチャレンジは熱を使うことによって、視覚をより分解した取り組みになる。サーモグラフィー画像は可視光の画像よりデータが小さく、高速で処理できるため、応用範囲は広い」(石井氏)

クルマやドローンなどの小さなスペースに搭載できて、安価なカメラで撮影した画像でも認識性能を向上したいというニーズには、こうしたソリューションが大きく貢献するだろう。

「今後、コンピュータビジョンはますます頼りにされる。世の中の変化によって、学習データは日々変わる中で、精度の高いソリューションを生み出し続けるために、今回のようなコンペが実施された。解像度を上げて、それっぽくきれいに見えるというだけでは意味がない。低解像度のサーモグラフカメラでも、いい結果が出せて、また広い範囲で正しく認識できる。無人の自動運転車やドローンを運行するときなどには必要な、リアルタイムでの画像分析で求められる成果だ」(石井氏)


Amazonベストセラー

返信を残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA