抽象的な概念を扱えるのは人間の特権だ。「頭が固い、草生える」といった表現を、我々は日常的に使っている。AIが世界を抽象化して認識することは簡単なことではないものの、少しずつ人間に追いつきつつあるようだ。
MITの研究チームは、8月に開催の「コンピュータービジョンに関する欧州会議」のなかで、抽象的なイベントを認識できるAIモデルを発表した。研究チームによるモデルの視覚的推論タスクの成績は、人間と同等かそれ以上だったという。
アクションと上位概念をマッピング
研究で利用された視覚的推論タスクは、映像のセットが提示され、これと概念的にセットとなる映像を選択するもの。例えば、犬が吠えている映像と犬の横で遠吠えする男性の映像が提示された際に、モデルは泣いている赤ちゃんの映像を選んだ(「発声する」という上位概念が共通)。
このときモデルは、アクションの上位概念を認識して、関連したものを選んでいる。これを実現するために研究チームは、まず映像内のオブジェクトとアクションを認識できるようにモデルをトレーニング。次にシーン内のオブジェクトの関連性を認識させた。その際、アクション認識のトレーニング用データセット、「Multi-Moments in Time」と「Kinetics」が用いられたようだ。
また、アクションに関するラベルを単語の構造情報とマッピングするために、研究チームは、単語の意味のデータベース「WordNet」を使用した。
例えば、「彫刻する(sculpting)」「彫る、切り分ける(carving)」「切断する(cutting)」といった単語は、「クラフト」「アート作り」「料理」などの上位概念に関連している。映像中の人物が彫刻しているのを認識したなら、概念的に類似したほかのアクションを関連付けらえる。
推論ミスのポイントまでが人間に似ていた
こうして構築された関連性グラフは、映像の示すアクションに応じた数値を生成するトレーニングに使用された。
モデルと人間が同じ視覚的推論タスクを実施して比較したところ、同じように機能し、間違えるポイントまでが似ていたようだ。
モデルにはまだ欠点もあるようで、一部のアクションを強調しすぎる傾向があるという。例えばモデルは、「ボール」を「運動」や「競争」と過度に関連付けがちで、赤ちゃんとボールが映った映像も、スポーツ映像とセットにしてしまう。
抽象的なイベントを認識できるモデルでは、学習が効率的になり、用意するデータセットが少なくて済むようになる可能性があるという。また、AIが抽象的な概念を扱えるようになることで、人間に近い高次の推論が可能になるかもしれない。
参照元:Toward a machine learning model that can reason about everyday actions/ MIT News
- Original:https://techable.jp/archives/136552
- Source:Techable(テッカブル) -海外・国内のネットベンチャー系ニュースサイト
- Author:YamadaYoji