Amazonが言葉で説明した服の画像を生成するAI「ReStGAN」を開発！

YamadaYoji

6年前

ショッピングの際、言葉で説明するだけで服の画像を表示できれば便利だろう。Amazonが開発したAIが目指すのはそんなシステムの実現だ。

GAN（敵対的生成ネットワーク）のなかでも、文章から画像を生成するのが得意なのがStackGAN。Amazonはこれを改良して「ReStGAN」を開発。同システムによりユーザーは、説明を追加していくことで生成画像を理想の服に近づけることができる。

・StackGANとLSTMを抱き合わせて敵対的にトレーニング

Amazonの開発したシステムでは、例えば「女性用の黒いズボン」を指定してから、「タイト」という説明、そして「カプリ（カプリパンツ）」という説明を追加すれば、それに応じて生成画像が変化する。

これを実現するために、もとの属性を保持しながら新しい属性を追加するという荒業をやってのけていて、特にカラーの調整技術がポイントだという。

システムのもとになっているStackGANでは、2つのGANを組み合わせて画像を生成しており、まずテキストを解釈した低解像度画像を生成し、次に画像に肉付けをして高解像度なものを生成する。

ReStGANでは、これに順次入力を処理して反映するLSTM（長・短期記憶）モデルを抱き合わせ、生成画像を説明の追加ごとに調整できるようにした。

・カラーの改善率はStackGAN比100％

生成画像の複雑さを軽減するため、パンツ/ジーンズ/ショーツ、男性/女性/ユニセックス、そしてカラーの各カテゴリを指定して画像に反映する。また、トレーニング画像は背景は取り除き、パターンも標準化したようだ。

顔画像や風景といったものに比べて服ではカラーが重要になるため、同システムではそこにもテコ入れし、属性を追加したときに説明と全く異なるカラーにならないようにした。Amazonのブログ記事を見ていただければわかる通り、StackGANでは色の反映がうまくいっていない。

こうした設計が功を奏し、パフォーマンスをテストしたところ、StackGANで最高のモデルよりもReStGANモデルが優れていることが示されたようだ。例えば服のタイプの特定スコアが22％、性別の特定スコアが27％、カラーの特定スコアに関しては100％の改善となっている。まだ限定的な同システムだが、将来的にはECサイトに実装される可能性もあるだろう。

参照元：Converting text to images for product discovery/ Amazon Science

Original:https://techable.jp/archives/118628
Source:Techable（テッカブル） -海外・国内のネットベンチャー系ニュースサイト
Author:YamadaYoji