OpenAIのDALL-Eは言葉による指示で「それらしい」画像を作り出す

Devin Coldewey

6年前

OpenAI（オープンエーアイ）の奇妙ながら興味が惹かれる最新作はDALL-E（ダリー）だ（OpenAIリリース）。ざっくりいえば「GPT-3の画像版」といったところ。「蝶ネクタイをしたネコ」やら「チュチュを着て犬を散歩させる大根」など、わかりやすい言葉で表現できるものなら何でも、イラスト、写真、レンダリングといったお望みの手法で描き出してくれる。とはいえ、写真素材サービスやイラストの死亡記事を書くのはまだ早い。

例によって、OpenAIの新発明の解説は平易で、技術的になり過ぎるところがない。ただし、少々文脈を整理しながら読む努力は必要だ。

彼らがGPT-3で作り出したものは、お題をもらってそれに応じた内容の話を組み立てるAIだ。たとえば「森の中で魔女に出会った子どもの物語」といえば、それなりの物語を作り出す。もう一度ボタンを押せば、別のかたちで書き直す。それを何度でも繰り返せる。

その試行の中から、良いものが生まれることがある。辻褄が合わない話もあれば、人間が書いたものと見分けがつかないような話もあったりする。だが、まったく意味の通らないものや文法的に間違ったものはないため、いろいろな用途に応用できる可能性がある。現在、数多くのスタートアップや研究者たちが、その利用法を模索中だ。

DALL-E（ダリとウォーリーをかけ合わせた名前）は、それを一歩進めたものだ。文章から画像への変換は、長年にわたりさまざまなAIエージェントで試されてきた。程度の差こそあれ、着実に成功率を高めている。このエージェントの場合は、GPT-3から提供された言語理解と文脈、それに与えられた指示に従ったもっともらしい画像を生成する基本構造を利用している。

OpenAIはこう解説している。

GPT-3は、大規模ニューラルネットワークにさまざまな文章生成タスクの実行を指示する役割を、言語が担えることを証明した。画像GPTは、同じ種類のニューラルネットワークを、高忠実度の画像生成に利用できることを示した。私たちはこの2つの発見を発展させ、言語を用いた視覚的概念の操作がすでに手の届くところにあることを証明しようと考えた。

つまり、この種の画像生成器は、自然で簡単な指示で何をすべきかを伝えるだけで操作できるようになる、と彼らは話しているのだ。もちろん、脳のニューロンに刺激を与えるように、システムの内部を深く探り、色を示すトークンを特定して、その経路を解析して起動し、色を変更するという方法もある。だが、社内のイラストレーターに緑ではなく青系の絵を製作してほしいときには、絶対にそんなことはしない。ただ「緑のクルマ」ではなく「青いクルマで」というだけで済む。

DALL-Eにはそれができる。簡単な指示をよく理解して、大きく間違えることは滅多にない。もっとも、何百何千回と試みた中から最高のものを取り出したとしても、ちょっと……どころかずい分ズレてるといわなければならないが。後になるほどズレてくる。

OpenAIの記事では、同じ内容でも少しだけ違う指示に対してシステムがどう反応するかを、大量のインタラクティブな実例で示している。結果は納得できるものであり、ほぼ上々の仕上がりとなる。だが実は、こうしたシステムには大変に脆い一面がある。DALL-Eもある意味そうだと研究者たちは認めている。たとえば「五角形をした緑の革の財布」と指示をして期待どおりのものが作られることもあれば、「五角形をした青いスエードの財布」になることもあり、研究者は悪夢にうなされる。なぜか？これらのシステムは基本的にブラックボックスであるため、説明は難しい。

画像クレジット：OpenAI

しかし、DALL-Eはそうした変化に驚くほど強い。何を指示しても、かなり近いものを作る安定感がある。ドーナッツ型のワカモレ、シマウマ柄の球、小さな赤い積み木の上に乗った大きな青い積み木、ハッピーなカピバラの正面図、悲しいカピバラの等角図などなど。みなさんもサイトで自由に試すことができる。

またDALL-Eは、予期しないしかし便利な能力も示している。たとえば、まったく同じ（実在しない）ネコのスケッチを何枚も描けという指示を理解するために、直感的な論理を使い、オリジナルを上、スケッチを下に表示した。特別なプログラミングはしていない。「このような能力が生まれるとは予想していませんでした。ニューラルネットワークに変更を加えたり、そうするようトレーニング手順を変えたこともありません」とのこと。素晴らしい。

おもしろいことに、OpenAIのもうひとつの新システムCLIPは、DALL-Eと合わせて使うことで、与えられた画像の理解とランクづけを行っていた。かなり技術的で理解が難しい話なのだが。CLIPの詳細はこちらをどうぞ（OpenAIサイト）。

この能力が示唆するものは、多岐にわたる。OpenAIでは次のように述べているが、あまりに多くて奥が深いので、ここでは触れないでおく。

将来、DALL-Eのようなモデルが、特定の作業手順や職業における経済的影響といった社会問題にどう対処できるか、モデルの出力に偏向がないか、そして長期的にはこの技術が暗示する倫理的課題について分析したいと考えている。

現在は、GPT-3と同様、この技術は驚異でありながら、難し過ぎて、これに関連する明確な将来予測は立てづらい。

もっともこれが生み出す作品の中に、本当の意味で「仕上がった」と感じさせるものはほとんどない。つまり、私が今後書く予定の記事のトップを飾る画像として無修正でそのまま使える作品を作れと、これに命令する気にはなれないということだ。ちょっと見ただけでもAI的キテレツさがぼろぼろ出てくる。ここはJanelle Shane（ジャネル・シェイン）の十八番だが。やがてその粗削りな部分はスッキリ磨かれるようになるだろうが、それでも安心はできない。GPT-3の文章を、編集を一切加えずに人が書いた作品と入れ替えることが不可能であるのと同じだ。

たくさん作らせて、いいものを拾い出すという方法がいいようだ。下の図がそれを示している。

作成総数Xの中から良いものを8つ選んでいる。右に行くほど作成数が増える（画像クレジット：OpenAI）

だがそれは、OpenAIのこの業績を貶めるものではない。飛び抜けておもしろく力強い成果だ。同社の他のプロジェクトと同じく、近いうちに、もっとずば抜けた面白いものに発展することは間違いない。

カテゴリー：人工知能・AI

タグ：OpenAI

画像クレジット：OpenAI

［原文へ］

（翻訳：金井哲夫）