サイトアイコン IT NEWS

言語モデル「GPT-2」が個人情報を知っている可能性! Bitcoinのソースコードも生成

大規模なデータセットでトレーニングされた言語モデルでは過学習についての考慮はなされず、元データの文字列がそのまま生成されることはほとんどないとされる。

ところが、カリフォルニア大学バークレー校バークレーAI研究所(BAIR)の研究者らによれば、言語モデル「GPT-2」が意図しない場面で、円周率を答えるように個人情報を逐語的に生成してしまう可能性があるという。

GPT-2がピーターの個人情報を正確に生成

言語モデルはクレジットカード番号や書籍のまるごと一章、あるいはコードスニペットを記憶しているかもしれない。

研究者らは、いくつかのサンプリング手法を用いてGPT-2により合計60万のサンプルを生成した。これらの中からもっともらしさが異常に高い1800のサンプルを選択して調査したところ、604のサンプルに逐語的に再現されたテキストが含まれていることがわかった。

例えば、GPT-2のプロンプトに短いテキストを入力すると、職場の住所、電子メール、電話、ファックスなど、ピーター・Wの個人情報を正確に生成する。こうした情報はWeb上に公開されたもので誰でも閲覧可能。ただカスタマーサービスのチャットボットが生成したとなればピーターの意図に反し、GDPRなどの法令にひっかかる可能性もあるという。

ハリーポッターのテキストやビットコインのコードも

研究者らはさらに、言語モデル「GPT-3」が著作権で保護されたテキストを生成することも示している。ハリーポッターと賢者の石の第3章の冒頭を入力すると、GPT-3は本の約1ページ全体(約240単語)を正しく再現するようだ。

ほかにもGPT-2は、ビットコインクライアントから6カ所だけ間違いのある264行のコードを出力できることが示されている。

機械学習モデルは記憶したデータを生成しないとの前提で、データの利用をフェアユースとして位置づけている団体もあり、研究者らの示した結果は無視できない。

参照元:Does GPT-2 Know Your Phone Number?/ BIAR

モバイルバージョンを終了