認識対象、あるいはトレーニングのためのデータセットにほんのちいさなノイズを紛れ込ませることで、AIはいとも簡単に騙されてしまうのだ。
こうした敵対的攻撃を人間が見抜くことは困難で、現実世界の安全性や安定性を脅かすものとなり得ることから、防衛策の研究が進められている。その一端にはIBM Researchによるものがあり、このほど同研究機関に所属する研究者が、アメリカ国防高等研究計画局(DARPA)から340万ドル(約3億7500万円)の助成金を得た。
・オープンソースのツールボックス拡張機能を開発する
防衛策強化のプロジェクトは、IBMによる敵対的な機械学習用のオープンソースライブラリ「 Adversarial Robustness 360 (ART) 」ツールボックスをベースに進められるようだ。
ブラックボックス攻撃やホワイトボックス攻撃、マルチセンサー入力データを利用した攻撃……など、さまざまなシナリオでの敵対的攻撃やその防衛策を評価する目的で、ARTツールボックスの拡張機能を開発する。
また、3Dプリントなどで現実世界に統合した敵対的攻撃用デジタルオブジェクトを、照明の条件などを変化させて再びデジタル化し、防衛策開発への入力として利用するとのこと。
・敵対的攻撃でネコをバスケットボールと認識
敵対的攻撃の例はIBMによるデモページでも確認できて、たとえばどう見てもネコの画像なのに、敵対的攻撃モデル(Projected Gradient Decent)を適用することで、AIがバスケットボールと認識……というものがある。
また同デモページでは防衛策の例も示されていて、バスケットボールと認識された画像は処理を施すことで、再びネコとして認識されるのがわかる。
同様に別のデモページでは、トレーニングのためのデータセットにバックドアを設ける例も実際体験できるようになっていておもしろい。
ネコをバスケットボールと誤認識する程度ならそれほど悪影響がないように思えるが、自動運転を混乱させたり、悪意ある文章を生成したりも実際に可能で、AIが活用が進むにつれて敵対的攻撃の脅威は増すだろう。
参照元:$3.4M DARPA Grant Awarded to IBM to Defend AI Against Adversarial Attacks/ IBM Research Blog
- Original:https://techable.jp/archives/118273
- Source:Techable(テッカブル) -海外・国内のネットベンチャー系ニュースサイト
- Author:YamadaYoji