ロボット学習を積極的に追求しているロボット教師養成機関は、おそらく世界には存在しないだろう。しかしこの分野は、産業界に大きな可能性をもたらす鍵を握っている。この分野の注目すべき点の1つは、多くの研究者が、ロボットがゼロから本質的に学習できるようにするための秘密を解き明かすために、無数の異なるアプローチを取っていることだ。
ジョンズホプキンス大学が最近発表した研究論文は「Good Robot」(良いロボット)という楽しいタイトルが付けられており、正の強化による学習の可能性を探求している。論文のタイトルは、筆者のAndrew Hundt(アンドリュー・ハント)氏が自分の犬に、リスを追わないよう教えた経験に由来している。その説明は省略するが、代わりに以下の動画をご覧いただきたい。
この考え方の核となるのは、ロボットが何かを正しくやったときに「ごほうび」をあげる方法だ。間違っても、罰は与えない。ロボットのためのごほうびは、一種の得点方式だ。仕事のゲーム化と同じで、仕事を正しく行ったら点を与える。
博士課程中のハント氏によると、この方法で仕事の訓練時間を減らすことができたという。同氏は一般向けの配布文書で 「そのロボットは高い点を欲しがる。そして最良の報酬が得られるための正しい行動を迅速に学ぶ。これまでロボットが100%正確なタスクができるまで1カ月必要だったが、わずか2日でできた」と述べている。
積み木を積んだり、ビデオゲームをするといったまだ初歩的なタスクばかりだが、今後、さらに複雑な実際に役に立つタスクをこなせるようになるのではないか、と期待されている。
カテゴリー:ロボティクス
タグ:ロボット
画像クレジット:Johns Hopkins University
[原文へ]
(翻訳:iwatani、a.k.a. hiwa)