ロボットにモノを運んできてもらう世界を実現するためには、室内ナビが不可欠だ。SLAM(Simultaneous Localization and Mapping)やWi-Fiなんかを利用したアプローチの開発が進められるが、実用ロボットにはより正確に室内を移動してほしい。
こうしたなかFacebook AIは、DD-PPO(Decentralized Distributed Proximal Policy Optimization)と呼ばれる新しい分散深層強化学習アルゴリズムを開発した。同アルゴリズムは、RGBと深度を捉えるRGB-DカメラおよびGPS、コンパスデータを使用し、99.9%の成功率で目的地に到達する。
・人間の80年分のエクスペリエンスを3日で
もともとDD-PPOによるシステムでは、タスク成功率は92%を達成していたが、物理世界でロボットが実用されるには、さらに完璧なタスク遂行が求められるとのことで、研究チームはアルゴリズムのパフォーマンスを改善。目的地までの最短ルートの選択や、素早いエラー訂正も可能になった。
学習および評価は、Facebook AIによる3Dシミュレーションプラットフォーム、AI Habitat上で行われ、人間でいうと80年分にあたいする25億ステップのエクスペリエンスをわずか3日未満で与えている。評価では、良好なパフォーマンスが示され、目標までの距離が伸びても安定していた。
使用したGPU数は64個とのことで、実はアーキテクチャも大幅に改良しているようだ。
・128個のGPUで107倍の高速化を実現
研究チームの開発した分散深層強化学習用のアーキテクチャは、エクスペリエンスの収集を担当する複数のワーカーと、モデルを最適化するパラメーターサーバーから成る。
各ワーカーは、タスクの実行をシミュレートしてエクスペリエンスを収集。一定量のエクスペリエンスを収集したらパラメーターサーバーに送信し、パラメーターサーバーはモデルを更新して各ワーカーに適用する。
従来、AI Habitatなどの3Dシミュレーターによる仮想ロボットのトレーニングでは、GPU処理の負荷が高く、ワーカーの数に制限があった。今回開発のアーキテクチャではGPUの数が増やせてパフォーマンスのスケーリングが可能。128個のGPUあたり107倍の高速化を実現している。
研究チームは、DD-PPOのコードとトレーニング済みモデルをオープンソース化していて、今後はRGB-Dカメラのみで同様の成果を達成したいと考えているようだ。
参照元:Near-perfect point-goal navigation from 2.5 billion frames of experience/ Facebook AI
- Original:https://techable.jp/archives/115934
- Source:Techable(テッカブル) -海外・国内のネットベンチャー系ニュースサイト
- Author:YamadaYoji
Amazonベストセラー
Now loading...