Facebookがマップなしで最適ルートを計算するアルゴリズム！ロボットの屋内移動に

YamadaYoji

6年前

ロボットにモノを運んできてもらう世界を実現するためには、室内ナビが不可欠だ。SLAM（Simultaneous Localization and Mapping）やWi-Fiなんかを利用したアプローチの開発が進められるが、実用ロボットにはより正確に室内を移動してほしい。

こうしたなかFacebook AIは、DD-PPO（Decentralized Distributed Proximal Policy Optimization）と呼ばれる新しい分散深層強化学習アルゴリズムを開発した。同アルゴリズムは、RGBと深度を捉えるRGB-DカメラおよびGPS、コンパスデータを使用し、99.9％の成功率で目的地に到達する。

・人間の80年分のエクスペリエンスを3日で

もともとDD-PPOによるシステムでは、タスク成功率は92％を達成していたが、物理世界でロボットが実用されるには、さらに完璧なタスク遂行が求められるとのことで、研究チームはアルゴリズムのパフォーマンスを改善。目的地までの最短ルートの選択や、素早いエラー訂正も可能になった。

学習および評価は、Facebook AIによる3Dシミュレーションプラットフォーム、AI Habitat上で行われ、人間でいうと80年分にあたいする25億ステップのエクスペリエンスをわずか3日未満で与えている。評価では、良好なパフォーマンスが示され、目標までの距離が伸びても安定していた。

使用したGPU数は64個とのことで、実はアーキテクチャも大幅に改良しているようだ。

・128個のGPUで107倍の高速化を実現

研究チームの開発した分散深層強化学習用のアーキテクチャは、エクスペリエンスの収集を担当する複数のワーカーと、モデルを最適化するパラメーターサーバーから成る。

各ワーカーは、タスクの実行をシミュレートしてエクスペリエンスを収集。一定量のエクスペリエンスを収集したらパラメーターサーバーに送信し、パラメーターサーバーはモデルを更新して各ワーカーに適用する。

従来、AI Habitatなどの3Dシミュレーターによる仮想ロボットのトレーニングでは、GPU処理の負荷が高く、ワーカーの数に制限があった。今回開発のアーキテクチャではGPUの数が増やせてパフォーマンスのスケーリングが可能。128個のGPUあたり107倍の高速化を実現している。

研究チームは、DD-PPOのコードとトレーニング済みモデルをオープンソース化していて、今後はRGB-Dカメラのみで同様の成果を達成したいと考えているようだ。

参照元：Near-perfect point-goal navigation from 2.5 billion frames of experience/ Facebook AI

Original:https://techable.jp/archives/115934
Source:Techable（テッカブル） -海外・国内のネットベンチャー系ニュースサイト
Author:YamadaYoji