「ちょっと、そこは入れませんよ」。建物とカメラをいくつか通過すると、セキュリティの仕事はすぐに複雑で途方もない状況になる。誰が一度にすべての場所を見張り、間に合うように人を送って問題を防ぐことができるだろうか。Ambient.aiはAIでそうできると最初に主張したわけではないが、最初に実際に大きな規模でそうしたのかもしれない。そして、成長を続けるために5200万ドル(約59億1000万円)を調達した。
昨今の業務処理問題は、誰でも指摘できる種類のものである。現代の会社や学校にある幾十幾百ものカメラからは膨大な量の映像やデータが生み出され、専門のセキュリティチームでもすべてを把握するのは困難だろう。結果として、重要な事象が発生してもそれを見逃すだけでなく、間違ったアラームや音に耳を向けてしまう可能性もある。
「犠牲者はいつも、誰かが助けに来てくれることを期待してカメラを見るが、実情はそうではない」と、Ambient.ai(アンビエント.ai)のCEO兼共同創業者、Shikhar Shrestha(シカー・シュレスタ)氏はTechCrunchに語った。「ベストの状態でも、インシデントが起きるのを待っていて、ビデオを見て、そこで仕事をするわけです。カメラはあり、センサーはあり、警備員もいる。欠けているのは、仲立ちをする頭脳です」。
明らかに、シュレスタ氏の会社は頭脳の提供を目指している。セキュリティのライブ映像の中央処理装置によって、問題が発生したら即座に適切な担当者に通知できる。そうした努力を危険にさらす先入観はない。顔認識もしない。
以前にもこの特定のアイデアに取り組む例はあったが、これまでのところ本気で採用した例はない。シュレスタ氏によれば、第1世代の自動画像認識は単純な動作検出で、画面上の画素に動きがあるかどうかを確認するにすぎず、木なのか家宅侵入者なのかも見分けられなかった。次に来たのが、深層学習を使用した物体認識だった。手に銃を持っているのか、窓が割れているのか識別できた。これは役に立つことがわかったが、限界があり、維持に少々手がかかった。状況や物に対して特別なトレーニングがたくさん必要だった。
「ビデオを理解するために人が行うことを見て、他の情報も大量に取り入れることにしました。座っているのか、立っているのか、ドアを開けているのか、歩いているのか、走っているのか、屋内にいるのか、屋外にいるのか、昼間か夜間か、といったことです。私たちは、そうしたことをすべて一緒にして状況を総合的に理解します」と、シュレスタ氏は説明した。「私たちは、コンピューターの映像インテリジェンスを使って映像の事象全体をマイニングします。あらゆるタスクを分解してそれをプリミティブと呼びます。相互作用や物体などです。その後、それらの構成要素を結びつけて「シグネチャ」を作成します」。
シグネチャは「夜間に長時間車内で座っている人物」や、誰ともやり取りせずにセキュリティチェックポイントの傍らに立っている人物」のようなもので、数は任意である。チームによって調整・追加されたものや、モデルによって独自に追加されたものがある。シュレスタ氏は「管理された半教師あり手法の一種」と説明した。
AIを使用して一度に100のビデオストリームをモニタリングすることのメリットは明らかだ。何か悪いことが起きる見当をつける点でAIの出来がたとえ人間の80%だとしてもである。注意散漫、疲労、目が2つしかないといった弱点がないAIは、時間やフィード数の制限なしに成功のレベルを上げることができる。これは、成功の機会が実際にかなり大きいということだ。
銃だけを探す初期のAIシステムでも数年前から同じことが言われていたかもしれないが、Ambient.aiが目指しているのはもっと総合的なものである。
「私たちは意図的に、プライバシーの考えを中心にしてプラットフォームを構築しました」と、シュレスタ氏は述べた。AIを活用したセキュリティというと「人はすぐに顔認識が含まれているものと考えるが、私たちの手法ではこの大量のシグネチャイベントがあり、顔認識を必要としないリスク指標を利用できます。何が起きるかを示す画像やモデルは1つだけではありません。これらのさまざまな要素をすべて活用して、システムの記述レベルを上げることができます」。
基本的にこれは、各個人の認識活動を最初から先入観のないものに保つことによって行われる。例えば誰かが座っているか立っているか、どれくらい長くドアの外で待っているか、といった行動をそれぞれ監査し、発見して、構成やグループ全体で検出できた場合、そうした推測の総和も同様に先入観のないものになる。このように、システムの構造上、先入観は削減される。
しかし、先入観は潜行的で複雑であると言わなければならず、先入観を認識して軽減する能力は最先端には後れを取っている。それでも、直感的に言って、シュレスタ氏が述べたように「先入観で見られるものに関する推測のカテゴリーがない場合、そのようにして先入観が入り込むことはない」というのは本当のように思える。そうであることを望む。
いくつかのスタートアップが同じように登場しては消えていったのを見てきたので、こうしたアイデアを記録で実証することは重要だ。Ambient.aiは比較的静かにしてきたにもかかわらず、製品に関するその仮説の証明に役立ってきた活発な顧客が多数いる。もちろん、過去2年間は厳密には通常の業務ではなかったが、効果がないのであれば「時価総額で米国最大級のテック企業の5社」が顧客になるというのは考えにくい(しかし現にそうである)。
名前の挙げられていない「Fortune(フォーチュン)500テクノロジー企業」のテストで、認証を受けた人のすぐ後からセキュリティで保護されたエリアに入る「共連れ」を減らすことを目指していた。そんなことをする人はいないと思うだろうか。何と、最初の週に2000のインシデントが特定された。しかし、事象のGIFをほぼリアルタイムでセキュリティ担当者に送信し、セキュリティ担当者はおそらく違反者に警告したのだろう。数字は週に200まで減少した。今は週に10である。おそらく私のような人間によるのであろう。
Ambient.aiがドキュメント化した別のテストケースでは、学校のセキュリティカメラが、放課後に誰かがフェンスによじ登っている様子を捉えた。即座に映像が警備責任者に送信され、警察に通報された。その男には前科があることが判明した。ここで強調したいのは、学校を封鎖する必要があるということではなく(これはそうするのに役立つだろう)、そのドキュメントの中で述べられている別のことである。それは、システムが「誰かがフェンスによじ登っている」という認識と「これは8:45の少し前によく起きる」というような他のことを結びつけることができるということだ。だから、子どもが近道しても警察に通報されることはない。またAIは、よじ登ることと、落ちることと、ぶらつくこととを区別することもできる。こうしたことは、状況によって問題になったり、ならなかったりする。
Ambient.aiの主張では、システムの柔軟性は一部こうした「プリミティブ」による。プリミティブは現場の必要に応じて簡単に再調整が可能で、例えば誰かがフェンスによじ登っても、落ちない限りかまわない。また「あっ、これは誰かがフェンスを切断しているようだ」といった新しい状況を学習することもできる。チームは現在、約100の疑わしい行動の「シグネチャ」を持っており、今後1年でそれを倍に増やすつもりだ。
既存の警備人員の電話や無線機の呼び出しが鳴る機会を制御することで、既存の警備人員の効率が向上すれば、時間の節約になり、結果も良くなる(Ambient.aiは、日常的なアラームの数が概して85~90パーセント削減されると述べている)。また、AIを活用した映像のカテゴリー分類は記録やアーカイブにも役立つ。「夜間にフェンスによじ登る人の映像をすべてダウンロードしなさい」と命令する方が、5000時間手作業でスクラブするよりずっと簡単だ。
5200万ドル(約59億1000万円)のラウンドはa16z(アンドリーセン・ホロウィッツ)が取りまとめたが、Ron Conway(ロン・コンウェイ)氏、Y Combinator(Yコンビネーター)のAli Rowghani(アリ・ローガニ)氏、Okta(オクタ)共同創業者のFrederic Kerrest(フレデリック・ケレスト)氏、CrowdStrike(クラウドストライク)CEOのGeorge Kurtz(ジョージ・カーツ)氏、Microsoft(マイクロソフト)CVPのCharles Dietrich(チャールズ・ディードリッヒ)氏、その他数名の自分が何に投資しているかわかっている個人投資家の名前もあった。
「今は異色の時代です。セキュリティに携わる者はもっと多くのことを行うように期待されています。誰かがすべてのフィードを見守っている必要はないという基本的な提案は普遍的なものになりました」と、シュレスタ氏は述べた。「私たちは1200億ドル(約13兆6000億円)という多額のお金をセキュリティに費やしています。そこに結果が出ていないのはまともではありません。私たちはインシデントを防ぐことができていません。すべての道が一点に収束しているように感じます。組織が採用できる、将来も有効に使い続けられるセキュリティを提供できるプラットフォームになりたいと思っています」。
画像クレジット:Ambient.ai
[原文へ]
(文:Devin Coldewey、翻訳:Dragonfly)