2020年末、DeepMind(ディープマインド)は、同社のAIモデルAlphaFold2(アルファフォールド2)がタンパク質の構造を正確に予測(一般的で非常に難しい問題だ)することで生物学界を驚かせた。数十年来の問題を「解決できた」と多くの人が宣言したからだ。今回研究者たちは、このときDeepMindが世界を飛び越えてみせたように、今度はRoseTTAFold(ロゼッタフォールド)でDeepMindを飛び越えたと主張している。RoseTTAFoldは、わずかな計算コストでほぼ同じことを行うシステムだ(しかも無料で使用できる)。
AlphaFold2は、2020年11月に開催されたCASP14(タンパク質を構成するアミノ酸の配列から、その物理的構造[フォールディング]を予測するアルゴリズムを競う仮想イベント)で競合他社を圧倒し、業界の話題となった。DeepMindのモデルは、他のモデルをはるかに凌駕し、非常に高い信頼性のある精度を誇っていたため、この分野の多くの人たちが(半ば真剣に、そしてユーモアを持って)新しい分野への転身を口にしていた。
しかしDeepMindによるこのシステムの計画だけは、誰も満足させていないように思えた。その内容が網羅的かつオープンに記述されていなかったため、(Alphabet / Googleが所有する)DeepMindが、秘密のソースを多かれ少なかれ独り占めしようとしているのではないかと心配する人もいたのだ。もちろんそれは彼らの特権ではあるものの、科学の世界における相互扶助の精神にはやや反するものだと思われた。
【更新】ちょっとしたサプライズだが、DeepMindは米国時間7月15日に、手法に関するより詳細な内容を「Nature」誌に発表した。コードはGitHubで公開されている。このことにより、前述の懸念はかなり軽減されたものの、以下に説明した先進技術の内容にはまだ十分意味がある。記事の最後にはチームからのコメントも付けておいた。
関連記事
・Alphabet傘下のAI技術企業DeepMindがAIベースのタンパク質構造予測で歴史的なマイルストーン
・新型コロナ治療に道を開くワシントン大ベイカー教授の研究に3.2億円のブレークスルー賞
この懸念は、ワシントン大学のDavid Baker(デビッド・ベイカー)氏とMinkyung Baek(ミンギヨン・ベイ)氏を中心とする研究者が、最新の科学誌『Science』に発表した研究によって、少なくとも部分的には解消されたようだ。ベイカー氏は、ご存知の方もいると思うが、人工的に作られたタンパク質を用いて新型コロナウイルス(COVID-19)に対抗する研究でBreakthrough Prize(ブレイクスルー賞)を受賞したばかりだ。
研究チームが開発した新モデルRoseTTAFold(AlphaFold2の手法を参考にしたとベイカー氏がメールで率直に答えている)は、AlphaFold2に匹敵する精度で予測を行うことができる。
ベイカー氏は「AlphaFold2グループは、CASP14ミーティングでいくつかの新しいハイレベルなコンセプトを発表しました。そうしたアイデアからスタートし、グループの仲間と一緒にブレインストーミングを重ねたことで、ミンギョンはわずかな時間で驚くほどの成果を上げることができました」と語った(「彼女は本当にすごいよ!」と彼は付け加えた)。
予測されたタンパク質の構造とその正解の例。90点以上は非常に良いとされている(画像クレジット:UW/Baek他)
ベイカー氏のグループはCASP14では2位という立派な成績を収めたが、DeepMindの手法が一般的なレベルで説明されたものだとしても、彼らの手法と競合するものであることに気が付いた。彼らは、(1)アミノ酸の配列、(2)残基間の距離、(3)空間上の座標を同時に考慮する「3トラック」ニューラルネットワークを開発した。その実装は非常に複雑で、この記事では紹介しきれないが、結果として、ほぼ同じ精度レベルを達成したモデルとなった。繰り返しになるが、1年前にはまったく存在しなかったレベルだ。
さらにRoseTTAFoldは、このレベルの精度をより速く、つまり、より少ない計算量で達成する。
DeepMindは、個々の予測を行うために複数のGPUを何日もかけて使用したと報告していますが、私たちの予測手法は、サーバーの利用と似たやり方で、ネットワークを介して1回のパスで行われます【略】RoseTTAFoldのエンド・ツー・エンドバージョンでは、400残基未満のタンパク質のバックボーン座標を計算するのに、RTX2080 GPUで10分以内で収まります。
聞こえただろうか?これは何千人もの微生物学者が安堵のため息をつき、スーパーコンピューターの利用を申請するメールの下書きを捨てた音だ。現在、2080を手に入れるのは容易ではないかもしれないが、重要な点はハイエンドのデスクトップGPUがあれば、ハイエンドクラスターを数日間稼働させることなく、数分でこのタスクを実行できるということだ。
RoseTTAFoldは要件が控えめなため、AlphaFold2では考えられなかったような、パブリックなホスティングや分散にも適している。
ベイカー氏は「私たちは、誰もがタンパク質の配列を投稿して、構造を予測できる公開サーバーを用意しています」と語る。「数週間前にサーバーを立ち上げてから、4500件以上の投稿がありました。また、ソースコードも自由に利用できるようにしています」。
これは非常にニッチな問題に見えるかもしれないが、タンパク質の折り畳みは歴史的に見ても生物学で最も困難な問題の1つであり、その解決のために数え切れないほどの時間がハイパフォーマンスコンピューティングに費やされてきた。タンパク質の構造を予測するために、人々が自分のコンピュータサイクルを寄付する分散コンピューティングアプリFolding@Homeが話題になったことを憶えている人もいるだろう。1000台のコンピューターで解決に数日から数週間かかっていたような問題(基本的に力任せに解を作り出し検証する)でも、今ではデスクトップ1台で数分で解決できるようになった。
タンパク質の物理的構造は、生物学の中でも最も大切なものだ。なぜなら、私たちの体の中で大部分の仕事をしているのはタンパク質であり、治療のために変更したり、抑制したり、強化したりしなければならないのもタンパク質だからだ。しかし、そのためにはまずタンパク質を理解する必要があるのだが、2020年の11月まではその理解を計算機を使って確実に行うことはできなかったのだ。CASP14ではそれが計算可能であることが証明され、そして今回それが広く利用できるようになったのだ。
だが残念ながらこれらは、タンパク質フォールディングの問題を解決するための「ソリューション」そのものではない。もちろん今回、中立的な状態で静止しているタンパク質のほとんどの構造を予測することができるようになり、複数の領域に大きな影響を与えるようにはなったものの、タンパク質が「中立的な状態で静止している」ことはほとんどない。他の分子をつかんだり離したり、ゲートを通して他のタンパク質をブロックしたりすり抜けさせたり、とにかくあらゆることをするために、タンパク質自身がひねったりねじったりされるのだ。こうした相互作用は、数が莫大で、複雑で、予測するのが難しく、AlphaFold2もRoseTTAFoldもそれを計算することはできない。
ベイカー氏は「この先、たくさんのエキサイティングなテーマが待ち受けています【略】物語は始まったばかりなのです」という。
DeepMindの論文について、ベイカー氏は大学人の仲間意識から次のようにコメントしている。
読んでみて、すばらしい業績を描いたすてきな論文だと思いました。
このDeepMindの論文は、私たちの論文をきれいに補完するものであり、私たちの研究が彼らの進歩に基づいていることを考えると、私たちの論文より前に発表されたのは適切なことだと思います。
読者のみなさまには、両論文を楽しんでいただけると思います。2つは重複するものではありません。私たちが論文で指摘しているように、彼らの手法は私たちの手法よりも精度が高く、その差の原因が彼らの手法のどのような特徴にあるのかを知ることは、非常に興味深いところです。私たちはすでに、RoseTTAFoldをタンパク質の設計やより体系的なタンパク質複合体の構造予測に使用していますが、DeepMindの論文から得られたアイデアを取り入れることで、従来の一本鎖のモデリングとともに、これらを急速に改善できると期待しています。
もし科学とその潜在的な影響について興味があるならば、CASP14におけるAlphaFold2のパフォーマンスを受けて書かれた、方法とあり得る次のステップについての、より詳細で技術的な説明を読んでみるとよいだろう。
画像クレジット:Ian Haydon, UW Medicine Institute for Protein Design
[原文へ]
(文:Devin Coldewey、翻訳:sako)
Amazonベストセラー