AlphaFold2、何でそんなに話題なん？

DeepMindのAlphaGoが2016年に李世乭に勝利した事件は、AI時代の到来を示す象徴的な出来事でした。

それから5年、DeepMindの新たなプロダクト、「AlphaFold2」のリリースに現在、世界中の生物学研究者が沸いております。
日本語記事も色々と出始めていますが、業界人向けの記事が多く、ある程度分かっている人じゃないと理解できない印象。

「6年解けなかった構造があっさり」──タンパク質の“形”を予測する「AlphaFold2」の衝撃　GitHubで公開、誰でも利用可能に

DeepMindのAlphaFold2に匹敵するより高速で自由に利用できるタンパク質フォールディングモデルを研究者が開発

生物学クラスタを中心にSNSでもめっちゃ盛り上がっており、昨日Twitter Spaceにて行われたAlphaFold2座談会は770人が聴講するなど、熱狂はまだまだ冷めません。

Twitterにいる生命科学系垢で聞いてない人いない説
#AF2zadankai pic.twitter.com/NpPVaPmfbb
— know thyself（子豚のオリバー) (@thyself_know) July 21, 2021

東大森脇先生、東工大大上先生、東工大関嶋先生など、アベンジャーズみたいなメンバーによるTwitter Space

でもこのワクワク感はもっといろんな人に伝えたいので、AlphaFold2の何がすごいのかをサラッとあんま分かってない人向けに解説します。僕も構造生物学は専門じゃないので、突っ込んだ記事は本職の方にお任せします。

使い方の解説とかは東大森脇先生(@Ag_smith)さんの以下の記事とかがめっちゃ丁寧でした。

AlphaFold (ver.2) インストール

生物学の歴史とタンパク質の構造解析

AlphaFold2の凄さを知るためには、そもそも「タンパク質の構造解析」が生物学においてどれだけ重要な問題なのかを知る必要があります。

まず、現在の生命科学の基礎は1958年にフランシス・クリックが提唱した「セントラルドグマ」という概念の上に成り立っています。

DNAが遺伝情報をRNAに伝え、RNAの情報から機能のあるタンパク質が作られます。タンパク質は酵素活性を始めとして生体内で様々な役割を持ちます。「DNA(情報)」→「RNA」→「タンパク質(機能)」という流れ（遺伝子の発現）は細菌からヒトまですべての生物に共通のメカニズムであり、生命活動の根幹と言えます。

2000年以降における生物学の最大のブレークスルーは、この中で「DNA」に関するものでした。この図はヒト一人のDNAを全て読むのに掛かる金額を示した有名な図ですが、2007年には100億円かかっていたものが2019年には10万円と、10万分の1の値段になっています。

今10万円する最新のスマホが10年後、1円で買えるようになるとは思えませんし、10年ちょっとで物の値段が10万円下がることってあんまり無さそうです。本題とは逸れるので詳しくは説明しませんが、「DNAの情報を読む技術」にはそれぐらいの技術革新がありました。

これだけDNAを読む値段が下がって何が起きるかというと、DNAデータが溢れかえります。
データがいっぱいあると、無論流行るのは機械学習やデータサイエンス。
「大量の遺伝子データから統計を用いて生物学的に意味のある事象を探す」というデータ駆動型のアプローチが主流になります。
「生命情報学(バイオインフォマティクス)」という分野が重要性を増した背景には、生物学における遺伝子データの爆発的な増加があります。

「データいっぱいあるのなら、それで生物学の問題全部解決できたの？」

ところがどっこい、そうはいきません。

illustrated by 研究室の幼女さん (https://twitter.com/youjo_tec)

DNAはお馴染みの二重螺旋で表される構造を取るので、「ATGCの文字列の羅列」で概ね表現できます。しかし、タンパク質は「20種類のアミノ酸が繋がってできた数珠が、複雑に絡まったような3次元的な構造」を取ります。
元となるDNAの情報から分かるのは「どれぐらいの長さで、どんな種類のアミノ酸が並んでできた数珠か」までであり、「それがどういうふうに絡まっているか」がわかりません。ぬいぐるみの糸が解けた状態では、それがもともとクマさんだったのかウサギさんだったのか分からないのです。

従って、どんなにデータが増えても、最も重要な「タンパク質の構造(機能)」について本質的には分からない、というのがこれまでの生物学の常識でした。

では、「タンパク質の構造」はどうやって知るのか？これは、一つ一つのタンパク質を実験して調べるしかありません。このような研究は構造生物学と呼ばれます。めちゃくちゃ高純度なタンパク質を生成して、超凄い加速器を使ったり(SPring-8)など、超凄い顕微鏡(クライオ電子顕微鏡)で観察したり様々な手法で構造を調べます。2021年7月現在ではそれでも18万強の構造データが登録されていますが、DNAの配列情報としては2億以上のデータが登録されているので、99.9%のタンパク質配列は構造が未知ということになります。また、PDBの構造情報が10万件を超えたのは2014年であり、2014年から5倍以上増えているDNAデータとは増加の速度にも差があり、このギャップは開く一方。

このように、「配列情報」と「構造情報(機能)」のギャップが、生物学研究のボトルネックとなっている背景がありました。

なんとか配列から一気に構造予測できないの？

このような背景で、「なんとか配列から直接立体構造を予測できないか？」というのは長らく生物学の一大テーマでした。

主な取り組みとしてはCASPという1994年から始まるタンパク質立体構造予測のコンテストがあります。

実験により構造決定されている、構造未公開のタンパク質の配列を与えられ、その構造を予測するコンテストです。

予測精度の評価にはGDT(global distance test)という指標が用いられ、これが100だと正解と完全一致の予想ができたということになります。

2018年と2020年、このCASPで事件は起きます。

彗星の如く現れたAlphaFold2

DeepMind社ブログより https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

2006年からの10年間、頑張ってGDT40ぐらいを目指していたCASP業界に、2018年突如参戦したDeepMindのAlphaFoldがGDT60近くのぶっちぎりのスコアで優勝。その2年後、脅威のGDT90というスコアを叩き出し、業界を震撼させます。公式サイトでグラフを見るとあまりの２位以下との差に圧倒されます。

しかし、このタイミングではDeepMindはAlphaFold/AlphaFold2のモデルやソースコードを公開せず、一般の研究者が使えなかったため「めっちゃすごいんだろうけど実際よくわからん」という状態でした。

そして今月、満を辞してのβ版公開

2021/6/19にDeepMindのCEO、Demis Hassabisが「もうすぐAlphaFoldの論文出るしソースも公開するしみんな無料で使えるようにするよ〜」とツイート。構造生物学業界がざわつきます。

Brief update on some exciting progress on #AlphaFold! We’ve been heads down working flat out on our full methods paper (currently under review) with accompanying open source code and on providing broad free access to AlphaFold for the scientific community. More very soon! pic.twitter.com/uP7uzgGMSf
— Demis Hassabis (@demishassabis) June 18, 2021

公開されたことで、世界中の研究者がAlphaFold2による構造予測を試します。
日本では東大伏信先生のTweetなどが話題になりました。

…６年間解けなかったアシメ12分子（超?）の結晶構造がMOLREPであっさり解けました。。すごすぎ。
— Shinya Fushinobu (@sugargroove) July 19, 2021

ちなみに、東大森脇先生の記事によると

十分なマシンスペックが要求されます。具体的には
・2.5TB以上のSSD/HDD容量 (必須)
・CUDA11に対応しているNVIDIA製GPU（推奨）
・大容量（32GB以上）のRAM（推奨）
https://qiita.com/Ag_smith/items/7c76438906b3f665af38

とのことなので、試すハードル結構高いはずなのですが。。。みなさんすごい。

そんな「お祭り」のような状況の中、象徴的な出来事は東大森脇先生による斬新な使い方の発見です。

AlphaFold2さんで複合体予測ができました。やり方は予測したい2つの配列を入れて間を長いリンカーでつなぐだけです。https://t.co/h4p2McZahn pic.twitter.com/ez8mAmtrJP
— Yoshitaka Moriwaki (@Ag_smith) July 19, 2021

タンパク質は個々の立体構造も重要ですが、多くのタンパク質は複合体として働くので、「複数のタンパク質がくっついてどういう形を取るのか」も非常に重要な問題です。しかし、Alphafold2を使うとバグ技のような手段で複合体形成まで予測できちゃう、という発見。まじですごい。