Q. なぜ生物学者は「ただ動くだけ」のプログラムを量産するのか

A. 情報学やソフトウェアエンジニアリングをまともに学んでいないからです。終。

しかし、ここで終わると世界は進歩しないのでもう少し掘り下げます。

そもそも情報学やソフトウェアエンジニアリングをまともに学んでいない生物学者が、何故不慣れなコーディングをしなきゃいけないんでしょうか。生物学者は生物学だけをやればいいのでは?

しかし、この記事を読むような方はご存知だと思いますが、次世代シーケンサーの登場以降、生物学で扱うデータ量と、生物学におけるデータ解析の比重は高まり続けています。簡単なコマンドラインでバイオインフォマティクスのソフトウェアを動かすぐらいは、実験系の生物学者でもできないとキツくなってきている。

一方、例えばBLAST検索などはwebからでも簡単に実行可能ですし、全てのバイオインフォマティクスツールがそれぐらい容易に実行できれば、全ての生物学者がコマンドラインを触る必要は無くなるともいえます。

また、今の時代ではビジネスやアートなど、あらゆる領域でデジタル技術は必須となっておりますが、ビジネスマンやアーティストがコマンドラインを使えるか、というとそうではありません。

彼らはchromeの拡張機能や、wordpressのプラグイン、エクセルの関数などを通して高度なアルゴリズムを実行しています。世界最先端の画像生成系AIも、photoshopに搭載されることでコマンドラインを介せず実行可能となっています。

改めて、「ではなぜ生物学者はコマンドラインを触らないといけないのか?」それは生物学の世界にはphotoshopが無いから、という考え方もできます。

というわけで今回は、「あらゆる解析ツールをボタンひとつで実行可能なプラットフォーム」の作成を目指すベンチャー企業、アンプラットの三澤さんにお話を伺います!

ANPLAT 三澤さん (話す人)

バイオインフォマティクスのベンチャー社長。保護猫を飼っていてTwitterに猫の写真をよく上げる

tayo 熊谷 (聞く人)

バイオインフォマティクス出身のベンチャー社長。保護猫を飼っているがTwitterに猫の写真はあまり上げない。

生物学者がソフトウェアエンジニアリングを覚える必要はないのでは?

本日はよろしくお願いします。まず、ANPLATって何をやっている会社なんですか?

ANCATという「バイオインフォのソフトウェアをアップロードしてメンテ不要でいつでも使えるようにするサービス」を提供しています。

個人用で使うことも可能ですし、チーム単位で解析方法を共有したり、世の中一般に自分の作った手法を公開することもできます。

DockerBIOとかGalaxyとかなんならGitHubとか、似たサービスは色々ある気がしますがどの辺に独自性があるんでしょうか?

GitHubはあくまでコード置き場で実行はできませんが、ANCATには「RUN」のボタンがあり実行環境込みで提供しているのが最大の特徴です。やっぱり環境構築でつまづく人が本当に多いので・・・。

また実行環境を提供するとサーバー代が問題になりますが、ANCATではインフラからバイオインフォ特化で考えているのも特徴です。サーバーレスを採用し、「実行の頻度は低いが一度の計算は重い」というバイオインフォマティクスのタスクに向いた構成にすることで、安価なサービス提供を可能にしています。

AWSやGCPなどのクラウドサービスはインフラ周りの知識がない人が使うとむしろ高くつくので、そこを僕らがカバーしています。

確かにDockerとかのコンテナ技術でだいぶ楽になったとはいえ、コンテナ自体がバグってたりコンテナ自体の環境構築が大変だったりコンテナの入れ子構造ができちゃったり、それはそれで苦しみがありますよね。

Dockerは素晴らしい技術ですし我々も最大限活用しているのですが、「コマンドラインを触る必要がない」ってところまでいかないとコモディティ化していかないと思うんですよね。画像生成のAIもLINEなどから命令できるようになって一気に流行りましたし、手軽に使えるに越したことはないだろうと。

ANPLATのメンバー紹介動画。最後のBGMは代表の三澤さんが高校生の頃に自分でギターを弾いて作った曲とのこと(なにそれ)

元々三澤さんはバイオインフォマティクスの受託解析の企業から独立し、今ではむしろ受託とは正反対の方向に舵を切りました。何か思うところがあったんでしょうか?

前職は受託解析だったので、言わば「解析の結果」に責任を持つ会社ですね。よく受けていたのは研究者からの「この論文の解析やりたいんだけど」というお話でした。

ただ、「論文の解析と同じことをやる」ためには、環境構築、OSSのインストール、自身の解析対象に合わせた最適化、自動化等のITの能力が必要になります。そこでずっと思っていたのが、「そもそも生物学研究者にITスキルが必要とされるのがおかしいんじゃないか?」ということです。仕事柄、様々な生物学研究者とお話してきましたが、皆さん僕が知らないことをたくさんご存知で、本当に尊敬できる方々ばかりなのに、ITスキルっていう生物学とは関係のないところで困ってたりするので、それはおかしいのではないかと。

解析で要求される統計的な厳密性や作図の水準も最近はどんどん上がってますもんね。WETの実験でデータを出した上にややこしい統計解析して、さらにRやpythonで職人芸的な作図までしないと論文にならなくなってきてますよね。

生物学者が片手間にやるには難しくなり過ぎていますよね。自身でデータ解析を行う努力をするのは素晴らしいことではあるんですが、やはり「多少のコマンドライン操作を覚えてツールを動かすことができる」ことと「ソフトウェアエンジニアリング」には大きな壁がありますし、得意じゃない分野で時間を浪費するのは勿体無いんじゃないかと。

バイオ系にいると「これからは生物学者はデータ解析もできないとお話にならない」みたいな意見も聞きますし僕もそっち派だったんですが、逆の立場なんですね。

そもそもすべての研究者がwetもdryもわかるスーパーマンになるのは無理なので絶対に分担したほうが効率がいいんですよ。海外のラボでは情報解析系のテクニカルスタッフはよくいるんですけど日本にはほとんど居ません。

もっと分業を進めて個々が得意な分野で最大限の力を発揮できる環境にしないと、日本は海外と戦っていけないのではと思います。

そもそも「バイオインフォマティシャンが少ない」っていう問題もありますよね?10年前ぐらいからずっと言われ続けている気がします。

「ちょっとコード書ける」レベルの人はだいぶ増えていると思うので、「実践レベルではまだまだ少ない」って感じですかね。特に、修士・博士で出て企業に就職して即戦力でバイオインフォマティクスを使える、ってほんと一握りの超優秀な人だけなんですよ。

なのでバイオ系の人が企業に就職してからデータ解析を覚える、あるいは情報系・計算系の人が企業に入ってバイオを覚えるのが重要で、幸いにも僕は前職で成長できる環境のある企業に勤められました。

しかし、実際に教育体制が整っている企業は多くないので、現状ではあまりバイオインフォマティシャンは増えようがないんです。

「ちょっとコード書ける」と「実践レベル」の違いってどこですかね?ソフトウェアエンジニアリングの基礎知識とかそういったお話ですか?

それもありますが、より大事なのは「チームで働ける」っていうことでしょうか。アカデミアでは個人での仕事が多く、あまり他人と共同でコードを書いたりしませんが、企業では基本的にチームで動きます。チームとして動くためには予備知識や、お作法などの共通認識を持つ必要があります。例えばバイオインフォマティクス技術者試験などを取っていて「個の力」がある人でも、チームとしての生産性に貢献するにはまた別のスキルが必要です。

バイオインフォマティシャンを雇うのも、解析を外注するのも大変

アカデミアでは「バイオインフォマティクスのポストがそもそも多くない」という話も聞きます。

それも当然で、例えば自分がwetラボの主催者だとしてバイオインフォマティシャンを雇うか?と思った時に、「雇わないな」と思います。大規模データを解析するなら高スペックのサーバーとストレージが必要で、さらにそれを管理する技術者も必要で、、、と、WETのラボでいきなりゴリゴリのバイオインフォの人を入れるにはその人を活かす環境作りにすごくお金がかかってしまうんですよ。また、どちらかというと企業においてクリティカルなのですが、バイオインフォマティクス人材を評価できる人がいないというのも問題になりえますね。

あと、バイオインフォと一言で言ってもすごく色んなフィールドがあって、進化の人とオミックスの人と立体構造予測の人でスキルセットが全然違うわけですよ。そんなめっちゃ限られた解析しかできないのに、高い。これはコスパ合わんな、となる訳です。

特に日本だと「研究所レベル」ではなく「研究室レベル」で雇用することが多いので、より雇えないですね。

それもありますし、そもそも日本って人を雇うハードルがすごく高いので、「雇用」というモデルには無理があるんです。では全部企業に外注すればいいのか?となるんですが、それはそれで無理があるなぁと感じまして。

まず、普通にwebの開発外注する時って、

  • 会社のHP作ってください、デザインと文面はこうで、問い合わせと資料請求のフォームを置いてください
  • はいわかりました

って感じじゃないですか。

開発者に先方の求めるものが分かるので開発しやすいし、大体どれぐらいのコストで満足いくものができるのか事前にわかるので、発注もしやすいわけです。

でも、研究者の依頼ってこうじゃないんです。

  • 今こんな状況で・・・多分こういう解析したらこういう結果出ると思うんだけど・・・
  • じゃあとりあえず・・・やって・・・みます?

みたいな感じになるんで、発注者も受注者もふわっとしてるんですよ。

これで動き出しちゃうとお金をどこでどう払えばいいかもわからないしビジネスとして成立しないわけです。何より研究者目線だと、良い結果が出るかどうかわからない事にお金払いたくないですよね。

超わかるなぁ。発注者のリテラシーの問題とかではなく、研究ってそういうもんですもんね・・・

そんな感じでふわっとした案件に関わったとして、なんとか成果になったとするじゃないですか?この過程で生まれたコードを使いまわして、他の案件がすごいスピードで終わるならそれでもいいんですよ。

でも、生物って多様性の宝庫なので、「ヒトでやった解析が多倍体の植物に使えるか」というと大体NOな訳です。お金も取りづらければ副産物のコードの再利用も難しい、これはビジネスとしてもキツイのです。

確かにバイオインフォマティクスだけやってめっちゃ大きくなった会社って、日本でも世界でもあんま聞かないですもんね。

なので「人を雇うこともなく」「外注することもなく」WETの研究者がバイオインフォマティクスの解析ができる仕組みが必要だな、と思ったんです。

世界中の研究者が一回作ったコードをアーカイブして公開すれば、環境構築すら必要なく同じ解析ができる。ANCATで作っているのはそんな仕組みです。

プラットフォーム型のサービスはエコシステムの形成がかなり大変だと思うんですが、ANCATが研究者を呼び込める強みはどこですか?

色々あるんですが、他サービスと最も違うところはMarketplaceの仕組みですかね。これは個人や組織が自分たちのソフトウェアや解析パイプラインをアップロードし、それをユーザーが使った場合は収益を受け取れる、といった仕組みです。組織としては現在かずさDNA研究所などと提携しています。

開発者側にはソフトウェア開発にインセンティブが生まれるし、ユーザーとしては数千円課金するだけで自前の環境構築も不要になり、ソフトウェアの使い方に関して開発者のサポートも得やすくなります。

サポートまでついてくるのすごいですね。「すごく安価で手軽にアカデミアとの共同研究ができる仕組み」みたいな見方もできそう。こういうプラットフォーム型のサービスでサポートまで付けるのは珍しい気がします。

そうですね。かずさDNA研究所と共同で提供しているサービス「GARDEN CLOUD」に関しては、原則、科学的な部分はかずさがサポートし、システム的な部分は当社でサポートする共同サポート体制を取っています。

サポート業務についてですが、僕は自分自身も含めエセ専門家が嫌いなので、その道のプロフェッショナル、要は植物ゲノムの話なら植物ゲノムの専門家が答えるのが良いと思っています。

自分自身、様々なバリエーションの解析技術を網羅してきた日本でも有数な特殊人材だと思うのですけど、それって専門性では無いんですよ。いろんな解析がちょっとずつ出来るってだけの人は、バイオインフォマティクスの入り口を案内するのには適任なんですが、科学者が得たい深淵の知識を得るためのサポートとしては無力です。

「自分自身も含めエセ専門家が嫌い」これはバイオインフォマティクスの研究者をやっていた立場からすると別の立場から共感できますね・・・エセ専門家でも立ち回りが上手ければ仕事できちゃうからな・・・

さて、実行環境込みでアップロードできるのは共同研究先との手法の共有にとても便利そうなので、試しに使いたい人いるんじゃないかと思います。限定公開とかもできるんですよね?「共同研究先にコンテナのインストールをお願いすることができず困っている」人とかはいっぱいいる気がします。

よくある話ですね。権限設定できますので、そのようなユースケースにも対応しています。現状だと問い合わせフォームから連絡頂ければご案内が可能です。気になった方はお気軽に問い合わせか、私のTwitterまでDMをお願いします。

ANPLATのメンバー募集

ANPLATではtayoに求人を出してくれていますが、ぶっちゃけどんな人が欲しいんでしょうか?

【インターン〜正社員】「無駄なプログラムを書かない!」ためのプログラムを作る仲間を募集します!【ITエンジニア・バイオインフォマティシャン】という直球のタイトルのANPLATのインターン求人

職種は二つあって、エンジニアと研究者ですね。エンジニアに関しては一緒に我々のプロダクト開発をしましょう!ということで我々の事業や思想に共感してくれるIT系の方に来て欲しいです。

一方、研究者に関しては自分のテーマで好きな研究をやってくれる人を募集しています。

「自分のテーマで好きな研究をやってくれる人」ってどういうことですか・・・?

学振PDみたいな感じでご自身のテーマで研究し、論文発表や学会発表をしてくれればOKです。とはいえ弊社のビジネスにも載せなければいけないので開発したパイプラインやソフトウェアをANCATで公開してもらったりはしますが、メインは研究してもらいたいですね。

何のメリットがあってそんなことを・・・?

起業家としていろんな方と話す中で言われて印象に残っているのが、「御社は何か研究しないんですか?」という台詞です。

私はずっと裏方として研究支援をすることにやりがいを感じていましたが、実際にプレイヤーとして研究を行っていないのに本当に求められる研究支援ができるのか?というのは確かに疑問だな、と思いまして。

確かに大学教員と話すとき、企業の代表として話しても出てこないけど、一人の研究者として話すと出てくる潜在課題、とかはありそうですね。具体的にはどんな分野の研究者の応募を考えているんですか?

まず、どんなポストかというと「給料の他に、研究予算として〇〇円出すので、最低年x回は当社の名前を背負って学会行ってください、あとは自由に研究してください。」って感じです。

また、バイオインフォマティクスに関する部分であれば組織として手伝えます。

やば。

【正社員募集】研究支援業務を行う会社が「研究」しなくてよいのか?いや、良くない!【研究職】というこれまたすごいタイトルのANPLATの求人

とはいえ、我々が評価できないといけないので、手探りなところもあります。バイオインフォマティクスの人は評価しやすい一方、我々と専門性が重複してもコミュニティが広がらないので悩むところです。なので、「アウトリーチが得意で会社の広報をいっぱいしてくれた」とか、「ANCATに関する研究者へのヒアリングの機会をいっぱい作ってくれた」とか「SNSのフォロワー何人」とか、どうしてもその辺は評価に入ってくると思います。

しかしこれらの建前に関係なく、エンジニア採用も研究職採用も、実際にどういう人を取るかというとやはり小さい会社ですので経営陣との相性などがより重要になってきます。

企業研究者の形として新しすぎてすごいですね。嘘みたいな話ですがマジのようなので、研究者の皆さん是非応募のご検討を!

改めて、エンジニアとしても研究者としても非常に魅力的な会社だな、と思いました。エンジニアとしてのインターンや就職に興味がある方、研究者ポストに興味がある方、またANCATのサービスに興味ある方、ぜひお気軽にお問い合わせいただければと思います!

「あらゆる解析手法を研究者の共有財産に」をミッションとするベンチャー企業。
本社は神奈川県川崎市ですが基本的にはフルリモートの勤務体制だそうです。以下の会社概要の文章も素敵。


研究者は、自身の研究分野を極めた人々です。そんなエキスパートが研究以外の作業に忙殺され、専門性が希薄化してしまうことは、世界にとっての大きな損失だと私たちは考えています。ITの力によって、研究者がとことん研究に没頭することができる環境をつくる。それが株式会社アンプラットです。