実験データの管理、辛くないですか?
実験ノート、研究ノート、エクセル、各種グラフソフトの独自フォーマット、装置毎に出力されるバイナリファイルやヘッダ付きCSVファイル、解析ソフトの初期設定用テキストファイル、スライドのパワーポイントやKeynote、画像ファイル、解析用に作成したテーブルデータのCSV、解析方法をまとめたテキストファイル。
実験科学にはフォーマットの異なる大量のデータが生じます。
ファイルの管理はプロジェクトごとに行うのか、ファイルの種類ごとに行うのか?ファイルの命名規則はどうするのか?解析用サーバー、ローカルドライブ、外部ストレージのどこにファイルを置くのか?
個人レベルでも大変なのに、更にラボメンバーや共同先との共有、更には自身がラボを離れた時のデータ共有などを考えると、ファイルの適切な管理は研究活動においてクリティカルな問題です。
こんな「地味だけどめちゃくちゃみんな困っていること」に着目し、解決策を提示するのがランデフトというベンチャーです。本日はランデフト代表の斉藤耕太郎さんをお招きし、実験データ管理に関してお話を伺います!
ランデフト 斉藤耕太郎さん
2012年に東北大学大学院にて博士号を取得。専門は永久磁石材料の研究を中心とする材料科学。フランスのレオン・ブリリュアン研究所や高エネルギー加速器研究機構、スイスのポール・シェラー研究所でのポスドクやベンチャー企業での新規事業開発を経て、株式会社ランデフトを創業。現在は大阪大学の研究員も兼任。
tayo くまがい
2021年にポスドクを辞めて研究者のコミュニケーションプラットフォームtayo.jpの開発を行う株式会社tayoに専業化。大規模解析も実験もやっていたが整理整頓が苦手なので解析フォルダがえらいことになっていた。
データの管理はマジで辛い
本日よろしくお願いします。研究データ管理はマジで多くの研究者が苦しんでいるところかと思うし、僕もマジで辛かったんですが、確かにスマートな解決策は少ないですよね。まず、どういう経緯でそこに着目したんですか?
2012年に東北大で博士を取ってから、8年ぐらいポスドクとして磁石材料の基礎研究をしていました。材料科学という分野の特性でもあるのですが、ポスドクになってからは民間企業との共同研究を結構やっていたんです。そんな中で企業の研究開発部でも実験データの管理に大きな課題があることを感じたのが元々のきっかけです。
環境とか生物群集とかの複雑系を対象に研究をしていた身からすると、材料科学の実験データがそこまで複雑なのはちょっと意外っす。
磁石の例一つ取っても、こんな感じです。
スタートは一つの物質でも、注目したい特性や測定装置の種類だけ掛け算でデータが増えていきます。またここには書いていないですが、時系列での解析とかが入ると更に複雑になります。
時系列しんどいの超わかる・・・笑。実験系はどこの分野も同じ課題があるんでしょうね。やはり時代と共にデータ量も増えてるんですか?
機械の性能が上がるにつれて、加速度的に増えています。データとしてもそうですが、それ以上に現場の研究者は実感として感じているのではないでしょうか。
具体的に辛かった事例とかあります?
よく覚えてるのは、内部セミナーとか学会発表用に作った図の更新がすごい面倒だったりとかですね。元データを一つ差し替えるだけでも全部の解析がやり直しになったり。
共同研究とか、引き継ぎする時もめちゃ困りますよね。僕は前職の研究所を辞める時に、「XX論文図表 > Figs > Figs_new > 20XXXXXX追加分 > 20XXXXXX追加分_curated > xxx.png」みたいなやばいディレクトリ構造の大量のファイル群を前に「引き継ぎどうしよう・・・」と大いに苦しんだ記憶があります。
実際、担当者の移動などで実質的に使えなくなってしまうデータ類は企業・アカデミア問わず膨大にあるはずで、データを出すコストを考えるとそこにはかなりの無駄が生じているはずなんですよね。属人化している細かい文脈をうまくまとめるのが重要だと思っています。
「研究データDX」での起業
課題はむちゃわかるのですが、研究者から研究支援側に回るのはある種、専門性を捨てる選択ですよね。三流ポスドクだった僕と違い、斉藤さんの華やかな研究業績からすると結構大きな決断じゃないですか?
そもそも2012年に学位を取るタイミングで、アカデミアのPIは向いてないなぁとなんとなく感じてたんですよね。やはり大学の先生って「これを解明したい!」という研究対象に対する内なるパッションが大事かと思うんですが、それがあんまりないな、と。研究・発表・ディスカッション自体は楽しいんですけど。
めちゃくちゃ分かる・・・!!人生かけて自分のテーマに取り組んでる大学の先生、本当にすごいですよね。
斉藤さんの経歴で気になるのはポスドクの後、ベンチャー企業でビジネス寄りのお仕事されてるところです。起業を見据えて、戦略的に経験を積みに行ったんですか?
起業もぼんやりと当時から考えてはいたのですが、そこまで具体的ではなかったです。でも起業への興味を中高の同級生で友人でもあったメドレーの社長に相談したら、そういうことなら是非うちに来ないか?ということで誘ってもらったんです。
当時メドレーは上場直前のイケイケのベンチャーだったので、成長している会社のパターンを知るのは勉強になるだろうと思い、参加しました。
メドレーは医療分野のDXを行う会社ですよね。分野は違いますがランデフトとは共通する部分もありそう。
新規事業開発部で医療機器業界の調査などを行っていたのですが、やはり研究機器業界と近い部分はありますね。とはいえやはり医療は政治が大きく絡んでくるなど、文化的にも構造的にも特殊な業界ではあります。すごく勉強になりました。
ランデフトの事業
ランデフトは研究データ管理のプラットフォームですが、何か目指しているものとかあるんですか?「材料科学分野のGitHub」とか、「材料科学分野のcolaboratory」とか。
それでいうと、実は意識しているのはSalesforceですね。
Salesforce!?色んな意味で意外すぎる!
Salesforce:顧客管理/営業支援/マーケティングオートメーションなどのクラウドベースのシステム。端的に言えばビジネスマンがめちゃ使っているクラウドサービス。
営業において「興味持っているお客さん(リード)」を入力にして、関係値をどんどん更新していくプロセスを管理するのがSalesforceですよね。このようにある情報を起点にして、そこからどんどん次の情報が生成されていくのは研究開発のプロセスに似ているのではないかと思います。
直接的にSalesforceからサービスの着想を得たんですか?
Salesforceにはメドレーにいた頃に初めて触れました。元々作りたかったものはぼんやりあったのですが、Salesforceによってその解像度が高まったという感じです。あと、サービス開発する上で民間企業の研究者に色々ヒアリングしたのですが、なんと実際にSalesforceをカスタマイズして研究プロジェクトの管理をしているところもありました。
それは面白い。確かにあれだけリッチなプラットフォームならそういう使い方もできそう。
とはいえやはり元々の動機は「データ管理をどうにかしたい」という部分で、プロジェクト管理ではないです。pythonでデータ管理をいい感じにする取り組みは研究者時代からずっとやっていました。取り組みの一部は記事にもまとめています。
この記事、最後の文章がめちゃくちゃ素敵なので、引用させてください。笑
紙への印刷・PDF化はやっぱりエクセル 上述した通り、測定リストからうまいこと必要な部分を切り出して生データに対してアレコレできるのがDataFrameを使った測定条件管理の強みであり、それを私は「一覧表の一歩先」と表現してるのですが、一覧表のけっこう大事な機能である紙への出力あるいはPDF化にはDataFrameは全く向いていません。こればかりは、プリントアウトできる行数ならばDataFrame丸ごと、行が多すぎるなら細切れにしてCSVファイル等に一旦出力してからエクセル等表計算ソフトを使って体裁を整えて出力するしかないと思います。
https://qiita.com/skotaro/items/40e76d3863d07a692bd4
研究プロセス全体を一つのプロジェクトファイルで管理できるということなので、プロダクトとしては「研究開発プロジェクト用のデータ構造」に強みや独自性があるんですかね?
ぶっちゃけ、そんなに特別な発想はないんですよ。当たり前のことをやっているだけです。事業化に当たって、アカデミアと民間企業含めた材料科学の研究開発者60人にアンケートを行ったんですが、98%がデータ管理に課題を感じているという結果でした。サービスの説明をするとほぼ全員「これは必要です!」と言ってくれます。
逆に言うとなんでそこまで潜在的なニーズがあったものがこれまで開発されてこなかったんですかね?
これは素材産業という大きな受け皿がある材料科学分野の特殊な事情なんですが、分野の外に出ていく人がすごく少ないんですよね。なので、課題の存在を知っている人が業界内に留まってしまい、ソリューションを提供できる界隈まで課題の存在が伝わらないんです。たぶん人材流動性が低く専門性の高い職種でよく起こることだとは思います。
僕は2000年前半ぐらいからITエンジニアばっかりだったはてなや、最近だとTwitterのエンジニアクラスタに入り浸って趣味でweb開発の話題を追いかけてきたので、開発未経験の割にはweb技術についてそれなりに知っていたんです。趣味で追っていたネタが自分がいた業界の課題のソリューションとしてたまたま親和性が高かったのかな、と思います。
目指す世界観
せっかくなので、最後にランデフトの目指す世界観をかっこよく語ってもらって締めましょう。
弊社は「研究者が、価値のあることをできる時間を最大化する」というミッションを掲げています。論文の書き方とか事務処理の最適化とか色々なアプローチがある中で、僕らはデータ管理という面からこの問題に取り組もうと思っています。
アカデミアへの提供も考えているんですか?
お金が取りづらいのでビジネス的に利のある形で実現するのが難しいんですが、将来的にはやりたいですね。一部のサービスはオープンソースで公開してもいいと思っています。
サービスの将来像としてはどういう展開を考えているんですか?
うちの製品がプロジェクト管理のツールとして普及すれば、例えば「このデータからこのグラフを作るのが大変」というような情報が溜まっていくと思います。そうすれば、そこのギャップを埋める解析ソフトウェア連携したり、とにかくサービス上で欲しい情報が得られたり、やりたいことができるようにしたいですね。
ランデフトで働こう
データ管理のスマート化により「研究者が、価値のあることをできる時間を最大化する」というビジョンに共感する方、是非お話を聞いてみてはいかがでしょうか?
最近のコメント