How computers broke science – and what we can do to fix it

Ben Marwick, University of Washington

※本稿は、The Conversationに掲載された"How computers broke science – and what we can do to fix it"の全訳です。著者であるBen Marwick氏の許可を得て翻訳しました*1。

「再現性」は、科学の最も根本的な礎の一つだ。1660年代に活躍した英国の科学者・ロバート・ボイルによって多くの人に受け入れられるようになったこのアイデアは、発見が再現可能でなければ科学的知見として受け入れることはできないというものである。

本質的には、私が、発見を学術論文において公開したときに説明したのと同じ方法をとれば、私がなしたのと同一の結果に到達できるべきだ。例えば、研究者が病気を治療することについて新薬の有効性を再現できれば、それは、その病気に苦しむすべての人々に対して、有効に作用しうるということへの良いサインとなる。もし再現できないのであれば、何らかのアクシデントやミスが元の好ましい結果を生み出したのではないかということについて疑問に思うことになるだろうし、そしてまた、薬の有効性を疑うことになるだろう。

科学の歴史の大部分において、研究者は、その方法を結果の独立な再現が可能となるようなやり方で報告してきた。しかし、パソコンの導入―そして、よりユーザーフレンドリーな進化を遂げたポイントアンドクリック型のソフトウェアの導入以降、多くの研究の再現性が、不可能ではないにしても、疑問視されるようになってきている。多くの研究者が依存するようになったコンピュータの不透明な使用によって、あまりにも多くの研究の過程が包みこまれているのだ。これは、外部の人間が、その結果を改めて作り出すことを概して不可能なものとしている。

最近、いくつかのグループが、この問題に対し、似通った解決策を提案している。彼らは、一緒になって、科学的データを、記録のないコンピュータ操作のブラックボックスから出し、そして、独立した読み手が、改めて批判的に検討し、結果を再現できるようにしようとしている。研究者、市民、そして科学それ自体が利益を得ることになるだろう。

コンピュータはデータの世話をする、しかしそれだけでなく覆い隠す

統計学者のVictoria Stoddenは、コンピュータが科学の歴史において占めてきた独特の地位を説明してきた。それは、（望遠鏡（telescope）や顕微鏡(microscope)のような）新しい研究を可能にするただの道具ではなかった。コンピュータは、異なる意味で革命的なものだ。つまりは、それは科学的なデータの新しいパターンを見つけるためのあらゆる種類の新しい「視野（Scope）」を作り出す小さな工場なのだ。

ものすごく定量的であるというわけではない分野においてさえ、コンピュータなしで働く現代の研究者を見つけることは難しい。生態学者は、災害の動物の生息数に対する影響をシミュレートするのにコンピュータを使う。生物学者は、膨大な量のDNAデータを検索するのにコンピュータを使う。天文学者は、望遠鏡の膨大な並べ方をコントロールし、そしてデータを処理するのにコンピュータを使う。海洋学者は、衛星、船舶そしてブイからのデータを結合して、地球の気象を予測するのにコンピュータを使う。社会科学者は、政策の効果を検証し、あるいは、予測するために、また、インタビューの書き起こしを分析するためにもコンピュータを使う。コンピュータは、ほぼ全ての学問分野の研究者がデータ中の何が面白いかを見出すのを助けている。

また、コンピュータは、個人用の機器になりがちだ。私たちは、一般的に、自分のコンピュータを他の人には使わせないで一人で使うし、そこに入っているファイルやフォルダは、全体としては、個人の領域として考えられ、世間の目からは隠されたところに置かれる。データを、準備し、分析し、そして結果を目に見えるものにする、これらは、個人的な領域である、コンピュータ上で行われる仕事だ。パイプラインの最後の最後のところだけが、全ての個人で行っていたことを要約した雑誌論文として、公の目にさらされる。

ここで問題となるのは、現代の科学の多くはとても複雑で、かつ、雑誌論文の多くはとても短い、つまりは、研究者がデータをコンピュータ上で分析するに際して行った多くの重要な手法や決定の詳細を論文中にすべて治めることは不可能であるということだ。これでは、どうすれば他の研究者は結果の信頼性を判断し、分析を再現することができるだろうか？

Good luck recreating the analysis. US Army

科学者はどれほどの透明性を求められるか？

スタンフォードの統計学者であるJonathan BuckheitとDavid Donohoは、パーソナルコンピュータがまだかなり新しい概念であった1995年という早い時期にこの問題を説明している。

計算科学については、科学論文における記事は学問的成果そのものではない、それは、単に学問的成果の広告に過ぎない。図を作り出した開発環境全体と一連の機器全体こそが実際の学問的成果なのだ。

彼らは過激な要求を行った。それは、私たちのパソコン上の全ての私的なファイルと、成果の公開の準備のために行った私的な分析を、科学誌の記事と併せて公開すべきだということを意味した。

これは、科学者の仕事の方法を大きく変えることになるだろう。私たちは、初めからコンピュータ上で行われる全てのことを最終的に他の人に見せられるように準備する必要があることになる。多くの研究者にとって、それは圧倒的されるような意見だ。Vicroria Stoddenは、ファイルを共有するにあたって最も大きな障害は、その準備のために文書を書き、ファイルをクリーニングするのに要する時間であるとした。次に大きな関心は、他の誰かがこれを用いたときに、そのファイルに対してクレジットの表示を受けられないというリスクにある。

再現性を増強するための新しいツールボックス

What secrets are within the computer? US Army

近年、いくつかの異なる科学者のグループが、コンピュータ上のファイルと分析の追跡を容易にするツールと方法の勧告に向けて集中している。これらのグループには、生物学者、生態学者、原子力技術者、神経科学者、経済学者そして政治学者が含まれる。マニフェストにも似た文書には、彼らの勧告が示されている。こうした異なる分野の研究者が共通の行動方針に向けて集まるというのは、科学という営みにおける大きな潮流が進行中であるかもしれないことを示す兆候だ。

第一の大きな勧告、それは、データ分析におけるポイントアンドクリック形式の過程を、コンピュータが実行する命令を含むスクリプトを用いることが可能な範囲で最小化し、置き換えるということである。これは、他の人とのやり取りが難しく、また、自動化が困難である、痕跡を少ししか残さない、はかないマウスの動きの記録という問題を解決する。それは、MicrosoftのExcelのような表計算プログラムを用いるデータクリーニングと組織化のタスクの間にも共通する。一方で、スクリプトは、あいまいさのない命令を含むものであり、将来的にその筆者（とりわけ特に詳細な点が忘れられてしまった場合）や他の研究者によって読まれることが可能である。更に、それは大きなファイルではないから、科学誌の記事に含めることが可能だ。そしてまた、スクリプトは、容易に研究上のタスクの自動化に適応することができ、これは、時間の節約やヒューマンエラーの可能性を減少させることにもなる。

微生物学、生態学、政治学そして考古学において、その例をみることができる。結果を得るために、メニューとボタンの周りでマウスを動かし、手動で表のセルを編集し、そして、いくつかの異なるソフトウェア間でファイルを引っ張りまわす代わりに、これらの分野の研究者はスクリプトを書く。そのスクリプトは、ファイルの移動、データのクリーニング、統計的分析そして、グラフ、図、表の作成を自動化する。これは、分析をチェックしたり、異なるオプションを検討したりするために再実行する際に大きな時間の節約になる。そして、論文の一部となったスクリプトファイルのコードを見れば、誰もが、公表された結果を導いた正確なステップを知ることができる。

他の勧告には、ファイルの保存にあたって共通の、独占的でないファイルフォーマット例えば表形式のデータであればCSVやコンマによる変数分離形式）やどのように情報が構成されているのかを他の人が理解しやすいような体系的なフォルダへのファイルの整理のためのシンプルな説明を用いることを含んでいる。また、データの分析や可視化のためには、どのようなコンピュータシステム（例えば、Windows, MacそしてLinux）でも利用可能なフリーソフトウェアを推奨している（例えば、RやPython)。共同作業を行うためには、多くの人々が同じファイルを編集する際に変更履歴を追う助けになるGitと呼ばれるフリープログラムを推奨している。

近頃では、これらは前衛的なツールと方法であって、多くの中堅以上の研究者は漠然とした意識しか持ち合わせていない。しかし、多くの学部生は今これを学んでいる。多くの大学院生は、自らが職を得るのに有利であると考え、オープンフォーマット、フリーソフトウェアや効率化された共同作業を用いており、制度上のトレーニングとのギャップを埋めるために、Software Carpentry、Data CarpentryそしてrOpenSciのようなボランティア組織にトレーニングの場やツールを求めている。私の大学では、最近、研究者が先にみてきた勧告に適応することを支援するため、eScience 研究所を設立した。この研究所は、バークレー校やニューヨーク大学にある同様の研究所を含む大きな動きの一部となっている。

これらのスキルを学んだ学生が卒業し、そして、影響力のある立場になっていっており、これらの基準が科学の新しい標準になっていくであろう。学術ジャーナルは、論文に付けるコードとデータを要求することになるだろう。資金提供機関は、コードやデータが誰もがアクセス可能であるオンラインレポジトリにおかれることを要求するだろう。

Example of a script used to analyze data. Author provided

オープンフォーマットとフリーソフトウェアはWin-Winだ

研究者のコンピュータ利用の方法におけるこの変化は、市民参加にとっても有益なものとなるだろう。研究者は、そのファイルや手法のうちより多くをより快適な方法で共有することができるようになり、一般市民は、科学的調査へのよりよいアクセスを得ることになるだろう。例えば、高校の教員は、生徒に直近に刊行された発見から生データを見せ、そして、分析の主要な部分を追体験させることができる、なぜならば、それらすべてのファイルが学術誌の記事に付属して利用可能となるからだ。

同様に、研究者がフリーソフトウェアを使うことが多くなれば、一般市民が、科学誌の記事に公開された結果をリミックスし拡張するのに、同じソフトウェアを使うことができる。現在、多くの研究者は高額な商用ソフトウェアを使っているが、そのコストによって、大学や大企業の外にいる人々はソフトウェアにアクセスすることができない。

もちろん、パソコンは、科学における再現性にまつわる唯一の問題ではない。貧弱な実験デザイン、不適切な統計手法、高度に競争的な研究環境、そして、新規性や知名度の高いジャーナルに論文を出すことに高い価値を置くこと、これらは全て批判されるべきだ。

コンピュータの役目の独特な点、それは、問題への解決方法を持っていることだ。どんな科学者がコンピュータで行った研究の再現性をも改善するため、計算科学研究から借りた成熟したツールとよく検証されてきた手法を明確に推奨できる。これらのツールを学ぶための小さな時間の投資によって、私たちはこの科学の根本的な礎の修復に向かうことができるのだ。

Ben Marwick, Associate Professor of Archaeology, University of Washington

This article was originally published on The Conversation. Read the original article.

*1:原文はCC-BY-NDで公開されています。翻訳にあたっては、東京大学大学院学際情報学府博士課程の加瀬郁子氏の助力を得ました。記して感謝します。