Hong, Utz & Stoeger 2026, A digital archive reveals how a funding agency cooperated with academics to support the nascent field of genomics, Nature Communications
研究資金配分機関は科学の根幹だが、その意思決定の「中身」は外からほとんど見えない。本研究は、米国立ヒトゲノム研究所(NHGRI)が公開した200万ページ超のデジタル・アーカイブ(ヒトゲノム計画とその後のゲノム科学プロジェクトの内部文書)を、機械学習による本文抽出・個人情報マスキングなど計算機支援型の混合研究法で分析した。その結果、ゲノムワイド関連解析(GWAS)構想の初期の経緯、これまで不透明だった資金決定の要因、NHGRIと外部研究者がプロジェクト間で技術的専門知をどう継承したかを明らかにした。さらに著者らが構築した計算モデルは、「どの生物のゲノムを優先して解読するか」を専門家とNHGRIが共同で決めることでゲノム科学の普及が進んだ過程を再現。資金配分機関が科学コミュニティと「繰り返し協働」することで新興分野のイノベーションを生んだ構造を描き出した。
この研究の面白さ・すごさ
通常はアクセスできない資金配分機関の一次資料を大規模に解析し、「巨大科学はどう運営され、どう決まってきたのか」を実証的に開いた点が出色。クローズドなクラウドに頼らずオープンソースで再現可能なパイプラインを組んだ点、そして歴史記述に留まらず意思決定を再現する計算モデルにまで踏み込んだ点が新しい。
注意点・前提条件
対象はNHGRI/ゲノム科学という単一機関・単一分野の事例であり、他の資金機関や分野へ一般化できるかは未確定。アーカイブ化された文書は公開を前提に取捨選択されている可能性があり、記録に残らなかった非公式なやり取りは捉えにくい。計算モデルの「再現」も相関的説明であり、因果の証明ではない。
------
三浦です。RoBERTaやspaCyといった非常に基本的なツールばかりで構成されているのが印象的です。査読コメントでは、組織的協調と科学的探究についての情報を事務書類から抽出する過程や方法については特筆すべきである一方、この共同を取り巻く法的・規制的、また公的な機関の構造についての注意が薄いという点が指摘されていました。手法面では確かに、こういった研究では、固有名詞抽出と指示語の解消、そして名前の曖昧さ解決が大きな鍵となることが多く、この論文はその点でも非常に勉強になります。
ただし、こうした機械的な手法を使って結局何を明らかにできるのかについては、それを使わない方法に比べて何が明らかにできるのかという差別化を図るのが意外と難しいところがあります。今回の論文では、どの生物のゲノムを予測して解読するかといった、組織的協調による意思決定が必要になるプロセスに注目したのが非常に興味深いです。
博士論文の執筆期間に入り、これから少なくとも1年間はそちらに集中するため、こちらの週刊メーリングリストはお休みします。