データキュレーションが研究データの価値をどのように高めるかを、ICPSRの職員・利用者など複数の関係者へのインタビューから整理しています。
ここでいうデータキュレーションとは「デジタル研究データを、そのライフサイクル全体にわたって維持・保存し、価値を付加すること」です。
論文が強調するのは、透明性には二つの種類があるという点です。
- データが広く公開されているという意味での「可視性」、
- 背後の前処理や判断基準まで含め、利用者が理解しなくても扱える「透過性」。
近年のオープンデータ義務化は「可視性」を高めますが、文書化不足や品質のばらつきが残った場合、資源(利用者のスキルや周りの支援体制)の差がそのまま格差として再生産される可能性があります。
一方で、良いキュレーション(標準化されたワークフロー、丁寧な文書化、長期保存、コミュニティ支援など)が整うと、より公平でバイアスの少ない“透過的な透明性”が実現できると指摘しています。
要するに本論文は、
「オープンデータ化は重要だが、それだけでは不十分。キュレーション基盤への投資があってこそ、真に誰もが利用できるデータ環境になる」
というメッセージを与えるものです。
-----
三浦です。
優れたオープンデータであっても、使い方がわからなかったりして、見つけるまでは結局口コミで広がるものです。そして往々に口コミで情報を得られるのは、すでに資源を持っている著名研究者であったり、いわゆるグローバルノース*であったりします。今までは「弱い」研究者も内部で秘伝のタレを貯めていくことで学生や研究費を集める競争力を確保できていたのが、単に全てオープンにせよ、とするとそれらの弱い研究室が「データ生産労働者」に成り下がる可能性があるという指摘が、オープンデータ、オープンサイエンス反対派からされているようです。実際、的をいた指摘だと思います。
とはいえ、オープンデータが持つ、抗い難い社会への大きな価値貢献を捨てるわけにはいかず、そこで出てくるのがキュレーションというわけです。キュレーションの定義は冒頭に述べられている通りです。
編集後記ですが、普段は三浦が読んだ上で面白い論文をプロンプトチューニングしたLLMに投げてML用の文章をまとめさせているのですが、こう言った論文は良質で読むべきでありながら、定型の枠にはまらないので結局大部分を三浦が書いたりします。サーベイの生成について論文を複数読み始めているのですが、まだまだ商用のエンジニアリングされた
* この表現は実在しない「地理的な南北格差」を強調し固定化する力があるので好きではないのですが、他に良い言葉がなく使いがちです。