Andrew H. Tyner et al. 2026 Identifying the potential causes of replication failures assumes that the existing evidence of replication failures is itself replicable.
心理学100件を追試したOpen Science Collaboration(2015)や経済学実験を検証したCamerer et al.(2016; 2018)など、再現性の危機を報告する研究は過去10年で蓄積されてきた。しかしそれらの先行研究には共通の弱点があった。対象分野が限定的で、追試の検出力が不十分な場合もあり、成功・失敗の判定基準も研究ごとに異なっていた。つまり「再現率が低い」という知見そのものが、方法論的な恣意性に左右されうる状態にあった。
DARPAが約800万ドルを投じ865人の研究者が7年をかけて完遂した本プロジェクトは、この要請に応えるため、あらゆる交絡要因を体系的に潰す設計が施されている。追試の検出力中央値99.6%(失敗を検出力不足で説明させない)、全追試計画の事前内部査読(追試者の恣意的判断を排除)、13通りの判定基準の並列適用(特定基準による結論操作を不可能にする)、そして犯罪学から経済学・心理学・教育学・政治学・社会学まで54誌を横断する同一プロトコル(分野間比較を初めて可能にする)。
2009–2018年の約3,900本から選ばれた164本・274件の正の結果に対する追試の結果、有意に再現されたのは55.1%、論文単位では49.3%。効果量の中央値はPearsonのrで元研究0.25→追試0.10(共有分散の82.4%が消失)。13通りの判定基準では成功率が28.6–74.8%と大きく揺れた。同時掲載の姉妹論文(Miske et al.)は、データとコードが公開されている場合の精密再現率75%に対し未公開では11%に急落することを示し、オープンデータの決定的重要性を実証した。
この研究の面白さ・すごさ
過去の再現性研究が「再現率は低い」という事実の発見だったのに対し、SCOREは「再現率が低いという結論を出すプロセス自体の再現可能性」を担保した点で次元が異なる。検出力・プロトコル・判定基準・分野横断性という4つの軸で交絡を潰し、Nature同号に再現性・再現可能性・分析頑健性の3論文を同時掲載する構成は、科学の自己検証を一回限りのイベントから体系的インフラへと昇格させる試みと言える。
注意点・前提条件
追試対象は正の結果に限定されており、平均への回帰だけでもある程度の効果量縮小は予測される。55%を「半分は嘘」と読むのは過剰であり、論文自身もこの点を明示している。判定基準13通りで28.6–74.8%と揺れる事実は、「再現されたとは何か」の定義問題をこの研究も解決していないことを意味する。またデータ公開率24%の現状では、再現不能が知見の虚偽に起因するのか手続き記述の不完全さに起因するのかを分離しきれない。
------
三浦です。