被引用数に依存した評価が、基盤的発見ほど過小評価してしまう構造的限界を、定量的証拠とともに示した。
本研究は、科学的発見が「常識化」する過程で、元論文への明示的引用が減少する現象――マートンのいう「組み込みによる忘却(OBI)」――を、大規模全文テキスト解析で定量化しました。著者らは、LDAを用いて論文中の専門用語(キャッチフレーズ)と、それに対応する基礎論文を対応付け、用語が使われているにもかかわらず引用されないケースを「隠れた引用」と定義しています。物理分野では、AdS/CFT などで隠れた引用が明示的引用数を上回り、全体の6割前後を占める例も確認されました。重要なのは、隠れた引用の多さは被引用数ではなく、本文中での議論量と強く負に相関する点です。つまり、よく語られる概念ほど、引用されにくくなる。これは、現行の計量指標が「成功の代償」を捉え損ねていることを示します。
この研究の面白さ・すごさ
最大の新規性は、「引用されないが使われている」知識を、手作業ではなく解釈可能な機械学習で体系的に抽出した点です。arXiv全文約100万本と Nature 論文を用い、分野・誌に依存しない普遍性を示しました。具体例として、トピック内での条件付き確率 p(cite|mention) が20年で約20%低下すること、言及されているが引用されていない論文となる確率は、被引用数と関係ないことが示されています。
注意点・前提条件
分析単位は「トピック」であり、個別論文への正確な再配分には不確実性があります。また、厳しめの閾値設定により、隠れた引用数は保守的推定です。全文アクセス可能なコーパスに依存するため、分野間比較にはデータ可用性の制約があります。
------
三浦です。
隠れた引用(Hidden Citation)を検出するアルゴリズムは、ある概念(トピック)に最も強く結びついている論文を取り出す手法なので、被引用数だけでなく、特定の研究の系譜を取り出したりなど、応用可能性は広いです。