モデル性能を結果指標で追うだけでなく、どのデータ投資が将来の汎用性や波及効果を生むのかを判断する視点を与える。
大規模AIの性能向上は、モデル設計よりも「どのデータで事前学習したか」に左右される場面が増えている。しかし既存の情報理論は、データの順序や合成が学習に効くという経験則を十分に説明できない。本論文はそのズレを三つの逆説として整理し、計算資源に制約のある学習者が抽出できる「構造的情報量」をエピプレキシティとして定式化する。チェスやセル・オートマトンの実験では、最終的な損失が同じでも、エピプレキシティが高いデータ順序ほどOut of Domain(学習した範囲の外での)性能が高いことを示した。著者らは、事前学習データの評価軸をパープレキシティから「再利用可能な構造の獲得量」エピプレキシティへ移す必要性を提起する。
この研究の面白さ・すごさ
情報は保存されるという通念に反し、計算過程そのものが新たな「意味ある構造」を生むことを理論と実証で結び付けた点が新しい。従来のモデル選択重視の潮流から「データ選択」に焦点を置き直し、理論化した貢献も大きい。
注意点・前提条件
エピプレキシティは汎化性能そのものを保証する指標ではなく、計算制約や推定手法に依存する。実運用では他指標との併用が前提となる。
印象的なフレーズ
“Information can be created by computation.”
「情報は計算によって創り出されうる。」
----------
三浦です。今回はやや研究者向けの基礎的な内容となっています。かなり機械学習よりの論文ですが、Science of Science 自体が物理学から出発していることもあり、今後のSciSci分野開拓で一つの良い方向になると見ています。また、SciSci以前から、情報理論を使って科学の仕組みを測るのはよく行われてきました。例えば、Shanonエントロピーは
研究分野の多様性を図る指標の一つです。
特に今回の論文は、論文の「貢献度」をより直接的に測る指標になりそうです。今まで私たちは、一本一本の論文が容れ物のように情報を運んでいるモデルを無意識に仮定していました。論文に含まれてる情報は客観的に一意に測れ、それが多ければみんなにとって読む価値が高いし、そうでなければいいジャーナルに載らない、といった考え方です。
Epiplexityではそうではなく、今まで何を学んできたかに依存して、データから何を学べるかは変わるし、それを測ることができる、と言っています。これは、科学と研究者の探索行動についての新しい数理モデルの基盤になるはずです。
ではまた。