研究多様性を測る

11 views
Skip to first unread message

miura-tc...@g.ecc.u-tokyo.ac.jp

unread,
Oct 27, 2025, 8:00:13 PMOct 27
to Science of science研究会
三浦です。
 
近ごろ、どんな研究分野が必要とされるかって本当にコロコロ変わりますよね。
社会の要請も、研究コミュニティの関心も、一気に方向が変わることがあるので、ひとつの専門だけに閉じず「いろんな種が生きている環境」を保つことが、大学や研究所にとってけっこう大事だなと感じています。
 
ですが、多様性は意外と測るのが難しい。単に大まかな区分で論文が出ている分野がいくつあるか数えたりするだけでは、「突き詰めた専門性が多様な研究に活きる」ことなどは見えてこないことも多いです。また、新しい分野が頭角を示してきているときには、まだ区分がありませんね。
 
週末に、大学ごとの「研究の多様性」を少し変わった方法で測ってみたところ、思いのほか議論が広がったので、軽く共有させてください。
 
今回やったことは、とても単純です。
大学が出している論文のアブストラクトを全部つなげて、一つの長い文章にして、zip で圧縮しました。もし圧縮しやすければ「似たような表現が多く、均質」、圧縮しにくければ「語彙や内容が多様」だろう、という考え方です*1。
実際にやってみると、大学によってけっこう差が出ました。病院(USでは研究機関の一つです)や化学工学の大学が専門側に、Berkely や CAS*2が多様側にでてます。総合大学ほど論文数が多い傾向にあり、残念ながら大区分の影響を大きく受けていますが、それだけでは説明しきれず、国や研究文化ごとの違いが目立ちました。
特に、欧州の大学はやや「多様寄り」、中国の大学は「専門より」に集まる傾向がありました。一方で、東アジア全体が中国と同じ位置にいるわけではなく、日本や韓国はむしろ多様側に分布しています。
 
LinkedIn では、
「研究者数の多さや、どのくらいの期間の研究を含めるかも影響しそう」
「アブストは文体が似てしまうから本文で試すべきでは」
「英語の習熟度が、使われる表現の多様さに大きく影響しているのでは*3」
といった意見が交わされています*4。
 
私自身、計量書誌学はアブストばかり使うのに抵抗があるのですが、逆にアブストという“狭い窓”でもこれだけ差が出たのは興味深いです*5,6。
 
もしご興味あれば、こちらに簡単な可視化と考察をまとめています:
(末尾にインタラクティブプロットをHTMLで置いてみてます。ちょっと動かないかもしれませんが。)
 
以上、日曜の小実験でした。
ご意見や「うちの機関も試してほしい」などあれば、ぜひ教えてください。
 
来週からは再び論文紹介をしようと思います。
ではまた。


--------
*1背景にはKolmogorov複雑度という「どれだけその文字列を再現するのに長いプログラムが必要か」という情報量の尺度があります。人間も一つのアルゴリズムですから、それが生成する文章も何らかのアルゴリズムから近似的に生成できそうです。科学の文章に表現されている同じ思考過程を再現するのに、組み合わせなければならないアイデアの数とも言えるかもしれません。
 
*2 中国科学院:さまざまな分野から複数大学を連携する中国のR&Dコンソーシアムです。
 
*3 この点がこの分析をまともな論文にするためには一番必要なことですね。私も気になります。もし興味がある人がいれば一緒に掘り下げてみましょう。
 
*4 荒削りな結果は、プレプリントとしてよりも、こういったSNS上で展開すると、より多様なフィードバックが得られますね。
 
*5 もし掘り下げるなら、複数年度に分けて測っても機関ごとの位置が一貫していれば、まず何かしらを反映している指標とは言えそうです。その次に他の多様性指標との相関かな。
 
*6 機関といっても、大学単位ではほとんど意味がなく、部局単位で見ると面白そうです。例えば東大で言えば未来ビジョン研究センターや新領域創生、京大で言えば白眉センターなど、「分野横断」を旨としている研究センターがあります。

Daichi Mochihashi

unread,
Oct 28, 2025, 8:14:11 AMOct 28
to miura-tc...@g.ecc.u-tokyo.ac.jp, Science of science研究会
三浦さん、皆様:

持橋@統数研です。お疲れ様です。

三浦さん、非常に興味深い話をどうもありがとうございました。
Zipで圧縮率を見て指標にするという研究は、情報理論や自然言語処理でぽつぽつ
あるにはありましたが、今回のようにSciSciの文脈で行うのは新しく、
結果も大変面白いと思いました。

Zipの名前の元になっているLempel-Zivアルゴリズムは、基本的には繰り返し
を検出するものですので、もしかすると (大学ごとに連結した大きなテキストに
対して) 文字や単語のエントロピーを計算すれば、ほぼ同じ結果になるかもしれません。

個人的には、日本の位置がどこにあるのか、また日本の大学でも平均より上に
ある大学とそうでない大学は何なのか、が大変気になりました。
この話は論文にされるのでしょうか。さらに発展されることを期待しています。

-- Daichi Mochihashi
The Institute of Statistical Mathematics, Professor
dai...@ism.ac.jp
http://chasen.org/~daiti-m/index-j.html

2025年10月28日(火) 9:00 miura-tchiaki873 via Science of Science Network
<science-o...@googlegroups.com>:
>
> 三浦です。
>
> 近ごろ、どんな研究分野が必要とされるかって本当にコロコロ変わりますよね。
> 社会の要請も、研究コミュニティの関心も、一気に方向が変わることがあるので、ひとつの専門だけに閉じず「いろんな種が生きている環境」を保つことが、大学や研究所にとってけっこう大事だなと感じています。
>
> ですが、多様性は意外と測るのが難しい。単に大まかな区分で論文が出ている分野がいくつあるか数えたりするだけでは、「突き詰めた専門性が多様な研究に活きる」ことなどは見えてこないことも多いです。また、新しい分野が頭角を示してきているときには、まだ区分がありませんね。
>
> 週末に、大学ごとの「研究の多様性」を少し変わった方法で測ってみたところ、思いのほか議論が広がったので、軽く共有させてください。
>
> 今回やったことは、とても単純です。
> 大学が出している論文のアブストラクトを全部つなげて、一つの長い文章にして、zip で圧縮しました。もし圧縮しやすければ「似たような表現が多く、均質」、圧縮しにくければ「語彙や内容が多様」だろう、という考え方です*1。
> 実際にやってみると、大学によってけっこう差が出ました。病院(USでは研究機関の一つです)や化学工学の大学が専門側に、Berkely や CAS*2が多様側にでてます。総合大学ほど論文数が多い傾向にあり、残念ながら大区分の影響を大きく受けていますが、それだけでは説明しきれず、国や研究文化ごとの違いが目立ちました。
> 特に、欧州の大学はやや「多様寄り」、中国の大学は「専門より」に集まる傾向がありました。一方で、東アジア全体が中国と同じ位置にいるわけではなく、日本や韓国はむしろ多様側に分布しています。
>
> LinkedIn では、
> 「研究者数の多さや、どのくらいの期間の研究を含めるかも影響しそう」
> 「アブストは文体が似てしまうから本文で試すべきでは」
> 「英語の習熟度が、使われる表現の多様さに大きく影響しているのでは*3」
> といった意見が交わされています*4。
>
> 私自身、計量書誌学はアブストばかり使うのに抵抗があるのですが、逆にアブストという“狭い窓”でもこれだけ差が出たのは興味深いです*5,6。
>
> もしご興味あれば、こちらに簡単な可視化と考察をまとめています:
> https://millephilosoph.xyz/posts/dna-barcoding-research-diversity/
> (末尾にインタラクティブプロットをHTMLで置いてみてます。ちょっと動かないかもしれませんが。)
>
> 以上、日曜の小実験でした。
> ご意見や「うちの機関も試してほしい」などあれば、ぜひ教えてください。
>
> 来週からは再び論文紹介をしようと思います。
> ではまた。
>
>
> --------
> *1背景にはKolmogorov複雑度という「どれだけその文字列を再現するのに長いプログラムが必要か」という情報量の尺度があります。人間も一つのアルゴリズムですから、それが生成する文章も何らかのアルゴリズムから近似的に生成できそうです。科学の文章に表現されている同じ思考過程を再現するのに、組み合わせなければならないアイデアの数とも言えるかもしれません。
>
> *2 中国科学院:さまざまな分野から複数大学を連携する中国のR&Dコンソーシアムです。
>
> *3 この点がこの分析をまともな論文にするためには一番必要なことですね。私も気になります。もし興味がある人がいれば一緒に掘り下げてみましょう。
>
> *4 荒削りな結果は、プレプリントとしてよりも、こういったSNS上で展開すると、より多様なフィードバックが得られますね。
>
> *5 もし掘り下げるなら、複数年度に分けて測っても機関ごとの位置が一貫していれば、まず何かしらを反映している指標とは言えそうです。その次に他の多様性指標との相関かな。
>
> *6 機関といっても、大学単位ではほとんど意味がなく、部局単位で見ると面白そうです。例えば東大で言えば未来ビジョン研究センターや新領域創生、京大で言えば白眉センターなど、「分野横断」を旨としている研究センターがあります。
>
> --
> イベントの案内を希望の方は、 scis...@googlegroups.com で直接投稿ください。モデレータが判断し、送信します。
> ---
> このメールは Google グループのグループ「Science of Science Network」に登録しているユーザーに送られています。
> このグループから退会し、グループからのメールの配信を停止するには science-of-scie...@googlegroups.com にメールを送信してください。
> このディスカッションを表示するには、https://groups.google.com/d/msgid/science-of-science/ff8a9fc8-088b-46c2-9e7f-6f408452f5c3%40Spark にアクセスしてください。

miura-tc...@g.ecc.u-tokyo.ac.jp

unread,
Oct 29, 2025, 2:35:34 AMOct 29
to Daichi Mochihashi, Science of science研究会
LZ-77ですね。確かにエントロピーでも十分かもしれませんし、その方が説明性がありますね。
 
テーマ自体は面白そうではあるのですが、私のメインのテーマとはズレるので、もし他のScisci研究に興味がある学生で、一緒にやれそうな人がいればその人に主著やってもらって出せるといいなという感じですね。データ自体はオープンデータを使っているので、共著の制約は小さいです。
 
ちなみに、元ブログでは国別のインタラクティブなプロットも出しています。色分けが少しみづらいですが、分布は見られるようになっています。
後から入ってきてこのスレッド読んだ人でも、気軽に声をかけてください。
Reply all
Reply to author
Forward
0 new messages