ML各位(クロスポストお許しください)
お世話になっております。
石川@神戸大です。
さて、拙研究室では、昨年リリースした統合語彙表自動作成ツール「EJWFTG」(個々のファイルごとに単語頻度を一覧できる統合頻度表を作成)の姉妹ツールとして、特徴語自動抽出ツール「EJTKAN」を仮リリースしました。日本語、英語、2言語の処理に対応しています。
〇使用例
・1980年代と2020年代の小説を比較して2020年代小説の特徴語を調べる
・書き言葉と話し言葉を比較して話し言葉の特徴語を調べる
・初級L2学習者と上級学習者を比較して上級者の特徴語を調べる
・イギリス英語とアメリカ英語を比較して各々の特徴語を調べる、などなど。
〇アクセス
https://bit.ly/EJTKAN
〇説明
English/Japanese Text Keyword Analyzer (V1.0)
[About] ターゲット(Target)データおよび参照(Reference)データとして、それぞれ、1つないし複数のテキストファイルをアップロードすると、形態素解析を行い、ターゲット側において参照側よりも顕著に多く(または少なく)出現する特徴語(keyword)のリストを抽出します。特徴語は、表層形(wordform)、表層形+品詞、語彙素(lemma)、語彙素+品詞の4モードで出力され、加えて、特徴品詞が出力されます。特徴度(keyness)の尺度として、各種の統計量(カイ二乗値、対数尤度比、ベイズ因子など)および効果量(オッズ比、リスク比、LogRatio他)を出力します。分析結果はエクセル(xlsx)形式でダウンロードが可能で、自由に加工することができます。
〇使用方法
(0) 事前にgoogleのアカウントにログインしておく
(1) ターゲットコーパスとして、日本語または英語のファイル(1つでもよいし複数でもよい)をアップロード
(2) 参照コーパス(※比較相手)として、日本語または英語のファイル(1つでもよいし複数でもよい)をアップロード
※日英ともUTF-8にしておくこと
(3) 自動で形態素解析が行われ、分析結果がExcelで出力される
(4) 必要な場合は形態素解析済みテキストファイルをDLすることも可能
〇姉妹ツール
EJWFTG(2025/3にV2にアップデート)
https://bit.ly/EJWFTG-V2
〇関連発表
国語研の言語資源WS2025で発表させていただきます(8/29)
https://clrd.ninjal.ac.jp/lrw2025-programme-c.html
β版公開です。ご使用になられてお気づきの点などございましたらおしらせくださいませ。
石川慎一郎@神戸大
Dr. Shin ISHIKAWA (he/his)
Kobe University
iskw...@gmail.com