JAQKET データセットの qid = ABC01-01-0006 の誤り

101 views
Skip to first unread message

鵜野 和也

unread,
Jan 21, 2021, 2:20:51 AM1/21/21
to jaq...@googlegroups.com
お世話になっております。オージス総研の鵜野と申します。

JAQKET データセットを利用させていただいておりますが、qid = ABC01-01-0006 の
データに誤りを見つけたので、ご連絡させて頂きます。

> {"qid": "ABC01-01-0006", "question": "人気タレント・タモリの本名は何でしょう?",
> "answer_entity": "タモリ",

森田一義さんですね。

以上、よろしくお願い致します。

--
=====================================================================
株式会社 オージス総研
技術部 アドバンストテクノロジセンター データエンジニアリングチーム
鵜野 和也
560-0083 大阪府豊中市新千里西町1丁目2番1号
Tel:06-6871-7993 Fax:06-6872-9404
=====================================================================



m.suzuki

unread,
Jan 21, 2021, 3:19:18 AM1/21/21
to JAQKET/AI王
オージス総研 鵜野様、

JAQKET を作成しました東北大学の鈴木正敏です。
お世話になっております。

JAQKET データの内容についてご指摘いただき、ありがとうございます。

JAQKET の訓練データでは、answer_entity として
クイズの正解の Wikipedia 記事タイトルを自動的に付与しておりますが、
記事に転送(リダイレクト)がある場合は、転送先の記事タイトルを付与しています。
これは、元のクイズの正解の表記揺れや別名を単一化するために行っている処理です。

ご指摘いただいた例では、元のクイズの正解は「森田一義」ですが、
WIkipedia では「森田一義」で記事を検索すると「タモリ」という記事に転送されるため、
answer_entity としては「タモリ」が付与されてしまっております。
訓練データでは、既存のクイズ問題に対して answer_entity の付与を自動で行っている都合上、
このようなエラーはいくつか存在しております。

なお、開発データおよび非公開のテストデータにつきましては、
問題作成の時点で WIkipedia の記事名(リダイレクトなし)が答えになるように
条件づけておりますので、上記のようなエラーは発生しません。

以上、ご参考にしていただけますと幸いです。
どうぞよろしくお願いいたします。

鈴木正敏

2021年1月21日木曜日 16:20:51 UTC+9 鵜野 和也:
Reply all
Reply to author
Forward
0 new messages