AI 王コンペのデータセットの利用についてお伺い

18 views

Skip to first unread message

Atsushi KEYAKI

unread,

Mar 29, 2024, 1:32:28 PMMar 29

to jaq...@googlegroups.com, tachio...@core.d-itlab.co.jp

AI 王実行委員の皆様，

一橋大学の欅と申します．
私は NTCIR-18 にて，資源横断手法を用いた密ベクトル情報検索技術の開発に
取り組む Transfer-2 タスクのオーガナイザーを務めております．
Transfer-2 タスクにおける AI 王コンペのデータセットの利用について
お伺いしたく連絡させて頂きました．

Transfer-2 のサブタスクの一つとして，RAG の検索モジュールの性能が
LLM の出力の性能にどのような影響を与えるのか調査する RAG サブタスクを
実施する予定です．
我々のモチベーションと関連する研究として，下記の論文では RAG で
拡張された文書の性質（適合性）によって LLM の生成結果にどのような影響が
あるのかを調査しており，結論として RAG に適した検索モジュールは従来の
検索システムとは異なる思想で開発する必要があることを主張しています．

・The Power of Noise: Redefining Retrieval for RAG Systems
https://arxiv.org/abs/2401.14887

我々の提案する RAG サブタスクでは，質問応答システムにおいて，
検索モジュール (Retriever) と解答生成モジュール (Reader) それぞれの
性能評価を行う予定です．
モジュール間の性能の関係性や解答生成モジュールの性能改善に寄与する要素の
分析を行うことで，RAG に適した検索モジュールを調査したいと考えて
おります．
その際に，解答生成モジュールの評価には，AI 王コンペのデータセットを
利用させて頂けないかと思い連絡させて頂きました．
具体的にお伺いしたい点としては，下記の 2 点となります．

1. Transfer-2 タスクにおける AI 王公式配布データセット Version 2.0
の利用について

ライセンスの観点においては研究用途での利用は可能だと認識しておりますが，
コンペにおける再利用となると事前に調整させて頂くのが適切かと思いお伺い
させて頂きます．
その際，もしご懸念や注意事項などがあればお伺いさせて頂けますと幸いに
存じます．

2. リーダーボード投稿用テストデータの正解のご提供について

もし Transfer-2 において AI 王公式配布データセット Version 2.0 を利用が
可能な場合に，システム評価のためにリーダーボード投稿用テストデータの
正解をご提供頂くことは可能でしょうか?

また，上記についてのご回答の内容に関わらず，Transfer-2 RAG サブタスクの
設計に関して議論させて頂けますと大変ありがたく存じます．

ご検討のほど，どうぞよろしくお願いいたします．

欅

Masatoshi Suzuki

unread,

Mar 31, 2024, 10:51:11 PMMar 31

to JAQKET/AI王

一橋大学欅さま、

AI王実行委員の鈴木正敏です。

AI王のタスクとデータセットにご関心をお寄せいただき、ありがとうございます。
NTCIR-18 のサブタスクにおける AI王データセットの利用につきまして、回答を差し上げます。

「AI 王公式配布データセット Version 2.0」および「リーダーボード投稿用テストデータの正解」につきまして、
どちらも NTCIR-18 のサブタスクにおいてご利用いただけます。

「AI 王公式配布データセット Version 2.0」は、公開されているものをそのままご使用いただければと思います
（AI王の該当ページにリンクする形式でも、ダウンロードしたデータをNTCIRのページでホストする形式でも
　どちらでも大丈夫です）。
「リーダーボード投稿用テストデータの正解」につきましては、欅さま宛に別メールにてデータをお送りします。

なお、データセットのご利用の際には、下記の内容のクレジット表記をお願いいたします。

===
本データセットは、AI王実行委員会より提供を受けており、研究目的での使用を許諾されたものです。
データセットの一部のクイズ問題の著作権は abc/EQIDEN 実行委員会に帰属します。
データセットのライセンスについて詳しくは AI王公式サイトをご確認ください。
===

AI王データセット一般の注意事項といたしまして、題材がクイズ問題であることから、
時事的な要素を含む一部の問題については、コンペ実施時以降に事実関係が変わり、
現在では成立していない問題が一定数含まれている可能性があります。
また、正解データに含まれている正解は、表記揺れや別解などを十分にカバーできていない可能性もあります
（AI王のコンペティションでは人手評価により最終順位を決定しています）。
データセットのご利用の際には、以上の点についてご留意いただければと思います。

以上、AI王のデータセットがご提案のタスクに役立つことがあれば、喜ばしい限りでございます。
ご質問等ございましたら、遠慮なくご連絡いただければと思います。

よろしくお願いいたします。

鈴木正敏

2024年3月30日土曜日 2:32:28 UTC+9 Atsushi KEYAKI:

Atsushi KEYAKI

unread,

Apr 2, 2024, 6:36:27 AMApr 2

to Masatoshi Suzuki, JAQKET/AI王, tachio...@core.d-itlab.co.jp

AI王実行委員鈴木様，

ご回答どうもありがとうございます．
NTCIR-18 でのデータの利用についてご快諾頂き感謝申し上げます．
また，「リーダーボード投稿用テストデータ」の正解もご提供頂けるとのこと，
大変ありがたく存じます．
こちらについては（AI 王と同様に）外部公開はせずに formal run の
システム評価のために利用させて頂きます．

また，クレジットについてと注意事項をお伝え頂きありがとうございます．
下記の点に留意してデータセットを利用させて頂きます．
またご相談させて頂くこともあるかと存じますので，引き続き
どうぞよろしくお願いいたします．

欅

On 2024/04/01 11:51, Masatoshi Suzuki wrote:
> 一橋大学欅さま、
>
> AI王実行委員の鈴木正敏です。
>
> AI王のタスクとデータセットにご関心をお寄せいただき、ありがとうございます。
> NTCIR-18 のサブタスクにおける AI王データセットの利用につきまして、回答
> を差し上げます。
>
> 「AI 王公式配布データセット Version 2.0」および「リーダーボード投稿用テ
> ストデータの正解」につきまして、
> どちらも NTCIR-18 のサブタスクにおいてご利用いただけます。
>
> 「AI 王公式配布データセット Version 2.0」は、公開されているものをそのま
> まご使用いただければと思います
> （AI王の該当ページにリンクする形式でも、ダウンロードしたデータをNTCIRの
> ページでホストする形式でも
> 　どちらでも大丈夫です）。
> 「リーダーボード投稿用テストデータの正解」につきましては、欅さま宛に別
> メールにてデータをお送りします。
>
> なお、データセットのご利用の際には、下記の内容のクレジット表記をお願いい
> たします。
>
> ===
> 本データセットは、AI王実行委員会より提供を受けており、研究目的での使用
> を許諾されたものです。
> データセットの一部のクイズ問題の著作権は abc/EQIDEN 実行委員会

> <https://abc-dive.com/portal/> に帰属します。
> データセットのライセンスについて詳しくは AI王公式サイト
> <https://sites.google.com/view/project-aio/dataset> をご確認ください。
> ===
>
> AI王データセット一般の注意事項といたしまして、題材がクイズ問題であること
> から、

> https://arxiv.org/abs/2401.14887 <https://arxiv.org/abs/2401.14887>

> --
> このメールは Google グループのグループ「JAQKET/AI王」に登録しているユー
> ザーに送られています。
> このグループから退会し、グループからのメールの配信を停止するには
> jaqket+un...@googlegroups.com
> <mailto:jaqket+un...@googlegroups.com> にメールを送信してください。
> このディスカッションをウェブ上で閲覧するには
> https://groups.google.com/d/msgid/jaqket/1b568d35-8aaa-470c-9260-73c90e11a5acn%40googlegroups.com <https://groups.google.com/d/msgid/jaqket/1b568d35-8aaa-470c-9260-73c90e11a5acn%40googlegroups.com?utm_medium=email&utm_source=footer> にアクセスしてください。

Reply all

Reply to author

Forward

0 new messages