AI 王実行委員の皆様,
一橋大学の欅と申します.
私は NTCIR-18 にて,資源横断手法を用いた密ベクトル情報検索技術の開発に
取り組む Transfer-2 タスクのオーガナイザーを務めております.
Transfer-2 タスクにおける AI 王コンペのデータセットの利用について
お伺いしたく連絡させて頂きました.
Transfer-2 のサブタスクの一つとして,RAG の検索モジュールの性能が
LLM の出力の性能にどのような影響を与えるのか調査する RAG サブタスクを
実施する予定です.
我々のモチベーションと関連する研究として,下記の論文では RAG で
拡張された文書の性質(適合性)によって LLM の生成結果にどのような影響が
あるのかを調査しており,結論として RAG に適した検索モジュールは従来の
検索システムとは異なる思想で開発する必要があることを主張しています.
・The Power of Noise: Redefining Retrieval for RAG Systems
https://arxiv.org/abs/2401.14887
我々の提案する RAG サブタスクでは,質問応答システムにおいて,
検索モジュール (Retriever) と解答生成モジュール (Reader) それぞれの
性能評価を行う予定です.
モジュール間の性能の関係性や解答生成モジュールの性能改善に寄与する要素の
分析を行うことで,RAG に適した検索モジュールを調査したいと考えて
おります.
その際に,解答生成モジュールの評価には,AI 王コンペのデータセットを
利用させて頂けないかと思い連絡させて頂きました.
具体的にお伺いしたい点としては,下記の 2 点となります.
1. Transfer-2 タスクにおける AI 王公式配布データセット Version 2.0
の利用について
ライセンスの観点においては研究用途での利用は可能だと認識しておりますが,
コンペにおける再利用となると事前に調整させて頂くのが適切かと思いお伺い
させて頂きます.
その際,もしご懸念や注意事項などがあればお伺いさせて頂けますと幸いに
存じます.
2. リーダーボード投稿用テストデータの正解のご提供について
もし Transfer-2 において AI 王公式配布データセット Version 2.0 を利用が
可能な場合に,システム評価のためにリーダーボード投稿用テストデータの
正解をご提供頂くことは可能でしょうか?
また,上記についてのご回答の内容に関わらず,Transfer-2 RAG サブタスクの
設計に関して議論させて頂けますと大変ありがたく存じます.
ご検討のほど,どうぞよろしくお願いいたします.
欅