AI王 〜クイズAI日本一決定戦〜 第2回コンペティションについてご質問

43 views
Skip to first unread message

wataru sakata

unread,
Dec 12, 2021, 3:05:00 AM12/12/21
to JAQKET/AI王
AI王 〜クイズAI日本一決定戦〜 問い合わせ担当者様

お世話になっております。LINE株式会社の坂田と申します。
先日は迅速な対応ありがとうございました。

追加で一点質問があるのですがご回答いただければ幸いです。
公式ページによると”利用可能なデータは一般公開されているもののみ”とありますが、一般公開されているWebサイトをクロールして取得したデータの利用は許容されますか。例えば朝日新聞デジタル(https://www.asahi.com/)やpixiv百科事典(https://dic.pixiv.net/)、Weblio国語辞典(https://www.weblio.jp/)などの本文データをクロールして情報源として利用するようなことは可能でしょうか

お忙しい中申し訳ございませんがよろしくお願いいたします。
--------

LINE株式会社 NLP開発チーム
坂田 亘

Jun Suzuki

unread,
Dec 12, 2021, 3:18:49 AM12/12/21
to wataru sakata, JAQKET/AI王
LINE株式会社 坂田様

AI王運営委員長(東北大)の鈴木です.
質問ありがとうございました.

ご質問の件ですが,webサイトをクロールして取得したデータは利用可能です.
基本的な考えとして,他の人が論文やシステム報告を読んで,そのシステムを
再現しようとした際に「使えないデータがある」という事態になってはいけない
という基準で考えていただければと思います.

よって,例えば御社がもつ特別なシステムや技術でしか取得することができない
データということになると,ご利用を控えていただくことになりますが,
一般にある技術を使って普通にクロールしてきたデータは問題ありません.

以上の回答で頂いた質問に的確に答えられていればよいですが,もし追加で
不明点などあれば,再度ご質問していただければと思います.

以上よろしくお願いします.

p.s.
もしよろしければ,コンペ参加登録の方もぜひ早めにしていただけると
ありがたいです.
参加登録したら絶対に参加しなくてはいけないわけではないので,気軽に
登録していただけると幸いです. ご検討よろしくお願いします.


On 2021/12/12 17:04, wataru sakata wrote:
> AI王 〜クイズAI日本一決定戦〜 問い合わせ担当者様
>
> お世話になっております。LINE株式会社の坂田と申します。
> 先日は迅速な対応ありがとうございました。
>
> 追加で一点質問があるのですがご回答いただければ幸いです。
> 公式ページによると”利用可能なデータは一般公開されているもののみ”とありますが、一般公開されているWebサイトをクロールして取得したデータの利用は許容されますか。例えば朝日新聞デジタル(https://www.asahi.com/) <https://www.asahi.com/)>やpixiv百科事典(https://dic.pixiv.net/)、Weblio <https://dic.pixiv.net/)%E3%80%81Weblio>国語辞典(https://www.weblio.jp/)などの本文データをクロールして情報源として利用するようなことは可能でしょうか <https://www.weblio.jp/)%E3%81%AA%E3%81%A9%E3%81%AE%E6%9C%AC%E6%96%87%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%AB%E3%81%97%E3%81%A6%E6%83%85%E5%A0%B1%E6%BA%90%E3%81%A8%E3%81%97%E3%81%A6%E5%88%A9%E7%94%A8%E3%81%99%E3%82%8B%E3%82%88%E3%81%86%E3%81%AA%E3%81%93%E3%81%A8%E3%81%AF%E5%8F%AF%E8%83%BD%E3%81%A7%E3%81%97%E3%82%87%E3%81%86%E3%81%8B>。
>
> お忙しい中申し訳ございませんがよろしくお願いいたします。
> --------
>
> LINE株式会社 NLP開発チーム
> 坂田 亘
>
> --
> このメールは Google グループのグループ「JAQKET/AI王」に登録しているユーザーに送られています。
> このグループから退会し、グループからのメールの配信を停止するには jaqket+un...@googlegroups.com <mailto:jaqket+un...@googlegroups.com> にメールを送信してください。
> このディスカッションをウェブ上で閲覧するには https://groups.google.com/d/msgid/jaqket/CABkk1nU6oEd9QzzEEBFTFJ%3D%3D2n3Tyg_jXu3sSCOrN6zmAf65rw%40mail.gmail.com <https://groups.google.com/d/msgid/jaqket/CABkk1nU6oEd9QzzEEBFTFJ%3D%3D2n3Tyg_jXu3sSCOrN6zmAf65rw%40mail.gmail.com?utm_medium=email&utm_source=footer> にアクセスしてください。

Jun Suzuki ecei

unread,
Dec 12, 2021, 3:30:35 AM12/12/21
to wataru sakata, JAQKET/AI王
LINE株式会社 坂田様

AI王運営委員長(東北大)の鈴木です.
すみません,一点書き忘れたのですが,クロールして取得すること自体の
処理はAI王の規定上は問題ないですが,もちろん各サイトの利用規約は
また別問題なので,違反しないようにお願いします.
この辺り自分もよくわかっていないので,あまり確たることはいえない
ですが,後々に権利侵害や利用規約違反にならないように注意して
各サイトのデータを取得していただければと思います.

以上よろしくお願いします.

wataru sakata

unread,
Dec 12, 2021, 3:54:46 AM12/12/21
to Jun Suzuki ecei, JAQKET/AI王
AI王 〜クイズAI日本一決定戦〜 問い合わせ担当者様

お世話になっております。LINE株式会社の坂田と申します。
ご回答ありがとうございます。


ご質問の件ですが,webサイトをクロールして取得したデータは利用可能です.
基本的な考えとして,他の人が論文やシステム報告を読んで,そのシステムを
再現しようとした際に「使えないデータがある」という事態になってはいけない
という基準で考えていただければと思います.

よって,例えば御社がもつ特別なシステムや技術でしか取得することができない
データということになると,ご利用を控えていただくことになりますが,
一般にある技術を使って普通にクロールしてきたデータは問題ありません.
 
すみません,一点書き忘れたのですが,クロールして取得すること自体の
処理はAI王の規定上は問題ないですが,もちろん各サイトの利用規約は
また別問題なので,違反しないようにお願いします.

ありがとうございます。方針についてよくわかりました。
補足についてもありがとうございます。 


p.s.
もしよろしければ,コンペ参加登録の方もぜひ早めにしていただけると
ありがたいです.
参加登録したら絶対に参加しなくてはいけないわけではないので,気軽に
登録していただけると幸いです. ご検討よろしくお願いします.

はい、早めに参加手続きの方進めて行こうと考えております。ご提案ありがとうございます。
迅速な回答ありがとうございました。今後ともよろしくお願いいたします。

--------

LINE株式会社 NLP開発チーム
坂田 亘


2021年12月12日(日) 17:30 Jun Suzuki ecei <jun.s...@tohoku.ac.jp>:

wataru sakata

unread,
Dec 28, 2021, 8:22:07 PM12/28/21
to Jun Suzuki ecei, JAQKET/AI王
AI 〜クイズAI日本一決定戦〜 問い合わせ担当者様

いつもお世話になっております。

追加で一つ質問があります。
第2回コンペティション 開発用データ v1.0 のanswersの作り方についてですが、複数あるものは問題作成依頼のときにクイズ作家が複数作成したという認識で正しいでしょうか。
昨年のものはwikipediaのタイトルに答えがあるものは、タイトルと一致するように正規化したものがあったと思いますが、
今回そのような処理はしておらず、表記揺れによる間違い(answersが["しょうゆ"]でシステムが"醤油"を出力)の場合は不正解となり、人手評価の際に正答となるということでしょうか。

ご回答よろしくお願いいたします。
--------
LINE株式会社 NLP開発チーム
坂田 亘


2021年12月12日(日) 17:54 wataru sakata <sakata...@gmail.com>:

Jun Suzuki

unread,
Jan 3, 2022, 7:28:07 PM1/3/22
to wataru sakata, JAQKET/AI王
LINE株式会社 坂田様

AI王運営委員長(東北大)の鈴木です.
質問ありがとうございました.

以下いただいていた質問の回答です.

> 第2回コンペティション 開発用データ v1.0 のanswersの作り方についてですが、複数あるものは問題作成依頼のときにクイズ作家が複数作成したという認識で正しいでしょうか。

はい,正しいです.

> 昨年のものはwikipediaのタイトルに答えがあるものは、タイトルと一致するように正規化したものがあったと思いますが、

前回は,解答が「Wikipediaのタイトルに一致」する質問のみを対象としています.
ですので,正規化というよりは,Wikipediaのタイトル(約100万)が答えるになるようになっていた,という感じです.

> 今回そのような処理はしておらず、表記揺れによる間違い(answersが["しょうゆ"]でシステムが"醤油"を出力)の場合は不正解となり、人手評価の際に正答となるということでしょうか。

はい,その認識で正しいです.
今回のクイズ質問/解答作成時にはwikipediaの情報は全く使っていません.

気持ちとして,人手評価では,情報検索の評価のように
全参加システムの出力により解答候補のプールを作成し,
その候補一つ一つが正解になるかどうかを人手で判断し,
answersにない正解候補が見つかった場合は,
新たな正解としてanswersに追加するという処理
になると思います.
# その後に改めて自動評価する.人手チェックして追加したanswersとなっているので,全参加システムの自動評価結果と人手評価は実質同じになる.

以上よろしくお願いします.


On 2021/12/29 10:21, wataru sakata wrote:
> AI王 〜クイズAI日本一決定戦〜 問い合わせ担当者様
>
> いつもお世話になっております。
>
> 追加で一つ質問があります。
> 第2回コンペティション 開発用データ v1.0 のanswersの作り方についてですが、複数あるものは問題作成依頼のときにクイズ作家が複数作成したという認識で正しいでしょうか。
> 昨年のものはwikipediaのタイトルに答えがあるものは、タイトルと一致するように正規化したものがあったと思いますが、
> 今回そのような処理はしておらず、表記揺れによる間違い(answersが["しょうゆ"]でシステムが"醤油"を出力)の場合は不正解となり、人手評価の際に正答となるということでしょうか。
>
> ご回答よろしくお願いいたします。
> --------
> LINE株式会社 NLP開発チーム
> 坂田 亘
>
>
> 2021年12月12日(日) 17:54 wataru sakata <sakata...@gmail.com <mailto:sakata...@gmail.com>>:
> 2021年12月12日(日) 17:30 Jun Suzuki ecei <jun.s...@tohoku.ac.jp <mailto:jun.s...@tohoku.ac.jp>>:
> >> 公式ページによると”利用可能なデータは一般公開されているもののみ”とありますが、一般公開されているWebサイトをクロールして取得したデータの利用は許容されますか。例えば朝日新聞デジタル(https://www.asahi.com/ <https://www.asahi.com/>) <https://www.asahi.com/ <https://www.asahi.com/>)>やpixiv百科事典(https://dic.pixiv.net/)、Weblio <https://dic.pixiv.net/)%E3%80%81Weblio> <https://dic.pixiv.net/)%E3%80%81Weblio <https://dic.pixiv.net/)%E3%80%81Weblio>>国語辞典(https://www.weblio.jp/)などの本文データをクロールして情報源として利用するようなことは可能でしょうか <https://www.weblio.jp/)%E3%81%AA%E3%81%A9%E3%81%AE%E6%9C%AC%E6%96%87%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%AB%E3%81%97%E3%81%A6%E6%83%85%E5%A0%B1%E6%BA%90%E3%81%A8%E3%81%97%E3%81%A6%E5%88%A9%E7%94%A8%E3%81%99%E3%82%8B%E3%82%88%E3%81%86%E3%81%AA%E3%81%93%E3%81%A8%E3%81%AF%E5%8F%AF%E8%83%BD%E3%81%A7%E3%81%97%E3%82%87%E3%81%86%E3%81%8B>
> <https://www.weblio.jp/)%E3%81%AA%E3%81%A9%E3%81%AE%E6%9C%AC%E6%96%87%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%AB%E3%81%97%E3%81%A6%E6%83%85%E5%A0%B1%E6%BA%90%E3%81%A8%E3%81%97%E3%81%A6%E5%88%A9%E7%94%A8%E3%81%99%E3%82%8B%E3%82%88%E3%81%86%E3%81%AA%E3%81%93%E3%81%A8%E3%81%AF%E5%8F%AF%E8%83%BD%E3%81%A7%E3%81%97%E3%82%87%E3%81%86%E3%81%8B <https://www.weblio.jp/)%E3%81%AA%E3%81%A9%E3%81%AE%E6%9C%AC%E6%96%87%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%AB%E3%81%97%E3%81%A6%E6%83%85%E5%A0%B1%E6%BA%90%E3%81%A8%E3%81%97%E3%81%A6%E5%88%A9%E7%94%A8%E3%81%99%E3%82%8B%E3%82%88%E3%81%86%E3%81%AA%E3%81%93%E3%81%A8%E3%81%AF%E5%8F%AF%E8%83%BD%E3%81%A7%E3%81%97%E3%82%87%E3%81%86%E3%81%8B>>。
> >>
> >> お忙しい中申し訳ございませんがよろしくお願いいたします。
> >> --------
> >>
> >> LINE株式会社 NLP開発チーム
> >> 坂田 亘
> >>
> >> --
> >> このメールは Google グループのグループ「JAQKET/AI王」に登録しているユーザーに送られています。
> >> このグループから退会し、グループからのメールの配信を停止するには jaqket+un...@googlegroups.com <mailto:jaqket%2Bunsu...@googlegroups.com> <mailto:jaqket+un...@googlegroups.com <mailto:jaqket%2Bunsu...@googlegroups.com>> にメールを送信してください。
> >> このディスカッションをウェブ上で閲覧するには https://groups.google.com/d/msgid/jaqket/CABkk1nU6oEd9QzzEEBFTFJ%3D%3D2n3Tyg_jXu3sSCOrN6zmAf65rw%40mail.gmail.com <https://groups.google.com/d/msgid/jaqket/CABkk1nU6oEd9QzzEEBFTFJ%3D%3D2n3Tyg_jXu3sSCOrN6zmAf65rw%40mail.gmail.com> <https://groups.google.com/d/msgid/jaqket/CABkk1nU6oEd9QzzEEBFTFJ%3D%3D2n3Tyg_jXu3sSCOrN6zmAf65rw%40mail.gmail.com?utm_medium=email&utm_source=footer <https://groups.google.com/d/msgid/jaqket/CABkk1nU6oEd9QzzEEBFTFJ%3D%3D2n3Tyg_jXu3sSCOrN6zmAf65rw%40mail.gmail.com?utm_medium=email&utm_source=footer>> にアクセスしてください。
>
Reply all
Reply to author
Forward
0 new messages