Twitter社への書類準備

81 views
Skip to first unread message

Murakami Koji

unread,
Mar 22, 2012, 9:51:31 PM3/22/12
to saiga...@googlegroups.com
藤井さん、みなさん、

楽天の村上です。
弊社のTechTalkに来ていただき有難うございました>藤井さん
同僚の山田より伺いました。

山田からのメイルで、御社の山本様を紹介していただいたとのことでした。
相談事項や背景などをまとめた資料を山本様に送付するようにと言伝
頂いています。

今回の顛末とコーパスとしてのTweetの利用、配布への嘆願についてまとめれば
よろしいでしょうか?

ひとまず村上の方で少しまとめた後このMLで御意見頂いた後送付させて
頂ければと思います。

よろしくお願いします。

賀沢秀人

unread,
Mar 23, 2012, 2:18:46 AM3/23/12
to saiga...@googlegroups.com
グーグルの賀沢です。

FYIですが、来週 Twitter の中の人と飲むことになったので、本件さりげなく脇からプッシュします。

多正面からお願いしましょう。:)

賀沢

2012年3月23日10:51 Murakami Koji <koji.m...@gmail.com>:

Keita Fujii

unread,
Mar 26, 2012, 1:07:36 PM3/26/12
to saiga...@googlegroups.com, Murakami Koji
村上様

Twitterの藤井です。
お返事が遅くなってしまい申し訳ありませんでした。
(昨日無事アメリカに帰って来ました。時差ボケ中です。。。)

> 今回の顛末とコーパスとしてのTweetの利用、配布への嘆願についてまとめれば
> よろしいでしょうか?

はい、コーパスのサイズ、仮定している利用形態や配布方法、どのような
個人情報が含まれているか、等をまとめていただいたものを
弊社Tech Advocateの山本(yus...@twitter.com)と私にまで
送っていただければと思います。

よろしくお願いいたします。

村上 浩司

unread,
Mar 23, 2012, 5:14:57 AM3/23/12
to saiga...@googlegroups.com
賀沢さん、

村上@楽天です。
をを、すばらしい!それでは、なるべく早く先方に提出できるように準備します。
コーパス周りの許諾が取れれば大分先が明るくなるかと思います。
楽しくなってきました。

よろしくお願いします。

賀沢秀人

unread,
Mar 27, 2012, 9:23:07 AM3/27/12
to saiga...@googlegroups.com
日にち勘違いしてました。今週ではなく来週でした。
まぁ焦っても仕方ないので、じっくりジワジワ行きましょう。

賀沢

2012年3月23日18:14 村上 浩司 <koji.m...@gmail.com>:

Murakami Koji

unread,
Mar 27, 2012, 10:03:20 PM3/27/12
to saiga...@googlegroups.com
賀沢さん、みなさま、

楽天の村上です。
をを、よかった。今週中にはひとまずまとめて、飲みのタイミングよりも
前に先方へ出すという流れで行きたいと思います。

コーパスがないと話にならないですが、コーパスが落ちついたら
先日会場で話していたような、タスク等々についても考え始めたいですね。


2012年3月27日9:23 賀沢秀人 <kaz...@gmail.com>:

Masao Utiyama

unread,
Mar 29, 2012, 5:30:07 PM3/29/12
to saiga...@googlegroups.com
村上さん、みなさん

タスクは重要ですね。TRECとかNTCIRとかは運営の参考になりそうです。

内山@NICT

Murakami Koji

unread,
Mar 29, 2012, 11:31:52 PM3/29/12
to saiga...@googlegroups.com
皆様、

楽天の村上です。
1つ相談させてください。

今回のミッションとしては、コーパスの公開への道を探るためのTwitter社への
コンタクトであると思います。そのためにはこちらから幾つかの可能性について
言及、提案した上で、先方にとってリーズナブルな選択肢を選んでいただく、もしくは
実現可能性のありそうな方法を元に検討していただくという流れになるかと思います。

先日のTSで使った資料(コーパスの行く末について)を共有させてください。
今のところ、こちらで考えた公開への道のりしか書けない状況です。

もし他にも選択肢(実現がどう考えても不可能、というものでなければ)やご意見
あれば、少し挙げてもらうことはできないでしょうか?

よろしくお願い致します。

#宣伝ですが、現在言語処理学会「自然言語処理」の特集号「不自然言語処理 枠に
#はまらない言語の処理」の論文を大絶賛募集中です。震災関連でももしご投稿
#できそうな方がお近くに居られましたら、お声をかけて頂ければと思います。
#締め切りは4月27日です。


2012年3月29日17:30 Masao Utiyama <masao....@gmail.com>:
NLP2012anpi_discussion.pptx

Masao Utiyama

unread,
Mar 30, 2012, 1:17:11 AM3/30/12
to saiga...@googlegroups.com
村上さん

NICTの内山です。

データの形式ですが、
1.生ツイート+アノテーションをセットで公開する。
2.ツイートID+アノテーションをセットで公開する。
という二つの方法は、いずれも、生ツイートが復元できる方法です。

他の方法としては、生ツイートが復元できない方法での公開も考えられます。
たとえば、人名は全て <P> 、数字連続は全て<N>、地名は全て<G>、組織は全て<C>に置き換えます。
たとえば、「けいはんなにいる情報太郎の行方を捜しています」は「<G>にいる<P>の行方を捜しています」
に置き換わります。

このように変換したものからは、元の生ツイートが復元できないので、著作権および個人情報の問題は生じないと思われます。



Eiji ARAMAKI

unread,
Mar 30, 2012, 1:31:12 AM3/30/12
to saiga...@googlegroups.com
みなさん

ご参考までに.
私がカルテ文章などを扱うときに使っている方法なのですが,

人名は全て <P> 、数字連続は全て<N>、地名は全て<G>、組織は全て<C>に置き換え,
さらに<P>や<G>や<C>に一貫性のあるダミーの人名などをいれます.こうすることで,まるで生コーパスのように研究利用できるので便利かと思います.

あらまき

2012/3/30 Masao Utiyama <masao....@gmail.com>:

--
あらまき

Murakami Koji

unread,
Mar 31, 2012, 12:46:25 AM3/31/12
to saiga...@googlegroups.com
内山さん、荒牧さん、みなさま

楽天の村上です。
リプライありがとうございます。先日会場で少しお話しした方法ですね。
カルテ等々でも実績があるという事は、適格に権利や法律に抵触しないという
方法なわけですね。実例があるとやはり説得力ありますね。

織り込んでおきます。明日土曜日中には一先ずドラフト仕上げます。
遅くなってて申し訳ありません。

よろしくお願いします。

2012年3月30日1:31 Eiji ARAMAKI <eiji.a...@gmail.com>:

Murakami Koji

unread,
Apr 2, 2012, 10:25:15 AM4/2/12
to saiga...@googlegroups.com
みなさま、
楽天の村上です。

ごめんなさい、スレッドこっちでした。
よろしくお願いいたします。

-----------------------------------------
みなさま、 
楽天の村上です。遅くなりました。 
ざっとではありますが、Twitter社への手紙を書いてみました。 
一通り、これまでの経緯とコーパスに対する我々の考え方、考えられる公開方法 
等々について書いています。レターとしてのヘッダなどはまだ書けていません。 
最後に整えたいと思います。 
不足部分や追加事項等ありましたら、ご意見下さい。修正した後 
先方へ送りたいと思います。 
よろしくお願いします。 

2012年3月31日0:46 Murakami Koji <koji.m...@gmail.com>:
twitter.docx

Masao Utiyama

unread,
Apr 2, 2012, 11:44:18 PM4/2/12
to saiga...@googlegroups.com
村上さん

NICTの内山です。

ID配布の方法には、個人情報保護の問題が含まれていると思いますので、マスク処理したものの配布に一本化して依頼した方が良いと思います。

その場合には、
 (1)マスク処理までを有志グループが行う
 (2)(1)のデータの著作者が誰であるかの合意を関係者間でとる。
 (3)(2)の合意に基づき配布元を定める
という手続きになるかと思います。(2)と(3)については不明確な点が多いので、どうなるかよくわかりませんが、(1)の前に合意をしておいた方が良いとは思います。ただ、(3)についてTwitter社に配布元になっていただくようにお願いするというのはあると思います。

内山

Murakami Koji

unread,
Apr 3, 2012, 11:15:04 PM4/3/12
to saiga...@googlegroups.com
内山さん、みなさん

楽天の村上です。
コメントありがとうございます。配布方法を一本化して、列挙して頂いた部分について少し書いてみました。

よろしくお願い致します。

2012年4月2日23:44 Masao Utiyama <masao....@gmail.com>:
4twtr0403.docx

Masao Utiyama

unread,
Apr 4, 2012, 10:58:26 PM4/4/12
to saiga...@googlegroups.com
村上さん

typoかと思いますが、例文の一番最後に <L> というタグがありますが、これは不要ではないでしょうか。そのほかはよろしいのではと思います。

内山

Murakami Koji

unread,
Apr 6, 2012, 5:32:58 PM4/6/12
to saiga...@googlegroups.com
内山さん、

対応が遅れてごめんなさい。
これから最終修正+ヘッダつけて、先方に送っておきます。

よろしくお願いします。

2012年4月4日22:58 Masao Utiyama <masao....@gmail.com>:

賀沢秀人

unread,
Apr 11, 2012, 12:43:51 PM4/11/12
to saiga...@googlegroups.com
賀沢です。

先日 Twitter の partnership 担当の人と話をして、anpi nlp の話もしました。直接メールしてもらって構わないと言われたので、とりあえず村上さんを cc して私からメールを投げようと思うのですがいいでしょうか?

賀沢

2012年4月7日6:32 Murakami Koji <koji.m...@gmail.com>:

Murakami Koji

unread,
Apr 11, 2012, 1:57:47 PM4/11/12
to saiga...@googlegroups.com
賀沢さん、

村上です。先日、藤井さんと山本さんという方に先日の書類を添付してメイルを送りました。

山本さんというのは、藤井さんのメイルによると Tech Advocate の方とのことです。

私をccに入れてメイル出して頂いて構いません。ぜひお願いいたします。

よろしくお願いします。

2012年4月11日12:43 賀沢秀人 <kaz...@gmail.com>:

賀沢秀人

unread,
Apr 12, 2012, 3:19:54 AM4/12/12
to saiga...@googlegroups.com
了解です。後ほど cc してメール送ります。

賀沢

2012年4月12日2:57 Murakami Koji <koji.m...@gmail.com>:

Murakami Koji

unread,
Apr 12, 2012, 5:54:56 PM4/12/12
to saiga...@googlegroups.com
みなさま、
Twitter社の山本様から、ご回答を頂きました。以下の通りです。
基本的に最初に考えていた方法に落ち着くようです。次は実際の
コーパスの公開に向けてすべきことを考える段階になるかと思います。

よろしくお願いします。
-------------------------------------------------------------------
村上様

Twitter
の山本と申します。

ご返答遅くなり申し訳ありません。

法務部門に確認いたしますとご返答まで相当時間要するものと思われますので、私よりまずは一次回答させてください。

まず、著作権が生まれるのは「思想又は感情を創作的に表現したものであって、文芸、学術、美術又は音楽の範囲に属するもの」
ですので機械的に導出したメタデータに著作権は発生しないのではないかと思います。
また、ツイートの著作権自体はツイートを行った当人の所属いたしますのでTwitterの著作物として配布することはできません。
API
で提供するツイートのデータはTwitterの利用規約に準ずる形で、やはりツイートの著作権自体はツイートを行った当人が
保持する形をとっております。

そこで今回の懸念点をクリアにする一番シンプルな方法として、御社からはツイートから導出したメタデータとツイートのID
またツイートのIDにひもつくツイートを取得するスクリプトを提供する方法はいかがでしょうか?

1
アカウントで1時間当たり350件の問い合わせを行えます。/statuses/show.json?id=nnn のエンドポイントを使えば約6万件の
ツイートを8日弱で取得できる計算になります。

以上ご検討よろしくお願い致します。
--
Yusuke Yamamoto
yus...@twitter.com
@yusuke
-----------------------------------------------



2012年4月12日3:19 賀沢秀人 <kaz...@gmail.com>:

賀沢秀人

unread,
Apr 12, 2012, 7:14:21 PM4/12/12
to saiga...@googlegroups.com
おー、良かったですね。

村上さん、お手数ですが、私がメール送った方(牧野さん)にも経緯含め簡単にフォローお願いできますか?

よろしくお願いします。

賀沢

2012年4月13日6:54 Murakami Koji <koji.m...@gmail.com>:

賀沢秀人

unread,
Apr 12, 2012, 7:15:48 PM4/12/12
to saiga...@googlegroups.com
と思ったら、フォローされてますね。ありがとうございました! 

2012年4月13日8:14 賀沢秀人 <kaz...@gmail.com>:

Masao Utiyama

unread,
Jun 27, 2012, 4:23:50 AM6/27/12
to saiga...@googlegroups.com
ご無沙汰しています。内山です。
Twitter のデータを使った研究として、
http://aclweb.org/anthology-new/N/N12/N12-1034.pdf
がありましたが、やはり、同様な方法でデータを配布するようです。

Reply all
Reply to author
Forward
0 new messages