日本語ウェブコーパス2010の文字N-gramコーパスの頻度情報

222 views
Skip to first unread message

KIHARA Hideto

unread,
Dec 31, 2013, 3:22:04 AM12/31/13
to tc...@googlegroups.com
* ���ܸ쥦���֥����ѥ�2010��ʸ��N-gram�����ѥ�(����1000�ʾ�)���Ȥˡ�
http://s-yata.jp/corpus/nwc2010/ngrams/
2-gram�ʾ��ޤ�����ٽ�ˤ�����Τ�ʲ����֤��ޤ�����
http://www1.interq.or.jp/~deton/tutcode/nwc2010-1-7gms.txt.gz

# �������ʤϤҤ餬�ʤ���졣����50��ʾ�Τߡ�<S>��ʸƬ��</S>��ʸ����

TUT-Code���ȡ֤Ѥߤ�Ѥߤ�פȤ��֤������������פȤ���
�Ǹ���������Ǥ��ˤ���(���줾�졢(4+2+3)*2��(3+3)*3)�Τǡ�
3�Ǹ��ǡ֤ߤ�פ�֤�����2ʸ������ϤǤ���TUT98.COM��ٹ�����û�̥��ȥ?����
tsf-tutcode��tcvime���ɲä����ΤǤ�����
�֤��á���¥�����ɲä�����ڤ���Ȼפäơ�
2-gram�ʾ�����٤��Τ뤿��˺�����

��̤򸫤�ȡ��֤��áפϤ��ޤ�⤯�ʤ��ơ��֤á����ޤ��Τν��֤ϡ�
�ä� �ä� �ä� �äƤ� ���� �ä� ���� �ʤ� ���� ���ä� ���� ��� ���� �礦
���� �ä� �ʤä� �ˤʤ� ���ä�
�ɲä���Ȥ���С�3�Ǹ��ʾ夬�����֤��áס֤äספ�����Ǥ��礦����
# �ȥå� ���å� ����å� �ޥå� ���å�

���ʤߤˡ�2-gram�ʾ�ξ�̤ϰʲ���
�ä� ���� �ޤ� ���� �Ƥ� �ä� �Ǥ� �ʤ� ���� ���� �ϡ� ���� ���� �ޤ� ����
���� �Τ� ���� �ޤ��� �Ƥ���


* ����: 1-gram(ʸ��)�����٤˴ؤ��ơ�
TUT+�����ɤ�T�����ɤ˴ޤޤ�뤫�ɤ����η���ɲä�����Τ�ʲ����֤��ޤ�����
http://www1.interq.or.jp/~deton/tutcode/nwc2010-1gms-tut-t.txt

# ��?? �� ������ϡ�ASCII�����Ȥ˻Ȥ��Ƥ������٤��⤯�ʤäƤ�褦�Ǥ���

+ TUT-Code�˴ޤޤ�ʤ�ʸ������٤ι⤤100ʸ��򸫤������
awk '$3=="-"{print}' 1gms-tut-t.txt | head -100 | less
�� �� �� �� �� �� �� �� �� �� �� �� �� �� ��ε���䡢������ȡ�
� �� ߷ �� �� �� �� �� �� �� �� �� �� �� �� Ԣ �� ޯ � �� �� �� é �� � ��
+ T-Code�˴ޤޤ�ʤ�ʸ������٤ι⤤100ʸ��򸫤������
awk '$4=="-"{print}' 1gms-tut-t.txt | head -100 | less
�� �� �� �� �� �� �� �� ĺ �� �� �� �� �� �� �� �� �� �� �� �� Ķ �� �� �� ��
+ TUT-Code�˴ޤޤ��ʸ������٤��㤤100ʸ��򸫤������
awk '$3~/TUT.*/{print}' 1gms-tut-t.txt | tail -100 | less
���٤��㤤��˵󤲤�ȡ�
̰ �� �� �� �� �� �� �� �� �� �� �� �� Ŀ �� �� �� �� �� �� �� �� �� ܴ �� ��
+ T-Code�˴ޤޤ��ʸ������٤��㤤100ʸ��򸫤������
awk '$4=="T"{print}' 1gms-tut-t.txt | tail -100 | less
�� �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� �� ʰ �� �� �� �� ̦ �� �� ��
�ʤ������ơװʾ�ϡ�$�פ������ٹ⡣�ֵ��װʾ�ϡ�q�פ������ٹ⡣

* ����:
[tcode-ml:2459]���:
> Web�Ǹ��Ĥ�������ɽ�Ȥ��Ƽ��Τ褦�ʤ�Τ�����ޤ��͡�
> * �ե꡼�δ�������ɽ
> http://www.loba.net/khindo/index.html
> Lycos��Ȥäƺ�ä���Ρ�
>
> ���ٹ߽��ɽ�ˡ�TUT-Code, T-Code������ɲä�����Τ�
> ���ΤȤ�����֤��Ƥ��ޤ���
> http://www1.interq.or.jp/~deton/tutcode/skhindo990319-tutc.txt
> TUT-Code����ϡ��ƴ���TUT-Code�Dz��Ǹ������ϤǤ��뤫������Ƥ��ޤ���
> T-Code����ϡ�T-Code��ɽ�ˤ���ʸ���tc������Ƥ��ޤ���
>
> ���٤ι⤤����ν�̤˴ؤ��ƤϤޤ��ޤ������ʰ��ݤǤ�����
> TUT-Code���ǤƤʤ�����ФƤ��뤢���꤫�鲼��
> ��������ʬ�ν�̤Ϥ��ޤ껲�ͤˤʤ�ʤ������ʴ����Ǥ���

* ����¾���
��ľ�Ρ��� �ִ����ޤ�����ɽ(�Ŀ�Ū�ʤ��)�פؤΥ�󥯽�
http://taffy632.blog24.fc2.com/blog-entry-46.html

���ܸ������ѥ�������(�ؤ˽ɤ뵭��)�˴ؤ����󥯽� - �ơ��ޡ֥�����������Ԥ��������פ˴ؤ�������Υ�󥯽�#ʸ������ɽ
http://www4.atwiki.jp/japanese_keyboard_layout/pages/19.html#id_af566c28

KIHARA Hideto

unread,
Dec 31, 2013, 3:35:44 AM12/31/13
to tc...@googlegroups.com
EUC-JPで送ってしまってWeb上で読めないので再送します。

* 日本語ウェブコーパス2010の文字N-gramコーパス(頻度1000以上)をもとに、
http://s-yata.jp/corpus/nwc2010/ngrams/
2-gram以上も含めて頻度順にしたものを以下に置きました。
http://www1.interq.or.jp/~deton/tutcode/nwc2010-1-7gms.txt.gz

# カタカナはひらがなに統一。頻度50万以上のみ。<S>は文頭、</S>は文末。

TUT-Codeだと「ぱみゅぱみゅ」とか「じぇじぇじぇ」とかが
打鍵数が増えて打ちにくい(それぞれ、(4+2+3)*2、(3+3)*3)ので、
3打鍵で「みゅ」や「じぇ」2文字を入力できるTUT98.COMの拗音等の短縮ストロークを、
tsf-tutcodeやtcvimeに追加したのですが、
「だっ」等促音も追加した方が楽かもと思って、
2-gram以上の頻度を知るために作成。

結果を見ると、「だっ」はあまり高くなくて、「っ」等を含むものの順番は、
って った っと ってい しょ っく かっ なっ ちゃ かった じゃ ゃん あっ ょう
だっ っぷ なって になっ だった
追加するとすれば、3打鍵以上がからむ「だっ」「っぷ」あたりでしょうか。
# トップ アップ ショップ マップ カップ

ちなみに、2-gram以上の上位は以下。
って して ます した てい った です ない から する は、 こと いる まし いま
ある ので いた ました ている


* 参考: 1-gram(文字)の頻度に関して、
TUT+コードやTコードに含まれるかどうかの桁を追加したものを以下に置きました。
http://www1.interq.or.jp/~deton/tutcode/nwc2010-1gms-tut-t.txt

# 「?? ω Д」等は、ASCIIアートに使われていて頻度が高くなってるようです。

+ TUT-Codeに含まれない文字で頻度の高い100文字を見たい場合
awk '$3=="-"{print}' 1gms-tut-t.txt | head -100 | less
~ ♪ ■ ● ★ ― ◆ ▲ ↑ ⇒ ↓ ▼ ◎ 〇 等の記号や、漢字だと、
綺 繋 澤 厨 噛 儲 蕎 掴 贅 喋 煽 翔 磐 騙 晒 國 惚 洒 餃 雛 鯖 梁 辿 呟 祀 惹
+ T-Codeに含まれない文字で頻度の高い100文字を見たい場合
awk '$4=="-"{print}' 1gms-tut-t.txt | head -100 | less
載 覧 像 俺 歌 皆 馬 泉 頂 松 飲 項 城 阪 稿 購 届 僕 緒 森 撮 超 絵 症 祭 浜
+ TUT-Codeに含まれる文字で頻度の低い100文字を見たい場合
awk '$3~/TUT.*/{print}' 1gms-tut-t.txt | tail -100 | less
頻度の低い順に挙げると、
粍 糎 勺 匁 恕 銑 伶 尭 悌 釦 錮 慾 酋 朕 璽 鈎 憬 ヰ 廓 ÷ 賎 汀 乎 楷 劾 斤
+ T-Codeに含まれる文字で頻度の低い100文字を見たい場合
awk '$4=="T"{print}' 1gms-tut-t.txt | tail -100 | less
詑 輯 ヰ 趨 卜 已 ヮ ヱ 丑 昏 鼠 巴 汎 曳 硝 汽 享 憤 ゑ 牽 乞 累 巳 后 ヅ ヂ
なお、「汎」以上は「$」よりも頻度高。「汽」以上は「q」よりも頻度高。

* 参考:
[tcode-ml:2459]より:
> Webで見つかる頻度表として次のようなものがありますね。
> * フリーの漢字頻度表
> http://www.loba.net/khindo/index.html
> Lycosを使って作ったもの。
>
> 頻度降順の表に、TUT-Code, T-Codeの列を追加したものを
> 次のところに置いています。
> http://www1.interq.or.jp/~deton/tutcode/skhindo990319-tutc.txt
> TUT-Codeの列は、各漢字がTUT-Codeで何打鍵で入力できるかを入れています。
> T-Codeの列は、T-Codeの表にある文字にtcと入れています。
>
> 頻度の高い漢字の順位に関してはまあまあ妥当な印象ですが、
> TUT-Codeで打てない漢字が出てくるあたりから下の
> 低頻度部分の順位はあまり参考にならなさそうな感じです。

* その他リンク
漢直ノート 「漢字を含む頻度表(個人的なもの)」へのリンク集
http://taffy632.blog24.fc2.com/blog-entry-46.html

日本語入力用キー配列(指に宿る記憶)に関するリンク集 - テーマ「キー配列制作者に捧げる資料」に関する資料のリンク集#文字頻度表
http://www4.atwiki.jp/japanese_keyboard_layout/pages/19.html#id_af566c28
Reply all
Reply to author
Forward
0 new messages