RCaBoCha_0.27Betaを公開しました．

58 views

Skip to first unread message

ishida

unread,

Aug 29, 2010, 1:44:32 AM8/29/10

to RCaBoCha

RCaBoCha_0.27Betaを公開しました．

要点は，

1） RCaBoCha（）以外の関数にconj 引数を追加し，活用語をそのまま表層形で出力するか（conj = 0），あるいは原型を出力す
るか(conj =1 デフォルト) を指定できるようにしました

2）RCaBochaDF(), RCaBochaMx() 関数のデフォルトの抽出品詞を pos =c("名詞","形容詞","動詞") としま
した

#######################################################################
################## 以下はRCaBoCha_0.26Beta での変更点です ###############
かなり大きな変更を加えました．要点は，
１）係り受けをすべて抽出する
２）mecabrcリソースファイルを指定可能に
３）RCaBoCha では０オプションでTreeを表示しない
ようにしたことです．
CaBoChaそのものが，かなり遅いので，ファイルが大きくなると
解析にも相応に時間がかかりますので注意してください．
mecabrcファイルの指定する場合，ファイルの設定内容に
十分ご注意ください

#####################################################
# RCaBoCha( 関数)
#####################################################
RCaBoCha("それは面白い本であった。",0)# Tree を出さない
RCaBoCha("それは面白い本であった。",mecabrc="/Users/motohiro/.mecabrc")# ##mecabrcリ
ソースファイルを指定

#####################################################
# RCaBoChaDF() 関数
#####################################################
## データフレームから文書ターム行列を作成する。
##
# RCaBoCha_0.25 までの rmT str2 は廃止しました
# 引数 pos =c("名詞","形容詞","動詞") などで抽出する品詞を指定できます
#　引数 minFreq で文書全体を通しての最小頻度を指定できます

dat <- read.csv("H18koe.csv") ## 沖縄観光についての自由意見
res <- RCaBoChaDF(dat[,"opinion"])##やや時間がかかります
nrow(res)
# [1] 2263
head(res[200:205, 1:5])
# TERM POS1 POS2 ROW3 ROW4
#200 どこ+店名詞+名詞代名詞+名詞 0 0
#201 どちら+下車名詞+名詞代名詞+名詞 0 0
#202 どれ+の名詞+名詞代名詞+名詞 0 0
#203 どれ+料理名詞+名詞代名詞+名詞 0 0
#204 どれ+沖縄名詞+名詞代名詞+名詞 0 0
#205 ない+こと助動詞+名詞 *+名詞 0 0

head(res[res$POS1 %in% c("名詞+動詞", "形容詞+名詞"), 1:5])
## "名詞+動詞" あるいは "形容詞+名詞" のケースをみる

es <- RCaBoChaDF(dat[,"opinion"],conj = 0) ## 活用語はそのまま表層形で

nrow(res)
res <- RCaBoChaDF(dat[,"opinion"], mecabrc = "/Users/
motohiro/.mecabrc")
##mecabrcリソースファイルを指定

#####################################################
# RCaBoChaMx() 関数
#####################################################
##　ファイルあるいはディレクトリから文書ターム行列を作成。
# RCaBoCha_0.25 までの rmT str2 は廃止しました
# 引数pos = c("名詞","形容詞","動詞")) などで抽出する品詞を指定できます
#　さらに引数 minFreq で文書全体を通しての最小頻度をしてできます

res <- RCaBoChaMx("morikita")
## file_name = morikita/morikita1.txt opened
## file_name = morikita/morikita2.txt opened
## file_name = morikita/morikita3.txt opened
nrow(res)## [1] 66
res[50:55,]
# TERM POS1 POS2 morikita1.txt morikita2.txt
#50 科学+者名詞+名詞一般+名詞 0 0
#51 系+化名詞+名詞接尾+名詞 1 0
#52 系+特名詞+名詞接尾+名詞 1 0
#53 編曲+感じ名詞+名詞サ変接続+名詞 0 1
#54 編集+感じ名詞+名詞サ変接続+名詞 0 1
#55 者+企業名詞+名詞接尾+名詞 0 1
# morikita3.txt
#50 1
#51 0
#52 0
#53 0
#54 0
#55 0

res <- RCaBoChaMx("morikita", conj = 0) ## 活用語はそのまま表層形で

res <- RCaBoChaMx("morikita",pos = c("名詞","形容詞","動詞"), mecabrc = "/
Users/motohiro/mecabrc")
##mecabrcリソースファイルを指定

Reply all

Reply to author

Forward

0 new messages