tm Hebrew

29 views
Skip to first unread message

Avner Kantor

unread,
Aug 20, 2018, 9:56:00 AM8/20/18
to israel-r-user-group
איך טוענים קובץ וורד בעברית ל-tm?

ניסיתי

library(tm)
ex1 <- Corpus(DirSource("./doc1"),
                 readerControl=list(reader=readDOC,
                                    language='heb)',
                                    load=TRUE))


קיבלתי

Warning message:
In readLines(x, warn = FALSE) :
  invalid input found on input connection './doc1/TX1238.doc'

וכשניסיתי לקרוא
ex1[[1]]$content

קיבלתי
  ??? ????? ???, ????? ????? ????? ?????. ????? ??? ??? ???? ?? ?????? ??\r\n    ??????, ??? ????? ?? ????. ??? ?? ?? ??? ??? ?? ???? ??? ????: \"??? ????\r\n   ???? ?????? ???? ?????????. ??? ?????? ?????. ??? ?????? ?? ????? ??? ???\r\n                ????? ??? ??????. ??? ???? ?? ??, ?????\" \"??\", ?????, \"???\".\r\n   \"??? ?? ?? ???? ???? ?? ?????? \", ??? ???, \"???? ????? ?? ?? ???? ?? ????\r\n   

בתודה,

אבנר
Reply all
Reply to author
Forward
0 new messages