איך טוענים קובץ וורד בעברית ל-tm?
ניסיתי
library(tm)
ex1 <- Corpus(DirSource("./doc1"),
readerControl=list(reader=readDOC,
language='heb)',
load=TRUE))
קיבלתי
Warning message:
In readLines(x, warn = FALSE) :
invalid input found on input connection './doc1/TX1238.doc'
וכשניסיתי לקרוא
ex1[[1]]$content
קיבלתי
??? ????? ???, ????? ????? ????? ?????. ????? ??? ??? ???? ?? ?????? ??\r\n ??????, ??? ????? ?? ????. ??? ?? ?? ??? ??? ?? ???? ??? ????: \"??? ????\r\n ???? ?????? ???? ?????????. ??? ?????? ?????. ??? ?????? ?? ????? ??? ???\r\n ????? ??? ??????. ??? ???? ?? ??, ?????\" \"??\", ?????, \"???\".\r\n \"??? ?? ?? ???? ???? ?? ?????? \", ??? ???, \"???? ????? ?? ?? ???? ?? ????\r\n
בתודה,
אבנר