对文件进行分词的时候 分词结果出现了乱码

15 views
Skip to first unread message

Yang, Linxi (yanglx)

unread,
Jun 13, 2017, 11:04:13 PM6/13/17
to jie...@googlegroups.com

您好 

我在mac上用readLines函数对xlsx进行分词

分词结果出现的是乱码

例子用的是rmd文件 我想请问一下readLines函数对文件的类型有没有限制

我是直接用xlsx文件来进行分词 是否要转换成rmd文件?

还是有其他的原因 

谢谢!


Lynn

qinwf

unread,
Jun 14, 2017, 12:52:35 AM6/14/17
to jiebaR 中文分词, yan...@mail.uc.edu

您好,xlsx 是二进制文件,如果使用 readLines 函数来读取 xlsx 文件,readLines 函数看到的内容就像你使用记事本打开 xlsx 一样,显示的是乱码。

可以将 xlsx 使用 readxl 包读取以后,再对其中的文本进行处理。或者可以把 xlsx 保存为 csv 格式,csv 是纯文本格式,你可以用记事本打开来看里面的内容。
Message has been deleted

qinwf

unread,
Jun 14, 2017, 8:34:39 PM6/14/17
to jiebaR 中文分词, yan...@mail.uc.edu
数据导入可以阅读这个教程,http://r4ds.had.co.nz/data-import.html

我没有您的对应文件和操作系统环境,不知道为什么另存为 csv 会只剩下一个空白行。


在 2017年6月14日星期三 UTC+8上午11:04:13,Yang, Linxi (yanglx)写道:

lynnya...@gmail.com

unread,
Jun 15, 2017, 3:13:08 PM6/15/17
to jiebaR 中文分词, yan...@mail.uc.edu
您好 这个问题已经处理 谢谢
我还有另个一个问题想请教您
分完词以后有什么办法可以把形容词名词给提取出来 
当我算词频的时候 频率最高的是介词 

谢谢!

lynnya...@gmail.com

unread,
Jun 15, 2017, 4:01:50 PM6/15/17
to jiebaR 中文分词, yan...@mail.uc.edu, lynnya...@gmail.com
更具体一点的是 我想做一个词云
但当我分好词 算词频的时候 频率最高的是 例如“的” 这些词
我想请问 是否有办法在算好词频后提取出名词或者形容词 
又或者这必须在分词的时候进行?

谢谢您!

qinwf

unread,
Jun 15, 2017, 7:48:47 PM6/15/17
to jiebaR 中文分词, yan...@mail.uc.edu, lynnya...@gmail.com

可以用正则表达式来筛选文本,词性标记可以标注词的类型。
Reply all
Reply to author
Forward
0 new messages