请问如何自定义InputFormat实现按句子分割

28 views
Skip to first unread message

zinc

unread,
Jul 20, 2014, 5:09:29 AM7/20/14
to cs40...@googlegroups.com
默认使用的TextInputFormat是按行分割的,我想实现一个自定义的按句号"."分割的InputFormat类,在网上找到了一个方法http://amalgjose.wordpress.com/2013/05/27/custom-text-input-format-record-delimiter-for-hadoop/#comments,但是我们使用的hadoop版本这种没有提供这种功能,不知道怎么办了,泪~
Reply all
Reply to author
Forward
0 new messages