RCfileの使い方を調べています。
RCfileをlzo圧縮したり、lzoではインデックスをつけないとsplitできないのはわかったのですが、RCfileをlzo圧縮した場合はsplitできないのでしょうか。
テストデータが500GB程度と小さいので、block sizeやhive.merge.size.per.taskをhiveのset文の16MBにして、hive上で実験しましたか、map数が1になりました。
RCfileで圧縮しても、splitできるのか知りたいのですが、ご存知の方いらっしゃれば、教えていただけないでしょうか。
hiveで出来ると扱いやすいので助かります。
input_tableにデータをロードした状態では120MBのファイルが5つあります。
しかし、input_table_rcfileにインポートした後はHDFSを見るとlzo圧縮されたファイルが一つあります。サイズが30MB程度。
圧縮なしでRCFileにロードしても400MBぐらいのファイルが一つできます。
hiveがreduce数1で実行するのが原因かもしれません。
上記のように考えましたが、
コメントなどいただければ幸いです。