hadoop对于压缩文件的透明识别问题

air

unread,

Aug 9, 2011, 2:31:47 AM8/9/11

to Hadoop中文用户组

最近beidou与我在讨论hadoop对于压缩格式的透明识别问题。所谓透明就是对我们的MapReduce任务的执行是透明的，hadoop能够自动为我们将压缩的文件解压，而不用我们去关心。

如果我们压缩的文件有相应压缩格式的扩展名（比如lzo，gz，bzip2等），hadoop就会根据扩展名去选择解码器解压，如果压缩的文件没有扩展名，则需要在执行mapreduce任务的时候指定输入格式.

hadoop jar /usr/home/hadoop/hadoop-0.20.2/contrib/streaming/hadoop-streaming-0.20.2-CDH3B4.jar -file /usr/home/hadoop/hello/mapper.py -mapper /usr/home/hadoop/hello/mapper.py -file /usr/home/hadoop/hello/reducer.py -reducer /usr/home/hadoop/hello/reducer.py -input lzotest -output result4 -jobconf mapred.reduce.tasks=1 -inputformat org.apache.hadoop.mapred.LzoTextInputFormat

--
Knowledge Mangement .

李玉林

unread,

Aug 9, 2011, 2:34:58 AM8/9/11

to hado...@googlegroups.com

嗯，这个确实是挺好的，我从NCDC上下载下来的都是gz的，一开始做小规模测试的时候还是自己一个个的解压，再弄过去，后来就想试试看，果然可以，瞬间感觉强大。

--
李玉林

北斗七

unread,

Aug 9, 2011, 3:41:03 AM8/9/11

to hado...@googlegroups.com

好好，大家日志都是使用什么方式收集上来的呢？

air

unread,

Aug 24, 2011, 1:26:40 AM8/24/11

to hado...@googlegroups.com

其实如果用Cloudera发行的hadoop的话，最好用flume来做收集，网上的分析也对flume非常赞。

--
Knowledge Mangement .

北斗七

unread,

Aug 24, 2011, 1:41:21 AM8/24/11

to hado...@googlegroups.com

有链接吗？发来看看。印象中比scribe健壮，在高可用及管理上方便些。

air

unread,

Aug 24, 2011, 1:57:57 AM8/24/11

to hado...@googlegroups.com

http://dongxicheng.org/search-engine/log-systems/

--
Knowledge Mangement .

tiangang Zhu

unread,

Aug 27, 2011, 3:51:40 AM8/27/11

to hado...@googlegroups.com

用mapreduce建立倒排索引之后，如何利用lucene进行在索引上搜索呢？

air

unread,

Aug 27, 2011, 4:12:04 AM8/27/11

to hado...@googlegroups.com

对于lucene不熟悉，不过好像lucene就是建立索引的工具吧。。。

2011/8/27 tiangang Zhu <tiang...@gmail.com>

用mapreduce建立倒排索引之后，如何利用lucene进行在索引上搜索呢？

--
Knowledge Mangement .

Reply all

Reply to author

Forward