Trouble reading batches of large files from s3

Eugene Brevdo

unread,

Aug 7, 2012, 2:51:15 PM8/7/12

to spark...@googlegroups.com

I'm trying to read about 12GB of .csv files from s3 (each file is <4GB).

Here is my code (running on mesos+EC2):

MASTER=localhost:5050 ./spark-shell

scala> val tf = sc.textFile("s3n://<key>:<secret>@bucket/directory_containing_csvs/").cache

12/08/07 18:34:05 INFO mapred.FileInputFormat: Total input paths to process : 22

tf: spark.RDD[String] = spark.MappedRDD@50d4855d

scala> tf.count

I've seen two issues with spark in this regard:

1. In my initial configuration, I have one master and two slaves; each slave gets 2GB ram. So when I cache my data, it should spill to disk once RAM runs out. However, I get the following errors and the job fails:

12/08/07 18:16:08 INFO spark.SimpleJob: Lost TID 13 (task 6:1)

12/08/07 18:16:08 INFO spark.SimpleJob: Loss was due to java.lang.OutOfMemoryError: Java heap space

at java.util.Arrays.copyOfRange(Arrays.java:3221)

at java.lang.String.<init>(String.java:233)

at java.nio.HeapCharBuffer.toString(HeapCharBuffer.java:561)

at java.nio.CharBuffer.toString(CharBuffer.java:1176)

at org.apache.hadoop.io.Text.decode(Text.java:350)

at org.apache.hadoop.io.Text.decode(Text.java:327)

at org.apache.hadoop.io.Text.toString(Text.java:254)

at spark.SparkContext$$anonfun$textFile$1.apply(SparkContext.scala:97)

at scala.collection.Iterator$$anon$19.next(Iterator.scala:335)

at scala.collection.Iterator$class.foreach(Iterator.scala:660)

at scala.collection.Iterator$$anon$19.foreach(Iterator.scala:333)

at scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:48)

at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:99)

at scala.collection.TraversableOnce$class.toBuffer(TraversableOnce.scala:250)

at scala.collection.Iterator$$anon$19.toBuffer(Iterator.scala:333)

at scala.collection.TraversableOnce$class.toArray(TraversableOnce.scala:237)

at scala.collection.Iterator$$anon$19.toArray(Iterator.scala:333)

at spark.CacheTracker.getOrCompute(CacheTracker.scala:203)

at spark.RDD.iterator(RDD.scala:76)

at spark.ResultTask.run(ResultTask.scala:17)

at spark.Executor$TaskRunner.run(Executor.scala:82)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)

at java.lang.Thread.run(Thread.java:679)

2. Once I set each worker to have 6GB of memory in the mesos spark-env.sh, and restart mesos, the job is still failing, except with these errors:

12/08/07 18:44:47 INFO spark.SimpleJob: Lost TID 25 (task 0:16)

12/08/07 18:44:47 INFO spark.SimpleJob: Loss was due to java.net.SocketTimeoutException: Read timed out

at java.net.SocketInputStream.socketRead0(Native Method)

at java.net.SocketInputStream.read(SocketInputStream.java:146)

at sun.security.ssl.InputRecord.readFully(InputRecord.java:312)

at sun.security.ssl.InputRecord.readV3Record(InputRecord.java:424)

at sun.security.ssl.InputRecord.read(InputRecord.java:379)

at sun.security.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:850)

at sun.security.ssl.SSLSocketImpl.readDataRecord(SSLSocketImpl.java:807)

at sun.security.ssl.AppInputStream.read(AppInputStream.java:94)

at java.io.BufferedInputStream.read1(BufferedInputStream.java:273)

at java.io.BufferedInputStream.read(BufferedInputStream.java:334)

at org.apache.commons.httpclient.ContentLengthInputStream.read(ContentLengthInputStream.java:169)

at java.io.FilterInputStream.read(FilterInputStream.java:133)

at org.apache.commons.httpclient.AutoCloseInputStream.read(AutoCloseInputStream.java:107)

at org.jets3t.service.io.InterruptableInputStream.read(InterruptableInputStream.java:76)

at org.jets3t.service.impl.rest.httpclient.HttpMethodReleaseInputStream.read(HttpMethodReleaseInputStream.java:136)

at org.apache.hadoop.fs.s3native.NativeS3FileSystem$NativeS3FsInputStream.read(NativeS3FileSystem.java:98)

at java.io.BufferedInputStream.read1(BufferedInputStream.java:273)

at java.io.BufferedInputStream.read(BufferedInputStream.java:334)

at java.io.DataInputStream.read(DataInputStream.java:100)

at org.apache.hadoop.util.LineReader.readLine(LineReader.java:134)

at org.apache.hadoop.mapred.LineRecordReader.next(LineRecordReader.java:133)

at org.apache.hadoop.mapred.LineRecordReader.next(LineRecordReader.java:38)

at spark.HadoopRDD$$anon$1.hasNext(HadoopRDD.scala:81)

at scala.collection.Iterator$$anon$19.hasNext(Iterator.scala:334)