Lost Task due to "java.lang.IllegalArgumentException: Negative size"

Haokun Luo

unread,

Jul 10, 2013, 8:45:28 PM7/10/13

to spark...@googlegroups.com

Hi All,

I am running an application on a five node clusters (64GB RAM, 24 cores each). My cluster is running on top of Spark 0.7.2 and Scala 2.9.3. Here is my other configurations:

System.setProperty("spark.cores.max", "128")

System.setProperty("spark.default.parallelism", "64")

System.setProperty("spark.akka.timeout", "240")

System.setProperty("spark.storage.memoryFraction", "0.5")

System.setProperty("spark.storage.blockManagerTimeoutIntervalMs", "120000")

System.setProperty("spark.storage.blockManagerHeartBeatMs", "60000")

System.setProperty("spark.serializer", "spark.KryoSerializer")

System.setProperty("spark.kryo.registrator", "mypackage.MyKryoRegistrator")

System.setProperty("spark.kryoserializer.buffer.mb", "64")

JAVA_OPTS="-Xms32g -Xms32g -verbose:gc -XX:+PrintGCDetails -XX:MaxPermSize=128m -XX:ReservedCodeCacheSize=128m -XX:NewRatio=2"

However, during the stage of "reduceByKey" operation, the master could not find the a task due to "java.lang.IllegalArgumentException: Negative size". Here is the detail:

13/07/10 22:21:53 INFO DAGScheduler: Completed ShuffleMapTask(7, 54)

13/07/10 22:21:53 INFO DAGScheduler: Stage 7 (apply at TraversableLike.scala:233) finished in 31.059 s

13/07/10 22:21:53 INFO DAGScheduler: looking for newly runnable stages

13/07/10 22:21:53 INFO DAGScheduler: running: Set(Stage 4)

13/07/10 22:21:53 INFO DAGScheduler: waiting: Set(Stage 2, Stage 3)

13/07/10 22:21:53 INFO DAGScheduler: failed: Set()

13/07/10 22:21:53 INFO DAGScheduler: Missing parents for Stage 2: List(Stage 3)

13/07/10 22:21:53 INFO DAGScheduler: Missing parents for Stage 3: List(Stage 4)

13/07/10 22:24:31 INFO TaskSetManager: Finished TID 448 in 162645 ms (progress: 253/256)

13/07/10 22:24:31 INFO DAGScheduler: Completed ShuffleMapTask(4, 192)

13/07/10 22:34:32 INFO TaskSetManager: Finished TID 384 in 763638 ms (progress: 254/256)

13/07/10 22:34:32 INFO DAGScheduler: Completed ShuffleMapTask(4, 128)

13/07/10 22:45:03 INFO TaskSetManager: Finished TID 320 in 1398093 ms (progress: 255/256)

13/07/10 22:45:03 INFO DAGScheduler: Completed ShuffleMapTask(4, 64)

13/07/10 23:17:18 INFO TaskSetManager: Finished TID 256 in 3332957 ms (progress: 256/256)

13/07/10 23:17:18 INFO DAGScheduler: Completed ShuffleMapTask(4, 0)

13/07/10 23:17:18 INFO DAGScheduler: Stage 4 (apply at TraversableLike.scala:233) finished in 3332.958 s

13/07/10 23:17:18 INFO DAGScheduler: looking for newly runnable stages

13/07/10 23:17:18 INFO DAGScheduler: running: Set()

13/07/10 23:17:18 INFO DAGScheduler: waiting: Set(Stage 2, Stage 3)

13/07/10 23:17:18 INFO DAGScheduler: failed: Set()

13/07/10 23:17:18 INFO DAGScheduler: Missing parents for Stage 2: List(Stage 3)

13/07/10 23:17:18 INFO DAGScheduler: Missing parents for Stage 3: List()

13/07/10 23:17:18 INFO DAGScheduler: Submitting Stage 3 (MapPartitionsRDD[25] at reduceByKey at nmf.scala:241), which is now runnable

13/07/10 23:17:18 INFO DAGScheduler: Submitting 256 missing tasks from Stage 3 (MapPartitionsRDD[25] at reduceByKey at nmf.scala:241)

13/07/10 23:17:18 INFO ClusterScheduler: Adding task set 3.0 with 256 tasks

13/07/10 23:17:18 INFO TaskSetManager: Starting task 3.0:0 as TID 512 on executor 0: a.b.c1.com (preferred)

13/07/10 23:17:18 INFO TaskSetManager: Serialized task 3.0:0 as 2806 bytes in 11 ms

13/07/10 23:17:18 INFO TaskSetManager: Starting task 3.0:1 as TID 513 on executor 1: a.b.c2.com (preferred)

13/07/10 23:17:18 INFO TaskSetManager: Serialized task 3.0:1 as 2806 bytes in 0 ms

13/07/10 23:17:18 INFO TaskSetManager: Starting task 3.0:2 as TID 514 on executor 3: a.b.c3.com (preferred)

13/07/10 23:17:18 INFO TaskSetManager: Serialized task 3.0:2 as 2806 bytes in 0 ms

....

13/07/10 23:17:18 INFO TaskSetManager: Serialized task 3.0:119 as 2806 bytes in 0 ms

13/07/10 23:17:18 INFO MapOutputTrackerActor: Asked to send map output locations for shuffle 3 to a.b.c1.com

13/07/10 23:17:18 INFO MapOutputTracker: Size of output statuses for shuffle 3 is 1039 bytes

13/07/10 23:17:18 INFO MapOutputTrackerActor: Asked to send map output locations for shuffle 3 to a.b.c2.com

13/07/10 23:17:18 INFO MapOutputTrackerActor: Asked to send map output locations for shuffle 3 to a.b.c3.com

13/07/10 23:17:18 INFO MapOutputTrackerActor: Asked to send map output locations for shuffle 3 to a.b.c4.com

13/07/10 23:17:18 INFO MapOutputTrackerActor: Asked to send map output locations for shuffle 3 to a.b.c5.com

13/07/10 23:17:18 INFO TaskSetManager: Lost TID 592 (task 3.0:80)

13/07/10 23:17:18 INFO TaskSetManager: Loss was due to java.lang.IllegalArgumentException: Negative size

at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:700)

at spark.storage.DiskStore.getBytes(DiskStore.scala:86)

at spark.storage.DiskStore.getValues(DiskStore.scala:92)

at spark.storage.BlockManager.getLocal(BlockManager.scala:284)

at spark.storage.BlockFetcherIterator$$anonfun$13.apply(BlockManager.scala:1027)

at spark.storage.BlockFetcherIterator$$anonfun$13.apply(BlockManager.scala:1026)

at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:60)

at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)

at spark.storage.BlockFetcherIterator.<init>(BlockManager.scala:1026)

at spark.storage.BlockManager.getMultiple(BlockManager.scala:478)

at spark.BlockStoreShuffleFetcher.fetch(BlockStoreShuffleFetcher.scala:51)

at spark.BlockStoreShuffleFetcher.fetch(BlockStoreShuffleFetcher.scala:10)

at spark.rdd.CoGroupedRDD$$anonfun$compute$2.apply(CoGroupedRDD.scala:127)

at spark.rdd.CoGroupedRDD$$anonfun$compute$2.apply(CoGroupedRDD.scala:115)

at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:34)

at scala.collection.mutable.ArrayOps.foreach(ArrayOps.scala:38)

at spark.rdd.CoGroupedRDD.compute(CoGroupedRDD.scala:115)

at spark.RDD.computeOrReadCheckpoint(RDD.scala:207)