"unread block data" on spark standalone job

Tyson Hamilton

unread,

Dec 11, 2012, 10:42:46 AM12/11/12

to spark...@googlegroups.com

Hi,

I'm running a job using the a Hadoop InputFormat and newAPIHadoopRDD. This job involves using Hector (a Java api) to retrieve data from a Cassandra cluster. The job works well with Hadoop and I've had the job working in local mode with Spark, but when trying to run using a standalone master/slave on the same localhost I receive the following exception:

java.lang.IllegalStateException: unread block data
at java.io.ObjectInputStream$BlockDataInputStream.setBlockDataMode(ObjectInputStream.java:2376)
at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1360)
at java.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1946)
at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1870)
at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1752)
at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1328)
at java.io.ObjectInputStream.readObject(ObjectInputStream.java:350)
at spark.JavaDeserializationStream.readObject(JavaSerializer.scala:23)
at spark.JavaSerializerInstance.deserialize(JavaSerializer.scala:45)
at spark.executor.Executor$TaskRunner.run(Executor.scala:73)
at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)
at java.lang.Thread.run(Thread.java:662)

Any ideas?

-Tyson

Tyson Hamilton

unread,

Dec 12, 2012, 3:35:02 PM12/12/12

to spark...@googlegroups.com

So I am not entirely sure why this error was happening, but clearly it involved the JavaSerializerInstance. If anyone else runs into a similar problem, I would suggest trying to switch to the KryoSerializer which is outlined in the configuration guide on the spark homepage:

System.setProperty("spark.serializer", "spark.KryoSerializer")
System.setProperty("spark.kryo.registrator", "mypackage.MyRegistrator")

This eliminated the exception and my job is running great. Also the KryoSerializer is much faster! Bonus!

-Tyson

moon soo Lee

unread,

Dec 13, 2012, 11:38:19 PM12/13/12

to spark...@googlegroups.com

Hi.

i'm also trying to do the same thing.

i also set "spark.serializer", "spark.kryo.registrator" property before i create SparkContext.

i also set "spark.kryo.registerator" to "shark.KryoRegistrator".

However my code generate the same exception even it is "local" mode.

and the strange thing is Executor.scala:73. the code i think always juse JavaSeializer, it's not related to spark.serializer, but spark.closure.serializer which is JavaSerializer at default.

can you guys help me?

i really tried many things, but doesn't work.

here's my exception

12/12/14 13:12:06 INFO cluster.TaskSetManager: Loss was due to java.io.StreamCorruptedException: unexpected block data

at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1360)

at java.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1963)

at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1887)

at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1770)

at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1346)

at java.io.ObjectInputStream.readObject(ObjectInputStream.java:368)

at java.util.ArrayList.readObject(ArrayList.java:696)

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)

at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

at java.lang.reflect.Method.invoke(Method.java:616)

at java.io.ObjectStreamClass.invokeReadObject(ObjectStreamClass.java:988)

at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1865)