Scalding classpath issues with Kryo serialization of functions between 0.8.11 and 0.9.0rc4

Ian Hummel

unread,

Jan 22, 2014, 4:21:29 PM1/22/14

to cascadi...@googlegroups.com

Hey everyone,

I've been struggling with Scalding and some classpath issues that seem related to Kryo. I've found a bunch of threads scattered here and there, but nothing seems conclusive but I have some test cases in GitHub to help reproduce, so maybe we can get to the bottom of this...

For some background, we don't build fat jars for our specific jobs, instead we have Scalding and all its dependencies in a fat jar deployed to EMR clusters via bootstrap actions, so job developers can just "sbt package" and submit their jars using the elastic-mapreduce command line tool.

Recently I've been porting some jobs to 0.9.0rc4 but I keep getting exceptions (full stack trace at bottom). After some head scratching, it occurred to me that I only get exceptions when my job has anonymous functions. Very strange! For example, this will work fine:

class CopyJob(args : Args) extends Job(args) {

TextLine(args("input"))

.write(Tsv(args("output")))

}

But this fails

class WordCountJob(args : Args) extends Job(args) {

TextLine(args("input"))

.flatMap('line -> 'word) { line : String ⇒ tokenize(line) }

.groupBy('word) { _.size }

.groupAll { _.sortBy('size).reverse }

.write(Tsv(args("output")))

// Split a piece of text into individual words.

def tokenize(text : String) : Array[String] = {

// Lowercase each word and remove punctuation.

text.toLowerCase.replaceAll("[^a-zA-Z0-9\\s]", "").split("\\s+").filter(_ != "")

}

I put an example project up on github @ https://github.com/themodernlife/scalding-kryo-bug. I am using hadoop 1.2.1 installed via Homebrew to run my jars, setting HADOOP_CLASSPATH to include the jar of scalding and all its dependencies (but not my job classes).

The repo has a branch scalding-0.8.11 which allows you to run the exact same jobs using scalding 0.8.11. If you use that version, everything works ok, so I'm assuming this is related to Kryo changes to how FunctionX are serialized?

Any help/guidances would be much appreciated!

Here's the full stack trace:

java.lang.Exception: java.lang.RuntimeException: Error in configuring object

at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354)

Caused by: java.lang.RuntimeException: Error in configuring object

at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)

at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)

at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)

at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:426)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:366)

at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:223)

at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)

at java.util.concurrent.FutureTask.run(FutureTask.java:262)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)

at java.lang.Thread.run(Thread.java:744)

Caused by: java.lang.reflect.InvocationTargetException

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)

at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

at java.lang.reflect.Method.invoke(Method.java:606)

at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:88)

... 10 more

Caused by: cascading.flow.FlowException: internal error during mapper configuration

at cascading.flow.hadoop.FlowMapper.configure(FlowMapper.java:99)

... 15 more

Caused by: com.esotericsoftware.kryo.KryoException: Unable to find class: example.WordCountJob$$anonfun$3

at com.esotericsoftware.kryo.util.DefaultClassResolver.readName(DefaultClassResolver.java:138)

at com.esotericsoftware.kryo.util.DefaultClassResolver.readClass(DefaultClassResolver.java:115)

at com.esotericsoftware.kryo.Kryo.readClass(Kryo.java:610)

at com.esotericsoftware.kryo.Kryo.readClassAndObject(Kryo.java:721)

at com.twitter.chill.SomeSerializer.read(SomeSerializer.scala:25)

at com.twitter.chill.SomeSerializer.read(SomeSerializer.scala:19)

at com.esotericsoftware.kryo.Kryo.readClassAndObject(Kryo.java:729)

at com.twitter.chill.SerDeState.readClassAndObject(SerDeState.java:61)

at com.twitter.chill.KryoPool.fromBytes(KryoPool.java:94)

at com.twitter.chill.Externalizer.fromBytes(Externalizer.scala:149)

at com.twitter.chill.Externalizer.maybeReadJavaKryo(Externalizer.scala:162)

at com.twitter.chill.Externalizer.readExternal(Externalizer.scala:152)

at java.io.ObjectInputStream.readExternalData(ObjectInputStream.java:1837)

at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1796)

at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1350)

at java.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1990)

at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1915)

at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1798)