在Java中序列化Lambda

1. 概述

一般来说，Java文档强烈建议我们不要序列化lambda表达式，这是因为lambda表达式将生成合成构造。而且，这些合成构造存在几个潜在的问题：源代码中没有相应的构造、不同Java编译器实现之间的差异以及与不同JRE实现的兼容性问题。但是，有时序列化lambda是必要的。

在本教程中，我们将解释如何序列化lambda表达式及其底层机制。

2. Lambda和序列化

当我们使用Java Serialization来序列化或反序列化一个对象时，它的类和非静态字段都必须是可序列化的，否则将导致NotSerializableException。同样，在序列化lambda表达式时，我们必须确保其目标类型和捕获参数是可序列化的。

2.1 失败的Lambda序列化

在源文件中，让我们使用Runnable接口构造一个lambda表达式：

public class NotSerializableLambdaExpression {
    public static Object getLambdaExpressionObject() {
        Runnable r = () -> System.out.println("please serialize this message");
        return r;
    }
}

当尝试序列化Runnable对象时，我们将得到NotSerializableException。在继续之前，让我们稍微解释一下。

当JVM遇到lambda表达式时，它会使用内置的ASM来构建内部类。那么，这个内部类是什么样子的呢？我们可以通过在命令行上指定jdk.internal.lambda.dumpProxyClasses属性来转储这个生成的内部类：

-Djdk.internal.lambda.dumpProxyClasses=<dump directory>

这里要注意：当我们将<dump directory>替换为我们的目标目录时，这个目标目录最好是空的，因为如果我们的项目依赖第三方库，JVM可能会转储相当多的意外生成的内部类。

转储后，我们可以使用适当的Java反编译器检查这个生成的内部类：

在上图中，生成的内部类仅实现了Runnable接口，即lambda表达式的目标类型。此外，在run方法中，代码将调用NotSerializableLambdaExpression.lambda$getLambdaExpressionObject$0方法，该方法由Java编译器生成，表示我们的lambda表达式实现。

因为这个生成的内部类是lambda表达式的实际类，并且它没有实现Serializable接口，所以lambda表达式不适合序列化。

2.2 如何序列化Lambda

至此，问题就落到了重点：如何给生成的内部类添加Serializable接口呢？答案是使用组合了函数式接口和Serializable接口的交集类型来转换lambda表达式。

例如，让我们将Runnable和Serializable组合成一个交集类型：

Runnable r = (Runnable & Serializable) () -> System.out.println("please serialize this message");

现在，如果我们尝试序列化上面的Runnable对象，它将成功。

但是，如果我们经常这样做，可能会引入很多样板代码。为了使代码简洁，我们可以定义一个同时实现Runnable和Serializable的新接口：

interface SerializableRunnable extends Runnable, Serializable {
}

然后我们可以使用它：

SerializableRunnable obj = () -> System.out.println("please serialize this message");

但我们也应该注意不要捕获任何不可序列化的参数。例如，让我们定义另一个接口：

interface SerializableConsumer<T> extends Consumer<T>, Serializable {
}

然后我们可以选择System.out::println作为它的实现：

SerializableConsumer<String> obj = System.out::println;

结果，它将导致NotSerializableException。这是因为此实现将捕获System.out变量作为其参数，该变量的类是PrintStream，它是不可序列化的。

3. 底层机制

说到这里，我们可能会想：引入交集类型后背后发生了什么？

为了有讨论的基础，我们再准备一段代码：

public class SerializableLambdaExpression {
	public static Object getLambdaExpressionObject() {
		Runnable r = (Runnable & Serializable) () -> System.out.println("please serialize this message");
		return r;
	}
}

3.1 编译类文件

编译完成后，我们可以使用javap来检查编译后的类：

javap -v -p SerializableLambdaExpression.class

-v选项将打印详细消息，-p选项将显示私有方法。

而且，我们可能会发现Java编译器提供了一个$deserializeLambda$方法，该方法接收SerializedLambda参数：

为了可读性，让我们将上面的字节码反编译为Java代码：

上面的$deserializeLambda$方法的主要职责是构造一个对象。首先，它使用lambda表达式详细信息的不同部分检查SerializedLambda的getXXX方法。然后，如果满足所有条件，它将调用SerializableLambdaExpression::lambda$getLambdaExpressionObject$36ab28bd$1方法引用来创建实例。否则，它将抛出IllegalArgumentException。

3.2 生成的内部类

除了检查编译后的class文件，我们还需要检查新生成的内部类。因此，让我们使用jdk.internal.lambda.dumpProxyClasses属性来转储生成的内部类：

在上面的代码中，新生成的内部类同时实现了Runnable和Serializable接口，这意味着它适用于序列化。并且，它还提供了一个额外的writeReplace方法。从内部看，此方法返回一个描述lambda表达式实现细节的SerializedLambda实例。

为了形成一个闭环，还缺少一件事：序列化的lambda文件。

3.3 序列化的Lambda文件

由于序列化的lambda文件以二进制格式存储，因此我们可以使用十六进制工具来检查其内容：

在序列化流中，十六进制“AC ED”(Base64中的“rO0”)是流魔数，十六进制“00 05”是流版本。但是，其余数据不是人类可读的。

根据对象序列化流协议，剩下的数据可以解释为：

从上图中，我们可能会注意到序列化的lambda文件实际上包含了SerializedLambda类的数据。具体来说，它包含10个字段和对应的值。并且，SerializedLambda类的这些字段和值是编译类文件中的$deserializeLambda$方法和生成的内部类中的writeReplace方法之间的桥梁。

3.4 把所有东西放在一起

现在，是时候将不同的部分组合在一起了：

当我们使用ObjectOutputStream序列化lambda表达式时，ObjectOutputStream会发现生成的内部类包含一个返回SerializedLambda实例的writeReplace方法。然后，ObjectOutputStream将序列化此SerializedLambda实例而不是原始对象。

接下来，当我们使用ObjectInputStream反序列化序列化的lambda文件时，会创建一个SerializedLambda实例。然后，ObjectInputStream将使用此实例来调用SerializedLambda类中定义的readResolve。并且，readResolve方法将调用捕获类中定义的$deserializeLambda$方法。最后，我们得到了反序列化的lambda表达式。

综上所述，SerializedLambda类是lambda序列化过程的关键。

4. 总结

在本文中，我们首先查看了一个失败的lambda序列化示例，并解释了它失败的原因。然后，我们介绍了如何使lambda表达式可序列化。最后，我们探讨了lambda序列化的底层机制。

与往常一样，本教程的完整源代码可在GitHub上获得。

Show Disqus Comments