- 参考书籍《深入理解Java虚拟机》周志明第2版
- 参考文章 https://mp.weixin.qq.com/s/QmFEpomIfXhtptJr33Wu4A
- Java的class文件,类似这种:
ClassFile {
u4 magic; //模数
u2 minor_version; //次版本号
u2 major_version; //主版本号
u2 constant_pool_count; //常量池大小
cp_info constant_pool[constant_pool_count-1]; //常量池
u2 access_flags; //类和接口层次的访问标志(通过|运算得到)
u2 this_class; //类索引(指向常量池中的类常量)
u2 super_class; //父类索引(指向常量池中的类常量)
u2 interfaces_count; //接口索引计数器
u2 interfaces[interfaces_count]; //接口索引集合
u2 fields_count; //字段数量计数器
field_info fields[fields_count]; //字段表集合
u2 methods_count; //方法数量计数器
method_info methods[methods_count]; //方法表集合
u2 attributes_count; //属性个数
attribute_info attributes[attributes_count]; //属性表
}
笔者用过的java反编译软件有JD-GUI,luyten,Jad。
其中,luyten的开源代码地址为:
https://github.com/deathmarine/Luyten笔者看完《深入理解Java虚拟机》后,根据自己的理解写了一个反编译的代码。目前这份代码还是比较初级,只是对一个简单的class文件做了一个分割解析。仅作自己学习class文件练手。
实际上如果真的要做到完整解析一个class文件,确实是一个非常耗时的工作,而且如果加上匿名类等等功能,就会更加复杂。笔者目前没有打算在这方面死磕,因此反编译的工作就到目前这个程度告一段落。
下面开始介绍下笔者的代码demo
思路为:按照class文件规范,分割class文件中的十六进制字节码,然后对各个分段进行解析。
- 以常量池 双精度字面量为例,其 类图结构如下
- 顶层接口定义的方法如下
public interface SplitI {
//获取字节码size
int getSize();
//设置字节码size
void setSize(int size);
//获取字节码内容
List getData();
//设置字节码内容
void setData(List data);
//解析字节码size
void generateSize(int start, List data);
//粗略解析字节码数据
void generateData(int start, List data);
//翻译字节码数据成可读性高的形式,暂时未实现
void convertData();
}
-
整体的目录如下图,ParseCompile为启动类
源代码的内容为:
package compile;
public class TestClass {
private int m;
public int inc(){
return m+1;
}
}
运行反编译代码后的结果如下:
========================
魔数为cafebabe
========================
JDK版本 16进制数据为00000034
JDK版本10进制数据为00000052
JDK版本号为1.8
========================
常量池大小16进制数据为0016
常量池大小为0022
========================
[0a, 00, 04, 00, 12]
[09, 00, 03, 00, 13]
[07, 00, 14]
[07, 00, 15]
[01, 00, 01, 6d]
[01, 00, 01, 49]
[01, 00, 06, 3c, 69, 6e, 69, 74, 3e]
[01, 00, 03, 28, 29, 56]
[01, 00, 04, 43, 6f, 64, 65]
[01, 00, 0f, 4c, 69, 6e, 65, 4e, 75, 6d, 62, 65, 72, 54, 61, 62, 6c, 65]
[01, 00, 12, 4c, 6f, 63, 61, 6c, 56, 61, 72, 69, 61, 62, 6c, 65, 54, 61, 62, 6c, 65]
[01, 00, 04, 74, 68, 69, 73]
[01, 00, 13, 4c, 63, 6f, 6d, 70, 69, 6c, 65, 2f, 54, 65, 73, 74, 43, 6c, 61, 73, 73, 3b]
[01, 00, 03, 69, 6e, 63]
[01, 00, 03, 28, 29, 49]
[01, 00, 0a, 53, 6f, 75, 72, 63, 65, 46, 69, 6c, 65]
[01, 00, 0e, 54, 65, 73, 74, 43, 6c, 61, 73, 73, 2e, 6a, 61, 76, 61]
[0c, 00, 07, 00, 08]
[0c, 00, 05, 00, 06]
[01, 00, 11, 63, 6f, 6d, 70, 69, 6c, 65, 2f, 54, 65, 73, 74, 43, 6c, 61, 73, 73]
[01, 00, 10, 6a, 61, 76, 61, 2f, 6c, 61, 6e, 67, 2f, 4f, 62, 6a, 65, 63, 74]
==========访问标志==============
[00, 21]
========类索引================
[00, 03]
==========父类索引==============
[00, 04]
==========接口索引==============
[00, 00]
==========字段表==============
字段数量为0001
[00, 02, 00, 05, 00, 06, 00, 00]
==========方法表==============
方法数量为0002
[00, 01, 00, 07, 00, 08, 00, 01, 00, 09, 00, 00, 00, 2f, 00, 01, 00, 01, 00, 00, 00, 05, 2a, b7, 00, 01, b1, 00, 00, 00, 02, 00, 0a, 00, 00, 00, 06, 00, 01, 00, 00, 00, 03, 00, 0b, 00, 00, 00, 0c, 00, 01, 00, 00, 00, 05, 00, 0c, 00, 0d, 00, 00]
[00, 01, 00, 0e, 00, 0f, 00, 01, 00, 09, 00, 00, 00, 31, 00, 02, 00, 01, 00, 00, 00, 07, 2a, b4, 00, 02, 04, 60, ac, 00, 00, 00, 02, 00, 0a, 00, 00, 00, 06, 00, 01, 00, 00, 00, 07, 00, 0b, 00, 00, 00, 0c, 00, 01, 00, 00, 00, 07, 00, 0c, 00, 0d, 00, 00]
==========属性表==============
属性数量为0001
[00, 10, 00, 00, 00, 02, 00, 11]
如果有哪位老板,有更加深入或完善的解析代码,欢迎分享。