java javac编译与JIT编译，

来源： javaer 分享于 2024-06-09 点击 10410 次点评：272

java javac编译与JIT编译，

编译过程

不论是物理机还是虚拟机，大部分的程序代码从开始编译到最终转化成物理机的目标代码或虚拟机能执行的指令集之前，都会按照如下图所示的各个步骤进行：

其中绿色的模块可以选择性实现。很容易看出，上图中间的那条分支是解释执行的过程（即一条字节码一条字节码地解释执行，如JavaScript），而下面的那条分支就是传统编译原理中从源代码到目标机器代码的生成过程。

如今，基于物理机、虚拟机等的语言，大多都遵循这种基于现代经典编译原理的思路，在执行前先对程序源码进行词法解析和语法解析处理，把源码转化为抽象语法树。对于一门具体语言的实现来说，词法和语法分析乃至后面的优化器和目标代码生成器都可以选择独立于执行引擎，形成一个完整意义的编译器去实现，这类代表是C/C++语言。也可以把抽象语法树或指令流之前的步骤实现一个半独立的编译器，这类代表是Java语言。又或者可以把这些步骤和执行引擎全部集中在一起实现，如大多数的JavaScript执行器。

Javac编译

在Java中提到“编译”，自然很容易想到Javac编译器将*.java文件编译成为*.class文件的过程，这里的Javac编译器称为前端编译器，其他的前端编译器还有诸如Eclipse JDT中的增量式编译器ECJ等。相对应的还有后端编译器，它在程序运行期间将字节码转变成机器码（现在的Java程序在运行时基本都是解释执行加编译执行），如HotSpot虚拟机自带的JIT（Just In Time Compiler）编译器（分Client端和Server端）。另外，有时候还有可能会碰到静态提前编译器（AOT，Ahead Of Time Compiler）直接把*.java文件编译成本地机器代码，如GCJ、Excelsior JET等，这类编译器我们应该比较少遇到。

下面简要说下Javac编译（前端编译）的过程。

词法、语法分析

词法分析是将源代码的字符流转变为标记（Token）集合。单个字符是程序编写过程中的的最小元素，而标记则是编译过程的最小元素，关键字、变量名、字面量、运算符等都可以成为标记，比如整型标志int由三个字符构成，但是它只是一个标记，不可拆分。

语法分析是根据Token序列来构造抽象语法树的过程。抽象语法树是一种用来描述程序代码语法结构的树形表示方式，语法树的每一个节点都代表着程序代码中的一个语法结构，如bao、类型、修饰符、运算符等。经过这个步骤后，编译器就基本不会再对源码文件进行操作了，后续的操作都建立在抽象语法树之上。

填充符号表

完成了语法分析和词法分析之后，下一步就是填充符号表的过程。符号表是由一组符号地址和符号信息构成的表格。符号表中所登记的信息在编译的不同阶段都要用到，在语义分析（后面的步骤）中，符号表所登记的内容将用于语义检查和产生中间代码，在目标代码生成阶段，党对符号名进行地址分配时，符号表是地址分配的依据。

语义分析

语法树能表示一个结构正确的源程序的抽象，但无法保证源程序是符合逻辑的。而语义分析的主要任务是读结构上正确的源程序进行上下文有关性质的审查。语义分析过程分为标注检查和数据及控制流分析两个步骤：

标注检查步骤检查的内容包括诸如变量使用前是否已被声明、变量和赋值之间的数据类型是否匹配等。
数据及控制流分析是对程序上下文逻辑更进一步的验证，它可以检查出诸如程序局部变量在使用前是否有赋值、方法的每条路径是否都有返回值、是否所有的受查异常都被正确处理了等问题。

字节码生成

字节码生成是Javac编译过程的最后一个阶段。字节码生成阶段不仅仅是把前面各个步骤所生成的信息转化成字节码写到磁盘中，编译器还进行了少量的代码添加和转换工作。实例构造器<init>（）方法和类构造器<clinit>（）方法就是在这个阶段添加到语法树之中的（这里的实例构造器并不是指默认的构造函数，而是指我们自己重载的构造函数，如果用户代码中没有提供任何构造函数，那编译器会自动添加一个没有参数、访问权限与当前类一致的默认构造函数，这个工作在填充符号表阶段就已经完成了）。

JIT编译

Java程序最初是仅仅通过解释器解释执行的，即对字节码逐条解释执行，这种方式的执行速度相对会比较慢，尤其当某个方法或代码块运行的特别频繁时，这种方式的执行效率就显得很低。于是后来在虚拟机中引入了JIT编译器（即时编译器），当虚拟机发现某个方法或代码块运行特别频繁时，就会把这些代码认定为“Hot Spot Code”（热点代码），为了提高热点代码的执行效率，在运行时，虚拟机将会把这些代码编译成与本地平台相关的机器码，并进行各层次的优化，完成这项任务的正是JIT编译器。

现在主流的商用虚拟机（如Sun HotSpot、IBM J9）中几乎都同时包含解释器和编译器（三大商用虚拟机之一的JRockit是个例外，它内部没有解释器，因此会有启动相应时间长之类的缺点，但它主要是面向服务端的应用，这类应用一般不会重点关注启动时间）。二者各有优势：当程序需要迅速启动和执行时，解释器可以首先发挥作用，省去编译的时间，立即执行；当程序运行后，随着时间的推移，编译器逐渐会返回作用，把越来越多的代码编译成本地代码后，可以获取更高的执行效率。解释执行可以节约内存，而编译执行可以提升效率。

HotSpot虚拟机中内置了两个JIT编译器：Client Complier和Server Complier，分别用在客户端和服务端，目前主流的HotSpot虚拟机中默认是采用解释器与其中一个编译器直接配合的方式工作。

运行过程中会被即时编译器编译的“热点代码”有两类：

被多次调用的方法。
被多次调用的循环体。

两种情况，编译器都是以整个方法作为编译对象，这种编译也是虚拟机中标准的编译方式。要知道一段代码或方法是不是热点代码，是不是需要触发即时编译，需要进行Hot Spot Detection（热点探测）。目前主要的热点判定方式有以下两种：

基于采样的热点探测：采用这种方法的虚拟机会周期性地检查各个线程的栈顶，如果发现某些方法经常出现在栈顶，那这段方法代码就是“热点代码”。这种探测方法的好处是实现简单高效，还可以很容易地获取方法调用关系，缺点是很难精确地确认一个方法的热度，容易因为受到线程阻塞或别的外界因素的影响而扰乱热点探测。
基于计数器的热点探测：采用这种方法的虚拟机会为每个方法，甚至是代码块建立计数器，统计方法的执行次数，如果执行次数超过一定的阀值，就认为它是“热点方法”。这种统计方法实现复杂一些，需要为每个方法建立并维护计数器，而且不能直接获取到方法的调用关系，但是它的统计结果相对更加精确严谨。

在HotSpot虚拟机中使用的是第二种——基于计数器的热点探测方法，因此它为每个方法准备了两个计数器：方法调用计数器和回边计数器。

方法调用计数器用来统计方法调用的次数，在默认设置下，方法调用计数器统计的并不是方法被调用的绝对次数，而是一个相对的执行频率，即一段时间内方法被调用的次数。

回边计数器用于统计一个方法中循环体代码执行的次数（准确地说，应该是回边的次数，因为并非所有的循环都是回边），在字节码中遇到控制流向后跳转的指令就称为“回边”。

在确定虚拟机运行参数的前提下，这两个计数器都有一个确定的阀值，当计数器的值超过了阀值，就会触发JIT编译。触发了JIT编译后，在默认设置下，执行引擎并不会同步等待编译请求完成，而是继续进入解释器按照解释方式执行字节码，直到提交的请求被编译器编译完成为止（编译工作在后台线程中进行）。当编译工作完成后，下一次调用该方法或代码时，就会使用已编译的版本。

由于方法计数器触发即时编译的过程与回边计数器触发即时编译的过程类似，因此这里仅给出方法调用计数器触发即时编译的流程：

Javac字节码编译器与虚拟机内的JIT编译器的执行过程合起来其实就等同于一个传统的编译器所执行的编译过程。

转载自：http://blog.csdn.net/ns_code/article/details/18009455
参考：http://bravecs.iteye.com/blog/1781968

Javac的工作流程：

源码——词法分析器——Token流——语法分析器——语法树——语义分析器——注解语法树——代码生成器——字节码

1）词法分析

读取源代码，一个字节一个字节地读进来，找到这些字节中哪些是定义的语法关键词，如Java中的if、else、for、while等关键词，要识别哪些if是合法的关键词、哪些不是。

从源码中找到一些规范化的Token流，就像人类语言中，给你一句话要能分辨出哪些是一个词语、哪些是标点符号、哪些是动词、哪些是名词等。

Scanner负责具体读取和归类不同词法的操作，判断哪些字符组合是一个Token。JavacParser规定了哪些词是符合Java语言规范规定的词：package语法、import语法、类定义、field定义、method定义、变量定义、表达式定义等，每个语法表达式用分号结束。

2）语法分析

对Token流进行语法分析，检查这些关键词组合在一起是不是符合Java语言规范，如if的后面是不是紧跟着一个布尔判断表达式。就像人类语言中，是不是有主谓宾，主谓宾结合得是不是正确，语法是不是正确。

形成一个符合Java语言规范的抽象语法树，抽象语法树是一个结构化的语法表达式形式，它的作用是把语言的主要词法用一个结构化的形式组织在一起。这颗语法树可以被我们后面按照新的规则重新组织。

将token流组建成更加结构化的语法树，也就是间一个个单词组装成一句话，一个完整的语句。哪些词语组合在一起是主语、哪些是谓语、哪些是宾语、哪些是定语，要做进一步区分。Java语法树使得Java源代码更加结构化：每个语法树上的节点都是com.sun.tools.javac.tree.JCTree的一个实例，①每个语法节点都会实现一个接口xxxTree，这个接口又继承于com.sun.source.tree.Tree接口，如IfTree语法节点表示一个if类型的表达式，BinaryTree语法节点代表一个二元操作表达式等；②每个语法节点都是com.sum.tools.javac.tree.JCTree的子类，并且会实现xxxTree接口类，这个类的类名类似于JCxxx，如实现IfTree接口的实现类为JCIf，实现BinaryTree接口的类为JCBinary等；③所有的JCxxx类都作为一个静态内部类在JCTree类中。

3）语义分析

把一些难懂的、复杂的语法转化成更加简单的语法。这个步骤类似将难懂的文言文转化成大家都能懂的白话文或者注解一下一些成语，便于人们更好地理解。

将复杂的语法转化成最简单的语法，对应到Java中，如将foreach转成for循环结构，还有注解等，最后形成一个注解过后的抽象语法树，这颗语法树更接近目标语言的语法规则。

com.sum.tools.javac.comp.Enter：符号表的构建

1）将Java类中的符号输入到符号表中

1）给类添加默认的构造函数

com.sun.tools.javac.processing.JavacProcessingEnvironment：annotation处理

2）处理annotation注解

com.sun.tools.javac.comp.Attr：标注和语法检查

3）检查操作变量类型是否匹配，操作数|方法返回值类型匹配com.sun.tools.javac.comp.Check

3）检查变量、方法或类的访问是否合法、变量是否是静态变量、变量在使用前是否已经初始化com.sun.tools.javac.comp.Resolve

3）推导出泛型方法中的参数类型com.sum.tools.javac.comp.Infer

3）将一些常量进行合并处理com.sum.tools.javac.comp.ConstFold

com.sun.tools.javac.comp.Flow数据流分析

4）检查变量在使用前是否已经正确赋值

4）包装final修饰的变量不会被重新赋值

4）方法的返回值类型都要确定

4）检查所有的操作是否可达

4）检查checked exception异常是否已经捕获或抛出

5）解除Java的语法糖

5）去掉无用的代码，如永假的if代码块

5）变量的自动转换，如将int自动包装成Integer类型或者相反的操作等；

4）代码生成器

根据经过注解的抽象语法树生成字节码，将一个数据结构转化为另一个数据结构，类似将所有的中文语句翻译成英文单词后按照英文语法组装成英文语句。

com.sun.tools.javac.jvm.Gen

①将Java方法中的代码块转成符合JVM语法的命令形式，JVM的操作都是基于栈的，所有的操作都必须经过出栈和进栈来完成。

②安装JVM的文件组织格式将字节码输出到以class为扩展名的文件中。

2个类：

①Items：任何可寻址的操作项，这些包括本地变量、类实例变量或者常量池中用户自定义的常量等，这些操作项都可以作为一个单位出现在操作栈上

②Code：存储生成的字节码和提供一些能够映射操作码的方法

Javac中访问者模式的实现

词法分析、语法分析、语义分析和代码生成都要多次遍历语法树，但每次遍历这颗语法树都会进行不同的处理动作。Javac采用访问者模式设计，每次遍历都是一次访问者的执行过程。

访问者模式可以将数据结构和对数据结构的操作解耦，使得增加对数据结构的操作不需要去修改数据结构，也不必去修改原有的操作，而执行时再定义新的Visitor实现者就可以。在Javac中不同的编译阶段都定义了不同的访问者模式实现。

①TreeScanner、Enter、Attr、Gen、Flow等都是作为具体访问者角色，每个访问者都定义了自己的访问规则.

②EJCIf、JCTry、JCBreak、JCReturn都是具体节点元素，作为一个稳定的数据结构存在。

参考：http://blog.csdn.net/qh_java/article/details/9107243 http://www.importnew.com/2009.html

java javac编译与JIT编译，