【JAVA】 java字符编码解析，

来源： javaer 分享于 2023-11-05 点击 46971 次点评：266

【JAVA】 java字符编码解析，

JAVA的中文字符乱码问题一直很让人头疼。特别是在WEB应用中。网上的分析文章和解决方案都很多，但总是针对某些特定情况的。很多次遇到乱码问题后，经过极为辛苦的调试和搜索资料后终于解决，满以为自己已经掌握了对付这些字符乱码怪兽的诀窍。可当过段时间，换了个应用或换了个环境，又会碰到那讨厌的火星文，并再次无所适从。于是下决心好好整理一下中文字符编码问题，以方便自己记忆，也为其他程序员兄弟们提供一份参考。

首先要了解JAVA处理字符的原理。JAVA使用UNICODE来存储字符数据，处理字符时通常有三个步骤：

按指定的字符编码形式，从源输入流中读取字符数据
以UNICODE编码形式将字符数据存储在内存中
按指定的字符编码形式，将字符数据编码并写入目的输出流中。

所以JAVA处理字符时总是经过了两次编码转换，一次是从指定编码转换为UNICODE编码，一次是从UNICODE编码转换为指定编码。如果在读入时用错误的形式解码字符，则内存存储的是错误的UNICODE字符。而从最初文件中读出的字符数据，到最终在屏幕终端显示这些字符，期间经过了应用程序的多次转换。如果中间某次字符处理，用错误的编码方式解码了从输入流读取的字符数据，或用错误的编码方式将字符写入输出流，则下一个字符数据的接收者就会编解码出错，从而导致最终显示乱码。

这一点，是我们分析字符编码问题以及解决问题的指导思想。好，现在我们开始一只只的解决这些乱码怪兽。

一. 在JAVA文件中硬编码中文字符，在eclipse中运行，控制台输出了乱码。

例如，我们在JAVA文件中写入以下代码：
String text = “大家好”;
System.out.println(text);
如果我们是在eclipse里编译运行，可能看到的结果是类似这样的乱码：????。那么，这是为什么呢？
我们先来看看整个字符的转换过程。

二. JSP文件中硬编码中文字符，在浏览器上显示乱码。　　

我们用eclipse编写一个JSP页面，使用tomcat浏览这个页面时，整个页面的中文字符都是乱码。这是什么原因呢？　　
JSP页面从编写到在浏览器上浏览，总共有四次字符编解码。　　

三. 在JSP文件中读取字符文件并在页面中显示，中文字符显示为乱码。

比如，我们在JSP文件中使用以下代码：　　
Java代码 1. 6. 　　　　　　　　
test.txt里保存的是中文字符，但在浏览器上看到的乱码。这是个经常见到的问题。我们继续用之前的方法一步步来分析输入和输出流　　

四. JSP读取request.getParameter里的中文参数后，在页面显示为乱码。

在JAVA的WEB应用中，对request对象里的parameters的中文处理一直是常见也最难搞的一只大怪兽。经常是刚搞定了这边，那边又出了乱码。而导致这种复杂性的，主要是此过程中字符编解码次数非常多，而且无论是浏览器还是WEB服务器特别是TOMCAT总是不能给我们一个比较满意的支持。　　
首先我们来分析用GET方式上传参数的乱码情况。　　
例如我们在浏览器地址栏输入以下URL：http://localhost:8080/test/test.jsp?param=大家好　　
我们的JSP代码如此处理param这个参数：　　　　　　
而就这么简单的两句代码，我们很有可能在页面上看到这样的乱码：?ó???? 　　
网上对处理request.getParamter中的乱码有很多文章和方法，也都是正确的，只是方法太多让人一直不明白到底是为什么。这里给大家分析一下到底是怎么一回事。　　首先，我们来看看与request对象有哪些相关的编码设置：　　

五. 对URL做Encode和Decode 　　

对于request参数的中文乱码问题，个人觉得最好的还是用URLEncode/URLDecode，因为如果你的WEB站点要支持国际化，最好就是保证从IE递送过来的参数永远是正确的UTF-8编码。　　
在IE端，我们可以用JS脚本来对参数编码：encodeURIComponent()，编码后中文字符便变成了%B4%F3%BC%D2 %BA%C3这种形式。在JAVA端，可以用java.net.URLDecoder.decode来解码。不过这里要注意一个问题，就是TOMCAT会自动先对URL 做一次decode，我们可以在TOMCAT的UDecoder类中看到这一点。不过TOMCAT并非使用了URLDecoder.decode，而是自己编写了一个decode函数。网上有些文章上介绍过一种处理乱码的方法便是在JS中对参数做两次encodeURIComponent，在JAVA中做一次decode，可以解决一些没有设置URIEncoding时发生的乱码问题。不过个人觉得如果弄懂了整个字符编码转换的过程，基本上是用不到这种方法的。　　
六、从数据库中读取中文字符数据，在页面上显示为乱码。　　
对于数据库中读取中文字符出现乱码的问题，本人遇到的还比较少，所以暂时没有总结。如果大家有类似的经验，欢迎补充说明，我一定注明作者身份。　　
好了，对各种字符乱码问题的分析就总结到这里，相信只要把握“以指定编码读取–转换为UNICODE–以指定编码输入”这基本步骤，初学者也可以很快分析出字符乱码的根源所在。另外我建议不要随便使用new String(str.getBytes(enc1),enc2)这种方式来强行转码，也不要随便使用网上的字符转码函数，我觉得只会把问题隐藏更深更复杂化。我们应该清晰地分析整个字符流的编解码过程，自然可以找出乱码的根源所在，从而保证整个字符流动中，在内存中的UNICODE始终是正确的。

【JAVA】 java字符编码解析，

【JAVA】 java字符编码解析，

首先要了解JAVA处理字符的原理。JAVA使用UNICODE来存储字符数据，处理字符时通常有三个步骤：

一. 在JAVA文件中硬编码中文字符，在eclipse中运行，控制台输出了乱码。

二. JSP文件中硬编码中文字符，在浏览器上显示乱码。

三. 在JSP文件中读取字符文件并在页面中显示，中文字符显示为乱码。

四. JSP读取request.getParameter里的中文参数后，在页面显示为乱码。

五. 对URL做Encode和Decode

相关文章

相关文章

用户点评