如何解決Java中的中文亂碼問題-_第1頁
如何解決Java中的中文亂碼問題-_第2頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、如何解決Java中的中文亂碼問題?一、中文問題的來源計(jì)算機(jī)最初的操作系統(tǒng)支持的編碼是單字節(jié)的字符編碼,于是,在計(jì)算機(jī)中一切處理程序最初都是以單字節(jié)編碼的英文為準(zhǔn)進(jìn)行處理。隨著計(jì)算機(jī)的發(fā)展,為了適應(yīng)世界其它民族的語言(當(dāng)然包括我們的漢字),人們提出了UNICODE編碼,它采用雙字節(jié)編碼,兼容英文字符和其它民族的雙字節(jié)字符編碼,所以,目前,大多數(shù)國際性的軟件內(nèi)部均采用UNICODE編碼,在軟件運(yùn)行時(shí),它獲得本地支持系統(tǒng)(多數(shù)時(shí)間是操作系統(tǒng))默認(rèn)支持的編碼格式,然后再將軟件內(nèi)部的UNICODE轉(zhuǎn)化為本地系統(tǒng)默認(rèn)支持的格式顯示出來。Java的JDK和JVM即是如此,我這里說的JDK是指國際版的JDK,

2、我們大多數(shù)程序員使用的是國際化的JDK版本,以下所有的JDK均指國際化的JDK版本。我們的漢字是雙字節(jié)編碼語言,為了能讓計(jì)算機(jī)處理中文,我們自己制定的gb2312、GBK、GBK2K等標(biāo)準(zhǔn)以適應(yīng)計(jì)算機(jī)處理的需求。所以,大部分的操作系統(tǒng)為了適應(yīng)我們處理中文的需求,均定制有中文操作系統(tǒng),它們采用的是GBK,GB2312編碼格式以正確顯示我們的漢字。女口:中文Win2K默認(rèn)采用的是GBK編碼顯示,在中文WIN2k中保存文件時(shí)默認(rèn)米用的保存文件的編碼格式也是GBK的,即,所有在中文WIN2K中保存的文件它的內(nèi)部編碼默認(rèn)均采用GBK編碼,注意:GBK是在GB2312基礎(chǔ)上擴(kuò)充來的由于Java語言內(nèi)部采用

3、UNICODE編碼,所以在JAVA程序運(yùn)行時(shí),就存在著一個(gè)從UNICODE編碼和對(duì)應(yīng)的操作系統(tǒng)及瀏覽器支持的編碼格式轉(zhuǎn)換輸入、輸出的問題,這個(gè)轉(zhuǎn)換過程有著一系列的步驟,如果其中任何一步出錯(cuò),則顯示出來的漢字就會(huì)出是亂碼,這就是我們常見的JAVA中文問題。同時(shí),Java是一個(gè)跨平臺(tái)的編程語言,也即我們編寫的程序不僅能在中文windows上運(yùn)行,也能在中文Linux等系統(tǒng)上運(yùn)行,同時(shí)也要求能在英文等系統(tǒng)上運(yùn)行(我們經(jīng)常看到有人把在中文win2k上編寫的JAVA程序,移植到英文Linux上運(yùn)行)。這種移植操作也會(huì)帶來中文問題。還有,有人使用英文的操作系統(tǒng)和英文的IE等瀏覽器,來運(yùn)行帶中文字符的程序和

4、瀏覽中文網(wǎng)頁,它們本身就不支持中文,也會(huì)帶來中文問題。有,幾乎所有的瀏覽器默認(rèn)在傳遞參數(shù)時(shí)都是以UTF-8編碼格式來傳遞,而不是按中文編碼傳遞,所以,傳遞中文參數(shù)時(shí)也會(huì)有問題,從而帶來亂碼現(xiàn)象??傊?,以上幾個(gè)方面是JAVA中的中文問題的主要來源,我們把以上原因造成的程序不能正確運(yùn)行而產(chǎn)生的問題稱作:JAVA中文問題。2、JAVA編碼轉(zhuǎn)換的詳細(xì)過程我們常見的JAVA程序包括以下類別:*直接在console上運(yùn)行的類(包括可視化界面的類)*JSP代碼類(注:JSP是Servlets類的變型)*Servelets類*EJB類*其它不可以直接運(yùn)行的支持類這些類文件中,都有可能含有中文字符串,并且我們常

5、用前三類JAVA程序和用戶直接交互,用于輸出和輸入字符,如:我們?cè)贘SP和Servlet中得到客戶端送來的字符,這些字符也包括中文字符。無論這些JAVA類的作用如何,這些JAVA程序的生命周期都是這樣的:*編程人員在一定的操作系統(tǒng)上選擇一個(gè)合適的編輯軟件來實(shí)現(xiàn)源程序代碼并以.java擴(kuò)展名保存在操作系統(tǒng)中,例如我們?cè)谥形膚in2k中用記事本編輯一個(gè)java源程序;*編程人員用JDK中的javac.exe來編譯這些源代碼,形成.class類(JSP文件是由容器調(diào)用JDK來編譯的);*直接運(yùn)行這些類或?qū)⑦@些類布署到WEB容器中去運(yùn)行,并輸出那么,在這些過程中,JDK和JVM是如何將這些文件如何編碼

6、和解碼并運(yùn)行的呢這里,我們以中文win2k操作系統(tǒng)為例說明JAVA類是如何來編碼和被解碼的。第一步,我們?cè)谥形膚in2k中用編輯軟件如記事本編寫一個(gè)Java源程序文件(包括以上五類JAVA程序),程序文件在保存時(shí)默認(rèn)采用了操作系統(tǒng)默認(rèn)支持GBK編碼格式(操作系統(tǒng)默認(rèn)支持的格式為file.encoding格式)形成了一個(gè).java文件,也即,java程序在被編譯前,我們的JAVA源程序文件是采用操作系統(tǒng)默認(rèn)支持的file.encoding編碼格式保存的,java源程序中含有中文信息字符和英文程序代碼;要查看系統(tǒng)的file.encoding參數(shù),可以用以下代碼:publicclassShowSys

7、temDefaultEncodingpublicstaticvoidmain(Stringargs)Stringencoding=System.getProperty(file.encoding);System.out.println(encoding);第二步,我們用JDK的javac.exe文件編譯我們的Java源程序,由于JDK是國際版的,在編譯的時(shí)候,如果我們沒有用-encoding參數(shù)指定我們的JAVA源程序的編碼格式,則javac.exe首先獲得我們操作系統(tǒng)默認(rèn)采用的編碼格式,也即在編譯java程序時(shí),若我們不指定源程序文件的編碼格式,JDK首先獲得操作系統(tǒng)的file.encodi

8、ng參數(shù)(它保存的就是操作系統(tǒng)默認(rèn)的編碼格式,女口WIN2k,它的值為GBK),然后JDK就把我們的java源程序從file.encoding編碼格式轉(zhuǎn)化為JAVA內(nèi)部默認(rèn)的UNICODE格式放入內(nèi)存中。然后,javac把轉(zhuǎn)換后的unicode格式的文件進(jìn)行編譯成.class類文件,此時(shí).class文件是UNICODE編碼的,它暫放在內(nèi)存中,緊接著,JDK將此以UNICODE編碼的編譯后的class文件保存到我們的操作系統(tǒng)中形成我們見到的.class文件。對(duì)我們來說,我們最終獲得的.class文件是內(nèi)容以UNICODE編碼格式保存的類文件,它內(nèi)部包含我們?cè)闯绦蛑械闹形淖址?,只不過此時(shí)它己經(jīng)由

9、file.encoding格式轉(zhuǎn)化為UNICODE格式了。這一步中,對(duì)于JSP源程序文件是不同的,對(duì)于JSP,這個(gè)過程是這樣的:即WEB容器調(diào)用JSP編譯器,JSP編譯器先查看JSP文件中是否設(shè)置有文件編碼格式,如果JSP文件中沒有設(shè)置JSP文件的編碼格式,則JSP編譯器調(diào)用JDK先把JSP文件用JVM默認(rèn)的字符編碼格式辿即WEB容器所在的操作系統(tǒng)的默認(rèn)的file.encoding)轉(zhuǎn)化為臨時(shí)的Servlet類,然后再把它編譯成UNICODE格式的class類,并保存在臨時(shí)文件夾中。如:在中文win2k上,WEB容器就把JSP文件從GBK編碼格式轉(zhuǎn)化為UNICODE格式,然后編譯成臨時(shí)保存的S

10、ervlet類,以響應(yīng)用戶的請(qǐng)求。第三步,運(yùn)行第二步編譯出來的類,分為三種情況:A、直接在console上運(yùn)行的類B、EJB類和不可以直接運(yùn)行的支持類(如JavaBean類)C、JSP代碼和Servlet類D、JAVA程序和數(shù)據(jù)庫之間下面我們分這四種情況來看。A、直接在console上運(yùn)行的類這種情況,運(yùn)行該類首先需要JVM支持,即操作系統(tǒng)中必須安裝有JRE運(yùn)行過程是這樣的:首先java啟動(dòng)JVM,此時(shí)JVM讀出操作系統(tǒng)中保存的class文件并把內(nèi)容讀入內(nèi)存中,此時(shí)內(nèi)存中為UNICODE格式的class類,然后JVM運(yùn)行它,如果此時(shí)此類需要接收用戶輸入,則類會(huì)默認(rèn)用file.encoding編

11、碼格式對(duì)用戶輸入的串進(jìn)行編碼并轉(zhuǎn)化為unicode保存入內(nèi)存(用戶可以設(shè)置輸入流的編碼格式)。程序運(yùn)行后,產(chǎn)生的字符串(UNICODE編碼的)再回交給JVM,最后JRE把此字符串再轉(zhuǎn)化為file.encoding格式(用戶可以設(shè)置輸出流的編碼格式)傳遞給操作系統(tǒng)顯示接口并輸出到界面上。以上每一步的轉(zhuǎn)化都需要正確的編碼格式轉(zhuǎn)化,才能最終不出現(xiàn)亂碼現(xiàn)象。B、EJB類和不可以直接運(yùn)行的支持類(如JavaBean類)由于EJB類和不可以直接運(yùn)行的支持類,它們一般不與用戶直接交互輸入和輸出,它們常常與其它的類進(jìn)行交互輸入和輸出,所以它們?cè)诘诙奖痪幾g后,就形成了內(nèi)容是UNICODE編碼的類保存在操作系統(tǒng)

12、中了,以后只要它與其它的類之間的交互在參數(shù)傳遞過程中沒有丟失,則它就會(huì)正確的運(yùn)行。C、JSP代碼和Servlet類經(jīng)過第二步后,JSP文件也被轉(zhuǎn)化為Servlets類文件,只不過它不像標(biāo)準(zhǔn)的Servlets一校存在于classes目錄中,它存在于WEB容器的臨時(shí)目錄中,故這一步中我們也把它做為Servlets來看。對(duì)于Servlets,客戶端請(qǐng)求它時(shí),WEB容器調(diào)用它的JVM來運(yùn)行Servlet,首先,JVM把Servlet的class類從系統(tǒng)中讀出并裝入內(nèi)存中,內(nèi)存中是以UNICODE編碼的Servlet類的代碼,然后JVM在內(nèi)存中運(yùn)行該Servlet類,如果Servlet在運(yùn)行的過程中,需

13、要接受從客戶端傳來的字符如:表單輸入的值和URL中傳入的值,此時(shí)如果程序中沒有設(shè)定接受參數(shù)時(shí)采用的編碼格式,則WEB容器會(huì)默認(rèn)采用ISO-8859-1編碼格式來接受傳入的值并在JVM中轉(zhuǎn)化為UNICODE格式的保存在WEB容器的內(nèi)存中。Servlet運(yùn)行后生成輸出,輸出的字符串是UNICODE格式的,緊接著,容器將Servlet運(yùn)行產(chǎn)生的UNICODE格式的串(如html語法,用戶輸出的串等)直接發(fā)送到客戶端瀏覽器上并輸出給用戶,如果此時(shí)指定了發(fā)送時(shí)輸出的編碼格式,貝S按指定的編碼格式輸出到瀏覽器上,如果沒有指定,則默認(rèn)按ISO-8859-1編碼發(fā)送到客戶的瀏覽器上。D、Java程序和數(shù)據(jù)庫之

14、間對(duì)于幾乎所有數(shù)據(jù)庫的JDBC驅(qū)動(dòng)程序,默認(rèn)的在JAVA程序和數(shù)據(jù)庫之間傳遞數(shù)據(jù)都是以ISO-8859-1為默認(rèn)編碼格式的,所以,我們的程序在向數(shù)據(jù)庫內(nèi)存儲(chǔ)包含中文的數(shù)據(jù)時(shí),JDBC首先是把程序內(nèi)部的UNICODE編碼格式的數(shù)據(jù)轉(zhuǎn)化為ISO-8859-1的格式,然后傳遞到數(shù)據(jù)庫中,在數(shù)據(jù)庫保存數(shù)據(jù)時(shí),它默認(rèn)即以ISO-8859-1保存,所以,這是為什么我們常常在數(shù)據(jù)庫中讀出的中文數(shù)據(jù)是亂碼。3、分析常見的JAVA中文問題幾個(gè)必須清楚的原則首先,經(jīng)過上面的詳細(xì)分析,我們可以清晰地看到,任何JAVA程序的生命期中,其編碼轉(zhuǎn)換的關(guān)鍵過程是在于:最初編譯成class文件的轉(zhuǎn)碼和最終向用戶輸出的轉(zhuǎn)碼過程

15、。其次,我們必須了解JAVA在編譯時(shí)支持的、常用的編碼格式有以下幾種:*ISO-8859-1,8-bit,同8859_1,ISO-8859-1,ISO_8859_1等編碼*Cp1252,美國英語編碼,同ANSI標(biāo)準(zhǔn)編碼*UTF-8,同unicode編碼*GB2312,同gb2312-80,gb2312-1980等編碼*GBK,同MS936,它是gb2312的擴(kuò)充及其它的編碼,如韓文、日文、繁體中文等。同時(shí),我們要注意這些編碼間的兼容關(guān)體系如下:unicode和UTF-8編碼是對(duì)應(yīng)的關(guān)系。GB2312可以認(rèn)為是GBK的子集,即GBK編碼是在gb2312上擴(kuò)展來的。同時(shí),GBK編碼包含了20902

16、個(gè)漢字,編碼范圍為:08140-Oxfefe,所有的字符可以對(duì)應(yīng)到UNICODE2.0中來。再次,對(duì)于放在操作系統(tǒng)中的.java源程序文件,在編譯時(shí),我們可以指定它內(nèi)容的編碼格式,具體來說用-encoding來指定。注意:如果源程序中含有中文字符,而你用-encoding指定為其它的編碼字符,顯然是要出錯(cuò)的。用-encoding指定源文件的編碼方式為GBK或gb2312,無論我們?cè)谑裁聪到y(tǒng)上編譯含有中文字符的JAVA源程序都不會(huì)有問題,它都會(huì)正確地將中文轉(zhuǎn)化為UNICODE存儲(chǔ)在class文件中。然后,我們必須清楚,幾乎所有的WEB容器在其內(nèi)部默認(rèn)的字符編碼格式都是以ISO-8859-1為默認(rèn)

17、值的,同時(shí),幾乎所有的瀏覽器在傳遞參數(shù)時(shí)都是默認(rèn)以UTF-8的方式來傳遞參數(shù)的。所以,雖然我們的Java源文件在出入口的地方指定了正確的編碼方式,但其在容器內(nèi)部運(yùn)行時(shí)還是以ISO-8859-1來處理的。4、中文問題的分類及其建議最優(yōu)解決辦法了解以上JAVA處理文件的原理之后,我們就可以提出了一套建議最優(yōu)的解決漢字問題的辦法。我們的目標(biāo)是:我們?cè)谥形南到y(tǒng)中編輯的含有中文字符串或進(jìn)行中文處理的JAVA源程序經(jīng)編譯后可以移值到任何其它的操作系統(tǒng)中正確運(yùn)行,或拿到其它操作系統(tǒng)中編譯后能正確運(yùn)行,能正確地傳遞中文和英文參數(shù),能正確地和數(shù)據(jù)庫交流中英文字符串。我們的具體思路是:在JAVA程序轉(zhuǎn)碼的入口和出

18、口及JAVA程序同用戶有輸入輸出轉(zhuǎn)換的地方限制編碼方法使之正確即可。具體解決辦法如下:1、針對(duì)直接在console上運(yùn)行的類對(duì)于這種情況,我們建議在程序編寫時(shí),如果需要從用戶端接收用戶的可能含有中文的輸入或含有中文的輸出,程序中應(yīng)該采用字符流來處理輸入和輸出,具體來說,應(yīng)用以下面向字符型節(jié)點(diǎn)流類型:對(duì)文件:FileReader,F(xiàn)ileWrieter其字節(jié)型節(jié)點(diǎn)流類型為:FileInputStream,F(xiàn)ileOutputStream對(duì)內(nèi)存(數(shù)組):CharArrayReader,CharArrayWriter其字節(jié)型節(jié)點(diǎn)流類型為:ByteArrayInputStream,ByteArrayO

19、utputStream對(duì)內(nèi)存(字符串):StringReader,StringWriter對(duì)管道:PipedReader,PipedWriter其字節(jié)型節(jié)點(diǎn)流類型為:PipedlnputStreamPipedOutputStream同時(shí),應(yīng)該用以下面向字符型處理流來處理輸入和輸出:BufferedWriter,BufferedReader其字節(jié)型的處理流為:BufferedlnputeStream,BufferedOutputStreamInputStreamReader,OutputStreamWriter其字節(jié)型的處理流為:DataInputStream,DataOutputStream其

20、中InputStreamReader和InputStreamWriter用于將字節(jié)流按照指定的字符編碼集轉(zhuǎn)換到字符流,如:InputStreamReaderin二newInputStreamReader(System.in,GB2312);OutputStreamWriterout=newOutputStreamWriter(System.out,GB2312);例如:米用如下的示例JAVA編碼就達(dá)到了要求:/Read.javaimportjava.io.*;publicclassReadpublicstaticvoidmain(Stringargs)throwsIOExceptionStri

21、ngstr=中文測試,這是內(nèi)部硬編碼的串+testenglishcharacter19Stringstrin=BufferedReaderstdinnewBufferedReader(new設(shè)置輸入接口按中文InputStreamReader(System.in,gb2312);/編碼BufferedWriterstdout=newBufferedWriter(newOutputStreamWriter(System.out,gb2312);/設(shè)置輸出接口按中文編碼stdout.write(請(qǐng)輸入:);stdout.flush();strin=stdin.readLine();stdout.w

22、rite(這是從用戶輸入的串:+strin);stdout.write(str);stdout.flush();同時(shí),在編譯程序時(shí),我們用以下方式來進(jìn)行:javac-encodinggb2312Read.java2、針對(duì)EJB類和不可以直接運(yùn)行的支持類(如JavaBean類)由于這種類它們本身被其它的類調(diào)用,不直接與用戶交互,故對(duì)這種類來說,我們的建議的處理方式是內(nèi)部程序中應(yīng)該采用字符流來處理程序內(nèi)部的中文字符串(具體如上面一節(jié)中一樣),同時(shí),在編譯類時(shí)用-encodinggb2312參數(shù)指示源文件是中文格式編碼的即3、針對(duì)Servlet類針對(duì)Servlet,我們建議用以下方法:在編譯Serv

23、let類的源程序時(shí),用-encoding指定編碼為GBK或GB2312,且在向用戶輸出時(shí)的編碼部分用response對(duì)象的setContentType(text/html;charset二GBK);或gb2312來設(shè)置輸出編碼格式,同樣在接收用戶輸入時(shí),我們用request.setCharacterEncoding(GB2312);這樣無論我們的servlet類移植到什么操作系統(tǒng)中,只有客戶端的瀏覽器支持中文顯示,就可以正確顯示。如下是一個(gè)正確的示例:/HelloWorld.javapackagehello;importjava.io.*;importjavax.servlet.*;impor

24、tjavax.servlet.http.*;publicclassHelloWorldextendsHttpServletpublicvoidinit()throwsServletExceptionpublicvoiddoGet(HttpServletRequestrequest,HttpServletResponseresponse)throwsIOException,ServletExceptionrequest.setCharacterEncoding(GB2312);/設(shè)置輸入編碼格式response.setContentType(text/html;charset二GB2312);I

25、I設(shè)置輸出編碼格式PrintWriterout=response.getWriter();/建議使用PrintWriter輸出out.println();out.println(HelloWorld!ThisiscreatedbyServlet!測試中文!);out.println();publicvoiddoPost(HttpServletRequestrequest,HttpServletResponseresponse)throwsIOException,ServletExceptionrequest.setCharacterEncoding(GB2312);/設(shè)置輸入編碼格式respo

26、nse.setContentType(text/html;charset=GB2312);/設(shè)置輸出編碼格式Stringname=request.getParameter(name);Stringid=request.getParameter(id);if(name=null)name="if(id=二null)id="PrintWriteroutresponse.getWriter();/建議使用PrintWriter輸出out.println();out.println(你傳入的中文字串是:+name);out.println(你輸入的id是:+id);out.prin

27、tln();publicvoiddestroy。來編譯此程中文請(qǐng)用javac-encodinggb2312HelloWorld.java序。測試此Servlet的程序如下所示:functionSubmit()/通過URL傳遞中文字符串值給Servletdocument.base.action二./HelloWorldname=document.base.method=POSTdocument.base.submit();傳給Servlet/testchinese.jspStringaction二request.getParameter(ACTION);Stringname=Stringstr=

28、if(action!二nullaction.equals(SENT)name=request.getParameter(name);str=request.getParameter(str);%>functionSubmit。document.base.action=ACTION二SENTstr=傳入的中文document.base.method=POSTdocument.base.submit();提交if(action!二nullaction.equals(SENT)out.println(你輸入的字符為:+name);out.println(你通過URL傳入的字符為:+str);%

29、>由于大多數(shù)本地測試環(huán)境是TOMCAT,現(xiàn)也將其中文問題一并附上Tomcat中文問題-在tomcat5中發(fā)現(xiàn)了以前處理tomcat4的方法不能適用于處理直接通過url提交的請(qǐng)求,上網(wǎng)找資料終于發(fā)現(xiàn)了最完美的解決辦法,不用每個(gè)地方都轉(zhuǎn)換了,而且無論get,和post都正常。寫了個(gè)文檔,貼出來希望跟我有同樣問題的人不再像我一樣痛苦一次:-)問題描述:1表單提交的數(shù)據(jù),用request.getParameter(“xxx”)返回的字符串為亂碼或者2直接通過url女口http:/localhost/a.jspname二中國,這樣的get請(qǐng)求在服務(wù)端用request.getParameter(“name”)時(shí)返回的是亂碼;按tomcat4的做法設(shè)置Filter也沒有用或者用re

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論