欢迎来到皮皮网官网

【apt get 下载源码】【源码供货平台】【cci原版源码】字符流源码_字符流编码

时间:2024-12-23 22:01:59 来源:正品防伪溯源码

1.C语言的字符编译过程是怎样的?
2.System.out.write和System.out.println
3.Unicode字符集与UTF-8编码
4.java中编码与解码分别指什么?
5.java中的outputstream为什么会乱码呢?

字符流源码_字符流编码

C语言的编译过程是怎样的?

       C语言编译过程详解

       C语言的编译链接过程是要把我们编写的一个C程序(源代码)转换成可以在硬件上运行的程序(可执行代码),需要进行编译和链接。流源编译就是码字把文本形式源代码翻译为机器语言形式的目标文件的过程。链接是符流把目标文件、操作系统的编码启动代码和用到的库文件进行组织形成最终生成可执行代码的过程。过程图解如下:

       从图上可以看到,字符apt get 下载源码整个代码的流源编译过程分为编译和链接两个过程,编译对应图中的码字大括号括起的部分,其余则为链接过程。符流

       一、编码编译过程

       编译过程又可以分成两个阶段:编译和汇编。字符

       1、流源编译

       编译是码字读取源程序(字符流),对之进行词法和语法的符流分析,将高级语言指令转换为功能等效的编码汇编代码,源文件的编译过程包含两个主要阶段:

       第一个阶段是预处理阶段,在正式的编译阶段之前进行。预处理阶段将根据已放置在文件中的预处理指令来修改源文件的内容。如#include指令就是一个预处理指令,它把头文件的内容添加到.cpp文件中。这个在编译之前修改源文件的方式提供了很大的灵活性,以适应不同的计算机和操作系统环境的限制。一个环境需要的代码跟另一个环境所需的代码可能有所不同,因为可用的硬件或操作系统是不同的。在许多情况下,可以把用于不同环境的代码放在同一个文件中,再在预处理阶段修改代码,使之适应当前的环境。

       主要是以下几方面的处理:

       (1)宏定义指令,如 #define a b。

       对于这种伪指令,预编译所要做的是将程序中的所有a用b替换,但作为字符串常量的 a则不被替换。还有 #undef,则将取消对某个宏的定义,使以后该串的出现不再被替换。

       (2)条件编译指令,如#ifdef,#ifndef,#else,#elif,#endif等。

       这些伪指令的引入使得程序员可以通过定义不同的宏来决定编译程序对哪些代码进行处理。预编译程序将根据有关的文件,将那些不必要的代码过滤掉

       (3) 头文件包含指令,如#include "FileName"或者#include <FileName>等。

       在头文件中一般用伪指令#define定义了大量的宏(最常见的是字符常量),同时包含有各种外部符号的声明。采用头文件的目的主要是为了使某些定义可以供多个不同的C源程序使用。因为在需要用到这些定义的C源程序中,只需加上一条#include语句即可,而不必再在此文件中将这些定义重复一遍。预编译程序将把头文件中的定义统统都加入到它所产生的输出文件中,以供编译程序对之进行处理。源码供货平台包含到C源程序中的头文件可以是系统提供的,这些头文件一般被放在/usr/include目录下。在程序中#include它们要使用尖括号(<>)。另外开发人员也可以定义自己的头文件,这些文件一般与C源程序放在同一目录下,此时在#include中要用双引号("")。

       (4)特殊符号,预编译程序可以识别一些特殊的符号。

       例如在源程序中出现的LINE标识将被解释为当前行号(十进制数),FILE则被解释为当前被编译的C源程序的名称。预编译程序对于在源程序中出现的这些串将用合适的值进行替换。

       预编译程序所完成的基本上是对源程序的“替代”工作。经过此种替代,生成一个没有宏定义、没有条件编译指令、没有特殊符号的输出文件。这个文件的含义同没有经过预处理的源文件是相同的,但内容有所不同。下一步,此输出文件将作为编译程序的输出而被翻译成为机器指令。

       第二个阶段编译、优化阶段。经过预编译得到的输出文件中,只有常量;如数字、字符串、变量的定义,以及C语言的关键字,如main,if,else,for,while,{ ,}, +,-,*,\等等。

       编译程序所要作得工作就是通过词法分析和语法分析,在确认所有的指令都符合语法规则之后,将其翻译成等价的中间代码表示或汇编代码。

       优化处理是编译系统中一项比较艰深的技术。它涉及到的问题不仅同编译技术本身有关,而且同机器的硬件环境也有很大的关系。优化一部分是对中间代码的优化。这种优化不依赖于具体的计算机。另一种优化则主要针对目标代码的生成而进行的。

       对于前一种优化,主要的工作是删除公共表达式、循环优化(代码外提、强度削弱、变换循环控制条件、已知量的合并等)、复写传播,以及无用赋值的删除,等等。

        后一种类型的优化同机器的硬件结构密切相关,最主要的是考虑是如何充分利用机器的各个硬件寄存器存放的有关变量的值,以减少对于内存的访问次数。另外,如何根据机器硬件执行指令的特点(如流水线、RISC、CISC、cci原版源码VLIW等)而对指令进行一些调整使目标代码比较短,执行的效率比较高,也是一个重要的研究课题。

       2、汇编

       汇编实际上指把汇编语言代码翻译成目标机器指令的过程。对于被翻译系统处理的每一个C语言源程序,都将最终经过这一处理而得到相应的目标文件。目标文件中所存放的也就是与源程序等效的目标的机器语言代码。目标文件由段组成。通常一个目标文件中至少有两个段:

       代码段:该段中所包含的主要是程序的指令。该段一般是可读和可执行的,但一般却不可写。

       数据段:主要存放程序中要用到的各种全局变量或静态的数据。一般数据段都是可读,可写,可执行的。

       UNIX环境下主要有三种类型的目标文件:

       (1)可重定位文件

       其中包含有适合于其它目标文件链接来创建一个可执行的或者共享的目标文件的代码和数据。

       (2)共享的目标文件

       这种文件存放了适合于在两种上下文里链接的代码和数据。

       第一种是链接程序可把它与其它可重定位文件及共享的目标文件一起处理来创建另一个 目标文件;

       第二种是动态链接程序将它与另一个可执行文件及其它的共享目标文件结合到一起,创建一个进程映象。

       (3)可执行文件

       它包含了一个可以被操作系统创建一个进程来执行之的文件。汇编程序生成的实际上是第一种类型的目标文件。对于后两种还需要其他的一些处理方能得到,这个就是链接程序的工作了。

       二、链接过程

       由汇编程序生成的目标文件并不能立即就被执行,其中可能还有许多没有解决的问题。

       例如,某个源文件中的函数可能引用了另一个源文件中定义的某个符号(如变量或者函数调用等);在程序中可能调用了某个库文件中的函数,等等。所有的这些问题,都需要经链接程序的处理方能得以解决。

       链接程序的主要工作就是将有关的目标文件彼此相连接,也即将在一个文件中引用的符号同该符号在另外一个文件中的定义连接起来,使得所有的这些目标文件成为一个能够被操作系统装入执行的统一整体。

       根据开发人员指定的同库函数的链接方式的不同,链接处理可分为两种:

       (1)静态链接

       在这种链接方式下,函数的代码将从其所在地静态链接库中被拷贝到最终的可执行程序中。这样该程序在被执行时这些代码将被装入到该进程的虚拟地址空间中。静态链接库实际上是一个目标文件的集合,其中的每个文件含有库中的一个或者一组相关函数的代码。

       (2) 动态链接

       在此种方式下,函数的代码被放到称作是动态链接库或共享对象的某个目标文件中。链接程序此时所作的只是在最终的可执行程序中记录下共享对象的名字以及其它少量的登记信息。在此可执行文件被执行时,动态链接库的全部内容将被映射到运行时相应进程的虚地址空间。动态链接程序将根据可执行程序中记录的信息找到相应的函数代码。

       对于可执行文件中的函数调用,可分别采用动态链接或静态链接的方法。使用动态链接能够使最终的可执行文件比较短小,并且当共享对象被多个进程使用时能节约一些内存,因为在内存中只需要保存一份此共享对象的代码。但并不是start源码大全使用动态链接就一定比使用静态链接要优越。在某些情况下动态链接可能带来一些性能上损害。

       我们在linux使用的gcc编译器便是把以上的几个过程进行捆绑,使用户只使用一次命令就把编译工作完成,这的确方便了编译工作,但对于初学者了解编译过程就很不利了,下图便是gcc代理的编译过程:

       从上图可以看到:

       预编译

       将.c 文件转化成 .i文件

       使用的gcc命令是:gcc –E

       对应于预处理命令cpp

       编译

       将.c/.h文件转换成.s文件

       使用的gcc命令是:gcc –S

       对应于编译命令 cc –S

       汇编

       将.s 文件转化成 .o文件

       使用的gcc 命令是:gcc –c

       对应于汇编命令是 as

       链接

       将.o文件转化成可执行程序

       使用的gcc 命令是: gcc

       对应于链接命令是 ld

       总结起来编译过程就上面的四个过程:预编译、编译、汇编、链接。了解这四个过程中所做的工作,对我们理解头文件、库等的工作过程是有帮助的,而且清楚的了解编译链接过程还对我们在编程时定位错误,以及编程时尽量调动编译器的检测错误会有很大的帮助的。

       是否可以解决您的问题?

System.out.write和System.out.println

       System.out的类型为PrintStream;

       System.out.println('a'); 实际上调用是PrintStream的println(char c)方法;而println(char c)方法的源代码为:

       public void println(String x) {

        synchronized (this) {

        print(x);

        newLine();

        }

        }

       å¯è§Println调用了print(char c)方法,print(char c)方法的源代码如下:

       public void print(char c) {

       write(String.valueOf(c));

       }

       å¯è§è°ƒç”¨çš„是write(String s)方法,write(String s)的代码为:

       private void write(String s) {

        try {

        synchronized (this) {

        ensureOpen();

        textOut.write(s);

        textOut.flushBuffer();

        charOut.flushBuffer();

        if (autoFlush && (s.indexOf('\n') >= 0))

        out.flush();

        }

        }

        catch (InterruptedIOException x) {

        Thread.currentThread().interrupt();

        }

        catch (IOException x) {

        trouble = true;

        }

        }

       å½“字符串中含有'\n'时会刷新out,此处的out是OutStream对象的实例。println(String s)最后调用newLine() 方法,newLine()的代码如下:

       private void newLine() {

        try {

        synchronized (this) {

        ensureOpen();

        textOut.newLine();

        textOut.flushBuffer();

        charOut.flushBuffer();

        if (autoFlush)

        out.flush();

        }

        }

        catch (InterruptedIOException x) {

        Thread.currentThread().interrupt();

        }

        catch (IOException x) {

        trouble = true;

        }

        }

       newLine()会刷新out。

       System.out.write(a); 调用的是PrintStream.write(int b)方法

       write(int b) 的源代码如下:

        public void write(int b) {

        try {

        synchronized (this) {

        ensureOpen();

        out.write(b);

        if ((b == '\n') && autoFlush)

        out.flush();

        }

        }

        catch (InterruptedIOException x) {

        Thread.currentThread().interrupt();

        }

        catch (IOException x) {

        trouble = true;

        }

        }

       çœ‹è¿‡æºä»£ç åŽåº”该明白两者之间的差异了,println(String s)不但会刷新out,而且还会同时刷新textOut和charOut,而write(int b)只有当b == '\n'时才刷新out。这也是为什么加了System.out.write('\n'); 后就能显示出来了,问题就在于out没有刷新。

       æ¥¼ä¸»çš„第二个问题很好解释,因为在print(String s)中,会刷新textOut和charOut。

       textOut和charOut是什么?看一下PrintStream中的定义:

        private BufferedWriter textOut;

        private OutputStreamWriter charOut;

       textOut和charOut在init(OutputStreamWriter osw)方法中初始化,init(OutputStreamWriter osw)的代码如下:

       private void init(OutputStreamWriter osw) {

       this.charOut = osw;

       this.textOut = new BufferedWriter(osw);

        }

       init()函数在构造函数中被调用

       public PrintStream(OutputStream out, boolean autoFlush) {

        this(autoFlush, out);

        init(new OutputStreamWriter(this));

        }

       å¯è§ï¼ŒtextOut和charOut操作的输出流和out是一样的,因此对textOut和charOut刷新同时刷新了out,因此print(String s)即便没有'\n',也同样会直接输出出来。

Unicode字符集与UTF-8编码

       在讨论字节流和字符流时,我们常常遇到Unicode字符集和UTF-8编码的混淆。很多文章对此解释不清,混淆了两者。在Java web开发中,处理乱码问题尤其关键,理解这两者至关重要。

       字符集,如同字典,规定了字符和数字之间的对应关系,与计算机内部表示无关。例如,ASCII码表定义了0-的数字与字符的对应,如大写字母'A'对应0x,小写字母'a'对应0x。

       ASCII编码适用于英文,但对于汉字,ASCII显然不足。Unicode字符集的出现解决了这个问题,它设计为4字节来表示任何语言的字符,每个字符都有唯一的数字标识,即使是多语言共用的字符也有统一编码。

       Unicode编码系统包含超过个字符,甚至扩展到了十万个以上,由Unicode组织推动,目标是统一字符编码。比如在知乎专栏,“海”字的Unicode码是,它在Unicode码表中对应汉字。

       编码方案则是将这些数字在计算机中存储的方式。UTF-8是变长编码,对于ASCII字符直接使用一个字节,对于超出范围的字符,如汉字,使用多个字节,如XXXXX XXXXXX格式。例如,汉字“海”的UTF-8编码为 , , 。

       在编程中,led 操作源码UTF-8编码的汉字通过字节流读入时保持原始编码,但字符流读入则显示为Unicode码。要深入了解这一点,可查看JDK源码中的sun/nio/cs/UTF_8.java。

       此外,作业是尝试编码自己的名字并转换为UTF-8,以及探索JDK中其他的编码方式。课程内容包括红黑树、哈希表,以及完整的课程目录。

java中编码与解码分别指什么?

       问题一:在java中读取文件时应该采用什么编码?

       Java读取文件的方式总体可以分为两类:按字节读取和按字符读取。按字节读取就是采用InputStream.read()方法来读取字节,然后保存到一个byte[]数组中,最后经常用new String(byte[]);把字节数组转换成String。在最后一步隐藏了一个编码的细节,new String(byte[]);会使用操作系统默认的字符集来解码字节数组,中文操作系统就是GBK。而我们从输入流里读取的字节很可能就不是GBK编码的,因为从输入流里读取的字节编码取决于被读取的文件自身的编码。举个例子:我们在D:盘新建一个名为demo.txt的文件,写入”我们。”,并保存。此时demo.txt编码是ANSI,中文操作系统下就是GBK。此时我们用输入字节流读取该文件所得到的字节就是使用GBK方式编码的字节。那么我们最终new String(byte[]);时采用平台默认的GBK来编码成String也是没有问题的(字节编码和默认解码一致)。试想一下,如果在保存demo.txt文件时,我们选择UTF-8编码,那么该文件的编码就不在是ANSI了,而变成了UTF-8。仍然采用输入字节流来读取,那么此时读取的字节和上一次就不一样了,这次的字节是UTF-8编码的字节。两次的字节显然不一样,一个很明显的区别就是:GBK每个汉字两个字节,而UTF-8每个汉字三个字节。如何我们最后还使用new String(byte[]);来构造String对象,则会出现乱码,原因很简单,因为构造时采用的默认解码GBK,而我们的字节是UTF-8字节。正确的办法就是使用new String(byte[],”UTF-8”);来构造String对象。此时我们的字节编码和构造使用的解码是一致的,不会出现乱码问题了。

       说完字节输入流,再来说说字节输出流。

       我们知道如果采用字节输出流把字节输出到某个文件,我们是无法指定生成文件的编码的(假设文件以前不存在),那么生成的文件是什么编码的呢?经过测试发现,其实这取决于写入的字节编码格式。比如以下代码:

       OutputStream out = new FileOutputStream("d:\\demo.txt");

       out.write("我们".getBytes());

       getBytes()会采用操作系统默认的字符集来编码字节,这里就是GBK,所以我们写入demo.txt文件的是GBK编码的字节。那么这个文件的编码就是GBK。如果稍微修改一下程序:out.write("我们".getBytes(“UTF-8”));此时我们写入的字节就是UTF-8的,那么demo.txt文件编码就是UTF-8。这里还有一点,如果把”我们”换成或abc之类的ascii码字符,那么无论是采用getBytes()或者getBytes(“UTF-8”)那么生成的文件都将是GBK编码的。

       这里可以总结一下,InputStream中的字节编码取决文件本身的编码,而OutputStream生成文件的编码取决于字节的编码。

       下面说说采用字符输入流来读取文件。

       首先,我们需要理解一下字符流。其实字符流可以看做是一种包装流,它的底层还是采用字节流来读取字节,然后它使用指定的编码方式将读取字节解码为字符。说起字符流,不得不提的就是InputStreamReader。以下是java api对它的说明: InputStreamReader是字节流通向字符流的桥梁:它使用指定的charset 读取字节并将其解码为字符。它使用的字符集可以由名称指定或显式给定,否则可能接受平台默认的字符集。说到这里其实很明白了,InputStreamReader在底层还是采用字节流来读取字节,读取字节后它需要一个编码格式来解码读取的字节,如果我们在构造InputStreamReader没有传入编码方式,那么会采用操作系统默认的GBK来解码读取的字节。还用上面demo.txt的例子,假设demo.txt编码方式为GBK,我们使用如下代码来读取文件:

       InputStreamReader in = new InputStreamReader(new FileInputStream(“demo.txt”));

       那么我们读取不会产生乱码,因为文件采用GBK编码,所以读出的字节也是GBK编码的,而InputStreamReader默认采用解码也是GBK。如果把demo.txt编码方式换成UTF-8,那么我们采用这种方式读取就会产生乱码。这是因为字节编码(UTF-8)和我们的解码编码(GBK)造成的。解决办法如下:

       InputStreamReader in = new InputStreamReader(new FileInputStream(“demo.txt”),”UTF-8”);

       给InputStreamReader指定解码编码,这样二者统一就不会出现乱码了。

       下面说说字符输出流。

       字符输出流的原理和字符输入流的原理一样,也可以看做是包装流,其底层还是采用字节输出流来写文件。只是字符输出流根据指定的编码将字符转换为字节的。字符输出流的主要类是:OutputStreamWriter。Java api解释如下:OutputStreamWriter 是字符流通向字节流的桥梁:使用指定的 charset 将要向其写入的字符编码为字节。它使用的字符集可以由名称指定或显式给定,否则可能接受平台默认的字符集。说的很明白了,它需要一个编码将写入的字符转换为字节,如果没有指定则采用GBK编码,那么输出的字节都将是GBK编码,生成的文件也是GBK编码的。如果采用以下方式构造OutputStreamWriter:

       OutputStreamWriter out = new OutputStreamWriter(new FileOutputStream(“dd.txt”),”UTF-8”);

       那么写入的字符将被编码为UTF-8的字节,生成的文件也将是UTF-8格式的。

       问题二: 既然读文件要使用和文件编码一致的编码,那么javac编译文件也需要读取文件,它使用什么编码呢?

        这个问题从来就没想过,也从没当做是什么问题。正是因为问题一而引发的思考,其实这里还是有东西可以挖掘的。下面分三种情况来探讨,这三种情况也是我们常用的编译java源文件的方法。

        1.javac在控制台编译java类文件。

        通常我们手动建立一个java文件Demo.java,并保存。此时Demo.java文件的编码为ANSI,中文操作系统下就是GBK.然后使用javac命令来编译该源文件。”javac Demo.java”。Javac也需要读取java文件,那么javac是使用什么编码来解码我们读取的字节呢?其实javac采用了操作系统默认的GBK编码解码我们读取的字节,这个编码正好也是Demo.java文件的编码,二者一致,所以不会出现乱码情况。让我们来做点手脚,在保存Demo.java文件时,我们选择UTF-8保存。此时Demo.java文件编码就是UTF-8了。我们再使用”javac Demo.java”来编译,如果Demo.java里含有中文字符,此时控制台会出现警告信息,也出现了乱码。究其原因,就是因为javac采用了GBK编码解码我们读取的字节。因为我们的字节是UTF-8编码的,所以会出现乱码。如果不信的话你可以自己试试。那么解决办法呢?解决办法就是使用javac的encoding参数来制定我们的解码编码。如下:javac -encoding UTF-8 Demo.java。这里我们指定了使用UTF-8来解码读取的字节,由于这个编码和Demo.java文件编码一致,所以不会出现乱码情况了。

        2.Eclipse中编译java文件。

        我习惯把Eclipse的编码设置成UTF-8。那么每个项目中的java源文件的编码就是UTF-8。这样编译也从没有问题,也没有出现过乱码。正是因为这样才掩盖了使用javac可能出现的乱码。那么Eclipse是如何正确编译文件编码为UTF-8的java源文件的呢?唯一的解释就是Eclipse自动识别了我们java源文件的文件编码,然后采取了正确的encoding参数来编译我们的java源文件。功劳都归功于IDE的强大了。

        3.使用Ant来编译java文件。

        Ant也是我常用的编译java文件的工具。首先,必须知道Ant在后台其实也是采用javac来编译java源文件的,那么可想而知,1会出现的问题在Ant中也会存在。如果我们使用Ant来编译UTF-8编码的java源文件,并且不指定如何编码,那么也会出现乱码的情况。所以Ant的编译命令<javac>有一个属性” encoding”允许我们指定编码,如果我们要编译源文件编码为UTF-8的java文件,那么我们的命令应该如下:

        <javac destdir="${ classes}" target="1.4" source="1.4" deprecation="off" debug="on" debuglevel="lines,vars,source" optimize="off" encoding="UTF-8">

        指定了编码也就相当于”javac –encoding”了,所以不会出现乱码了。

       问题三:tomcat中编译jsp的情况。

        这个话题也是由问题二引出的。既然javac编译java源文件需要采用正确的编码,那么tomcat编译jsp时也要读取文件,此时tomcat采用什么编码来读取文件?会出现乱码情况吗?下面我们来分析。

        我们通常会在jsp开头写上如下代码:

       <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%>

       我常常不写pageEncoding这个属于,也不明白它的作用,但是不写也没出现过乱码情况。其实这个属性就是告诉tomcat采用什么编码来读取jsp文件的。它应该和jsp文件本身的编码一致。比如我们新建个jsp文件,设置文件编码为GBK,那么此时我们的pageEncoding应该设置为GBK,这样我们写入文件的字符就是GBK编码的,tomcat读取文件时采用也是GBK编码,所以能保证正确的解码读取的字节。不会出现乱码。如果把pageEncoding设置为UTF-8,那么读取jsp文件过程中转码就出现了乱码。上面说我常常不写pageEncoding这个属性,但是也没出现过乱码,这是怎么回事呢?那是因为如果没有pageEncoding属性,tomcat会采用contentType中charset编码来读取jsp文件,我的jsp文件编码通常设置为UTF-8,contentType的charset也设置为UTF-8,这样tomcat使用UTF-8编码来解码读取的jsp文件,二者编码一致也不会出现乱码。这只是contentType中charset的一个作用,它还有两个作用,后面再说。可能有人会问:如果我既不设置pageEncoding属性,也不设置contentType的charset属性,那么tomcat会采取什么编码来解码读取的jsp文件呢?答案是iso--1,这是tomcat读取文件采用的默认编码,如果用这种编码来读取文件显然会出现乱码。

        问题四:输出。

       问题二和问题三分析的过程其实就是从源文件àclass文件过程中的转码情况。最终的class文件都是以unicode编码的,我们前面所做的工作就是把各种不同的编码转换为unicode编码,比如从GBK转换为unicode,从UTF-8转换为unicode。因为只有采用正确的编码来转码才能保证不出现乱码。Jvm在运行时其内部都是采用unicode编码的,其实在输出时,又会做一次编码的转换。让我们分两种情况来讨论。

       1.java中采用Sysout.out.println输出。

       比如:Sysout.out.println(“我们”)。经过正确的解码后”我们”是unicode保存在内存中的,但是在向标准输出(控制台)输出时,jvm又做了一次转码,它会采用操作系统默认编码(中文操作系统是GBK),将内存中的unicode编码转换为GBK编码,然后输出到控制台。因为我们操作系统是中文系统,所以往终端显示设备上打印字符时使用的也是GBK编码。因为终端的编码无法手动改变,所以这个过程对我们来说是透明的,只要编译时能正确转码,最终的输出都将是正确的,不会出现乱码。在Eclipse中可以设置控制台的字符编码,具体位置在Run Configuration对话框的Common标签里,我们可以试着设置为UTF-8,此时的输出就是乱码了。因为输出时是采用GBK编码的,而显示却是使用UTF-8,编码不同,所以出现乱码。

       2.jsp中使用out.println()输出到客户端浏览器。

       Jsp编译成class后,如果输出到客户端,也有个转码的过程。Java会采用操作系统默认的编码来转码,那么tomcat采用什么编码来转码呢?其实tomcat是根据<%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%>中contentType的charset参数来转码的,contentType用来设置tomcat往浏览器发送HTML内容所使用的编码。Tomcat根据这个编码来转码内存中的unicode。经过转码后tomcat输出到客户端的字符编码就是utf-8了。那么浏览器怎么知道采取什么编码格式来显示接收到的内容呢?这就是contentType的charset属性的第三个作用了:这个编码会在HTTP响应头中指定以通知浏览器。浏览器使用http响应头的contentType的charset属性来显示接收到的内容。

       总结一下contentType charset的三个作用:

       1).在没有pageEncoding属性时,tomcat使用它来解码读取的jsp文件。

       2).tomcat向客户端输出时,使用它来编码发送的内容。

       3).通知浏览器,应该以什么编码来显示接收到的内容。

       为了能更好的理解上面所说的解码和转码过程,我们举一个例子。

       新建一个index.jsp文件,该文件编码为GBK,在jsp开头我们写上如下代码:

       <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="GBK"%>

       这里的charset和pageEncoding不同,但是也不会出现乱码,我来解释一下。首先tomcat读取jsp内容,并根据pageEncoding指定的GBK编码将读取的GBK字节解码并转换为unicode字节码保存在class文件中。然后tomcat在输出时(out.println())使用charset属性将内存中的unicode转换为utf-8编码,并在响应头中通知浏览器,浏览器以utf-8显示接收到的内容。整个过程没有一次转码错误,所以就不会出现乱码情况。

        问题五:Properties和ResourceBundle使用的解码编码。

        以上两个是我们常用的类,他们在读取文件过程中并不允许我们指定解码编码,那么它们采取什么解码方式呢?查看源码后发现都是采用iso--1编码来解码

        的。这样的话我们也不难理解我们写的properties文件为什么都是iso--1 的了。因为采取任何一个别的编码都将产生乱码。因为iso--1编码是没

        有中文的,所以我们输入的中文要转换为unicode,通常我们使用插件来完成,也可以使用jdk自带的native2ascii工具。

java中的outputstream为什么会乱码呢?

       dataoutputstream乱码是什么原因呢?不知道的小伙伴来看看小编今天的分享吧!

       dataoutputstream乱码的原因:

       Java运行环境(JRE)分英文版和国际版,只有国际版才支持非英文字符,如果电脑上装的是英文版,Java开发工具包(JDK)就支持多国字符,但是如果没有按装JDK,直接用压缩包就会出现乱码。

       注意:“ Java 源代码- Java 字节码”,标准的 Java 编译器 javac 使用的字符集是系统默认的字符集,比如在中文 Windows 操作系统上就是 GBK ,而在 Linux 操作系统上就是ISO--1,所以开发人员在 Linux 操作系统上编译的类中源文件中的中文字符都出了问题,解决的办法就是在编译的时候添加 encoding 参数,这样才能够与平台无关,用法是 javac –encoding GBK。

       dataoutputstream乱码的解决办法:

       使用FileOutputStream序列化可以直接向文件写入文本内容,代码如下:

       FileOutputStream outStream = new FileOutputStream(file);

       outStream.write(str.getBytes());

       outStream.close();

       但这里的字符串如果包含中文,就会出现乱码,这是因为FileOutputStream是字节流,将文本按字节写入文件,而一个汉字是两个字节,无法一次写入,就会出现乱码,解决方法是使用OutputStreamWriter将字节流转换为字符流写入,同时指定utf-8编码。代码如下:

       OutputStreamWriter oStreamWriter = new OutputStreamWriter(new FileOutputStream(file), utf-8);

       oStreamWriter.append(str);

       oStreamWriter.close();

       Java

       Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序员以优雅的思维方式进行复杂的编程。

       Java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点。Java可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等。

copyright © 2016 powered by 皮皮网   sitemap