既是颠覆,又是重塑的互联网
|
一、编码转换原理 1、为什么需要编码 我们知道计算机存储信息的最小单位是一个字节8位,能够表示256个字符。这对于早起的英文来说足够了。即使是加上一些常见符号也足够。于是在1965年美国制定了ASCII编码,主要用于英语和西欧语言,一开始128个,后来加到了256。 后来随着时间的发展,中国、日本等国的计算机也开始蓬勃发展,于是计算机不仅仅要存储英文了,也开始存储中文。但是中文我们都知道几万个太多了,一个字节肯定放不下。怎么办呢?一个字节表示不下,那就多用几个字节就好了。这样不仅可以表示汉字,还可以避免了与ASCII编码的冲突。这几个字节在存储的时候再转化为bit,完美!划重点哈,编码解决的就是字节和字符之间的转化问题。 2、编码方式 既然是编码,那些大佬早就考虑到了这些问题,并提拱了多种编码方式,常见的有 ASCII、ISO-8859-1、GB2312、GBK、UTF-8、UTF-16 等。它们规定了转化的规则,按照这个规则就可以让计算机正确的表示我们的字符。 像GB2312、GBK、UTF-8、UTF-16等很多种方式都可以表示汉字,他们有什么区别呢? (1)GB2312 它是双字节编码,总的编码范围是 A1-F7,其中从 A1-A9 是符号区,总共包含 682 个符号,从 B0-F7 是汉字区,包含 6763 个汉字。这个是中国1981年搞出来的。这种编码是一个汉字两个字节。 (2)GBK 它的编码范围是 8140~FEFE(去掉 XX7F)总共有 23940 个码位,它能表示 21003 个汉字。这个是中国在1995年搞出来的,主要是用于GB2312编码的补充。这种编码依然是一个汉字两个字节。 (3)Unicode 上面看到,中国可以做出了一个编码,日本也可以做出来一个编码,时间久了每个国家都有着自己的一套编码,就不可避免的造成冲突。于是Unicode出来了,把所有语言统一起来合成一个规则。这种编码是定长的字节数。 (4)UTF8 既然Unicode是定长的字节数,那么存储一个复杂的汉字可能需要三个字节,但是为了保证是2的幂数集,就会自动扩充为4个字节,别看着一个字节之差,存储的字数多了就会极大的浪费空间。是于是而 UTF-8 采用了一种变长技术,每个编码区域有不同的字码长度。不同类型的字符可以是由 1~6 个字节组成。 以上这些编码方式会为每一个汉字或者是字母建立一个编码库,在编码的时候字母和编码一一对应。 3、为什么会出现乱码? 这个问题就是因为编码和解码是采用了不同的或者是不兼容的编码方案。比如一个用UTF-8编码的后的字符。再用GBK去解码,由于两个字符集的编码库不一样。同一个汉字在两个编码库的位置也不一样。于是就出现了乱码。 4、java如何解决乱码问题? 这个问题其实就是java中如何使用编码规则,因为使用好了编码规则。才可以很好地解决乱码问题。 (1)IO流
编码的目的上面已经说了,主要是字节和字符之间的转化。既然涉及到字节和字符很容易我们就能想到java中的IO流。也就是说java中编码的转换其实就是IO流中的类来实现的。 (编辑:桂林站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |



