入门学习接触得比较多的一种编码
用一个字节
,也就是8位
表示一个字符,常见的英文大小写字母,数字等
一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从00000000到11111111
ASCII码规定了128个字符
(其中有32个不能打印出来的控制符号),只占用了后面7位
,最前面的一位规定为0
对于英语来说,128个符号编码是足够的。
但是全世界语言中字符千奇百怪,256个符号虽然可以代表不同的字符(编码方式不同),但还是远远不够。所以采用多个字节表达一个符号。
简体中文常见的编码GB2312,使用两个字节表示一个汉字,最多可以表示256*256个
编码方式不同,同一个二进制数字可以解释成不同的符号。
打开一个文件,首先得确定它的编码方式,否则会乱码。
如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。
这就是 Unicode,就像它的名字都表示的,这是一种所有符号的编码。
Unicode就是一个字符集,可以容纳100多万个符号。
比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字严。具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表。