tty2006-08-10 23:10:52
第一个byte 0x81-0xFE
第二个byte

GB2312 0x80-0xFE
GBK 0x80-0xFE 和扩展的 0x40-0x7E

对于软件来说,都是一堆二进制数,但是double byte character set
断字断词比较麻烦,一个中文字是两个bytes,软件要是在两个byte之间
断字,断词,断行就要出乱码了。

这个问题用UCS2格式的Unicode就容易解决一些,因为每个字都是16位。
但是Unix上面支持16位UCS2格式比较麻烦,因为UCS2里面的0对于
C runtime library是个很头痛的问题;所以unix上 UTF8 更流行。