什么是UNICODE、
UTF-8
2006-08-12 01:35:46
大中小
当今用于国际码的
UTF-8已经众多于国际化接轨的网站所使用,但其意义和来源却很少为人所知。
什么是UNICODE?
UNICODE使任何语言的字符都可以为机器更容易的接受,
UNICODE由UC(
UNICODE协会)管理并接受其技术上的修改。包括JAVA、 LDAP、XML这样的技术标准中均要求得到
UNICODE的支持。
UNICODE的字符被成为代码点(CODE POINTS),用U后面加上XXXX 来表示,其中,X为16进制的字符。
什么是UTF-8
在UC发布的
UNICODE3.0.1勘误表的D36节中,
UTF8是指
UNICODE的转换格式,在这种格式中,
UNICODE的代码点是由4个字节组成的,
UTF-8提供了一种技术可能,即即可以成为一种
UNICODE的编码方式,又可以与INTERNET上表示文本时最常用的ASCII兼容。
在实现兼容的过程中,
UTF将标准的7位ASCII码(U+0000到U+007F)诠释为一个字符,从U+0080到U+07FF作为2个字符,U+0800到U+FFFF作为三个字符,再往上则作为4个字符,这种算法的设计理念在于不必进行表索引就可以直接换算代码.
MS的IE和OFFICE2K都支持基于
UTF-8的URL,IIS在默认配置下将
UTF-8阐述为3字节的进程,而APACHE则可以在配置后支持
UTF-8。
> >