空间有形 梦想无限

hi,it's onebird‘s blog。My homepage is onebird.net.

中文编码处理(1.1) UEdit UTF-8 BOM

onebird | 25 八月, 2006 23:41

解释了一下 UE编辑utf-8 文件乱码的情况

UTF-8 编码的文件可以分为no BOM 和 BOM两种格式。

何谓BOM? "EF BB BF" 这三个字节就叫BOM,BOM的全称叫做"Byte Order Mard".在utf-8文件中常用BOM来表明这个文件是UTF-8文件,而BOM的本意实在utf16中用来表示高低字节序列的。
在字节流之前有BOM表示采用低字节序列(低字节在前面),而utf8不用考虑字节序列,所以其实有无BOM都可以。


微软的记事本 Word 等只能正确打开含BOM的UTF8文件,然后UltraEdit却恰恰相反,回把BOMutf8文件 误认为ascii编码。


UTF-8的BOM是 EFBBBF,因为UE载入UTF-8文件会转成Utf16,上 述的EFBBBF 在Utf16中是FFFE(Unicode-LE的BOM),UltraEdit不认识BOM又加多 一個BOM,所以有2个FFFE。
文件就被它破坏了。

评论

发表评论

 authimage
 

Accessible and Valid XHTML 1.0 Strict and CSS
Powered by LifeType - Design by BalearWeb