开发完代码,提交,部署,报错:illegal character: '\ufeff'
仅仅是提交了一个文件,对比之后没有发现异常,这究竟是个什么鬼???
原因:文件的编码格式错误,导致文件部署时字符编码错误。
解决方法:修改文件的编码格式(UTF-8 BOM --> UTF-8) 重新保存提交部署成功。
分析:
1、BOM:byte order mark 字节序标识,是为UTF-16和UTF-32准备的,使用UTF8-BOM编码的文档比UTF8编码的文档会在开头多0xEF 0xBB 0xBF 三个3个字节。UTF-8是不需要BOM的,所以Unicode的标准是UTF8不带BOM。为啥会有UTF8-BOM这种编码格式呢?主要是windows系统偏爱,为了把UTF8和ASCII码区分开。但是在Windows系统之外经常会出问题。
整理自网络:“奎”的Unicode编码是594E,“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”,那么这是“奎”还是“乙”?Unicode规范中推荐的标记字节顺序的方法是BOM。BOM是一个有点小聪明的想法:在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF(读者可以用我们前面介绍的编码方法验证一下)。所以如果接收者收到以EF BB BF开头的字节流,就知道这是UTF-8编码了。
2、在IDEA中使用的编译器是javac,无法编译带UTF8-BOM的文件,在Eclipse中默认可以编译UTF8-BOM编码的文件,因此eclipse中创建的项目使用IDEA打开会遇到build failure的情况。
### 为了在Mac上查看UTF8-BOM编码的文件二进制内容,使用sublime插件查看:
1>打开sublime 使用快捷键 command + shift + p打开 Package Control,
2>输入install Package
3>接着输入 HexViewer 进行安装即可安装成功。
4> 使用sublime打开需要查看的文件,使用command + shift + p 打开Package control 输入 HexViewer 选择 HexViewer: toggle Hex View 即可查看文档的二进制格式。
扩展阅读:
UTF-8, UTF-16, UTF-32 & BOM
The byte-order mark (BOM) in HTML
|