非法字符: \65279 (utf-8 BOM标记)

Linux先使用grep -r $'\xEF\xBB\xBF' * |grep .php 查看文件编码,然后是用vi命令打开文件,然后在使用:set nobomb,文件编码修改完成。 

以下附有BOM的简单介绍: 
Unicode规范中有一个BOM的概念。BOM——Byte Order Mark,就是字节序标记。在这里找到一段关于BOM的说明: 

在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。 

UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流,就知道这是UTF-8编码了。 

Windows就是使用BOM来标记文本文件的编码方式的。 

另外unicode网站的FAQ-BOM详细介绍了BOM。官方的自然权威,不过是英文的,看起来比较费劲。 

UTF-8编码的文件中,BOM占三个字节。如果用记事本把一个文本文件另存为UTF-8编码方式的话,用UE打开这个文件,切换到十六进制编辑状态就可以看到开头的FFFE了。这是个标识UTF-8编码文件的好办法,软件通过BOM来识别这个文件是否是UTF-8编码,很多软件还要求读入的文件必须带BOM。可是,还是有很多软件不能识别BOM。我在研究Firefox的时候就知道,在Firefox早期的版本里,扩展是不能有BOM的,不过Firefox 1.5以后的版本已经开始支持BOM了。现在又发现,PHP也不支持BOM。 

PHP在设计时就没有考虑BOM的问题,也就是说他不会忽略UTF-8编码的文件开头BOM的那三个字符。由于必须在<?或者<?php后面的代码才会作为PHP代码执行,所以这三个字符将会直接输出。如果遇到header(),session(),cookie()等问题,将会导致乱码或显示白屏等问题.

 

常见编码的BOM

UTF-8的BOM

UTF-8的BOM是三个字节:0xEF, 0xBB, 0xBF,这三个字节在UTF-8编码里是没有意义的。

UTF-8的BOM是不推荐使用的,但MS仍然在使用,因此导出UTF-8时,不加这三个字节,MS打开就会乱码。

UTF-16的BOM

UTF-16的Big endian的BOM是:0xFE, 0xFF。

UTF-16的Littal endian的BOM是: 0xFF, 0xFE。

GB18030的BOM

GB18030的BOM是:0x81,0x31,0x95,0x33。

 

如果你遇见过这样的问题: 非法字符: \65279
今天可以帮你解决!
众所周知,在跨程序的工程中,统一编码是至关重要的,而目前最普遍的则是统一采用“utf8”编码方案。
但是在采用utf8方案的时候,请注意编辑器的自作聪明。
比如editplus。
原因就在于某些编辑器会往utf8文件中添加utf8标记(editplus称其为签名),它会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM),它的表示的是 Unicode 标记(BOM)。
因此要解决这个问题的关键就是把这个标记选项去掉。

首先用editplus打开这个文件,从Doucument菜单中选择Permanet Settings,有三个分类,分别是General, File, Tools.点击File,右边会有一项是 UTF-8 signature: 选择 always remove signature. 点击OK

中文版本的 editplus 下操作的菜单结构如下: 文档->参数设置->文件->UTF-8签名->总是移除签名->确定

这样就设置了UTF-8格式不需要在文件前面加标记。
最后把文件另存为utf-8格式就好了.

 

在程序中读取文件时做下判断,看是否需要去掉第一行的第一个char,代码如下: 
     InputStreamReader FS = new InputStreamReader(in, "UTF-8"); 
     BufferedReader SR = new BufferedReader(FS); // 文件输入流为 
     String strLine = SR.readLine(); 
     if (strLine.length()>1){ 
     if ((int)strLine.charAt(0)==65279){ 
       strLine=strLine.substring(1); 
     } 
   }

你可能感兴趣的:(utf-8)