生僻字&特殊符号:将gbk编码的字符串转UTF-8的时候用了iconv('gb2312','UTF-8',$str);在遇到生僻字以及一些特殊符号时就会产生:Notice: iconv(): Detected an illegal character。。。
解决方法:
①:iconv('GBK','UTF-8',$str) 将gb2312改为GBK;
②:使用 mb_convert_encoding($str,'UTF-8','GBK');?在使用这个方法的同时,不少人喜欢搭配mb_detect_encoding()使用,该方法用于检测字符串的编码,但是遇到无法正确检测的字符串,会返回第一个匹配的。这是一个坑
这里稍微科普一下:
GB 2312 或 GB 2312-80 是中国国家标准简体中文字符集:
GB 2312 标准共收录 6763 个汉字,其中一级汉字 3755 个,二级汉字 3008 个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个字符。它收录的汉字已经覆盖中国大陆99.75% 的使用频率。
GBK 共收入 21886 个汉字和图形符号,包括:
GB 2312 中的全部汉字、非汉字符号。BIG5 中的全部汉字。与 ISO 10646 相应的国家标准 GB 13000 中的其它 CJK 汉字,以上合计 20902 个汉字。其它汉字、部首、符号,共计 984 个。GBK 向下与 GB 2312 完全兼容,向上支持 ISO 10646 国际标准。
GB 18030,全称:国家标准 GB 18030-2005《信息技术中文编码字符集》:是中华人民共和国现时最新的内码字集,是 GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》的修订版。
GB 18030 与 GB 2312-1980 和 GBK 兼容,共收录汉字70244个:
- 与 UTF-8 相同,采用多字节编码,每个字可以由 1 个、2 个或 4 个字节组成。
- 编码空间庞大,最多可定义 161 万个字符。
- 支持中国国内少数民族的文字,不需要动用造字区。
- 汉字收录范围包含繁体汉字以及日韩汉字