鱼喃

听!布鲁布鲁,大鱼又在那叨叨了

PHP中strlen得出的结果为什么不正确

提出问题

今天写PHP程序的时候,要判断用户输入的字符串长度是否满足要求,开始使用strlen() 做的判断,测试的时候一切正常。

但是真正使用的时候却发现,在含有中文的情况下会出错。比如strlen(“中文1”)结果是7。

解决问题

上网查了查,用mb_strlen() 替代即可。例如,将strlen(“中文1”) 改为 mb_strlen(“中文”,”utf8”),结果就是我们想要的3。

刨根问底

上例中的7是怎么来的?

先看看官方文档。中文手册里说是返回长度,没错啊,为什么结果不对呢?往下看,有这么一个提醒:Note:strlen() returns the number of bytes rather than the number of characters in a string.。意思是说返回的是字节数而不是字符数,这下明白了。

7=2*3+1。在默认的utf-8编码格式下,中文占了3个字节,英文占1个字节,所以结果就是7个字节。同理,在其他的编码格式下,得出的结果会不同。原因来自strlen() 并未对编码格式进行判断,而是简单的给出了所占字节的大小。

可以使用mb_strlen() 来指定编码格式,这样得出的结果就是我们想要的。

与此类似的还有 mb_substr()、 mb_strpos()等等。

官方文档

mb_strlen

(PHP 4 >= 4.0.6, PHP 5)
mb_strlen — 获取字符串的长度

说明
1
mixed mb_strlen ( string $str [, string $encoding = mb_internal_encoding() ] )

获取一个 string 的长度。

参数
参数 说明
str 要检查长度的字符串
encoding encoding 参数为字符编码。如果省略,则使用内部字符编码。

返回值

返回具有 encoding 编码的字符串 str 包含的字符数。 多字节的字符被计为 1。
如果给定的 encoding 无效则返回 FALSE。