PHP中strlen得出的结果为什么不正确

提出问题

今天写PHP程序的时候，要判断用户输入的字符串长度是否满足要求，开始使用strlen() 做的判断，测试的时候一切正常。

但是真正使用的时候却发现，在含有中文的情况下会出错。比如strlen(“中文1”)结果是7。

解决问题

上网查了查，用mb_strlen() 替代即可。例如，将strlen(“中文1”) 改为 mb_strlen(“中文”,”utf8”)，结果就是我们想要的3。

刨根问底

上例中的7是怎么来的？

先看看官方文档。中文手册里说是返回长度，没错啊，为什么结果不对呢？往下看，有这么一个提醒：Note:strlen() returns the number of bytes rather than the number of characters in a string.。意思是说返回的是字节数而不是字符数，这下明白了。

7=2*3+1。在默认的utf-8编码格式下，中文占了3个字节，英文占1个字节，所以结果就是7个字节。同理，在其他的编码格式下，得出的结果会不同。原因来自strlen() 并未对编码格式进行判断，而是简单的给出了所占字节的大小。

可以使用mb_strlen() 来指定编码格式，这样得出的结果就是我们想要的。

与此类似的还有 mb_substr()、 mb_strpos()等等。

官方文档

mb_strlen

(PHP 4 >= 4.0.6, PHP 5)
mb_strlen — 获取字符串的长度

说明

1	mixed mb_strlen ( string $str [, string $encoding = mb_internal_encoding() ] )

获取一个 string 的长度。

参数

参数	说明
str	要检查长度的字符串
encoding	encoding 参数为字符编码。如果省略，则使用内部字符编码。

返回值

返回具有 encoding 编码的字符串 str 包含的字符数。多字节的字符被计为 1。
如果给定的 encoding 无效则返回 FALSE。