鱼喃

听!布鲁布鲁,大鱼又在那叨叨了

让 MySQL 支持 emoji 表情等特殊字符存储

在导入 twitter 内容的时候,发现有部分内容会出错。开始以为是编码问题,但文本全部为 utf8 也会出现这个问题,后来定位到 emoji 字符。其原因是 utf8 是不定长的,根据左侧位来决定占用了几个字节。emoji 表情是 4 个字节,而 MySQL 的 utf8 编码最多支持 3 个字节,所以插入会出错。

为了解决这个问题,MySQL 开始支持 utf8mb4
utf8mb4 可支持 4 个字节 utf 编码,从而支持更大的字符集,并且兼容 utf8。简单来说,utf8mb4 是 utf8 的超集。

要让 MySQL 开启 utf8mb4 支持,需要一些额外的设置。

检查 MySQL Server 版本

utf8mb4 支持需要 MySQL Server v5.5.3+

设置表的 CHARSET

创建表的时候指定 CHARSET 为 utf8mb4

1
2
3
CREATE TABLE IF NOT EXISTS table_name (
...
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE utf8mb4_general_ci;

或者修改已存在的表 CHARSET 为 utf8mb4

1
ALTER TABLE table_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

修改 MySQL 配置文件

修改 my.conf 的内容

1
2
3
4
5
6
7
8
9
10
[client]
default-character-set = utf8mb4

[mysql]
default-character-set = utf8mb4

[mysqld]
character-set-client-handshake = FALSE
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci

检查是否生效

正常情况下的结果应该如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character_set_%' OR   Variable_name LIKE 'collation%';
+--------------------------+--------------------+
| Variable_name | Value |
+--------------------------+--------------------+
| character_set_client | utf8mb4 |
| character_set_connection | utf8mb4 |
| character_set_database | utf8mb4 |
| character_set_filesystem | binary |
| character_set_results | utf8mb4 |
| character_set_server | utf8mb4 |
| character_set_system | utf8 |
| collation_connection | utf8mb4_unicode_ci |
| collation_database | utf8mb4_unicode_ci |
| collation_server | utf8mb4_unicode_ci |
+--------------------------+--------------------+

指定 MySQL 连接时的 charset

以 mysql-python 为例:

1
2
3
4
5
6
7
8
9
MySQLdb.connect(
host=config.DB_HOST,
port=config.DB_PORT,
user=config.DB_USR,
passwd=config.DB_PSW,
db=config.DB_NAME,
use_unicode=True,
charset="utf8mb4"
)

原文:让 MySQL支持 emoji 存储

参考

[1]http://en.wikipedia.org/wiki/Mapping_of_Unicode_characters

[2]https://mathiasbynens.be/notes/mysql-utf8mb4#utf8-to-utf8mb4