《理解MySQL数据库》字符集深度解析：从编码原理到多语言实战

最新推荐文章于 2026-07-02 10:43:35 发布

原创最新推荐文章于 2026-07-02 10:43:35 发布 · 902 阅读

25 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

mysql

1. 字符集基础概念

1.1 字符集与编码的关系

字符集（Character Set）和编码（Encoding）是处理文本数据的核心概念：

1.2 字符集发展历程

-- 查看MySQL支持的字符集
SHOW CHARACTER SET;
-- 常见字符集演进
SELECT 'ASCII (1963)' as charset, '英文字符，7位' as description
UNION ALL SELECT 'Latin1 (ISO-8859-1)', '西欧语言，8位'
UNION ALL SELECT 'GB2312 (1980)', '简体中文，双字节'
UNION ALL SELECT 'GBK (1995)', '扩展中文，双字节'
UNION ALL SELECT 'UTF-8 (1996)', 'Unicode，变长1-4字节'
UNION ALL SELECT 'UTF8MB4 (MySQL 5.5+)', '完整Unicode，支持emoji';

2. MySQL字符集架构

2.1 多层级的字符集设置

MySQL支持从服务器到列级别的字符集配置：

2.2 字符集相关系统变量

-- 查看所有字符集相关配置
SHOW VARIABLES LIKE 'character_set%';
SHOW VARIABLES LIKE 'collation%';
-- 关键字符集变量说明
SELECT 
    Variable_name,
    Value,
    CASE Variable_name
        WHEN 'character_set_server' THEN '服务器默认字符集'
        WHEN 'character_set_database' THEN '当前数据库字符集'
        WHEN 'character_set_client' THEN '客户端发送的语句字符集'
        WHEN 'character_set_connection' THEN '连接字符集'
        WHEN 'character_set_results' THEN '返回结果字符集'
        WHEN 'collation_connection' THEN '连接校对规则'
        ELSE '其他'
    END as description
FROM information_schema.SESSION_VARIABLES 
WHERE Variable_name LIKE 'character_set%' OR Variable_name LIKE 'collation%';

3. 常用字符集详解

3.1 UTF8MB4 - 现代应用首选

UTF8MB4是MySQL中对UTF-8的真正实现，支持完整的Unicode字符集。

-- UTF8MB4特性演示
CREATE TABLE unicode_demo (
    id INT PRIMARY KEY AUTO_INCREMENT,
    basic_text VARCHAR(100) CHARACTER SET utf8mb4,
    emoji_text VARCHAR(100) CHARACTER SET utf8mb4,
    chinese_text VARCHAR(100) CHARACTER SET utf8mb4,
    special_chars VARCHAR(100) CHARACTER SET utf8mb4
) DEFAULT CHARSET=utf8mb4;
-- 插入各种字符
INSERT INTO unicode_demo (basic_text, emoji_text, chinese_text, special_chars) VALUES
('Hello World', '', '中文测试', '音乐 ♛皇后'),
('Normal text', '✅❌⚠️', '日本語', '€欧元 £英镑'),
('ASCII only', '✈️⭐', '한국어', '∞无穷 ≠不等于');
-- 查询验证
SELECT * FROM unicode_demo;
-- 查看字符存储细节
SELECT 
    basic_text,
    LENGTH(basic_text) as byte_length,
    CHAR_LENGTH(basic_text) as char_length,
    HEX(basic_text) as hex_representation
FROM unicode_demo;

UTF8MB4存储特点：

ASCII字符：1字节
欧洲字符：2字节
中文日文：3字节
Emoji和特殊符号：4字节

3.2 UTF8 vs UTF8MB4

-- 对比MySQL中的utf8和utf8mb4
CREATE TABLE charset_comparison (
    utf8_column VARCHAR(10) CHARACTER SET utf8,
    utf8mb4_column VARCHAR(10) CHARACTER SET utf8mb4
);
-- 测试插入emoji字符
INSERT INTO charset_comparison VALUES ('', '');
-- 错误：Incorrect string value: '\xF0\x9F\x98\x80' for column 'utf8_column'
-- 这是因为MySQL的utf8只支持3字节字符
-- 而utf8mb4支持4字节字符（真正的UTF-8）
-- 正确的方式
INSERT INTO charset_comparison VALUES ('Text only', '');
SELECT * FROM charset_comparison;

3.3 Latin1字符集

-- Latin1字符集使用（西欧语言）
CREATE TABLE latin1_demo (
    id INT PRIMARY KEY,
    english_text VARCHAR(50) CHARACTER SET latin1,
    french_text VARCHAR(50) CHARACTER SET latin1,
    german_text VARCHAR(50) CHARACTER SET latin1
) DEFAULT CHARSET=latin1;
INSERT INTO latin1_demo VALUES 
(1, 'Hello World', 'Bonjour le monde', 'Hallo Welt'),
(2, 'Database', 'Base de données', 'Datenbank');
-- Latin1的限制：不支持中文等非西欧字符
INSERT INTO latin1_demo VALUES (3, 'Test', 'Test', '中文');
-- 错误：Incorrect string value: '\xE4\xB8\xAD\xE6\x96\x87' for column 'german_text'

3.4 GBK字符集

-- GBK字符集（中文环境）
CREATE TABLE gbk_demo (
    id INT PRIMARY KEY,
    chinese_text VARCHAR(100) CHARACTER SET gbk,
    mixed_text VARCHAR(100) CHARACTER SET gbk
) DEFAULT CHARSET=gbk;
INSERT INTO gbk_demo VALUES 
(1, '中文测试', '中文English混合'),
(2, '数据库管理', 'MySQL数据库');
-- GBK特点：双字节编码，节省空间但不支持emoji
SELECT 
    chinese_text,
    LENGTH(chinese_text) as bytes,
    CHAR_LENGTH(chinese_text) as chars
FROM gbk_demo;

4. 校对规则（Collation）深度解析

4.1 校对规则基本概念

校对规则决定字符的排序和比较方式。

-- 查看支持的校对规则
SHOW COLLATION WHERE Charset = 'utf8mb4';
-- 常用校对规则分类
SELECT 
    Collation, 
    Id,
    CASE 
        WHEN Charset = 'utf8mb4' AND Collation LIKE '%_ci' THEN '不区分大小写'
        WHEN Charset = 'utf8mb4' AND Collation LIKE '%_cs' THEN '区分大小写'
        WHEN Charset = 'utf8mb4' AND Collation LIKE '%_bin' THEN '二进制比较'
        ELSE '其他'
    END as type
FROM information_schema.COLLATIONS 
WHERE Charset = 'utf8mb4'
ORDER BY Id LIMIT 10;

4.2 校对规则实战比较

-- 创建测试表比较不同校对规则
CREATE TABLE collation_comparison (
    case_insensitive VARCHAR(50) COLLATE utf8mb4_unicode_ci,
    case_sensitive VARCHAR(50) COLLATE utf8mb4_0900_as_cs,
    binary_collation VARCHAR(50) COLLATE utf8mb4_bin
);
INSERT INTO collation_comparison VALUES 
('Hello', 'Hello', 'Hello'),
('hello', 'hello', 'hello'),
('HELLO', 'HELLO', 'HELLO');
-- 测试比较操作
SELECT 
    '不区分大小写比较' as test_type,
    case_insensitive,
    COUNT(*) as count
FROM collation_comparison 
GROUP BY case_insensitive;
SELECT 
    '区分大小写比较' as test_type, 
    case_sensitive,
    COUNT(*) as count
FROM collation_comparison 
GROUP BY case_sensitive;
SELECT 
    '二进制比较' as test_type,
    binary_collation,
    COUNT(*) as count
FROM collation_comparison 
GROUP BY binary_collation;
-- 排序测试
SELECT case_insensitive FROM collation_comparison ORDER BY case_insensitive;
SELECT case_sensitive FROM collation_comparison ORDER BY case_sensitive;
SELECT binary_collation FROM collation_comparison ORDER BY binary_collation;

4.3 Unicode校对规则算法

MySQL 8.0引入了基于Unicode校对算法（UCA）的校对规则：

-- Unicode校对规则示例
CREATE TABLE unicode_collation_demo (
    text_unicode_ci VARCHAR(50) COLLATE utf8mb4_unicode_ci,
    text_0900_ai_ci VARCHAR(50) COLLATE utf8mb4_0900_ai_ci,
    text_0900_as_cs VARCHAR(50) COLLATE utf8mb4_0900_as_cs
);
INSERT INTO unicode_collation_demo VALUES 
('cafe', 'cafe', 'cafe'),
('café', 'café', 'café'),
('Cafe', 'Cafe', 'Cafe'),
('CAFE', 'CAFE', 'CAFE');
-- 测试语言敏感的排序
SELECT text_unicode_ci FROM unicode_collation_demo ORDER BY text_unicode_ci;
SELECT text_0900_ai_ci FROM unicode_collation_demo ORDER BY text_0900_ai_ci;
SELECT text_0900_as_cs FROM unicode_collation_demo ORDER BY text_0900_as_cs;

5. 字符集配置实战

5.1 服务器级配置

-- 查看当前服务器字符集配置
SELECT @@character_set_server, @@collation_server;
-- 在my.cnf中配置服务器字符集
/*
[mysqld]
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci
init-connect = 'SET NAMES utf8mb4'
*/

5.2 数据库级配置

-- 创建数据库时指定字符集
CREATE DATABASE my_app 
    CHARACTER SET utf8mb4 
    COLLATE utf8mb4_unicode_ci;
-- 修改现有数据库字符集
ALTER DATABASE my_app 
    CHARACTER SET utf8mb4 
    COLLATE utf8mb4_0900_ai_ci;
-- 查看数据库字符集
SELECT 
    schema_name,
    default_character_set_name,
    default_collation_name
FROM information_schema.SCHEMATA 
WHERE schema_name = 'my_app';

5.3 表级配置

-- 创建表时指定字符集
CREATE TABLE users (
    id INT PRIMARY KEY AUTO_INCREMENT,
    username VARCHAR(50) NOT NULL,
    email VARCHAR(100) NOT NULL,
    profile_text TEXT
) ENGINE=InnoDB 
  DEFAULT CHARSET=utf8mb4 
  COLLATE=utf8mb4_unicode_ci;
-- 修改表字符集
ALTER TABLE users 
    CONVERT TO CHARACTER SET utf8mb4 
    COLLATE utf8mb4_unicode_ci;
-- 查看表字符集信息
SELECT 
    table_name,
    table_collation,
    CCSA.character_set_name
FROM information_schema.TABLES T
JOIN information_schema.COLLATION_CHARACTER_SET_APPLICABILITY CCSA
    ON T.table_collation = CCSA.collation_name
WHERE T.table_schema = 'my_app';

5.4 列级配置

-- 创建表时为不同列指定不同字符集
CREATE TABLE multi_charset_table (
    id INT PRIMARY KEY,
    ascii_column VARCHAR(100) CHARACTER SET latin1,
    english_column VARCHAR(100) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci,
    chinese_column VARCHAR(100) CHARACTER SET utf8mb4 COLLATE utf8mb4_chinese_ci,
    binary_column VARCHAR(100) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin
);
-- 修改列字符集
ALTER TABLE multi_charset_table 
    MODIFY chinese_column VARCHAR(100) 
    CHARACTER SET utf8mb4 
    COLLATE utf8mb4_0900_ai_ci;
-- 查看列字符集信息
SELECT 
    column_name,
    character_set_name,
    collation_name,
    column_type
FROM information_schema.COLUMNS 
WHERE table_schema = 'my_app' 
  AND table_name = 'multi_charset_table';

5.5 连接级配置

-- 设置连接字符集（推荐方式）
SET NAMES 'utf8mb4';
SET CHARACTER SET utf8mb4;
-- 或者分别设置各个变量
SET character_set_client = 'utf8mb4';
SET character_set_connection = 'utf8mb4';
SET character_set_results = 'utf8mb4';
-- 在Java应用中配置连接字符集

// Java JDBC连接字符集配置
public class CharsetConfiguration {
    
    public DataSource createDataSource() {
        HikariConfig config = new HikariConfig();
        config.setJdbcUrl("jdbc:mysql://localhost:3306/my_app?" +
                         "characterEncoding=utf8" +
                         "&useUnicode=true" +
                         "&connectionCollation=utf8mb4_unicode_ci" +
                         "&serverTimezone=Asia/Shanghai");
        config.setUsername("username");
        config.setPassword("password");
        return new HikariDataSource(config);
    }
    
    // Spring Boot配置示例
    // application.yml
    /*
    spring:
      datasource:
        url: jdbc:mysql://localhost:3306/my_app?characterEncoding=utf8&useUnicode=true
        hikari:
          connection-init-sql: SET NAMES utf8mb4
    */
}

6. 字符集转换与兼容性

6.1 隐式字符集转换

-- 创建测试表
CREATE TABLE table_latin1 (
    id INT PRIMARY KEY,
    text_column VARCHAR(100) CHARACTER SET latin1
);
CREATE TABLE table_utf8mb4 (
    id INT PRIMARY KEY, 
    text_column VARCHAR(100) CHARACTER SET utf8mb4
);
-- 插入数据
INSERT INTO table_latin1 VALUES (1, 'Hello World');
INSERT INTO table_utf8mb4 VALUES (1, 'Hello World');
-- 字符集转换查询
SELECT 
    L.text_column as latin1_text,
    U.text_column as utf8mb4_text,
    L.text_column = U.text_column as is_equal
FROM table_latin1 L
JOIN table_utf8mb4 U ON L.id = U.id;
-- 混合字符集操作
SELECT 
    CONCAT(L.text_column, U.text_column) as combined_text,
    CHARSET(CONCAT(L.text_column, U.text_column)) as result_charset
FROM table_latin1 L
JOIN table_utf8mb4 U ON L.id = U.id;

6.2 显式字符集转换函数

-- 字符集转换函数
SELECT 
    'Hello World' as original,
    CONVERT('Hello World' USING utf8mb4) as converted,
    CHARSET('Hello World') as original_charset,
    CHARSET(CONVERT('Hello World' USING utf8mb4)) as converted_charset;
-- 使用CAST进行转换
SELECT 
    CAST('中文测试' AS CHAR CHARACTER SET utf8mb4) as utf8_text,
    CAST('中文测试' AS CHAR CHARACTER SET latin1) as latin1_text;
-- 二进制数据转换
SELECT 
    '' as emoji_original,
    HEX('') as emoji_hex,
    CONVERT('' USING latin1) as emoji_latin1;  -- 可能产生乱码

6.3 字符集转换中的问题

-- 字符集不兼容导致的乱码
CREATE TABLE encoding_issues (
    id INT PRIMARY KEY,
    bad_encoding VARCHAR(100)
);
-- 模拟乱码情况
INSERT INTO encoding_issues VALUES (1, 'ä¸æ–‡æµ‹è¯•');  -- UTF-8被误读为Latin1
-- 修复乱码数据
SELECT 
    bad_encoding,
    CONVERT(BINARY bad_encoding USING utf8mb4) as fixed_encoding
FROM encoding_issues;
-- 字符集转换时的数据截断
SELECT 
    '音乐' as original,
    LENGTH('音乐') as original_bytes,
    CHAR_LENGTH('音乐') as original_chars,
    CONVERT('音乐' USING latin1) as converted;  -- 数据丢失

7. 存储空间与性能影响

7.1 字符集存储开销分析

-- 创建测试表比较存储空间
CREATE TABLE storage_comparison (
    utf8mb4_text VARCHAR(100) CHARACTER SET utf8mb4,
    utf8_text VARCHAR(100) CHARACTER SET utf8,
    latin1_text VARCHAR(100) CHARACTER SET latin1
);
-- 插入不同类型的数据
INSERT INTO storage_comparison VALUES 
('ASCII only', 'ASCII only', 'ASCII only'),
('English text', 'English text', 'English text'),
('中文Chinese', '中文Chinese', '中文Chinese'),  -- latin1会失败
('Emoji', 'Emoji', 'Emoji');  -- utf8和latin1会失败
-- 查看存储空间使用
SELECT 
    TABLE_NAME,
    ENGINE,
    TABLE_ROWS,
    DATA_LENGTH,
    INDEX_LENGTH,
    DATA_LENGTH + INDEX_LENGTH as total_size
FROM information_schema.TABLES 
WHERE TABLE_NAME = 'storage_comparison';
-- 计算平均行大小
SELECT 
    AVG(LENGTH(utf8mb4_text)) as avg_utf8mb4_bytes,
    AVG(LENGTH(utf8_text)) as avg_utf8_bytes, 
    AVG(LENGTH(latin1_text)) as avg_latin1_bytes
FROM storage_comparison;

7.2 索引性能影响

-- 测试不同字符集对索引性能的影响
CREATE TABLE index_performance (
    utf8mb4_indexed VARCHAR(50) CHARACTER SET utf8mb4,
    latin1_indexed VARCHAR(50) CHARACTER SET latin1,
    INDEX idx_utf8mb4 (utf8mb4_indexed),
    INDEX idx_latin1 (latin1_indexed)
);
-- 插入测试数据
INSERT INTO index_performance (utf8mb4_indexed, latin1_indexed)
SELECT 
    CONCAT('value_', LPAD(n, 6, '0')),
    CONCAT('value_', LPAD(n, 6, '0'))
FROM (
    SELECT @row := @row + 1 as n 
    FROM information_schema.COLUMNS, (SELECT @row := 0) r 
    LIMIT 10000
) numbers;
-- 分析索引大小
SELECT 
    INDEX_NAME,
    TABLE_NAME,
    COLUMN_NAME,
    INDEX_LENGTH
FROM information_schema.STATISTICS 
WHERE TABLE_NAME = 'index_performance';
-- 性能测试查询
EXPLAIN SELECT * FROM index_performance WHERE utf8mb4_indexed = 'value_000500';
EXPLAIN SELECT * FROM index_performance WHERE latin1_indexed = 'value_000500';

8. 字符集最佳实践

8.1 新项目字符集方案

-- 推荐的新项目配置
-- 1. 服务器配置
/*
[mysqld]
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci
*/
-- 2. 数据库创建
CREATE DATABASE new_project 
    CHARACTER SET utf8mb4 
    COLLATE utf8mb4_unicode_ci;
-- 3. 表创建模板
CREATE TABLE example_table (
    id BIGINT UNSIGNED AUTO_INCREMENT PRIMARY KEY,
    name VARCHAR(255) NOT NULL COMMENT '名称',
    description TEXT COMMENT '描述',
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
    updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
    INDEX idx_name (name),
    INDEX idx_created (created_at)
) ENGINE=InnoDB 
  DEFAULT CHARSET=utf8mb4 
  COLLATE=utf8mb4_unicode_ci 
  COMMENT='示例表';

8.2 字符集迁移方案

-- 从其他字符集迁移到UTF8MB4的步骤
-- 1. 备份数据
-- mysqldump -u username -p database_name > backup.sql
-- 2. 检查当前字符集
SELECT 
    TABLE_NAME,
    TABLE_COLLATION 
FROM information_schema.TABLES 
WHERE TABLE_SCHEMA = 'your_database';
-- 3. 转换数据库
ALTER DATABASE your_database 
    CHARACTER SET utf8mb4 
    COLLATE utf8mb4_unicode_ci;
-- 4. 转换表
SET foreign_key_checks = 0;
SELECT CONCAT(
    'ALTER TABLE ', TABLE_NAME, 
    ' CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;'
) as alter_sql
FROM information_schema.TABLES 
WHERE TABLE_SCHEMA = 'your_database'
  AND TABLE_COLLATION != 'utf8mb4_unicode_ci';
SET foreign_key_checks = 1;
-- 5. 验证转换结果
SELECT 
    TABLE_NAME,
    COLUMN_NAME,
    CHARACTER_SET_NAME,
    COLLATION_NAME
FROM information_schema.COLUMNS 
WHERE TABLE_SCHEMA = 'your_database'
  AND CHARACTER_SET_NAME != 'utf8mb4';

8.3 Java应用字符集配置

// 完整的Java应用字符集配置方案
@Configuration
public class DatabaseCharsetConfig {
    
    @Bean
    @ConfigurationProperties("spring.datasource.hikari")
    public DataSource dataSource() {
        HikariConfig config = new HikariConfig();
        
        // 关键字符集参数
        String jdbcUrl = "jdbc:mysql://localhost:3306/my_app?" +
                        "useUnicode=true" +
                        "&characterEncoding=UTF-8" +
                        "&connectionCollation=utf8mb4_unicode_ci" +
                        "&useSSL=false" +
                        "&serverTimezone=Asia/Shanghai" +
                        "&allowPublicKeyRetrieval=true";
        
        config.setJdbcUrl(jdbcUrl);
        config.setUsername("username");
        config.setPassword("password");
        
        // 连接初始化SQL
        config.setConnectionInitSql("SET NAMES utf8mb4 COLLATE utf8mb4_unicode_ci");
        
        return new HikariDataSource(config);
    }
}
// MyBatis字符集配置
@Configuration
public class MyBatisConfig {
    
    @Bean
    public SqlSessionFactory sqlSessionFactory(DataSource dataSource) throws Exception {
        SqlSessionFactoryBean sessionFactory = new SqlSessionFactoryBean();
        sessionFactory.setDataSource(dataSource);
        
        // 配置类型处理器，确保字符串处理正确
        org.apache.ibatis.session.Configuration configuration = 
            new org.apache.ibatis.session.Configuration();
        configuration.setDefaultEnumTypeHandler(org.apache.ibatis.type.EnumTypeHandler.class);
        
        sessionFactory.setConfiguration(configuration);
        return sessionFactory.getObject();
    }
}
// HTTP字符集配置
@Configuration
public class WebCharsetConfig implements WebMvcConfigurer {
    
    @Override
    public void configureMessageConverters(List<HttpMessageConverter<?>> converters) {
        StringHttpMessageConverter stringConverter = new StringHttpMessageConverter(
            StandardCharsets.UTF_8
        );
        stringConverter.setWriteAcceptCharset(false);
        converters.add(0, stringConverter);
    }
}

9. 故障排查与问题解决

9.1 常见字符集问题

-- 1. 乱码问题诊断
CREATE TABLE trouble_charset (
    id INT PRIMARY KEY,
    problem_column VARCHAR(100)
);
-- 插入有问题的数据（模拟乱码）
INSERT INTO trouble_charset VALUES (1, 'å®å¨æµè¯');
-- 诊断步骤
SELECT 
    problem_column,
    HEX(problem_column) as hex_value,
    CHARSET(problem_column) as detected_charset,
    CONVERT(BINARY problem_column USING utf8mb4) as possible_fix
FROM trouble_charset;
-- 2. 字符集不匹配错误
-- 错误示例：Illegal mix of collations
SELECT 
    u.username,
    o.order_number
FROM users u  -- 假设charset = utf8mb4
JOIN orders o -- 假设charset = latin1  
ON u.username = o.customer_name;
-- 可能错误：Illegal mix of collations (utf8mb4_unicode_ci,IMPLICIT) and (latin1_swedish_ci,IMPLICIT)
-- 解决方案
SELECT 
    u.username,
    o.order_number 
FROM users u
JOIN orders o ON u.username = CONVERT(o.customer_name USING utf8mb4);

9.2 字符集验证脚本

-- 字符集健康检查脚本
SELECT 
    '数据库级别' as check_level,
    SCHEMA_NAME,
    DEFAULT_CHARACTER_SET_NAME,
    DEFAULT_COLLATION_NAME
FROM information_schema.SCHEMATA 
WHERE SCHEMA_NAME NOT IN ('mysql', 'information_schema', 'performance_schema', 'sys')
UNION ALL
SELECT 
    '表级别' as check_level,
    CONCAT(TABLE_SCHEMA, '.', TABLE_NAME),
    CCSA.CHARACTER_SET_NAME,
    TABLE_COLLATION
FROM information_schema.TABLES T
JOIN information_schema.COLLATION_CHARACTER_SET_APPLICABILITY CCSA
    ON T.table_collation = CCSA.collation_name
WHERE T.TABLE_SCHEMA NOT IN ('mysql', 'information_schema', 'performance_schema', 'sys')
  AND CCSA.CHARACTER_SET_NAME != 'utf8mb4'
UNION ALL
SELECT 
    '列级别' as check_level,
    CONCAT(TABLE_SCHEMA, '.', TABLE_NAME, '.', COLUMN_NAME),
    CHARACTER_SET_NAME,
    COLLATION_NAME
FROM information_schema.COLUMNS 
WHERE TABLE_SCHEMA NOT IN ('mysql', 'information_schema', 'performance_schema', 'sys')
  AND CHARACTER_SET_NAME IS NOT NULL
  AND CHARACTER_SET_NAME != 'utf8mb4';

9.3 连接字符集问题

// Java应用连接字符集问题诊断
public class CharsetDiagnostic {
    
    public void diagnoseConnectionCharset(DataSource dataSource) {
        try (Connection conn = dataSource.getConnection();
             Statement stmt = conn.createStatement();
             ResultSet rs = stmt.executeQuery(
                 "SHOW VARIABLES WHERE Variable_name IN (" +
                 "'character_set_client', 'character_set_connection', " +
                 "'character_set_results', 'character_set_server')")) {
            
            System.out.println("=== 连接字符集诊断 ===");
            while (rs.next()) {
                System.out.printf("%s = %s%n", 
                    rs.getString("Variable_name"), 
                    rs.getString("Value"));
            }
            
            // 测试数据插入和读取
            testCharsetRoundTrip(conn);
            
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
    
    private void testCharsetRoundTrip(Connection conn) throws SQLException {
        String testData = "中文测试  Emoji";
        
        // 创建测试表
        try (Statement stmt = conn.createStatement()) {
            stmt.execute("CREATE TEMPORARY TABLE charset_test (id INT, data VARCHAR(100))");
            
            // 插入测试数据
            try (PreparedStatement pstmt = conn.prepareStatement(
                     "INSERT INTO charset_test VALUES (?, ?)")) {
                pstmt.setInt(1, 1);
                pstmt.setString(2, testData);
                pstmt.executeUpdate();
            }
            
            // 读取并验证
            try (ResultSet rs = stmt.executeQuery(
                     "SELECT data, HEX(data) FROM charset_test")) {
                if (rs.next()) {
                    String retrieved = rs.getString(1);
                    String hex = rs.getString(2);
                    System.out.printf("写入: %s%n", testData);
                    System.out.printf("读取: %s%n", retrieved);
                    System.out.printf("Hex: %s%n", hex);
                    System.out.printf("匹配: %s%n", testData.equals(retrieved));
                }
            }
        }
    }
}