使用waferid字段做GaussDB的分表设计

原创已于 2024-12-09 00:59:36 修改 · 929 阅读

18 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#gaussdb #大数据 #python

于 2024-12-09 00:40:26 首次发布

Python3.8

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

一、基于GaussDB的分表设计方案

（一）概述

在处理大规模数据时，单表存储可能会面临性能和扩展性的问题。为了提高系统的性能和可扩展性，通常会采用分表（Sharding）技术。分表的核心思想是将大表拆分成若干小表，以降低单表的数据量，从而提升查询和写入性能。在GaussDB中，可以通过哈希分区、范围分区等方式实现分表。

（二）分表设计原则

均匀分布数据：选择合适的分片键（Sharding Key），使得数据能够均匀分布到各个分表中，避免数据倾斜。
业务逻辑一致性：分表设计应尽量保持业务逻辑的一致性，方便后续的维护和扩展。
扩展性：设计时应考虑到未来的扩展需求，使得在数据量增长时，能够方便地增加新的分表。

（三）方案设计

假设waferid字段是一个具有明显区间性或离散性的字段，适合用来作为分片键。以下是基于waferid字段的分表设计方案：

1. 哈希分区

哈希分区是一种常见的分表策略，通过哈希算法将数据分散到不同的分表中。具体步骤如下：

确定分表数量：根据预计的数据量和单表的容量，确定需要分多少个表。
选择分片键：在这里，我们选择waferid作为分片键。
计算哈希值：对waferid字段进行哈希计算，得到哈希值。
分配数据：根据哈希值将数据分配到不同的分表中。

-- 创建分区表 
CREATE TABLE wafer_data (
    waferid VARCHAR(50),
    data_column1 VARCHAR(255),
    data_column2 VARCHAR(255),
    ...
) PARTITION BY HASH(waferid) (
    PARTITION p0,
    PARTITION p1,
    PARTITION p2,
    ...
);
 
-- 插入数据示例 
INSERT INTO wafer_data (waferid, data_column1, data_column2) VALUES ('wafer_001', 'value1', 'value2');

2. 范围分区

如果waferid字段具有明显的区间性，比如按时间、按地域等，可以采用范围分区。具体步骤如下：

确定分区范围：根据waferid字段的取值范围，确定每个分区的范围。
创建分区表：根据分区范围创建分区表。

-- 创建范围分区表 
CREATE TABLE wafer_data (
    waferid VARCHAR(50),
    data_column1 VARCHAR(255),
    data_column2 VARCHAR(255),
    ...
) PARTITION BY RANGE(waferid) (
    PARTITION p0 VALUES LESS THAN ('wafer_001'),
    PARTITION p1 VALUES LESS THAN ('wafer_002'),
    PARTITION p2 VALUES LESS THAN ('wafer_003'),
    ...
);
 
-- 插入数据示例 
INSERT INTO wafer_data (waferid, data_column1, data_column2) VALUES ('wafer_001', 'value1', 'value2');

3. 综合分区

在某些情况下，可能需要结合哈希分区和范围分区的优点，采用综合分区的方式。例如，可以先按waferid字段进行范围分区，再在每个范围内进行哈希分区。

-- 创建综合分区表 
CREATE TABLE wafer_data (
    waferid VARCHAR(50),
    data_column1 VARCHAR(255),
    data_column2 VARCHAR(255),
    ...
) PARTITION BY RANGE(waferid) (
    PARTITION p0 VALUES LESS THAN ('wafer_001') PARTITION BY HASH(waferid) (
        SUBPARTITION sp0,
        SUBPARTITION sp1 
    ),
    PARTITION p1 VALUES LESS THAN ('wafer_002') PARTITION BY HASH(waferid) (
        SUBPARTITION sp0,
        SUBPARTITION sp1 
    ),
    ...
);
 
-- 插入数据示例 
INSERT INTO wafer_data (waferid, data_column1, data_column2) VALUES ('wafer_001', 'value1', 'value2');

（四）注意事项

数据倾斜：在选择分片键时，要确保数据分布均匀，避免数据倾斜。
分区管理：定期检查分区的使用情况，必要时进行分区合并或拆分。
查询性能：在设计分表方案时，要考虑查询的性能，尽量减少跨分区查询。

通过以上设计方案，您可以根据业务需求和数据特点，选择合适的分表策略，确保数据在各分表中均匀分布，从而提升系统的性能和可扩展性。

二、下面我们使用python写个脚本，模拟waferid字段值，计算这些字符串的哈希值，并算出他们落的分表是不是分布均匀的。

1. 生成模拟的 `waferid` 字段值

在这个示例中，我们假设 waferid 是一个简单的字符串序列，例如 waferid_1，waferid_2，...，waferid_n。

import hashlib

# 模拟生成waferid列表 
num_waferids = 2500
waferids = [f'AB000{i}_{i}' for i in range(1, num_waferids + 1)]


### 2. 计算哈希值 
def calculate_hash(waferid):
    hash_object = hashlib.md5(waferid.encode())
    return int(hash_object.hexdigest(), 16)


hashed_waferids = [calculate_hash(waferid) for waferid in waferids]

### 3. 确定分表（这里简单假设分表数量为10）
num_tables = 20
table_assignments = [hash_value % num_tables for hash_value in hashed_waferids]


### 4. 检查分布是否均匀 
def check_distribution(table_assignments):
    distribution = [table_assignments.count(i) for i in range(num_tables)]
    my_list = distribution
    n = len(my_list)
    mean = sum(my_list) / n
    squared_diffs = [(x - mean) ** 2 for x in my_list]
    variance = sum(squared_diffs) / n
    print(variance, num_waferids/num_tables)
    if variance < num_waferids/num_tables * 2:
        print("分布是均匀")
        return True
    else:
        print("分布不是是均匀")
        return False
    # min_count = min(distribution)
    # max_count = max(distribution)
    # if max_count - min_count <= 5:
    #     return True
    # return False


is_uniform = check_distribution(table_assignments)
print(f"分布是否均匀: {is_uniform}")

在上述代码中：