StarRocks学习2-数据建模与表设计

最新推荐文章于 2026-07-02 10:55:30 发布

原创

最新推荐文章于 2026-07-02 10:55:30 发布 · 1k 阅读

1、Catalogs、databases 和 tables

在 StarRocks 中，Catalogs（目录）、Databases（数据库） 和 Tables（表） 是构成数据组织架构的核心层级，从高到低依次形成“Catalog → Database → Table”的三级结构，用于高效管理和访问数据。以下是它们的详细简介：

1. Catalogs（目录）

定义：Catalog 是 StarRocks 中最高层级的命名空间，用于统一管理不同类型的数据源（如 StarRocks 本地数据、Hive 元数据、Iceberg 表、Delta Lake 表等），实现多源数据的集中访问和管理。

核心作用：

多源数据整合：通过不同类型的 Catalog 连接外部数据源（如 Hive Catalog、Iceberg Catalog）和本地数据（Internal Catalog），让用户可以像访问本地表一样查询外部数据，无需数据迁移。
隔离与权限控制：不同 Catalog 可对应不同的业务场景或数据源，便于权限隔离（如限制用户只能访问特定 Catalog）。

常见类型：

Internal Catalog：StarRocks 内置的默认 Catalog，用于管理本地创建的数据库和表（如通过 CREATE DATABASE CREATE TABLE 创建的对象）。
External Catalog：连接外部数据源的 Catalog，例如：
- Hive Catalog：对接 Hive 元数据，访问 Hive 表；
- Iceberg Catalog：对接 Apache Iceberg 表；
- MySQL Catalog：对接 MySQL 数据库中的表。

使用示例：
访问 Hive Catalog 中 hive_db 数据库下的 hive_table 表：

SELECT * FROM hive_catalog.hive_db.hive_table;

2. Databases（数据库）

定义：Database 是 Catalog 下的二级命名空间，用于对表进行逻辑分组，通常按业务场景、数据类型或部门划分（如“用户行为库”“交易库”）。

核心作用：

逻辑隔离：将不同业务的表放在不同数据库中，避免表名冲突（如两个业务都有 user 表，可分别放在 user_db 和 trade_db 中）。
权限管理：可针对数据库设置权限（如只允许某用户查询 user_db，不允许修改）。

特点：

每个 Database 隶属于某个 Catalog（默认属于 Internal Catalog）。
支持通过 CREATE DATABASE 创建，DROP DATABASE 删除，USE DATABASE 切换当前数据库。

使用示例：
创建一个隶属于 Internal Catalog 的数据库 sales_db：

CREATE DATABASE sales_db;
USE sales_db; -- 切换到该数据库，后续操作可省略数据库名

3. Tables（表）

定义：Table 是 StarRocks 中存储和管理数据的基本单元，由行和列组成，对应实际的业务实体（如“用户表”“订单表”）。

核心特性：

多种表类型：
- Duplicate Key 表：默认表类型，允许数据重复，适合日志、行为等无需去重的场景；
- Unique Key 表：支持按主键去重，适合需要更新数据的场景（如用户信息表）；
- Aggregate Key 表：自动按主键聚合数据（如求和、计数），适合分析场景（如指标汇总表）；
- Primary Key 表：支持主键唯一且高效更新，适合实时同步业务库的场景。
分区与分桶：支持按时间、业务维度分区（Partition），并在分区内分桶（Bucket），提升查询效率。
列类型丰富：支持数值、字符串、日期、JSON、数组等多种数据类型，满足复杂业务需求。

使用示例：
在 sales_db 数据库中创建一个订单表 orders：

CREATE TABLE sales_db.orders (
    order_id INT,
    user_id INT,
    amount DECIMAL(10,2),
    order_time DATETIME
)
DUPLICATE KEY (order_id)
PARTITION BY RANGE (order_time) (
    PARTITION p2023 VALUES LESS THAN ('2024-01-01'