聊聊大数据环境下的数据库架构

最新推荐文章于 2026-06-12 09:17:06 发布

转载最新推荐文章于 2026-06-12 09:17:06 发布 · 844 阅读

收录于

mysql

本文探讨了在MySQL数据库中通过分表、分库、结合使用Memcache和Redis来优化大数据量查询性能的方法。重点介绍了如何在用户文章或微博场景下进行数据分表，利用Redis存储索引字段以加速查询，并定期更新Redis中的数据总量。同时，通过将查询结果缓存在Memcache中，实现快速响应。此外，文章还提及了如何在系统复杂度提高时进行分库处理，以及如何应对更复杂的搜索需求。

随着数据的快速增长，分表，分库，memcache,redis,mongodb,hadoop,bigtable等，各种解决方案呼之欲出。经过测试，在MySQL中，无论如何加索引，数据超过百w时，查询起来耗时很明显。

因此mysql分表分库+memcache+redis也不失是一个完美解决方案。

由于redis不支持复杂查询，redis的读取性能还是赶不上mem这些劣势，因此才需要一些搭挡。

流程

从CRUD看底层架构。

1. 插入数据

一般情况下，对用户是没有必要分表的，用户的文章或者微博才分表，毕竟用户表和微博表是无法比拟，不一个等级的。

插入时，任何表，mysql只存储索引字段，其它数据存储在redis上。文章表可按一定规则进行静态分表，比如按用户id分100张表，每个用户发的文章都会路由到同一张表中。

数据总数需要一个单独的字段存储在redis中，每个用户都有一个key进行存储文章总数。有时总数数据会与实际总条数有所不同，因此需要定期执行mysql count进行更新redis中的总数。

下面是分表路由，把uid对100取余：

 
protected function getTableName($name, $id=null) {
 
   $tableName = self::SYS_DB_PREFIX . $name;
 
   if (is_numeric($id) && $id > 0)
 
       return $tableName . '_' . ($id % $this->tableNum);
 
}