数据管理系统开发与数据库安全经验分享
数据管理系统开发相关
在数据管理系统开发中,基因组分析是一个重要的应用场景。在基因组分析里,基因组分箱(Genome binning)算法有着独特的特性,每个操作都有与之关联的最优分箱大小。直观来看,小的分箱大小会导致过多的并行执行,而大的分箱大小则会使每个分箱内的连接操作执行过多。
性能比较
对系统的两个版本 V1 和 V2 进行性能比较时,由于它们采用了不同的技术并部署在不同的平台上,直接比较意义不大。不过,在 V2 首次发布时,在相同平台上使用 Spark 引擎对其进行了比较研究。研究选取了四个 GMQL 查询片段,分别用于数据准备(以 SELECT 和 COVER 为主要操作)、差异数据注释(以 EXTEND 和 DIFFERENCE 为主要操作)、处理(以 SELECT 和 JOIN 为主要操作)以及结果提取(以 MAP 为主要操作)。
| 查询片段用途 | 主要操作 |
|---|---|
| 数据准备 | SELECT、COVER |
| 差异数据注释 | EXTEND、DIFFERENCE |
| 处理 | SELECT、JOIN |
| 结果提取 | MAP |
超级会员免费看
订阅专栏 解锁全文
2285

被折叠的 条评论
为什么被折叠?



