Doris 实时数仓建设实践

文章探讨了使用Doris进行数据整合,建立实时数仓的思路,包括通过建立外表和数据导入来处理不同数据源,利用Flink进行数据同步和优化,以及建立数据库设计标准和数据资产管理。此外,文章强调了上游业务数据规范的重要性,并提到了对历史系统优化的解决方案。

概述

Drois 从早期的百度项目,到开源Apache Doris,到商业化的StarRocks,到各大云服务商,陆续上线,作为新一代的OLAP解决方案,在应用场景上表现得非常好

整理对近期对Doris实时数仓建设的一些思考

背景

  1. 公司有很多业务线,每个业务线有自己的产品,沉淀了各自业务的数据,也使用了各种不同的存储介质,Mysql,Elasticsearch,Oracle,MongoDB 等等
  2. 公司希望将数据打通,对数据联合跨库分析,输出结果
  3. 至于实时数仓的需求,主要是目前很少有人能接受 T+1的数据
  4. 公司目前的数据量在PB级以下,Hadoop生态暂时不需要涉及,目前Doris也在持续迭代,期待越来越好

主体思路

  1. 使用Doris对各类数据源进行整合,实现数据层面的打通
  2. 建立研发的数据库设计使用标准,以及实时数仓的相应规范,数据分层
  3. 建立统一的数据指标管理,数据资产管理

步骤:

一、 使用Doris对各类数据源进行整合
  1. 数据整合形式主要分为 『建立外表』、『数据导入』 两种,我们在部份业务初期,并未使用数据导入方式,因为数据导入需要额外的组件及维护成本,并且业务初期,需求变更导致的表结构变更是常事,还有业务初期数据量不大。综合以上考虑,在业务初始 基本策略是『建立外表』,建立的外表,Doris能够将跨库的SQL语法自动拆解,转换为各种类型的存储介质需要的语法结构,然后在Doris中进行数据合并。如:基于Doris实现Mysql与Es的联表查询
  2. 当某张表达到了一定量级,业务的数据库不能满足分析需求,同时也是对业务库产生了影响,影响客户层面的正常使用,此时就有必要使用『数据导入』,将数据导入到Doris 基于Doris的能力进行针对性优化
课程总体架构请观看89讲。数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。数据仓库的应用有:1.数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶。2.数据化运营、精准运营。3.广告精准、智能投放等等。数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展。数据仓库有两个环节:数据仓库的构建与数据仓库的应用。随着IT技术走向互联网、移动化,数据源变得越来越丰富,在原来业  务数据库的基础上出现了非结构化数据,比如网站log,IoT设备数据,APP埋点数据等,这些数据量比以往结构化的数据大了几个量级,对ETL过程、存储都提出了更高的要求。互联网的在线特性也将业务需求推向了实时化 ,随时根据当前客户行为而调整策略变得越来越常见,比如大促过程中库存管理,运营管理等(即既有中远期策略型,也有短期操作型)。同时公司业务互联网化之后导致同时服务的客户剧增,有些情况人工难以完全处理,这就需要机器 自动决策 。比如欺诈检测和用户审核。总结来看,对数据仓库的需求可以抽象成两方面: 实时产生结果、处理和保存大量异构数据。本课程基于真实热门的互联网电商业务场景为案例讲解,结合分层理论和实战对数仓设计进行详尽的讲解,基于Flink+DorisDB实现真正的实时数仓,数据来及分析,实时报表应用。具体数仓报表应用指标包括:实时大屏分析、流量分析、订单分析、商品分析、商家分析等,数据涵盖全端(PC、移动、小程序)应用,与互联网企业大数据技术同步,让大家能够学到大数据企业级实时数据仓库的实战经验。本课程包含的技术: 开发工具为:IDEA、WebStorm Flink 1.11.3Hadoop 2.7.5Hive 2.2.0ZookeeperKafka 2.1.0、Spring boot 2.0.8.RELEASESpring Cloud Finchley.SR2Flume 、Hbase 2.2.6DorisDB 0.13.9、RedisVUE+jQuery+Ajax+NodeJS+ElementUI+Echarts+Datav等课程亮点: 1.与企业接轨、真实工业界产品2.DorisDB高性能分布式数据库3.大数据热门技术Flink最新版4.真正的实时数仓以及分层设计5.海量数据大屏实时报表6.数据分析涵盖全端(PC、移动、小程序)应用7.主流微服务后端系统8.数据库实时同步解决方案9.涵盖主流前端技术VUE+jQuery+Ajax+NodeJS+ElementUI+Echarts+Datav10.集成SpringCloud实现统一整合方案11.互联网大数据企业热门技术栈12.支持海量数据的实时数仓报表分析13.支持全端实时实时数仓报表分析14.全程代码实操,提供全部代码和资料 15.提供答疑和提供企业技术方案咨询企业一线架构师讲授,代码在老师的指导下企业可以复用,提供企业解决方案。  版权归作者所有,盗版将进行法律维权。 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值