19. 大数据-技术生态


前言

大数据(Big Data)

大数据(Big Data)是指无法用传统数据处理工具处理的大规模数据集合,具有数据量大、数据类型多、数据生成速度快、数据价值密度低等特点。
大数据的处理技术包括分布式存储和计算、数据清洗和转换、数据分析和可视化等。
分布式存储和计算是通过多台计算机协同工作来处理大规模数据,如Hadoop、Spark等;
数据清洗和转换是对大数据进行预处理,如数据去重、数据转换等;
数据分析和可视化是对大数据进行分析和展示,如机器学习、数据可视化等。
大数据的设计和实现需要考虑数据源、数据质量、性能、数据安全等因素。


一、 核心组件与技术框架定位

1. 基础生态与存储层

  • Hadoop生态:大数据的“地基”,提供提供分布式存储(HDFS)、计算资源调度(YARN)、 分布式计算框架(MapReduce) 的基础设施。
  • HBase:构建在HDFS之上的分布式NoSQL数据库,专为海量数据的随机、低延迟实时读写而设计。
  • Hudi:数据湖存储格式,为数据湖提供ACID事务、数据版本回溯和增量处理能力,解决传统数据湖难以更新的问题。

2. 数据采集与同步层

  • Flume:分布式日志收集、聚合和传输系统,适合将海量日志实时移动到HDFS或HBase中。
  • DataX:异构数据源离线同步工具,采用插件化架构,高效实现MySQL、HDFS、Hive等之间的批量数据同步。
  • DS (DolphinScheduler):分布式可视化工作流任务调度平台,用于管理复杂的大数据任务依赖与定时调度。

3. 数据计算与查询层

  • Spark:基于内存的分布式计算框架,性能远超传统MapReduce,是离线ETL、复杂批量计算和机器学习的首选。
  • Flink:高性能分布式流处理框架,支持真正的流批一体和Exactly-Once语义,是实时计算、实时数仓的核心引擎。
  • Hive:基于Hadoop的数据仓库工具,将SQL转换为MapReduce/Spark任务,适合大规模历史数据的离线分析。

4. 实时OLAP分析层

  • Doris:高性能MPP架构的实时分析数据库,支持高并发、亚秒级响应,兼容MySQL协议,适合多维报表和即席查询。
  • ClickHouse:以极致查询性能著称的列式存储数据库,在单表海量数据分析和日志检索场景下表现卓越,但并发和多表Join能力相对较弱。

二、 架构选型与配合使用指南

现代企业大数据架构正从传统的Lambda架构向湖仓一体(Lakehouse)流批一体演进。以下是主流场景的选型与配合方案:

1. 经典“湖仓一体”架构

90%中大型企业的首选

  • 架构组合:Kafka + Flink + Spark + Hudi/Iceberg + Doris。
  • 配合方式:通过Flink CDC或DataX将业务数据实时同步至Kafka;Flink进行实时流计算并写入Hudi(数据湖);Spark负责离线ETL与复杂机器学习任务;最终将加工好的高价值数据导入Doris,支撑前端高并发的BI报表和即席查询。
  • 优势:统一存储、批流一体,避免了多套系统的数据冗余和口径不一致。

2. 离线批处理与历史数仓场景

  • 架构组合:DataX/Flume + HDFS + Hive/Spark + DolphinScheduler。
  • 配合方式:使用DataX或Flume将数据批量采集到HDFS,通过DolphinScheduler调度Hive或Spark任务进行T+1的数据清洗与聚合分析。
  • 适用:对实时性要求不高、数据量极大的历史报表生成和离线数据挖掘。

3. 极简实时分析与大屏监控场景

  • 架构组合:Kafka + Flink + ClickHouse/Doris。
  • 配合方式:如果业务以实时日志分析、埋点监控为主,且极少进行复杂的多表关联,可直接将Kafka中的数据通过Flink清洗后写入ClickHouse;若需要高并发和复杂Join,则写入Doris。
  • 适用:实时风控、实时大屏、用户行为秒级监控。

4. 高并发实时点查与状态存储场景

  • 架构组合:Flink + HBase。
  • 配合方式:Flink处理实时数据流,将需要频繁更新或毫秒级点查的状态数据(如用户画像、实时库存)写入HBase,对外提供高QPS的API查询服务。

5. 总结建议

在技术选型时,应以业务需求为导向。对于大多数希望兼顾实时与离线、降低运维复杂度的企业,推荐采用 Spark(离线)+ Flink(实时)+ Hudi(湖存储)+ Doris(OLAP查询) 的组合,并使用 DolphinScheduler 进行统一的任务调度,从而构建一个高效、统一的现代大数据平台。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值