来源:郑州达内IT时间:2023/9/3 15:29:21
大数据基础架构选型
传统数据架构
传统数据架构,在进入大数据时代之后,因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造。通常采取的是保留ETL的动作,将数据经过ETL动作进入数据存储。这类数据架构,所能满足的数据分析需求依旧以BI场景为主。
流式架构
在传统大数据架构的基础上,流式架构数据全程以流的形式处理,在数据接入端将ETL替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。存储部分在外围系统以窗口的形式进行存储。适用于预警、监控、对数据有时效性有更高要求的场景。
Lambda架构
Lambda架构算大数据系统里面举足轻重的架构,数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了较终一致性。适用于同时存在实时和离线需求的需求场景。
Kappa架构
Kappa架构在Lambda的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。