来源:西安博为峰Java培训学校
时间:2019/3/2 11:26:18
传统数据仓库向大数据的渐进式转型
数据仓库系统长期以来一直是企业IT架构的重要组成部分。随着开源技术的不断发展以及云端部署方式的不断深入,传统数据仓库的局限性日益凸显,难以适应新技术带来的市场变革,如何面向大数据技术进行数据仓库的优化、转型是企业IT管理者面临的重要挑战。处于不同阶段的企业如何应用大数据技术?如何面向大数据技术进行数据仓库转型?如何对现有数据仓库进行优化?如何在Hadoop中进行性能优化?这些已成为困扰IT管理者的主要问题。
带着诸多疑问,51CTO记者采访了Cloudera售前技术经理、解决方案顾问徐峰先生,徐峰拥有14年数据仓库的项目实施经验,曾作为首席架构师参与过多个大型数据仓库项目的架构设计和项目规划工作。徐峰表示,数字化时代,随着企业内部数据的增长,以及外部数据采集成本的不断降低,传统数仓在数据存储和分析应用上都面临着巨大的挑战。
现有的数仓环境
传统数仓面临以下局限性:
存储成本较高,在线保留全量、海量数据的目标难以实现;
元数据定义僵化,难以灵活集成多种数据源、支持即席查询;
集群管理复杂、计算资源有限,缺乏统一的管理接口及水平扩展能力;
随着数据规模、用户规模的不断增加,实时分析(例如:行为识别)SLA无法满足;
常用的数据分析挖掘工具处理全量数据时间过长。
数据仓库呈现发展趋势
数据仓库要处理更多类型的全量数据:企业必须能够有效地存储、加工和分析数据,包括结构化数据、半结构化数据和非结构数据。
数据仓库要提供更加广泛的数据访问:数据仓库的访问不再只限于IT部门,所有部门的用户都会要求自助访问全真的数据,甚至希望无需IT部门的协助便可以自行进行数据准备,当然,这个过程中的高访问延迟也是不被接受的。
数据仓库要采取更加实时的业务决策:流式数据为理解和调整当前的业务决策创造了新的可能,但前提是我们要具备对流式数据进行实时处理的能力。实时计算需要新的技术架构,不仅要将数据流与现有数据体系进行对接,还要能够对其进行的分析。
版权所有:搜学搜课(www.soxsok.com)