重构现代数据仓库:衰败还是革新?

   我们对数据仓库有何期待?我们需要次秒级查询延迟吗?有时候需要。我们是否需要巨大的可扩展性,同时确保不影响数据仓库的性能?也许,大多数情况下,我们只是需要一个地方来存储和组织支持当今分析活动的信息。

  我们很容易被大数据领域的快速创新和演变所吸引而蒙蔽了双眼。如今,大部分精通技术的企业都有机会利用大数据工具,处理令人头脑发麻的先进用例,生成极具吸引力的结果。但是,现在很多企业仍然依靠传统数据仓库的理念和工作流,更不用说沉没投资了。

  最近的一项 Aberdeen 调查显示,领先企业找到了结合使用自身数据仓库基础架构、新型流程和技术的有效公式,以支持更高级的分析活动。这些一流企业的一些主要特点包括:

http://www.ibmbigdatahub.com/sites/default/files/moderndatawarehouse_embed.jpg

  采用数据湖技术。打造兼具可扩展性和灵活性的数据基础架构不仅仅是大型先进企业的目标。尽管需求千差万别,但只要是大力投资数据环境的企业,他们都迫切地需要高效管理不断增加的数据量和复杂性。因此,为了解决这些需求,许多企业开始探索数据湖架构。然而,根据 Aberdeen 的调查,只有三分之一的企业的数据湖是建立在开源的基于 Hadoop 的技术之上。为了实现数据湖带来的灵活性和可扩展性,大多数企业正在利用商用技术(包括数据仓库软件)。

  使用多元化的数据集。很多人会说,数据仓库最典型的用例是支持分析活动。按照这个定义,现代化的数据架构也将需要存储和组织各种数据。大多数企业在分析过程中使用的大量信息依然是传统的基于应用的结构化数据。然而,越来越多的企业开始探索来自外部第三方数据源的信息、社交媒体渠道的非结构化数据或者机器生成的物联网数据。领先企业拥有更有效的数据管理环境,主要是因为他们需要处理多元化的数据。调查显示,所有这些非传统类型的信息更有可能被一流企业认为“非常关键”。

  实施有力的数据治理/监管。除了数据呈现多元化的趋势,许多企业同时还面临着活跃用户不断增加的局面。而且,这种情况不仅仅表现在分析活动中,还出现在数据访问和操作环节。这种数据和用户不断增加的情况对典型企业的分析前景可谓十分有利,但是也要求企业加强对数据使用的监管。一流企业更有可能实施了有效的政策和程序来治理数据访问并确保合理使用数据。尽管如此,这些领先企业也更有可能使用专门的技术来支持这些政策,提高数据使用监管的自动化水平。

  得益于这些卓越的品质,信息才能够在企业中更顺畅地流动,分析活动变得更高效,业务绩效得以提升。然而,调查还发现,在采用数据仓库技术方面获得了既得利益的企业对这些方面十分看中。换言之,认为数据仓库技术至关重要的企业同样也意识到了这些活动对于他们取得成功非常关键(参见图 1)。

  图 1:现代数据仓库的特点

  如前所述,数据湖的概念与开源 Hadoop 技术并没有必然联系。许多企业依然希望利用过去的商用数据仓库技术投资以及相关的技能组合,构建自己的数据湖。对于持续投资数据仓库的企业而言,数据多元化、数据治理和监管都至关重要。事实上,除了图 1 中介绍了物联网数据,这些企业还指出基于位置的地理空间信息和非结构化数据等数据类型对他们的分析流程至关重要。

  结论

  很多人不禁大声质疑,数据仓库是否已经活力不再。考虑到人们常常对数据仓库项目持消极态度,这个问题情有可原。有时,人们会认为这些项目既浪费时间又耗成本。但是,大量成功的数据仓库实施项目也一定能够因势而动,在当今充满挑战的环境中生存下来(数据规模和复杂性方面的挑战),并实现快速发展。一流的企业能够整合数据仓库技术和其他互补型工具及平台,并实施有效的流程和政策,从他们的数据中发掘切实的成果。

  作者:Michael Lock ,Aberdeen 副总裁兼首席分析师

   免费申请IBM DB2 产品试用>>

第 1 /  10 页
点击查看余下全文