在过去的几年中,您可能听说过有人在某个地方使用“数据湖”一词。随着数据量呈指数级增长,流数据起飞,非结构化数据继续使其结构化的同类相形见绌,这一概念越来越受到关注。
什么是数据湖?它与传统数据仓库有何不同?AAA教育小编简单分析一下大数据分析数据湖与数据仓库的区别与联系
一、传统数据仓库是什么
奇怪的是,在您职业生涯的某个时候,您遇到了数据仓库,该工具已成为提取,转换和加载(ETL)流程的代名词。在较高级别上,数据仓库以高度规范的方式存储大量结构化数据。他们需要一个刚性的,预定义模式加载数据之前就存在。(几乎总是星型或雪花型模式。)换句话说,数据仓库中的模式是“写时”定义的。ETL流程应尽其所能踢出错误报告,生成日志,并将错误的记录发送到要处理的异常文件和excel表中。在以后的日子。
由于这种刚性及其工作方式,数据仓库支持部分或增量ETL。换句话说(根据问题的严重性),组织可以在出现问题时加载或重新加载其数据仓库的某些部分。
组织通常会定期填充数据仓库。一般而言,数据会定期更新(例如,每天早上3点,当员工不太可能访问数据和下游系统时)。员工第二天使用最新压缩的数据上班。
可以肯定的是,存储在传统数据仓库中的数据在今天仍然有价值。尽管如此,组织及其领导者仍需要开始重新考虑当代数据集成。考虑一下物联网及其实现的分析。车辆,农用设备,可穿戴设备,恒温器甚至农作物上的传感器会产生大量连续流的数据。最好的选择是,即使是具有行业实力的数据仓库也将面临这些新数据流的困扰。
二、数据湖的崛起
在这种背景下,我们已经看到了数据湖的流行性上升。没错:它不是数据仓库或数据集市的同义词。是的,所有这些实体都存储数据,但是数据湖在以下方面根本不同。数据湖的想法是为原始数据提供原始数据的休息场所,直到需要它为止。数据处于休眠状态,除非并且直到有人或某物需要它。
在访问数据湖时,用户确定:
他们需要的特定数据类型和来源。
他们需要多少。
当他们需要它时。
他们需要派生的分析类型。
所有这些都可能在数据仓库中吗?可能不是。而且即使有可能,也不太可能在业务用户认为可以接受的时间内实现这些目标-尤其是在当今瞬息万变的环境中。除此之外,几乎可以肯定一个特定的架构不能满足所有业务需求。最终,数据可能最终以某种方式到达,使其实际上对于员工的发展目的毫无用处。
因此,数据湖架构被定义为“读取时”。换句话说,数据湖仍需要一个架构。但是,该架构不是预定义的。这是临时的。当用户将数据从存储位置中拉出时,数据将应用到计划或方案中-而不是随其进入。数据湖将数据保持在其未更改(自然)状态;除非并且直到用户查询数据,它才定义需求。
如果使用正确,数据湖将为业务和技术用户提供查询更小,更相关和更灵活的数据集的能力。结果,查询时间可以减少到数据集市,数据仓库或关系数据库中的时间的一小部分。
1、数据湖的灵活性提高
数据湖强调数据的灵活性和可用性。这样,它可以为用户和下游应用程序提供无模式的数据。也就是说,无论其来源如何,都类似于其“自然”或原始格式的数据。
尽管评审团还没有成立,但许多(如果不是大多数)数据湖应用程序不支持部分或增量加载。(通过这种方式,数据湖不同于数据仓库。)组织无法将其部分数据加载或重新加载到数据湖中。它往往是全部或全部。
2、数据湖类比
如果您仍在努力处理数据湖的概念,那么下面的类比可能会澄清问题。可以将数据集市或数据仓库看作是装满瓶装水的存储设施。这些案件并不仅仅是一夜之间神奇地出现。人和机器收集并净化了水。包装后,才可以供人们购买和饮用。
相比之下,可以将数据湖视为大量天然水,只有在渴死时才可以喝。如果您需要50加仑的水灭火,则无需购买瓶装水并将它们逐一倒空。一切都准备就绪。
按照这种类比,数据湖中的“水”来自许多地方:河流,支流和瀑布。也就是说,数据湖不只容纳一种水(即数据)。数据湖可以容纳所有类型的数据:结构化,半结构化和非结构化。但是请注意,用结构化数据填充数据湖意味着它至少会丢失其某些结构,并且-您猜到了-其某些价值。为此,如果你只是对结构化数据感兴趣,数据仓库可能仍然是你最好的选择。
在我看来,毫无疑问,数据湖将在未来的数据管理中占据越来越重要的位置。
1、关于数据湖的两种思想流派
因为数据湖现在还处于早期阶段,今天的数据湖泊的意见是什么,在较高的层次上,有两种思想流派。一组视图中的数据湖为不仅是重要的,而且还必须为数据驱动的公司。该小组了解现代数据仓库的局限性-原则上讲,它们并不是为处理大量非结构化数据流而构建的。此外,“写时”和“读时”之间的区别不仅仅是语义上的问题。相反,后者使响应时间大大加快,并且扩展了分析能力。
这是一种观点,我碰巧同意这一观点。公平地说,我们在这里还没有达成行业共识–距离它还很远。数据湖的怀疑论者并不害羞。愤世嫉俗的人把数据湖看成是流行语,或者是在游戏中占有重要地位的软件供应商的炒作。此外,有些人认为数据湖是旧概念的新名称,但对企业的适用性有限。
除了围绕该主题的合理混乱外,很少有人以一致的方式使用“数据湖”一词。有些人称任何数据准备,存储或发现环境为数据湖。
2、与Hadoop和关系数据库并行
在概念化对数据湖的需求时,也许最好考虑一下Hadoop –越来越多的组织正在采用的开源,分布式文件系统。Hadoop成长的原因很多,其中最重要的一点是它满足了关系数据库管理系统(RDBMS)无法满足的真正需求。公平地讲,它的开源性质,容错能力和并行处理也位居榜首。
RDBMS根本不是设计来处理千兆字节或PB级的非结构化数据。尝试将数千张照片,视频,推文,文章和电子邮件加载到传统的SQL Server或Oracle数据库中,并运行报告或编写SQL语句。祝你好运。
几十年来,数据仓库甚至可以很好地处理大量结构化数据:员工列表,销售,交易等。他们提供了无数的商业智能和企业报告应用程序。但是,期望那些相同的数据仓库有效地处理根本不同的数据量,速度和类型是不合理的。
3、关于元数据的注释
数据湖依赖于本体和元数据来从加载到它们中的数据中获取意义。同样,方法也有所不同。但是一般来说,湖泊中的每个数据元素都继承一个唯一的标识符,该标识符分配有大量的元数据(标签)。结论:数据湖将继续存在。
4、数据湖的光明前景
在我看来,毫无疑问,数据湖将在未来的数据管理中占据越来越重要的位置。组织将继续将“小”数据与其大数据集成在一起,愚蠢的是他们相信一个应用程序(无论多么昂贵或强大)都能处理所有事情。
当出现业务问题时,用户将比传统的数据存储和报告支持者所能提供的更快地更快地需要答案。如果使用得当,数据湖可让用户分析较小的数据集并快速回答关键问题。
填写下面表单即可预约申请免费试听!怕钱不够?可先就业挣钱后再付学费! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可推荐就业!
©2007-2022/ www.aaa-cg.com.cn 北京漫动者数字科技有限公司 备案号: 京ICP备12034770号 监督电话:010-53672995 邮箱:bjaaa@aaaedu.cc