加入收藏 | 设为首页 | 会员中心 | 我要投稿 桂林站长网 (https://www.0773zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

为什么数据湖不仅仅是大数据

发布时间:2021-05-13 21:43:36 所属栏目:大数据 来源:互联网
导读:一个可能特别令人困惑的领域是人们认为数据湖仅用于大数据。如果花时间阅读湖泊上的资料,就会认为只有一种类型。人们将数据湖描述为庞大的、无所不包的实体,旨在容纳所有知识。好消息是,湖泊不仅仅用于大数据,而且比以往任何时候都有更多的机会将其纳入

一个可能特别令人困惑的领域是人们认为数据湖仅用于“大数据”。如果花时间阅读湖泊上的资料,就会认为只有一种类型。人们将数据湖描述为庞大的、无所不包的实体,旨在容纳所有知识。好消息是,湖泊不仅仅用于“大数据”,而且比以往任何时候都有更多的机会将其纳入数据堆栈。

不同类型的数据湖

就像大自然一样,湖泊具有各种不同的形状和大小。每个都有自然状态,通常反映数据生态系统,就像自然界中反映鱼类,鸟类或其他生物的生态系统一样。

不幸的是,“大数据”角度给人们的印象是湖泊仅用于“里海”规模的数据工作。这无疑使使用数据湖变得令人生畏。因此,以如此大的角度来描述事物使得那些可以从中受益的人们无法接近湖泊的概念。这里有一些数据湖的例子。

  • 伟大的“里海”:就像里海是一个大水域一样,这种类型的湖泊也是一个庞大而广泛的,种类繁多的数据集。广泛收集的各种数据反映了整个企业的信息。这就是大多数数据湖工作的框架。
  • 暂时的“湖泊”:就像沙漠中可以有小的临时湖泊一样,短暂的短暂存在。它们可以用于项目、试点、PoC或点解决方案,并且它们的打开与关闭速度一样快。
  • 领域“项目”:这些湖泊与临时数据湖泊一样,通常侧重于特定的知识领域。但是,与临时湖不同,该湖将随着时间的推移而持续存在。这些也可能是“浅”的,这意味着它们可能专注于狭窄的数据域,例如媒体、社交、Web分析、电子邮件或类似的数据源。

最近,与客户合作创建了“域”型湖泊。该湖会将Adobe事件数据保存到AWS,以支持企业Oracle Cloud环境。为什么选择AWS to Oracle?对于客户的OracleBI环境,这是一种高效且具有成本效益的数据消耗模式,尤其是考虑到使用AWS Lake和Athena作为湖内容的按需查询服务的敏捷性和经济性。

通过设计,所有类型的湖泊都应采用抽象技术,以最大程度地降低风险并为您提供更大的灵活性。而且,它们的结构应易于使用,而与大小无关。这确保了数据科学家,业务用户或分析师所使用的湖泊都具有易于数据使用的结构化环境。

(编辑:桂林站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!