旗下产业: A产业/ A实习/ A计划
全国统一咨询热线:010-5367 2995
首页 > 热门文章 > 大数据分析 > 大数据分析如何构建数据湖

大数据分析如何构建数据湖

时间:2019-11-15来源:www.aaa-cg.com.cn点击量:作者:Sissi
时间:2019-11-15点击量:作者:Sissi



  建立可扩展的事务数据湖的关键注意事项,数据驱动型公司正在利用云数据湖推动快速的业务转型。云数据湖正在启用新的业务模型和近实时分析,以支持更好的决策。但是,随着迁移到云数据湖的工作负载数量的增加,公司不得不解决数据管理问题,针对这个问题,AAA教育小编姐姐咨询课程老师专业知识和大家分享出来。
 

  数据隐私法规以及对数据新鲜度和数据完整性的需求的结合,使得云数据湖在更新,删除或合并数据时需要支持ACID事务。对于云数据湖,要解决此要求,需要考虑几个体系结构方面的考虑。这些是:
 

1、数据湖上的事务性
 

  数据湖不再用作冷数据存储,而是用作实时数据与数据仓库中热数据相结合的临时分析的来源。数据湖已经有了长足的发展,以使企业能够使用商业智能仪表板或构建人工智能功能获得实时见解。为了构建可支持这些扩展用例的可靠分析平台,数据工程师需要一种机制来构建:
 

  尺寸变化缓慢(类型I和类型II):这是任何大数据分析系统的常见要求,并且需要具有INSERT,UPDATE和UPSERT数据的功能
 

  数据重述:组织正在集成来自多种来源的数据,这些来源包括事务性数据库,CRM,ERP,IoT和其他SaaS应用程序,以及来自社交媒体的数据。这可能导致不正确或数据质量差,需要在后续步骤中进行纠正。依赖于这些数据的业务规则需要干净,完整,准确和最新的数据,这进一步增加了数据重述的重要性。
 

2、安全和隐私法规与合规性
 

  对“删除权”或“被遗忘权”(RTBF)的新要求源于一系列新的且不断扩展的全球数据隐私法规。这些法规规范了消费者对其数据的权利,并对不遵守规定的行为处以严厉的经济处罚。鉴于财务处罚是重大的(高达全球营业额的4%),因此不能忽略。在确保业务连续性的同时,满足这些数据隐私和保护要求的企业面临着挑战。RTBF需要有针对性地删除可能驻留在数据湖中并在有限时间内存储的特定数据(记录,行或列)的功能。随着数据湖中大量数据的扩散,在不中断现有数据管理流程的情况下删除特定的数据子集具有挑战性。尽管一些新的解决方案从各种供应商处涌现出来,但并不是所有的解决方案都能满足要求。因此,组织仍在构建定制解决方案以满足这些新法规。但是,作为大多数内部构建的解决方案,它们会带来围绕更新,维护,可审核性等方面的问题。
 

大数据分析

3、更快的见识时间
 

  对“黄金标准”数据集的快速,交互式分析使用户可以信任结果并缩短了解时间。快速读取需要准备好的数据和正确的分析引擎。数据工程师一直在问“什么是我的数据类型最好的数据格式?”和“什么文件和分区大小合适才能提高性能?”
 

4、更快的写入时间
 

  当涉及到完成写入操作时,典型的分布式系统除等待时间外还将承受额外的开销。开销来自于写入云存储之前写入到暂存位置,或者更新整个分区而不是记录。对总体性能的影响是巨大的,并且随着组织开始大规模运行数据湖而迅速成为主要问题。
 

5、数据一致性和完整性
 

  并发控制对于数据湖很重要,因为它需要支持多个用户和应用程序,并且冲突必将发生。例如,当一个用户想要从另一个文件或分区读取文件或分区时,它可以确保数据的一致性,完整性和可用性;或两个要写入同一文件或分区的用户。因此,现代的数据湖体系结构需要解决这种情况。还需要确保这些并发操作不会违反导致错误结果的数据的完整性,准确性和参照完整性。
 

6、为工作保留正确的计算引擎和云的选择
 

  对洞察力和信息的需求的快速增长导致几乎每个企业收集和存储的数据呈指数增长。利用收集到的数据来改善客户体验的战略必要性要求企业采用可服务于当今多个用例的数据架构,同时保留数据处理引擎,云基础架构和供应商可移植性的选择,以服务于未来的用例。
 

  1、在Qubole,我们将这些考虑因素放在了数据平台设计的最前沿:
 

  2、它支持数据湖上的完全事务性,而不管云(AWS,Azure或GCP)如何。
 

  3、它为删除操作提供了内置支持,使客户能够遵守已建立的SLA中“删除权”的法规和隐私要求。
 

  4、可直接写入云对象存储,从而消除了额外的开销,同时以最佳性能保证了数据完整性。
 

  最重要的是,我们将继续提供基于Hive事务表的ACID功能的完整实现,从而使数据处理引擎(Apache Spark,Presto,Hive等)的选择自由。
 

  最后,开源的Presto和Spark连接器,它们直接与Hive ACID表配合使用。



 

预约申请免费试听课

填写下面表单即可预约申请免费试听!怕钱不够?可先就业挣钱后再付学费! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可推荐就业!

©2007-2021/北京漫动者教育科技有限公司版权所有
备案号:京ICP备12034770号

©2007-2022/ www.aaa-cg.com.cn 北京漫动者数字科技有限公司 备案号: 京ICP备12034770号 监督电话:010-53672995 邮箱:bjaaa@aaaedu.cc

京公网安备 11010802035704号

网站地图