浅析spark快速大数据分析-AAA教育

浅析spark快速大数据分析

时间：2019-11-08来源：www.aaa-cg.com.cn点击量：次作者：Sissi

时间：2019-11-08点击量：次作者：Sissi

　　Spark是一种流行的大数据集群计算框架，通常被大数据工程师，大数据科学家和大数据分析师用于各种用例。根据情况的不同，每种用户类型都将要求一定范围的数据访问权限。与其他像Presto这样具有内置授权框架和细粒度访问控制的大数据引擎不同，Spark可以直接访问Qubole Metastore(利用Apache Hive)中存储的所有表和资源。这不仅带来安全问题，而且阻碍了增长和企业采用。因此，我们很有必要在Qubole平台上引入新的Spark数据访问控制框架。

一、目标

　　1、这些是介绍Spark访问控制框架时考虑的一些最重要的设计目标：

　　2、细粒度的访问控制应在各种大数据引擎上统一应用。

　　3、必须通过任何引擎查看或编辑策略，以提供一致且可预测的行为。

　　4、支持SparkSQL访问方法，例如数据框或SQL语句。

　　5、该框架必须易于与Hive Authorization或Apache Ranger等各种策略管理器集成。

二、实施细节

　　考虑到这些要求，我们决定将Hive授权实施为我们的第一个策略管理器。Hive授权策略存储在Qubole Metastore中，该库充当共享的中央组件，并存储与Hive资源(如Hive表)相关的元数据。Spark在访问Hive表或添加和修改这些策略时尊重Qubole Metastore中存储的策略。

　　总之，我们实现了一个SQL标准访问控制层，该层与当今的Apache Hive或Presto中的层相同。以下各节详细介绍了体系结构，并提供了一个示例说明其工作原理。

三、建筑

　　授权逻辑嵌入在Spark Catalyst Framework 的分析器层内部。分析工具的规则负责解析“数据库”，“表”和“列”等实体。从计划中提取有关不同已解析实体的信息，并将其传递给Hive 授权器，后者已经具有有关用户的信息。然后，Hive授权器使用Qubole Metastore中存在的安全策略执行资源级别检查，如果用户缺少抛出HiveAccessControlException的运行特权，则该查询将停止执行查询。

大数据分析