每当您去进行大数据分析面试时,面试官都会问一些基本的问题。无论您是大数据分析领域的新手还是经验丰富的人,都需要具备基本知识。因此,AAA教育整理了一些常见的基本大数据分析面试问题,和大家分享一下:
一、您对“大数据分析”一词有什么了解?
答: 大数据分析是与复杂和大型数据集相关的术语。关系数据库无法处理大数据分析,这就是为什么使用特殊的工具和方法对大量数据执行操作的原因。大数据分析使公司能够更好地了解其业务,并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据分析还使公司能够在数据的支持下做出更好的业务决策。
二、大数据分析的五个V是什么?
答:大数据分析的五个V如下:
卷–卷表示卷的数量,即以高速率增长的数据量,即以PB为单位的数据量
速度–速度是数据增长的速度。社交媒体在增长数据的速度中起着重要作用。
多样性–多样性是指不同的数据类型,即各种数据格式,例如文本,音频,视频等。
准确性–准确性是指可用数据的不确定性。由于大量数据带来不完整和不一致,因此会出现准确性。
价值–价值是指将数据转化为价值。通过将访问的大数据分析转化为价值,企业可以创造收入。
5 V的大数据分析
注意: 这是大数据分析采访中提出的基本且重要的问题之一。如果您看到面试官有兴趣了解更多信息,则可以选择详细解释五个V。但是,如果询问“大数据分析”一词,甚至可以提及这些名称。
三、告诉我们大数据分析和Hadoop之间的关系。
答: 大数据分析和Hadoop几乎是同义词。随着大数据分析的兴起,专门用于大数据分析操作的Hadoop框架也开始流行。专业人士可以使用该框架来分析大数据分析并帮助企业做出决策。
注意: 在大数据分析采访中通常会问这个问题。 Ÿ欧可以进一步去回答这个问题,并试图解释的Hadoop的主要组成部分。
四、大数据分析分析如何有助于增加业务收入?
答:大数据分析对于企业来说已经变得非常重要。它可以帮助企业与众不同,并增加收入。通过预测分析,大数据分析为企业提供了定制的建议。此外,大数据分析使企业能够根据客户的需求和偏好推出新产品。这些因素使企业获得了更多收入,因此公司正在使用大数据分析。通过实施大数据分析,公司的收入可能会大幅增长5-20%。一些使用大数据分析来增加收入的受欢迎的公司是-沃尔玛,LinkedIn,Facebook,Twitter,美国银行等。
五、解释部署大数据分析解决方案应遵循的步骤。
答:以下是部署大数据分析解决方案的三个步骤:
1、资料提取
部署大数据分析解决方案的第一步是数据摄取,即从各种来源提取数据。数据源可以是Salesforce之类的CRM,SAP之类的企业资源计划系统,MySQL之类的RDBMS或任何其他日志文件,文档,社交媒体源等。可以通过批处理作业或实时流来提取数据。然后将提取的数据存储在HDFS中。
部署大数据分析解决方案的步骤
2、数据存储
提取数据后,下一步是存储提取的数据。数据可以存储在HDFS或NoSQL数据库(即HBase)中。HDFS存储适用于顺序访问,而HBase适用于随机读取/写入访问。
3、数据处理
部署大数据分析解决方案的最后一步是数据处理。数据通过Spark,MapReduce,Pig等处理框架之一进行处理。
六、定义HDFS和YARN的各个组件
答: HDFS的两个主要组成部分是-
NameNode –这是主节点,用于处理HDFS中数据块的元数据信息
DataNode / Slave节点–这是一个充当从节点存储数据以供NameNode处理和使用的节点
除了满足客户端请求之外,NameNode还执行以下两个角色之一:
CheckpointNode –它运行在与NameNode不同的主机上
BackupNode-这是一个只读的NameNode,其中包含文件系统元数据信息(不包括块位置)
YARN的两个主要组成部分是:
ResourceManager –此组件接收处理请求,并根据处理需要相应地分配给相应的NodeManager。
NodeManager –在每个数据节点上执行任务
答: 由于数据分析已成为业务的关键参数之一,因此,企业正在处理大量的结构化,非结构化和半结构化数据。在Hadoop以其以下功能为主要角色的情况下,分析非结构化数据非常困难
存储
处理中
数据采集
此外,Hadoop是开源的,并且在商品硬件上运行。因此,它是企业的成本效益解决方案。
八、什么是fsck?
答: fsck代表文件系统检查。这是HDFS使用的命令。此命令用于检查不一致以及文件中是否存在任何问题。例如,如果文件缺少任何块,则HDFS将通过此命令得到通知。
九、NAS(网络附加存储)和HDFS之间的主要区别是什么?
答: NAS(网络附加存储)和HDFS之间的主要区别–
HDFS在计算机集群上运行,而NAS在单台计算机上运行。因此,数据冗余是HDFS中的常见问题。相反,对于NAS,复制协议是不同的。因此,数据冗余的机会要少得多。
对于HDFS,数据将作为数据块存储在本地驱动器中。对于NAS,它存储在专用硬件中。
十、格式化NameNode的命令是什么?
答案: $ hdfs namenode -format
填写下面表单即可预约申请免费试听!怕钱不够?可先就业挣钱后再付学费! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可推荐就业!
©2007-2022/ www.aaa-cg.com.cn 北京漫动者数字科技有限公司 备案号: 京ICP备12034770号 监督电话:010-53672995 邮箱:bjaaa@aaaedu.cc