大数据分析工作内容
时间:2021-09-26来源:www.aaa-cg.com.cn点击量:次作者:admin
时间:2021-09-26点击量:次作者:admin
对于刚接触大数据分析岗位的人来说,他们对大数据的定义概念都不了解,到底大数据分析的是什么、大数据分析了之后能得到什么、在学习大数据分析的时候应该把握怎样的线路路径、应该朝着哪个方向去发展才能获得更好的提升,以上这些就是大多数初次接触大数据分析人士最容易遇到的问题。
其实大数据分析没有大家所想象的那么难,从笼统的角度出发去理解,大数据分析师的日常工作包含数据采集、数据清洗、数据存储、数据分析、统计数据、可视化结论获得这几个方面,只要在以上流程中的每个阶段将不同体系和软件运用起来就能进一步展开分析,得到最终的结论。
第一,数据采集,数据采集一般来说会通过系统的埋点代码产生的原始日志来获得,可以利用flume监控接收这些分散的日志,将分散日志做聚合采集,如此就能得到对应的、可以被分析的数据。
第二,数据的清洗,初次获得的大数据是千奇百怪的,比如说有一些数据它是脏数据,也就是异常的数据值,有一些数据字段是多余的,根本就不需要用到这些数据来做分析,为了节省后期的存储空间应该将这些无效数据剔除掉。还有一些数据它会包含敏感的字眼,需要做脱敏处理,比如说像用户的姓名,一般来说只要保留他的姓、他的名字后两位应该用星号来替代,如此才算是完成了数据清洗的全流程。
第三,数据的存储,清洗后的数据可以直接放到hive,也就是数据仓库内部做存储。当然了,除了有hive这样的存储软件之外,还有像kafka存储软件,如果本身对数据的分析实时性要求比较高,将它放在kafka里面会更好一些。
第四,数据的分析和统计,数据分析算是数据从业流的下游,消费者是来自于上游的数据,你需要从日志记录中统计出各种各样的报表,简单的报表可以用sql软件来进行统计,复杂的报表就需要用到spark或者storm做统计的分析。
第五,数据可视化,简单来说就是用数据的表格、数据图等这些能让人直观感受到的方式呈现出数据结果,得到了结果之后就算是这一次分析的完结。顺带说一下,大数据分析所有的工作都是为了得到这个结果,这个结果如果跟实际情况一致的话就可以利用这一个结论为后期城市建设、企业KPI设定、员工管理提供帮助。
总的来说,大数据分析师的工作内容并不复杂,初学者可能确实要摸索一段时间,但如果是已经在这个工作岗位上做了三五年的人,往往只需要按照流程做不同时间点的鼠标点击,到了这个阶段就点击这个软件,到了下一个阶段就点击下一个软件,如此就能机械化展开有效分析,从业难度并不算特别大。