您好,欢迎来到[你躺赢]专精特新风口网,竭诚为您发布最新国家风口政策资讯!
首页>>风口行业 > 正文

引发我们哪些思考?大数据工程师的日常工作有哪些?

发布时间:2022-05-02 标签:
浏览:113

数据工程师工作内容取决于你工作在数据流的哪一个环节。

从数据上游到数据下游,大致可以分为:

数据采集 -> 数据清洗 -> 数据存储 -> 数据分析统计 -> 数据可视化 等几个方面

在工作岗位上,大数据工程师需要基于Hadoop,Spark等构建数据分析平台,进行设计、开发分布式计算业务。负责大数据平台(Hadoop,HBase,Spark等)集群环境的搭建,性能调优和日常维护。负责数据仓库设计,数据ETL的设计、开发和性能优化。参与构建大数据平台,依托大数据技术建设用户画像。

数据采集

业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。

数据清洗

原始的日志,数据是千奇百怪的

一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。

一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。

一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用*字符替换。

数据存储

清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。

数据分析统计

数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。

数据可视化

用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据~

标签:

热门文章

  • 千万别不当回事!7年期5.4%!江苏再保集团融资增信助力地方经济发展
    千万别不当回事!7年期5.4%!江苏再保集团融资增信助力地方经济发展

    千万别不当回事!7年期5.4%!江苏再保集团融资增信助力地方经济发展

    点击上方江苏国资可以订阅!近日,经国家发改委核准,由江苏再保集团提供增信担保的南京首支城市停车场建设专项债券成功发行,最终发行票面利率5.4%,创2018年AA/AAA企业债最低票面利率。本期债券发行金额11.5亿元,期限7年,发行人主体信用级别为AA级,债券信用级别为AAA级,认购倍数4.66倍,吸引超过53亿元资本金追捧本期...

  • 背后原因高端智能制造龙头企业
    背后原因高端智能制造龙头企业

    背后原因高端智能制造龙头企业

    智能制造上市公司有哪些?智能制造上市公司排名智能制造概念报涨,先惠技术(10 189%)领涨,瀚川智能(6 901%)、九芝堂(6 279%)、珠江钢琴(5 846%)、江中药业(4 741%)等跟涨。 智能智能制造概念报涨,先惠技术(10.189%)领涨,瀚川智能(6.901%)、九芝堂(6.279%)、珠江钢琴(5.846%)、江中药业(4.741%)等跟涨。智能制造上市公司有...

  • 千万别不当回事!G60科创走廊龙头崛起工业互联网高地
    千万别不当回事!G60科创走廊龙头崛起工业互联网高地

    千万别不当回事!G60科创走廊龙头崛起工业互联网高地

    ▲建成不久的长三角G60工业互联网创新应用体验中心。工业互联网是经济数字化,特别是制造业转型的重要引擎。作为全市首个工业互联网特色园区,上海临港松江科技城通过以高质量的产业服务和生态培育,用短短三年多时间集聚起一大批行业龙头与代表性企业,行业影响力和贡献度快速提升。一个工业互联网创新集群已在G60科创走廊...

  • 少之又少融资性信用保证保险如何更好修炼内功
    少之又少融资性信用保证保险如何更好修炼内功

    少之又少融资性信用保证保险如何更好修炼内功

    中国银行保险报网讯( 房文彬)近日,银保监会发布2021年9月保险业经营情况。数据显示,2021年前三季度保证保险原保费收入389亿元,同比下降29.87%。记者统计发现,该项指标自2021年1月起连续下滑。在保证保险业务负增长时期,险企是否具有经营好融资性信用保证保险的能力?如何更好修炼内功,让融资性信用保证保险业务更好...

  • 应该看看!智能制造专业前景如何?
    应该看看!智能制造专业前景如何?

    应该看看!智能制造专业前景如何?

    《中国制造2025》是中国实施制造强国战略第一个十年的行动纲领。由百余名院士专家着手制定,为中国制造业未来10年设计顶层规划和路线图,通过努力实现中国制造向中国创造、中国速度向中国质量、中国产品向中国品牌三大转变,推动中国到2025年基本实现工业化,迈入制造强国行列。一、我国智能制造业发展现状即将到来的2020年...

  • 引发我们哪些思考?大数据工程师的日常工作有哪些?
    引发我们哪些思考?大数据工程师的日常工作有哪些?

    引发我们哪些思考?大数据工程师的日常工作有哪些?

    数据工程师工作内容取决于你工作在数据流的哪一个环节。从数据上游到数据下游,大致可以分为:数据采集 -> 数据清洗 -> 数据存储 -> 数据分析统计 -> 数据可视化 等几个方面在工作岗位上,大数据工程师需要基于Hadoop,Spark等构建数据分析平台,进行设计、开发分布式计算业务。负责大数据平台(Hadoop,HBase,...

大数据产业

更多 >
广而告之大项目