O’Reilly 近日发布了2016数据科学从业者薪酬调查报告(2016 Data Science Salary Survey),调查报告表明:

相比其它工具,使用Python和 Spark的人薪水更高。

  • SQL, Excel, R 和 Python 最常用的工具.

  • 开会越多的人,通常薪水也越高。

  • 同样的工作,女性比男性从业者的工资少。

  • R 被广泛使用:既包括不怎么编码的分析师,也包括了使用大量开源工具的工程师。

编程语言

大多数人使用SQL,SQL是数据科学从业人员必备技能。超过一半的人使用R和Python。Scala(Spark系统需要使用Scala)只有8%的人会使用,有点小众,但是薪水属于最高。

关系型数据库

关系型数据库(包括了MPP数据库)使用者都比较平均。可能是开源的影响,MYSQL、POSTGRESQL相对来说使用者比较多。和开源数据库相比,一些商用数据库从业者薪水都比较高,比如Oracle Exascale、Aster Data 、Teradata。 值得关注的是由于云计算的兴起,云端数据仓库Redshift也有一定的使用者,并且他们也有不俗的薪水。

Hadoop

相比使用Hadoop厂商的产品,更多的人在使用Apache Hadoop。同时采用EMR(Hadoop云端服务)和使用Hortonworks的人差不多。Hadoop使用者薪水差别不大,EMR略高。MapR使用者比较少,但是薪水待遇最高。

数据管理/大数据平台

Spark作为大数据新星,21%的人在使用,传统的Hive仍旧有20%的使用,Redshift被提到了两次(上面关系型数据库也提到了Redshift),也就说它既被用于数据仓库,也被用于数据管理大数据平台。薪水方面比较平均,Storm略高一点。

电子表格/BI/报表

BI工具方面,Excel使用最广泛。薪水方面,Qlikview最高。

机器学习

SCIKIT-LEARN(python机器学习包)使用者最多,Spark MLLib占到第二位。薪水方面Mahout,H2O、Spark MLLib比较高。

Title


数据科学家的Title最多,还有相当一部分人作为管理者从事数据科学工作。薪水方面管理者摇摇领先,架构师Title薪水也很高。数据科学家的Title很好听,但是薪水方面并不是最好。

工作任务

一半以上的调查者的主要工作是做基本的探索性分析、利用数据分析研究问题、和抉择者沟通研究结果、清理数据。接近一半的调查者每天在做数据可视化、识别商业问题等。

本文只是对一些重要内容进行了摘要和解读,更详细内容见原文报告:

http://www.oreilly.com/data/f…

本文同时发表在个人博客:云端漫步/SF专栏:云端漫步。