讲到要聘用数据科学家,最担心的大概就是所聘非人。数据科学家不仅是出了名的抢手、难以讨好,而且还得付出高额薪资,所以一旦聘错人,代价真是不小。我们的数据人才培训公司The Data Incubator已有数十家公司前来洽谈,想聘用曾接受培训的数据科学家。这些客户规模有大有小,大到如辉瑞药厂(Pfizer)和摩根大通(JPMorgan),也有规模较小的新创公司,如Foursquare和Upstart。公司如果聘用员工的经验还不够丰富,常常就问不到一个关键的问题:
你们的数据科学家,做的是机读分析(analytics for machines)还是人读分析(analytics for humans)?
这项区别无论任何公司、行业或职称(我们的学员受聘的职称种类繁多,从计量人员、数据科学家、分析师到统计员都有),都同样适用。遗憾的是,人事主管大多并不知道这些角色需要不同的才能及性格。
虽然数据科学家分类繁多,并不只有这一项,但就公司聘用来说,这是最大的重点之一。以下解释两者的差异及重要性:
机读分析人员:在这种情况中,最后是由计算机来使用分析结果、做出决定。例子包括像是供在线广告或网络内容来锁定用户、算法交易、产品推荐等等。
这些数据科学家做的是建立起非常复杂的模型,要输入极大量的数据,再从中找到很细微的迹象,供机器学习、推演复杂的算法。这些数字模型必须能自行运作,选择要显示哪些广告、对使用者做出建议,或是自动进行股市交易,常常在一眨眼间就已完成决定。
要产生可机读分析数据的数据科学家,必须有极强大的数学、统计及运算知识,才能打造速度快、预测准确的模型。他们通常会取得明确的数据(例如利润、点击数、采购额),再运用各种技术,打造出非常复杂而能够改善工作效能的模型。现实生活有几兆件的事件、几百万的使用者,就算只是小小的进步,也能让结果大大不同,因此这些人的工作能够让利润突飞猛进。
人读分析人员:在这种情况中,最后是由另一个人类来使用分析结果、做出决定。例子包括分析产品的效果、理解用户人数成长和留住顾客的成果、为客户写出报告等等。
虽然说他们和机读分析人员可能用的是同一套大数据,但他们的模型演算结果和预测最后是交给另一个人类(而且这个人通常并不是数据科学家),由这个人依据推荐来做出各种产品及业务上的决定。
从事人读分析的数据科学家,得想想如何用数据来说故事。因为他们得把结果解释给其他人听(特别是看不懂数据科学的人),所以他们很可能会刻意选择比较简单的模型,而不是那些虽然精准但太过复杂的模型。他们也必须能够提出一些较高层次的结论,像是「如何」和「为何」。这些问题并无法从数据中一眼得见,不像是那些机读分析人员能有明确的数据为依据。
对于这两种不同的工作,必须要分别找到对的人。我们发现,如果需要的是机读分析人员,这种数据科学家通常具有自然科学、数学或工程背景(常常具备博士教育水平),娴熟数学及计算机运算,才能应付这种高档次工作。如果员工缺少必需的技术技能,面对大量数据不是完全无法处理,就是使用了过度简化的模型,无法让数据真正发挥价值。
然而,如果是要找人读分析人员,上面的这种人却可能并不适合。如果找了一群麻省理工的物理学家,却规定他们只能用「简单」、主管听得懂的模型来做事,这可不算人尽其用(特别是这些人常常渴望机器学习那种高深的挑战)。另一方面,如果是社会学科或医学科学家(多半也需要博士等级),他们的训练让他们很能抓住「如何」和「为何」,常常也正是在相关难题上大显身手。
在过去,一般都是硬科学背景的数据科学家在媒体上受人注目。这种情况有一部分原因是对于未知的浪漫想象:一边是神秘的模型,能像魔法一样进行股票交易、或是立刻了解用户的喜好,听起来多么令人心动。而另一边则就是坐在那里想破头,思考着因果关系、取样偏误,还有数据里的「如何」和「为何」,听起来就是沉闷的工作。然而,后者却也可能是你真正需要数据科学家替你做的工作。在还没开始聘任过程前,只要先问一下这个关键问题,公司就能不随波逐流,而能真正针对自己的需要、寻得最符合的数据科学家。