不管我们喜不喜欢,薪水在我们规划职业道路时扮演着重要的角色。因此,对CareerExplorer来说,尽可能准确地报告薪水是很万博全站端app重要的。通常,当一个人在调查某一职业的薪水时,为了得到尽可能准确的信息,他们可能会访问多个来源。在当今的大环境下,整合来自多个资源的信息已经变得越来越重要,并且是CareerExplorer计算薪资的核心。万博全站端app本文详细介绍了CareerExplorer如何将我万博全站端app们自己的内部数据与来自公开可用资源的外部数据组合在一起。
CareerExp万博全站端applorer如何计算薪水?
在CareerExplorer万博全站端app评估的整个过程中,当用户告诉我们他们过去的职业时,工资数据是从用户那里收集的。我们将这些数据合并到工资信息中,然后向其他用户报告,但在尝试这样做时存在一些困难。当Care万博全站端apperExplorer向我们的用户报告每个职业的薪水时,一种选择是取这些收集数据的平均值。然而,这是有问题的,因为我们可能没有收集到足够的数据点,以便有把握地报告某些职业的薪水。因此,我们分两步进行计算:
- 我们首先过滤掉那些我们认为是假的或粗心大意的数据。这篇博文没有涉及到这一步。
- 接下来,我们将自己的数据与来自的外部数据结合起来劳工统计局(BLS)。这篇博客文章详细说明了这个计算是如何进行的。
贝叶斯统计:
为了执行这个计算,调用了贝叶斯统计。简而言之,贝叶斯统计允许我们系统地平衡专家意见(来自BLS的外部薪资数据)等等我们自己的数据告诉我们(CareerExplorer收集的薪资数据)。万博全站端app
为了证明这一点,让我们从一个说明性的场景开始,在这个场景中,我们将收集到的数据与演员和焊工的工资进行比较:
职业生涯 | 接受调查的人数 | 平均工资 |
---|---|---|
演员 | 3人 | 350000美元 |
焊机 | 500人 | 85000美元 |
这两种职业中哪一种平均工资更高?单从收集的数据来看,我们不得不说演员的平均收入要比焊工高。
然而,大多数人直觉上不同意这个结果。上述报告结果值得怀疑,主要有两个原因:
- 被调查人数。我们不太确定演员的平均收入,因为我们只调查了三个人。或许其中一名受调查的人是一位自称年收入100万美元的著名名人,而另外两名受调查的人的收入较为合理,只有2.5万美元。相比之下,我们应该对焊工的价值报告感到更放心,因为我们有更多的受访者
- 大多数人的直觉会告诉他们,普通焊工的收入要比普通演员高。即使没有看到被调查的人数,上述结果仍然值得怀疑。
如果其他数据来源或“薪酬专家”告诉我们,薪酬应该是这样的,那么结果将进一步受到质疑:
职业生涯 | 专家薪酬意见 |
---|---|
演员 | 35000美元 |
焊机 | 120000美元 |
如果我们把自己的“平均工资”数据列在第一张表中,那是不负责任的。或者,我们不应该纯粹依靠专家的意见,因为我们已经为焊工收集了大量的数据,并且觉得我们对他们的收入有一个很好的想法。就像生活中的大多数事情一样,“正确答案”可能介于这两个选项之间。现在,问题变成了如何将“专家意见”与我们收集的数据结合起来?
方法论背后的直觉:
虽然上面的例子是人为设计的,但它很好地说明了这个问题。在专家意见和我们收集的数据之间取得平衡是很好的。下面是我们使用的方程的鸟瞰图:
该方法的核心是在各个因素之间进行谨慎的平衡AverageSalary我们的数据告诉我们ExpertOpinionOfSalary外部消息来源告诉我们的在上面的等式中,W数据控制我们在平均钱中放置的重量收集的数据。W越高数据我们就越重视数据。W的情况也是如此专家和ExpertOpinionOfSalary。随着我们收集的数据越来越多,W数据和W专家相应地改变。
让我们试着获得一些关于W的直觉数据和W专家随着我们收集更多数据,变化:
如果数据点(被调查的人数)的数量增加,W数据增加和W专家减少
如果收集的数据的“扩散”高,W数据减少和W专家增加
上面第一点已经讨论过了。随着数据点数量的增加,我们对结果的平均工资更有信心。这是有道理的!
第二点引入了“数据传播”的新概念。为了测量收集到的数据的分布情况,我们使用了一个叫做“方差”的统计概念。在上面给出的三个演员的例子中,其中一个演员的薪水非常高,数据非常分散。因此,该数据被称为具有高方差。由于存在较大的差异,我们对自己知道平均工资水平的信心减弱,而更多地依赖于专家意见。
导致的工资:
现在让我们来看看使用这种方法的一些结果:
职业生涯 | 数量的调查 | 平均工资 | 专家薪酬意见 | 综合工资 |
---|---|---|---|---|
演员 | 3. | 350000.0 | 35000 | 37800.0 |
焊机 | 500 | 85000.0 | 120000 | 85100.0 |
在上表中,我们可以看到,对于演员来说,由此产生的“综合薪酬”严重偏向于专家意见。这一结果非常棒,因为37800美元的平均工资比35万美元的平均工资要合理得多。正如前面所讨论的,由于我们收集的数据非常少,且方差很高,结果存在严重偏差。
相比之下,焊工被“平均工资”下收集的实际数据严重扭曲,因为有足够的数据支持这个结果。
现在,如果我们问另外497个演员他们的薪水,并且他们都报告说他们每年挣25,000美元,我们的数据会发生什么?
职业生涯 | 数量的调查 | 平均工资 | 专家薪酬意见 | 综合工资 |
---|---|---|---|---|
演员 | 500 | 26950.0 | 35000 | 27000.0 |
焊机 | 500 | 85000.0 | 120000 | 85100.0 |
首先要注意的是,考虑到额外的数据后,演员的“平均工资”发生了巨大的变化。其次,“合并工资”已经发生变化,变得更偏向“平均工资”,因为我们已经收集了足够的数据来改变我们对专家意见的看法。
事实上,我们已经收集了如此多的数据,以至于专家的意见几乎显得无关紧要。这是伟大的!我们相信专家的意见,直到收集到足够的证据表明并非如此。
进一步讨论:
到目前为止,我们已经看到了在收集的数据和专家意见之间进行平衡背后的直觉。为了清楚地看到这种方法的好处,让我们想象另一个由David Robinson设计的场景他的博客。在这里,我们假设一个棒球招聘人员的角色来比较这两个球员:
球员 | 本垒打数量 | 击球次数 | 全垒打百分比 |
---|---|---|---|
新秀莱恩 | 1全垒打 | 2次 | 50% |
经验丰富的维多利亚 | 400个本垒打 | 1000年的尝试 | 40% |
以上两名玩家中,谁更愿意招募?
此外,让我们用这样一个事实来提醒自己,我们认识一位棒球分析师,他告诉我们,任何球员的典型全垒打率都是5%,这是历史数据所显示的。我想大多数人会选择老将维多利亚,因为她已经接受了更多的测试,我们有更多的证据来支持她报告的本垒打百分比。相比之下,对于新秀瑞恩来说,我们只是还没有看到他打得足够多。
在我们的大脑中,我们一开始就对一个普通球员的能力有一个先入之见(5%的全垒打率)。除非我们收集到足够的数据,让我们改变想法,否则我们往往会坚持自己的信念。在老将维多利亚的例子中,我们有足够的证据来说服自己,她比一般的球员更好。但菜鸟瑞恩却不是这样。这正是贝叶斯统计允许我们在数学上做的。
贝叶斯方法的最后一个要素是“先验/专家方差”的概念。这些参数控制着我们的专家观点有多“确信”,以及为了改变我们的先验信念,我们必须提供多少证据。先验方差越高,我们就越不确定我们的先验信念,改变我们的想法所需的数据就越少。
有趣的是,一个赛季内所有球员的全垒打百分比最高记录是15.34%巴里·邦兹于2001年所著。有了这些额外的知识,如果我们不选择老兵维多利亚,那就太愚蠢了。
结论
在本文中,我们讨论了CareerExplorer如何使用贝叶斯统计数据将从用户那里收集到的工资万博全站端app数据与外部来源结合起来。这种方法在我们没有很多数据的情况下特别有用。在一个人没有很多“经验”或数据的情况下,依靠他人的意见是有意义的。当我们收集更多的数据时,我们开始更加信任我们收集的数据,而减少对专家输入的依赖。有趣的是,这种数学方法与人们推理问题的方法非常相似。无论如何,这种方法让我们对自己报告的薪水有了更高的信心。
在未来的博客文章中,我们计划详细介绍CareerExplorer用于向用户提供职业匹配的数学模型。万博全站端app
本文于2019年11月29日更新,并附有我们的新产品名称。