中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

都是數(shù)據(jù)科學家,為什么TA薪水比你高?

2018-12-05    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

同樣做數(shù)據(jù)科學,為什么有人賺得多,有人賺的少?為了科學地回答這個問題,Kaggle 進行了一項系統(tǒng)的調(diào)查。結(jié)果表明,行業(yè)、經(jīng)驗、掌握的數(shù)據(jù)類型等是影響數(shù)據(jù)科學家薪酬的主要因素。行業(yè)是自己選的,經(jīng)驗是自己攢的,這些都沒啥好說的。至于數(shù)據(jù)類型,你會的更高級就賺得越多。

如何提高薪酬?本文作者從 2018 年 Kaggle ML & DS 調(diào)查問卷中總結(jié)出 124 條「該做」和「不該做」之事。

做什么能為你的數(shù)據(jù)科學職業(yè)生涯加碼?很多人已經(jīng)非常清楚鞏固數(shù)據(jù)科學職業(yè)和加薪的重要因素。但我從沒有見過一個系統(tǒng)的、基于數(shù)據(jù)的方法來回答這個問題。所以我想通過建模來解釋「哪些因素可以提高數(shù)據(jù)科學家的市場價值」。有些你可能已經(jīng)了解,但有些可能真的有助于你加薪呢~

完整研究報告及代碼地址:

https://www.kaggle.com/andresionek/what-makes-a-kaggler-valuable

根據(jù)數(shù)據(jù)估計薪酬

我們只能做這種研究,因為 Kaggle 已經(jīng)發(fā)布了其第二次年度機器學習和數(shù)據(jù)科學調(diào)查的數(shù)據(jù)。該調(diào)查于 2018 年 10 月展開,耗時一周,共獲得 23859 份回復。結(jié)果包括一些原始數(shù)據(jù),如什么人在研究數(shù)據(jù)、不同行業(yè)中機器學習的情況、新數(shù)據(jù)科學家進入該領(lǐng)域的最佳方式。

有了這些數(shù)據(jù),我們想了解影響 Kaggler 薪酬的因素(我們把回復調(diào)查的人稱之為 Kaggler)。我們想讓你了解什么對市場更有價值,這樣你就可以停止把時間花在投資回報率(ROI)低的事情上,并加速獲得更高的報酬。根據(jù)這些從數(shù)據(jù)中提煉出來的見解,我希望你有一天能夠像 Babineaux 一樣——躺在錢堆上。

 

 

Huel Babineaux,《絕命毒師》和《風騷律師》中的角色。圖源:AMC

在進入正題之前,我們可以先做一些基本的探索性數(shù)據(jù)分析(EDA)。首先看一下大家的薪水↓↓

 

 

數(shù)據(jù):Kaggle 第二次年度機器學習和數(shù)據(jù)科學調(diào)查。圖表:作者

薪酬主要集中分布在較低的水平范圍內(nèi)(每年 1 萬美元),在 10 萬美元左右還有另一個高峰。很多學生也填寫了這份調(diào)查問卷,看看他們賺多少?

 

 

數(shù)據(jù):Kaggle 第二次年度機器學習和數(shù)據(jù)科學調(diào)查。圖表:作者

不出所料,學生們賺得不多,因為他們還沒有正式工作。既然如此,我們可以把學生從數(shù)據(jù)中剔除并確定收入前 20% 的 Kaggler 薪酬是多少。

 

 

數(shù)據(jù):Kaggle 第二次年度機器學習和數(shù)據(jù)科學調(diào)查。圖表:作者

根據(jù)這些數(shù)據(jù),我們定義了用于建模的目標變量,如下:

我們將計算一個 Kaggler 年收入超過 10 萬美元的概率。

數(shù)據(jù)科學中的性別不平衡

在繼續(xù)建模之前,我想告訴你的是,在收入最高的 20%Kaggler 中存在性別不平衡,但是其余的 80% 中不存在這種現(xiàn)象。這意味著男性高管的薪資要高于女性。如下圖所示:

 

 

數(shù)據(jù):Kaggle 第二次年度機器學習和數(shù)據(jù)科學調(diào)查。圖表:作者

預測模型

為了創(chuàng)建模型,我們從 29 個問題中提取了 138 個可以解釋高薪的特征。經(jīng)過一定的數(shù)據(jù)清洗之后,我們運行了 Logistic 回歸和隨機森林模型。

經(jīng)過評估,我們發(fā)現(xiàn) Logistic 回歸表現(xiàn)更好。該模型在提取特征系數(shù)方面也具有優(yōu)勢。這可以幫助我們理解每個特征對(收入最高的 20%Kaggler)最終結(jié)果有何貢獻。我們做了欠采樣、交叉驗證及網(wǎng)格搜索,代碼見完整版調(diào)查報告。

### -- ### -- LogisticRegression -- ### -- ###
MODEL PERFORMANCE ON TEST DATA*
Accuracy: 0.8167438271604939
AUC: 0.8963917030007695
Confusion Matrix:
[[1817 411]
[ 64 300]]
Type 1 error: 0.18447037701974867
Type 2 error: 0.17582417582417584

 

模型性能:薪水前 20% 和后 80% 的預測分數(shù)。數(shù)據(jù):Kaggle 第二次年度機器學習和數(shù)據(jù)科學調(diào)查。

 

幫你加薪的幾個方法

選擇特征之后,我們的模型總共有 124 個特征。從它們的系數(shù)我們總結(jié)了幾點幫你加薪的建議。

我們模型的截距是 0。這意味著每個人都是從 0 分開始的。接下來你可以在你分數(shù)的基礎(chǔ)上加分或減分,這取決于你針對每個問題給出的答案。

正系數(shù):系數(shù)為正表示肯定的答案有助于你擠進前 20%

負系數(shù):系數(shù)為負表示肯定的回答不利于你擠進前 20%

 

模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機器學習和數(shù)據(jù)科學調(diào)查。圖表:作者

 

學生身份可能是挫敗感強、薪水低的一個原因。走出學校門找份工作吧!做一名數(shù)據(jù)科學家很不錯,但軟件工程師薪水更高。為什么不去做一名 B 型數(shù)據(jù)科學家(注:B 型數(shù)據(jù)科學家具有很強的編程能力,可能是經(jīng)過訓練的軟件工程師。詳見:https://medium.com/@jamesdensmore/there-are-two-types-of-data-scientists-and-two-types-of-problems-to-solve-a149a0148e64)并將模型部署到生產(chǎn)中呢?

 

 

模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機器學習和數(shù)據(jù)科學調(diào)查。圖表:作者

如果想致富,不要再待在學界/教育界了。從完整的 EDA 調(diào)查中可以看出,與其它領(lǐng)域相比,學界/教育界的平均薪水最低,模型的系數(shù)也佐證了這一點。作為對數(shù)據(jù)科學的未來最重要的領(lǐng)域之一,學界/教育的平均薪資水平居然最低,這讓人非常沮喪。如果你想多賺點錢,投身計算機/技術(shù)行業(yè)有利于你擠進薪水的前 20%。

 

 

模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機器學習和數(shù)據(jù)科學調(diào)查。圖表:作者

顯然,經(jīng)驗越豐富,賺得就越多。所以看開點,你不太可能憑借兩年經(jīng)驗就成為收入前 20% 的 Kaggler 之一。

 

 

模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機器學習和數(shù)據(jù)科學調(diào)查。圖表:作者

說到活動,試著構(gòu)建原型或機器學習服務(wù)。探索機器學習在新領(lǐng)域的應(yīng)用并利用它來改進產(chǎn)品或工作流,這也是離年入 10 萬美元更近一步的方法。

另一方面,如果你的工作主要是運用商業(yè)智能來分析和理解影響產(chǎn)品或商業(yè)決策的數(shù)據(jù),那就不要期望高薪了。運行數(shù)據(jù)基礎(chǔ)架構(gòu)也是如此。

使用云計算服務(wù)!習慣使用 AWS 或其它領(lǐng)先的云供應(yīng)商,如谷歌或微軟。

 

 

 

 

模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機器學習和數(shù)據(jù)科學調(diào)查。圖表:作者

有些機器學習框架可能會增加你的市場價值。學習并使用 SparkMLlib、Xgboost、TensorFlow 會讓你的簡歷更有分量。

 

 

模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機器學習和數(shù)據(jù)科學調(diào)查。圖表:作者

說到可能會增加薪酬的數(shù)據(jù)類型,不妨試著學學時間序列(Time Series)和地理空間數(shù)據(jù)(Geospatial Data)。所有人都在用數(shù)值型數(shù)據(jù)(Numerical Data),所以先學好基礎(chǔ)數(shù)據(jù),如果你想獲得高薪,那就去學習更高級的數(shù)據(jù)類型。

 

 

模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機器學習和數(shù)據(jù)科學調(diào)查。圖表:作者

原文鏈接:https://towardsdatascience.com/what-makes-a-data-scientist-valuable-b723e6e814aa

標簽: 代碼 谷歌 數(shù)據(jù)分析 搜索 云計算 云計算服務(wù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:轉(zhuǎn)型為一名數(shù)據(jù)科學家的正確打開方式

下一篇:大數(shù)據(jù)處理的關(guān)鍵技術(shù)及應(yīng)用