中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

手把手用Python教你分析運籌學薪資狀況

2018-11-01    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

由于近些年互聯(lián)網(wǎng)和計算機的發(fā)展,數(shù)據(jù)對于各個行業(yè)來說是一塊新的“金礦”,再加上近兩年人工智能的興起,數(shù)據(jù)的重要性更是越加的凸顯,因此一些新的職業(yè)比如數(shù)據(jù)挖掘工程師,算法工程師等成為一個新興的行業(yè)。那么經(jīng)過了這幾年的發(fā)展,這個行業(yè)在前景是怎樣的呢?既然是數(shù)據(jù)行業(yè),我們就用數(shù)據(jù)來說話吧。

首先我們來找一些數(shù)據(jù)的來源,對于我們普通人來說,最好的數(shù)據(jù)源自然是數(shù)據(jù)開源網(wǎng)站kaggle (https://www.kaggle.com/),那么我們就找了一個比較符合我們目標的數(shù)據(jù)集(https://www.kaggle.com/kaggle/kaggle-survey-2017)。這個數(shù)據(jù)集包含了很多信息,這里僅對其中的薪資分布做重點分析,其他更有趣的信息,各位同學可以自行參考本文進一步挖掘。

一、使用的工具及數(shù)據(jù)的處理

數(shù)據(jù)可以從上述提供的鏈接下載,本文主要通過python來進行數(shù)據(jù)的處理,主要的工具使用了jupyter,數(shù)據(jù)包包含python中的科學計算工具:numpy, pandas, matplotlib, seaborn, plotly等。

首先我們來分析一下數(shù)據(jù),由于數(shù)據(jù)不是很大,所以可以用最基本的Excel打開,其中最主要的文件是‘multipleChoiceResponses.csv’和‘conversionRates.csv’兩個文件,前者是主要的數(shù)據(jù)文件,后者是當時的一個貨幣匯率表,由于我們需要進行薪資對比,所以需要將各個國家的貨幣統(tǒng)一轉換為美元(USD)。

那么接下來首先將數(shù)據(jù)解壓后上傳到jupyter中,然后引入必要的包并導入數(shù)據(jù):

由于數(shù)據(jù)中有一些信息我們暫時用不到,同時還有匯率數(shù)據(jù)需要整合,所以先做一下數(shù)據(jù)的篩選和拼接:

這其中需要性別,國籍,年齡,全職/兼職,職業(yè),學位,年薪等。然后我們主要對全職的年薪感興趣,那么我們篩選這一部分數(shù)據(jù)出來,同時去掉一些信息空值的數(shù)據(jù)。

下一步我們觀察到數(shù)據(jù)中記錄的薪資是以字符串形式記錄的,那么我接下來將字符串轉換為數(shù)字并按照匯率數(shù)據(jù)統(tǒng)一轉換為美元。

這里主要的數(shù)據(jù)前期處理工作已經(jīng)可以結束了,但是在畫圖的時候發(fā)現(xiàn)中國有很多個名稱,我們需要將相關的數(shù)據(jù)合并,尤其需要注意的是,臺灣也應該算在中國范圍內(nèi)(特殊強調)。

接下來我們來看一下處理好的數(shù)據(jù):

 

 

由于數(shù)據(jù)中有一些信息我們暫時用不到,同時還有匯率數(shù)據(jù)需要整合,所以先做一下數(shù)據(jù)的篩選和拼接:

 

 

這其中需要性別,國籍,年齡,全職/兼職,職業(yè),學位,年薪等。然后我們主要對全職的年薪感興趣,那么我們篩選這一部分數(shù)據(jù)出來,同時去掉一些信息空值的數(shù)據(jù)。

 

 

下一步我們觀察到數(shù)據(jù)中記錄的薪資是以字符串形式記錄的,那么我接下來將字符串轉換為數(shù)字并按照匯率數(shù)據(jù)統(tǒng)一轉換為美元。

 

 

這里主要的數(shù)據(jù)前期處理工作已經(jīng)可以結束了,但是在畫圖的時候發(fā)現(xiàn)中國有很多個名稱,我們需要將相關的數(shù)據(jù)合并,尤其需要注意的是,臺灣也應該算在中國范圍內(nèi)(特殊強調)。

 

 

接下來我們來看一下處理好的數(shù)據(jù):

data_selected.head()

 

 

可以看到數(shù)據(jù)已經(jīng)規(guī)整的處理好了,那么數(shù)據(jù)的整體信息是什么樣的呢?

 

 

數(shù)據(jù)一共篩選出了3774條,一共有50個國家,其中人數(shù)最多的國家仍然是美國,年齡分布從0-100(這個年齡沒有做嚴格的篩選,肯定是有問題的)。

二、畫圖與數(shù)據(jù)分析

首先導入一些需要要用的包:

代碼示例

 

 

A . 女性能占半邊天?

先對性別的分布做一個統(tǒng)計:

 

 

 

 

可以明顯的看到對于數(shù)據(jù)行列來說,男性仍然占據(jù)著一個比較主導的地位,當然還有一些其他的性別,除了人為的填寫錯誤因素,那么我們真的需要承認現(xiàn)在的世界真是一個多元化的世界。

B . 一騎絕塵的美利堅

接下來統(tǒng)計一下各個國家的人員數(shù)量,由于數(shù)量過多,僅對前15名進行畫圖:

 

 

 

 

經(jīng)過這次統(tǒng)計,我們發(fā)現(xiàn)人數(shù)最多的的國家是美國,其次是印度和英國。不過這個結論還是比較符合我們認知的,不過奇怪的是英國和法國竟然人數(shù)在中國之上,但是也從另一個角度反映出,我們國家的數(shù)據(jù)行業(yè)的發(fā)展還處于未成熟的階段,國內(nèi)的人才缺口應該還是很大的。

為了更加直觀一些,我們用地圖來呈現(xiàn)一下:

 

 

C . 中堅力量還是年輕人

那么各個年齡段是如何分布的呢:

 

 

 

 

可以發(fā)現(xiàn)這個行業(yè)仍然是年輕人的主戰(zhàn)場,主要分布在30-40歲的范圍,不過這也不奇怪,因為數(shù)據(jù)分析的行業(yè)是一個新興行業(yè),年輕人更容易進入行業(yè)中,相信隨著行業(yè)的發(fā)展,年齡分布的中心有可能會向著40歲左右偏移,那時應該是更加穩(wěn)定的行業(yè)年齡結構。

D . 薪資起點高,差異化明顯

接下來我們來分析我們這次重頭戲,首先來對所有人員的薪資做一個整體的分布圖:

 

 

 

 

可以看到總體的薪資還是十分可觀,最高可以到$30000,不過大部分仍然是分布在低位的,這個差距從圖上看還是很大的,這不排除和不同國家的基本情況有關。一般來說發(fā)達國家的薪資水平要高于發(fā)展中國家,那么是那些國家的水平高,那些國家的水平低呢?

 

 

 

 

從圖中可以用看到美國是人數(shù)最多也是薪資最高的國家,說明美國在數(shù)據(jù)科學領域仍然是當之無愧的老大?梢钥吹较啾戎,中國和印度這些國家雖然人數(shù)上很多,但是整體的薪資卻十分不盡如人意。而一些歐洲的發(fā)達國家雖然人數(shù)不多但是薪資確實很讓人欣慰的。

那么結合性別我們再來看看分布情況:

 

 

 

 

可以看從薪資水平上,性別差別并不大,但是一些高工資部分還是男性主導,這有可能有一些主要管理崗位上還是男性居多,當然這只是一個猜測。

E . 最吃香的還是運籌學

接下來,數(shù)據(jù)科學領域有很多職業(yè),從這些職業(yè)上來看薪資是怎樣的呢:

 

 

 

 

可以看到運籌學從業(yè)者占據(jù)了最高的位置,數(shù)據(jù)科學家僅位居第二,建模工程師第三,軟件開發(fā)第四?傮w上看還是算法要比工程賺錢多。

最后我們結合各個國家,不同職位的人數(shù)是怎么樣的呢:

 

 

可以看到各個國家的分布結構還是差別很大的,美國是數(shù)據(jù)科學家最多,而中國則是機器學習工程師最多,其他國家的分布大致與美國相似,看來中國對人工智能的重視還是要遠高于其他國家的。

進一步用每個職位的人數(shù)的比例來更直觀的觀察一下各個國家的產(chǎn)業(yè)結構:

 

 

那么通過這個圖可以更加明顯的展示每個職位的比重,以每個國家排名前3的職位來看,雖然Data scientist作為大部分國家的主要職位,但是法國和西班牙是占比最多的國家,分別為43.7%和43%;而排名第二的多數(shù)是Data Analysis、Scientist Researcher,但是俄羅斯為Machine Learning engineer;排名第三的還出現(xiàn)了以印度為代表的Softwareengineer。從初步的分析結果上看基本符合各個國家的特點,比如在印度和巴西這樣的國家里,軟件工程一直占有比較大的比重。有一個值得注意的是,印度的機器學習排在第四位,那么可見亞洲國家對于機器學習比較重視,而歐美國家機器學習普遍偏低。

參考文獻

1. https://www.kaggle.com/rounakbanik/data-science-faq

2. https://www.kaggle.com/ash316/novice-to-grandmaster

3. https://www.kaggle.com/hakkisimsek/plotly-tutorial-1

標簽: 代碼 互聯(lián)網(wǎng) 排名 數(shù)據(jù)分析

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:未來互聯(lián)網(wǎng)+大數(shù)據(jù)時代,DT革命互聯(lián)網(wǎng)大數(shù)據(jù)應用簡析

下一篇:大數(shù)據(jù)預測打車費用的方法論:數(shù)據(jù)分析和機器學習,一個沒落下!