中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一位數(shù)據(jù)科學(xué)家的獨(dú)白

2020-12-04    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用
作者:Jingles

譯者:李冬梅

最近幾年,云的出現(xiàn)以及企業(yè)紛紛向互聯(lián)網(wǎng)轉(zhuǎn)型導(dǎo)致了數(shù)據(jù)大爆炸。因此,數(shù)據(jù)科學(xué)家在市場(chǎng)上供不應(yīng)求。

據(jù)《哈佛商業(yè)評(píng)論》稱,21 世紀(jì)數(shù)據(jù)科學(xué)家是最性感的職業(yè)。他們每天暢游在大數(shù)據(jù)的海洋里,與 AI 和深度學(xué)習(xí)為伴,探索并發(fā)現(xiàn)撬動(dòng)世界變革的力量。 而在真正的數(shù)據(jù)科學(xué)家眼中,他們對(duì)自己的認(rèn)知卻和外界有所不同,下文是來自一位數(shù)據(jù)科學(xué)家的自白。

過去 5 年,我一直從事“ 數(shù)據(jù)科學(xué)家 ”這個(gè)工作,人們都覺得這個(gè)工作“很性感”,但其實(shí)我始終弄不明白到底哪兒“性感”?赡艹宋倚聽C的頭發(fā)看起來有點(diǎn)像韓國歐巴外,其他的都和性感這個(gè)詞不沾邊兒。

那么,我就先來為大家揭秘?cái)?shù)據(jù)科學(xué)家每天要做的工作有哪些?

通過分析 LinkedIn 上的職位發(fā)布我得出了以下內(nèi)容,我總結(jié)了一些最為日常的工作內(nèi)容:

了解業(yè)務(wù)和客戶,對(duì)假設(shè)問題進(jìn)行驗(yàn)證;

建立預(yù)測(cè)模型和機(jī)器學(xué)習(xí)流水線,進(jìn)行 A / B 測(cè)試;
歷史數(shù)據(jù)的分析挖掘:包括跟各種產(chǎn)品線相關(guān)的業(yè)務(wù)分析,用戶畫像,用戶行為分析,用戶留存分析等;
開發(fā)算法為業(yè)務(wù)線賦能;
進(jìn)行實(shí)驗(yàn)并研究新技術(shù)和方法,提高技術(shù)能力;

這些工作聽起來是不是很性感?

而這些,僅僅是數(shù)據(jù)科學(xué)家工作的“冰山一角”。

在 CrowdFlower 的一份調(diào)查中揭露了數(shù)據(jù)科學(xué)家每天的日常工作:

 

 

通常,我們認(rèn)為數(shù)據(jù)科學(xué)家每天都在構(gòu)建算法、研究數(shù)據(jù)并進(jìn)行預(yù)測(cè)分析。從上表中可以看出,這并不是他們的主要工作內(nèi)容,實(shí)際上他們大部分時(shí)間都在收集數(shù)據(jù)集、清理和管理數(shù)據(jù)。

為什么需要高效的數(shù)據(jù)清理專家?

數(shù)據(jù)湖是存儲(chǔ)公司所有數(shù)據(jù)的集中存儲(chǔ)庫。企業(yè)或組織可以使用數(shù)據(jù)湖中的數(shù)據(jù)來構(gòu)建機(jī)器學(xué)習(xí)模型和儀表板。但令人不解的是,有人把數(shù)據(jù)湖當(dāng)成了數(shù)據(jù)存儲(chǔ)中轉(zhuǎn)站,或者是超大硬盤。

許多組織最初實(shí)施數(shù)據(jù)湖時(shí),對(duì)如何處理收集中的數(shù)據(jù)一無所知。他們不明就里地去收集一切數(shù)據(jù),根本不去考慮其實(shí)際用途。盡管數(shù)據(jù)湖的核心作用是將公司的所有數(shù)據(jù)集中在一個(gè)地方,但需要根據(jù)特定的項(xiàng)目需求對(duì)數(shù)據(jù)湖進(jìn)行定制化設(shè)計(jì)。不進(jìn)行合理規(guī)劃就像創(chuàng)建一個(gè)新的“未命名文件夾 ”,然后在其中復(fù)制并粘貼公司所有數(shù)據(jù),到頭來只會(huì)變?yōu)橐粓F(tuán)亂麻。

及時(shí)清理數(shù)據(jù)是十分必要的。其實(shí),數(shù)據(jù)科學(xué)家并不喜歡處理雜亂的數(shù)據(jù),所以他們不得不花費(fèi)很長的時(shí)間來進(jìn)行數(shù)據(jù)清理、數(shù)據(jù)標(biāo)記和數(shù)據(jù)精練。在調(diào)查數(shù)據(jù)科學(xué)家最不喜歡做的工作排名時(shí),我們得到了這樣的結(jié)論:他們最不喜歡的,也是花費(fèi)時(shí)間最長的工作就是清理和管理數(shù)據(jù)。

 

 

數(shù)據(jù)科學(xué)家最不喜歡的工作內(nèi)容排名

“臟數(shù)據(jù)”無所不在

每個(gè)處理數(shù)據(jù)的人都應(yīng)該聽說過“ 臟數(shù)據(jù)”一詞。因?yàn)樵紨?shù)據(jù)存在各種各樣的問題,如篡改數(shù)據(jù)、數(shù)據(jù)不完整、數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)、數(shù)據(jù)存在錯(cuò)誤、異常數(shù)據(jù)等,這些情況我們統(tǒng)稱為存在“臟數(shù)據(jù)”。“臟數(shù)據(jù)”的存在不僅浪費(fèi)時(shí)間,而且可能導(dǎo)致最終分析有誤。

數(shù)據(jù)不完整是指某些基礎(chǔ)特征缺失。例如,假設(shè)你的任務(wù)是預(yù)測(cè)房價(jià),在這其中“房子的面積”對(duì)于預(yù)測(cè)房價(jià)來說至關(guān)重要,但是如果這部分信息缺失,這項(xiàng)任務(wù)很可能就無法完成,因此模型的效果也就會(huì)不佳。

數(shù)據(jù)不準(zhǔn)確和不一致是指數(shù)值在技術(shù)上是正確的,但放在場(chǎng)景中就是錯(cuò)誤的。例如,一名員工變更了他的地址,但是并未及時(shí)更新,或者某一組數(shù)據(jù)有多個(gè)副本,但是數(shù)據(jù)科學(xué)家使用的版本是過時(shí)的版本,這些都指的是數(shù)據(jù)的不準(zhǔn)確和不一致。

重復(fù)數(shù)據(jù)是一個(gè)普遍的問題。我與大家分享下我在一家電商公司發(fā)生的一件事。根據(jù)設(shè)計(jì),當(dāng)訪問者單擊“領(lǐng)取優(yōu)惠券”按鈕時(shí),網(wǎng)站會(huì)響應(yīng)到服務(wù)器上,隨后我們就能計(jì)算出有多少用戶收集到了優(yōu)惠券。

網(wǎng)站一直運(yùn)行良好,但突然有一天網(wǎng)站發(fā)生了點(diǎn)狀況,而我卻對(duì)此一無所知。前端開發(fā)人員在有人成功領(lǐng)取優(yōu)惠券時(shí)添加了另外一個(gè)響應(yīng),理由是某些優(yōu)惠券可能缺貨。他們新添加的另外一個(gè)響應(yīng)是想跟蹤單擊該按鈕的訪問者以及已經(jīng)領(lǐng)取完優(yōu)惠券的訪問者。

在添加完新的響應(yīng)后,兩個(gè)響應(yīng)結(jié)果都發(fā)到了同一個(gè) log 表中。等我再查看我的報(bào)告工具時(shí),發(fā)現(xiàn)領(lǐng)取的優(yōu)惠券的數(shù)量似乎在一夜之間翻了一番!在前一天部署模型時(shí),我還天真地以為我的新模型會(huì)很完美,但后來我才意識(shí)到我只是做了重復(fù)計(jì)算。

 

 

數(shù)據(jù)科學(xué)家最應(yīng)該掌握的十大技能

除了數(shù)據(jù)清理和管理,數(shù)據(jù)科學(xué)家還要做什么?

這個(gè)世界每天都充斥著海量的數(shù)據(jù),有的來自人工輸入,有的來自機(jī)器日志,但無論是那種數(shù)據(jù),數(shù)據(jù)整理都是現(xiàn)實(shí)世界中數(shù)據(jù)科學(xué)家工作的重要部分。為了使監(jiān)督學(xué)習(xí)更加有效,我們需要可靠的、帶有標(biāo)簽的數(shù)據(jù),標(biāo)記錯(cuò)誤的數(shù)據(jù)無法建立預(yù)訓(xùn)練模型,但問題在于,沒有人喜歡這項(xiàng)繁雜的、枯燥的數(shù)據(jù)標(biāo)記工作。

許多人將數(shù)據(jù)科學(xué)家的工作描述為 80/20 原則。也就是說他們會(huì)用 20%的時(shí)間來構(gòu)建模型,而其他 80%的時(shí)間用于收集、分析、清理和重組數(shù)據(jù)。處理臟數(shù)據(jù)是數(shù)據(jù)科學(xué)家工作中最耗時(shí)的部分。

盡管這項(xiàng)工作做起來很讓人厭煩,但數(shù)據(jù)清理在任何一個(gè)項(xiàng)目中都是十分重要的,凌亂的數(shù)據(jù)不會(huì)產(chǎn)生好的結(jié)果,就像很多人都聽過一句話“輸入的是垃圾,得到的也會(huì)是垃圾”。

如果要來對(duì)我的工作進(jìn)行個(gè)總結(jié),我會(huì)認(rèn)為我是 40% 的數(shù)據(jù)清潔工、40% 的數(shù)據(jù)管理員,最后 20% 的…算命先生,因?yàn)槲疫要在出現(xiàn)問題時(shí)進(jìn)行診斷和分析,找出癥結(jié)所在。

參考鏈接:

https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845

標(biāo)簽: 數(shù)據(jù) 蒲Ъ

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:實(shí)時(shí)可視化Debug:VS Code 開源新工具,一鍵解析代碼結(jié)構(gòu)

下一篇:疫情期間自我提升指南:十大資源,為你鋪平數(shù)據(jù)科學(xué)家之路!