中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

大數(shù)據(jù)預(yù)測(cè)打車(chē)費(fèi)用的方法論:數(shù)據(jù)分析和機(jī)器學(xué)習(xí),一個(gè)沒(méi)落下!

2018-11-01    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線(xiàn)!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

美國(guó)紐約的出租車(chē),因?yàn)榻y(tǒng)一、顯眼的黃色車(chē)身,被老美們戲稱(chēng)為“小黃車(chē)”。紐約小黃車(chē)是紐約客日常出行的主要交通工具之一,但對(duì)于大部分乘客而言,一定很想在上車(chē)之前就知道到達(dá)目的地的打車(chē)車(chē)費(fèi)是多少。于是,Emanuel Kamali就通過(guò)數(shù)據(jù)分析與建模,對(duì)紐約出租車(chē)車(chē)費(fèi)做出預(yù)測(cè),并且還發(fā)現(xiàn)了一些有趣的現(xiàn)象,快來(lái)一起看看吧。

 

 

項(xiàng)目簡(jiǎn)介

隨著科技發(fā)展不斷推動(dòng)各行業(yè)的信息化進(jìn)程,紐約標(biāo)志性的出租車(chē)小黃車(chē)們卻拖了后腿。在Uber、Lyft等共享出行平臺(tái)的競(jìng)爭(zhēng)下,小黃車(chē)也開(kāi)始和Google合作,讓自己的服務(wù)變得更加以數(shù)據(jù)為中心。小黃車(chē)希望Google可以通過(guò)它們提供的數(shù)據(jù),設(shè)計(jì)出一些新的功能從而進(jìn)行出租車(chē)價(jià)格的預(yù)測(cè)。這些數(shù)據(jù)信息包括:

上車(chē)時(shí)間/日期
上車(chē)地點(diǎn)(經(jīng)緯度)
下車(chē)地點(diǎn)(經(jīng)緯度)
乘客人數(shù)
費(fèi)用

項(xiàng)目目標(biāo)

紐約市出租車(chē)小黃車(chē)、Google和美國(guó)大數(shù)據(jù)競(jìng)賽平臺(tái)Kaggle合作,設(shè)置了一個(gè)數(shù)據(jù)應(yīng)用競(jìng)賽,讓想要“把玩”這些數(shù)據(jù)的玩家們可以嘗試通過(guò)這些數(shù)據(jù)集來(lái)設(shè)計(jì)一個(gè)機(jī)器學(xué)習(xí)算法,用以預(yù)測(cè)車(chē)費(fèi)。我們的目標(biāo)就是,通過(guò)分析這些數(shù)據(jù)集,設(shè)計(jì)出一些新的功能,讓新的數(shù)據(jù)可以在我們的算法和代碼中運(yùn)轉(zhuǎn),并最終得出預(yù)測(cè)車(chē)價(jià)。

探索數(shù)據(jù)

為了設(shè)計(jì)一個(gè)有效的機(jī)器學(xué)習(xí)模型,我們需要先做一些事情來(lái)保證模型是精確的。首先就需要對(duì)小黃車(chē)有更多的了解,所以我先做了一些研究,弄明白它的計(jì)費(fèi)模式。

起步價(jià):5美金
每公里價(jià)格:每1/5英里40美分
等待時(shí)的收費(fèi):每120秒40美分
去/從JFK機(jī)場(chǎng)打車(chē)的固定費(fèi)用:45美元
去/從Newark機(jī)場(chǎng)打車(chē)的額外收費(fèi):15美元(周中下午4到8點(diǎn))

于是我進(jìn)一步探索數(shù)據(jù),研究不同的時(shí)間點(diǎn)打車(chē)是否影響價(jià)格。在對(duì)數(shù)據(jù)進(jìn)行處理前,我先研究了一下打車(chē)價(jià)格數(shù)據(jù)的分布情況。

 

 

可以看到,這組數(shù)據(jù)是十分分散的,也就是說(shuō)我們的數(shù)據(jù)集里有很多異常值。我把這些異常值去除,可以更直觀地看到價(jià)格的分布情況。

 

 

上圖顯示,這組數(shù)據(jù)里的價(jià)格區(qū)間在2.5美元到40美元之間。

 

 

在對(duì)上下車(chē)地點(diǎn)的數(shù)據(jù)進(jìn)行清理后,我們仔細(xì)研究一下不同時(shí)間對(duì)價(jià)格的影響。

 

 

從上圖可以看出,周五周六和周四的乘車(chē)次數(shù)最多。這可以理解,因?yàn)樵诿绹?guó)人們周末通常會(huì)更多的使用出租車(chē)。如下圖,當(dāng)我們研究某一個(gè)給定日期內(nèi)不同時(shí)間點(diǎn)的平均價(jià)格時(shí),會(huì)發(fā)現(xiàn)并沒(méi)有太大的區(qū)別。

 

 

下圖是一天24小時(shí)的平均價(jià)格分布。橫軸代表了24小時(shí)。

 

 

接下來(lái),我的研究了一下打車(chē)人數(shù)數(shù)據(jù),發(fā)現(xiàn)有些蹊蹺的地方。一輛小黃車(chē)可以最多搭載7名乘客,但是在數(shù)據(jù)中我們只找到非常少的7人滿(mǎn)載搭車(chē)的情況。另外,還有一些數(shù)據(jù)顯示搭載人數(shù)為0,這也不合常理。于是這些數(shù)據(jù)可以被篩選清理掉。

 

 

去除掉0名乘客和大于6名乘客的數(shù)據(jù)后,我們得到一個(gè)更加真實(shí)的圖像。

 

 

從下圖可以看到,乘車(chē)人數(shù)和對(duì)應(yīng)的價(jià)格的區(qū)別并不是很大。

 

 

有趣的發(fā)現(xiàn)

研究完了小黃車(chē)一天不同時(shí)間的不同價(jià)格,我開(kāi)始研究為什么這幾年打車(chē)價(jià)格不斷上升。我把指標(biāo)改為年-月的計(jì)量單位。這樣我可以看到不同年份的價(jià)格變化。

 

 

從上圖可以看到,2012-13年期間價(jià)格有一個(gè)高點(diǎn)。下圖是每個(gè)月的價(jià)格情況。

 

 

從中也可以看到2012-13年的價(jià)格飆漲。作為一個(gè)數(shù)據(jù)科學(xué)家,這是我想要進(jìn)一步挖掘的發(fā)現(xiàn)。我在網(wǎng)上搜索后發(fā)現(xiàn),2012年9月3日一篇紐約時(shí)報(bào)文章對(duì)當(dāng)時(shí)紐約車(chē)費(fèi)的上漲做過(guò)報(bào)道。

本次的車(chē)費(fèi)預(yù)測(cè)研究簡(jiǎn)單總結(jié)如下:

紐約的出租車(chē)管理機(jī)構(gòu)在當(dāng)時(shí)批準(zhǔn)了新的計(jì)價(jià)方法,并開(kāi)始允許出租車(chē)運(yùn)營(yíng)機(jī)構(gòu)使用新方法,并導(dǎo)致費(fèi)率上漲了17%。
基礎(chǔ)車(chē)費(fèi)的起步價(jià)沒(méi)有變化。
每1/5英里的價(jià)格從40美分漲到50美分
JFK機(jī)場(chǎng)到曼哈頓的價(jià)格漲了7美元,到52美元
Newark機(jī)場(chǎng)從15美元漲到了5美元

機(jī)器學(xué)習(xí)

在我清理了數(shù)據(jù)、將上下車(chē)地點(diǎn)數(shù)據(jù)換算成里程公里數(shù)后,我開(kāi)始將數(shù)據(jù)輸入到我的機(jī)器學(xué)習(xí)模型中。我使用了三種模型:多重線(xiàn)性回歸,隨機(jī)森林實(shí)現(xiàn)以及GBR(gradient boosting regression)。

我使用均方根誤差(RMSE, root mean square error)來(lái)判斷哪個(gè)模型表現(xiàn)最佳。在展示結(jié)果前,我們先看一看隨機(jī)森林和GBR的模型的不同。

 

 

對(duì)于隨機(jī)森林,最關(guān)鍵的影響因子是Haversine-dist,也就是上下車(chē)地點(diǎn)間的距離。其他的因素影響很小。

 

 

而對(duì)于GBR而言,Haversine-dist也是很重要,但是其他的包括上車(chē)地點(diǎn)、下車(chē)地點(diǎn)也很重要。

對(duì)于這兩個(gè)模型,乘客數(shù)看起來(lái)都不怎么重要。

 

 

從最終結(jié)果看,隨機(jī)森林模型表現(xiàn)最好。它的均方根誤差為2.418左右,這意味著當(dāng)我們的模型算出一個(gè)預(yù)測(cè)值時(shí),最終真實(shí)的價(jià)格可能只相差2.418美元。

項(xiàng)目研究的更多可能

今后還可以做更多的嘗試,來(lái)提高準(zhǔn)確度。比如,如果我們可以把去機(jī)場(chǎng)的車(chē)和其他地點(diǎn)的車(chē)分隔開(kāi),就可以進(jìn)一步研究在紐約市打車(chē)的人們都去了哪里。

如果你需要查閱本文可視化代碼和機(jī)器學(xué)習(xí)模型,請(qǐng)前往作者Kamali的GitHub。

(以上內(nèi)容編譯自紐約數(shù)據(jù)科學(xué)院博客Predicting NYC Yellow Cab Taxi Fare,僅代表作者觀點(diǎn))

Emanuel Kamali,紐約州立大學(xué)賓漢姆頓大學(xué)藝術(shù)與應(yīng)用數(shù)學(xué)專(zhuān)業(yè)畢業(yè),除了喜歡研究機(jī)器學(xué)習(xí)外,還對(duì)講述故事以及數(shù)據(jù)科學(xué)的創(chuàng)造性一面非常感興趣。

 

 

關(guān)于DT×NYCDSA

DT財(cái)經(jīng)與紐約數(shù)據(jù)科學(xué)學(xué)院是戰(zhàn)略合作伙伴。DT×NYCDSA 系合作開(kāi)設(shè)的系列專(zhuān)欄。

標(biāo)簽: Google 大數(shù)據(jù) 代碼 數(shù)據(jù)分析 搜索 信息化

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:手把手用Python教你分析運(yùn)籌學(xué)薪資狀況

下一篇:從A到Z,26個(gè)實(shí)用Python模塊/函數(shù)速覽