中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Uber 2019 年數(shù)據(jù)平臺建設(shè)實(shí)踐

2019-12-26    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Nikhil Joshi Viv Keswani 譯者:Sambodhi 來源:InfoQ

Uber 的外賣服務(wù) (Uber Eats) 自 2015 年 12 月在多倫多推出以來,已經(jīng)在全球超過 40 個國家 400 個城市上線并持續(xù)快速發(fā)展。再加上其他業(yè)務(wù),就構(gòu)成了如此龐大的業(yè)務(wù),如果 Uber 的數(shù)據(jù)平臺做不到信息智能化,很難想象如何支撐起這樣龐大規(guī)模的業(yè)務(wù)。本文翻譯并分享 Uber 是如何做到數(shù)據(jù)平臺智能化的。

對 Uber 來說, 2019 是繁忙的一年,包括:迎來了第十億單 Uber 外賣訂單;在平臺上,自行車和兩輪電動車的外賣騎手覆蓋了 2400 萬英里;以及前往帝國大廈、埃菲爾鐵塔和金門大橋等熱門景點(diǎn)的旅行。然而,在所有這些活動的背后,都有一個關(guān)于數(shù)據(jù)的故事,以及我們?yōu)橹С制脚_服務(wù)而對數(shù)據(jù)基礎(chǔ)設(shè)施進(jìn)行的創(chuàng)新。

在我們現(xiàn)有的規(guī)模和全球范圍內(nèi),對 Uber 平臺的全天候支持意味著高達(dá)數(shù)拍字節(jié)(petabytes,PB)級別的數(shù)據(jù)在我們的基礎(chǔ)設(shè)施中流動。我們不僅要使用這些數(shù)據(jù)向人們展示外賣騎手的位置或最新的餐廳菜單,還要不斷分析匯總的、匿名的趨勢以了解我們的服務(wù)在哪些方面還可以運(yùn)行得更順暢。

譯注:拍字節(jié)或拍它字節(jié)(Petabyte、PB)是一種信息計量單位,現(xiàn)今通常在標(biāo)示網(wǎng)絡(luò)硬盤總?cè)萘,或具有大容量的保存媒介之保存容量時使用。1PB = 1,000 TB (兆) = 1,000,000 GB (十億),所以中文的全稱是:1 千兆。

我們發(fā)現(xiàn)一個很有希望提高效率的領(lǐng)域是,將數(shù)據(jù)科學(xué)的實(shí)踐應(yīng)用到我們的基礎(chǔ)設(shè)施中,使我們能夠計算最優(yōu)的數(shù)據(jù)存儲和硬件使用率。為了更好地管理我們數(shù)據(jù),在持續(xù)增長的情況下,能夠保持?jǐn)?shù)據(jù)的新鮮度和質(zhì)量,為此,我們在內(nèi)部啟動了新項目。我們建立了一個新的分析平臺,這樣,我們就可以在短短幾秒鐘內(nèi)獲得關(guān)鍵的業(yè)務(wù)洞見。

雖然這些項目并非我們 2019 年數(shù)據(jù)平臺工作的全部,但它們代表了關(guān)鍵的冰山一角。

利用數(shù)據(jù)科學(xué)優(yōu)化我們的數(shù)據(jù)平臺

建立有效的數(shù)據(jù)基礎(chǔ)設(shè)施遠(yuǎn)不止是建立數(shù)據(jù)庫并向其填充數(shù)據(jù)那么簡單。對于我們的一些用例,每天每時每刻都有新的數(shù)據(jù)出現(xiàn),記錄需要不斷地更新。而在其他情況下,數(shù)據(jù)到達(dá)的節(jié)奏較慢,需要的更新也較少。同樣,我們的一些分析需要實(shí)時數(shù)據(jù),而另一些分析則依賴于歷史數(shù)據(jù)模式。

這些不同的用例為通過數(shù)據(jù)科學(xué)、計算成本函數(shù)和其他確定數(shù)據(jù)最佳存儲方式的方法進(jìn)行優(yōu)化打開了大門。在一個這樣的優(yōu)化項目中,我們的數(shù)據(jù)科學(xué)和數(shù)據(jù)倉庫團(tuán)隊一起分析了數(shù)據(jù)倉庫中表的效用,確定哪些表需要對我們的低延遲分析引擎中保持可用,哪些表可以轉(zhuǎn)移到成本較低的選項上。

我們的數(shù)據(jù)科學(xué)家開發(fā)的模型考慮了各種因素,如查詢的數(shù)量和單個表的用戶數(shù)量、維護(hù)成本以及表之間的依賴關(guān)系等。卸載低效用的特定表可以使數(shù)據(jù)庫成本降低 30%,我們的團(tuán)隊目前正在考慮如何應(yīng)用人工智能來進(jìn)一步推進(jìn)這項工作。

同樣,我們的團(tuán)隊也在考慮如何優(yōu)化 Vertica ,這是 Uber 正在使用的一個流行的交互式數(shù)據(jù)分析平臺。隨著我們需求的發(fā)展,最直接的解決方案將涉及在我們的基礎(chǔ)設(shè)施中復(fù)制 Vertica 集群。但是,這種解決方案并不具有成本效益。

取而代之的是,我們設(shè)計了一種方法來部分復(fù)制 Vertica 集群,以更有效的方式在它們之間分發(fā)數(shù)據(jù)。我們的數(shù)據(jù)科學(xué)團(tuán)隊提出了一個成本函數(shù),用于展示部分復(fù)制是如何工作的,而數(shù)據(jù)倉庫團(tuán)隊構(gòu)建了組件來讓解決方案在生產(chǎn)環(huán)境中實(shí)現(xiàn)無縫工作。這個解決方案能夠顯著降低 30% 以上的總體磁盤使用量,同時繼續(xù)提供相同級別的計算可伸縮性和數(shù)據(jù)庫可用性。

在我們這種規(guī)模的數(shù)據(jù)基礎(chǔ)設(shè)施中,即使是很小的優(yōu)化也可以帶來巨大的收益,在加快查詢速度的同時需要更少的資源,并最終使 Uber 的服務(wù)運(yùn)行更加平穩(wěn)。

數(shù)據(jù)管理

為多個不同的業(yè)務(wù)線提供服務(wù),如促進(jìn)承運(yùn)人和托運(yùn)人之間貨物運(yùn)輸?shù)?Uber Freight,以及連接騎手、餐廳和食客的 Uber Eats 外賣系統(tǒng),同樣也需要不同的數(shù)據(jù)。理解數(shù)據(jù)的整個生命周期,從數(shù)據(jù)的來源、各種轉(zhuǎn)換到最終目的地,對于保證數(shù)據(jù)質(zhì)量和保真度都是至關(guān)重要的。

我們的內(nèi)部產(chǎn)品 uLineage,可以追蹤數(shù)據(jù)的來源、去向和轉(zhuǎn)換方式。這個綜合系統(tǒng)從數(shù)據(jù)通過 Uber 服務(wù)進(jìn)入的那一刻起,當(dāng)數(shù)據(jù)由 Apache Kafka 傳輸時,以及當(dāng)數(shù)據(jù)存儲在 Apache Hive 中時,都會維護(hù)信息。uLineage 傳播數(shù)據(jù)新鮮度和質(zhì)量信息,同時支持高級搜索和圖形設(shè)置。

 

Uber 2019 年數(shù)據(jù)平臺建設(shè)實(shí)踐

 

圖 1,uLineage 展示了一段數(shù)據(jù)所在的存儲區(qū)及其所經(jīng)歷的轉(zhuǎn)換

我們還為大型 Apache Hadoop 表啟動了一個全局索引,這是我們的大數(shù)據(jù)基礎(chǔ)設(shè)施的另一部分,范圍雖然更有限,但對我們的運(yùn)營來說具有同等價值。我們的全局索引充當(dāng)簿記組件(bookkeeping component),顯示存儲特定數(shù)據(jù)片段的服務(wù),以便它們可以進(jìn)行更新或顯示查詢結(jié)果。將 Apache HBase(一種非關(guān)系型分布式數(shù)據(jù)庫)作為全局索引,可以確保高吞吐量、強(qiáng)一致性和水平伸縮性。

我們?yōu)?Apache Hadoop 數(shù)據(jù)湖構(gòu)建了另一個組件: DBEvents ,作為變更數(shù)據(jù)捕獲系統(tǒng)。我們圍繞三個原則來設(shè)計 DBEvents:數(shù)據(jù)新鮮度、數(shù)據(jù)質(zhì)量和效率。DBEvents 在從 MySQL、Apache Cassandra 和 Schemaless 等來源獲取數(shù)據(jù)期間捕捉數(shù)據(jù),從而更新我們的 Hadoop 數(shù)據(jù)湖。這個解決方案通過標(biāo)準(zhǔn)化的變更日志來管理拍字節(jié)級的數(shù)據(jù),確保服務(wù)對可用數(shù)據(jù)有著統(tǒng)一的理解。

高效分析

通過我們的平臺或任何其他服務(wù)來分析有關(guān)拼車、自行車和兩輪電動車騎行的數(shù)據(jù),既可以排除故障,又可以主動改進(jìn)。例如,如果數(shù)據(jù)顯示客戶等待騎手的時間,比等待司機(jī)伙伴的平均時間還要長,我們就可以實(shí)時分析問題,看看我們的運(yùn)營團(tuán)隊是否能夠提供幫助。我們還可以分析有關(guān)我們服務(wù)的歷史數(shù)據(jù),并開發(fā)新的功能來改進(jìn)它們,例如,讓乘客更容易在擁擠的接送區(qū)域找到司機(jī)伙伴。

 

Uber 2019 年數(shù)據(jù)平臺建設(shè)實(shí)踐

 

圖 2:我們新的分析平臺為內(nèi)部用戶提供了基于實(shí)時數(shù)據(jù)的業(yè)務(wù)關(guān)鍵洞見

我們對及時且可用的分析需求,促使我們構(gòu)建了一個新的平臺,該平臺目前支持多個關(guān)鍵業(yè)務(wù)級儀表板提供支持。這個平臺的儀表板如圖 2 所示,它將現(xiàn)有的實(shí)時分析系統(tǒng)(包括 AresDB 和 Apache Pinot )整合到一個統(tǒng)一的自助平臺中,允許內(nèi)部分析用戶通過 Presto 提交查詢,Presto 是一個由我們的工程師支持的開源分布式 SQL 查詢引擎。

由于對 SQL 查詢的支持,新平臺還使我們的內(nèi)部用戶能夠更容易地進(jìn)行數(shù)據(jù)分析,從而作出關(guān)鍵業(yè)務(wù)決策。同樣重要的是,它還能夠以低延遲來交付結(jié)果,讓我們能夠快速處理問題。

為未來而建

維護(hù)一個可靠支持質(zhì)量和新鮮度的數(shù)據(jù)基礎(chǔ)設(shè)施是 Uber 未來的重要組成部分。數(shù)據(jù)必須盡可能準(zhǔn)確、及時,以支持我們平臺上的服務(wù)。過去幾年來,我們一直努力構(gòu)建可以擴(kuò)至我們?nèi)蛉旌蜻\(yùn)營的基礎(chǔ)設(shè)施。我們當(dāng)前工作的一個關(guān)鍵部分是,使我們的基礎(chǔ)設(shè)施高效運(yùn)行,并支持我們所有的內(nèi)部用戶。

我們的工程師在 2019 年取得了巨大的進(jìn)步,遠(yuǎn)遠(yuǎn)超過本文記載的部分。我們期待在新的一年里,能夠進(jìn)一步優(yōu)化我們的數(shù)據(jù)基礎(chǔ)設(shè)施,讓 Uber 的平臺服務(wù)更上一層樓。

作者介紹:

Nikhil Joshi 是 Uber 數(shù)據(jù)平臺團(tuán)隊的產(chǎn)品經(jīng)理。 Viv Keswani 是 Uber 產(chǎn)品平臺團(tuán)隊的技術(shù)總監(jiān)。

原文鏈接:

https://eng.uber.com/uber-data-platform-2019/

標(biāo)簽: 數(shù)據(jù)平臺 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:一文盤點(diǎn)2019年AI領(lǐng)域都發(fā)生了什么

下一篇:面向AI開發(fā)公司的幾大機(jī)器學(xué)習(xí)框架(2020年版)