中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Uber永久定位系統(tǒng)實(shí)時(shí)數(shù)據(jù)分析過程實(shí)踐!

2018-08-25    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

根據(jù)Gartner所言,到2020年,每個(gè)智慧城市將使用約13.9億輛聯(lián)網(wǎng)汽車,這些汽車配備物聯(lián)網(wǎng)傳感器和其他設(shè)備。城市中的車輛定位和行為模式分析將有助于優(yōu)化流量,更好的規(guī)劃決策和進(jìn)行更智能的廣告投放。例如,對(duì)GPS汽車數(shù)據(jù)分析可以允許城市基于實(shí)時(shí)交通信息來優(yōu)化交通流量。電信公司正在使用移動(dòng)電話定位數(shù)據(jù),識(shí)別和預(yù)測(cè)城市人口的位置活動(dòng)趨勢(shì)和生存區(qū)域。

本文,我們將討論在數(shù)據(jù)處理管道中使用Spark Structured Streaming對(duì)Uber事件數(shù)據(jù)進(jìn)行聚類分析,以檢測(cè)和可視化用戶位置實(shí)踐。(注:本文所用數(shù)據(jù)并非Uber內(nèi)部實(shí)際用戶數(shù)據(jù),文末附具體代碼或者示例獲取渠道)

首先,我們回顧幾個(gè)結(jié)構(gòu)化流媒體涉及的概念,然后探討端到端用例:

使用MapR-ES發(fā)布/訂閱事件流

MapR-ES是一個(gè)分布式發(fā)布/訂閱事件流系統(tǒng),讓生產(chǎn)者和消費(fèi)者能夠通過Apache Kafka API以并行和容錯(cuò)方式實(shí)時(shí)交換事件。

流表示從生產(chǎn)者到消費(fèi)者的連續(xù)事件序列,其中事件被定義為鍵值對(duì)。

 

 

topic是一個(gè)邏輯事件流,將事件按類別區(qū)分,并將生產(chǎn)者與消費(fèi)者分離。topic按吞吐量和可伸縮性進(jìn)行分區(qū),MapR-ES可以擴(kuò)展到非常高的吞吐量級(jí)別,使用普通硬件可以輕松實(shí)現(xiàn)每秒傳輸數(shù)百萬條消息。

 

 

你可以將分區(qū)視為事件日志:將新事件附加到末尾,并為其分配一個(gè)稱為偏移的順序ID號(hào)。

 

 

與隊(duì)列一樣,事件按接收順序傳遞。

 

 

但是,與隊(duì)列不同,消息在讀取時(shí)不會(huì)被刪除,它們保留在其他消費(fèi)者可用分區(qū)。消息一旦發(fā)布,就不可變且永久保留。

 

 

讀取消息時(shí)不刪除消息保證了大規(guī)模讀取時(shí)的高性能,滿足不同消費(fèi)者針對(duì)不同目的(例如具有多語(yǔ)言持久性的多個(gè)視圖)處理相同消息的需求。

 

 

Spark數(shù)據(jù)集,DataFrame,SQL

Spark數(shù)據(jù)集是分布在集群多個(gè)節(jié)點(diǎn)上類對(duì)象的分布式集合,可以使用map,flatMap,filter或Spark SQL來操縱數(shù)據(jù)集。DataFrame是Row對(duì)象的數(shù)據(jù)集,表示包含行和列的數(shù)據(jù)表。

 

 

Spark結(jié)構(gòu)化流

結(jié)構(gòu)化流是一種基于Spark SQL引擎的可擴(kuò)展、可容錯(cuò)的流處理引擎。通過Structured Streaming,你可以將發(fā)布到Kafka的數(shù)據(jù)視為無界DataFrame,并使用與批處理相同的DataFrame,Dataset和SQL API處理此數(shù)據(jù)。

 

 

隨著流數(shù)據(jù)的不斷傳播,Spark SQL引擎會(huì)逐步持續(xù)處理并更新最終結(jié)果。

 

 

事件的流處理對(duì)實(shí)時(shí)ETL、過濾、轉(zhuǎn)換、創(chuàng)建計(jì)數(shù)器、聚合、關(guān)聯(lián)值、豐富其他數(shù)據(jù)源或機(jī)器學(xué)習(xí)、持久化文件或數(shù)據(jù)庫(kù)以及發(fā)布到管道的不同topic非常有用。

 

 

Spark結(jié)構(gòu)化流示例代碼

下面是Uber事件數(shù)據(jù)聚類分析用例的數(shù)據(jù)處理管道,用于檢測(cè)位置。

 

 

使用Kafka API將行車位置數(shù)據(jù)發(fā)布到MapR-ES topic

訂閱該topic的Spark Streaming應(yīng)用程序:

輸入U(xiǎn)ber行車數(shù)據(jù)流;
使用已部署的機(jī)器學(xué)習(xí)模型、集群ID和位置豐富行程數(shù)據(jù);

在MapR-DB JSON中存儲(chǔ)轉(zhuǎn)換和豐富數(shù)據(jù)。

 

 

標(biāo)簽: 代碼 媒體 數(shù)據(jù)分析 數(shù)據(jù)庫(kù) 通信

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:在大規(guī)模數(shù)據(jù)集上應(yīng)用潛在語(yǔ)義分析的三種方式

下一篇:主流大數(shù)據(jù)處理技術(shù)及應(yīng)用方案