Spark 誕生頭十年：Hadoop 由盛轉(zhuǎn)衰，統(tǒng)一數(shù)據(jù)分析大行其道

2020-04-28 來(lái)源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

作者：蔡芳芳來(lái)源：InfoQ

2009 年，Spark 誕生于計(jì)算機(jī)系統(tǒng)的學(xué)術(shù)圣地加州大學(xué)伯克利分校的 AMP Lab，最初是一個(gè)研究項(xiàng)目，后來(lái)于 2010 年正式開源，并在 2013 年貢獻(xiàn)給 Apache 基金會(huì)，翌年即畢業(yè)成為 Apache 基金會(huì)頂級(jí)項(xiàng)目。對(duì)于一個(gè)具有相當(dāng)技術(shù)門檻與復(fù)雜度的平臺(tái)，Spark 從誕生到正式版本成熟，整個(gè)過程僅僅花了五年時(shí)間。誕生之初，Spark 就致力于提供基于 RDD/DataFrame 的一體化解決方案，將批處理、流處理、SQL、機(jī)器學(xué)習(xí)、圖處理等模型統(tǒng)一到一個(gè)平臺(tái)下，并以一致的 API 公開，使得 Spark 在誕生后的十年間得以應(yīng)用于更加廣泛的工程領(lǐng)域，快速成長(zhǎng)為大數(shù)據(jù)處理引擎中的佼佼者。

2019 年是 Spark 誕生的第十個(gè)年頭，Spark 引擎自身以及它孵化出來(lái)的 Spark 生態(tài)都在不斷迭代和演進(jìn)。近日Databricks 軟件工程師李元健與我們分享了根植于 Spark 各個(gè)發(fā)展階段的統(tǒng)一數(shù)據(jù)分析理念、Spark 社區(qū)接下來(lái)工作的重點(diǎn)，以及大數(shù)據(jù)領(lǐng)域需要關(guān)注的變化和趨勢(shì)，以下為采訪問答實(shí)錄。

問：李元健老師您好，非常高興這次能夠在 AICon 現(xiàn)場(chǎng)采訪到您。您這次準(zhǔn)備的演講主題是《Databricks 在構(gòu)建統(tǒng)一數(shù)據(jù)分析平臺(tái)上的新一輪實(shí)踐》，能否先跟我們解釋一下，何為“統(tǒng)一數(shù)據(jù)分析平臺(tái)”?其中的“統(tǒng)一”包含哪幾個(gè)層面的含義?

李元�。航y(tǒng)一的數(shù)據(jù)分析平臺(tái)其實(shí)是各大互聯(lián)網(wǎng)公司和軟件公司始終奉行的一套設(shè)計(jì)準(zhǔn)則，不僅植根于 Databricks，我們期望用統(tǒng)一的一套平臺(tái)解決方案來(lái)滿足多種場(chǎng)景需求甚至跨場(chǎng)景需求。這個(gè)“統(tǒng)一”不僅僅是技術(shù)層面的 API、底層抽象的統(tǒng)一，更是某種程度上的上層使用者協(xié)作方式的統(tǒng)一。Spark 就是用統(tǒng)一的 RDD/DataFrame API 來(lái)配合現(xiàn)有的 Hadoop 生態(tài)，構(gòu)造出來(lái)這樣一套系統(tǒng)，可以適用于多種環(huán)境，讓使用者和學(xué)習(xí)者可以用一套系統(tǒng)完成多樣的任務(wù)，不需要跨領(lǐng)域?qū)W習(xí)。

這需要在底層有一個(gè)完全統(tǒng)一的抽象，只有在抽象的時(shí)候就考慮得足夠深，才可能在后續(xù)把各種各樣的場(chǎng)景完整地串在一起，打破邊界，做出全局的優(yōu)化。但是這個(gè)抽象也不能太過，比如做成像 MapReduce 那樣最簡(jiǎn)單的抽象，那上層實(shí)現(xiàn)需要做的東西會(huì)很多。這中間的難點(diǎn)就是要把握好抽象的度，能讓它籠罩的面足夠大，同時(shí)也要足夠小。

在 Spark 誕生之初， Hadoop 作為當(dāng)時(shí)的大數(shù)據(jù)主流生態(tài)，涌現(xiàn)了各種相關(guān)的項(xiàng)目：用于批處理的 MapReduce、Pig 和 Hive，用于流處理的 Storm，用于機(jī)器學(xué)習(xí)的 mahout，用于 ETL 的 sqoop。這些產(chǎn)品由不同團(tuán)隊(duì)、組織開發(fā)，API 設(shè)計(jì)理念各不相同，使用復(fù)雜、集成困難、學(xué)習(xí)門檻陡、維護(hù)成本高。隨著 Spark 倡導(dǎo)的統(tǒng)一數(shù)據(jù)分析理念的發(fā)展，Hadoop 各個(gè)項(xiàng)目由盛轉(zhuǎn)衰，逐漸被 Spark 的對(duì)應(yīng)項(xiàng)目取而代之。我們相信，無(wú)論大數(shù)據(jù)還是小數(shù)據(jù)，無(wú)論公有云還是私有云，無(wú)論批處理還是流處理，無(wú)論數(shù)據(jù)查詢還是數(shù)據(jù)分析，數(shù)據(jù)分析行業(yè)未來(lái)將由單一的統(tǒng)一分析引擎主導(dǎo)，并應(yīng)用于不同的平臺(tái)解決各式各樣的問題

問：為什么需要在上面提到的這幾個(gè)層面上達(dá)成“統(tǒng)一”?

李元�。航y(tǒng)一意味著打破多系統(tǒng)邊界，數(shù)據(jù)計(jì)算的執(zhí)行計(jì)劃將會(huì)全局優(yōu)化，提升了總體的性能，數(shù)據(jù)不再來(lái)回從各系統(tǒng)中搬來(lái)搬去，極大降低數(shù)據(jù)治理、架構(gòu)設(shè)計(jì)及運(yùn)維成本。與此同時(shí)，統(tǒng)一也打破了團(tuán)隊(duì)之間的邊界，大幅提高了協(xié)作的效率，跨領(lǐng)域的用戶可以在一套系統(tǒng)之下協(xié)作完成各項(xiàng)工作。從每個(gè)參與者角度來(lái)看，統(tǒng)一更意味著學(xué)習(xí)成本和協(xié)作成本的降低。

問：這樣一個(gè)統(tǒng)一的數(shù)據(jù)分析平臺(tái)對(duì)于大數(shù)據(jù)領(lǐng)域來(lái)說有什么樣的意義?如果業(yè)內(nèi)不只 Databricks 在做統(tǒng)一數(shù)據(jù)分析平臺(tái)，其他公司可能也想做自己的統(tǒng)一平臺(tái)，那最后怎么真正做出一個(gè)能打通所有系統(tǒng)的平臺(tái)呢?

李元�。航y(tǒng)一的數(shù)據(jù)分析平臺(tái)對(duì)降低數(shù)據(jù)處理成本、加速數(shù)據(jù)迭代、提升數(shù)據(jù)價(jià)值都有極大的促進(jìn)作用。Databricks 在業(yè)界首先提出統(tǒng)一數(shù)據(jù)分析平臺(tái)的理念，并將這一理念在過去若干年付諸于實(shí)踐，熔鑄于 Databricks 產(chǎn)品及參與、主導(dǎo)的開源項(xiàng)目中去。所以我們今日已經(jīng)可以看到統(tǒng)一數(shù)據(jù)分析的概念已經(jīng)逐漸被市場(chǎng)與友商所接受。

接上述回答，其他公司也想做自己的統(tǒng)一平臺(tái)恰恰也是市場(chǎng)認(rèn)可的一部分，因?yàn)槟７率亲詈玫馁澷p，Databricks 也一直持開放的態(tài)度歡迎各方的合作與競(jìng)爭(zhēng)，相信在百花齊放的前提下，市場(chǎng)會(huì)篩選出事實(shí)標(biāo)準(zhǔn)。

問：Databricks 在很多公開場(chǎng)合多次強(qiáng)調(diào)過“統(tǒng)一數(shù)據(jù)分析平臺(tái)”的概念，這一點(diǎn)在你們當(dāng)前的技術(shù)架構(gòu)和主導(dǎo)的開源項(xiàng)目中有哪些體現(xiàn)?

李元�。菏桩�(dāng)其沖的開源體現(xiàn)是 Apache Spark，Spark 可以說是業(yè)界首個(gè)達(dá)成統(tǒng)一數(shù)據(jù)分析能力的數(shù)據(jù)分析平臺(tái)，對(duì)上，支持交互式查詢、批處理、流處理、機(jī)器學(xué)習(xí)、圖計(jì)算等使用場(chǎng)景;對(duì)下，支持基本上你能見到的所有數(shù)據(jù)格式類型，包括 Parquet、Text、Json、ORC 等，同時(shí)所有數(shù)據(jù)源類型，包括流式的 kinesis、Kafka 等 Spark 都能有機(jī)地統(tǒng)一起來(lái)，不會(huì)像原來(lái) Hadoop 那樣，把一堆散落的零件丟給用戶，讓用戶自己去拿 MapReduce 拼。2019 年是 Spark 誕生的第 10 個(gè)年頭，統(tǒng)一數(shù)據(jù)分析的理念始終植根于 Spark 的各個(gè)發(fā)展階段。

隨著 Spark 的成功，近幾年內(nèi) Databricks 主導(dǎo)的全部開源項(xiàng)目，也遵循統(tǒng)一數(shù)據(jù)分析的理念，讓 Spark 可以解決更多的使用場(chǎng)景，擴(kuò)大使用的用戶群體。Koalas 解決了 pandas 的可伸縮性(scalability)，讓使用單機(jī) pandas 的數(shù)據(jù)科學(xué)家們也可以輕松利用 Spark 解決他們的大數(shù)據(jù)問題。 Delta Lake 通過其優(yōu)秀的事務(wù)性特點(diǎn)，簡(jiǎn)化了復(fù)雜冗長(zhǎng)的數(shù)據(jù)處理 pipeline 的建造，使得批流一體變得輕而易舉，對(duì)數(shù)據(jù)湖的場(chǎng)景提供了完美方案。MLflow 致力于打破機(jī)器學(xué)習(xí)各階段跨系統(tǒng)的弊端，完成模型訓(xùn)練、特征工程、模型管理的各階段打通與統(tǒng)一。

問：那么構(gòu)建統(tǒng)一數(shù)據(jù)分析平臺(tái)存在哪些難點(diǎn)?你們?cè)趯?shí)踐中是如何解決這些問題的?

李元健：難點(diǎn)之一在于如何建立一個(gè)通用引擎去支持不同需求，讓復(fù)雜變簡(jiǎn)單。抽象邏輯的統(tǒng)一及高效實(shí)現(xiàn)，比如 Apache Spark 中 RDD 的抽象概念是 Spark 的核心概念。同時(shí)這種核心抽象也是在不停迭代的，比如 Apache Spark 1.6 版本之后，實(shí)際上新的 Spark 核心抽象迭代為 Dataset API。

Databricks 始終堅(jiān)持 data driven。這個(gè)也是我們公司文化的一個(gè)核心價(jià)值觀。我們通過用戶的使用日志做大數(shù)據(jù)分析，來(lái)選擇如何改善我們的產(chǎn)品，推出什么新的產(chǎn)品。對(duì)于一個(gè)初創(chuàng)公司，如何對(duì)需求說不，如何在有限的資源里選擇最重要的事情是最大的挑戰(zhàn)。MLflow、Delta Lake、Koalas 這些系統(tǒng)的誕生均是 data driven。

問：能否請(qǐng)您進(jìn)一步談?wù)?Spark 的基因是什么?和其他的相關(guān)項(xiàng)目(比如，Ray)有什么不同?您預(yù)期 Spark 主流地位可能會(huì)在未來(lái)什么時(shí)候受到威脅?

李元�。篠park 來(lái)自學(xué)術(shù)圈，誕生于加州大學(xué)伯克利分校。這所學(xué)校對(duì)計(jì)算機(jī)學(xué)科和工業(yè)界的貢獻(xiàn)相當(dāng)之大，尤其是操作系統(tǒng)和數(shù)據(jù)庫(kù)這些方向。在 Spark 初期的設(shè)計(jì)和技術(shù)討論氛圍非常濃厚，算是學(xué)術(shù)血統(tǒng)相當(dāng)純正，后來(lái)加入 Apache 基金會(huì)后，工業(yè)界的各大公司參與了各方面的研發(fā)，做出了大大小小的貢獻(xiàn)。因此，Spark 的基因也在不斷地優(yōu)化，混入了更多工業(yè)圈研發(fā)基礎(chǔ)設(shè)施軟件的經(jīng)驗(yàn)和風(fēng)格，產(chǎn)品漸漸趨于成熟和穩(wěn)定。而 Ray 其實(shí)算是 Spark 的姐妹項(xiàng)目，都是出自于 Ion 教授的實(shí)驗(yàn)室。如今，Ray 還處于早期研發(fā)階段，工業(yè)界的參與還是相對(duì)比較少，將來(lái)的普及和成熟都言之尚早。

建立數(shù)據(jù)分析的統(tǒng)一平臺(tái)是創(chuàng)建 Spark 最初的一個(gè)方向和目標(biāo)。如今，Spark SQL 作為新一代的 Spark Core。我們相信我們可以通過同一套執(zhí)行引擎解決各種計(jì)算和分析的需求，并且可以跨多個(gè)不同的用戶場(chǎng)景做全局優(yōu)化。這個(gè)信念是從始至終在貫徹的。漸漸地，其他類似項(xiàng)目也都在追隨我們這個(gè)目標(biāo)，甚至使用同一套術(shù)語(yǔ)在宣傳，這種認(rèn)同，我們倍感欣慰。

事實(shí)也證明，Spark 很好地解決了 Hadoop 生態(tài)系統(tǒng)分裂的難題。Hadoop 生態(tài)圈越來(lái)越復(fù)雜，用戶體驗(yàn)差，很多項(xiàng)目立項(xiàng)但是無(wú)法投產(chǎn)，更無(wú)法快速產(chǎn)生商業(yè)價(jià)值。而 Spark 通過構(gòu)建一個(gè)統(tǒng)一數(shù)據(jù)分析平臺(tái)來(lái)填平各系統(tǒng)間的使用鴻溝，讓大數(shù)據(jù)問題變得簡(jiǎn)單，讓更多的公司和機(jī)構(gòu)從大數(shù)據(jù)中獲益，也改變了我們每個(gè)人的日常工作和生活。

從目前的發(fā)展情況來(lái)看，我們看到大數(shù)據(jù)產(chǎn)業(yè)鏈里有不少優(yōu)秀的產(chǎn)品在不斷發(fā)力，通過新的硬件加速，或者提供更加豐富的功能來(lái)更好地解決某個(gè)細(xì)分領(lǐng)域問題。但是，作為數(shù)據(jù)的統(tǒng)一分析和處理平臺(tái)，十年前 Spark 的發(fā)明在很多場(chǎng)景逐漸取代了 Hadoop 計(jì)算層，未來(lái)若干年間，也隨時(shí)有可能有其他優(yōu)秀項(xiàng)目出現(xiàn)并試圖取代或部分取代 Spark。此外，現(xiàn)在的系統(tǒng)集成度和兼容性要求都很高，完全取代一整個(gè)生態(tài)的難度相當(dāng)大。Spark 也只是取代了 Hadoop 的 MapReduce 計(jì)算層，對(duì)生態(tài)中的其他組件仍然是兼容并蓄。而且即便是取代單一組件，如果沒有 10x 的差異、不能推動(dòng)關(guān)鍵的新型使用場(chǎng)景，極難推動(dòng)現(xiàn)有用戶遷移。

Databricks 本身是一個(gè)強(qiáng)調(diào)持續(xù)創(chuàng)新的公司，我們致力于自己革新自己，這也是 Delta 、Koalas、 MLflow 等新近開源項(xiàng)目逐漸涌現(xiàn)的主要原因。當(dāng)然我們期望能有更革命性的東西出現(xiàn)，不管是來(lái)自 Spark 社區(qū)，還是來(lái)自 Databricks 公司，還是來(lái)自其他團(tuán)隊(duì)。

問：對(duì)于剛剛發(fā)布的 Apache Spark 3.0 預(yù)覽版，很多開發(fā)者非常感興趣。能否請(qǐng)您給我們解讀一下，3.0 版本中有哪些與統(tǒng)一數(shù)據(jù)分析相關(guān)的重要特性?

李元健：Spark SQL 作為新一代 Spark 的核心抽象，3.0 中涉及眾多 SQL 層的性能提升，比如 Dynamic Partition Pruning 以及社區(qū)內(nèi)呼聲很高的 Adaptive Execution，SQL 層的性能提升可以輻射到 Spark 的各個(gè)上層組件。

調(diào)度層面，Apache Spark 3.0 新增 GPU 這種加速器的資源調(diào)度，并且逐步完善了 Spark on K8s。

另外，Data Source API 以及新的 catalog 支持可以讓 Spark 更好的接入各種數(shù)據(jù)源提供統(tǒng)一的計(jì)算和更準(zhǔn)確的分析結(jié)果，是統(tǒng)一數(shù)據(jù)分析的最好體現(xiàn)。

當(dāng)然，這里只能列舉一小部分，Spark 3.0 解決了近 3000 個(gè)問題。我們?cè)?release notes 里面會(huì)有更多的描述，歡迎大家去試用我們 3.0 的第一個(gè)預(yù)覽版本。

問：有讀者反饋在 Spark 3.0 的預(yù)覽版中好像沒有看到多少 Streaming/Structed Streaming 相關(guān)的 ISSUE，能否解釋一下這是為什么?

李元�。喝缰敖榻B，Spark SQL 作為新的 Spark 核心抽象，所有 SQL 層的迭代都可以體現(xiàn)在 Structure Streaming 之上。同時(shí)，Databricks 對(duì)于流式計(jì)算領(lǐng)域的戰(zhàn)略可以理解為 Structure Streaming+Delta Lake=New Spark Streaming，解決了流處理的數(shù)據(jù)一致性問題。所以 Delta Lake 本身就是 Structed Streaming 的一部分。此外，Delta Lake 作為獨(dú)立的開源項(xiàng)目與 Spark Structure Streaming 和 Spark SQL 集成，提出了全新的一套 Delta Lake 架構(gòu)，來(lái)取代當(dāng)前最流行的 Lambda 架構(gòu)。具體的 feature 層面，我們會(huì)有全新的 Streaming UI，會(huì)有新的 data source API 去支持流入流出。

InfoQ：接下來(lái) Databricks 和社區(qū)對(duì)于 Spark 還有哪些規(guī)劃?接下來(lái)有哪些方向是 Spark 社區(qū)會(huì)重點(diǎn)關(guān)注或重點(diǎn)去做的?

李元健：首先需要強(qiáng)調(diào)，Apache Spark 的開發(fā)是由社區(qū)驅(qū)動(dòng)的，Databricks 只是 Spark 的主要貢獻(xiàn)者。雖然從 Databricks 成長(zhǎng)出了大量的 Committer，但是社區(qū)不應(yīng)該由任何一家公司控制，任何所謂的控制都是違反 Apache 開源精神的。所有 Spark 的重要 feature 以及關(guān)鍵的點(diǎn)都是由社區(qū)的需求驅(qū)動(dòng)的。到目前為止 Spark 已經(jīng)有十年的歷史了，全世界大大小小的公司和組織都在使用和貢獻(xiàn)。Spark 社區(qū)的多元化和活躍度是有目共睹的，來(lái)自全世界的貢獻(xiàn)也驅(qū)動(dòng)著 Spark 去解決不同使用場(chǎng)景中的相關(guān)問題。Spark 的 committer 來(lái)自于超過三十家公司和機(jī)構(gòu)，有 IT 巨頭 Apple、Google、Facebook 等;有特定行業(yè)的領(lǐng)導(dǎo)者，Nvidia、Netflix、Uber、Linkedin、eBay 等;也有獨(dú)角獸級(jí)別的創(chuàng)業(yè)公司，Databricks、Stripe 等;還有頂尖院校，比如加州伯克利大學(xué)、斯坦福大學(xué)、普林斯頓大學(xué);當(dāng)然也有國(guó)內(nèi)的 IT 大廠，比如阿里、騰訊、華為和京東。大量用戶和社區(qū)的 committers 每天在報(bào)問題、報(bào)需求，提出自己的想法和解決方案。Databricks 作為主要的貢獻(xiàn)者，我們會(huì)繼續(xù)朝著統(tǒng)一分析平臺(tái)的方向發(fā)展，去更好地解決更多用戶場(chǎng)景問題，提升用戶體驗(yàn)，增加用戶基數(shù)。

說回 Spark 社區(qū)接下來(lái)的幾個(gè)主要的發(fā)力點(diǎn)，Spark 的成長(zhǎng)方向始終就是兩條線，一個(gè)是 Spark 自身引擎的迭代，另外一個(gè)是借助 Spark 孵化出來(lái)的 Spark 生態(tài)。首先是 SQL 的不斷演化，目前 Apache Spark 3.0 發(fā)布的一系列工作還在推進(jìn)當(dāng)中，大家可能看到的，比方說 DataSource API，比方說 ANSI SQL 的一系列的標(biāo)準(zhǔn)，都還在進(jìn)行當(dāng)中，這是對(duì) Spark Core 持續(xù)不斷的優(yōu)化。另外 Spark 從技術(shù)上還會(huì)生長(zhǎng)出新的東西，這個(gè)大家也可以期待一系列新的場(chǎng)景和融合。Spark 周邊生態(tài)的構(gòu)建也是重點(diǎn)，相信我這次分享里著重介紹的 Koalas 及 Delta Lake 就是很好的例子。隨著 Data Source API 的不斷完善，我們相信 Spark 生態(tài)圈會(huì)進(jìn)一步地?cái)U(kuò)展和加強(qiáng)。未來(lái) Databricks 也會(huì)全力去完善 Spark 生態(tài)版圖，繼續(xù)保持 Spark 在數(shù)據(jù)處理和分析的領(lǐng)先優(yōu)勢(shì)。

問：如果請(qǐng)您回顧大數(shù)據(jù)領(lǐng)域過去這一年，您認(rèn)為有哪些進(jìn)展和變化值得一提?

李元�。涸频牧α恳呀�(jīng)完全不可忽視了，云化進(jìn)程一直在持續(xù)往前推進(jìn)，無(wú)論是從技術(shù)上還是商業(yè)上，都能看到 2019 年全年整個(gè)領(lǐng)域?qū)τ谠苹男枨蟮牟粩嘣鲩L(zhǎng)。與 2018 年頭部三大云廠商增長(zhǎng) 50% 不同的是，2019 年增長(zhǎng)的主角開始從頭部的大的云廠商開始向小規(guī)模公司、初創(chuàng)公司轉(zhuǎn)移，Databricks 也是其中的一員。在商業(yè)的刺激下，云化技術(shù)如 K8s 及云化生態(tài)持續(xù)蓬勃發(fā)展。大公司現(xiàn)在也變得越來(lái)越 Open，不會(huì)什么都想把控在自己手里，而是更愿意和小公司聯(lián)合，比如 Databricks 和 Azure、AWS 等一系列云廠商都有合作關(guān)系。

大數(shù)據(jù)領(lǐng)域這一年是多事之秋。Hadoop 在不斷萎縮，從 Hadoop 的三個(gè)發(fā)行商市值蒸發(fā)的速度就能看出。但相反，Databricks 這一年獲得兩輪融資，估值大幅提升到 62 億美金。這種反差恰恰說明市場(chǎng)對(duì) Unified Analytics Platform + Open Source + Cloud + AI 的肯定。大數(shù)據(jù)和小數(shù)據(jù)的邊界會(huì)越來(lái)越模糊，客戶需要的是一個(gè)統(tǒng)一的分析平臺(tái)，解決實(shí)際的數(shù)據(jù)處理和分析問題。隨著數(shù)據(jù)急劇增長(zhǎng)，未來(lái)數(shù)據(jù)存儲(chǔ)和處理都會(huì)逐漸遷移到更廉價(jià)的公有云，讓資源更合理的集中彈性調(diào)配。如何快速?gòu)臄?shù)據(jù)中挖掘出信息來(lái)改善決策是重點(diǎn)。

問：未來(lái)大數(shù)據(jù)領(lǐng)域還有哪些重要的技術(shù)方向或趨勢(shì)值得關(guān)注?

李元�。簜€(gè)人認(rèn)為有一項(xiàng)趨勢(shì)已經(jīng)持續(xù)了數(shù)年，就是多個(gè)數(shù)據(jù)分析領(lǐng)域的融合，包括傳統(tǒng)數(shù)據(jù)庫(kù)、分布式計(jì)算以及檢索技術(shù)，這種趨勢(shì)也促成了統(tǒng)一分析理念的形成。雖然目前有數(shù)量繁多的新框架、引擎，但大家能夠注意到，數(shù)據(jù)管理能力依舊沒有跟上數(shù)據(jù)爆炸式增長(zhǎng)的速度。所以在這種融合趨勢(shì)的推動(dòng)下，立足于新的場(chǎng)景，原有的很多理念和設(shè)計(jì)會(huì)重新煥發(fā)光彩，舉個(gè)實(shí)際例子，Delta Lake 本身就是最典型的例子，Delta Lake 最核心的 ACID 支持就是傳統(tǒng)數(shù)據(jù)庫(kù)的基本功能，但 Delta Lake 基于 Spark 上的 ACID Table 解決了大量痛點(diǎn)，很快成為關(guān)注度極高的開源項(xiàng)目。

我剛才沒有提到 Databricks 的一個(gè)拳產(chǎn)品，就是 MLflow，我們下一步希望融合的場(chǎng)景就是在智能計(jì)算，以及 AI 領(lǐng)域。如果我們把整個(gè) AI 看作火箭，大數(shù)據(jù)是其中的發(fā)動(dòng)機(jī)，我們?nèi)绾文茏尠l(fā)動(dòng)機(jī)的設(shè)計(jì)和火箭的設(shè)計(jì)一體化，在這個(gè)過程當(dāng)中，我們能做的東西還有很多。大數(shù)據(jù)和 AI 當(dāng)前的狀態(tài)其實(shí)多少有些割裂，就像一個(gè)公司的算法工程師和數(shù)據(jù)工程師一樣，現(xiàn)在還是分置的兩塊，如何進(jìn)一步融合，也許會(huì)是一個(gè)新的藍(lán)海。

此外，未來(lái)公有云是數(shù)據(jù)處理和分析的最佳平臺(tái)，所以云原生的解決方案是趨勢(shì)也是重點(diǎn)。比如，如何在 pay as you go 這種收費(fèi)模式下，基于數(shù)據(jù)來(lái)驅(qū)動(dòng)開發(fā)、定價(jià)和決策;如何提供 Serverless 的服務(wù)，在軟件架構(gòu)、交付和部署上做創(chuàng)新;如何打破現(xiàn)有的大數(shù)據(jù)框架，去更好與現(xiàn)有的云計(jì)算服務(wù)融合，提升用戶的使用體驗(yàn)等。

嘉賓介紹：

李元健，Databricks 軟件工程師。曾于 2011 年加入百度基礎(chǔ)架構(gòu)部，先后參與百度自研流式計(jì)算、分布式 Tracing 及批量計(jì)算系統(tǒng)的研發(fā)工作，2017 年轉(zhuǎn)崗項(xiàng)目經(jīng)理，負(fù)責(zé)百度分布式計(jì)算平臺(tái)研發(fā)工作。2019 年加入 Databricks Spark 團(tuán)隊(duì)，參與開源軟件及 Databricks 產(chǎn)品研發(fā)。

標(biāo)簽：大數(shù)據(jù) 大數(shù)據(jù)時(shí)代大數(shù)據(jù)概念網(wǎng)絡(luò)大數(shù)據(jù) 網(wǎng)絡(luò)數(shù)據(jù)與蒲

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:我們是怎樣打造一款分布式數(shù)據(jù)庫(kù)的

下一篇:一文講透：區(qū)塊鏈?zhǔn)遣皇菙?shù)據(jù)庫(kù)？

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Spark 誕生頭十年：Hadoop 由盛轉(zhuǎn)衰，統(tǒng)一數(shù)據(jù)分析大行其道

Spark 誕生頭十年：Hadoop 由盛轉(zhuǎn)衰，統(tǒng)一數(shù)據(jù)分析大行其道