中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

通過(guò)調(diào)研開(kāi)源基準(zhǔn)測(cè)試集,解讀大數(shù)據(jù)的應(yīng)用現(xiàn)狀和開(kāi)源未來(lái)

2018-12-21    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線(xiàn)!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

 作者:韓銳,詹劍鋒

 這篇綜述論文解讀了 2006 大數(shù)據(jù)系統(tǒng)興起以來(lái)代表性應(yīng)用和開(kāi)源基準(zhǔn)測(cè)試集。近年來(lái),隨著大數(shù)據(jù)系統(tǒng)的快速發(fā)展,各式各樣的開(kāi)源基準(zhǔn)測(cè)試集被開(kāi)發(fā)出來(lái),以評(píng)測(cè)和分析大數(shù)據(jù)系統(tǒng)并促進(jìn)其技術(shù)改進(jìn)。然而,迄今為止,還沒(méi)有就這些基準(zhǔn)測(cè)試集進(jìn)行系統(tǒng)調(diào)研。

因此,本文對(duì)當(dāng)前最前沿的開(kāi)源大數(shù)據(jù)基準(zhǔn)測(cè)試集進(jìn)行全面總結(jié),闡述其歷史、現(xiàn)狀并展望下一步研究方向。首先,我們從大數(shù)據(jù)系統(tǒng)的角度對(duì)大數(shù)據(jù)基準(zhǔn)測(cè)試集進(jìn)行了定義和分類(lèi)。隨后,我們回顧了基準(zhǔn)測(cè)試技術(shù)的三個(gè)重要方面——工作負(fù)載生成技術(shù)、輸入數(shù)據(jù)生成技術(shù)和系統(tǒng)評(píng)估指標(biāo)。最后,論文從這三個(gè)方面對(duì)現(xiàn)有基準(zhǔn)測(cè)試集進(jìn)行歸類(lèi),并重點(diǎn)描述其中具有代表性的測(cè)試集,進(jìn)而討論未來(lái)研究方向,以推動(dòng)該領(lǐng)域工作的持續(xù)發(fā)展。

大數(shù)據(jù)開(kāi)源基準(zhǔn)測(cè)試集

1. 大數(shù)據(jù)系統(tǒng)及開(kāi)源基準(zhǔn)測(cè)試簡(jiǎn)介

大數(shù)據(jù)系統(tǒng)通常被分為三個(gè)陣營(yíng),如圖 1 所示:

(1)Hadoop 相關(guān)系統(tǒng);

(2)數(shù)據(jù)庫(kù)管理系統(tǒng) (DBMSs) 和 NoSQL 數(shù)據(jù)庫(kù);

(3)針對(duì)圖數(shù)據(jù)、流數(shù)據(jù)和復(fù)雜科學(xué)數(shù)據(jù)的特殊處理需要的專(zhuān)用系統(tǒng)。

 

 

圖 1. 大數(shù)據(jù)系統(tǒng)分類(lèi)與總述

總結(jié)歸納了當(dāng)前流行的開(kāi)源基準(zhǔn)測(cè)試集,圖 2 顯示了這些基準(zhǔn)測(cè)試集的詞云圖,其中詞的大小和流行度成比例。

 

 

圖 2. 開(kāi)源大數(shù)據(jù)基準(zhǔn)的詞云云

2. 大數(shù)據(jù)基準(zhǔn)測(cè)試分類(lèi)及發(fā)展歷史

大數(shù)據(jù)基準(zhǔn)測(cè)試集的類(lèi)別:

(1)微基準(zhǔn)測(cè)試集。這類(lèi)基準(zhǔn)測(cè)試集被用于評(píng)估單個(gè)系統(tǒng)組件或特定系統(tǒng)行為(或代碼的功能);

(2)端到端基準(zhǔn)測(cè)試集。這類(lèi)基準(zhǔn)測(cè)試集的目的是使用典型應(yīng)用場(chǎng)景評(píng)估整個(gè)系統(tǒng),每個(gè)場(chǎng)景都對(duì)應(yīng)一個(gè)工作負(fù)載的集合。

(3)基準(zhǔn)測(cè)試集套件是不同的微基準(zhǔn)測(cè)試集或端到端基準(zhǔn)測(cè)試集的組合,這些套件的目標(biāo)是提供全面的基準(zhǔn)測(cè)試解決方案。

發(fā)展歷史:大數(shù)據(jù)基準(zhǔn)測(cè)試是一個(gè)活躍的研究領(lǐng)域,許多基準(zhǔn)測(cè)試集在最初發(fā)布之后仍在發(fā)展,圖 3 顯示了它們的初始發(fā)布年份。

 

 

圖 3. 大數(shù)據(jù)基準(zhǔn)測(cè)試集發(fā)布時(shí)間軸

3. 工作負(fù)載生成技術(shù)

工作負(fù)載實(shí)現(xiàn)技術(shù):我們將大數(shù)據(jù)工作負(fù)載劃分為三類(lèi):

(1)I / O 操作。這些操作在輸入數(shù)據(jù)或文件上執(zhí)行 (例如,讀、寫(xiě)、移動(dòng)數(shù)據(jù)或新建、刪除文件)。

(2)算法操作。當(dāng)作為一種算法實(shí)現(xiàn)時(shí),一個(gè)工作負(fù)載由一個(gè)或多個(gè)對(duì)輸入數(shù)據(jù)的獨(dú)立操作組成。

(3)基本操作 (EO)。這些操作要么是標(biāo)準(zhǔn)的 SQL 操作符 [102],要么是具有類(lèi)似語(yǔ)法的操作符(如 Pig Latin)。圖 4 顯示了代表性負(fù)載和操作的詞云圖。

 

 

圖 4. 代表性大數(shù)據(jù)工作負(fù)載的詞云圖

工作負(fù)載提交技術(shù):我們將本文回顧的基準(zhǔn)測(cè)試集的提交策略分成三類(lèi):

(1)預(yù)先指定。在許多基準(zhǔn)測(cè)試集中,工作負(fù)載的輸入數(shù)據(jù)、提交速率和順序都是在執(zhí)行前指定的。

(2)參數(shù)控制。這類(lèi)基準(zhǔn)測(cè)試集允許用戶(hù)使用參數(shù)控制工作負(fù)載的執(zhí)行。

(3)真實(shí)日志驅(qū)動(dòng)。通過(guò)使用這種提交策略,基準(zhǔn)測(cè)試集可以根據(jù)真實(shí)世界的日志來(lái)真實(shí)地復(fù)現(xiàn)工作負(fù)載。

開(kāi)放性挑戰(zhàn):已有的大數(shù)據(jù)基準(zhǔn)并不能完全符合以上三個(gè)準(zhǔn)則:(1)相關(guān)性。鑒別被測(cè)系統(tǒng)的典型行為是實(shí)現(xiàn)高度相關(guān)性負(fù)載的先決條件。(2)可移植性。我們首先從軟件系統(tǒng)(即軟件棧)的角度討論這個(gè)準(zhǔn)則。(3)伸縮性。為了評(píng)估不同規(guī)模的系統(tǒng),基準(zhǔn)測(cè)試集應(yīng)該能夠調(diào)整工作負(fù)載的規(guī)模,同時(shí)保證其提交和混合的真實(shí)性。

4. 輸入數(shù)據(jù)生成技術(shù)

大數(shù)據(jù)基準(zhǔn)測(cè)試中的數(shù)據(jù)生成器:

(1)現(xiàn)有數(shù)據(jù)集:許多大基準(zhǔn)測(cè)試提供固定大小的數(shù)據(jù)集作為其工作負(fù)載的輸入;

(2)基于合成分布的數(shù)據(jù)生成器;

(3)基于真實(shí)數(shù)據(jù)的數(shù)據(jù)生成器;

(4)混合數(shù)據(jù)生成器。

開(kāi)放性挑戰(zhàn):考慮大數(shù)據(jù)的數(shù)據(jù)量和速度,以及不同的數(shù)據(jù)類(lèi)型和來(lái)源(數(shù)據(jù)種類(lèi)),此處有兩個(gè)具有挑戰(zhàn)性的關(guān)鍵問(wèn)題:第一個(gè)問(wèn)題是現(xiàn)有的基準(zhǔn)測(cè)試集可以構(gòu)建模型來(lái)提取某些數(shù)據(jù)類(lèi)型(如表格,文本和圖數(shù)據(jù))的真實(shí)數(shù)據(jù)集的特征,但是很少關(guān)注其他數(shù)據(jù)類(lèi)型,如流、圖、視頻和科學(xué)數(shù)據(jù)。第二個(gè)同時(shí)也是更具挑戰(zhàn)性的問(wèn)題是如何評(píng)估產(chǎn)生的合成數(shù)據(jù)的真實(shí)性水平。

5. 評(píng)估中的指標(biāo)和性能參數(shù)

評(píng)估中的指標(biāo)和性能參數(shù):

(1)通用性能指標(biāo)包括響應(yīng)時(shí)間、吞吐量、可靠性、可用性;

(2)體系結(jié)構(gòu)指標(biāo)包括執(zhí)行周期劃分、處理器計(jì)算強(qiáng)度;

(3)價(jià)格和能耗指標(biāo)包括性?xún)r(jià)比指標(biāo)、能耗指標(biāo)。

大數(shù)據(jù)系統(tǒng)性能參數(shù):

(1)系統(tǒng)配置參數(shù)。大數(shù)據(jù)系統(tǒng)中大量軟件棧和多種編程語(yǔ)言的使用會(huì)帶來(lái)大量的配置參數(shù)。

(2)資源分配參數(shù)。當(dāng)數(shù)據(jù)中心中部署大數(shù)據(jù)系統(tǒng)時(shí),計(jì)算和網(wǎng)絡(luò)資源由不同系統(tǒng)的工作負(fù)載共享。

論文原文:2018 年發(fā)表于服務(wù)計(jì)算領(lǐng)域頂級(jí)期刊 TSC: (http://ieeexplore.ieee.org/document/7990174/),圖 5 顯示了英文原文導(dǎo)讀圖。

 

 

圖 5. TSC 英文原文導(dǎo)讀圖

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)系統(tǒng) 代碼 評(píng)測(cè) 數(shù)據(jù)庫(kù) 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀(guān)點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇: 深度學(xué)習(xí)中不均衡數(shù)據(jù)集的處理

下一篇:斯坦福大學(xué)CS 230的深度學(xué)習(xí)秘籍—帶你速覽深度學(xué)習(xí)核心知識(shí)