中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

大數(shù)據(jù)項(xiàng)目失敗的4個原因和成功的4個方法

2019-10-12    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

By Andy Patrizio  來源:InfoWorld

幾乎所有的大數(shù)據(jù)項(xiàng)目都以失敗告終,盡管有各種成熟的技術(shù)。以下是如何讓大數(shù)據(jù)工作真正成功的方法:

大數(shù)據(jù)項(xiàng)目通常在規(guī)模和范圍上都很大,而且非常雄心勃勃,但往往都是徹底的失敗。2016年,Gartner估計(jì)有60%的大數(shù)據(jù)項(xiàng)目失敗。一年后,Gartner分析師Nick Heudecker‏說,他的公司是“過于保守的把失敗率估計(jì)為60%,事實(shí)上接近85%。今天,他說一切都沒有改變。

Gartner并不是唯一這樣認(rèn)為的公司。長期擔(dān)任微軟高管(直到最近)的Snowflake Computing首席執(zhí)行官鮑勃•穆格里亞(Bob Muglia)告訴分析網(wǎng)站Datanami:“我找不到一個滿意的Hadoop客戶。就是這么簡單。實(shí)際上成功馴服Hadoop的客戶數(shù)量可能少于20個,甚至可能少于10個。考慮到該產(chǎn)品技術(shù)在市場上存在的時(shí)間,以及一般資源的投入,這簡直是瘋了。當(dāng)然,Hadoop是引發(fā)大數(shù)據(jù)熱的引擎。

其他熟悉大數(shù)據(jù)的人士也表示,這個問題仍然現(xiàn)實(shí)、嚴(yán)重,但不完全是技術(shù)問題。事實(shí)上,與真正的內(nèi)因相比,技術(shù)是導(dǎo)致失敗的次要原因。以下是大數(shù)據(jù)項(xiàng)目失敗的四個關(guān)鍵原因,以及你成功的四個關(guān)鍵途徑。

大數(shù)據(jù)問題1:整合性差

Heudecker說,大數(shù)據(jù)失敗背后有一個主要的技術(shù)問題,那就是整合來自多個來源的孤立數(shù)據(jù),以獲得公司所需的見解,但是與孤立的舊系統(tǒng)建立連接本就不容易,集成成本是軟件成本的5到10倍。“最大的問題是簡單的集成將如何將多個數(shù)據(jù)源鏈接在一起以獲得某種結(jié)果?”很多人走數(shù)據(jù)湖的路線,認(rèn)為如果我把一切都聯(lián)系起來,奇跡就會發(fā)生。事實(shí)并非如此,”他說。

孤立的數(shù)據(jù)是問題的一部分?蛻舾嬖V他,他們把數(shù)據(jù)從記錄系統(tǒng)中提取出來,放到一個類似數(shù)據(jù)湖的通用環(huán)境中,卻搞不清楚這些值的含義。“當(dāng)你把數(shù)據(jù)放入數(shù)據(jù)湖,你怎么知道數(shù)字3是什么意思?””Heudecker問道。

普華永道(PwC)高級研究員艾倫•莫里森(Alan Morrison)表示,由于他們是在silo中工作,或者創(chuàng)建只是數(shù)據(jù)沼澤的數(shù)據(jù)湖,因此他們只能觸及到自己所能完成的工作的皮毛。“他們不理解數(shù)據(jù)中的所有關(guān)系,這些關(guān)系需要被挖掘或推斷出來,并使之顯式,這樣機(jī)器才能充分解釋這些數(shù)據(jù)。”他們需要創(chuàng)建一個知識圖層,以便機(jī)器能夠解釋所有映射到底層的實(shí)例數(shù)據(jù)。否則,你只能得到一個數(shù)據(jù)湖,一個數(shù)據(jù)沼澤,”他說。

大數(shù)據(jù)問題之2:目標(biāo)不明

你可能會認(rèn)為大多數(shù)從事大數(shù)據(jù)項(xiàng)目的人心里都有一個目標(biāo),但令人驚訝的是,很多人沒有。他們只是在事后才啟動這個項(xiàng)目。

“你必須很好地審視問題。人們認(rèn)為他們可以將結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)連接起來,從而獲得所需的洞察力。你必須提前很好地定義這個問題。你想要獲得什么樣的洞察力?數(shù)據(jù)集成軟件公司Talend的產(chǎn)品營銷經(jīng)理雷·克里斯托弗(Ray Christopher)說。

企業(yè)應(yīng)用咨詢公司(Enterprise Application Consulting)的首席分析師喬舒亞·格林鮑姆(Joshua Greenbaum)表示,困擾大數(shù)據(jù)和數(shù)據(jù)倉庫項(xiàng)目的部分原因是,主要的指導(dǎo)標(biāo)準(zhǔn)通常是積累大量數(shù)據(jù),而不是解決離散的業(yè)務(wù)問題。

“如果你把大量的數(shù)據(jù)放在一起,你會得到一個數(shù)據(jù)轉(zhuǎn)儲。我稱之為衛(wèi)生填埋場。垃圾場不是一個尋找解決方案的好地方。“我總是告訴客戶,先確定需要解決哪些離散業(yè)務(wù)問題,然后再著手解決,然后查看可用數(shù)據(jù)的質(zhì)量,一旦確定了業(yè)務(wù)問題,就解決數(shù)據(jù)問題。”

“為什么大多數(shù)大數(shù)據(jù)項(xiàng)目會失敗?”首先,大多數(shù)大數(shù)據(jù)項(xiàng)目的領(lǐng)導(dǎo)者缺乏遠(yuǎn)見,”普華永道的莫里森表示。“企業(yè)對大數(shù)據(jù)感到困惑。大多數(shù)只考慮數(shù)字?jǐn)?shù)據(jù)或黑盒NLP和識別引擎,它們做簡單的文本挖掘和其他類型的模式識別。”

大數(shù)據(jù)問題3:技能差距

很多時(shí)候,公司認(rèn)為他們?yōu)閿?shù)據(jù)倉庫建立的內(nèi)部技能將轉(zhuǎn)化為大數(shù)據(jù),但事實(shí)顯然并非如此。首先,數(shù)據(jù)倉庫和大數(shù)據(jù)以完全相反的方式處理數(shù)據(jù):數(shù)據(jù)倉庫采用寫模式,這意味著數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前就被清理、處理、結(jié)構(gòu)化和組織。

在大數(shù)據(jù)中,數(shù)據(jù)是累積的,讀取時(shí)應(yīng)用模式,讀取時(shí)處理數(shù)據(jù)。因此,如果數(shù)據(jù)處理從一種方法倒退到另一種方法,您可以打賭技能和工具也是如此。這只是一個例子。

“技能永遠(yuǎn)是一個挑戰(zhàn)。如果我們談?wù)摰氖?0年后的大數(shù)據(jù),仍然會面臨挑戰(zhàn),”Heudecker說。“很多人把他們的帽子掛在Hadoop上。我的客戶在尋找Hadoop資源時(shí)遇到了挑戰(zhàn)。Spark更好一些,因?yàn)闂8。菀子?xùn)練。Hadoop是幾十個軟件組件。”

大數(shù)據(jù)問題4:技術(shù)代溝

大數(shù)據(jù)項(xiàng)目經(jīng)常從舊的數(shù)據(jù)筒倉中提取數(shù)據(jù),并試圖將它們與新的數(shù)據(jù)源合并,比如傳感器、網(wǎng)絡(luò)流量或社交媒體。這并不完全是企業(yè)的錯,他們在大數(shù)據(jù)分析出現(xiàn)之前就收集了這些數(shù)據(jù),但這仍然是一個問題。

格林鮑姆說:“幾乎最大的技能缺失是如何將這兩個利益相關(guān)者融合起來,讓他們共同努力解決復(fù)雜的問題。”“數(shù)據(jù)豎井可能成為大數(shù)據(jù)項(xiàng)目的障礙,因?yàn)闆]有任何標(biāo)準(zhǔn)。因此,當(dāng)他們開始考慮規(guī)劃時(shí),他們發(fā)現(xiàn)這些系統(tǒng)沒有以任何方式實(shí)現(xiàn),這些數(shù)據(jù)沒有得到重用。”

“對于不同的架構(gòu),你需要做不同的處理,”Talend的Christopher說。“技術(shù)技能和架構(gòu)的差異是你不能將現(xiàn)有的工具用于本地?cái)?shù)據(jù)倉庫并將其與大數(shù)據(jù)項(xiàng)目集成的一個常見原因——因?yàn)檫@些技術(shù)處理新數(shù)據(jù)的成本太高了。”所以你需要的是‘火星家庭’,你需要學(xué)習(xí)新的語言。”

大數(shù)據(jù)解決方案1:提前計(jì)劃

這是一個老生常談的話題,但在這里是適用的:如果你計(jì)劃失敗了,那就計(jì)劃失敗吧。高德納的Heudecker說:“成功的公司是那些有結(jié)果的公司。”選擇一些小的、可實(shí)現(xiàn)的、新的事情。不要接受遺留用例,因?yàn)槟鷷艿较拗啤?rdquo;

“他們需要首先考慮數(shù)據(jù),并以機(jī)器可讀的方式為他們的組織建模,以便數(shù)據(jù)為組織服務(wù),”普華永道的莫里森說。

大數(shù)據(jù)解決方案2:協(xié)同工作

通常情況下,利益相關(guān)者被排除在大數(shù)據(jù)項(xiàng)目之外,而正是這些人會利用這些結(jié)果。Heudecker說,如果所有的利益相關(guān)者合作,他們可以克服許多障礙。他表示:“如果有技能的人一起工作,并與業(yè)務(wù)部門合作,提供可操作的結(jié)果,那將有所幫助。”

Heudecker指出,在大數(shù)據(jù)領(lǐng)域取得成功的公司在必要的技能上投入了大量資金。他在數(shù)據(jù)驅(qū)動型公司(如金融服務(wù)公司、優(yōu)步(Uber)、Lyft和Netflix)身上看到了最明顯的這一點(diǎn)。

“讓它成為一項(xiàng)團(tuán)隊(duì)運(yùn)動,幫助管理和收集數(shù)據(jù),凈化它。這樣做也可以提高數(shù)據(jù)的完整性。

大數(shù)據(jù)解決方案3:聚焦

人們似乎有這樣一種心態(tài),即大數(shù)據(jù)項(xiàng)目需要規(guī)模龐大且雄心勃勃。就像你第一次學(xué)習(xí)的東西一樣,成功最好的方法是從小事開始,然后逐漸擴(kuò)大自己的野心和范圍。

“他們應(yīng)該非常狹隘地定義他們在做什么,”Heudecker說。“他們應(yīng)該選擇一個有問題的領(lǐng)域,并擁有它,比如欺詐檢測、細(xì)分客戶,或者弄清楚在千禧一代的市場上應(yīng)該推出什么新產(chǎn)品。”

“在一天結(jié)束的時(shí)候,你必須詢問你想要的洞察力或者將業(yè)務(wù)流程數(shù)字化,”Christopher說。“你不只是把技術(shù)用于解決商業(yè)問題;你必須預(yù)先定義它。數(shù)據(jù)湖是必要的,但如果數(shù)據(jù)不會被商業(yè)上的任何人使用,你就不想收集數(shù)據(jù)。”

在很多情況下,這也意味著不要讓自己的公司過度膨脹。“在我研究過的所有公司中,只有幾百個關(guān)鍵概念和關(guān)系是整個企業(yè)賴以運(yùn)行的。一旦你理解了這一點(diǎn),你就會意識到,這數(shù)百萬個區(qū)別只不過是這幾百件重要事情的微小變化。”事實(shí)上,你會發(fā)現(xiàn)許多細(xì)微的變化根本不是變化。它們其實(shí)是一樣的東西,只是名字不同,結(jié)構(gòu)不同,或者標(biāo)簽不同。”

大數(shù)據(jù)解決方案4:拋棄傳統(tǒng)

雖然您可能希望使用收集并存儲在數(shù)據(jù)倉庫中的那些tb級的數(shù)據(jù),但事實(shí)是,如果您只關(guān)注為大數(shù)據(jù)設(shè)計(jì)的存儲系統(tǒng)中新收集的數(shù)據(jù),并將其設(shè)計(jì)為無豎井存儲,那么您可能會得到更好的服務(wù)。

“我絕對建議,不要僅僅因?yàn)槟愕墓臼乾F(xiàn)有技術(shù)基礎(chǔ)設(shè)施的許可證,就一定要感激它,”咨詢師Greenbaum說。通常,新的復(fù)雜問題可能需要新的復(fù)雜解決方案;氐焦镜呐f工具上工作十年不是正確的方法。許多公司使用舊的工具,這會扼殺項(xiàng)目。”

Morrison 指出:“企業(yè)需要停止糾纏于自己的內(nèi)衣,而應(yīng)該拋棄創(chuàng)造更多筒倉的傳統(tǒng)架構(gòu)。他還說,他們需要停止期望供應(yīng)商為他們解決復(fù)雜的系統(tǒng)問題。幾十年來,許多人似乎認(rèn)為他們可以通過購買來解決大數(shù)據(jù)問題。任何大數(shù)據(jù)問題都是系統(tǒng)性問題。當(dāng)涉及到任何復(fù)雜的系統(tǒng)變化時(shí),你必須想辦法解決,”他說。

標(biāo)簽: 大數(shù)據(jù)項(xiàng)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:為數(shù)據(jù)科學(xué)初學(xué)者提供10個很棒的Python學(xué)習(xí)資源

下一篇:辨析BI、數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺內(nèi)涵及差異點(diǎn)