中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一文盤點數(shù)據(jù)集市和數(shù)據(jù)倉庫的差異(附鏈接)

2018-11-16    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

當一家企業(yè)開始應(yīng)用商業(yè)智能(Business Intelligence,BI)的戰(zhàn)略和技術(shù)時,首先需要明確數(shù)據(jù)集市和數(shù)據(jù)倉庫的區(qū)別。理解這種差異將決定你采用何種BI架構(gòu)和數(shù)據(jù)驅(qū)動決策。

商業(yè)智能的目標是運用技術(shù)將數(shù)據(jù)轉(zhuǎn)化為可執(zhí)行的想法,并幫助終端用戶在信息更完備的情況下做出商業(yè)決定,不論是理論戰(zhàn)略還是實際戰(zhàn)略。在闡述各自的實例和結(jié)構(gòu)特點前,本文將先對各自的重要概念進行定義。

數(shù)據(jù)集市定義

數(shù)據(jù)集市是一個面向主題的數(shù)據(jù)存儲庫,其服務(wù)于特定的業(yè)務(wù)領(lǐng)域,如金融或銷售。以下是數(shù)據(jù)集市的一些重要的典型特征。

● 僅包含與特定業(yè)務(wù)或功能單元相關(guān)的源數(shù)據(jù)。

● 數(shù)據(jù)集市的規(guī)模通常是幾十GB的數(shù)量級。

● 通常只保存匯總數(shù)據(jù),一些數(shù)據(jù)集市可能會包含完整的細節(jié)。

● 數(shù)據(jù)集市的搭建要花費不少于一萬美元,以及3-6個月的時間。

● 基于數(shù)據(jù)集市工具得到的決策是影響特定部門運營方式的戰(zhàn)術(shù)決策。

數(shù)據(jù)倉庫定義

數(shù)據(jù)倉庫是用于一個企業(yè)內(nèi)的存儲庫,包含來自不同業(yè)務(wù)、系統(tǒng)和部門的集成數(shù)據(jù)。關(guān)于數(shù)據(jù)倉庫類型,請參照如下文章。

附鏈接:

https://blog.panoply.io/i-choose-you-criteria-for-selecting-a-data-warehouse-platform

以下是數(shù)據(jù)倉庫的特征:

● 包含來自業(yè)務(wù)中的多個單元/主題區(qū)域的數(shù)據(jù)。

● 數(shù)據(jù)倉庫的大小通常為TB量級,至少也要超過100GB。

● 存儲的詳細信息級別很高,包括原始數(shù)據(jù)、匯總數(shù)據(jù)和元數(shù)據(jù)。

● 然而,搭建內(nèi)部系統(tǒng)的成本通常要超過10萬美元,而隨著數(shù)據(jù)倉庫服務(wù)的普及,云計算模式降低了成本。

● 特定工具的業(yè)務(wù)用戶想通過數(shù)據(jù)倉庫信息來做出更明智的戰(zhàn)略業(yè)務(wù)決策,這會影響整個公司。

經(jīng)典的Inmon 和 Kimball爭論

區(qū)分數(shù)據(jù)集市和數(shù)據(jù)倉庫是非常重要的,這源于數(shù)據(jù)倉庫先驅(qū)Bill Inmon和Ralph Kimball提出的兩種截然不同的數(shù)據(jù)建模方法之間的爭論。

Ralph Kimball認為,最好的方法是從最重要的業(yè)務(wù)方面或部門入手,從這些方面可以產(chǎn)生面向特定業(yè)務(wù)線的數(shù)據(jù)集市。隨著時間的推移,企業(yè)可以根據(jù)需要合并其數(shù)據(jù)集市以形成數(shù)據(jù)倉庫。Kimball的方法被稱為自下而上(bottom-up)。

Bill Inmon認為僅僅將數(shù)據(jù)集市結(jié)合起來是不夠的。他提倡創(chuàng)建數(shù)據(jù)倉庫,作為企業(yè)數(shù)據(jù)模型的物理表示,可以根據(jù)需要為特定的業(yè)務(wù)單元創(chuàng)建數(shù)據(jù)集市。

每種方法都有各自的優(yōu)點,許多因素會影響你的決定。應(yīng)該從數(shù)據(jù)集市入手,還是從數(shù)據(jù)倉庫入手,要基于你從事的行業(yè)考慮。

例如,保險公司顯然需要從一開始就有一個高層次的概述,包括所有影響其業(yè)務(wù)模型和戰(zhàn)略選擇的因素,包括人口統(tǒng)計數(shù)據(jù)、股票市場趨勢、索賠歷史、統(tǒng)計概率等,因此采用Inmon方法并從數(shù)據(jù)倉庫開始是最有意義的。

對于中小型營銷企業(yè)來說,從數(shù)據(jù)集市入手更合適。如果該業(yè)務(wù)擴展,未來會包括多個子部門和業(yè)務(wù)線,可以在以后將每個業(yè)務(wù)線的數(shù)據(jù)集市合并到數(shù)據(jù)倉庫中,就像Kimball方法一樣。

結(jié)構(gòu)化細節(jié)

大多數(shù)數(shù)據(jù)庫都是規(guī)范化的,這樣優(yōu)化可以使事務(wù)處理的速度更快,比如添加或刪除數(shù)據(jù)。規(guī)范化的工作方式是重新組織數(shù)據(jù),使其不包含冗余數(shù)據(jù),并將相關(guān)數(shù)據(jù)分離到表中,在指定關(guān)系的表之間使用連接。

數(shù)據(jù)倉庫/市場通常使用非規(guī)范化的數(shù)據(jù)結(jié)構(gòu),其中管理員通過向規(guī)范化數(shù)據(jù)添加冗余數(shù)據(jù)來減少分析查詢的運行時間,從而提高查詢性能。

一個重要的概念是提取、轉(zhuǎn)換和加載(ETL)。ETL從多個數(shù)據(jù)源提取數(shù)據(jù),基于特定的規(guī)則對數(shù)據(jù)進行轉(zhuǎn)換以滿足業(yè)務(wù)需求,最后將數(shù)據(jù)加載(寫入)到目標系統(tǒng)中。

如果從數(shù)據(jù)倉庫入手,通常使用ETL將數(shù)據(jù)直接從源系統(tǒng)獲取到數(shù)據(jù)倉庫,然后根據(jù)需要從數(shù)據(jù)倉庫獲取到數(shù)據(jù)集市。如果采用Kimball方法并從數(shù)據(jù)集市入手,只需將相關(guān)源系統(tǒng)中的數(shù)據(jù)寫入適當?shù)臄?shù)據(jù)集市,然后再執(zhí)行ETL過程,以便從數(shù)據(jù)集市創(chuàng)建數(shù)據(jù)倉庫。

小結(jié)

由于時間限制和資源限制,除了最成熟的企業(yè)之外,所有企業(yè)都應(yīng)該從數(shù)據(jù)集市開始,并隨著時間的推移逐步開發(fā)數(shù)據(jù)倉庫。然而,云計算縮短了時間并降低了構(gòu)建企業(yè)數(shù)據(jù)倉庫的成本,企業(yè)數(shù)據(jù)倉庫可以提供對組織數(shù)據(jù)的單一視圖的訪問。

標簽: 金融 數(shù)據(jù)庫 云計算

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Python數(shù)據(jù)科學“冷門”庫

下一篇:沒有數(shù)學和編程基礎(chǔ),這幾個數(shù)據(jù)科學項目了解一