巖康教育老師直接接聽

400-029-09** 400-029-0997 轉(zhuǎn) 147738
查看完整號(hào)碼
掃碼撥號(hào)
微信掃碼撥號(hào)

技術(shù)充電站 | 數(shù)據(jù)倉(cāng)庫(kù)概述

來源:巖康實(shí)訓(xùn) 2022/11/9 15:38:30

數(shù)據(jù)倉(cāng)庫(kù)概述,關(guān)注不迷路…

1. 基本概念

英文名稱為Data Warehouse,可簡(jiǎn)寫為DW或DWH。數(shù)據(jù)倉(cāng)庫(kù)的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(Decision Support)。

數(shù)據(jù)倉(cāng)庫(kù)是存數(shù)據(jù)的,企業(yè)的各種數(shù)據(jù)往里面存,主要目的是為了分析有效數(shù)據(jù),后續(xù)會(huì)基于它產(chǎn)出供分析挖掘的數(shù)據(jù),或者數(shù)據(jù)應(yīng)用需要的數(shù)據(jù),如企業(yè)的分析性報(bào)告和各類報(bào)表等。

可以理解為:面向分析的存儲(chǔ)系統(tǒng)。

2. 主要特征

數(shù)據(jù)倉(cāng)庫(kù)是面向主題的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volatile)和時(shí)變的(Time-Variant )數(shù)據(jù)集合,用以支持管理決策。

1)面向主題

數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,數(shù)據(jù)倉(cāng)庫(kù)通過一個(gè)個(gè)主題域?qū)⒍鄠€(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)加載到一起,為了各個(gè)主題(如:用戶、訂單、商品等)進(jìn)行分析而建,操作型數(shù)據(jù)庫(kù)是為了支撐各種業(yè)務(wù)而建立。

2)集成性

數(shù)據(jù)倉(cāng)庫(kù)會(huì)將不同源數(shù)據(jù)庫(kù)中的數(shù)據(jù)匯總到一起,數(shù)據(jù)倉(cāng)庫(kù)中的綜合數(shù)據(jù)不能從原有的數(shù)據(jù)庫(kù)系統(tǒng)直接得到。因此在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必然要經(jīng)過統(tǒng)一與整合,這一步是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中關(guān)鍵、復(fù)雜的一步(ETL),要統(tǒng)一源數(shù)據(jù)中所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、字長(zhǎng)不一致,等等。

3)非易失性

操作型數(shù)據(jù)庫(kù)主要服務(wù)于日常的業(yè)務(wù)操作,使得數(shù)據(jù)庫(kù)需要不斷地對(duì)數(shù)據(jù)實(shí)時(shí)更新,以便迅速獲得當(dāng)前最新數(shù)據(jù),不至于影響正常的業(yè)務(wù)運(yùn)作。

在數(shù)據(jù)倉(cāng)庫(kù)中只要保存過去的業(yè)務(wù)數(shù)據(jù),不需要每一筆業(yè)務(wù)都實(shí)時(shí)更新數(shù)據(jù)倉(cāng)庫(kù),而是根據(jù)商業(yè)需要每隔一段時(shí)間把一批較新的數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)。

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)反映的是一段相當(dāng)長(zhǎng)的時(shí)間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時(shí)點(diǎn)的數(shù)據(jù)庫(kù)的集合,以及基于這些快照進(jìn)行統(tǒng)計(jì)、綜合和重組的導(dǎo)出數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般僅執(zhí)行查詢操作,很少會(huì)有刪除和更新。但是需定期加載和刷新數(shù)據(jù)。

4)時(shí)變性

數(shù)據(jù)倉(cāng)庫(kù)包含各種粒度的歷史數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)可能與某個(gè)特定日期、星期、月份、季度或者年份有關(guān)。數(shù)據(jù)倉(cāng)庫(kù)的目的是通過分析企業(yè)過去一段時(shí)間業(yè)務(wù)的經(jīng)營(yíng)狀況,挖掘其中隱藏的模式。雖然數(shù)據(jù)倉(cāng)庫(kù)的用戶不能修改數(shù)據(jù),但并不是說數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是永遠(yuǎn)不變的。分析的結(jié)果只能反映過去的情況,當(dāng)業(yè)務(wù)變化后,挖掘出的模式會(huì)失去時(shí)效性。因此數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)需要定時(shí)更新,以適應(yīng)決策的需要。

3. 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別

首先,數(shù)據(jù)倉(cāng)庫(kù)的出現(xiàn),并不是要取代數(shù)據(jù)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù),是在數(shù)據(jù)庫(kù)已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它決不是所謂的“大型數(shù)據(jù)庫(kù)”。兩者的差別體現(xiàn)在以下幾點(diǎn):

數(shù)據(jù)庫(kù)是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)是面向主題設(shè)計(jì)的

數(shù)據(jù)庫(kù)一般存儲(chǔ)業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的一般是歷史數(shù)據(jù)

數(shù)據(jù)庫(kù)設(shè)計(jì)是盡量避免冗余,一般針對(duì)某一業(yè)務(wù)應(yīng)用進(jìn)行設(shè)計(jì),比如一張簡(jiǎn)單的User表,記錄用戶名、密碼等簡(jiǎn)單數(shù)據(jù)即可,符合業(yè)務(wù)應(yīng)用,但是不符合分析。數(shù)據(jù)倉(cāng)庫(kù)在設(shè)計(jì)是有意引入冗余,依照分析需求,分析維度、分析指標(biāo)進(jìn)行設(shè)計(jì)

數(shù)據(jù)庫(kù)是為捕獲數(shù)據(jù)而設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)是為分析數(shù)據(jù)而設(shè)計(jì)

4. 數(shù)據(jù)倉(cāng)庫(kù)的分層架構(gòu)

按照數(shù)據(jù)流入流出的過程,數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)可分為三層——源數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)應(yīng)用。

源數(shù)據(jù)層(ODS):此層數(shù)據(jù)無任何更改,直接沿用外圍系統(tǒng)數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù),不對(duì)外開放;為臨時(shí)存儲(chǔ)層,是接口數(shù)據(jù)的臨時(shí)存儲(chǔ)區(qū)域,為后一步的數(shù)據(jù)處理做準(zhǔn)備。

數(shù)據(jù)倉(cāng)庫(kù)層(DW):也稱為細(xì)節(jié)層,DW層的數(shù)據(jù)應(yīng)該是一致的、準(zhǔn)確的、干凈的數(shù)據(jù),即對(duì)源系統(tǒng)數(shù)據(jù)進(jìn)行了清洗(去除了雜質(zhì))后的數(shù)據(jù)。

數(shù)據(jù)應(yīng)用層(DA或APP):前端應(yīng)用直接讀取的數(shù)據(jù)源;根據(jù)報(bào)表、專題分析需求而計(jì)算生成的數(shù)據(jù)。

數(shù)據(jù)倉(cāng)庫(kù)從各數(shù)據(jù)源獲取數(shù)據(jù)及在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù)轉(zhuǎn)換和流動(dòng)都可以認(rèn)為是ETL(抽取Extract, 轉(zhuǎn)化Transfer, 裝載Load)的過程,ETL是數(shù)據(jù)倉(cāng)庫(kù)的流水線,也可以認(rèn)為是數(shù)據(jù)倉(cāng)庫(kù)的血液,它維系著數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的新陳代謝,而數(shù)據(jù)倉(cāng)庫(kù)日常的管理和維護(hù)工作的大部分精力就是保持ETL的正常和穩(wěn)定。

Q:為什么要對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行分層?

A:用空間換時(shí)間,通過大量的預(yù)處理來提升應(yīng)用系統(tǒng)的用戶體驗(yàn)(效率),因此數(shù)據(jù)倉(cāng)庫(kù)會(huì)存在大量冗余的數(shù)據(jù);不分層的話,如果源業(yè)務(wù)系統(tǒng)的業(yè)務(wù)規(guī)則發(fā)生變化將會(huì)影響整個(gè)數(shù)據(jù)清洗過程,工作量巨大。通過數(shù)據(jù)分層管理可以簡(jiǎn)化數(shù)據(jù)清洗的過程,因?yàn)榘言瓉硪徊降墓ぷ鞣值搅硕鄠€(gè)步驟去完成,相當(dāng)于把一個(gè)復(fù)雜的工作拆成了多個(gè)簡(jiǎn)單的工作,把一個(gè)大的黑盒變成了一個(gè)白盒,每一層的處理邏輯都相對(duì)簡(jiǎn)單和容易理解,這樣我們比較容易保證每一個(gè)步驟的正確性,當(dāng)數(shù)據(jù)發(fā)生錯(cuò)誤的時(shí)候,往往我們只需要局部調(diào)整某個(gè)步驟即可。

5. 數(shù)倉(cāng)的元數(shù)據(jù)管理

1)元數(shù)據(jù)(Meta Date),主要記錄數(shù)據(jù)倉(cāng)庫(kù)中模型的定義、各層級(jí)間的映射關(guān)系、監(jiān)控?cái)?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)狀態(tài)及ETL的任務(wù)運(yùn)行狀態(tài)。一般會(huì)通過元數(shù)據(jù)資料庫(kù)(Metadata Repository)來統(tǒng)一地存儲(chǔ)和管理元數(shù)據(jù),其主要目的是使數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)、部署、操作和管理能達(dá)成協(xié)同和一致。

2)元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)的重要組成部分,元數(shù)據(jù)管理是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵組件,貫穿數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建的整個(gè)過程,直接影響著數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建、使用和維護(hù)。

3)元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)為開發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)的IT 人員使用,它描述了與數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理和維護(hù)相關(guān)的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉(cāng)庫(kù)模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問權(quán)限等。而業(yè)務(wù)元數(shù)據(jù)為管理層和業(yè)務(wù)分析人員服務(wù),從業(yè)務(wù)角度描述數(shù)據(jù),包括商務(wù)術(shù)語(yǔ)、數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫助業(yè)務(wù)人員更好地理解數(shù)據(jù)倉(cāng)庫(kù)中哪些數(shù)據(jù)是可用的以及如何使用。

添加微信咨詢
弭老師 @青島巖康教育

課程咨詢

微信號(hào):185******43

立即咨詢

“青島巖康教育”是青島巖康教育有限公司在教育寶平臺(tái)開設(shè)的店鋪,若該店鋪內(nèi)信息涉嫌虛假或違法,請(qǐng)點(diǎn)擊這里向教育寶反饋,我們將及時(shí)進(jìn)行處理。

機(jī)構(gòu)評(píng)分

環(huán)境:4.0師資:4.0服務(wù):4.0效果:4.0

公示信息

店鋪名稱:青島巖康教育

單位名稱:青島巖康教育有限公司

賬號(hào)名稱:qdykjy(185******43)

所屬城市:山東青島

入駐時(shí)長(zhǎng):6年

在線客服:在線聊

微信咨詢

返回頂部