關(guān)于大數(shù)據(jù)治理的研究與分析
1數(shù)據(jù)治理的背景和現(xiàn)狀
1.1數(shù)據(jù)治理背景
隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長。大約每兩年翻一番,根據(jù)監(jiān)測,這個(gè)速度在2020 年之前會繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。
大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長。信息數(shù)據(jù)的單位由TB-PB-EB-ZB的級別暴增。這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇。如何管理和使用這些數(shù)據(jù),逐漸成為一個(gè)新的領(lǐng)域,于是大數(shù)據(jù)的概念應(yīng)運(yùn)而生。
圖1 數(shù)據(jù)治理背景圖
1.2數(shù)據(jù)治理現(xiàn)狀
大數(shù)據(jù)的快速發(fā)展,使它成為IT領(lǐng)域的又一大新興產(chǎn)業(yè)。據(jù)中央財(cái)經(jīng)大學(xué)中國經(jīng)濟(jì)管理研究院博士張永力估算,國外大數(shù)據(jù)行業(yè)約有1000億美元的市場,而且每年都以10%的速度在增長,增速是軟件行業(yè)的兩倍。我國2012年大數(shù)據(jù)市場規(guī)模大約4.7億元,2013年增速將達(dá)到138%,達(dá)到11.2億元,產(chǎn)業(yè)發(fā)展?jié)摿Ψ浅>薮?。我國大?shù)據(jù)飛速發(fā)展的背后存在諸多的問題:相關(guān)利益交織,協(xié)調(diào)難;方案規(guī)劃容易,落地困難;過度依賴技術(shù)工具;對于數(shù)據(jù)沒有明確區(qū)分。
圖2 數(shù)據(jù)現(xiàn)狀分析圖
2數(shù)據(jù)治理策略
2.1數(shù)據(jù)治理要素
圖3 數(shù)據(jù)治理要素分析圖
2.2數(shù)據(jù)治理策略
第一步:落實(shí)合適的人員負(fù)責(zé)治理。
任何成功的數(shù)據(jù)治理計(jì)劃的第一個(gè)步驟就是,要在本企業(yè)找到CEO可以授權(quán)的人,然后讓該人負(fù)責(zé)項(xiàng)目的具體實(shí)施。沒有什么能取代強(qiáng)有力的領(lǐng)導(dǎo)人。
數(shù)據(jù)治理是涉及人事的一個(gè)難題,這需要在許多不同的利益相關(guān)者之間達(dá)成共識。因而,在本企業(yè)里面選定這樣的領(lǐng)導(dǎo)人是一項(xiàng)重要工作。治理官員一旦選定下來,就要成立由企業(yè)的利益相關(guān)者組成的治理委員會,制訂監(jiān)管政策、向CEO及董事會報(bào)告進(jìn)度。
第二步:調(diào)查清楚所處環(huán)境。
一旦選定了領(lǐng)導(dǎo)小組,就要調(diào)查當(dāng)前情形,并清查不同部門在不同領(lǐng)域的當(dāng)前最佳實(shí)踐。領(lǐng)導(dǎo)小組需要越過獨(dú)立系統(tǒng)看待問題,而企業(yè)數(shù)據(jù)治理評估方法對這項(xiàng)工作來說必不可少。這有助于比較本企業(yè)的數(shù)據(jù)治理計(jì)劃目前處于什么狀態(tài),并且提供了一份路線圖以便確定以后的目標(biāo)。
第三步:制訂數(shù)據(jù)治理策略。
數(shù)據(jù)治理評估之后,治理委員會就應(yīng)當(dāng)考慮制訂遠(yuǎn)景,希望公司的數(shù)據(jù)治理實(shí)踐在接下來的幾年達(dá)到何種目標(biāo),根據(jù)這種需求為未來制訂遠(yuǎn)景。委員會應(yīng)當(dāng)向后規(guī)劃,并且制訂切合實(shí)際的里程碑和項(xiàng)目計(jì)劃來填補(bǔ)相關(guān)的缺口。具體辦法就是制訂關(guān)鍵績效指標(biāo)來跟蹤進(jìn)度,并且向CEO和董事會提交年度報(bào)告來證實(shí)成果。
第四步:算出數(shù)據(jù)價(jià)值。
估算數(shù)據(jù)價(jià)值。要是公司不知道數(shù)據(jù)的價(jià)值,它們就無法提高、保護(hù)或者評估數(shù)據(jù)對賬本底線的價(jià)值。數(shù)據(jù)不是一種普通商品,而是像水龍頭里出來的水--對生命至關(guān)重要,又往往被人們認(rèn)為是理所當(dāng)然的。你要是不知道某物的價(jià)格,就無法算出它的價(jià)值。
如果你想算出數(shù)據(jù)的價(jià)值,就要根據(jù)用戶權(quán)限和IT服務(wù)的效用,為數(shù)據(jù)建立內(nèi)部市場。當(dāng)本企業(yè)的每個(gè)人都在直接付費(fèi)獲取IT服務(wù)和數(shù)據(jù)時(shí),數(shù)據(jù)的價(jià)值就成了公司價(jià)目表上的一部分。
第五步:算出風(fēng)險(xiǎn)概率。
知道數(shù)據(jù)在過去是如何使用和濫用的,這有助于了解數(shù)據(jù)在將來會如何被危及和披露。每家企業(yè)都有一些原因,如一些事件和損失在獨(dú)立系統(tǒng)、層次體系和商業(yè)報(bào)告中消失。這些數(shù)據(jù)已經(jīng)可供使用,卻沒有被大多數(shù)企業(yè)所使用。收集這些數(shù)據(jù),與其意義聯(lián)系起來,并研究長期的損失趨勢,這可以幫助任何企業(yè)把風(fēng)險(xiǎn)管理轉(zhuǎn)變成基于事實(shí)的商業(yè)智能方法,從而可分析過去事件,預(yù)測未來損失,改變當(dāng)前的政策要求,成為未來改善風(fēng)險(xiǎn)緩解策略。
第六步:密切關(guān)注控制措施的效果。
數(shù)據(jù)治理在很大程度上涉及企業(yè)的組織行為。企業(yè)每天在變化,因而它們的數(shù)據(jù)、價(jià)值及風(fēng)險(xiǎn)也在迅速變化。遺憾的是,大多數(shù)企業(yè)每年對自己只評估一次。要是公司無法改變組織控制措施來滿足每天或者每周出現(xiàn)的需求,也就談不上變化治理。
圖4 數(shù)據(jù)治理實(shí)施建議圖
3元數(shù)據(jù)管理
3.1元數(shù)據(jù)的定義
技術(shù)元數(shù)據(jù)是存儲關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它主要包括以下信息:數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式;
業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實(shí)際系統(tǒng)之間的語義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務(wù)術(shù)語所表達(dá)的數(shù)據(jù)模型、對象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析方法以及公式和報(bào)表的信息;具體包括以下信息:企業(yè)概念模型:這是業(yè)務(wù)元數(shù)據(jù)所應(yīng)提供的重要的信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個(gè)企業(yè)的業(yè)務(wù)概念和相互關(guān)系。
3.2為什么要進(jìn)行元數(shù)據(jù)管理
圖5 數(shù)據(jù)管理分析圖
3.3數(shù)據(jù)模型標(biāo)準(zhǔn)化
圖6 數(shù)據(jù)模型示意圖
3.4標(biāo)準(zhǔn)化體系(數(shù)據(jù)定義&模型設(shè)計(jì))
標(biāo)準(zhǔn)化體系:一定范圍內(nèi)的標(biāo)準(zhǔn)按其內(nèi)在聯(lián)系形成的科學(xué)的有機(jī)整體。標(biāo)準(zhǔn)化體系它規(guī)定了質(zhì)量方針、目標(biāo)、職責(zé)和程序,并通過建立相關(guān)體系進(jìn)行過程管理、質(zhì)量策劃、質(zhì)量控制、質(zhì)量保證和質(zhì)量改進(jìn)。
圖7 標(biāo)準(zhǔn)化體系示意圖
4主數(shù)據(jù)
4.1主數(shù)據(jù)的定義
企業(yè)主數(shù)據(jù)分散存儲在企業(yè)各系統(tǒng)內(nèi),是對企業(yè)至關(guān)重要的核心業(yè)務(wù)實(shí)體的數(shù)據(jù),比如客戶、合作伙伴、員工等。
4.2為什么要作主數(shù)據(jù)管理
主數(shù)據(jù)管理(MDM Master Data Management)描述了一組規(guī)程、技術(shù)和解決方案,這些規(guī)程、技術(shù)和解決方案用于為所有利益相關(guān)方(如用戶、應(yīng)用程序、數(shù)據(jù)倉庫、流程以及貿(mào)易伙伴)創(chuàng)建并維護(hù)業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。
主數(shù)據(jù)管理的關(guān)鍵就是“管理”。主數(shù)據(jù)管理不會創(chuàng)建新的數(shù)據(jù)或新的數(shù)據(jù)縱向結(jié)構(gòu)。相反,它提供了一種方法,使企業(yè)能夠有效地管理存儲在分布系統(tǒng)中的數(shù)據(jù)。主數(shù)據(jù)管理使用現(xiàn)有的系統(tǒng),它從這些系統(tǒng)中獲取最新信息,并提供了先進(jìn)的技術(shù)和流程,用于自動、準(zhǔn)確、及時(shí)地分發(fā)和分析整個(gè)企業(yè)中的數(shù)據(jù),并對數(shù)據(jù)進(jìn)行驗(yàn)證。
圖8 數(shù)據(jù)管理原因分析圖
4.3如何做好主數(shù)據(jù)管理
通過單一平臺上成熟的多領(lǐng)域MDM集中主數(shù)據(jù)的管理,從而消除點(diǎn)對點(diǎn)集成,簡化您的結(jié)構(gòu),降低維護(hù)成本,改進(jìn)數(shù)據(jù)治理。Informatica MDM(主數(shù)據(jù)管理)能夠通過以下步驟幫助企業(yè)成功進(jìn)行多領(lǐng)域主數(shù)據(jù)管理:
1. 建模:用靈活的數(shù)據(jù)模型定義任意類型的主數(shù)據(jù)
2. 識別:快速匹配和準(zhǔn)確識別重復(fù)項(xiàng)目
3. 解決:合并以創(chuàng)建可靠、唯一的真實(shí)來源
4. 聯(lián)系:揭示各類主數(shù)據(jù)之間的關(guān)系
5. 治理:創(chuàng)建、使用、管理和監(jiān)控主數(shù)據(jù)
4.4主數(shù)據(jù)實(shí)施流程
圖9 數(shù)據(jù)管理實(shí)施流程圖
4.5主數(shù)據(jù)管理體系
圖10 主數(shù)據(jù)管理體系流程圖
5數(shù)據(jù)質(zhì)量管理
5.1數(shù)據(jù)質(zhì)量問題
·數(shù)據(jù)的值域
·數(shù)據(jù)的定義
·數(shù)據(jù)的完整性
·數(shù)據(jù)的有效性
·業(yè)務(wù)規(guī)則
·結(jié)構(gòu)完整性
·數(shù)據(jù)轉(zhuǎn)換
·數(shù)據(jù)流
5.2組織架構(gòu)設(shè)計(jì)
圖11 架構(gòu)分析圖
5.3數(shù)據(jù)質(zhì)量治理流程
圖12 數(shù)據(jù)質(zhì)量治理流程圖
5.4數(shù)據(jù)治理管理方法
建立合理的數(shù)據(jù)管理機(jī)構(gòu)、制定數(shù)據(jù)質(zhì)量管理機(jī)制、落實(shí)人員執(zhí)行責(zé)任、保障組織間高效的溝通、持續(xù)監(jiān)控?cái)?shù)據(jù)應(yīng)用過程和領(lǐng)導(dǎo)強(qiáng)有力的督促是保障企業(yè)數(shù)據(jù)質(zhì)量的關(guān)鍵。
圖13 策略與方法分析圖