大數據

關于數據湖的治理,企業一般會遇到哪些挑戰?

判定一個數據治理計劃的成功與否,也許并沒有一個嚴格的標準。但總體來說,一個成功的數據治理計劃,往往需要通過一定的策略、標準和流程,在整個組織架構中有效地、適當地使用高質量數據。對于搭建了“數據湖”環境,并且希望借此獲得高質量數據分析結果的組織來說,如何對數據湖進行治理,也就成為了組織整個數據治理計劃的一個重要部分。

但是,如何“打理”好一個龐大的數據湖,為組織的IT部門提出了各種挑戰。在開始討論數據湖治理的挑戰之前,我們首先有必要明確一下數據湖的定義:它是數據平臺類型的一種,可容納大量原始數據,通常以其原生格式保留——直到需要將其用于分析時。

傳統的數據倉庫將數據存儲在關系表中,而數據湖則使用平面架構。每個數據元素被分配一個唯一的標識符,并用一組元數據標簽進行標記。因此,與數據倉庫相比,數據湖的結構更少。在訪問數據湖中的數據,將其用于分析時(而不是將數據加載到數據湖中),將對數據進行分類和組織。

關于數據湖的治理,企業一般會遇到哪些挑戰?

有效的數據治理使組織能夠提高數據質量和一致性,并最大程度地利用數據進行業務決策,從而改善業務規劃和財務績效。應用于數據治理的數據管理細分學科領域包括數據質量、元數據管理和數據安全性——這些因素都會影響到數據湖治理。以下是數據湖治理的五個常見挑戰:

識別正確的數據源,并對其進行維護

在許多數據湖中,來源元數據往往并沒有被捕獲,或根本不可用,這使得數據湖內容的有效性并不那么可信。例如,記錄系統或數據集的業務所有者可能并未列出,或者明顯冗余的數據可能都會給數據分析人員帶來問題。至少應記錄數據湖中所有數據的來源元數據,讓用戶可以借此來了解數據的來源。

元數據管理問題

元數據為我們提供了數據集內容的各種相關信息,并且能夠使數據在應用程序中更易于理解和使用。但是許多數據湖的實施方案往往忽略了一點,對于收集的數據應該使用正確的數據定義。而且,由于原始數據都會被加載到數據湖中,因此許多組織并沒有相應的步驟去驗證數據或對數據使用組織化的標準。數據湖中的數據若缺少適當的元數據管理,那么這些數據對于分析的用處可能就不會很大。

數據治理和數據質量之間缺乏協調

數據湖治理和數據質量工作的不協調,會使劣質數據進入數據湖。當數據用于分析且助力業務決策時,可能會導致結果準確度有所降低,進一步,甚至將使整個組織對數據湖喪失信心以及對數據的普遍不信任。有效的數據湖實施方案,需要數據質量分析師和工程師與數據治理團隊和業務數據管理員密切合作,以應用數據質量策略,分析數據并采取必要的措施來提高其質量。

關于數據湖的治理,企業一般會遇到哪些挑戰?

數據治理和數據安全之間缺乏協調

在這種情況下,未在治理流程中正確應用的數據安全標準和規則,可能會在訪問受隱私法規保護的個人數據和其他類型的敏感數據時遇到一些問題。盡管數據湖本身旨在成為一個相當開放的數據源,但仍需要安全性和訪問控制措施,并且數據治理和數據安全團隊應在數據湖設計、數據裝載過程以及正在進行的數據治理工作中協同努力。

使用同一個數據湖的業務部門之間可能產生沖突

不同部門對于相似的數據可能會有不同的業務規則,可能會因此無法調和數據間的差異來獲得準確的分析結果。擁有一個有效的數據治理程序,并具有關于數據策略、標準、過程和定義的企業全局視圖,比如企業業務詞匯表,可以減少當多個業務部門使用一個數據湖時出現的問題。如果企業有多個數據湖,則每個數據湖都應包含在數據治理流程中,并為其分配業務數據管理員。

總而言之,通過在企業整個系統架構環境的設計、建設和維護過程中,制定有效且合理的數據治理、元數據管理、數據質量和數據安全方案,并由經驗豐富的專業人員積極參與,可以大大提高數據湖的價值。否則的話,企業的數據湖很可能將劣化為數據沼澤。

我還沒有學會寫個人說明!

疫情下我對產業的判斷,不忘初心,砥礪前行

上一篇

在線教育需求爆發,23萬家在線教育機構將受益于電子合同

下一篇

你也可能喜歡

關于數據湖的治理,企業一般會遇到哪些挑戰?

長按儲存圖像,分享給朋友

ITPUB 每周精要將以郵件的形式發放至您的郵箱


微信掃一掃

微信掃一掃
重庆时时后一8码方法 澳洲幸运5彩票控 广东快乐10分彩票控 3d杀一码 mp5黄色片下载 山东群英会开奖近500期查询 一分钟赛车有计划吗 雪缘园积分榜德甲 2011活塞vs湖人 北京快三计划方案 江苏11选5遗漏报表 6加1*规则黑龙江 长春小姐那里找 河北快三 快3走势图表走 彩吧3d图谜第四版 炒股亏了几十万抑郁了