Data Fabric跟Data Mesh有何異同?企業該選擇哪種數據架構?

給CDO與Data-driven企業領導者的快速指南

LnData 麟數據科技
9 min readJun 20, 2023

你也遇過這些數據痛點嗎?

伴隨數據類型日益多樣化、數據孤島(Data Silos, 指企業內組織數據隔閡,如同一座座孤島)問題嚴重、數據結構愈加複雜,企業在分散的數據環境中如何高效管理和利用多維數據成為極待解決的難題。

與此同時,隨著企業上雲成為一大趨勢,在混合數據環境下,企業又該如何跨平台、跨環境,並即時地收集、訪問、管理、共享數據,進而從不斷變化、高度相關、卻又四處分散的數據中獲得有效洞察,執行智能化決策?

Data Fabric(數據經緯)及 Data Mesh(數據網格)是目前討論度最高的兩個數據架構概念,對於想要優化數據管理策略、提高數據質量和有效運用的CDO與其他技術部門領導者而言,了解這些概念至關重要。這篇文章將透過淺談 Data Mesh 和 Data Fabric 之間的異同和優缺,幫助企業選擇及調整最能滿足其目標的架構!

什麼是 Data Fabric 數據經緯?

Data Fabric 「數據經緯」 是一種整合式的數據架構「技術」,透過快速建置虛擬層在各種數據存儲庫之上,就能夠經由單一平台查看資料、轉換、整合到應用工具,讓散亂在各地的資料能夠透過虛擬層合而為一。

Data Fabric 數據經緯基礎框架

如圖所示,使用者可以透過 Data Fabric 觸及到幾乎任何來源類型的資料,包括地端、公有雲端和私有雲端、邊緣裝置和 IoT 裝置。並透過數據管線(Data Pipeline)進行數據的管理、整合與傳遞(當然,這當中包含了其他技術細節與多元方法),最後讓終端的數據使用者或應用端獲得經妥善處理的高質量數據。

但需要注意的是,雖然管理是集中的,但不代表實際的儲存也是集中的,實際上數據儲存仍多是分散式的。

補* Data Frabic欲解決的技術問題:大數據建設架構推陳出新,一直有”Next-Generation”的新產品與組件出現,這也導致技術架構多樣化、數據儲存分散成為常態。也因此 Data Fabric 給了一種化繁為簡、一站式的解方。

什麼是 Data Mesh 數據網格?

Data Mesh「數據網格」是一種設計和開發數據架構的新「方法」,有別於資料倉儲(Data warehouse)及資料湖(Data lake)的集中式架構,Data Mesh是高度分散的數據架構,融合了分散式領域驅動架構(Distributed Domain Driven Architecture)、自助平臺設計(Self-serve Platform Design)以及數據即產品(Data as a Product/Service, DaaP/DaaS)的思維。

而 Data Mesh 的實作關鍵就是「去中心化」,從中央基礎架構轉爲分散式資料儲存,再從中央控管轉爲資料所有權下放。換句話說,就是以應用目的為終點來設計數據平台,讓數據使用者有能力獨立使用這資料,發揮數據價值的一種數據平台設計原則。

Data Mesh 數據網格基礎框架

簡單來說,Data Mesh 就是透過自助式的數據基礎架構平台,將多個資料倉儲的數據下放到各個「領域(Domain)」當中管理,每個Domain可能是組織、團隊或個人,且都能獨立進行數據的擷取、轉和與載入(ETL)。

補* Data Mesh 欲解決的組織問題:目前許多企業內仍是由單一數據團隊架構去承擔日漸增長的數據工程需求壓力,而數據價值的挖掘存在知識壁壘,缺少統一脈絡和業務知識將導致數據分析營運困難,且溝通及資料分析探索的成本高。

什麼大環境下促成了Data Fabric和Data Mesh的發展?

(以下提及的數據來自 Gartner 的調查報告)

激增的暗數據&數據孤島

隨著企業數據量快速成長和數據需求日趨複雜,越来越多數據技術 (如SQL資料庫、資料倉儲、資料湖等) 被引入,導致企業數據更加分散且難以管理,尤其是採用混合雲及多雲架構後更是加劇了這一問題。調查顯示僅45%的結構化數據有被應用於業務、不到1%的非結構化數據被分析或使用,及多達68%的數據没有被分析——這些企業擁有卻未被有效利用的數據被稱為「暗數據(Dark data)」;研究也顯示,有82%的企業正面臨數據孤島的阻礙。

低效率的數據治理浪費人力成本

激增的企業數據與複雜卻低效率的數據管理方式,讓員工自己找數據、用數據變得日趨困難。研究顯示,數據分析師 80% 的時間用於探勘和準備數據;知識型員工將50%的時間浪費在尋找數據、發現和糾正錯誤,以及確認不信任的數據來源上;數據科學家花60%的時間在清理和組織數據上。

日漸嚴峻的數據品質問題

雖然企業能取得越來越多數據,但大多數的數據可能因為格式不同、重複值或遺漏值等問題,使得企業空有數據卻無用武之地。數據顯示,企業中55%的數據無法用於決策,47%新創建的數據記錄至少有一個嚴重錯誤;而企業為了處理這些低品質的數據,也導致了巨額的財務損失。

Data Frabic 和 Data Mesh 的異同?

簡單來說,兩者都是為了解決跨技術、跨平台的數據接入和分析問題,使數據在還保留於原地,而不是移動集中到一個平台的情況下,仍可被有效管理與應用。但兩者在本質上有顯著的差異,Data Fabric是以技術為中心,Data Mesh則聚焦於方法論、組織協作上的變化。

1. 定義不同

Data Fabric強調統一和整合數據,並為數據提供一個統一的視圖,而Data Mesh更側重於數據自治和分散式控制,通過把數據作為產品,由各自的團隊進行維護和管理。

2. 思想不同

Data Fabric 是以技術為中心,將多種數據管理、整合與傳遞技術組合使用,並由 AI/ML 驅動的增強和自動化、智能元數據管理和強大的技術骨幹(包含雲原生、邊緣運算、API驅動、可互操作和彈性等)支持,更多的是關於管理數據技術;而Data Mesh 則側重於組織結構和文化變革來實現敏捷性,可以適用在技術無關的框架內指導方案設計,讓各數據領域團隊可以在更理解其所管理的數據基礎下實現相應的數據產品交付,更著重在管理人員和流程

3. 團隊組織不同

Data Fabric 的團隊通常由中央的 IT 團隊進行管理,他們負責整合數據和管理數據的生命周期;而 Data Mesh 中的團隊是自主的,每個團隊都有自己的責任和自治權,他們負責自己的數據和服務,與其他團隊進行交互。

4. 技術內容不同

Data Fabric 通常使用企業級的技術元件,如傳統資料庫、中間件、ETL工具等;而 Data Mesh 則更多地採用現代化的技術,如容器、微服務、API、事件驅動等,以實現分散式自治和靈活性。當然,則種分法並不是完全的。

5. 自動化程度不同

Data Fabric 鼓勵增強數據管理和跨平台編排,以最大限度地減少人工設計、部署和維護工作。Data Mesh則傾向於對現有系統進行手動設計和組織,由業務領域執行持續維護。

6. API 的訪問方式不同

Data Fabric 是通過低代碼、無代碼 (low-code/no-code) 的方式進行設計,將 API 整合在架構內進行實現,不須直接使用;而 Data Mesh 則相反,由於是面向開發 API 驅動的解決方案,加上數據屬於不同領域,需要為 API 編寫程式碼來進行訪問與串接。

Data Frabic 和 Data Mesh 相容嗎?

然而,即使兩者在方方面面上有許多不同,仍要注意的是,它們彼此不是替代品的關係,更不互相排斥。也就是說,企業未來的數據架構中同時包含Data Fabric 和 Data Mesh 是可行的。

Data Frabic 和 Data Mesh的適用場景

  1. 大型企業:Data Fabric 和 Data Mesh 都適用於大型企業,因為這些企業通常有複雜的IT環境和大量的數據資源需要整合和管理。
  2. 分散式數據:當數據分佈在多個地理位置或不同的系統之間時,Data Mesh 是一個更有效的解決方案,因為它能夠讓各自的團隊維護自己的數據和服務。
  3. 快速增長的數據:當數據量快速增長時,Data Fabric 和 Data Mesh 都可以幫助企業更好地管理和整合數據。
  4. 較多非技術人員:如果企業內有更多非技術人員(如行銷、客戶關係)需要使用數據,那麼採用低代碼或無代碼設計的 Data Fabric 可能更加吃香,只要選用可靠的供應商即可。
  5. 數據科學和分析:對於數據科學家和分析師來說,Data Fabric 和 Data Mesh 都提供了更好的數據可用性和可靠性,並且能夠使得數據更容易被發現和使用。
  6. 雲原生:Data Fabric 和 Data Mesh 都是雲原生架構的一部分,可以在雲端環境中更好地管理和整合數據。

從上面選項來看,除了第二與第四點外,只要符合3點以上,我們建議企業盡快導入兩種數據架構。

結語

在當今世界中,數據已成為企業成功的重要組成部分,因此越來越多的企業開始關注和實施這些概念。由於這些概念仍然處於發展階段,因此還有很多潛在的問題和挑戰需要解決。但隨著更多的企業將其實施到其業務流程中,Data Fabric 和 Data Mesh 將繼續成為未來數據管理的重要趨勢。

延伸閱讀:LnData 數據中台如何幫助企業打破數據孤島等數據痛點

--

--

LnData 麟數據科技

台灣領先的數據顧問品牌,提供企業專業且多元的數據服務與趨勢洞察。