數據集成的挑戰
在單一層面來看,數據集成問題在我們的現實場景中非常簡單,即從多種源獲取數據,清理和轉換數據,然后將數據加載到適當的數據存儲區中以用于分析和報告。遺憾的是,對于一個典型的數據倉庫或商業智能項目,企業需要在其數據集成階段花費 60~80 %的可用資源。為什么會如此艱難呢?
技術挑戰
技術挑戰首先來自于源系統。我們正在從收集交易(如客戶承諾獲取、購買或以其他方式獲得東西)數據向收集預交易(如網頁點擊或通過 RFID 標記追蹤客戶意圖的機制)數據轉變。現在不僅可以通過傳統的源和格式(如數據庫和文本文件)獲取數據,而且正日益可以以各種不同的格式(從專有文件到 Microsoft Office 文檔以及基于 XML 的文件)和基于 Internet 的源(如 Web 服務和 RSS 流)獲取數據。***針對性的挑戰是:
◆多種源與多種不同的格式。
◆結構化、半結構化和非結構化數據。
◆在不同時間從源系統獲得的數據信息。
◆龐大的數據量。
在理想情況下,即使您能夠設法以某種方式在一個位置獲得所需的所有數據,也會面臨新的挑戰,包括:
◆數據質量。
◆不同數據格式的識別。
◆數據格式轉換(轉換為業務分析可用的格式)。
假設您能夠通過某種方式獲得所需的所有數據,并且可以清理、轉換數據以及將數據映射成為一種有用的格式。即便如此,您仍然可以不使用傳統的數據移動和集成方式。更確切的說,可以從一種固定的、長期的、面向成批數據的方式向不固定的、短期的、基于需求的方式轉變。大多數組織在“停機時間”使用一種面向成批數據的處理方式,因為在這段時間內用戶不會在系統上發出大量請求。這種方式通常會在夜間、使用一個預先定義的處理時長為 6~8 小時的批處理窗口來執行,因為此時辦公室里應該沒有任何人。但隨著每種大小和類型的業務的日益全球化,實際的情況已并非如此。現在從全世界的企業來看,它們只有很少(如果有)的停機時間,而且無論何時總是有人會呆在辦公室的某個地方。
結果您發現:
◆盡快加載數據的壓力日益加大。
◆需要在同一時間加載多個目標位置的數據。
◆目標位置存在多樣性。
您不僅需要實現所有這些任務,還需要盡可能快地實現它們。例如在線業務就是一種極端的情況,
***,當你既需要針對應用程序整合的實時事務處理技術、又需要針對海量數據的集成技術來解決企業業務問題時,如何將數據緊密集成到公司的整體集成架構中,就變得更加重要。
組織挑戰
在大型組織中進行數據集成存在兩大問題,這就是“權力”挑戰和“舒適地帶”挑戰。
“權力”挑戰
數據就是力量,通常要使人們相信數據是一個公司的真正有價值的共有資產很困難。要使企業的數據集成獲得成功,那么多個數據源的全部所有者都必須了解項目的用途和動向。有關各方缺乏合作是造成數據集成項目失敗的一個主要原因。行政部門的幫助、達成的共識,以及強大的數據集成團隊和多方相關人員是決定成功與否的少數關鍵因素,這些因素可以幫助解決問題。
“舒適地帶”挑戰
在以多種方式分析孤立的需求時,可以解決數據集成的挑戰。手動編碼解決了約60%的數據集成問題。可用于解決類似問題的技術包括從復制、ETL、SQL 到企業應用程序集成(EAI)。人們總是傾向于使用他們熟悉的技術。雖然這些技術的功能有些重復,而且或許它們也能夠獨立完成任務,但我們可以優化這些技術,使它們能夠解決各式各樣的問題。當嘗試解決企業數據集成的問題時,如果缺乏健全的體系結構及適當的技術選擇,則可能導致失敗。
經濟挑戰
本文前面概述的與組織和技術相關的問題,共同導致了數據集成成為任何數據倉庫/商業智能項目的最昂貴部分。導致數據集成成本增加的主要因素是:
◆以數據集成必需的格式來獲取數據的過程,最終變成了一個充滿組織權力游戲的緩慢而曲折的過程。
◆清理數據以及從多種源將數據映射為一種連貫的、有意義的格式極其困難。
◆標準的數據集成工具往往不能提供足夠的功能或可擴展性來滿足項目的數據轉換要求。這可能會導致需要對為了完成任務而開發特殊ETL代碼所發生的咨詢費用支付巨額金錢。
◆公司的不同部門都在關注數據孤島中的數據集成問題。
當需要集中解決這些問題時,這些數據集成方面的努力所引起的額外費用將會納入全企業范圍的數據集成體系結構。
隨著組織發展過程中對數據入庫和商業智能需求的增加,有缺陷的數據集成體系結構將變得越來越難以維護,總體擁有成本也會激增。
這種企業必須持續集成數據。但是,實際的批處理窗口操作時間和滯后時間總會超時數分鐘。許多這種情形下的決策過程是使用持續運行的軟件自動完成的。
面對不允許有任何停機時間的業務需求,可擴展性和性能變得越來越重要。
如果沒有適當的技術,那么在入庫和集成處理的每個步驟,系統幾乎都需要分段處理。由于在提取、轉換和加載(Extract, Transform and Load, ETL)的處理中需要合并不同的(特別是非標準的)數據源,而且需要執行更復雜的操作(如數據挖掘和文本挖掘),這加大了對數據分段處理的需要。舉例來說,在圖 1 中,由于進行分段處理,使“關閉循環”(即開始分析并處理新數據)進程所用時間也相應增加。這些傳統的 ELT 體系結構(與加載之前發生的增值 ETL 進程相對)為應對新出現的業務需求,對系統能力施加嚴格的限制。
圖一
日益增加的全球性法規需求,要求公司保持清晰的審計線索。僅保持數據可靠是不夠的,還需要數據能夠被跟蹤和驗證。
【編輯推薦】