利用新平臺實時處理與存儲數據,實現亞毫秒級響應
譯文【51CTO.com快譯】新冠疫情讓企業看到了數字化的重要性,加速了企業數字化轉型的步伐,同時也推動了 IT 預算的增長。預計到2022年,企業 IT 支出將恢復到 2019 年的水平。 Gartner 指出,IT預算的支出將在企業軟件(包括數據庫、分析和商業智能)上得到快速增長。
隨著數據量的快速增長,從數據中獲取價值,無論是洞察力還是交易,都是改善業務成果的根本。在追求從數據中獲取價值的過程中,數字化產生了一種新的價值向量:實時。
在處理和存儲數據,需要一個統一的新平臺,才能夠充分分析、挖掘即時數據,為業務提供高速的洞察力、行動和價值,同時還能夠快速存儲數據。根據Forrester咨詢公司的報告發現,超過80%的企業高管認為需要決策基于瞬時分析的事件和對市場狀況進行實時。然而,希望和能力之間存在巨大差距。Forrester 采訪的超過三分之二的高管表示,他們的組織無法獲得實時的、數據驅動的洞察力和行動。
大量實時數據帶來的新挑戰
數字化正在產生大量的實時數據。它從服務器、設備、傳感器和物聯網設備涌入,以至于估計未來三年生成的數據將比過去 30 年還多。
所有新數據都是實時產生的。在數據產生的那一刻,很多數據中包含了與剛剛發生事情相關的獨特價值。但是,隨著時間的流逝,該價值即會逐漸消失,并且數據會失去其基于時間的相關性。
企業高管希望通過利用實時數據來發現價值,但大多數都因新的數據量過大,而無法實時有效的對數據進行分析。在戴爾科技集團 2020 年數字化轉型指數調查中發現,絕大多數高管 (70%)表示,他們的企業正在出現超出其分析或理解能力的數據。
大量實時數據帶來了新的挑戰:新型數據孤島。由于實時處理需要與存儲數據不同的技術,因為這兩種數據的性質非常不同:
1)實時數據的獨特價值瞬間消失。
2)實時數據往往沒有更加深層的價值。
3)信息值不同;一個描述剛剛發生的事情,另一個描述歷史。
換句話說,雖然實時數據包含關于剛剛發生的事件的時間關鍵信息,但它缺乏可以在存儲數據記錄中找到更多有價值的內容。
例如,如果一個事件不能立即與該獨特客戶的個人資料和歷史背景相結合,那么就無法知道該特定客戶剛剛在線查看了零售商品有什么好處?當金融市場交易剛剛發生時,如果不結合交易參與者的業績歷史,如何對其財務風險進行分析?當來自制造傳感器的事件數據顯示異常信號時,如何在不知道最近維護歷史的情況下,就無法評估預防措施是否到位?
可以說,數據世界已經永久改變。現在的主導力量是實時數據,而對歷史數據的存儲與分析仍然存在。
建立多功能數據處理平臺
數據庫位于應用程序和歷史數據之間。他們擅長對存儲的數據執行事務和查詢——但僅適用于傳統應用程序。數據庫的功能和性能都旨在滿足以前的期望。數字化時代的今天,實時數據分析要求達到微秒級別,對性能有著更高的要求,這是數據庫架構無法實現的。
此外,數據庫并非旨在處理源自 A 點并正在傳輸到 B 點的實時數據。因此,它們必須插入可以執行此類處理的引擎。這些接口會產生顯著的延遲,這是實時數據的死敵。重要的是,隨著時間的流逝,實時數據的價值會迅速消失。即使可以實現將多個系統合并在一起,它將帶來更高的維護成本和更加復雜的架構。
因此,為了統一處理實時數據和存儲數據,需要一種新的數據處理平臺。該平臺必須利用現有的數據庫并支持使用這兩種類型數據的應用程序。
這個多功能平臺包括一個用于數據攝取、轉換、分發和同步的流引擎。為了滿足數據處理的超低延遲要求,該平臺必然基于內存技術。并且要滿足容量和彈性的雙重要求。此外,它必須是分布式架構。通過這種組合,該平臺可以提供亞毫秒級響應,每秒執行數百萬個復雜事務。
原文標題:Unifying streaming and stored data
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】