從“數據科學”視角,看懂數字化轉型
數字化轉型是數字經濟時代下重要的產業實踐,其背后有沒有方法論來指導呢?自然是有的。方法論主要來自于三個方面,分別是:業務視角、IT視角、數據視角。
業務視角,不言自明,基礎是傳統的管理學方法論,既包括企業的戰略制定、人力資源、財務管控,也包括一切和數字化項目實施落地相關的項目管理活動等。
IT視角,方法論大多來自于傳統信息化建設相關的方法沉淀,比如:系統需求分析、系統架構設計、軟件設計模式、產品設計、UI\UE設計等。
數據視角,是數字化建設獨有的方法論視角,把數據作為“本體”,一切活動圍繞數據來看待數字化轉型實踐。
通過認識和挖掘數據的本質、規律、價值、活動,實現對數字化轉型的系統規劃并展開具體的方案設計。
數據科學是關于數據的學科,數據分析、數據挖掘、數據預處理、數據檢索、數據建模、數據架構設計都屬于數據科學的技術細分領域。
數據科學的數字化視角,是一個理論的觀察視角,從數據科學看數字化應用場景,類似于基于物理公式的視角來看自然界客觀的物理現象,如雷、電、雨、雪 ...
數據科學可以讓“數字化”活動抽象化、清晰化、本質化、結構化,在解決數字化問題時,通常需要把“業務域”中具體的經營問題或生產問題動態映射到“數據域”,得到等價的“數據科學問題”,在“數據域”中對原問題進行求解。
上述過程,實際上也是廣義上“數字孿生”想要達到的產業實踐意義。
值得注意的是,業務域問題變成數據域問題,總是近似等價的,期間可能要忽略掉很多非數據域可描述或定義的“細節”,比如:外部風險、情緒干擾、操作性誤差、系統性誤差、財務約束、系統性能約束等。
盡管如此,從數據科學的角度來解釋、預測、控制一項數字化活動,仍有巨大的借鑒意義:
一是可提供理論上的價值邊界。
站在數據科學的視角,可以借助統計學、信號學等基礎學科理論,清晰地定義和量化從數據中產生的價值,了解數據價值鏈的形成路徑,評估數據給業務帶來增長的程度。
例如,采用Value of Information(VoI)分析,一種基于貝葉斯統計框架的量化模型,從不確定性減少的預期收益方面,評價數據收集實驗的必要性和經濟性。
在此基礎上,可以有效地評估數據的價值潛力,以及數字化項目在收益上的必要性,更好地開展數字化項目實施決策。
二是可聚焦業務上的實施范疇。
通過把業務問題抽象成數據問題,對業務場景進行建模,尋找“數據驅動”的業務解決方案。在數據模型圖、數據流程圖的基礎之上,可以更清晰、更精準地識別目標業務問題關聯的核心業務域,更加有效地聚焦數字化項目的重要業務范疇。
通過數據建模手段,可以構建結構化的業務條線組織形式,有效地梳理數字化項目相關的業務單位、部門,以及組織內外的重大“干系人”。
在此基礎上,還可以明確地定義業務活動中的責任關系、利益關系,開展更為科學、公平的業務決策。
三是可凝練技術上的求解路線。
有時,很多業務問題難以在業務域中直接找到解決方案,而通過把業務問題轉化為等價的數據科學問題,相當于拓展了求解問題的技術手段,提高了處理業務需求的能力上限。
大數據的方法可以運用于傳統問題的求解,充分發揮計算機技術的強大算力優勢,彌補了人在面向信息量大、決策維度復雜、低延時等場景的復雜決策問題的能力短板。
例如:通過將非結構化的文本數據轉化為稠密數值空間的向量數據,實現文本信息的深度語義融合與匹配,使得機器可以識別和理解“人”感知不到的信息,并完成在海量數據庫中進行內容匹配的復雜任務。
四是可揭露內容上的特殊線索。
數據科學提供了一系列統計函數和分析模型,通過在數據對象上進行各種不同的模式變換操作,可以實現信息的深度線索提取,強化凸顯原先在業務域視角中被隱蔽埋藏的信息。
例如,通過離群點分析算法,可以在海量數據集中快速識別到與“總體”分布不一致的特殊數據樣本,背后可能反映了異常的用戶行為或產品質量。
再例如,通過圖數據分析,建立業務對象之間的關聯關系,在圖上進行路徑挖掘算法,計算識別“長距”節點,挖掘潛在的語義或社會關系關系。
綜上,數據科學可以為業務分析提供評價能力、解釋能力、分析能力,以及信息強化能力,基于數字化的業務應用也只有在數據科學的加持下,才能真正高效能地釋放數據要素綜合價值。