淺談大數據技術在天體系統運行狀態(tài)監(jiān)測中的應用
大數據處理技術可以分為批處理與流處理兩種模式。批處理系統具有先存儲后計算﹑數據的準確性和全面性要求高等特點。流處理系統往往不要求結果絕對精確而注重對動態(tài)產生的數據進行實時計算并及時反饋結果。
Hadoop是當前最流行的大數據技術架構,包括Hadoop分布式文件系統( HDFS)、數據分析框架 Map-Reduce、數據挖掘工具 Mahout等,目前很多大數據處理都是基于Hadoop平臺之上。
數據流處理的特殊性以及大數據處理的時效性等各種限制使得傳統的實時處理技術已不能夠滿足需求,因此,大數據的流式處理成為了天文學學者的研究熱點。當前,流式數據處理的計算框架主要有Storm,Spark Streaming等,并且在互聯網行業(yè)得到了一定的應用,但在天文學研究中尚鮮有應用。
國內外在天體系統運行狀態(tài)監(jiān)測大數據技術研究和應用方面已有成效,但仍處于起步探索階段。天體系統的運行狀態(tài)數據具有持續(xù)不斷、數據量大、規(guī)模及順序無法預知及時效性高等特點,形成了大規(guī)模的數據流。而數據流的價值會隨著時間的流逝而減少,如何快速地從數據流中發(fā)現異常數據,為天體系統的運行與安全狀態(tài)監(jiān)測提供重要依據具有重要意義,因此可以將大數據技術引入到天體系統運行異常狀態(tài)檢測中。目前在天體系統運行異常狀態(tài)檢測中應用的大數據技術有時間序列分析、馬爾可夫模型、遺傳規(guī)劃算法、分類算法等,但這些研究尚處于探索階段,尚未形成完善、成熟的理論體系。