甲骨文林逸飛:如何提純大數據的業務價值?
持人:
大數據如何真正幫助到企業業務接下來讓我們聆聽來自甲骨文大中華區技術架構總監林逸飛演講,如何提升大數據的價值。
林逸飛:
大家早上好,今天跟大家聊的話題是大數據,大數據跟云計算之間的關系越來越緊密,因為云計算提供了很多新的方式,使得我們有機會去處理這些大數據。今天我講的是大數據在我們獲得了以后,怎么能夠讓它真的在 我們業務里面有價值,所以用了一個詞叫提純,下面我帶著大家一塊去把大數據做一次提純。
開始之前我也想把Oracle現在的變化說一下,工程規劃,很多大廠商都在跟隨著甲骨文的腳步,不斷的推出 各種各樣的一體化設備,可能這是一個潮流,都希望通過推出這樣一些一體化或者精裝修的系統,幫助客戶降低 他的運維成本,提高他的運行效率。
大數據非常復雜,有結構化,也有非結構化的,增長速度飛快,單條數據的價值密度極低,最后一個很重要 ,為什么說單條數據業務價值極低,一條微博,或者一條博客,一條網上的日志對你來講沒有意義,我們需要的 是把整個大的數據量,從中按圖索驥,或者找出一些業務規律,業務價值,大數據才能為我所用,這是大數據的四個特點。從甲骨文的角度來看,可能所有的客戶,包括合作伙伴都知道,甲骨文是做數據起家的公司,今天仍然我們是做數據做得最好的公司。所以我們把數據理解成這樣一個金字塔,整個金字塔的最下段,我們把它認為 是大數據,通常是大PB級的,這些數據很復雜,都存在在企業的ERP系統里面,外部系統里面都有這樣的數據, 只是這些數據在今天大部分沒有被利用,第二個層次是在今天我們所有的大型企業或者中型企業都有的數據倉庫 ,或者業務分析類的一些系統里面,這種通常是以百T作為你的數據級別,這些數據是指導我們業務生產創新的 核心數據,這些數據今天的來源,來自于我們的生產系統,我指的生產系統,比如說我們后端的ERP系統,網商 ,電子渠道,我們的交易系統,這些系統后面的業務數據被我們采集來,放在數據倉庫里面,通過對歷史的分析 總結,然后我歸納一種規律,用于預測未來我的業務趨勢跟走向,這是今天我的所有DWDI所做的一種做法,開個 玩笑說這些數據都是婚后數據,客戶已經跟你的企業發生關系了,然后產生了這些數據,你分析的是這樣一些數 據,但是你想的是什么,是我還有沒有機會再找到下一個。
最上端指導我們老板們做決策的,去決定新招一些人,還是砍到一百人,新發布一個產品,還是我們下架一個產品,來自BI系統,這是我們的核心決策數據。
今天互聯網也好,云計算也好,使得我們這些業務數據能夠被涉及到范疇是如此眾多,換句話說我們希望不 光采集婚后數據,我也希望把婚前的這樣一些沒有發生關系之前的數據也采集進來,能夠為我的業務提供更多的 業務反饋點,這些反饋點可能更直接,更快,更豐富,這是大數據在今天為所有企業關注的主要原因。
接下來是我的演講題目,這些大數據,四個V的特點,量又大,速度也大,格式也眾多,每一條數據的價值又非常低,我怎么把這些數據提純起來,真的知道我的生產,這是提純大數據的主要原因。我舉一個最簡單的例 子,一個超市,今天我談到的這些是有十幾案例,而且這些技術在今天,可能在座很多朋友們手里都有。比如說 我可以根據在商城里面所有部署的探頭或者其他的設備,客戶的行進路線我可以采集得到,根據他的行進路線, 途徑我的門店的時候,我可以定點向他推薦促銷信息,這個完全做得到。整體的營銷策略里面,跟進整個銷售的 戰役的制定,來調整他的一些促銷,或者我進貨出貨的策略。采集客戶在微博、博客在相關的一些網站上面,各 種各樣的反饋,這樣是一個很明顯的,在今天我們完全能夠利用到的業務場景。我拿這個金字塔套一下,大家看 ,這些數據我們把他歸結為大數據,他可以被采集到系統里面來,同時我跟進他的業務策略,這些數據可能來自 于我們的數據倉庫,甚至于來自我的ERP系統,這些數據是我的生產數據。那當然我采集所有網絡相關的這些數 據,他一定是大數據,他希望進入到我最底層的金字塔最下面,作為我大數據的基礎。關鍵是說這些數據之間是 完全需要互動的,換句話說你要定時定點的推一些營銷策略,或者根據機器傳回來的數據進行判斷,這個時候這 些大數據要反過來,對你的DW,對你的生產系統直接發生關系,如果不這樣的話,這些大數據沒有用處。
大數據提純以后的結果,讓這個大數據從金字塔最下端被逐漸提純進入到DW,最后再進入各種各樣的分析, 進入到BI,數據逐漸濃縮,最后具有商業價值。所有人都在說我希望做微博營銷,我希望提高在互聯網上對我企 業的影響,哪些數據對企業經營有十幾價值,這就是一些數據,48%的客戶,當他是手機微博的用戶的時候,通 常他會更樂意接受這些促銷信息,其中有很大比例的人會在它的微博,或者博客上發布我曾經在這個里面接到這 樣一些東西,使用的體驗是什么樣的,這就是數據。對這個企業來講,我先解決缺貨的問題,我一定能夠解決在 我整個店里面最基本的問題,第二我可以對這些手機微博客戶做一些定點營銷和精準策略,這是兩個精準的例子 ,后面想做這件事情是非常難的。
首先在金字塔終端這個層次上,他兩個核心系統,一個是企業ERP的生產系統,第二個就是企業原有的DW, BI系統。第二個在金字塔的最下端大數據這塊,你有很多企業專業應用,這些應用可能直接跟機器,跟互聯網打交道。第三金字塔的最上端你要有一個合適的BI的工具和平臺,形成管理者的駕駛艙,內容把業務數據體現出來 。想產生上面這兩個簡單的結果,中間畫了一個環,他基本上要歷經這四個步驟,只有通過這四個步驟才能把你 的大數據發揮它真正的業務價值,首先我要能夠獲取,我有合適手段采集到各種各樣的數據。第二我能夠去計算 組織他們,第三能夠根據這樣屬于進行分析,最后形成我的判斷、業務動作出來。這些大數據跟你現在的數據倉庫,跟BI要集成,如果不集成的話,這些大數據在旁邊又建了一個煙囪出來,沒有用的。
說到最后就是Oracle,Oracle實際上提供了完整的方案,同數據的捕獲、組織、分析、決策我們都有平臺化 的工具和產品提供給客戶和合作伙伴。首先是捕獲,大家都知道Oracle有自己的應用,從ERP到CRM,到各種的 ECM我們都有然間,使得你有機會從各種各樣的核心系統里面找到一些數據。第二針對所有非結構化的數據, Oracle直接推出了一個產品就叫NoSQL數據庫,很有伸縮性的一款產品,他可以幫助你存儲非結構化數據。
在組織這一塊,我們業提供沙盒的功能,你可以在你的機器里面配置這樣一個沙盒出來,所有分析全部在這 個沙盒里面運行,他對CPU的消耗不會超過你這個沙盒所設置的限制,這樣是幫助你去運行這樣一些大數據分析 的基礎平臺性的功能。我們提供這樣一個產品ODI,Oracle已經有幾十年的產品。
分析有一個R的組織,他是非常適合統計分析跟圖表化展示的平臺,他是開源的,而且比較適合在筆記本里 面或者PC里面運行的系統。我們能夠把它集成到Oracle數據庫里面,大數據機里面,提供這樣三種方式,比如通 過客戶機訪問,或者直接在大數據機里面運行,第三,可以在Oracle數據庫一體機里面直接去運行。在BI的信息 表里面我們也集成了對R的支持。這是Oracle Exalytics,Oracle不斷在各種領域體現推出合適的一體化的設備 ,這也是一種一個,他的主要特點基于內存的實時BI的產品,在這個產品里面所內置的Oracle內存數據庫是一個 定制版本,這個版本可以利用到更大范疇的內存,使得這樣一些BI分析數據可以直接灌入內存,可以達到非常高 的速度。
做個總結,一體化的設備,Oracle將近三年半以前開始做,在今天看來,我們推出的數據庫一體機,云計算 的彈性服務器,在過去三年里面,在市場上都得到了非常好的反饋,這個反饋來自于兩個方面,一方面我們的業 績當然大家去看Oracle的財報,確實是這幾款機器給Oracle貢獻非常巨大,在過去三年里面攪動了很多企業做了 類似的收購,跟相應產品的推出,這是Oracle一體機的背景。
在今天我們去談Oracle大數據平臺的時候,實際上我們也有一體化的解決方案,前端我們有一個叫大數據機 ,去年10月份發布,這個機器是Oracle運行大數據最主要的機器,剛才我談到的各種平臺工具,全部內置在這個 機器里面,這是Oracle作為大數據最前端處理金字塔最下端的PB級別數據的機器。中間成名了三四年的機器,作 為世界上最快的做DW的機器,我們看作金字塔中間那塊,當你需要做最終的決策的時候,進入到BI,基于內存的 實時BI的機器,也是去年我們剛剛推出的,他可以基于定制版本的內存數據庫,支撐整體BI決策。關鍵一點是我 們在這三者之間集成這塊花了非常大的氣力,變成你真的可以從新浪微博、博客里面采集數據,進入到真正指導 你企業的業務生產,這是Oracle談到整體化大數據整體解決方案。Oracle在處理大數據這一塊,是跟我們整個云 計算的策略一脈相承的,所以Oracle也有自己完整的云計算的方案,其中針對云中的大數據,是剛才我所跟大家 闡述的所有的大數據解決方案,謝謝大家!