成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

自動洞察:大數(shù)據(jù)的下一個重大轉(zhuǎn)折

大數(shù)據(jù)
我堅持認為具有洞察力的應(yīng)用是幫助企業(yè)高效探究大數(shù)據(jù)的關(guān)鍵,可以提高決策效率和解決重大問題。為了更好的理解和重視我們開發(fā)該應(yīng)用的重要性,有兩件事是很重要的,一是了解大數(shù)據(jù)大體上發(fā)生了什么,二是評估我們使用商業(yè)智能系統(tǒng)的經(jīng)驗如何促進我們思考這個應(yīng)用。

為了跟隨大數(shù)據(jù)的發(fā)展以及提高我們對信息的使用,我們需要具有洞察力的應(yīng)用,可以在連接洞察與操作的時候快速且低廉地提取相關(guān)性。

我堅持認為具有洞察力的應(yīng)用是幫助企業(yè)高效探究大數(shù)據(jù)的關(guān)鍵,可以提高決策效率和解決重大問題。為了更好的理解和重視我們開發(fā)該應(yīng)用的重要性,有兩件事是很重要的,一是了解大數(shù)據(jù)大體上發(fā)生了什么,二是評估我們使用商業(yè)智能系統(tǒng)的經(jīng)驗如何促進我們思考這個應(yīng)用。

因為我認為具有洞察力的應(yīng)用是大數(shù)據(jù)的下一個變化(可以看看最近IBM沃森平臺使用的一些應(yīng)用),我會發(fā)表系列博客進一步探究這個問題。在第一篇博客里,我將通過我的觀察展示25年來數(shù)據(jù)分析是怎樣發(fā)展的,特別是到了大數(shù)據(jù)階段,發(fā)展具有洞察力的應(yīng)用是必須的。第二篇,我會更加詳細的描述這些應(yīng)用,并給出早期的一些例子。第三篇和最后一篇,我會討論投資者對這些應(yīng)用的興趣,還有講下我最近對相關(guān)創(chuàng)新企業(yè)的投資。在這些文章中,我作為兩家分析應(yīng)用創(chuàng)新企業(yè)的創(chuàng)辦人,我將提到我如何將過去30年的工作經(jīng)驗和15年風(fēng)險投資經(jīng)驗運用到這些企業(yè)中。

數(shù)據(jù)分析25年來的發(fā)展

數(shù)據(jù)量在過去25年一直在增長,用于決策的數(shù)據(jù)完整性促進了兩個步驟的行程,即創(chuàng)建數(shù)據(jù)倉庫和了解數(shù)據(jù)倉庫的容量。

數(shù)據(jù)倉庫及其他特殊變形–企業(yè)數(shù)據(jù)倉庫,數(shù)據(jù)集市等等-,是精選數(shù)據(jù)的基礎(chǔ)。

數(shù)據(jù)可能來自單獨的數(shù)據(jù)源(如:一個CRM應(yīng)用的數(shù)據(jù)庫)或者由許多數(shù)據(jù)源整合而來(如:一個CRM應(yīng)用的數(shù)據(jù)庫整合,數(shù)據(jù)庫內(nèi)含有CRM數(shù)據(jù)庫里的每位客戶的社交媒體互動)。

數(shù)據(jù)可能是結(jié)構(gòu)化的(如:描述客戶支付金額的數(shù)據(jù)),也可能是非結(jié)構(gòu)化的(如:自由文本里客戶與工作人員的互動備注),也可能是半結(jié)構(gòu)化的(如:網(wǎng)絡(luò)路由器生成的日志文件數(shù)據(jù))。被捕捉到的精選數(shù)據(jù)都是已經(jīng)自動被清洗干凈,被標簽和分析好了的,減少了人們的人工思考的時間。

這些年,隨著開源軟件,云計算和商用服務(wù)器硬件的使用,我們減少了數(shù)據(jù)倉庫的費用,也提高了我們管理更多不同高速產(chǎn)生的數(shù)據(jù)的能力。我們的收支狀態(tài)已經(jīng)發(fā)生改變,從為數(shù)據(jù)倉庫花費幾千萬美元,轉(zhuǎn)變?yōu)樽畲蟮墓静㈤_始盈利,如金融服務(wù)組織花旗銀行Citibank和大型零售商沃爾瑪Walmart,從倉庫到中小型企業(yè)皆可支付的狀態(tài)。最近,低成本服務(wù)提供商,如亞馬遜 Redshift, 谷歌 BigQuery以及微軟Auzre,已經(jīng)將數(shù)據(jù)倉庫轉(zhuǎn)移到云。最終,數(shù)據(jù)倉庫能被大眾公司接受。

隨著數(shù)據(jù)倉管的增加,數(shù)據(jù)報告的發(fā)表形式從打印到數(shù)字化。

數(shù)據(jù)完整性的第二步包括通過數(shù)據(jù)分析,理解數(shù)據(jù)倉庫的內(nèi)容。在商業(yè)環(huán)境中,通常是通過報告和相關(guān)聯(lián)的可視化實現(xiàn)數(shù)據(jù)的完整性,有時也使用更多定制的可視化和機器學(xué)習(xí)算法,比如人造神經(jīng)網(wǎng)絡(luò)。(機器學(xué)習(xí)不是新的內(nèi)容,但是大家認為,它從數(shù)據(jù)倉庫出現(xiàn)就一直被使用,作為數(shù)據(jù)儲存和管理的工具。)

隨著數(shù)據(jù)倉庫被不同行業(yè)的大量企業(yè)采用,我們看到了報告形式的轉(zhuǎn)變,它是可以被創(chuàng)造的,媒體可以提供分析學(xué)者和決策者報告,或者員工自己準備這些報告。早期(80年代晚期,90年代初期),商業(yè)智能報告是由指定的IT職員負責(zé)的,在報告中對數(shù)據(jù)倉庫的必要查詢是有相關(guān)標準和主題的。這些報告通過電腦用紙保存(如:報告可以被修改,但是只能由那位負責(zé)該報告的職員完成)和展示。后來,報告仍然可以保存,同時這些報告可通過指定的報告項目展示在PC上,再后來,Web瀏覽器可運行在不同的設(shè)備上,包括智能手機和平板,所以報告也能在這些設(shè)備上展示。這些年來,創(chuàng)建查詢和撰寫報告的任務(wù)已經(jīng)從IT員工轉(zhuǎn)移到企業(yè)用戶。但是,當這些查詢和相關(guān)報告可以更快的生成,更加靈活和廣泛的使用時,這些報告的主要使用者-企業(yè)分析師-他們?nèi)匀辉诓粩嗟?,嘗試在報告中得出信息的最簡單的模式。更重要是,這些用戶在嘗試基于這些信息采取相應(yīng)的操作(圖1)。

 

圖1:復(fù)雜的數(shù)據(jù)模型和可視化的一些例子,圖片授權(quán)自Evangelos Simoudis

隨著更多的數(shù)據(jù)生成,我們已經(jīng)可以更好更有效的管理它的費用,但是要想對數(shù)據(jù)進項有效分析,仍然不是件容易的事。

受網(wǎng)絡(luò)全球廣泛使用,以及網(wǎng)絡(luò)支付的連接,還有如物聯(lián)網(wǎng)等新領(lǐng)域得出大量我們從未見過的數(shù)據(jù)的驅(qū)使,發(fā)現(xiàn)我們的周圍充斥著數(shù)據(jù)。快數(shù)據(jù)和慢數(shù)據(jù),簡單數(shù)據(jù)和復(fù)雜數(shù)據(jù),以及全部一起出現(xiàn)的前所未有的海量數(shù)據(jù)。數(shù)據(jù)量可以有多大?

 

圖表2:展示了生成非結(jié)構(gòu)化數(shù)據(jù)從2005年到預(yù)計2020年的增長情況,圖表授權(quán)來自互聯(lián)網(wǎng)數(shù)據(jù)中心IDC,圖表未經(jīng)許可,不可使用。

在過去10年,數(shù)據(jù)變得更大,同時企業(yè)IT戰(zhàn)略的核心實現(xiàn)了“事半功倍”。企業(yè)現(xiàn)在面臨著數(shù)據(jù)倉庫系統(tǒng)的兩個難題。第一,有些系統(tǒng)不能有效管理捕捉到的大數(shù)據(jù),導(dǎo)致不能有效使用那些應(yīng)用。第二,費用高的離譜,對于系統(tǒng)而言可能會成為數(shù)據(jù)管理的挑戰(zhàn)。

關(guān)于這些問題,出現(xiàn)了部分解決方案,是由科技巨頭公司(如谷歌,雅虎等)開發(fā)的數(shù)據(jù)管理軟件,去得到新的數(shù)據(jù)生成,如Hadoop。一開始,這個軟件是運行在商用服務(wù)器硬件,它是快速開源的,因此可以幫助一些企業(yè)用低廉的成本解決一些大數(shù)據(jù)的問題。比如像Cloudera, Hortonworks和一些其他提供開源軟件服務(wù)的公司已經(jīng)成為大數(shù)據(jù)非結(jié)構(gòu)化領(lǐng)域的主要成員。我之所以說只是出現(xiàn)了部分解決方案,是因為,在管理數(shù)據(jù)的時候,一些系統(tǒng)不具備解決復(fù)雜性問題的功能,專屬的數(shù)據(jù)倉庫管理系統(tǒng)只有一些企業(yè)擁有。這些新的系統(tǒng)擅長建立數(shù)據(jù)湖,通過低成本選擇的方式替代和擴展數(shù)據(jù)倉庫,它是適應(yīng)大數(shù)據(jù)環(huán)境的設(shè)施。

雖然我們提高了有效管理數(shù)據(jù)費用的能力,但是我們分析數(shù)據(jù)的能力和費用沒有改善。

雖然大眾媒體都宣布來自數(shù)據(jù)的洞察力將是“新石油”(“黃金”),但是市場研究公司互聯(lián)網(wǎng)數(shù)據(jù)中心IDC則預(yù)測到了2020年,只有一小部分數(shù)據(jù)可以被收集和分析。我們需要分析更多捕捉到的數(shù)據(jù)和提取其中包含的信息。

我們在努力提高分析數(shù)據(jù)的能力,但是面臨數(shù)據(jù)專業(yè)人員的短缺。

為了收集和分析更多的數(shù)據(jù),包括報告里面的數(shù)據(jù),我們開始通過機器學(xué)習(xí)和其他基于AI的數(shù)據(jù)分析技術(shù),來廣泛地使用自動信息提取方法。但是這些方法只能由數(shù)據(jù)科學(xué)家使用,這是一種新的職業(yè)。雖然我們看到一大批數(shù)據(jù)科學(xué)家的涌現(xiàn),但是我們需要更多。目前無法做到培養(yǎng)出滿足需求數(shù)量的數(shù)據(jù)科學(xué)家,以及提供我們生成足夠的數(shù)據(jù)。McKinsey預(yù)計到了2018年,美國將將面臨人才短缺,大概缺14到19萬名掌握深入分析技巧,能夠從收集的數(shù)據(jù)里提取洞察的專業(yè)人才。

我們也面領(lǐng)著人才短缺,缺少大概15萬名經(jīng)理人,他們掌握著必要的定量技能,能基于數(shù)據(jù)科學(xué)家的大數(shù)據(jù)分析結(jié)果做出重要的商業(yè)決策。

機器學(xué)習(xí)提升了我們找到數(shù)據(jù)相關(guān)性的能力,恰好節(jié)省了決策時間,增加了數(shù)據(jù)效率。

商業(yè)智能作為一個領(lǐng)域已經(jīng)發(fā)展了40年。統(tǒng)計分析和機器學(xué)習(xí)科技則使用了更久。這段時期,我們已經(jīng)提高了確認數(shù)據(jù)集相關(guān)性的能力,這恰好減少了用在決策上的時間和增加了數(shù)據(jù)的效率。比如,公司的財務(wù)官需要一個月才能做出財務(wù)預(yù)測,然而一個自動線上廣告平臺只需要10毫秒就能決定將他們的數(shù)字廣告投放給哪一位客戶(圖3)。還有,當財務(wù)官在根據(jù)幾兆數(shù)據(jù)做出決策時,線上廣告系統(tǒng)已經(jīng)在利用TB級數(shù)據(jù)在工作,大部分數(shù)據(jù)是實時生成的。

 

圖3:圖表顯示不同行業(yè)做出決策的平均時間。圖表授權(quán)來自Evangelos Simoudis.

在某些應(yīng)用領(lǐng)域,簡單的確認數(shù)據(jù)集之間的關(guān)聯(lián)性就足以做出決策。這其中又有一些領(lǐng)域可以實現(xiàn)高回報,這通常會讓他們決定是否需要數(shù)據(jù)科學(xué)家或者其他特定專業(yè)人才,從現(xiàn)有數(shù)據(jù)中提取信息。計算機安全威脅檢測和信用卡盜刷偵測領(lǐng)域就是其中兩個。在這些領(lǐng)域里,作出決策的時間非常短,“錯誤”決策的成本(通常是保密的),但是至少一開始不是很高。而減少處理環(huán)節(jié)就跟安全侵入一樣是詐騙行為(如:信用卡持卡人遇到了麻煩,那么系統(tǒng)管理者就應(yīng)該要進行網(wǎng)絡(luò)取證)。但是,在一個已經(jīng)建立好的行為模式里發(fā)現(xiàn)異?,F(xiàn)象失敗,造成的成本可能更高。

為了跟隨大數(shù)據(jù)的發(fā)展以及提高我們對數(shù)據(jù)的使用,我們需要能夠快速且廉價的提取相關(guān)性的應(yīng)用,將洞察與操作聯(lián)系起來。

預(yù)計將短缺大量掌握定量技能的數(shù)據(jù)科學(xué)家和商業(yè)用戶,我們渴望能繼續(xù)探究大量已經(jīng)收集和管理起來的數(shù)據(jù),我們會開發(fā)更好的分析應(yīng)用,能生成洞察力和聯(lián)系操作。這些應(yīng)用,我稱它們?yōu)榫哂卸床炝Φ膽?yīng)用,遠不止從數(shù)據(jù)里提取相關(guān)性那么簡單。

就數(shù)據(jù)的完整性方面我們已經(jīng)取得了不錯的成績。一方面我們減少了管理大數(shù)據(jù)的費用,另一方面,我們提高了分析和提取關(guān)鍵信息的能力。但是,大數(shù)據(jù)的增長量太大了,以至于沒辦法跟得上大數(shù)據(jù)快速靈活的查詢和報告。通過使用具有洞察力的應(yīng)用,能低成本且快速地創(chuàng)造具有操作性的洞察。我將會在下一篇報道中更深入的探討這個問題。

作者簡介: Evangelos Simoudis是富有經(jīng)驗的風(fēng)險投資專家以及全球企業(yè)的高級顧問。他的投資事業(yè)開始于15年前,先后在安佰深集團和Trident Capital。如今,Evangelos主要是投資初期和成長期階段的企業(yè),這些企業(yè)主要是來自數(shù)據(jù)和分析領(lǐng)域,提供軟件即服務(wù)的應(yīng)用(Saas應(yīng)用),具有流動性。他是企業(yè)創(chuàng)新,大數(shù)據(jù),云計算以及數(shù)字市場平臺公認的思想領(lǐng)導(dǎo)者,他也是這些方面的積極發(fā)言人和貢獻者。

責(zé)任編輯:Ophira 來源: 36大數(shù)據(jù)
相關(guān)推薦

2017-06-13 14:39:21

阿里云侵權(quán)云服務(wù)器

2015-10-19 10:11:00

2014-06-16 09:11:29

快數(shù)據(jù)大數(shù)據(jù)

2014-08-15 10:34:42

快數(shù)據(jù)大數(shù)據(jù)

2015-09-14 13:57:22

大數(shù)據(jù)科技革命

2015-07-28 11:22:30

大數(shù)據(jù)浪潮

2014-03-24 17:31:21

2020-12-23 13:08:05

大數(shù)據(jù)數(shù)據(jù)科學(xué)

2021-03-03 11:06:07

云軟件

2015-10-29 09:35:12

BAT趨勢數(shù)據(jù)

2018-11-19 13:00:56

公安大數(shù)據(jù)數(shù)據(jù)分析安全

2024-04-11 11:26:11

邊緣計算物聯(lián)網(wǎng)數(shù)據(jù)分析

2024-05-15 10:38:55

OpenAIGPT-4oIlya

2020-12-01 16:31:05

大數(shù)據(jù)5G云計算

2013-01-17 10:09:50

JavaSpring

2021-08-11 18:23:08

數(shù)據(jù)平臺IT

2022-02-28 00:14:30

人工智能數(shù)據(jù)機器學(xué)習(xí)

2014-12-08 10:06:50

Hadoop大數(shù)據(jù)

2021-11-28 17:23:14

網(wǎng)絡(luò)安全大數(shù)據(jù)分析數(shù)據(jù)泄露

2011-12-20 20:44:36

移動應(yīng)用
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产一区二区在线视频 | 欧美黑人一级爽快片淫片高清 | 欧美综合国产精品久久丁香 | 日本中文字幕日韩精品免费 | 91在线精品视频 | 免费在线观看成年人视频 | 日日干夜夜操 | 91传媒在线观看 | 妖精视频一区二区三区 | 精品国产乱码久久久久久闺蜜 | 国产区在线 | 亚洲精品视频在线观看免费 | 啪一啪在线视频 | 国产色99精品9i | 日韩日韩日韩日韩日韩日韩日韩 | 国产精品国产精品国产专区不蜜 | 一区二区三区四区电影视频在线观看 | 在线欧美亚洲 | 日本不卡免费新一二三区 | 日韩在线视频一区 | 国产69精品久久久久777 | 亚洲激情专区 | 亚洲综合在线视频 | 久久6| 日韩成人免费视频 | 天天玩夜夜操 | 欧美精品一区二区三区在线播放 | 国产成人久久精品 | 久久一区二区三区四区 | 麻豆hd| 影音先锋亚洲资源 | 99精品欧美一区二区三区 | 成人免费观看视频 | 亚洲成人精品国产 | 日韩中文一区 | 天天草天天射 | 在线免费看毛片 | 激情黄色在线观看 | www.毛片 | 国内精品视频在线观看 | 日韩视频精品 |