成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Smart Data Platform – 大數(shù)據(jù)技術的未來

大數(shù)據(jù)
Smart Data Platform將極大降低企業(yè)建設,使用,和維護數(shù)據(jù)平臺的成本。Smart Data Platform將使得企業(yè)不但可以以很低的邊際成本運用大數(shù)據(jù)來提升核心業(yè)務的效率,而且可以以合理的成本應用大數(shù)據(jù)在眾多小業(yè)務,小場景下獲得更好的收益。

 大數(shù)據(jù)的概念(Big Data)已經(jīng)火了5年了,從Google Trends上來看11年以來,關注度一路快速增長,到15年開始逐步持平。實際上大數(shù)據(jù)已經(jīng)逐步走過了描繪愿景的階段,人們期待的是大數(shù)據(jù)能夠真正在各個行業(yè)落地,產(chǎn)生巨大的價值。但目前來看創(chuàng)造了明顯商業(yè)價值的應用還是在互聯(lián)網(wǎng),除了搜索以外,殺手級的應用也就兩個--精準廣告和推薦。TalkingData在大數(shù)據(jù)領域耕耘了5年,發(fā)展非常迅速,在很多傳統(tǒng)行業(yè)的大數(shù)據(jù)應用都是居于國內(nèi)領先地位。但是當我們的業(yè)務發(fā)展得越來越好,涉及的行業(yè)越來越多,客戶越來越多,項目越來越大,越來越深入的時候,我們卻覺得讓大數(shù)據(jù)產(chǎn)生價值的瓶頸也越來越大。從本質(zhì)上來講這個瓶頸就是目前大數(shù)據(jù)在傳統(tǒng)行業(yè)的應用其邊際成本并不是趨于0的。

回過頭來看大數(shù)據(jù)在互聯(lián)網(wǎng)里的成功應用,無論是搜索,精準廣告還是推薦系統(tǒng),其投入成本是非常高的。需要巨大的計算機集群,和人力成本非常高的程序員和數(shù)據(jù)科學家,以及大量的研發(fā)投入。但是所有這些業(yè)務都是在線業(yè)務,當用戶規(guī)模擴大以后,除了硬件資源上的成本外,其他的成本迅速被攤薄,使得其邊際成本趨近于0。業(yè)務規(guī)模越大,邊際成本越低,對技術成本的投入也就越不敏感。這也是為什么越是大的互聯(lián)網(wǎng)公司,越舍得在搜索,廣告和推薦系統(tǒng)這幾個大數(shù)據(jù)應用方面做投入。因為提高0.1%的預測精準度,就能獲得上億的收入。作為應用大數(shù)據(jù)產(chǎn)生價值***的互聯(lián)網(wǎng)企業(yè),自然是成為傳統(tǒng)企業(yè)效仿的榜樣。但是傳統(tǒng)行業(yè)受制于業(yè)務規(guī)模或者業(yè)務形態(tài),無法實現(xiàn)大數(shù)據(jù)應用的邊際成本趨于0。

如果在不具備邊際成本趨于0的行業(yè)中按照互聯(lián)網(wǎng)行業(yè)成本不敏感的方式來對大數(shù)據(jù)進行投資,在初期的熱情過后一定會發(fā)現(xiàn)這是不可接受的。這就是大數(shù)據(jù)普及化的過程中遇到的***的瓶頸。我們TalkingData一直致力于為更多的企業(yè)提供***標準的大數(shù)據(jù)解決方案和服務,但業(yè)務的迅速增長迅速吃掉了我們的研發(fā),咨詢和數(shù)據(jù)科學資源,為了保證交付質(zhì)量,我們不得不拒絕了很多潛在客戶。

互聯(lián)網(wǎng)創(chuàng)造了大數(shù)據(jù),基于大數(shù)據(jù)創(chuàng)造出來的智能在搜索、精準廣告、推薦系統(tǒng)等應用中又創(chuàng)造了巨大的商業(yè)價值。但是大數(shù)據(jù)創(chuàng)造智能的成本是非常高昂的,除了基本的軟硬件資源投入,***的成本在于人力資源的成本。收集,清洗,抽取,糾錯,整合不同來源的龐大數(shù)據(jù)幾乎完全依賴人的智慧,特征工程,分析,算法開發(fā),建模,調(diào)參,優(yōu)化,部署,測試等等所有這些工作也是完全依依賴于人的智慧。不但需要巨大的人力將應用建立起來,也需要巨大的人力來維護。而且當我們想調(diào)整應用的目標時,又需要投入巨大的人力來進行調(diào)整。目前的大數(shù)據(jù)應用方式,就像烏爾邦大炮,耗費人力無數(shù)而又笨重不堪,除了用于攻陷君士坦丁堡這樣的千年名城外,很難在其他戰(zhàn)場上有用武之地。我們現(xiàn)在很多企業(yè),甚至政府都在投入巨資建設自己的烏爾邦大炮,但是很可能這些投資最終只是成為對大數(shù)據(jù)崇拜的圖騰。

廣大的中小型互聯(lián)網(wǎng)公司和眾多的傳統(tǒng)企業(yè),在大數(shù)據(jù)方面,真正需要的是成本相對低廉的山炮,野炮,即使用成本和門檻低很多的大數(shù)據(jù)平臺。這樣的平臺需要更有效率的融合數(shù)據(jù),機器的智能和人的智慧,讓人的智慧集中在理解數(shù)據(jù)這樣的平臺,定義問題,和把握解決問題的路徑和方向上。這樣的平臺應該盡可能的把數(shù)據(jù)收集,清洗,抽取,糾錯,整合的工作交給機器,同時讓分析,建模和優(yōu)化工作擺脫像老中醫(yī)看病一樣依賴人的經(jīng)驗來選擇模型,算法和參數(shù)。這樣的平臺就是TalkingData的智能數(shù)據(jù)平臺-Smart Data Platform。Smart Data Platform將極大降低企業(yè)建設,使用,和維護數(shù)據(jù)平臺的成本。Smart Data Platform將使得企業(yè)不但可以以很低的邊際成本運用大數(shù)據(jù)來提升核心業(yè)務的效率,而且可以以合理的成本應用大數(shù)據(jù)在眾多小業(yè)務,小場景下獲得更好的收益。

Smart Data Platform的概念涵蓋了數(shù)據(jù)管理,數(shù)據(jù)工程和數(shù)據(jù)科學。但是其精髓就在于用人工智能技術來突破傳統(tǒng)完全依賴于人的智慧來駕馭數(shù)據(jù)的方式,將由人來創(chuàng)造人工智能的方式逐步轉向由人工智能來創(chuàng)造人工智能。這將是大數(shù)據(jù)和人工智能發(fā)展的革命性變化,就如由人來創(chuàng)造機器轉變?yōu)橛脵C器來創(chuàng)造機器,從而打開了工業(yè)革命的大門一樣,大數(shù)據(jù)和人工智能的發(fā)展也將進入一個快速螺旋上升的階段。

當然,如此宏偉的目標并不能一蹴而就。就目前而言,大數(shù)據(jù)技術***的兩個瓶頸就在于數(shù)據(jù)加工處理和分析建模。前者通常被認為是繁重的dirty work, 沒有多少人真正愛干。后者雖然是讓人興奮的工作,但是其更接近于藝術,對人的能力,直覺,和經(jīng)驗要求很高。前者因為工作量的龐大,后者因為人才的稀缺,成為了目前大數(shù)據(jù)技術的阿格琉斯之踵。TalkingData在這兩個方面都做了一些工作,也對未來的發(fā)展方向做了一些展望。

數(shù)據(jù)的處理加工目前基本完全依賴人的智慧,對數(shù)據(jù)如何清洗,如何糾錯,如何標準化,如何聚合相似數(shù)據(jù)都要求人來制定規(guī)則,對數(shù)據(jù)關系的梳理更是有賴于人的智慧的輸入。在大數(shù)據(jù)時代到來之前,這些問題都不被人重視,但是從2012年大數(shù)據(jù)概念逐漸火起來之后,在VLDB, SIGMOD等學術會議上關于數(shù)據(jù)處理的論文達到204篇。學術界,工業(yè)界逐漸認識到這個問題是大數(shù)據(jù)晴朗的天空上的一朵大烏云, 是必須要解決的問題。 AMPLab的SampleClean項目就是致力于用機器學習來解決數(shù)據(jù)的抽取,格式化,相似度連接等問題的項目。國外也有一些公司比如Tamr也在研發(fā)利用機器學習技術來解決元數(shù)據(jù)識別,糾錯,數(shù)據(jù)表自動關聯(lián)和相似數(shù)據(jù)項聚合的產(chǎn)品。SampleClean和Tamr都使用了Active Learning的技術,在處理過程中對不確定的問題會提出來,讓人來回答,然后學習到人的判斷規(guī)律,不斷提高自身的智能程度。數(shù)據(jù)處理智能化這方面的研究和嘗試應該說還處于起步階段,還沒有特別成熟的開源項目或者商業(yè)產(chǎn)品。TalkingData基于自己的實踐和對該方向跟蹤研究,將數(shù)據(jù)智能處理分為兩個階段,數(shù)據(jù)關系梳理,和數(shù)據(jù)項聚合。

數(shù)據(jù)關系梳理,是把所有數(shù)據(jù)表或者文件的Meta Data識別出來,然后根據(jù)Meta Data之間的關系把所有的數(shù)據(jù)表或者文件的關聯(lián)關系梳理出來。目前,這個過程基本都是由人來完成的,是個非常費時費力的工作,效率很難得到有效提高。如果要把這個過程自動化,那么會有三個層次的問題。首先,最簡單的,直接對Meta Data識別,這個通過將人的經(jīng)驗固化下來就可以解決這個問題。比如對手機號字段的識別,可以將常見手機號字段命名方式作為規(guī)則固化下來,在Meta Data識別時直接用規(guī)則判斷。當然,事先固定的規(guī)則很難處理所有問題,這時可以引入Active Learing的方法,在不確定時可以讓人來介入判斷,然后再學習人的判斷成為新的規(guī)則。 其次,在很多情況下Meta Data的命名不具意義,或者因為某些原因丟失了Meta Data,那么直接判斷Meta Data本身就沒有辦法,這種情況下可以通過字段值的特征來判斷字段的意義,如手機號,是11位,以13x, 15x, 18x, 17x開頭的數(shù)字有很大可能是手機號,如果字段值都符合這些特征,那么這個字段就有非常高的可能性是手機號。同樣,我們可以通過預置規(guī)則+Active Learning的方式來支持這一功能。通過以上兩種方法識別除了字段的意義后,則可以很容易的建立起數(shù)據(jù)之間的關聯(lián)關系。但是,還有一種最困難的情況,就是通過以上兩種方式都無法確定意義的字段之間是否存在關聯(lián)關系。 這種情況下,我們需要預先建立通用的字段關聯(lián)識別的機器學習模型,根據(jù)兩個字段的數(shù)據(jù)值判斷兩個字段是否是同一字段。通過以上這些方法,機器能夠給出數(shù)據(jù)表或者文件之間的關系,當然受限于機器的智能能力,不可能完全準確,因此對于任何兩個表或者文件之間的關聯(lián)關系,給出的是相關的可能性,而不是是否關聯(lián),***讓人來介入修正這些可能的關聯(lián)關系。這樣,梳理數(shù)據(jù)關系中大量繁重的工作都由機器完成,人只是介入其中為機器提供一些咨詢,和***確認結果,將大大提高人的效率。

數(shù)據(jù)項聚合或者相似度連接(Similarity Join)是另一個比較挑戰(zhàn)的任務,因為相同的數(shù)據(jù)項因為書寫習慣,格式的不同,有可能產(chǎn)生一些差別。比如人名,地名,國家名稱等。對于變化不大的情況,采用相似度度量方法,再加上局部敏感哈希來加速匹配過程能取得不錯的效果。TalkingData在應用包名合并的問題上綜合了應用名,包名的字符串相似性,應用描述的文本相似性,和基于深度學習的圖片相似度實現(xiàn)了包名的自動合并。但是對于更為復雜的問題,比如全稱和簡寫的問題,同義詞,反義詞,甚至是不同語言的問題,要比較好的解決這一問題,就需要知識圖譜的支撐。

數(shù)據(jù)分析建模中一個很大的問題就是模型選擇和參數(shù)選擇,這個問題對于數(shù)據(jù)科學家來說一直都是很頭疼的問題。知乎上有一個問題:為什么越來越覺得機器學習調(diào)參就像老中醫(yī)看病? 非常有意思,問題及其回答都體現(xiàn)了模型選擇和參數(shù)選擇是一個嚴重依賴數(shù)據(jù)科學家個人經(jīng)驗的工作。目前有一些開發(fā)數(shù)據(jù)科學平臺的公司為了解決這個問題,就在其產(chǎn)品中集成了自動選擇模型和參數(shù)的功能,其基本原理就是嘗試所有的模型及其參數(shù)空間(有可能根據(jù)一些啟發(fā)式方法來對搜索空間剪枝)。這種方法在小數(shù)據(jù)集上是可行的,但是對于大規(guī)模數(shù)據(jù)的問題,需要的計算量就是不可接受的。TalkingData在這方面做了一些工作,在即將開源的Fregata大規(guī)模機器學習算法庫中,我們實現(xiàn)了不需要調(diào)參的幾個經(jīng)典算法,這樣就使得算法可以作為標準的算子集成到數(shù)據(jù)處理流程中,而不需要case by case由數(shù)據(jù)科學家來調(diào)校,從而極大的提高在大規(guī)模問題上分析建模過程的效率。

以上兩個方面是TalkingData Smart Data Platform短期致力于達到的目標,有了智能的數(shù)據(jù)處理,和智能的數(shù)據(jù)分析建模,就可以大大提高大數(shù)據(jù)應用的效率,降低成本。使得大數(shù)據(jù)在小業(yè)務,小場景中也能創(chuàng)造出超過成本的價值,使得廣大的中小互聯(lián)網(wǎng)公司和傳統(tǒng)企業(yè)都能享受大數(shù)據(jù)的紅利。TalkingData也可以更高效的支持更多的客戶,幫助更多的企業(yè)在大數(shù)據(jù)上成功。“用數(shù)據(jù)的心智去超越”,TalkingData Smart Data Platform賦予機器以智能幫助人更好,更高效創(chuàng)造數(shù)據(jù)的心智去超越我們的夢想。

文章作者:

張夏天,TalkingData***數(shù)據(jù)科學家,全面負責移動大數(shù)據(jù)挖掘工作,包括移動應用推薦系統(tǒng)、移動廣告優(yōu)化、移動應用受眾畫像、移動設備用戶畫像、游戲數(shù)據(jù)挖掘、位置數(shù)據(jù)挖掘等工作。同時負責大數(shù)據(jù)機器學習算法的研究和實現(xiàn)工作。

責任編輯:趙立京 來源: 51CTO
相關推薦

2012-10-18 10:15:01

IBMdw

2021-10-28 16:36:32

大數(shù)據(jù)數(shù)據(jù)分析大數(shù)據(jù)平臺

2015-03-31 09:28:28

Hadoop大數(shù)據(jù)技術大數(shù)據(jù)未來道路

2011-08-10 11:16:00

Platform

2016-02-16 14:30:00

HadoopDoug Cuttin大數(shù)據(jù)

2012-11-13 10:52:15

大數(shù)據(jù)3D可視化

2015-04-01 15:09:30

Hadoop大數(shù)據(jù)

2014-06-16 16:07:37

大數(shù)據(jù)商業(yè)

2012-08-23 08:56:36

IBM大數(shù)據(jù)

2013-04-27 18:03:27

大數(shù)據(jù)全球技術峰會大數(shù)據(jù)CIO

2016-06-16 17:13:59

Hadoop

2021-01-04 10:49:46

人工智能大數(shù)據(jù)

2016-12-23 08:48:38

大數(shù)據(jù)集成分析

2012-12-12 09:41:51

大數(shù)據(jù)論壇

2021-05-10 09:40:02

大數(shù)據(jù)互聯(lián)網(wǎng)大數(shù)據(jù)應用

2023-04-03 14:25:08

大數(shù)據(jù)機器學習

2018-01-31 21:34:41

2020-12-31 06:18:08

人工智能物聯(lián)網(wǎng)大數(shù)據(jù)

2021-04-12 09:35:23

大數(shù)據(jù)據(jù)分析數(shù)據(jù)

2015-12-01 13:46:19

論壇組委會
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品久久久久久久久久久久久久 | 91精品国产91久久久久久丝袜 | 国产精品亚洲精品 | 91伊人| 午夜三级在线观看 | 亚洲大片在线观看 | 偷拍亚洲色图 | 日本午夜免费福利视频 | 一级黄色毛片子 | 国产精品美女久久久久久久网站 | 日韩高清www | 久久日韩精品一区二区三区 | 精品成人在线 | 国产精品不卡视频 | 九九热久久免费视频 | 国产免费a视频 | 欧美日韩福利视频 | 男人天堂色 | 欧美视频在线看 | 日韩精品一区二区三区在线观看 | 九九爱这里只有精品 | 成人免费视频一区 | 国产高清视频一区 | 成人福利影院 | 日韩成人在线免费观看 | 色视频一区二区 | 中文字幕视频在线观看 | 在线不卡 | 亚洲网站观看 | 欧洲妇女成人淫片aaa视频 | www.日韩系列 | 国内精品99 | 一级片在线视频 | 日本欧美大片 | 黄久久久 | 成人a在线观看 | 国产一区 | 国产情侣啪啪 | 手机看片1| 日日操操 | 综合久久色 |