成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據十問:落地、效率與開發,如何齊頭并進?

新聞 大數據
近日,英特爾大數據技術全球 CTO 戴金權老師圍繞「大數據」的十個問題給出了自己的觀點。

眾所周知,數據、算法與算力是人工智能發展的三駕馬車。

過去的十年,是基于深度學習的「AI 大飛躍」,各類創新算法的迸發不斷帶來新的焦點,算法突破成為 AI 研究者的集中攻堅地。

然而,與時俱進,人們不斷發現:隨著深度學習的日新月異,單單算法的飛躍已經無法滿足 AI 整體的前進需求。算法 / 模型的長板,在數據、算力甚至應用等因素的短板牽制下,也開始寸步難行。

這其中,一個典型的例子是大模型的發展——盡管 AI 領域的研究者都清楚大模型的性能優勢與未來潛力,知道大模型開源對 AI 發展的遠大意義,但卻繞不過大模型開源的一個兇猛的「攔路虎」:算力。

在數據端也同樣如此。不久前,AI 科技評論就報道過一項研究,其稱在 ??AI 研究??中,數據存量的增速遠低于大模型訓練數據集規模的增速;預計 2026 年之前,高質量的數據源將會耗盡。

要知道,數據端的規模與質量是決定 AI 模型最終性能高低與實際應用表現的重要因素之一。比如,在近日大火的 AIGC 中,文本生成一側就受到數據端的限制與影響。在 2022 年,數據又重新進入大眾視野。

那么,當我們在說「大數據」的時候,我們應該將目光投注到哪些關鍵的話題上?

近日,英特爾大數據技術全球 CTO 戴金權老師圍繞「大數據」的十個問題給出了自己的觀點。戴金權博士是英特爾的院士,也是大數據領域的國際知名專家,同時兼具研究與落地的雙向視角,其觀點頗有啟發。

在開始這場“大數據知識”盛宴之前,大家可以觀看這支3分鐘的精簡短視頻,快問快答形式讓您可以對本次訪談的重要片段先睹為快。

大數據究竟是什么?

顧名思義,大數據的關鍵核心,就是大量的數據。但同樣重要的是產生大量數據以后,對數據的存儲、分析處理、計算建模、人工智能等等一系列應用,都可以算在大數據的范疇里。

大數據的“大”,首先指數據量比較大,最簡單也最有挑戰的問題是:當我有這么大的數據,怎樣進行存儲?除了數據量大,對數據處理和計算的要求其實也是非常大的。這些都代表了大數據的大。

2

人工智能與大數據:

先有雞還是先有蛋?

人工智能本身不是一個新概念。最近一次人工智能從某種意義上的復興,可能就是在2010年前后開始,以深度學習為代表的一系列的算法,能夠在很多原來做不到的應用上帶來非常好的效果。其中一個很大的促進作用,就是今天有了大量的數據,在大量數據的基礎上去學習非常大的深度學習的模型,可以提高模型的準確率,從而使得模型從原來的可能不能用,到今天可以被用了,它的準確率達到一定的程度,這樣就推動了人工智能的發展。

3

AI與大數據:落地更重要?

主持人:之前人工智能更關注性能,但最近人們更關注它的落地。對于大數據,是否也存在類似的思維方式的轉變?

如何把人工智能技術從實驗室應用到真實生產生活環境中,意味著兩點:

第一,它需要能夠和整個端到端的數據流很好的結合在一起,這樣才能真正對現實的生產生活產生影響;

第二,性能并不是孤立的,而要考慮整個端到端的性能,因為很多時候你的瓶頸在你的端到端數據流里面的不同的地方,怎樣把整個端到端的性能進行優化,這是很關鍵的。

舉個例子,我們和韓國SK電訊有個合作,他們要對通訊網絡進行分析,了解網絡質量如何,并用人工智能的模型來進行判斷。他們可能在一個很大的城市里有幾十萬個基站,基站設備每秒鐘會產生非常多的網絡數據。這些數據在產生之后,要從分散在城市中的各個基站進入到數據中心的大數據平臺里,然后進行數據整理、分析、特征處理,然后去建模、訓練,再根據模型去進行推理,推理之后根據出來的結果,可能會得出某個地方的網絡質量有問題等等。

在這里,“端到端”是從開始到結束,而且它是動態的、每秒都會產生,并不是產生一次就結束了。

4

英特爾大數據平臺BigDL的

作用及開發難點?

主持人:您在行業的代表性工作,就是關于大數據的平臺BigDL。能否請您簡單介紹一下BigDL到底是什么?

用一句話來說,BigDL是英特爾開源的一個“端到端”的大數據到AI的平臺、或者流水線。如我剛才所說,人工智能真正成功的重點,是怎樣把實驗室的算法、模型真正應用到生產環境中。這就需要一個“端到端”的軟硬件平臺,能夠讓用戶很方便地做這件事情,這是做BigDL的目的。

開發這樣一個“端到端”大數據AI平臺,當然也遇到了一些重要的挑戰。

第一,需要把AI和現有的大數據生態系統進行無縫連接。傳統上,用戶很多時候要從大數據平臺里進行數據拷貝,然后移到另外一個深度學習的集群上,但這樣其實非常不高效。因此需要AI和大數據平臺的無縫連接。

第二,如何從單機的環境轉到分布式的計算環境。大規模的分布式計算是支撐AI或大數據的關鍵,但這對于一般的數據科學家是一個非常大的挑戰。

通常來說,數據科學家寫完代碼,要把代碼扔過一堵無形的“墻”,墻那邊可能有個產品團隊或工程團隊,根據實際場景進行代碼重寫。

而我們希望做到代碼不用重寫,原來能在筆記本上運行的代碼,只需改一兩行代碼就能無縫地在大規模分布式的環境中進行運行,而實現這種方式有著極大的挑戰。

5

什么是開發與部署中間的“墻”?

大多數情況下,數據科學家或者AI研究人員所使用的編程的模式和硬件環境,與大規模部署的現實環境是并不一致的。作為數據科學家或AI研究者,我喜歡在自己的電腦上面把數據拷過來,然后在上面跑,并且在單機上把它的性能跑到最好、模型調得最好,這些是我關心的問題。

但在生產環境中,數據來源非常多,可能有不同的數據系統接入進來,形成大數據流水線。然而,模型怎樣應用到大數據流水線上,并不是研究人員關心的問題。比如我有一個大規模的至強集群,我的數據、數據處理都在其中,此時怎樣把AI接入到這上面,很多時候研究人員是不關心的。這就導致了原型開發和最終生產部署環節的脫節,因此對開發人員非常不友好、非常不高效。

大多數情況下,我們在公司里會有一些數據科學家或AI研究人員是專注于研究先進的算法;還有團隊負責生產系統。這個生產系統包括軟硬件,很大程度上還是軟件應用、大數據系統或APP,整個應用要非常高效、非常穩定、非??蓴U展,大規模地部署。

研發和部署很多時候一開始注的點并不一樣,有很多厲害的AI研究人員,他們做了非常多的AI模型。但在下一步把模型運行在生產系統或生產數據上看效果的時候,突然發現并沒有辦法很好的去對接生產系統,于是這時候他就開始關心這件事情了。所以,這個問題對兩邊都存在。目前,還沒有一個特別好的軟件平臺,能夠把這兩邊整個的需求統一在端到端的流水線上。

6

芯片公司,為何要做開源平臺?

英特爾在開源的社區和開源的研發方面都有長久的投入,從操作系統Linux,再到虛擬化,再到大數據、AI,其實英特爾在開源方面做了非常大的工作。

開源的目的是,一個健康活躍的開源生態系統,對整個的技術發展有非常大的推動。BigDL的目的也是這樣,我們希望能夠幫大數據和AI 的生態系統做一個橋梁,幫助用戶更好地將大數據和AI的技術運用在軟硬件平臺上。

今天來說,構建這樣一個基礎軟件生態系統,最好的方式是通過開源,大家在里面可以有非常多創新和溝通交流。從BigDL的角度來說,我們作為一個開源的項目,也是希望能夠把大數據生態系統和深度學習的生態系統做一個連接。

7

大數據、AI與超異構

主持人:異構計算目前非常火熱,您覺得底層計算平臺應該具備哪些特點、并且如何支撐大數據的處理呢?

這個問題我覺得可以從兩方面來回答。

第一,BigDL希望做的是把大數據生態系統和人工智能生態進行結合。我們針對分布式的至強CPU服務器集群來進行大數據AI平臺的構建,并在硬件上其實有非常多的優化。雖然英特爾的至強CPU是一個通用處理器,但是里面其實有非常多的硬件指令是針對AI優化的,比如在低精度INT8上的VNNI或者DL Boost,在下一代至強可擴展處理器中的AMX的矩陣加速硬件。當它成為通用CPU計算的一部分之后,用戶可以利用軟件進行加速,從某種意義上獲得免費的加速能力。從一些實踐中可以看到,這種軟硬件的結合,可以幫助用戶免費得到十倍甚至更高的性能提升。

另外一方面,我們看到一個很重要的趨勢——異構,事實上我們認為這是一個“超異構”的趨勢,因為有著非常多的芯片類型,從FPGA到GPU再到ASIC加速器到IPU等等。所以怎樣通過一個非常好的軟件的抽象(比如英特爾的oneAPI就開放了標準的軟件抽象),能夠將不同XPU硬件加速和計算集成在統一的界面下,也讓上層軟件開發更高效。這兩方面的工作我們都在進行中。

8

BigDL的演進

BigDL 的開源是在2016年12月30日,在過去五六年的時間里,我們和社區里的很多用戶、合作伙伴做了非常多的合作。比如大規模的推薦系統,大規模的時序分析的應用,當然也有很多計算機視覺、自然語言處理等等方面的應用。

舉一個和萬事達卡的合作案例,他們有差不多20億的用戶和交易數據,在大數據平臺上可能有幾千億的交易的記錄。當他們使用非常大規模的CPU至強集群構建大數據平臺之后,他們希望能夠在這些數據上構建AI應用,并對他們的交易數據進行挖掘,產生各種各樣的模型等等。

利用BigDL,萬事達卡的工程師得以在其大規模的企業數據倉庫上構建了非常多“端到端”的AI應用,從數據倉庫端對數據進行分析、抓取、特征處理、建模、訓練,最大的應用在幾百臺至強服務器上進行大規模分布式的訓練,差不多在5小時內訓練出一個大規模的AI模型,并提高他們各種AI的能力。

那么英特爾BigDL是否只能運行在英特爾平臺上呢?答案是否定的。嚴格來說,BigDL并不是只運行在英特爾平臺上,而是運行在大數據的生態系統上。但大數據生態系統基本上都是運行在X86的平臺上。當然BigDL會為英特爾的至強服務器等做更多的優化,來提高它的執行效率。

9

大數據的發展愿景    

從計算加速角度來說,面對硬件加速器,我們或許低估了軟件優化的能力。很多軟件優化的技術,包括像低精度、多核多線程計算、量化方式等等,能夠很好地對AI整個計算效率帶來非常大的提升。

其實我們今天也做了很多工作,我們甚至愿意把他們稱之為軟件的AI加速器,這個“免費加速器”如何與BigDL這種大規模分布式的環境相結合,不只是很好地做scale out水平擴展,還可以很好地提升每個節點的計算效率,這是我們正在進行中的大部分的工作。這件事情是非常重要的,一個生態系統,必須要將各種技術能夠有機統一在一起,然后最終的目標是給用戶帶來最大的價值。

我們有一個愿景叫「AI Everywhere」 ,就是「AI無所不在」。在將來的很多生活應用中,都會使用大數據和AI來進行分析,從而提升體驗和生產效率。

從數據的角度來說,深度學習較大的局限在于進行大量的監督學習。很多人說:人工智能,有多少人工就有多少智能 —— 因為要對大量數據進行標簽、清洗。逐漸的大家意識到這個問題,于是大量向自監督學習、弱監督學習、或者說元學習這樣的方式進行轉移,并研究這些新的學習范式,怎樣提高數據的效率、減少人工干預。

在算法本身,一方面大模型是明顯的趨勢,超大參數的模型能夠得到更好的效果;但是另一方面,這也會給計算帶來非常大的挑戰。當模型變大以后,計算的整個效率其實是降低了。我覺得非常重要的點是如何利用遷移學習、或者利用新的學習范式,來把這種非超大規模的模型更好地利用到下游的任務上去,從而減少計算量并提高效率。

除了剛才提到的計算、數據和算法之外,還有一個很多人會忽視的關鍵地方,那就是開發效率。不只是計算效率或數據效率,而是作為一個數據科學家、機器學習工程師或大數據工程師,他們的效率也是非常重要的,因為很多時候到最后人比機器更貴。

怎樣提高開發人員的開發效率,不管是今天所謂的低代碼、無代碼的開發方式,都值得探索。我可能更感興趣的是,作為一個寫代碼的人,怎樣能夠有非常好的開發環境。我們在BigDL做的工作可以說是初步的嘗試,怎樣更好地讓今天的數據科學家和工程師在大規模的、非常復雜的算法、非常復雜的數據的這樣一個環境中非常高效地進行開發,這也是推動人工智能和大數據的一個重要方向。

10

大數據技能是否會成為

未來程序員的標配?

我覺得大數據處理今天已經是程序員的標配了,基本上大多數開發者、特別是在云端進行應用開發的人,都會接觸到怎樣對數據進行處理。只是怎樣把整個技術平臺和軟件平臺做得更加易用,這是一個難點。

另外一個難點就是說今天的數據計算、人工智能、機器學習的算法,很多會成為標準化或者大家都需要使用的工具,但是新的技術的發展還是剛需。雖然人工智能、大數據很有用,但是還有很多缺陷,怎樣在新的技術方向上進行突破,仍然是非常重要的一點。

彩蛋:英特爾院士對大數據學習的建議

大數據、人工智能是一個非常復雜的系統,其實有很多不同的技術方向。給大家的建議來說有三條。

第一,Linux創始人林納斯的一句話,“Talk  is cheap,show me  the  code。”很多時候當你看到一個感興趣的方向,第一步應該考慮怎樣能夠真正扎實地做點東西出來。哪怕去復現一個算法,在上面進行一些改動,做一些新的東西,都可以。

第二,當你做了好幾個項目之后,需要思考如何把這些工作展現給別人。要思考工作的體系是什么,整個趨勢是什么,能不能把我做的事情說清楚,我做了什么,為什么做這個,我解決什么問題——這些思考很重要。

第三,有一句話和大家共勉:我們通常會高估自己一年能做什么,但低估自己十年能夠完成什么。很多人就會覺得,我認認真真做了一年、做了好幾個月,但并沒有太大進展。其實只要你能夠按照這個方向真正堅持做下去,過了五年,過了十年,你會發現你有非常大的收獲。

責任編輯:張燕妮 來源: AI科技評論
相關推薦

2009-09-17 14:59:31

敏捷開發

2015-11-28 12:47:08

IBM三一集團工業4.0

2019-02-12 15:26:07

華為云

2018-04-25 08:15:48

5G商用運營商

2015-05-04 09:50:10

OpenStack企業云方案紅帽

2015-09-01 13:58:25

大數據企業

2014-06-06 09:52:42

大數據

2021-08-30 19:01:49

數據開發模式

2023-01-06 14:30:12

2019-10-29 20:13:43

Java技術程序員

2016-07-20 16:58:44

SDN軟件定義網絡

2024-02-19 15:59:56

2023-04-04 07:04:20

2013-07-12 10:30:34

2017-04-24 11:40:26

大數據制造企業

2019-06-06 10:24:40

物聯網數字化消費

2022-02-21 10:34:55

Kubernetes容器云計算

2016-10-25 09:37:13

2024-12-18 15:34:07

2023-06-05 05:39:35

大數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品视频网 | 色本道 | 成人福利在线视频 | 免费av毛片 | 国产精品免费一区二区三区四区 | 欧美午夜视频 | 欧美视频一区 | 日韩美女爱爱 | 狠狠干网站 | 国产精品99一区二区 | 中国91av| 日本精品一区二区三区视频 | 国产91视频一区二区 | 中文字幕视频免费 | 另类视频区| 国产美女一区二区 | 久久综合九色综合欧美狠狠 | 99热这里只有精品8 激情毛片 | 黄色在线播放视频 | 成人18亚洲xxoo | 国产精品久久久乱弄 | 国产综合第一页 | 欧美精品黄 | 欧美99| 成人二区 | 亚洲欧洲精品成人久久奇米网 | 日韩av一区二区在线观看 | 天天夜夜人人 | 国产一级片在线观看视频 | 色女人天堂 | 国产精品一区二区视频 | 成人黄色电影在线播放 | 黄色av观看 | 国产成人精品免费 | 亚洲一区 中文字幕 | 国产精品福利网站 | 天天想天天干 | 免费xxxx大片国产在线 | 久久99深爱久久99精品 | 久久精品中文 | 欧美日韩在线观看视频网站 |