成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鵬城云腦支撐鵬程系列大模型基礎研究

人工智能
引言:近日,“昇騰萬里 共贏智能新時代”峰會在深圳成功舉辦。峰會集聚了人工智能產業界權威專家、學者和商業領袖,共商人工智能產業發展趨勢,共同推動人工智能產業繁榮發展。大會現場,中國工程院院士、鵬城實驗 主任、北京大學教授高文發布《鵬城云腦支撐鵬程系列大模型基礎研究》主題演講,如下是高文院士演講全文要點。

[[401368]]

   各位專家、各位來賓,大家好!今天我主要是講鵬程大模型和自然語言處理有關的賦能。

  鵬城實驗室是國家為了中國科技長期能夠穩定支撐整個國家的發展,所布局的戰略科技力量當中的一支團隊,主要聚焦寬帶通信和新型網絡方面,包括高效能云計算服務。今天我講的基于昇騰基礎軟硬件所做的工作就是屬于高效能云計算服務中的一塊,主要是通過鵬城云腦來實施這個戰略。

  為什么要做這個?道理其實大家很容易懂,現在有了人工智能,因為數據增長速度非常快,算力又滿足不了要求,應用又很急切,我們怎樣把這些東西全都打通?需要有一個非常強的算力平臺作為支撐,能夠處理大規模的數據,能夠有好的算法,在這個算力平臺上把想要的解決方案提供出來,所以有這樣一臺大的設施是非常關鍵的,這個設施我們就把它叫做云腦。

  我們在建設鵬城云腦II的期間,真正實現了“深圳速度”的一個神話,為什么呢?了解我們國家科研制度的都知道,你要想做一個大的裝置,或者做一臺比如說大的機器,從開始到論證、報方案、批復,然后科研,然后再開始建設,這一個周期下來,快的是幾年,慢的有的是十幾年。而鵬城云腦II從開始遞交方案到機器建成一共用了九個月,真正體現了“深圳速度”。編制項目建議書是在去年(2020年)3月份,云腦II機器啟動運行是在去年10月15號,大家看左面這個坑是建機房之前,原來是采石場的一個坑,右邊這個照片是機房建好以后的樣子。現在這臺機器非常忙,這個機器的機時的使用率是99%,就是基本上是一點都不閑著,排著隊在等機時,因為我們有太多大模型需要在這個機器上去訓練。

  這個機器我們叫E級AI算力,達到1000P,所謂E級是10的18次方,或者換成我們普通說法叫做百億億次,我們知道一億是10的8次方,億億就是10的16次方,后面再加兩個零就是百億億次,應該說在AI算力上,是現在最強的一個,當然可能其他一些地方也有比這個算力規模稍微小一點的機器,現在用華為的系統已經建了大概六七個、七八個,或者是100P、300P的機器,大概是這臺機器的1/10,或者是1/3這樣的一個算力。這個算力要把它轉起來還是要花點氣力的,因為我們這臺機器是基于華為的Atlas 900 AI集群實現的,一組Atlas 900 AI集群有128個計算節點,每個節點內包含8顆昇騰910處理器,我們把四組Atlas 900 AI集群連到一起,整個是統一接口、統一形象,完全是一張網、一個機器。為了做這個機器,我們把四組集群上面架了一個全交換的非常快的網絡,為了讓它對數據的讀取速度更快,對每一個機器里面的存儲做了加強,對它內部的一些運算底層的軟件做了優化,這樣就使得這個機器的速度非常快。快到什么程度呢?基本上這臺機器現在在全世界的IO速度是最快的。快到什么程度呢?在去年的11月份,這臺機器去打榜的時候,比排第二的英特爾的一臺機器快了四倍。如果想做人工智能訓練,想做大模型訓練, IO的速度是決勝的,因為要有大量的數據來回的讀進去吐出來,如果IO速度如果不行的話,很多的開銷都被IO給吃掉了。這臺機器因為它IO方面做了特殊的配置,而且網絡方面也做了特殊配置,所以這個速度,就是通信的開銷,整個占比是比較低的,所以它在整個模型訓練的時候效率就會高。

  這臺機器現在至少已經訓練出兩個千億級的大模型。前幾天華為已經發布過一個盤古大模型,今天我要跟大家說的是叫鵬程大模型,這是兩個自然語言處理預訓練大模型之一。大家知道GPT3基本上是做自然語言處理,大家非常向往的一個模型,微軟為了訓練一個GPT3在微軟的環境下,花了1200萬美元訓練出一個GPT3的模型來。我們現在云腦II機器做完以后,已經訓練出兩個這樣的模型,一個是鵬城實驗室跟MindSpore團隊等聯合攻關訓練出來的,這個模型叫鵬程.盤古,模型參數為兩千億;另一個是華為云聯合鵬城實驗室一起聯合訓練出來的大模型,這個模型叫華為.盤古,這個模型參數為一千一百億。這兩個模型整個的復雜度都是千億參數,而且專門是針對中文的最大的模型。

  鵬程模型還有一個特點是開源的,我們內部的人討論說,就算你把兩千億開源了,它離了我們這臺機器還是玩不轉,要想跑起來就得來我們這個機器上跑。為了支持應用怎么辦呢?我們先開出一個百億級的大模型來,那么千億級的,如果有需要,只要是講清楚你要怎么用,在哪里算,我們也可以開。所以原則上支持開源的。

  那么有了這個開源,你就可以做很多自然語言處理方面的事。你要想做一個中文的問題回答系統,就是問答系統,你要想做自然語言的理解,想做一些理解器,或者你想做機器翻譯等等,這個系統都可以做。這個模型可以做云搜索、智能客服、醫療的一些向導、互動的教育、文學創造、自動摘要的生成,甚至做代碼的生成。現在我們有一個團隊在做一個知識產權交易聯邦推薦系統,沒有這個模型之前,是用軟件和很多專家的知識,做了一個系統,用上鵬程大模型以后,這個系統性能一下子提高了12.2%,所以鵬程大模型的好處是顯而易見的。而且我們希望用這個模型來突破“語言壁壘”,支撐“一帶一路”的國家戰略,也就是說用這個模型我們很容易做機器翻譯,做商業的這種報關等等這些文件的交換。以前是商量好用英語或者商量好用什么語言,現在隨便,你這邊用中文,那邊用阿拉伯語,通過這個東西馬上給你互譯過來。大家現在用手機就可以登錄進去,試試這個模型好不好用,你問一些問題,看看它能不能回答出來。

  鵬程大模型到底是怎么“煉”出來的呢?它是有四個方面基本的要素:

  第一個要素是AI的算力,就是鵬城云腦II;第二個要素是要有高質量的中文語料庫,我們有一個專門整理中文語料數據集的團隊,把能拿到、能買到的數據全都拿來進行清洗,然后把數據整理得非常好,送進機器就可以進行訓練;然后要有一個非常好的全自動并行的這樣一個算法,這個算法是由昇騰、MindSpore團隊和鵬城實驗室的工程師無縫合作,把這些全并行的技術實現了;最后就是通過“產學研”三方合作新型研發合作機制,結合華為的產業優勢,北京大學的學術優勢,以及鵬城實驗室的研究優勢,形成互補、協同。

  整個鵬城云腦可以作為核心節點連接全國算力的基礎設施,我們剛才說的是1000P的這樣一臺機器,現在全國各地有不少基于昇騰軟硬件在做的100P的或者300P的機器,這些可以聯動起來一起做,有大的問題、難的問題可以到1000P的機器上跑,小一點的模型或者私有化的一些應用,可以到100P、300P的機器上跑,這樣大家有些分工,就可以在全國把人工智能分享起來。

 

責任編輯:張誠 來源: 互聯網
相關推薦

2020-07-27 16:01:16

華為云EITechWave

2020-07-28 15:56:56

華為云EI

2015-11-11 20:23:22

創新

2018-07-26 18:09:33

華為頒獎Polar碼之父

2025-06-26 15:10:22

DeepMindAI工程團隊

2022-06-13 16:55:28

騰訊云數據庫

2020-09-25 12:02:16

華為田奇全聯接

2024-02-05 14:12:37

大模型RAG架構

2009-03-31 19:14:09

Vmware虛擬化云計算

2023-08-11 16:17:55

2025-03-06 07:28:31

DeepSeek大模型人工智能

2024-07-19 12:48:29

2024-06-17 07:46:01

2012-05-21 16:08:07

Hadoop云計算

2024-05-06 07:58:23

MoE模型系統

2025-05-21 13:56:37

模型圖像AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 伊人狠狠 | k8久久久一区二区三区 | 国产美女福利在线观看 | 精品1区| 在线观看av网站永久 | 激情视频中文字幕 | 国产精品一区二区三区四区 | 亚洲欧美一区在线 | 中文字幕视频在线观看 | 亚洲国产成人在线视频 | 一区二区在线免费观看 | 免费看的黄网站 | 成人九区 | 午夜视频一区二区三区 | 欧美成人激情 | 国产一区二区三区精品久久久 | 亚洲精品一区在线观看 | 欧美黑人巨大videos精品 | 国产一级片在线播放 | 久久av一区二区 | 国产在线精品一区二区三区 | 狠狠色综合网站久久久久久久 | 99精品久久久 | 日韩视频免费在线 | 91影视 | 欧美精品在线播放 | 久久亚洲天堂 | 91久久精品一区二区二区 | 北条麻妃av一区二区三区 | 成人福利在线 | 国产欧美视频一区 | 国产成人99久久亚洲综合精品 | 欧美一区两区 | 精精国产xxxx视频在线播放7 | 成人午夜电影网 | 中文字幕福利 | 久久国产综合 | 国产精品久久国产精品 | 99久久精品免费看国产免费软件 | 精品综合久久 | 黄色免费网站在线看 |