為什么人工智對于電力有巨大需求?
當今的人工智能(AI)系統離復制真正的人類智能還很遠。但是,他們在識別數據模式和挖掘見解方面肯定會做得更好,在某種程度上要比我們更好。目前,人工智能模型可以識別圖像,通過聊天機器人與人交談,駕駛自動駕駛汽車,甚至在國際象棋中贏得了我們的青睞。但是,您知道嗎,訓練和構建這些模型所涉及的能源和功耗非常驚人?換句話說,訓練人工智能是高碳足跡的高能耗過程。
因此,減少這種能源消耗將對環境產生積極的連鎖影響。此外,它還將為企業帶來其他好處,例如減少其碳足跡并更接近與碳有關的目標。在繼續建設節能人工智能或綠色人工智能之前,我們必須了解為什么人工智能如此耗電?
訓練神經網絡
以一個神經網絡模型為例。神經網絡是一種強大的機器學習類型,它通過鏡像人腦來進行自我建模。由節點層組成的神經網絡試圖通過模仿人的大腦功能來識別數據集中的潛在關系。每個節點相互連接,并具有關聯的權重和閾值。假設節點的輸出值高于指定的閾值,則表明該節點已激活并準備將數據中繼到神經網絡的下一層。
神經網絡的訓練包括運行前向通過,其中輸入通過它,并在處理輸入后生成輸出。然后,后向遍歷涉及使用前向遍歷中接收的錯誤,通過需要大量矩陣操縱的梯度下降算法來更新神經網絡的權重。
2019年6月,來自馬薩諸塞州大學阿默斯特分校的一組研究人員發表了一篇關于他們的研究的論文,他們在其中評估了訓練四個大型神經網絡所需的能源消耗。這些神經網絡包括:Transformer、ELMo、BERT和GPT-2,它們分別在單個GPU上進行了一天的訓練,并測量了整個過程的能耗。
這些神經網絡之一,即BERT使用了來自英語書籍和維基百科文章的33億個單詞。根據KateSaenko的《對話》一文,BERT在訓練階段不得不讀取大約40次此龐大的數據集。為了進行比較分析,她提到一個五歲的普通孩子學會說話,到這個年齡可能會聽到4500萬個單詞,比BERT少3000倍。
在馬薩諸塞大學阿默斯特分校的研究中,研究人員發現,對BERT進行訓練曾經使一名乘客在紐約和舊金山之間往返旅行時產生了碳足跡。該團隊通過將該數字乘以每個模型的原始開發人員報告的總訓練時,間來計算出訓練每個模型的總功耗。碳足跡是根據美國電力生產中使用的平均碳排放量計算的。
實驗研究還包括培訓和開發稱為神經建筑搜索的調整過程。該技術涉及通過耗費大量精力的反復試驗過程使神經網絡的設計自動化。此額外的調整步驟用于提高BERT的最終精度,估計產生了626,155噸的二氧化碳,大約等于五輛汽車的總壽命碳足跡。相比之下,美國人平均每年會產生18.078噸的二氧化碳排放量。
GPU饑餓
借助如今強大的GPU(圖形處理單元),人工智能的發展成為可能。這些GPU通常會消耗大量電能。根據NVIDIA的說法,GPU耗散的最大功率等于250W,是IntelCPU的2.5倍。同時,研究人員認為擁有更大的人工智能模型可以帶來更好的準確性和性能。這與游戲筆記本電腦的性能相似,盡管游戲筆記本電腦的功能比普通筆記本電腦高,但由于性能高而變得更快。如今,人們可以在幾分鐘內租用具有數十個CPU和強大GPU的在線服務器,并快速開發強大的人工智能模型。
根據位于舊金山的人工智能研究實驗室OpenAI的研究,從機器學習發展的早期到2012年,該技術所需的計算資源數量每兩年翻一番(這與摩爾的處理器能力增長定律相提并論)。但是,2012年之后,構建一流模型的計算能力軌跡平均每3.4個月翻一番。這意味著新的計算要求會轉化為人工智能帶來的負面環境影響。
現在,專家們還認為,構建大規模的人工智能模型并不一定意味著在性能和準確性方面會有更好的ROI。因此,公司可能必須在準確性和計算效率之間進行權衡。
尖峰神經網絡
美國橡樹嶺國家實驗室的一個研究小組之前已經展示了一種有前途的方法,可以通過將深度學習神經網絡轉換為尖峰神經網絡(SNN)來提高人工智能能源效率。SNN復制了大腦的神經觸發機制,因此具有大腦的許多功能,例如能量效率和時空數據處理。美國橡樹嶺國家實驗室團隊通過引入隨機過程來加深深度加標神經網絡(DSNN),該過程增加了諸如貝葉斯深度學習之類的隨機值。貝葉斯深度學習是通過將隨機值引入神經網絡來模仿大腦如何處理信息的嘗試。通過這一動作,研究人員可以知道在哪里執行必要的計算,從而降低能耗。
目前,SNN被吹捧為神經網絡的下一個迭代,也是神經形態計算的基礎。去年,荷蘭國家數學和計算機科學國家研究中心(CWI)的研究人員以及荷蘭埃因霍溫的IMEC/Holst研究中心的研究人員已經成功開發了一種用于加標神經網絡的學習算法。