Hugging?Face是LLM新的GitHub
譯文譯者 | 李睿
審校 | 重樓
近年來,大型語言模型(LLM)席卷了科技行業(yè),開辟了創(chuàng)新的新領(lǐng)域,顛覆了從搜索到客戶服務(wù)的一切。支持這場人工智能革命的是GitHub和Hugging Face這樣的開放生態(tài)系統(tǒng),它使開發(fā)人員和企業(yè)能夠快速構(gòu)建、部署和擴展LLM。就像GitHub已經(jīng)成為軟件開發(fā)和協(xié)作的首選平臺一樣,Hugging Face現(xiàn)在正在成為所有與LLM相關(guān)事物的事實上的中心。
大型語言模型的興起
像GPT-3、BERT和PaLM這樣的LLM可以讓科技界發(fā)揮自己的想象力,它們能夠生成類似人類的文本、回答問題、總結(jié)文檔,甚至根據(jù)簡單的文本提示編寫代碼。根據(jù)麥肯錫公司發(fā)布的一份研究報告,專注于LLM的自然語言處理初創(chuàng)公司的投資從2020年的1億美元激增至2021年的15億美元以上。
這種興趣激增源于LLM在應(yīng)對各種人工智能挑戰(zhàn)方面的多功能性。例如,OpenAI公司的ChatGPT擅長于會話任務(wù),而像Cohere的生成式自然語言處理API這樣的工具可以總結(jié)文本并調(diào)節(jié)內(nèi)容。LLM正在改變企業(yè)的運營方式,推動從智能搜索到自動化客戶支持的各方面的進步。
麥肯錫公司估計,到2025年,LLM將在美國經(jīng)濟中每年創(chuàng)造2000億至3000億美元的經(jīng)濟價值。谷歌、Meta和微軟等美國科技巨頭以及初創(chuàng)公司都在競相挖掘LLM的潛力。但是在LLM上構(gòu)建、部署和迭代需要專門的基礎(chǔ)設(shè)施和工具。
GitHub在軟件協(xié)作中的關(guān)鍵作用
為了理解Hugging Face作為LLM中心日益重要的意義,可以了解GitHub在軟件開發(fā)中扮演的不可或缺的角色。GitHub于2008年推出,是用于版本控制和源代碼管理的開源Git協(xié)議的先驅(qū)。
如今,GitHub擁有2億多個代碼庫和8300萬多名開發(fā)人員。它為開發(fā)人員提供了協(xié)作、審查代碼、跟蹤問題和發(fā)布軟件的工具。GitHub已經(jīng)成為軟件團隊運作不可或缺的一部分,微軟公司在2018年以75億美元收購GitHub就是一個例子。
根據(jù)StackOverflow在2021年調(diào)查顯示,90%以上的開發(fā)人員使用GitHub。該平臺的社交編碼能力打破了軟件開發(fā)中的障礙。開發(fā)人員可以利用開源項目來加速構(gòu)建。而企業(yè)使用GitHub的企業(yè)產(chǎn)品來簡化編碼工作流程。GitHub深深植根于開發(fā)者文化,塑造了軟件社區(qū)創(chuàng)建、擴展和部署代碼的方式。
Hugging Face成為LLM的首選平臺
就像GitHub推動了開源開發(fā)一樣,Hugging Face正在引領(lǐng)LLM的開放生態(tài)系統(tǒng)方法。Hugging Face成立于2016年,最初專注于自然語言處理。在2020年,它轉(zhuǎn)向LLM并創(chuàng)建了Transformer庫,該庫將不同的LLM架構(gòu)(例如BERT和GPT-2)與標準化API統(tǒng)一起來。
這個庫通過抽象掉與LLM一起工作的復(fù)雜性,使LLM的訪問民主化。如今,Hugging Face已經(jīng)成為一個擁有20多萬用戶的充滿活力的社區(qū)。其主要產(chǎn)品有:
- 模型中心:超過10萬個人工智能模型的存儲庫,包括OpenAI公司的CLIP和Salesforce公司的BLENDER等LLM。它降低了使用LLM的門檻。
- 標記器:預(yù)訓(xùn)練模型用于標記和編碼LLM文本。對數(shù)據(jù)預(yù)處理至關(guān)重要。
- 數(shù)據(jù)集:精心策劃的數(shù)據(jù)集,用于培訓(xùn)和評估LLM。
- Spaces:用于部署、監(jiān)控和擴展LLM驅(qū)動的應(yīng)用程序的一個MLOps平臺。
- Infinite:基于GPT模型的維基風格數(shù)據(jù)集,用于生成自然語言查詢的答案。
這套工具解決了LLM從發(fā)現(xiàn)到部署的整個開發(fā)生命周期。Hugging Face還構(gòu)建了與Streamlight等平臺的集成,實現(xiàn)了無代碼LLM的實驗。
到目前為止,Hugging Face已經(jīng)籌集了1億美元的資金,這反映了其日益飆升的知名度。去年,Hugging Face的估值翻了五倍,達到20億美元。國際頂級人工智能實驗室和公司也在與Hugging Face合作。
LLM的GitHub
Hugging Face龐大的模型、數(shù)據(jù)集和開發(fā)工具中心為它贏得了“LLM GitHub”的綽號。它的模型中心是任何想要與LLM合作的人的起點。開發(fā)人員可以在其網(wǎng)站上找到Meta AI的OPT-175B等模型的優(yōu)化實現(xiàn)。
然后,他們可以通過Hugging Face的Transformers庫無縫訪問這些模型。這大幅降低了使用先進LLM的門檻,企業(yè)不再需要從頭開始構(gòu)建自己的LLM。與其相反,他們可以采用Hugging Face預(yù)先設(shè)定的LLM,并對其進行微調(diào),以適應(yīng)搜索和分析等領(lǐng)域的定制用例。
Spaces支持協(xié)作構(gòu)建、測試和部署LLM應(yīng)用程序。結(jié)合Hugging Face的開放數(shù)據(jù)集和活躍的社區(qū)論壇,它復(fù)制了GitHub為LLM量身定制的開源精神的核心元素。
美國一家大型科技公司的機器學(xué)習(xí)工程師Leo Zhao總結(jié)了Hugging Face在LLM工作流程中的融入:“每當我們需要一個新項目的LLM時,Hugging Face是我們所到的第一站。它們的模型中心有大量的選項可供選擇。只需幾行代碼,我們就可以立即標記并將數(shù)據(jù)提供給模型。Spaces使得在GPU集群上縮放模型訓(xùn)練變得容易。它確實是一個與LLM相關(guān)的一站式平臺。”
GitHub的類比也適用于Hugging Face如何圍繞LLM培養(yǎng)協(xié)作社區(qū)。它的技術(shù)論壇已經(jīng)成為數(shù)以萬計的LLM開發(fā)人員和用戶的重要知識和支持來源。Hugging Face通過其廣受歡迎的LLM會議進一步培養(yǎng)了這個社區(qū),使最新進展的訪問民主化。
克服LLM采用的挑戰(zhàn)
事實證明,Hugging Face在幫助企業(yè)克服采用LLM的關(guān)鍵障礙方面發(fā)揮了重要作用。根據(jù)麥肯錫公司進行的一項研究,企業(yè)在LLM方面面臨的最大挑戰(zhàn)是評估價值和確定用例。Hugging Face通過集中廣泛的LLM選擇和推薦的微調(diào)數(shù)據(jù)集來緩解這一問題。
此外,將LLM投入生產(chǎn)會帶來復(fù)雜的數(shù)據(jù)和基礎(chǔ)設(shè)施問題。Hugging Face的端到端平臺從模型訪問到部署,為企業(yè)掃清了這些障礙。
大規(guī)模構(gòu)建和運行LLM所需的財務(wù)投資也阻礙了LLM的采用。Hugging Face通過提供易于訪問的預(yù)訓(xùn)練模型來降低成本。Space通過其無服務(wù)器架構(gòu)和對可擴展云計算硬件(例如TPU)的支持進一步優(yōu)化了支出。對于規(guī)模較小的團隊和初創(chuàng)公司來說,這可以使大型LLM實驗變得可行。
用LLM改變未來
展望未來, Hugging Face似乎有望繼續(xù)發(fā)展成為LLM的中心。它的社區(qū)已經(jīng)超過了流行的人工智能論壇。越來越多的開發(fā)人員和企業(yè)在他們的生產(chǎn)管道中依賴于像Transformers庫和Tokenizers這樣的工具。
LLM將推動市場營銷、銷售和財務(wù)等領(lǐng)域發(fā)生翻天覆地的變化。麥肯錫公司預(yù)計,LLM可以將30%至45%的當前工作活動實現(xiàn)自動化,從而產(chǎn)生重大的社會影響。像Hugging Face這樣降低LLM創(chuàng)新門檻的平臺,將是實現(xiàn)其變革潛力的核心。
就像GitHub加速了軟件工程一樣,Hugging Face使開發(fā)人員和企業(yè)能夠更快速、更有效地利用LLM的能力。對于日益增長的LLM驅(qū)動的經(jīng)濟來說,Hugging Face代表著通往未來的大門。它的綜合平臺可以催化新市場,開啟人類與人工智能的大規(guī)模合作,開創(chuàng)下一個技術(shù)進步的時代。
原文標題:Hugging Face Is the New GitHub for LLMs,作者:Arvind Bhardwaj