大模型應用實踐:AIGC探索之旅
隨著OpenAI推出ChatGPT,AIGC迎來了前所未有的發展機遇。大模型技術已經不僅僅是技術趨勢,而是深刻地塑造著我們交流、工作和思考的方式。本文介紹了筆者理解的大模型和AIGC的密切聯系,從歷史沿革到實際應用案例,再到面臨的技術挑戰和倫理監管問題,探討這一技術浪潮如何引領我們進入一個智能化的未來。
一、前言
引言:AI時代,未來已來
2022.11月30號OpenAI推出ChatGPT后隨即爆火,五天注冊用戶數過百萬,2個月用戶破1億,成為史上增長最快的消費者應用。隨后各大廠也紛紛卷入AIGC領域,迎來國產GPT大模型發布潮(百度"文新一言"、阿里"通義千問"、商湯"商量 SenseChat"等)及AI創業公司成立潮(王小川、李開復等)。
大模型代表一個新的技術AI時代的來臨,大模型展現出的強大的語義理解,內容生成以及泛化能力正在逐漸改變我們的工作與生活方式(AI+)、工作方式和思維方式。正如《陸奇的大模型觀》所講當前我們正迎來新范式的新拐點,從信息系統到模型系統過渡,"模型"知識無處不在。人工智能的浪潮正在引領新的技術革命,或許可稱為第五次工業革命。
(【注】推薦大家去閱讀《陸奇的大模型觀》。強烈建議直接看陸奇演講視頻 奇績創壇| 陸奇最新演講完整視頻|大模型帶來的新范式:演講涵蓋陸奇對大模型時代的宏觀思考,包括拐點的內在動因、技術演進、創業公司結構性機會點以及給創業者的建議。)
在人工智能的新時代,大模型技術正成為推動AIGC(人工智能生成內容)前沿的關鍵力量。本文將通過介紹我們的AIGC項目,來深入探討這一技術的開發、實施與應用。因個人能力限制,文章中可能存在一些理解或表述錯誤的地方,希望各位大佬能及時批評和指正。
AIGC簡介與發展歷程
在與業務等交談過程中,經常會聽大家提到AIGC、ChatGPT、大模型、XX等許多概念,但也發現部分內容混淆。首先來解決下當下最火概念AIGC、ChatGPT、大模型到底是什么?
- ChatGPT "Chat Generative Pre-trained Transformer”的縮寫,ChatGPT是一種基于人工智能技術的聊天機器人,能用于問答、文本摘要生成、機器翻譯、分類、代碼生成和對話AI,是一款由OpenAI開發的基于Transformer架構的的自然語言處理工具。
- AIGC,全名“AI generated content”,又稱生成式AI,意為人工智能生成內容。狹義概念是利用AI自動生成內容的生產方式(UGC->PGC->AIGC);廣義的AIGC可以看作像人類一樣具備生成創造能力的AI技術,包括但不限于文本生成、音頻生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成等等。
- 大模型:大模型通常是指參數量非常大的深度學習模型,如Transformer架構的GPT-3、BERT、T5等模型。這些模型通過在海量數據上進行訓練,能夠學習到豐富的語言和知識表示,并展現出強大的自然語言處理能力。
AIGC是一個更廣泛的概念,包括多種類型的內容生成;ChatGPT則是一個具體的產品。簡單可以這么理解:AIGC是平臺,ChatGPT是平臺上的某個軟件。
結合人工智能的演進歷程,AIGC發展大致分三個階段[人工智能行業生成內容(AIGC)白皮書(2022年)(地址:https://www.vzkoo.com/document/20220907cc987d2511ffc7c895ed6dd4.html?spm=ata.21736010.0.0.56075d51YB56mA)]:
早期萌芽階段(1950s-1990s)
早期萌芽階段(1950s-1990s),受限于當時的科技水平,AIGC僅限于小范圍實驗。
- 1957 年,萊杰倫·希勒和倫納德·艾薩克森完成歷史第一支由計算機創作的弦樂四重奏《伊利亞克組曲》。
- 1966年,約瑟夫·魏岑鮑姆和肯尼斯·科爾比開發了世界第一款可人機對話的機器人Eliza。
- 80年代中期,IBM基于(Hidden Markov Model,HMM)創造了語音控制打字機Tangora。
- 80年度末-90年度中,由于高昂系統成本無法帶來可觀的商業化變現,AIGC未取得重大突破。
沉淀積累階段(1990s-2010s)
沉淀積累階段(1990s-2010s),AIGC從實驗性向實用性逐漸轉變。
- 2006年,深度學習算法取得重大突破,及圖形處理器(GPU)、張量處理器(TPU)等算力設備性能不斷提升,互聯網規模膨脹提供海量訓練數據,但AIGC仍受限算法效率,應用及效果有待提升。
- 2007年,世界第一部完全由人工智能創作的小說《1 The Road》問世,雖其可讀性不強,但象征意義遠大于實際意義。
- 2012年,微軟公開展示了一個全自動同聲傳譯系統,基于深層神經網絡(Deep Neural Network,DNN)可以自動將英文演講者的內容通過語音識別、語言翻譯、語音合成等技術生成中文語音。
- 快速發展階段(2010s至今)
快速發展階段(2010s至今),深度學習模型不斷迭代,AIGC突破性發展。
- 2014年,隨著以生成式對抗網絡(Generative Adversarial Network,GAN)為代表深度學習算法的提出和迭代更新,AIGC迎來了新時代,生成內容百花齊放,效果逐漸逼真直至人類難以分辨。
- 2017年,微軟人工智能少女“小冰”推出了世界首部100%由人工智能創作的詩集《陽光失了玻璃窗》。
- 2018年英偉達發布了StyleGAN模型可以自動生成圖片,目前已經發展到了第四代模型StyleGAN-XL,其生成的高分辨率圖片讓人難以分辨真假。
- 2019 年,DeepMind 發布了 DVD-GAN 模型用以生成連續視頻,在草地、廣場等明確場景下表現突出。
- 2021 年,OpenAI 推出了 DALL-E 并于一年后推出了升級版本 DALL-E-2,主要應用于文本與圖像的交互生成內容,用戶只需輸入簡短的描述性文字,DALL-E-2 即可創作 出相應極高質量的卡通、寫實、抽象等風格的繪畫作品。
- 2022年,12月OpenAI的ChatGPT在推出,兩個月后用戶數量就突破1億了。在文本生成、代碼生成與修改、多輪對話等領域,已經展現了大幅超越過去AI 問答系統的能力。
- 隨后各大廠也紛紛卷入AIGC領域(百度“文新一言”、阿里“通義千問”、商湯“商量”SenseChat等),涌現運用AI于寫作、編曲、繪畫和視頻制作等創意領域。目前 AIGC 技術可以自動生成文字、圖片、音頻、視頻,甚至 3D模型和代碼,在搜索引擎、藝術創作、影音游戲,以及金融、教育、醫療、工業等領域的應用前景十分廣闊。
- 據 TBanic Date 估計,到 2025 年人工智能生成數據占比將達到 10%。
大模型與AIGC的關聯
大模型(Large Models)與AIGC(人工智能生成內容)之間存在密切的關聯,AIGC依賴于大型的人工智能模型來生成高質量的內容。它們是人工智能技術發展的兩個重要方面。簡單來說:
- 技術基礎:大模型是實現AIGC的重要技術基礎之一。大模型通常經過訓練,以從海量數據中學習語言、圖像或音頻的模式。這些模型能夠理解和模仿人類創作的風格和結構,從而在不同的領域中生成新的內容。例如,使用大模型可以生成文本、圖像等內容,這些都是AIGC的核心應用場景。
- 性能提升:隨著大模型的發展,其生成內容的能力也在不斷提高,使得AIGC的質量更加逼真和豐富,從而拓展了應用范圍。
- 協同工作:在某些情況下,大模型可能需要與其他技術(如計算機視覺或自然語言理解)結合使用,共同為AIGC服務。
- 產業影響:大模型的廣泛應用推動了AIGC相關產業的發展,AIGC利用這些模型在媒體、娛樂、教育、科研和商業領域中創造價值。
總的來說,大模型和AIGC相互促進、共同發展,形成了一個緊密聯系的技術生態系統。在這個系統中,大模型提供了底層的技術支持,而AIGC則代表了一種實際的應用形式。
二、大模型概述
大模型的定義和特點
大模型(Large Models)在人工智能(AI)和機器學習(ML)領域,通常指的是具有大量參數的(通常包含數百萬到數十億甚至更多的參數)、復雜計算結構和強泛化能力的機器學習模型。這類模型往往是基于神經網絡,尤其是深度神經網絡,包括但不限于深度卷積神經網絡(CNNs)、循環神經網絡(RNNs)、長短期記憶網絡(LSTMs)和Transformer架構。
其主要特點包括:
- 大量參數:大模型擁有龐大的參數量,通常包含數百萬到數十億甚至更多的參數,遠超過傳統的小型模型。使其具備極高的表達能力,能夠模擬和學習非常復雜的函數關系。
- 強大的學習能力:由于參數量巨大,這些模型具有強大的學習和泛化能力,能夠在各種任務上達到或超越人類的表現。
- 大數據集&計算資源密集:為了訓練這些模型避免過擬合,并充分利用其學習能力,需要大量的訓練數據。且需要大量的計算資源進行訓練,包括高性能硬件GPU集群和大量的電力。
- 預訓練和微調:大多數大模型采用兩階段的學習過程,首先在大量的無標注數據上進行預訓練,然后在特定任務的數據集上進行微調,以獲得更好的性能。
- 自我監督學習:許多大模型通過自我監督學習來提高其泛化能力,這種學習方法不需要人工標簽,而是讓模型自己從輸入數據中學習到有用的特征。
- 上下文敏感性:大模型在處理自然語言理解和生成任務時,能考慮到更多的上下文信息,從而生成更加準確和流暢的文本。因此在實踐大模型過程中要盡可能輸入足夠的上下文信息來提高結果的準確度。
- 解釋性的挑戰:由于模型的復雜性,理解模型的決策過程和內部工作機制是具有挑戰性的,這通常被稱為模型的解釋性或透明度問題。
典型大模型舉例
國際:
組織 | 模型/應用 | 備注 |
OpenAI | GPT-1/GPT-2/GPT-3 |
|
OpenAI | GPT-4 |
|
LaMDA |
| |
PaLM-E |
| |
Meta | PaLM-A |
|
Meta | LLaMA |
|
微軟 | Windows Copilot |
|
國內:
組織 | 模型/應用 | 備注 |
復旦大學 | MOSS |
|
阿里 | 通義千問 |
|
清華大學 | ChatGLM | |
華為 | 盤古 |
|
商湯 | “商量”SenseChat |
|
騰訊 | 混元 |
|
科大訊飛 | 星火認知 |
|
百川智能 | Baichuan-7B、Baichuan-13B |
|
百度 | 文心一言 2023.10.17 文心大模型4.0正式發布 |
|
【注】更多模型可從huggingface模型平臺查看 ;
huggingface國內鏡像(地址:https://aliendao.cn/models#/)
總結來看:
- 模型演進方向:模型參數規模更大、多模態支持演進
- 技術成熟度:國內整體能力尚處在追趕GPT3.5階段,部分中文能力上逼近GPT3.5(見下附圖),與國外有一定差距
【附】中文能力上10月 SuperCLUE 評測排名
三、AIGC應用探索
業務背景
筆者所在業務存在多國家多語種的千萬級別的海外特色供給,因多語種翻譯、商品信息不足、供應商能力等問題導致大量商品屬性缺失、圖片素材質量低;導致用戶理解難、轉化低、萬求高。面對極大品量,運營手動僅可補全少量頭部商品,無法全量優化。在AI技術成熟的背景下,考慮采用AIGC的方式對商品的屬性、賣點、素材圖片、場景圖等信息進行補全及優化。
AIGC技術落地過程
作為一名業務技術開發,必須時刻圍繞解決業務實際問題、技術創新驅動業務發展、快速響應市場變化等方面思考。在項目啟動初期,我們首先基于探物香水標品場景2000個品批量AIGC素材,驗證AIGC生產可行性。并經過多次腦暴探索,明確要做能夠帶來業務價值的、能夠規模化的、能夠突出國際垂類優勢的AIGC應用。不做炫技的,落不了地的,沒有業務感知的,不做通用的模型,算力(資源不允許)。
因此技術目標:搭建可復用可擴展、嵌入產供投鏈路的AIGC工程引擎;輔助業務快速落地AIGC場景。技術選型核心三步:1、模型底層選擇;2、語言&框架選擇;3、整體架構設計。
模型選擇
生文模型:初期我們采用GPT4、GPT3.5,后面也逐步引入了通義千問、vertex-PaLM2、claude2等。
生圖模型:Stable Diffusion
成本方面估算:對于英文,1個token大約為4個英文字符或0.75個英文單詞;對于中文,1中文約1-3個token。前期試驗下來,探物品 cost=0.12元/品,是在業務可接受的范圍。
測算token數網站:https://gpttools.com/estimator
技術框架選擇
綜合開源社區活躍、可靠性,以及前期我們采用GPT模型適配度等多方面考慮,在模型層我們采用LangChain框架構建。
特點 | LangChain | Llama-Index | Semantic Kernel(微軟) |
語言 | Python ;Js/Ts | Python | TypeScript |
可組合性 | 是 | 是 | 是 |
LLMs和Prompt管理 | 是 | 是 | 是 |
Chains(編排能力) | 是 | 否 | 是 |
數據索引處理 | 是 | 是 | 是 |
任務管理(agents) | 是 | 否 | 是 |
狀態管理 | 是 | 否 | 是 |
Evaluation | 是 | 否 | 是 |
文檔 |
【注】這些框架的目的是為 LLM 交互創建一個底層編排引擎
LangChain是一個基于大型語言模型(LLMs)構建應用的框架。它的核心思想是定義標準接口(可以自定義實現)& 可以將不同的組件“鏈接”起來,創建更高級的LLMs應用 ,類似spring全家桶。它可以幫助你實現聊天機器人、生成式問答、文本摘要等功能。
langchain-python | langchain-java | |
生態繁榮度和可靠性 | 高,社區活躍,github 4.7W+star | 低,集團內部團隊自建 |
擴展工具多樣性 | 高度豐富的組件能力 | 極少 |
集團中間件兼容 | 和集團內部對接都需要進行框架層開發,比如hsf調用、數據庫對接、服務化的能力 | 支持 |
集團容器兼容 | 支持 | 支持 |
集團LLM接口兼容 | 需要進行框架層對接,開發成本較低 | 有對接成本 |
開發成本 | python數據處理(爬取、清洗、標注)、大模型交互python性價比更高,可快速搭建試錯 | 跟數據處理和大模型交互更重,試錯周期長 |
文檔 | langchain官網:https://python.langchain.com/en |
【語言選擇】:python+java結合的方式:
- 核心LLM執行引擎層:langchain-python選型具備優勢(數據處理、大模型交互python性價比更高,也可快速搭建試錯)
- 上層能力層可以采用java工程搭建(偏業務交互)
整體架構設計
數據層:彈內/彈外數據->自然語言文本處理->國際自營行業向量數據庫
模型層:依賴集團內部/國際自營大模型能力
工程引擎:橫向通用能力視角(生文、生圖、會話等),支撐上層業務場景&嵌入生產投放鏈路
- LLM任務執行引擎層:基于langchain框架思想構建,將 LLM 模型與外部數據源進行連接,按場景編排鏈路,以及選擇執行工具
- 圖任務引擎:高清化能力、圖像切割能力、背景替換合圖能力
- prompt工程能力:prompt模板定義(Instruction、Input Data、Output Indicator、requirements等),動態化模板解析&填充能力(具備外部輸入+規則動態拼接能力,串聯生產鏈路)
- 任務調度能力:支持業務excel/圈品等多方式任務創建、任務試跑(準確性校驗&費用預估等)、DTS任務調度執行能力
部分實踐案例
建設批量文生文AIGC工程引擎,具備prompt模板提示&自動填充、任務試跑預覽、費用預估、批量化AIGC生產等能力。已應用素材文生文、商品咨詢FAQ生產等場景。
建設圖生圖AIGC工程引擎,完成圖片的超分處理、AI二創等工程建設,支持業務優化商品圖片素材質量。已應用探物標品素材圖生圖等場景。
其他應用場景
下面是本人收集的一些應用場景case,希望給大家更多的思考啟發。
外部公司應用場景更廣,這里簡單列舉下:
- AIGC+傳媒:寫稿機器人、采訪助手、視頻字幕生成、語音播報、視頻錦集、人工智能合成主播等
- AIGC+電商:商品3D模型、虛擬主播、虛擬貨場等
- AIGC+影視:AI劇本創作、AI合成人臉和聲音、AI創作角色和場景、AI自動生成影視預告片等
- AIGC+娛樂:AI換臉應用(如FaceAPP、ZAO)、AI作曲(如初音未來虛擬歌姬)、AI合成音視頻動畫等
- AIGC+教育:AI合成虛擬教師、AI根據課本制作歷史人物形象、AI將2D課本轉換為3D
- AIGC+金融:通過AIGC實現金融資訊、產品介紹視頻內容的自動化生產,通過AIGC塑造虛擬數字人客服等
- AIGC+醫療;AIGC為失聲者合成語言音頻、為殘疾人合成肢體投影、為心理疾病患者合成醫護陪伴等
- AIGC+工業:通過AIGC完成工程設計中重復的低層次任務,通過AIGC生成衍生設計,為工程師提供靈感等。
四、AIGC的實踐挑戰
筆者在AIGC應用的初探,技術挑戰與機遇并存。下面給大家分享下AIGC的實踐挑戰以及部分解決思路。
技術挑戰
問題 | 描述 | 解決方案及思路 |
知識量有限 | 比如GPT 4,21年前訓練樣本&通用語料訓練,實時數據、垂直領域的數據&專屬知識無法理解 無法"在外部世界行動",不論是搜索網頁、調用 API 還是查找數據庫 | 方案1.LLM+檢索增強 :LLM的基礎上通過檢索等額外提供領域數據信息;對于用戶輸入Query,結合業務數據中檢索到的結果一起輸入給LLM,則可以得到更精準的回答。 方案2.構建行業數據集對LLM進行微調,使模型本身具備輸出行業信息的能力。(成本高且效果不佳) 【解決方案】:LLM+檢索增強:OpenAI提出了chatgpt-retrieval-plugin、WebGPT,開源社區提出了DocsGPT、ChatPDF、基于langchain的檢索增強chatbot等等一系列解決方案 |
效果問題 | 部分場景效果不及預期 復雜邏輯推理能力不佳 對未見過的知識語料回答效果差 | 1、大模型+上下文學習技術(In-Context Learning), 設計合理的prompt模版 2、大模型+思維鏈提示(Chain-of-Thought Prompting),引入推理路徑作為提示,激發大模型按照這種推理的模式生成出合理的結果 3、大模型+高質量標注樣本+指令微調,提高模型對特定任務的泛化能力 |
延遲問題 | 一次完整問答大概 10s+ (用戶200ms會有體感) 延遲主要受兩個因素影響:模型和生成的令牌數量。 | 1、流式傳輸。請求中的設置stream: true使模型在令牌可用時立即開始返回令牌,而不是等待生成完整的令牌序列。它不會改變獲取所有令牌的時間,但它會減少我們想要顯示部分進度或將停止生成的應用程序的第一個令牌的時間。這可以是更好的用戶體驗和 UX 改進,因此值得嘗試流式傳輸。 2、基礎設施。openai 美國。存在跨國網絡延時 3、減小token 。例如使用更短的提示。
4、緩存:通過存儲經常訪問的數據,可以縮短響應時間,而無需重復調用 API。但在添加新信息時使緩存無效。 |
資源和性能 | 訓練&微調都需要不少機器資源,目前GPU資源匱乏 部署資源,尤其是C端投放有高并發低延時要求,需要投入巨大成本在線serving | 1、不訓練基座模型,微調選擇的基座模型選幾B~幾十B左右的LLM (如ChatGLM-6B) 2、曲線救國,線上不直接使用大模型serving,一種是利用大模型的embedding, 另一種是利用大模型來進行更多樣本標注,來輔助小模型學習 |
倫理和監管問題
隨著大模型在AIGC中的廣泛應用,它們引發了關于數據隱私、版權、內容監管和偏見等問題的討論。因此,大模型的使用不僅涉及技術層面,還涉及倫理和法律層面。
問題 | 描述 | 解決方案及思路 |
安全與合規 | 如政治敏感、違法犯罪、倫理道德等問題,尤其是LLM直接面向C端場景 | 1、建設安全校驗模塊能力 3、C端:生成式大模型必須通過SFT、RLHF等微調技術對大模型做適配微調,對齊人類的價值觀; |
政策問題 | 對于類GPT能力作為C端應用的開放程度需受限于政策 | 1、上線前需安全評估 |
【附】網信辦411公布《生成式人工智能服務管理辦法》征求意見稿,規范生成式人工智能產品(AIGC,如 ChatGPT)的開發和使用方式、行業的定義、對生產者的要求和責任等方面。意見稿中尤其提出:“利用生成式人工智能產品向公眾提供服務前,應當按照《具有輿論屬性或社會動員能力的互聯網信息服務安全評估規定》向國家網信部門申報安全評估,并按照《互聯網信息服務算法推薦管理規定》履行算法備案和變更、注銷備案手續。
C端應用上線需要過“雙新評估”:
五、AIGC的未來展望
業務側規劃:基于業務場景繼續創新,擴大戰果。更多還是聚焦基建和業務場景應用。
技術期待:AI大勢浩浩蕩蕩,順之者昌逆之者亡。YY幾個未來的期待場景
- 增強的交互式AI:類似google最近發布的Gemini,改變當前信息交互方式,期待每個人都有專屬鋼鐵俠中的人工智能“賈維斯”。
- 個性化和定制化內容:大數據+AIGC根據用戶偏好、歷史行為和實時反饋生成的個性化和定制化內容。
- 虛擬現實內容:AIGC多模態內容生成發展,圖像、視頻、音頻等,未來說不定AI構建虛擬現實內容。
六、附錄
- langchain 官方文檔 ??https://python.langchain.com/en/latest/getting_started/getting_started.html??
- langchain 快速入門中文版 ??https://github.com/liaokongVFX/LangChain-Chinese-Getting-Started-Guide??
- 吳恩達llm教程 ??https://www.deeplearning.ai/short-courses/??
- GPT開發應用利器:LangChain ??https://zhuanlan.zhihu.com/p/630253274??
- LangChain使用調研 ??https://blog.csdn.net/benben044/article/details/130843326??
- openai 原始接口文檔 ??https://platform.openai.com/docs/api-reference/completions??
七、團隊介紹
進口技術作為阿里巴巴完整的電商生態環境中的重要一環,是阿里經濟體5年2000億美金進口承諾的主力擔當。我們依托淘系電商生態,致力于在全球的品牌和商家同中國龐大的消費者市場之間構建高效率、有溫度的消費平臺,通過數據和技術能力,為品牌、商家和消費者提供優質服務。
本文轉載自大淘寶技術,作者:入風
