五分鐘技術(shù)趣談 | AIGC介紹與應用選型評估

作者：廖長軍、仇昌棟 2023-06-03 21:06:05

隨著ChatGPT引爆AI的iPhone時刻，各IT大廠都推出了自己的AIGC（AI-Generated Content，人工智能生產(chǎn)內(nèi)容）大模型。本期內(nèi)容將為大家?guī)碜钚碌腁IGC發(fā)展情況以及一些頭部應用和模型的測評對比。

Part 01 AIGC介紹

AIGC（AI-Generated Content，人工智能生產(chǎn)內(nèi)容），是指利用AI技術(shù)自動或協(xié)助生成文字、代碼、圖像、語音、視頻、3D物體等各種形式的內(nèi)容的生產(chǎn)方式。AIGC代表了AI技術(shù)發(fā)展的新趨勢，從感知理解世界到生成創(chuàng)造世界，從分析能力到創(chuàng)作能力。AIGC也帶來了內(nèi)容創(chuàng)作的變革，提高了內(nèi)容的質(zhì)量、效率和多樣性。

1.1 文本生成

文本生成是指利用AI技術(shù)，根據(jù)給定的輸入（如關(guān)鍵詞、圖片、語音等），自動生成符合語法和邏輯的文本內(nèi)容，是AIGC的一個重要方面。

文本生成的應用場景非常豐富，包括新聞寫作、小說創(chuàng)作、營銷文案、客服問答、聊天機器人、教育輔導、知識圖譜、摘要生成等。

? 文心一言：由百度推出的支持多模態(tài)輸出的AI大模型，能夠進行文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成等。

? ChatGPT：由OpenAI推出基于GPT系列模型的聊天應用，當前已推出GPT-4模型，基于GPT-4模型的ChatGPT可以分析圖片并進行文本、圖片交互。

1.2 代碼生成

包括代碼補全、代碼重構(gòu)、代碼優(yōu)化、代碼注釋等，可以覆蓋多種編程語言和領(lǐng)域。基于OpenAI的GPT-4模型，甚至可以做到基于手畫的一張產(chǎn)品原型草稿圖生成對應的網(wǎng)站代碼。

? Github Copilot：一種基于OpenAI Codex模型開發(fā)的AI輔助編程工具，它支持數(shù)十種編程語言，可以根據(jù)代碼或注釋，實時地在編輯器中提供代碼建議和整個函數(shù)，也能通過聊天交互達成結(jié)對編程的體驗。

? Cursor：一個獨立的IDE軟件，集成了OpenAI的GPT模型。與Github Copilot類似，Cursor可以通過AI寫代碼、編輯代碼和聊天。

1.3 圖像生成

圖像生成是指利用人工智能技術(shù)，根據(jù)給定的輸入（如自然語言、圖像、視頻等），自動生成符合語義和美感的圖像，是AIGC的一個重要方面。圖像生成的應用場景非常廣泛，包括藝術(shù)創(chuàng)作、娛樂媒體、教育培訓、電商營銷、醫(yī)療診斷等。

? 文心一格：由百度推出的AI藝術(shù)和創(chuàng)意輔助平臺。可以根據(jù)文本描述、風格選擇，自動生成畫作。

? DALL-E2：由OpenAI在推出的一種基于自適應多模態(tài)編碼器的生成模型，它能將多模態(tài)輸入信息（如文本、圖片等）融合，自動生成高質(zhì)量的圖像。

? Midjourney：一款2022年3月面世的AI繪畫工具，能基于自然語言生成圖片，可選擇不同畫家的藝術(shù)風格，還能識別特定鏡頭或攝影術(shù)語。此工具生成的畫作在美術(shù)比賽中曾獲一等獎。

1.4 視頻生成

視頻生成主要分為視頻編輯和視頻自主生成兩種。視頻編輯可用于視頻超分、修復和剪輯。視頻自主生成可用于圖像到視頻的轉(zhuǎn)換，或給定描述性文字生成相符的視頻。下面是一些相關(guān)的應用：

? Deepfake：這是一個基于GAN技術(shù)的AI視頻生成平臺，可以實現(xiàn)換臉、聲音轉(zhuǎn)換、表情模仿等功能。用戶只需要上傳一張圖片或者一段視頻作為參考，就可以自動生成視頻。

? Make-A-Video：由Meta公司推出的可以把文本轉(zhuǎn)化為視頻的AI系統(tǒng)。它可以根據(jù)幾個詞或幾行文本，創(chuàng)造出充滿鮮艷色彩、人物和風景的獨一無二的視頻。

1.5 3D建模

基于AIGC的3D建模技術(shù)是指利用人工智能技術(shù)，根據(jù)給定的輸入（如自然語言、圖像等），自動生成符合語義和美感的3D模型。此領(lǐng)域當前處于較早的探索階段。以下是一些相關(guān)的應用或模型：

? AICommand：一款基于Unity的開源AI命令插件，可以通過文本描述生成3D場景，并通過文本對3D場景進行調(diào)整優(yōu)化。（https://github.com/keijiro/AICommand）

? ICON：一個基于人物圖片生成3D人物建模的開源AI模型（https://github.com/YuliangXiu/ICON）。可以在線體驗并下載生成的3D模型：https://huggingface.co/spaces/Yuliang/ICON

Part 02 AIGC應用與模型測評

ChatGPT在2022年底由OpenAI推出后，在短短兩個月時間內(nèi)，累計用戶就突破一個億，迅速火遍全球。由此，AI的iPhone時刻到來，各大IT廠商隨即快速跟進。以下是截止2023年4月的一些相關(guān)應用或模型介紹。

文心一言：見上文。
ChatGPT：見上文。
Bard：由谷歌推出的基于LaMDA的輕量級版本的NLP大模型。
New Bing：由微軟推出的一款基于GPT4模型的智能搜索引擎，它可以與用戶進行自然語言交互，結(jié)合實時搜索結(jié)果，提供信息、娛樂、創(chuàng)作等多種功能。
ChatGLM：由清華大學推出的基于GLM 架構(gòu)、開源且支持中英雙語的對話大語言模型。可基于CPU進行低成本最小化模型搭建，也可二次開發(fā)微調(diào)模型。
Poe：由Quora 開發(fā)的免費AI聊天機器人應用，應用內(nèi)集成了包括：ChatGPT、GPT-4在內(nèi)的6種主流AI聊天機器人。

將從以下方面進行測評對比（Poe除外）：