成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ChatGPT-4o有何特別之處?

發布于 2024-6-4 08:53
瀏覽
0收藏

大家已經知道,OpenAI 在 GPT-4 發布一年多后終于推出了一個新模型。它仍然是 GPT-4 的一個變體,但具有前所未見的多模態功能。

有趣的是,它包括實時視頻處理等強大功能,這一關鍵功能最終可以讓我們創建強大的虛擬助手,實時支持我們的日常生活。然而,這樣的功能應該很昂貴且緩慢,考慮到該模型速度極快且免費使用(有限免費),這不合情理。

那么,到底發生了什么事呢?

OpenAI 一定已經意識到了一些我們尚未意識到的事情,即我們今天討論的智能設計決策可以以極低的價格創建出更智能的模型。

那么,這一切有何意義?它對你未來意味著什么?

多模態輸入,多模態輸出

那么,ChatGPT-4o 有什么特別之處呢?它是有史以來第一個真正的“多模態輸入/多模態輸出”前沿模型。

但我們這樣說到底是什么意思呢?

在真正的多模態模型中,您可以向模型發送音頻、文本、圖像或視頻,模型將根據需求使用文本、圖像或音頻(還不是視頻)進行響應。

但我知道你在想什么:ChatGPT 或 Gemini 的先前版本不是已經處理和生成圖像或音頻了嗎?是的,但有一個需要注意的點是:

他們是通過獨立的外生組件來實現的。

之前的模型和現在模型對比

以前,每當你向大模型發送音頻時,都是這樣的標準流程:

ChatGPT-4o有何特別之處?-AI.x社區

輸入輸出過程:用戶發出的語音請求經過自動語音識別(ASR)轉為文本(這里用的Whisper),文本經過大語言模型處理生成響應文本,響應文本再經過文本轉語音(TTS)模塊轉換為語音,最終以語音形式返回給用戶。

Whisper 是由 OpenAI 開發的一種自動語音識別(ASR)系統。它利用深度學習技術和大規模語音數據進行訓練,能夠將語音信號轉換為文本。Whisper 系統具有高準確性和多語言支持,能夠處理各種音質和背景噪聲的語音輸入。

在此過程中,自然語音中的聲調、節奏、韻律、傳達的情感和關鍵停頓都會丟失,因為語音轉文本組件Whisper會將音頻轉錄為 LLM 可以處理的文本。

然后,LLM 將生成文本響應并將其發送到另一個組件(即文本到語音模型),該模型將生成最終傳達的語音。

自然,由于人類通過語音傳達的信息遠不止文字,許多重要信息也因此丟失, 而且由于信息必須在不同的組件之間發送,造成的延遲并不理想。

但是在 ChatGPT-4o 中,一切都相似但又完全不同;因為一切都發生在同一個地方。

ChatGPT-4o有何特別之處?-AI.x社區

乍一看,似乎變化不大。盡管組件幾乎沒有變化(vocoder和音頻解碼器是我們之前展示的文本轉語音模型的一部分),但這些組件如何共享信息,完全改變了信息丟失的程度。

具體來說,LLM 現在看到的是語音的語義表示,而不是原始文本。通俗地說,模型現在不僅能看到“我想殺了你!”這句文字,還能接收到以下信息:

{
 轉譯的文字: "我想殺了你!"; 
 情緒: "高興";
 語氣: "喜悅";
}

這里雖然使用了 JSON 示例來說明,但語音編碼器實際上為 LLM 生成的是一組向量嵌入(Vector Embeddings),除了實際文本之外,它們還捕捉語音的情感、語調、節奏和其他線索。

向量嵌入 是一種將離散的數據(如單詞、句子、圖像等)映射到連續的低維向量空間的方法。這些向量捕捉了數據的語義關系,使得相似的數據在向量空間中更接近。

因此,LLM 生成的響應更加基于實際情況,除了文字之外,還能捕捉信息中的關鍵特征。

然后將該響應發送到音頻解碼器,音頻解碼器使用它來生成梅爾頻譜圖(很可能),最后將其發送到聲碼器以生成音頻。

您可以將頻譜圖視為“查看”聲音的一種方式。頻譜圖 是一種將音頻信號的頻率成分展示在二維圖表上的工具。頻譜圖顯示了音頻信號在不同時間點的頻率分布及其強度

那么梅爾頻譜圖是什么?梅爾頻譜圖 是一種特殊類型的頻譜圖,它通過 Mel 頻率尺度對頻率軸進行變換,更符合人耳對聲音的感知

順便說一句,所有這些也適用于圖像處理和生成或視頻處理,因為它們將所有組件打包成一個單一模型,而不僅僅是音頻。

總而言之,ChatGPT-4o 現在可以從文本以外的其他形式捕獲信息,包括關鍵音頻、圖像或視頻提示,以生成更相關的響應。簡而言之,它不再關心數據如何進入并適應上下文,而是需要決定必須以何種方式回復。

這個改變有多么重要

OpenAI 實現的真正多模態向世界傳遞了一個鮮明的信息:

在不使模型的主干(LLM)本身更加智能的情況下,能夠跨多種模態進行推理的模型必然會更加智能,因為該模型不僅具有更多功能,而且還能夠在不同數據類型之間傳遞知識。

人類運用所有感官的能力被認為是智能的關鍵部分,而人工智能也旨在掌握這種能力。

作為一個很大的好處,它還使模型在推理方面變得更加高效(撇開它們本可以應用的特定效率不談)。

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 成人精品视频在线 | 免费午夜视频 | 国产精品1区2区 | 欧美理论片在线 | 日本不卡高清视频 | 国产精品99久久久久久久vr | 午夜影院视频在线观看 | 成人免费区一区二区三区 | 精品入口麻豆88视频 | 99亚洲| 久久久新视频 | 国产精品久久久久久久午夜片 | 久久精品一区二区三区四区 | 国产日韩一区二区 | 日韩av免费在线观看 | 日日夜夜天天 | 在线播放中文字幕 | 狠狠操av| 男女羞羞视频在线看 | 国产美女视频黄 | 国产www成人 | 久久午夜影院 | 久久精品黄色 | 国产操操操 | 免费观看色| 亚洲精品中文字幕av | 精品伊人 | 欧美黄色网 | 99re国产视频 | 亚洲国产一区二区三区 | 91精品久久久久久久久中文字幕 | 中文字幕在线观看视频一区 | 91视频在线| 嫩草网| 午夜精 | 欧美日韩免费 | 97精品国产 | 国产精品揄拍一区二区久久国内亚洲精 | 精品亚洲一区二区三区四区五区 | 欧美亚洲另类在线 | 91最新入口 |