訓出GPT-5短缺20萬億token！OpenAI被曝計劃建「數據市場」

作者：新智元 2024-04-09 09:38:16

人工智能新聞

全網高質量數據集告急！OpenAI、Anthropic等AI公司正在開拓新方法，訓練下一代AI模型。

全網真的無數據可用了！

外媒報道稱，OpenAl、Anthropic等公司正在努力尋找足夠的信息，來訓練下一代人工智能模型。

前幾天，OpenAI和微軟被曝出正在聯手打造超算「星際之門」，解決算力難題。

然而，數據也是訓練下一代強大模型，最重要的一味丹藥。

面對窮盡互聯網的數據難題，AI初創、互聯網大廠真的坐不住了。

GPT-5訓練，用上了YouTube視頻

不論是下一代GPT-5、還是Gemini、Grok等強大系統的開發，都需要從大量的海洋數據中學習。

可以預見的是，互聯網中高質量公共數據已經變得非常稀缺。

與此同時，一些數據所有者，比如Reddit等機構，制定政策阻止AI公司的訪問數據。

一些高管和研究人員稱，由于對高質量文本數據的需求，可能會在2年內超過供應，這可能會減緩人工智能的發展。

也包括2022年11月，就有MIT等研究人員警告，機器學習數據集可能會在2026年之前耗盡所有「高質量語言數據」。

論文地址：https://arxiv.org/pdf/2211.04325.pdf

WSJ報道稱，這些人工智能公司正在尋找未開發的信息源，并重新思考如何訓練先進的AI系統。

知情人士透露，OpenAI已經在討論如何通過轉錄YouTube公開視頻，來訓練下一個模型GPT-5。

為了獲取更多真實數據，OpenAI還曾與不同機構合作簽署協議，以便雙方共享部分內容和技術。

還有一些公司采用AI生成的合成數據，作為訓練材料。

不過，這種方法實際上可能會造成嚴重的故障。

此前，萊斯大學和斯坦福團隊的研究發現，將AI生成的內容喂給模型，尤其經過5次迭代后，只會導致性能下降。

研究人員對此給出一種解釋，叫做「模型自噬障礙」（MAD）。

論文地址：https://arxiv.org/abs/2307.01850

對于AI合成數據的使用，在這些公司都是秘密進行的。這種解決方案已然被視為一種新的競爭優勢。

AI研究Ari Morcos表示，「數據短缺」是一個前沿的研究問題。他在去年創立DatologyAI之前。曾在Meta Platforms和谷歌的DeepMind部門工作。

他的公司建立了改進數據選擇的工具，可以幫助公司以更低的成本訓練AI模型.

「不過目前還沒有成熟的方法可以做到這一點」。

數據稀缺，成為永恒

數據、算力、算法都是訓練強大人工智能重要的資源之一。

對于訓練ChatGPT、Gemini這樣的大模型完全基于互聯網上獲取的文本數據打造的，包括科學研究、新聞報道和維基百科條目。

這些材料被分成「詞塊」——單詞和單詞的一部分，模型利用這些詞塊來學習如何形成類人的表達方式。

一般來說，AI模型接受訓練的數據越多，能力就越強。

OpenAI正是在這種策略上大大投入，才使得ChatGPT名聲遠揚。

不過一直以來，OpenAI從未透露過關于GPT-4的訓練細節。

但研究機構Epoch研究人員Pablo Villalobos估計，GPT-4是在多達12萬億個token上訓練的。

他繼續表示，基于Chinchilla縮放定律的原理，如果繼續遵循這樣擴展軌跡，像GPT-5這樣的AI系統將需要60萬億-100萬億token的數據。

利用所有可用的高質最語言和圖像數據，仍可能會留下10萬億到20萬億，甚至更多的token的缺口，目前尚不清楚如何彌合這一差距。

兩年前，Villalobos在論文中寫道，到2024年中期，高質量數據供不應求的可能性為50%。到2026年，供不應求的可能概率達到90%。

不過，現在他們變得樂觀了一些，并估計這一時間將推遲到2028年。

大多數在線數據對于AI的訓練是無用的，因為它們包含了大量的句子片段、污染數據等，或者不能增加模型的知識。

Villalobos估計，只有一小部分互聯網對模型訓練會有用，可能只有CommonCrawl收集的信息的1/10。

與此同時，社交媒體平臺、新聞出版商和其他公司一直在限制AI公司，使用自家平臺數據進行人工智能訓練，因為擔心公平補償等問題。

而且公眾也不愿意交出私人對話數據（比如iMessage上的聊天記錄）來幫助訓練模型。

然而，小扎最近把Meta在其平臺上獲取數據的能力，吹捧為Al研究工作的一大優勢。

他對外公開稱，Meta可以在其網絡（包括Facebook和Instagram）上挖掘數千億張公開共享的圖片和視頻，這些圖片和視頻的總量超過了大多數常用的數據集。

數據選擇工具的初創公司DatologyAI使用可一種稱為「課程學習」的策略。

在這種策略中，數據以特定的序列被輸入到語言模型中，希望人工智能能夠在概念之間形成更智能的連接。

在2022年的一篇論文中，Datalogy AI研究人員Morcos和合著者估計，如果數據正確，模型可以用一半的時間取得同樣的結果。

這有可能降低訓練和運行大型生成式人工智能系統的巨大成本。

不過，到目前為止，其他的研究表明，「課程學習」的方法并不有效。

Morcos表示團隊正在調整這一方法，這是深度學習最骯臟的秘密。

OpenAI谷歌要建「數據市場」？

奧特曼曾在去年對外透露，公司正在研究訓模型的新方法。

「我認為，我們正處于這些巨型模型時代的末期。我們會用其他方法讓它們變得更好」。

知情人士表示，OpenAI還討論了創建一個「數據市場」。

在這個市場上，OpenAI它可以建立一種方法，來確定每個數據點對最終訓練模型的貢獻，并向該內容的提供商支付費用。

同樣的想法，也在谷歌內部進行了討論。

目前，研究人員一直努力創建這樣一個系統，暫不清楚是否會找到突破口。

據知情人士透露，高管們已經討論過使用其自動語音識別工具Whisper在互聯網上轉錄高質量的視頻和音頻示例。

其中一些將通過YouTube公共視頻進行，并且部分數據已經用于訓練GPT-4。

下一步，合成數據

一些公司也在嘗試制作自己的數據。

喂養AI生成的文本，被認為是計算機科學領域的「近親繁殖」。

這樣的模型往往會輸出沒有意義的內容，一些研究人員將其稱為「模型崩潰」。

OpenAI和Anthropic的研究人員正試圖通過創建所謂的更高質量的合成數據來避免這些問題。

在最近的一次采訪中，Anthropic的首席科學家JaredKaplan表示，某些類型的合成數據可能會有所幫助。同時，OpenAI也在探索合成數據的可能性。

許多研究數據問題的人都樂觀認為，「數據短缺」解決方案終會出現。

責任編輯：張燕妮來源：新智元

OpenAI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

訓出GPT-5短缺20萬億token！OpenAI被曝計劃建「數據市場」

GPT-5訓練，用上了YouTube視頻

數據稀缺，成為永恒

OpenAI谷歌要建「數據市場」？

下一步，合成數據