用戶聊天內(nèi)容不能白用,Reddit將向OpenAI等收費(fèi)
4月19日消息,微軟?、谷歌?和OpenAI?一直在利用Reddit論壇上的用戶聊天數(shù)據(jù)來(lái)開(kāi)發(fā)新的人工智能系統(tǒng)。現(xiàn)在,Reddit打算向這些公司收取使用費(fèi)。
Reddit一直是互聯(lián)網(wǎng)上熱門(mén)話題的討論集中地,每天有大約5700萬(wàn)人訪問(wèn)這個(gè)網(wǎng)站討論各種話題,包括化妝技巧、電子游戲到自動(dòng)洗車(chē)機(jī)等等。
近年來(lái),Reddit論壇上的聊天內(nèi)容已成為谷歌、OpenAI和微軟等公司的免費(fèi)訓(xùn)練工具,用于開(kāi)發(fā)人工智能系統(tǒng)。現(xiàn)在,許多業(yè)內(nèi)人士認(rèn)為,這些人工智能系統(tǒng)將成為科技行業(yè)的下一個(gè)大事件。
因此,Reddit打算向開(kāi)發(fā)人工智能技術(shù)的公司收費(fèi)。許多公司都通過(guò)應(yīng)用程序編程接口(API)下載并處理論壇上的聊天內(nèi)容。周二,Reddit表示計(jì)劃開(kāi)始向使用API的公司收費(fèi)。
Reddit創(chuàng)始人兼首席執(zhí)行官史蒂夫·霍夫曼(Steve Huffman)在接受采訪時(shí)表示:“Reddit的數(shù)據(jù)庫(kù)確實(shí)很有價(jià)值,我們沒(méi)有必要免費(fèi)提供這些價(jià)值給世界上最大的公司。”
Reddit此舉是社交網(wǎng)絡(luò)首次明確向OpenAI等收取費(fèi)用開(kāi)放訪問(wèn)權(quán),用于開(kāi)發(fā)像ChatGPT這樣的人工智能系統(tǒng)。ChatGPT等新人工智能系統(tǒng)可能有一天會(huì)成為大企業(yè),但對(duì)Reddit等公司的幫助不大。相反,這些人工智能系統(tǒng)還可以自動(dòng)生成聊天內(nèi)容,成為Reddit的競(jìng)爭(zhēng)對(duì)手。
Reddit正在為今年可能上市做準(zhǔn)備,該公司成立于2005年,目前主要依賴平臺(tái)廣告和電商交易進(jìn)行盈利。Reddit方面表示,正在敲定API接口的收費(fèi)細(xì)節(jié),并將在未來(lái)幾周內(nèi)公布價(jià)格。
如今,大型語(yǔ)言模型已成為開(kāi)發(fā)人工智能新技術(shù)的重要組成部分,Reddit論壇上的用戶聊天內(nèi)容也成了有價(jià)值的商品。
谷歌人工智能聊天機(jī)器人Bard的底層算法之一就是用Reddit聊天數(shù)據(jù)訓(xùn)練的。同時(shí),OpenAI的ChatGPT也將Reddit的數(shù)據(jù)作為訓(xùn)練大型語(yǔ)言模型的信息之一。
除此之外,其他公司也開(kāi)始意識(shí)到平臺(tái)上所存儲(chǔ)的聊天內(nèi)容和圖片的價(jià)值。圖片托管服務(wù)Shutterstock已經(jīng)把圖像數(shù)據(jù)出售給OpenAI,幫助開(kāi)發(fā)了能夠根據(jù)簡(jiǎn)單文字提示就能生成圖像的人工智能系統(tǒng)DALL-E。
目前,有幾千家公司和大小開(kāi)發(fā)者都在使用API跟蹤推特平臺(tái)上的幾百萬(wàn)條聊天內(nèi)容。上個(gè)月,個(gè)人社交媒體平臺(tái)推特所有者埃隆·馬斯克(Elon Musk)表示,他正在改變使用推特API的現(xiàn)行方式,要為使用API收取幾萬(wàn)到幾十萬(wàn)不等的費(fèi)用。不過(guò)馬斯克沒(méi)有提到大型語(yǔ)言模型是促使他做出改變的原因。
為了不斷改進(jìn)模型,人工智能企業(yè)需要兩個(gè)重要因素:強(qiáng)大的計(jì)算能力和大量可用的數(shù)據(jù)。一些大型人工智能開(kāi)發(fā)企業(yè)通常擁有足夠的算力,但仍會(huì)在互聯(lián)網(wǎng)上尋找改進(jìn)算法所需的數(shù)據(jù)。其中包括維基百科、各種數(shù)字化書(shū)籍、學(xué)術(shù)文章和Reddit論壇上的聊天內(nèi)容等資源。
谷歌、OpenAI和微軟等公司目前尚未對(duì)Reddit計(jì)劃收費(fèi)的事宜作出回應(yīng)。
很長(zhǎng)一段時(shí)間以來(lái),Reddit與谷歌和必應(yīng)等搜索引擎一直是相互依存的關(guān)系。它們自動(dòng)獲取Reddit網(wǎng)頁(yè)信息,進(jìn)行索引,然后將相關(guān)信息展示在搜索結(jié)果頁(yè)面中。雖然這種自動(dòng)抓取方式不見(jiàn)得受到所有網(wǎng)站的歡迎,但是Reddit卻能因此在搜索結(jié)果中排名靠前。
而大型語(yǔ)言模型則完全不同,它需要盡可能多地獲取數(shù)據(jù),這樣才能創(chuàng)建新的人工智能系統(tǒng)。
Reddit認(rèn)為,它的論壇數(shù)據(jù)特別有價(jià)值,因?yàn)樗粩喔隆;舴蚵硎荆@種新鮮度和相關(guān)性正是大型語(yǔ)言模型算法生成最佳結(jié)果所需要的東西。
“Reddit比互聯(lián)網(wǎng)上任何其他地方都更適合聊天,”霍夫曼說(shuō)。“網(wǎng)站上有很多內(nèi)容是你只會(huì)私下里說(shuō)的,或者壓根就不會(huì)說(shuō)的東西。”
霍夫曼還強(qiáng)調(diào),對(duì)于想要開(kāi)發(fā)幫助人們使用Reddit的應(yīng)用程序開(kāi)發(fā)者來(lái)說(shuō),API仍然是免費(fèi)的。比如開(kāi)發(fā)者可以免費(fèi)使用API等工具來(lái)開(kāi)發(fā)機(jī)器人,自動(dòng)跟蹤用戶評(píng)論是否遵守了內(nèi)容發(fā)布規(guī)則。出于學(xué)術(shù)研究或非商業(yè)目的來(lái)研究Reddit數(shù)據(jù)的人也能繼續(xù)免費(fèi)訪問(wèn)這些數(shù)據(jù)。
Reddit還希望將更多機(jī)器學(xué)習(xí)融入論壇運(yùn)營(yíng),例如,Reddit可以用機(jī)器學(xué)習(xí)來(lái)識(shí)別平臺(tái)上人工智能生成文本的使用情況,并為其添加標(biāo)簽,告知用戶哪些評(píng)論是來(lái)自機(jī)器人。Reddit還承諾改進(jìn)供論壇版主使用的軟件工具,幫助他們監(jiān)控論壇上的第三方機(jī)器人。
但對(duì)于人工智能制造商來(lái)說(shuō),Reddit認(rèn)為是時(shí)候付費(fèi)了。
“通過(guò)抓取Reddit的數(shù)據(jù)來(lái)創(chuàng)造價(jià)值,卻不向我們的用戶返利,這是我們自己的問(wèn)題,”霍夫曼說(shuō)。“現(xiàn)在是我們加強(qiáng)管理的好時(shí)機(jī)。”(辰辰)