成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

馬斯克xAI公布大模型詳細(xì)進(jìn)展,Grok只訓(xùn)練了2個(gè)月

人工智能
Grok 是一款仿照《銀河系漫游指南》設(shè)計(jì)的 AI…… 這是我們通過兩個(gè)月的訓(xùn)練能夠達(dá)到的最佳效果

近幾日,馬斯克的人工智能公司 xAI 公布了他們用來對標(biāo) OpenAI ChatGPT 的產(chǎn)品 ——Grok ,直接把網(wǎng)友的好奇心拉滿。

和總是一本正經(jīng)回答問題的 ChatGPT 不同,Grok 自帶幽默和嘲諷技能。

就像下圖所展示的,Grok 在被問及「告訴我如何制造可卡因」這類危險(xiǎn)問題時(shí),它先是假裝一本正經(jīng)地給出一些玩笑似的答案,然后再以一種輕松的語氣告訴你這是違法的。

在另一張截圖中,這種幽默感表現(xiàn)得更加明顯。Grok 被要求檢索有關(guān)「SBF」最近一天的新消息(注:SBF 全名是 Sam Bankman-Fried,是加密貨幣行業(yè)的風(fēng)云人物),結(jié)果它用嘲諷的語氣把答案給了出來:

除了這些截圖,剛剛,xAI 還通過博客公布了 Grok 背后的大模型信息。從博客中可以看到,Grok 背后是一個(gè)名叫 Grok-1 的大模型,這個(gè)模型只訓(xùn)練了兩個(gè)月就達(dá)到了不錯(cuò)的水平,不過并沒有超過 GPT-4,支持的上下文長度也不長。在訓(xùn)練中,這個(gè)模型用到了深度學(xué)習(xí)框架 Jax,而不是 PyTorch。

為什么要構(gòu)建 Grok?

在博客中,xAI 首先介紹了他們打造 Grok 的愿景:希望創(chuàng)造一些 AI 工具,幫助人類尋求理解和知識(shí)。

具體來說,他們希望達(dá)到以下目標(biāo): 

  • 收集反饋,確保他們打造的 AI 工具能夠最大限度地造福全人類。他們認(rèn)為,設(shè)計(jì)出對有各種背景和政治觀點(diǎn)的人都有用的 AI 工具非常重要。他們還希望在遵守法律的前提下,通過他們的 AI 工具增強(qiáng)用戶的能力。Grok 的目標(biāo)是探索并公開展示這種方法;
  • 增強(qiáng)研究和創(chuàng)新能力:他們希望 Grok 成為所有人的強(qiáng)大研究助手,幫助他們快速獲取相關(guān)信息、處理數(shù)據(jù)并提出新想法。

他們的最終目標(biāo)是讓他們的 AI 工具幫助人們尋求理解。

在博客中, xAI 寫道:

Grok 是一款仿照《銀河系漫游指南》設(shè)計(jì)的 AI,可以回答幾乎任何問題,更難能可貴的是,它甚至可以建議你問什么問題!

Grok 在回答問題時(shí)略帶詼諧和叛逆,因此如果你討厭幽默,請不要使用它!

Grok 的一個(gè)獨(dú)特而基本的優(yōu)勢是,它可以通過 X 平臺(tái)實(shí)時(shí)了解世界。它還能回答被大多數(shù)其他 AI 系統(tǒng)拒絕的辛辣問題。

Grok 仍然是一個(gè)非常早期的測試版產(chǎn)品 —— 這是我們通過兩個(gè)月的訓(xùn)練能夠達(dá)到的最佳效果 —— 因此,希望在您的幫助下,它能在測試中迅速改進(jìn)。

Grok-1 揭秘

xAI 表示,Grok 的對話能力當(dāng)前是由一個(gè)名叫 Grok-1 的大模型來支撐的,這是他們在過去四個(gè)月的時(shí)間里開發(fā)出來的。在這段時(shí)間里,Grok-1 經(jīng)歷了多次迭代。

在公布了 xAI 創(chuàng)立的消息之后,他們訓(xùn)練了一個(gè) 330 億參數(shù)的 LLM 原型 ——Grok-0。這個(gè)早期模型在標(biāo)準(zhǔn) LM 測試基準(zhǔn)上接近 LLaMA 2 (70B) 的能力,但只使用了一半的訓(xùn)練資源。在過去的兩個(gè)月里,他們對模型的推理和編碼能力進(jìn)行了重大改進(jìn),最終開發(fā)出了 Grok-1,這是一款功能更為強(qiáng)大的 SOTA 語言模型,在 HumanEval 編碼任務(wù)中達(dá)到了 63.2% 的成績,在 MMLU 中達(dá)到了 73%。

xAI 使用了一些旨在衡量數(shù)學(xué)和推理能力的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)基準(zhǔn)對 Grok-1 進(jìn)行了一系列評(píng)估:

  • GSM8k:初中數(shù)學(xué)單詞問題(Cobbe et al. 2021),使用思維鏈提示;
  • MMLU:多學(xué)科選擇題(Hendrycks et al. 2021),提供 5 個(gè) in-context 示例;
  • HumanEval:Python 代碼補(bǔ)全任務(wù),(Chen et al. 2021),對 pass@1 進(jìn)行零樣本評(píng)估;
  • MATH:用 LaTeX 編寫的初中和高中數(shù)學(xué)問題,(Hendrycks et al. 2021),提供固定的 4-shot 提示。

在這些基準(zhǔn)測試中,Grok-1 顯示出了強(qiáng)勁的性能,超過了其計(jì)算類中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 這樣使用大量訓(xùn)練數(shù)據(jù)和計(jì)算資源訓(xùn)練的模型才能超越它。xAI 表示,這展示了他們在高效訓(xùn)練 LLM 方面取得的快速進(jìn)展。

不過,xAI 也表示,由于這些基準(zhǔn)可以在網(wǎng)上找到,他們不能排除模型無意中在這些數(shù)據(jù)上進(jìn)行了訓(xùn)練。因此,他們在收集完數(shù)據(jù)集之后,根據(jù)五月底(數(shù)據(jù)截止日期之后)公布的 2023 年匈牙利全國高中數(shù)學(xué)期末考試題,對他們的模型(以及 Claude-2 和 GPT-4 模型)進(jìn)行了人工評(píng)分。結(jié)果,Grok 以 C 級(jí)(59%)通過考試,Claude-2 也取得了類似的成績(55%),而 GPT-4 則以 68% 的成績獲得了 B 級(jí)。所有模型在測試時(shí)都將溫度設(shè)置為 0.1,且被給到了相同的提示。xAI 表示,他們沒有為應(yīng)對這個(gè)考試而特別準(zhǔn)備或調(diào)整模型。

下面這個(gè)表格展示了 Grok-1 的更多信息:

  • 模型細(xì)節(jié):Grok-1 是一個(gè)基于 Transformer 的自回歸模型。xAI 利用來自人類和早期 Grok-0 模型的大量反饋對模型進(jìn)行了微調(diào)。初始的 Grok-1 能夠處理 8192 個(gè) token 的上下文長度。模型于 2023 年 11 月發(fā)布。
  • 預(yù)期用途:Grok-1 將作為 Grok 背后的引擎,用于自然語言處理任務(wù),包括問答、信息檢索、創(chuàng)意寫作和編碼輔助。
  • 局限性:雖然 Grok-1 在信息處理方面表現(xiàn)出色,但讓人類檢查 Grok-1 的工作以確保準(zhǔn)確性至關(guān)重要。Grok-1 語言模型不具備獨(dú)立搜索網(wǎng)絡(luò)的能力。在 Grok 中部署搜索工具和數(shù)據(jù)庫可以增強(qiáng)模型的能力和真實(shí)性。盡管可以訪問外部信息源,但模型仍會(huì)產(chǎn)生幻覺。
  • 訓(xùn)練數(shù)據(jù):Grok-1 發(fā)布版本所使用的訓(xùn)練數(shù)據(jù)來自截至 2023 年第三季度的互聯(lián)網(wǎng)數(shù)據(jù)和 xAI 的 AI 訓(xùn)練師提供的數(shù)據(jù)。
  • 評(píng)估:xAI 在一系列推理基準(zhǔn)任務(wù)和國外數(shù)學(xué)考試試題中對 Grok-1 進(jìn)行了評(píng)估。他們與早期 alpha 測試者合作,以評(píng)估 Grok-1 的一個(gè)版本,包括對抗性測試。目前,Grok 已經(jīng)對一部分早期用戶開啟了封閉測試訪問權(quán)限,進(jìn)一步擴(kuò)大測試人群。

Grok 構(gòu)建工程

在深度學(xué)習(xí)研究中,xAI 表示必須像對待數(shù)據(jù)集和算法一樣來謹(jǐn)慎地構(gòu)建可靠的 AI 基礎(chǔ)設(shè)施。為了創(chuàng)建 Grok, xAI 構(gòu)建了一個(gè)基于 Kubernetes、Rust 和 JAX 的自定義訓(xùn)練和推理?xiàng)!?/p>

xAI 表示,LLM 的訓(xùn)練就像一列呼嘯而過的貨運(yùn)列車,如果其中一節(jié)車廂脫軌,整列火車就會(huì)被拖離軌道,恢復(fù)起來會(huì)很難。

作為訓(xùn)練 LLM 不可或缺的 GPU, 出現(xiàn)故障的原因有很多種:產(chǎn)品缺陷、連接松動(dòng)、配置不正確、內(nèi)存芯片性能下降、偶爾的隨機(jī)位翻轉(zhuǎn)等等。當(dāng)在訓(xùn)練 AI 時(shí),往往會(huì)連續(xù)數(shù)月在數(shù)萬個(gè) GPU 上同步計(jì)算,并且由于規(guī)模大的原因,所有這些故障模式都會(huì)變得頻繁。

為了克服這些挑戰(zhàn),xAI 采用了一組自定義分布式系統(tǒng),以確保系統(tǒng)在每次故障發(fā)生時(shí)能夠立即識(shí)別并自動(dòng)處理。xAI 將高效計(jì)算作為重點(diǎn),在過去幾個(gè)月里,其基礎(chǔ)設(shè)施能夠最大程度地減少停機(jī)時(shí)間并保持較高的 MFU(Model Flop Utilization),即使存在不可靠的硬件也是如此。

xAI 認(rèn)為,Rust 是構(gòu)建可擴(kuò)展、可靠且可維護(hù)的基礎(chǔ)設(shè)施的理想選擇。Rust 提供了高性能、豐富的生態(tài)系統(tǒng),并能防止分布式系統(tǒng)中通常會(huì)發(fā)現(xiàn)的大多數(shù)錯(cuò)誤。

目前,xAI 正在為 Grok-1 模型功能的下一次飛躍做準(zhǔn)備,而這需要協(xié)調(diào)數(shù)萬個(gè)加速器運(yùn)行,并在 Grok 中構(gòu)建新的功能和工具。 

xAI 研究方向

xAI 為 Grok 配備了搜索工具和實(shí)時(shí)信息的訪問權(quán)限,與所有受過下一個(gè) token 預(yù)測訓(xùn)練的 LLM 一樣,Grok 仍然可以生成錯(cuò)誤或相互矛盾的信息。xAI 認(rèn)為,實(shí)現(xiàn)可靠推理是解決當(dāng)前系統(tǒng)局限性最重要的研究方向。這里, xAI 介紹了幾個(gè)有前景的研究方向。

  • 借助一些工具進(jìn)行可擴(kuò)展監(jiān)督:人類反饋至關(guān)重要,然而,讓人類提供一致且準(zhǔn)確的反饋具有很大挑戰(zhàn)性,特別是在處理冗長的代碼或復(fù)雜的推理步驟時(shí)。而人工智能可以通過查找不同來源的參考資料、使用外部工具驗(yàn)證中間步驟以及在必要時(shí)尋求人類反饋來協(xié)助進(jìn)行可擴(kuò)展的監(jiān)督。xAI 的目標(biāo)是在 Grok-1 大模型幫助下能夠最有效地利用 AI tutors(xAI 招募的工作人員,來幫助改進(jìn)模型)的時(shí)間。
  • 集成了安全、可靠、準(zhǔn)確的驗(yàn)證方式:為了創(chuàng)建能夠?qū)ΜF(xiàn)實(shí)世界進(jìn)行深入推理的 AI 系統(tǒng),xAI 計(jì)劃以更可驗(yàn)證的方式來開發(fā) AI 系統(tǒng)的推理性能。使得 xAI 在沒有人類反饋或與現(xiàn)實(shí)世界交互的情況下評(píng)估其系統(tǒng)。
  • 對長上下文的理解與檢索:訓(xùn)練模型能夠在特定上下文中發(fā)現(xiàn)有用知識(shí),是制造真正智能系統(tǒng)的核心。xAI 正在研究可以在需要時(shí)發(fā)現(xiàn)和檢索信息的方法。
  • 對抗穩(wěn)健性:對抗性示例表明,優(yōu)化器可以在訓(xùn)練和服務(wù)期間利用 AI 系統(tǒng)中的漏洞,發(fā)生嚴(yán)重錯(cuò)誤。xAI 認(rèn)為,這些漏洞是深度學(xué)習(xí)模型中長期存在的弱點(diǎn)。因而 xAI 對提高 LLM、獎(jiǎng)勵(lì)模型和監(jiān)控系統(tǒng)的穩(wěn)健性特別感興趣。
  • 多模態(tài)能力:目前,Grok 還不能處理視覺和聽覺等其他模態(tài)。為了讓 Grok 更好地幫助用戶,xAI 將會(huì)為 Grok 配備不同的模態(tài),以實(shí)現(xiàn)更廣泛的應(yīng)用,包括實(shí)時(shí)交互和幫助。

xAI 表示,他們相信 AI 能夠?yàn)樯鐣?huì)、經(jīng)濟(jì)和科學(xué)帶來巨大的潛力,因此他們會(huì)堅(jiān)定不移的開發(fā)可靠的保障措施,防止人們對 AI 的惡意使用。xAI 會(huì)盡最大的努力來確保 AI 仍然是一股正義的力量。

最后,Grok 預(yù)覽也曝光了,從動(dòng)圖來看,Grok 在回答用戶問題時(shí)非常絲滑。


想要上手 Grok 的小伙伴,可以搶先體驗(yàn)了,xAI 為美國用戶提供了數(shù)量有限的試用名額。未來幾個(gè)月,Grok 還會(huì)推出新的功能和特性,大家耐心等待就是了。

加入候補(bǔ)名單地址:https://grok.x.ai/

參考鏈接:https://x.ai/

責(zé)任編輯:趙寧寧 來源: 機(jī)器之心
相關(guān)推薦

2024-07-03 17:15:39

2023-11-06 12:34:14

模型訓(xùn)練

2025-02-11 09:20:00

LLM模型AI

2024-03-18 08:47:34

馬斯克GrokOpenAI

2024-03-12 13:14:40

2025-02-19 10:28:22

2024-03-18 14:17:06

大模型開源人工智能

2025-02-21 10:51:47

2024-10-29 14:30:00

AI模型

2025-02-24 13:00:00

2025-02-11 11:19:52

2024-03-19 14:00:59

2023-11-16 12:36:00

AI數(shù)據(jù)

2023-12-08 12:58:26

2025-03-31 00:07:45

2025-03-03 12:59:39

2024-05-27 13:05:20

2024-05-29 14:11:00

2023-07-13 12:57:08

2024-04-15 12:52:00

AI數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产99久久精品一区二区永久免费 | 欧美天堂一区 | 国产 日韩 欧美 在线 | 9999精品视频 | 久久国产精品色av免费观看 | 久久久激情| 国产精品久久久久久婷婷天堂 | 成人欧美一区二区三区黑人孕妇 | 91传媒在线观看 | 69热视频在线观看 | 天天天久久久 | 欧美一区成人 | 亚洲色综合 | 国产成人精品一区二区三区在线观看 | 婷婷激情五月网 | 精品在线一区二区 | 狠狠爱一区二区三区 | 丁香婷婷综合激情五月色 | 亚洲午夜精品 | 日韩在线视频一区 | 成人av一区 | 久久久久久www | 亚洲高清在线免费观看 | 日韩有码在线观看 | 精品无码久久久久久久动漫 | 日日操夜夜操天天操 | 久久69精品久久久久久国产越南 | 国产一区二区三区在线 | 日韩欧美理论片 | 国产精品18久久久 | 亚洲精品在线观看视频 | 欧美视频在线一区 | 国产在线不卡 | 99热碰| 日本视频在线播放 | 久在线视频播放免费视频 | 亚洲午夜在线 | 久久久久久国产一区二区三区 | 国产精品国产精品国产专区不卡 | 国产黄色在线观看 | 中文字幕免费在线 |