成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o1不是聊天模型?24小時熱度暴漲,奧特曼、Brockman在線圍觀

人工智能
在剛剛過去的一天,一篇名為《o1 isn’t a chat model(and that’s the point)》的文章引發了包括 OpenAI CEO Sam Altman、總裁 Greg Brockman 的關注。

不要再將 o1 當做聊天模型了。

如何定位 o1 模型?你是否常常將其當做一個聊天模型來使用。

在剛剛過去的一天,一篇名為《o1 isn’t a chat model(and that’s the point)》的文章引發了包括 OpenAI CEO Sam Altman、總裁 Greg Brockman 的關注。

這篇文章表示 o1 不是一個聊天模型,我們可以將它想象成一個報告生成器。

圖片


原文鏈接:https://www.latent.space/p/o1-skill-issue

2014 年,OpenAI 接連放出了 o1、o1 pro、o3 模型,隨著模型推理能力的提升,隨著而來的是高昂的訂閱費。但很多人在訂閱使用后發現 o1 的表現并不如宣傳的那樣好,當然也包括本文的作者——曾任SpaceX軟件工程師、蘋果VisionOS人機交互設計師的Ben Hylak。

Hylak 表示每次他問 o1 一個問題時,都要等上 5 分鐘的時間,結果看到的只是一大堆自相矛盾的胡言亂語,還有未經請求的架構圖 + 優缺點列表。這讓 Hylak 很是惱火,因此直言 o1 就是垃圾。

圖片

o1 回答問題,多次自相矛盾。

為了表達心中的憤怒,Hylak 還在社交媒體上分享了這種觀點,「我今天一整天都在使用 o1 pro—— 我再怎么強調也不為過 —— 它真的很糟糕。」

圖片

「輸出內容幾乎接近胡言亂語,在同一個答案中多次自相矛盾。例如:我向它征求關于重構的建議。它建議合并文件,但輸出的代碼塊中文件并未合并,然后又出現了完全不相關的結論?!?/span>

圖片

圖源:https://x.com/benhylak/status/1864835651725910023

對于 Hylak 的觀點,有人表示贊同,但也有人強烈反對,他們認為 o1 表現非常好。

隨著 Hylak 與那些持反對意見的人交流越來越多,他逐漸意識到自己完全錯了:他把 o1 當作聊天模型來使用,但實際上 o1 并不是聊天模型。

對于作者態度的轉變,奧特曼很是欣慰,表示道:「隨著人們學會如何使用 o1(包括 pro 版),觀察人們對它態度的轉變真是很有趣?!?/span>

圖片

奧特曼關于這條博客的推文瀏覽量達到 1.5M 。

Greg Brockman 表示:「o1 是一個不同類型的模型。要獲得出色的性能,需要以一種與標準聊天模型不同的新方式來使用它?!?/span>

圖片


如果 o1 不是聊天模型,那它是什么?

我們可以把它想象成一個報告生成器(report generator)。如果你給定足夠的上下文,然后告訴它你想要的輸出,o1 通常會一下子確定解決方案。

接下來的問題是,如何使用 o1。

不要寫提示,要寫 Brief

給它大量的上下文,上下文的數量作者用 ton 來形容,我們可以把它想象成提示的 10 倍。

圖片

這張圖解釋了如何構建一個針對 o1 模型的提示(prompt),并將其分為幾個部分。

通常情況下,當你使用像 Claude 3.5 Sonnet 或 4o 這樣的聊天模型時,會先提出一個簡單的問題并附帶一些上下文。如果模型需要更多的上下文,它通常會向你詢問。

你會與模型來回迭代,糾正它并擴展需求,直到達到期望的輸出。聊天模型本質上是通過這種來回交互的方式從你這里獲取上下文。在與模型交互過程中,我們可能會變得越來越懶,只要還能得到好的輸出,輸入的提示越來越敷衍。

但是,o1 會直接接受那些敷衍的問題,并不會試圖從我們這里獲取上下文。相反,你需要盡可能多地向 o1 提供上下文。

即使你只是詢問一個簡單的工程問題,你也需要:

  • 詳細說明所有你嘗試過但沒有奏效的方法;
  • 添加所有數據庫架構的完整 dump;
  • 解釋你公司的業務、規模(并定義公司特有的術語)。

簡而言之,我們要把 o1 當作一個新入職的員工來對待。

圖片

把更多的時間用在開頭提示上。圖源:https://x.com/swyx/status/1839213190816870425

專注于目標:準確地描述你想要什么

一旦你向模型提供了盡可能多的上下文,就需要專注于解釋你希望輸出是什么。

在大多數模型中,我們會告訴模型我們希望它如何回答我們。例如:你是一位專家級軟件工程師。你需要模型進行慢思考且思考的很仔細。

這與使用 o1 取得成功的方法完全相反。不要告訴它如何做 —— 只告訴它做什么。然后讓 o1 接管,自行規劃和解決問題的步驟。這就是自主推理的作用所在,實際上這比你作為人工環節手動審查和聊天要快得多。

圖片

知道 o1 擅長什么、不擅長什么

o1 擅長什么:

  • 完美地一次性處理整個 / 多個文件:到目前為止,這是 o1 最令人印象深刻的能力。例如,復制 / 粘貼大量代碼,大量關于正在構建內容的上下文,o1 會完全一次性地完成整個文件(或多個文件),通常沒有錯誤,遵循現有模式代碼庫。
  • 減少幻覺:例如,o1 確實擅長定制查詢語言(如 ClickHouse 和 New Relic),而 Claude 經?;煜?Postgres 的語法。
  • 醫療診斷:Hylak 的女朋友是一名皮膚科醫生,當朋友或家人有皮膚問題時,他們通常會給 Hylak 的女朋友發一張照片。當 Hylak 拿照片詢問 o1 時,o1 的回答通常與正確答案驚人地接近(約 60%)。對于醫療專業人員來說更有用 ——o1 幾乎總能提供極其準確的鑒別診斷。
  • 解釋概念:Hylak 發現 o1 非常擅長通過示例解釋非常困難的工程概念。
  • 在制定困難的架構決策時,Hylak 經常會讓 o1 生成多個計劃,甚至比較這些計劃,每個計劃都有優缺點。
  • 評估:Hylak 一直對使用 LLM 作為評估的判別器持非常懷疑的態度,但 o1 表現出巨大的希望 —— 它通常能夠在很少的上下文下確定生成結果是否正確。

o1 做得還不夠好的地方:

  • 用特定的聲音 / 風格寫作:Hylak 發現 o1 不擅長寫任何東西,尤其是在特定的聲音或風格中。它遵循一種非常學術 / 企業的報告風格。

圖片

Hylak 嘗試讓 o1 寫這篇博客的一個例子 — — 經過多次反復,它只會寫一份平淡的報告。

  • 構建整個應用程序:o1 非常擅長一次性構建整個文件,但 o1 不會構建整個 SaaS,至少不會進行大量迭代。不過,它幾乎可以一次性完成整個功能,特別是前端功能或簡單的后端功能。

延遲從根本上改變了我們對產品的體驗??紤]一下電子郵件和短信之間的區別 —— 主要是延遲,語音消息與電話通話 —— 延遲,等等。

Hylak 將 o1 稱為「報告生成器」,因為 o1 顯然不是聊天模型 —— 它感覺更像電子郵件。

Hylak 認為 o1 將首次使某些產品成為可能 —— 例如,可以從高延遲、長時間運行的后臺智能中受益的產品。

用戶愿意等待 5 分鐘來完成什么樣的任務?一個小時?一天?3-5 個工作日?如果設計正確的話,有很多。

需要注意的是,o1-preview 和 o1-mini 支持流式傳輸,但不支持結構化生成或系統提示。o1 支持結構化生成和系統提示,但尚不支持流式傳輸。

當開發人員在 2025 年設計產品時,實際使用該模型做什么將會非常重要。

責任編輯:姜華 來源: 機器之心
相關推薦

2025-01-20 09:28:00

AI工具模型

2025-01-13 11:48:10

人工智能o1聊天模型

2024-12-09 07:00:00

o1-mini模型強化微調OpenAI

2024-09-24 11:01:03

2024-09-14 12:51:04

2024-10-05 00:00:00

2024-11-04 09:00:00

2024-09-18 08:40:00

智能模型AI

2025-01-08 13:08:55

2024-11-07 15:40:00

2024-09-19 13:32:24

2021-12-21 10:26:39

交付項目Jira開發

2024-11-25 17:23:10

2024-12-05 10:16:14

2024-11-12 12:53:46

2025-02-03 14:17:27

2024-12-09 11:06:31

2024-09-13 10:06:21

2025-01-21 13:15:15

2012-05-16 09:53:56

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧产日产国产精品视频 | 在线视频国产一区 | 久久噜| 成人不卡视频 | 狠狠久久 | 亚洲午夜av久久乱码 | 四虎最新 | 成人性视频免费网站 | 91精品国产手机 | 欧美色综合一区二区三区 | 成人在线视频一区 | 亚洲大片在线观看 | h视频在线播放 | 视频一区二区国产 | 久久国产精品亚洲 | 亚洲精品国产第一综合99久久 | 一区二区三区欧美大片 | 国产成人久久精品一区二区三区 | 黄色网址在线免费播放 | 国产h在线 | 欧美综合国产精品久久丁香 | av在线一区二区三区 | 欧美999| 久久精品国产一区二区电影 | 亚洲欧美一区二区三区国产精品 | 中文字幕乱码一区二区三区 | 国产精品国产三级国产aⅴ中文 | 91影院 | 国产亚洲精品一区二区三区 | 91九色麻豆 | 91www在线观看 | av毛片在线播放 | 久久久久久国产 | 国产夜恋视频在线观看 | 毛片一区二区三区 | 99视频在线 | 亚洲精品自在在线观看 | 91av在线视频观看 | 精品国产91亚洲一区二区三区www | 日本中文字幕日韩精品免费 | 一本一道久久a久久精品综合蜜臀 |