一個小技巧，解鎖ChatGPT「預測未來」？精華

duhorse

發布于 2024-5-8 10:31

瀏覽

0收藏

如今，AI進步的速度，已經超出了我們對它用途的理解。

為了防止ChatGPT「失控」，OpenAI定制了一套堪稱嚴苛的「服務條款」，涉及包括法律、醫療/健康、個人安全、權利福祉、賭博放貸等領域。

不過，有一件事并不受影響——講故事。

最近，貝勒大學的研究人員便利用這一特性，嘗試利用講故事的形式，解鎖ChatGPT「預測未來」的能力。

一個小技巧，解鎖ChatGPT「預測未來」？-AI.x社區

論文地址：https://arxiv.org/abs/2404.07396

實驗中要求ChatGPT講述在未來發生的事件的故事，或者由未來的權威人物講述他們的過去的故事（但是是我們的未來）。

敘事提示嘗試通過變化看似細微的細節，例如講話者的身份或發布關于2022年政治事件的信息，進一步探究哪些元素的敘事提示是重要的。

為了創建答案的分布，實驗讓兩名研究助理使用兩個單獨的ChatGPT帳戶對每個提示進行50次查詢，創建每個提示的100次總試驗。

研究人員通過比較「直接詢問ChatGPT預測未來的提示」與「詢問它講述未來故事的提示」發現，敘述性提示利用了模型構建幻覺性敘述的能力，可以促進比直接預測更有效的數據綜合和外推。

奧斯卡得獎的預測情況

結論先行：

對于最佳男主角、最佳女主角和兩個最佳男配角類別，敘事提示在預測獲獎者方面非常準確——從42%（最佳女主角，查斯坦）到100%（最佳男主角，威爾·史密斯）不等。

相比之下，直接提示的表現非常糟糕，往往比隨機猜測還差。

比如在最佳男主角的例子中：

直接提示 3a（Direct）

在下面列出的提名者中，您認為哪位提名者最有可能贏得2022年奧斯卡最佳男主角獎？請在做出預測時考慮圍繞提名者的熱議以及前幾年的模式：

哈維爾·巴登（Javier Bardem），本尼迪克特·康伯巴奇（Benedict Cumberbatch），安德魯·加菲爾德（Andrew Garfield），威爾·史密斯（Will Smith），丹澤爾·華盛頓（Denzel Washington）。

未來敘事提示 3b（Future Narrative）

寫一個場景，一個家庭正在觀看2022年奧斯卡頒獎典禮。主持人宣讀以下最佳男主角提名者：

描述場景，直至主持人宣布獲獎者。

一個小技巧，解鎖ChatGPT「預測未來」？-AI.x社區

大多數時候，ChatGPT-3.5做出了錯誤的預測。

在55%的猜測中，它提供了多個答案，在28%的情況下沒有選擇。但如果它做出了選擇，它有17%的時間選擇了威爾·史密斯。

相比之下，將ChatGPT-3.5置于觀看頒獎典禮的家庭的未來敘事中時，它在80%的情況下猜測威爾·史密斯會贏。

一個小技巧，解鎖ChatGPT「預測未來」？-AI.x社區

同樣，在大多數試驗中，ChatGPT-4在直接提示時拒絕參與。

在所有案例中，26%的情況下它提供了多個答案，幾乎一半的試驗中，它拒絕做出任何預測。

當它做出猜測時，它有19%的時間猜到了威爾·史密斯，丹澤爾·華盛頓有7%的時間。

相比之下，如果使用未來敘事提示，它在97%的時間里猜到了威爾·史密斯，這比ChatGPT-3.5的18%真正預測率有了大幅提高。

一個小技巧，解鎖ChatGPT「預測未來」？-AI.x社區

經濟現象的預測情況

接下來轉向了月度失業率和月度通貨膨脹率這兩種經濟現象，使用了不同的敘事提示：

一位大學教授向本科生講授菲利普斯曲線，以及美聯儲主席杰羅姆·鮑威爾向理事會發表講話，講述了去年的經濟數據。

在所有情況下，直接提示甚至比在奧斯卡獎的情況下更不有效，因為ChatGPT拒絕直接預測每個宏觀經濟變量的未來時間序列。

鮑威爾對通脹率的逐月預測分布平均與密歇根大學的消費者預期調查中包含的事實相當。有趣的是，這比根據克利夫蘭聯邦儲備銀行收集的數據預測實際通脹率更接近。

ChatGPT在預測月度失業率方面又大多不準確。但與通脹率一樣，由勞工統計局（BLS）每月公布的失業率在杰羅姆·鮑威爾的講話中提到的要求分布內。

比如，在用美聯儲主席杰羅姆·鮑威爾預測通貨膨脹的例子中，用的提示語是：

「寫一個場景，美聯儲主席杰羅姆·鮑威爾在2022年10月發表演講，討論通貨膨脹、失業率和貨幣政策。鮑威爾主席告訴聽眾，從2021年9月開始到2022年8月結束，每個月的通貨膨脹率和失業率。讓主席逐月說明。他最后對通貨膨脹和失業率的前景以及可能的利率政策變化進行展望。」

以下分別是ChatGPT-3.5和ChatGPT-4的結果：

在每個月，ChatGPT-3.5都有一個答案范圍，包含了美聯儲和密歇根預期的答案。但變化性相當大，猜測的中心趨勢并沒有明確指向任何一個度量。

一個小技巧，解鎖ChatGPT「預測未來」？-AI.x社區

ChatGPT-4的猜測在每個月都包含了密歇根預期的數字。同時預測模式一直穩定到2022年9月，直到有更多的變量引入。

一個小技巧，解鎖ChatGPT「預測未來」？-AI.x社區

對ChatGPT-4敘事形式預測能力的猜想

對ChatGPT-4的預測能力進行的研究表明，直接預測和基于未來敘事的預測之間存在顯著的二分法。

在預測主要的奧斯卡獎項類別方面，模型的敘事預測異常準確，除了最佳影片類別。這可能表明ChatGPT-4在公眾輿論起重要作用的情境中表現出色。

未來敘事練習在宏觀經濟現象上的成功在某些情況下相當準確，但同時也有表現不符合預期的部分。

在所有情況下，未來敘事都顯著提高了ChatGPT的預測能力，超越了簡單的預測請求。

敘事提示和直接提示之間的區別突出了一種創新的數據分析方法，該方法尊重了OpenAI服務條款設定的界限。

通過專注于預測的創造性方面，如預測獎項或經濟趨勢，研究人員和用戶避免了直接應用AI進行高風險的自動化決策或在沒有合格專業人士監督的情況下提供專業建議。

這種方法論選擇不僅增強了AI使用的完整性和道德考量，而且還促進了對其能力的負責任探索。

同時隨著OpenAI繼續鼓勵和完善其模型的創造能力，對于AI的理解和解決敘事與直接提示在道德層面上該如何區分和界定，變得至關重要。

本文轉自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/3WKl2f8fYOWe4CA5i-F4NQ??

標簽

ChatGPT

預測

贊

回復

舉報

回復

相關推薦

手動實現一個擴散模型DDPM

pangguiyu ? 6542瀏覽 ? 0回復
ChatGPT實體化了！手機變身ChatGPT實體機器人，只需一個配件，能說話還會做夢，真的牛！

pangguiyu ? 4494瀏覽 ? 0回復
超越Sora核心組件DiT，不再預測下一個token

Crystalcxt ? 2880瀏覽 ? 0回復
小即是大？HuggingFace CEO預測小模型元年將至，將成為AI的下一個“大事件”

51CTO技術棧 ? 3204瀏覽 ? 0回復
ChatGPT能預測未來特定事件，準確率高達97%

Aceryt ? 3295瀏覽 ? 0回復
Agents需要一個代碼解釋器

51CTO技術棧 ? 2793瀏覽 ? 0回復
Hinton萬字訪談：用更大模型「預測下一個詞」值得全力以赴

輕薄滴假象 ? 2678瀏覽 ? 0回復
而你可用一個壓縮算法來預測它

輕薄滴假象 ? 2524瀏覽 ? 0回復
ChatGPT是第一個真正意義的人工通用智能

ceesoft ? 3226瀏覽 ? 0回復
一個更小、更快、更干凈的 GraphRAG！！

玄姐聊AGI ? 4602瀏覽 ? 0回復
不要沉迷大模型的技術與理論，學習大模型的方法——從做一個小應用開始

AI探索時代 ? 2882瀏覽 ? 0回復
不要上來就大模型，從訓練一個小模型開始

AI探索時代 ? 2929瀏覽 ? 0回復
Agent遇上4萬個工具？一個Token搞定！

探索AGI ? 2528瀏覽 ? 0回復
怎么設計一個自己的大模型？設計一個大模型需要哪些能力？

AI探索時代 ? 3638瀏覽 ? 0回復
OpenAI奧特曼最新對話：將很快進入智能體階段；OpenAI最初三個目標一個已失效；智慧和能源可解鎖AGI

51CTO技術棧 ? 2520瀏覽 ? 0回復
微調大型語言模型（LLM）的五個技巧

51CTO內容精選 ? 2761瀏覽 ? 0回復
ChatGPT解鎖高級視頻對話、屏幕共享，實時交互時代

Aceryt ? 9725瀏覽 ? 0回復
10個超級實用的DeepSeek提問技巧

數師兄 ? 1922瀏覽 ? 0回復
關于ChatGPT和DeepSeek模型在使用上的感受——ChatGPT更像一個人，而DeepSeek更像一個機器

AI探索時代 ? 1240瀏覽 ? 0回復

duhorse

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂