GPT-4取代數據分析師，成本僅3000！阿里達摩院&NTU論文引熱議

作者：新智元 2023-05-29 15:46:59

人工智能

無論是哪個領域的數據分析，無論我們用什么工具，結果都是如此——沒有專業知識，我們就不知道面對一大堆數據該提出什么樣的問題，就算有了一些發現，也不知道如何解釋。

近來，想必很多人被一份「GPT-4取代數據分析師」核算成本的研究報告驚到了。

論文內容直戳痛點：

使用GPT-4的成本大約是雇傭初級數據分析師的0.71％。

論文地址：https://arxiv.org/pdf/2305.15038.pdf

這份來自阿里達摩院和南洋理工大學的最新研究，明晃晃地告訴數據分析師，我要取代你們，這就是證據。

你以為高級數據分析師，會逃過一劫嗎？

研究人員稱，使用GPT-4的成本是雇傭高級數據分析師的0.45％。

這是什么概念？

根據就業在線社區Glassdoor統計，一位高級數據分析師年薪大約10萬美元（70萬人民幣）。

要是換成GPT-4，僅需要450美元，也就3000元左右。

從70萬到3000，簡直就是成本爆破！

網友表示，想到成本會這么低，但沒料到這么低。

框架

總之，這篇研究做出了以下幾點貢獻：

· 首次提出「GPT-4是否是一個優秀數據分析師」的研究問題，并對其利弊進行了定量評估。

· 對于這樣一個典型的數據分析師的工作范圍，提出了一個端到端的自動框架來進行數據收集、可視化和分析。

· 對GPT-4的產出進行了系統的、專業的人工評估。有良好質量的數據分析和洞察力可以被認為是NLP社區數據分析的第一個標桿。

為了搞清楚GPT-4能否成為一個好數據分析師，研究人員設計了一個端到端的框架。

GPT-4在上下文理解、代碼生成、數據故事方面的能力逐漸嶄露頭角，而這項研究的目的就是使用GPT-4來實現整個數據分析過程的自動化。

論文中，研究人員展示了GPT-4作為數據分析師流程。

基本上有三個步驟：（1）代碼生成（藍色箭頭所示），（2）代碼執行（橙色箭頭所示），以及（3）分析生成（綠色箭頭所示）。

整個框架的算法過程如下：

第1步：代碼生成

第一步的輸入包含一個問題和數據庫模式。這里的目標是生成代碼，以便在后面的步驟中提取數據和繪制圖表。

研究者利用GPT-4來理解問題和模式中多個數據庫表之間的關系。

由于數據安全的原因，僅提供了數據庫表的模式。大量的原始數據仍然被安全地離線保存，并將在后面的步驟中使用。

這一步的設計提示如表1所示。按照提示，可以得到一段包含SQL查詢的python代碼。

第2步：代碼執行

正如前面提到的，為了維護數據安全，研究人員在離線狀態下執行GPT-4生成的代碼。

這一步的輸入是步驟1中生成的代碼，以及數據庫中的原始數據，

如框架圖所示。通過使用「conn = sqlite3.connect([database file name])」定位數據目錄。

如代碼中的表1所示，這個步驟涉及大量的原始數據。通過執行python代碼，我們能夠得到「figure.pdf」中的圖表，以及「data.txt」中保存的提取數據。

第3步：分析生成

在獲得提取的數據后，研究者的目標是產生數據分析和洞察力。

為了確保數據分析與原始查詢相一致，同時使用問題和提取的數據作為輸入。研究人員為這個步驟的GPT-4設計的提示語如表2所示。

在這個過程中，研究人員沒有對提取數據生成一段描述，而是指示GPT-4用5個要點來生成分析和見解，并強調關鍵要點。

有一點需要注意的是，在此，研究人員也考慮使用生成的圖表作為輸入的替代方案。

因為「GPT-4的技術報告」提到，它可以將圖標作為輸入。不過，這個功能還沒全面開放。

由于提取的數據基本上包含的信息量與生成的圖表至少相同，因此研究人員只使用「提取數據」作為輸入。

從初步的實驗來看，GPT-4能夠從數據本身理解趨勢和相關性，而不需要看到數據。

為了讓框架更加實用，從而有可能幫助人類數據分析師提高其日常表現。研究人員增加了一個利用外部知識源的選項，如算法1所示。

由于實際的數據分析師角色通常需要相關的業務背景知識，研究人員設計了一個外部知識檢索模型g(·)，從外部知識源（如谷歌）查詢實時在線信息（I）。在這樣的方案中，GPT-4將數據（D）和在線信息（I）都作為輸入來生成分析（A）。

實驗

數據集

由于沒有完全匹配的數據集，研究人員選擇了一個最相關的數據集——NvBench。

他們從不同領域隨機選擇了100個不同圖表類型，和不同難度的問題來進行主要實驗。

圖表類型包括：條形圖、疊加條形圖、線形圖、散點圖和餅圖等。

難度等級包括：簡單、中等、困難和極難。

領域包括：體育、藝術、交通、公寓出租等。

在NvBench數據集的基礎上，研究人員利用框架為每個實例編寫了5個要點，并使用全新的指標來評估質量。

評估

在這里，研究人員設計了幾個人工評估指標來評估生成的數據，并分別對每個測試實例進行分析。

圖表評估：

· 信息正確性：圖中顯示的數據和信息是否正確？（0-1）

· 圖標類型正確性：圖表類型是否符合問題中的要求？（0-1）

· 美觀性：圖表是否美觀、清晰，沒有任何格式錯誤？（0-3）

分析評估：

· 正確性：分析中是否包含錯誤的數據或信息？（0-1）

· 對齊性：分析是否與問題一致？（0-1）

· 復雜性：分析的復雜程度和深度如何？（0-3）

· 流暢性：生成的分析是否流暢，在語法上是否合理，沒有不必要的重復？（0-3）

為了進行人工評估，阿里&NTU研究人員從一家數據標注公司雇傭了6名專業的數據標注員，按照上述詳細的評估指標對每個圖形和分析要點進行標注。

結果

GPT-4的表現

表3顯示了，GPT-4作為數據分析師在200個樣本上的表現，以及每個單獨的評估組的結果，和兩個組之間的平均分數。

對于圖表類型正確性評估，兩個評估小組幾乎都給出了滿分。

這表明，對于「畫條形圖」、「顯示餅形圖」等這樣簡單明了的指令，GPT-4可以很容易地理解其含義，并對圖表類型的含義有背景知識，從而可以相應地以正確的類型繪制圖表。

在美學評分方面，它平均得到2.73分（滿分3分），這表明大多數生成的數字對評估者來說是清晰的，沒有任何格式錯誤。

然而，對于繪制圖表的信息正確性，得分并不那么令人滿意。

研究人員手動檢查了這些圖表，發現盡管有一些小錯誤，但大多數都能大致得到正確的數字。

在此，評估標準非常嚴格，只要有任何數據，或任何標簽的X軸或Y軸是錯誤的，就要扣分。盡管如此，它仍有進一步改進的空間。

在分析評估方面，對齊性和流暢性平均得到了滿分。這再次驗證了生成流暢和語法正確的句子對GPT-4來說絕對不是一個問題。

另外，研究人員還注意到，分析的平均正確性得分要比數據的信息正確性高得多。

這很有趣，因為盡管生成的數據是錯誤的，但分析結果可能是正確的。這再次驗證了研究人員之前對數字的信息正確性得分的解釋。

如前所述，由于生成的數字大多與黃金數字一致，因此一些要點可以正確生成。只有少數與數字中的錯誤部分有關的要點被認為是錯誤的。就復雜性得分而言，平均2.16分（滿分3分）是合理且令人滿意的。

人類數據分析師與GPT-4的比較

為了進一步回答我們的研究問題，研究人員聘請專業的數據分析師來做這些任務，并與GPT-4進行全面的比較。

表4顯示了幾個來自不同背景的專家級別數據分析師與GPT-4的表現比較。

總的來說，GPT-4的性能與人類數據分析師相當，而在不同的標準指標和人類數據分析師之間，其優勢也有所不同。

第一行顯示了，一位在金融行業有超過6年數據分析工作經驗的高級數據分析師（即高級數據分析師1）的10個樣本表現。從表中可以看出，GPT-4在大多數指標上的表現與專家數據分析師相當。雖然GPT-4的正確性得分低于人類數據分析師，但復雜性得分和排列組合得分卻更高。

第二行顯示了，GPT-4和另一個有5年工作經驗的高級數據分析師（即高級數據分析師2）在8個樣本上的性能比較。由于樣本量相對較小，結果顯示人類和AI數據分析師之間的差異較大。人類數據分析師在信息的正確性和數據美觀性、見解的正確性和復雜性方面超過了GPT-4，表明GPT-4仍有改進的潛力。

第三行是比較GPT-4和一個在咨詢公司有2年內數據分析工作經驗的初級數據分析師之間的另一個隨機9樣本的表現。GPT-4不僅在數字和分析的正確性上表現得更好，而且還傾向于產生比人類數據分析師更復雜的分析。

除了所有數據分析師和GPT-4之間的性能相當外，我們可以注意到GPT-4花費的時間比人類數據分析師短得多。

表5顯示了，來自不同職業平臺的數據分析師成本比較。

研究人員從level.fyi獲得新加坡數據分析師的年薪中值，從Glassdoor獲得新加坡數據分析師的平均年薪。

這里，研究人員假設每月有大約21個工作日，每天的工作時間約為8小時，再結合目前不同級別數據分析師在具體項目實例中所花費的平均時長（美元）。

對于這次研究的標注，研究人員根據市場價格相應地支付給數據分析員。GPT4的成本約為初級數據分析師成本的0.71%，高級數據分析師成本的0.45%。

案例

在第一個案例中，GPT-4能夠生成包含正確的SQL查詢的python代碼，以提取所需的數據，并根據給定的問題畫出適當的、正確的餅圖。

在分析方面，GPT-4能夠通過進行適當的比較（例如，「最成功」、「不太成功」、「不同范圍」）來理解數據。

此外，GPT-4還能從數據中提供一些見解，如：「表明他們在競爭中的主導地位」。

GPT-4的上述這些能力，包括上下文理解、代碼生成和數據故事，也在其他許多案例中得到了證明。

此外，在這個案例中，GPT-4還可以從數據和其背景知識中做出一些合理的猜測，例如：「可能是由于其設計、性能或其他因素」。

第二個案例顯示了GPT-4處理的另一個問題「在散點圖中顯示身高和體重之間的相關性」。

同樣，GPT-4能夠提取正確的數據，畫出正確的散點圖并生成合理的分析。

雖然大部分的要點都原模原樣地生成了，但如果仔細閱讀和檢查，就會發現平均身高和體重的數字是錯誤的。

除了眾所周知的「幻覺」問題外，研究人員懷疑GPT-4的計算能力不強，特別是對于那些復雜的計算。

甚至，他們還在在其他幾個案例中也注意到這個問題。盡管GPT-4以非常自信的語氣生成了分析要點，但計算結果有時并不準確。

第三是高級分析師2所做的一個例子。

可以注意到，這位專家級的人類數據分析師也能理解需求，編寫代碼來繪制正確的柱狀圖，并對提取的數據進行分析要點。

除此以外，研究人員總結出人類數據分析師與GPT-4的3個主要區別：

首先，與GPT-4不同的是，人類數據分析師可以用一些個人想法和情感來表達分析。例如，數據分析師會提到「這有點令人驚訝......」。在現實生活中，個人情感有時是很重要的。通過這些情緒化的短語，人們可以很容易地理解數據是否符合預期或不正常。

第二，人類的數據分析師傾向于應用一些背景知識。雖然GPT-4通常只關注提取的數據本身，但人類很容易與自己的背景知識聯系起來。例如，如表8所示，數據分析師提到「......是常見的......」，這在數據分析師的實際工作中是比較自然的。因此，為了更好地模仿人類數據分析師，在演示中，研究人員增加了一個選項，即在生成數據分析時使用谷歌搜索API來提取實時在線信息。

第三，當提供洞察力或建議時，人類數據分析師往往是保守的。例如，在第5點中，人類數據分析師在給出建議前提到「如果沒有數據問題」。與人類不同，GPT-4會以自信的語氣直接提供建議，而不提及其假設。