成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)

發(fā)布于 2025-4-15 07:11
瀏覽
0收藏

“MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering”

時(shí)間序列與文本數(shù)據(jù)的結(jié)合對(duì)理解復(fù)雜現(xiàn)實(shí)現(xiàn)象至關(guān)重要,尤其在金融和天氣預(yù)測(cè)領(lǐng)域。現(xiàn)有基準(zhǔn)缺乏對(duì)時(shí)間序列數(shù)據(jù)與文本之間復(fù)雜關(guān)聯(lián)的關(guān)注,未能處理文本與時(shí)間序列數(shù)據(jù)矛盾的情況。

本文提出MTBench基準(zhǔn),旨在評(píng)估LLMs在金融和天氣領(lǐng)域的多任務(wù)和多模態(tài)推理能力。MTBench通過(guò)將時(shí)間序列數(shù)據(jù)與相關(guān)文本信息對(duì)齊,促進(jìn)跨模態(tài)互動(dòng),支持復(fù)雜推理任務(wù)。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

摘要

本文提出MTBench(Multimodal Time Series Benchmark ,多模態(tài)時(shí)間序列基準(zhǔn)),旨在評(píng)估大語(yǔ)言模型在金融和天氣領(lǐng)域的時(shí)間序列與文本理解能力。MTBench包含配對(duì)的時(shí)間序列和文本數(shù)據(jù),如金融新聞與股票價(jià)格變動(dòng)、天氣報(bào)告與歷史溫度記錄。

同時(shí)提供了一個(gè)綜合測(cè)試平臺(tái),支持模型對(duì)結(jié)構(gòu)化數(shù)值趨勢(shì)和非結(jié)構(gòu)化文本敘述的聯(lián)合推理。設(shè)計(jì)了多樣化任務(wù),包括時(shí)間序列預(yù)測(cè)、語(yǔ)義和技術(shù)趨勢(shì)分析、新聞驅(qū)動(dòng)的問(wèn)答,考察模型捕捉時(shí)間依賴(lài)性和提取文本關(guān)鍵信息的能力。評(píng)估當(dāng)前最先進(jìn)的LLM在MTBench上的表現(xiàn),發(fā)現(xiàn)其在捕捉長(zhǎng)期依賴(lài)性、解釋因果關(guān)系和融合多模態(tài)信息方面存在顯著挑戰(zhàn)。

簡(jiǎn)介

時(shí)間序列與文本數(shù)據(jù)的結(jié)合對(duì)理解復(fù)雜現(xiàn)實(shí)現(xiàn)象至關(guān)重要,尤其在金融和天氣預(yù)測(cè)領(lǐng)域。現(xiàn)有的大型語(yǔ)言模型(LLMs)在跨時(shí)間序列和文本推理方面的能力尚未充分探索。現(xiàn)有的多模態(tài)時(shí)間序列-文本數(shù)據(jù)集主要集中于預(yù)測(cè)任務(wù),忽視了因果推理和深度分析等推理驅(qū)動(dòng)的挑戰(zhàn)。現(xiàn)有基準(zhǔn)缺乏對(duì)時(shí)間序列數(shù)據(jù)與文本之間復(fù)雜關(guān)聯(lián)的關(guān)注,未能處理文本與時(shí)間序列數(shù)據(jù)矛盾的情況。

本文提出MTBench基準(zhǔn),旨在評(píng)估LLMs在金融和天氣領(lǐng)域的多任務(wù)和多模態(tài)推理能力。MTBench通過(guò)將時(shí)間序列數(shù)據(jù)與相關(guān)文本信息對(duì)齊,促進(jìn)跨模態(tài)互動(dòng),支持復(fù)雜推理任務(wù)。研究發(fā)現(xiàn),LLMs在需要細(xì)致時(shí)間理解和多模態(tài)信息整合的任務(wù)上表現(xiàn)不佳,但相關(guān)文本信息能提升時(shí)間序列任務(wù)的表現(xiàn)。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

MTBench的貢獻(xiàn)包括:引入復(fù)雜推理和問(wèn)答挑戰(zhàn)的多模態(tài)時(shí)間序列基準(zhǔn);強(qiáng)調(diào)時(shí)間序列與文本之間的關(guān)系;提供靈活的框架以生成可控的數(shù)據(jù)集。

相關(guān)工作

LLMs用于時(shí)間序列分析。用于大型語(yǔ)言模型(LLMs)在時(shí)間序列分析中的應(yīng)用日益受到關(guān)注,涉及預(yù)測(cè)、異常檢測(cè)和金融建模等領(lǐng)域。一些方法通過(guò)對(duì)齊預(yù)訓(xùn)練嵌入與時(shí)間序列數(shù)據(jù),或使用文本原型重編輸入來(lái)提升推理能力。LLMs在可解釋的金融預(yù)測(cè)和社會(huì)事件驅(qū)動(dòng)預(yù)測(cè)中取得了成功,強(qiáng)調(diào)了針對(duì)時(shí)間序列數(shù)據(jù)的基礎(chǔ)模型和標(biāo)準(zhǔn)化跨模態(tài)基準(zhǔn)的需求。

時(shí)間序列基準(zhǔn)數(shù)據(jù)集。現(xiàn)有的時(shí)間序列基準(zhǔn)多基于經(jīng)典任務(wù)特定數(shù)據(jù)集,逐漸關(guān)注文本-時(shí)間序列配對(duì)數(shù)據(jù)集的開(kāi)發(fā)。Liu等人提出的Time-MMD數(shù)據(jù)集樣本點(diǎn)較少,Karger等人的ForecastBench主要針對(duì)事件預(yù)測(cè),而Cai等人的TimeseriesExam未考慮具體應(yīng)用。提出的基準(zhǔn)將專(zhuān)注于基于應(yīng)用特定使用場(chǎng)景評(píng)估模型在多任務(wù)上的表現(xiàn)。

金融新聞基準(zhǔn)數(shù)據(jù)集。現(xiàn)有金融基準(zhǔn)數(shù)據(jù)集主要集中于單一數(shù)據(jù)模態(tài),F(xiàn)inanceBench和FinDABench僅評(píng)估文本任務(wù),缺乏時(shí)間序列整合。Islam等人提出的金融援助預(yù)測(cè)基準(zhǔn)專(zhuān)注于時(shí)間序列,不包含文本數(shù)據(jù)。PIXIU和FinBen集成了時(shí)間序列和文本,但主要來(lái)源于Twitter,而我們的基準(zhǔn)則整理了金融新聞。最新的FNSPID數(shù)據(jù)集將股價(jià)時(shí)間序列與金融新聞對(duì)齊,專(zhuān)注于股價(jià)預(yù)測(cè)。我們的數(shù)據(jù)集不僅限于價(jià)格預(yù)測(cè),還涵蓋更廣泛的金融任務(wù),如金融指標(biāo)預(yù)測(cè),利用歷史金融記錄和新聞來(lái)源進(jìn)行全面評(píng)估。

天氣基準(zhǔn)數(shù)據(jù)集。天氣數(shù)據(jù)集基準(zhǔn)主要有兩個(gè)方向:數(shù)值天氣預(yù)報(bào)模型的基準(zhǔn)和時(shí)序預(yù)測(cè)的LLM評(píng)估。現(xiàn)有的大規(guī)模天氣基準(zhǔn)數(shù)據(jù)集通常不適合評(píng)估LLM的零-shot性能。WeatherBench和WeatherBench 2是標(biāo)準(zhǔn)化的基準(zhǔn),使用重分析數(shù)據(jù),提供更高分辨率和額外變量。Huber等人提出Weather2K,結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化天氣數(shù)據(jù)。評(píng)估時(shí)序LLM性能仍面臨高質(zhì)量文本-時(shí)間序列數(shù)據(jù)對(duì)的缺乏。提議的基準(zhǔn)數(shù)據(jù)集通過(guò)生成嚴(yán)重天氣事件的新聞來(lái)解決這一問(wèn)題,并擴(kuò)展了時(shí)間跨度和地點(diǎn)數(shù)量。

數(shù)據(jù)集收集與預(yù)處理

本文選擇金融和天氣領(lǐng)域進(jìn)行數(shù)據(jù)集收集,因其在評(píng)估大語(yǔ)言模型的多模態(tài)整合和推理能力方面具有重要應(yīng)用意義。金融市場(chǎng)中,理解股價(jià)與新聞情緒的關(guān)系對(duì)風(fēng)險(xiǎn)評(píng)估、算法交易和經(jīng)濟(jì)預(yù)測(cè)至關(guān)重要。天氣預(yù)測(cè)在氣候監(jiān)測(cè)、供應(yīng)鏈物流和災(zāi)害準(zhǔn)備中發(fā)揮關(guān)鍵作用。這兩個(gè)領(lǐng)域因動(dòng)態(tài)外部因素、不確定性和事件驅(qū)動(dòng)的波動(dòng)性而具有內(nèi)在復(fù)雜性。

原始數(shù)據(jù)收集

金融數(shù)據(jù)集:

  • 收集了200,000個(gè)金融新聞文章URL,涵蓋2021年5月至2023年9月。
  • 從中提取了20,000篇新聞,確保文章長(zhǎng)度分布均衡。
  • 使用GPT-4o為每篇文章注釋元數(shù)據(jù),包括內(nèi)容類(lèi)型、時(shí)間效應(yīng)范圍和情感。
  • 股票時(shí)間序列數(shù)據(jù)與新聞文章對(duì)應(yīng),采用不同粒度的歷史股價(jià)數(shù)據(jù)。
  • 預(yù)測(cè)設(shè)置:短期預(yù)測(cè)(7天股價(jià),5分鐘粒度)和長(zhǎng)期預(yù)測(cè)(30天股價(jià),1小時(shí)粒度)。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

天氣數(shù)據(jù)集:

  • 選擇50個(gè)美國(guó)機(jī)場(chǎng),使用GHCN-H數(shù)據(jù)集,數(shù)據(jù)時(shí)間范圍為2003至2020年,記錄溫度等多個(gè)氣象屬性。
  • 重點(diǎn)關(guān)注溫度數(shù)據(jù),未來(lái)可擴(kuò)展為多通道天氣分析。
  • 使用風(fēng)暴事件數(shù)據(jù)庫(kù)記錄1950至2020年間的風(fēng)暴事件,包括類(lèi)型、地點(diǎn)、傷亡等信息,提供復(fù)雜天氣條件的上下文。

數(shù)據(jù)對(duì)齊和預(yù)處理

財(cái)務(wù)新聞與股票價(jià)格的匹配

通過(guò)時(shí)間戳對(duì)齊新聞與股票時(shí)間序列,進(jìn)行語(yǔ)義分析,發(fā)現(xiàn)并非所有新聞準(zhǔn)確反映未來(lái)股價(jià)趨勢(shì)。

數(shù)據(jù)集分類(lèi):

  • 一致新聞數(shù)據(jù)集:80%對(duì)齊對(duì),新聞情感與未來(lái)趨勢(shì)一致。
  • 不一致新聞數(shù)據(jù)集:20%對(duì)齊對(duì),情感與實(shí)際價(jià)格變化不符。

一致數(shù)據(jù)集用于評(píng)估LLM對(duì)有用信息的預(yù)測(cè)能力,不一致數(shù)據(jù)集用于測(cè)試模型識(shí)別誤導(dǎo)信息的能力。

天氣事件報(bào)告與記錄對(duì)齊

將風(fēng)暴事件與最近機(jī)場(chǎng)天氣數(shù)據(jù)配對(duì),采用50公里半徑進(jìn)行匹配,合并相關(guān)事件。利用LLM生成合成新聞文章,補(bǔ)充缺失的敘述信息。

使用新聞文章結(jié)束時(shí)間作為錨點(diǎn),獲取前7天的天氣數(shù)據(jù)預(yù)測(cè)次日溫度。處理NCEI數(shù)據(jù)集中的不規(guī)則時(shí)間間隔,通過(guò)計(jì)算每小時(shí)平均溫度并插值填補(bǔ)缺失值,得到每日24小時(shí)和過(guò)去7天168個(gè)數(shù)據(jù)點(diǎn)。將插值后的7天和14天溫度數(shù)據(jù)與40篇最長(zhǎng)新聞文章配對(duì)。研究?jī)煞N預(yù)測(cè)場(chǎng)景:短期預(yù)測(cè)(用過(guò)去7天預(yù)測(cè)次日)和長(zhǎng)期預(yù)測(cè)(用過(guò)去14天預(yù)測(cè)未來(lái)3天)。

數(shù)據(jù)統(tǒng)計(jì)

金融數(shù)據(jù)集:包含20,000篇預(yù)處理和標(biāo)記的金融新聞文章,分析市場(chǎng)趨勢(shì)、情感和敘事;還有兩個(gè)配對(duì)的文章-時(shí)間序列數(shù)據(jù)集,各20,000對(duì),研究金融新聞與市場(chǎng)波動(dòng)的關(guān)系。

天氣數(shù)據(jù)集:為50個(gè)美國(guó)氣象站生成2,000對(duì)時(shí)間序列和新聞,每站40對(duì),包含7或14天的溫度數(shù)據(jù)和描述嚴(yán)重天氣事件的合成新聞。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

金融數(shù)據(jù)集分類(lèi):

  • 內(nèi)容類(lèi)型:市場(chǎng)新聞與分析、投資與股票分析、交易與投機(jī)投資。
  • 時(shí)間效應(yīng)范圍:回顧性分析、當(dāng)前市場(chǎng)洞察、預(yù)測(cè)與展望。
  • 情感:根據(jù)潛在市場(chǎng)影響標(biāo)記情感極性。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

天氣數(shù)據(jù)集分布:主要為短期、高頻天氣事件,常見(jiàn)有雷暴風(fēng)、閃電洪水和冰雹,短期事件(少于六小時(shí))占主導(dǎo),長(zhǎng)時(shí)間事件較少,適合短期氣象擾動(dòng)研究。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

任務(wù)設(shè)計(jì)

時(shí)序預(yù)測(cè)任務(wù)

任務(wù)目標(biāo):基于歷史觀察預(yù)測(cè)未來(lái)時(shí)間序列值,結(jié)合文本新聞進(jìn)行多模態(tài)信息整合。

領(lǐng)域:金融和天氣,需捕捉時(shí)間依賴(lài)性。

評(píng)估設(shè)置:金融長(zhǎng)期預(yù)測(cè)基于30天歷史數(shù)據(jù),天氣長(zhǎng)期預(yù)測(cè)基于14天歷史數(shù)據(jù)。

評(píng)估指標(biāo):金融使用MAE和MAPE,天氣使用MSE和MAE。

語(yǔ)義趨勢(shì)分析

趨勢(shì)計(jì)算:金融時(shí)間序列通過(guò)最后與第一個(gè)數(shù)據(jù)點(diǎn)的百分比變化計(jì)算趨勢(shì);天氣數(shù)據(jù)通過(guò)計(jì)算輸入天數(shù)的日均溫度斜率來(lái)確定趨勢(shì),短期預(yù)測(cè)則比較最后輸入日與未來(lái)日的日均溫度差。

趨勢(shì)標(biāo)簽分箱:為便于分類(lèi),計(jì)算的百分比變化被離散化為預(yù)定義的區(qū)間,金融數(shù)據(jù)有3-way和5-way分類(lèi),天氣數(shù)據(jù)僅有3-way分類(lèi)。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

評(píng)估指標(biāo):使用標(biāo)簽分類(lèi)準(zhǔn)確率評(píng)估模型對(duì)趨勢(shì)標(biāo)簽的正確分配能力。

技術(shù)指標(biāo)預(yù)測(cè)

技術(shù)指標(biāo)預(yù)測(cè)任務(wù)評(píng)估LLM在金融和天氣相關(guān)指標(biāo)預(yù)測(cè)的能力。

金融數(shù)據(jù)指標(biāo):

  • MACD:12日與26日指數(shù)移動(dòng)平均的差值,識(shí)別動(dòng)量變化和趨勢(shì)反轉(zhuǎn)。
  • 布林帶上軌:上軌 = 簡(jiǎn)單移動(dòng)平均 + k · 標(biāo)準(zhǔn)差,評(píng)估波動(dòng)性和超買(mǎi)情況。

天氣數(shù)據(jù)指標(biāo):

  • 次日最高和最低溫度預(yù)測(cè)。
  • 次日溫差預(yù)測(cè)。

任務(wù)為回歸任務(wù),使用均方誤差(MSE)和平均絕對(duì)誤差(MAE)評(píng)估,幫助人們做出決策。

新聞驅(qū)動(dòng)的問(wèn)答

現(xiàn)有的多模態(tài)時(shí)間序列數(shù)據(jù)集忽視了推理密集型任務(wù),如問(wèn)答(QA),限制了評(píng)估LLM整合文本和時(shí)間序列數(shù)據(jù)的能力。提出了一個(gè)基于新聞的QA任務(wù),包括兩個(gè)子任務(wù):相關(guān)性預(yù)測(cè)和多項(xiàng)選擇QA。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

相關(guān)性預(yù)測(cè)旨在評(píng)估LLM識(shí)別金融新聞情感與未來(lái)股價(jià)趨勢(shì)之間關(guān)系的能力,分為3類(lèi)(正面、中性、負(fù)面)和5類(lèi)(強(qiáng)正面、適度正面、無(wú)關(guān)系、適度負(fù)面、強(qiáng)負(fù)面)。真實(shí)標(biāo)簽通過(guò)GPT-4o生成,確保與實(shí)際市場(chǎng)波動(dòng)一致,挑戰(zhàn)LLM整合文本情感與數(shù)值時(shí)間序列數(shù)據(jù)的理解。許多股票-新聞對(duì)表現(xiàn)出負(fù)相關(guān)性,給LLM帶來(lái)挑戰(zhàn)。

多項(xiàng)選擇QA評(píng)估LLM在多模態(tài)文本分析和時(shí)間序列理解上的能力。通過(guò)生成正確和錯(cuò)誤的陳述,基于股票價(jià)格時(shí)間序列和相關(guān)新聞。正確陳述基于新聞內(nèi)容、時(shí)間序列趨勢(shì)或有效因果關(guān)系。錯(cuò)誤陳述源于虛假聲明、誤解事件或因果推理錯(cuò)誤。任務(wù)挑戰(zhàn)模型理解文本和數(shù)值數(shù)據(jù)的語(yǔ)義及其因果關(guān)系。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

評(píng)估任務(wù)使用的模型包括GPT-4o、Claude-Sonnet-3.5-20241022、Gemini-2.0-Flash、LLaMA 3.1-8B和DeepSeek-Chat,特定金融任務(wù)還使用OpenAIo1。

模型在時(shí)間序列和時(shí)間序列+文本設(shè)置下進(jìn)行評(píng)估,除了新聞驅(qū)動(dòng)的問(wèn)答任務(wù)。

金融數(shù)據(jù)集模型溫度設(shè)置:所有任務(wù)0.7,天氣回歸任務(wù)0.5,天氣分類(lèi)任務(wù)0.2。

實(shí)驗(yàn)結(jié)果

時(shí)間序列預(yù)測(cè)在短期(如7天輸入,1天輸出)表現(xiàn)優(yōu)于長(zhǎng)期預(yù)測(cè),因捕捉復(fù)雜時(shí)間依賴(lài)性更具挑戰(zhàn)。融入文本信息顯著提升預(yù)測(cè)準(zhǔn)確性:股票預(yù)測(cè)平均提高9.78%,溫度預(yù)測(cè)提高6.63%。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

股票預(yù)測(cè)中,文本信息的優(yōu)勢(shì)更明顯,因市場(chǎng)受金融新聞?dòng)绊戄^大;而溫度預(yù)測(cè)受物理規(guī)律影響較穩(wěn)定。DeepSeek模型在長(zhǎng)期溫度預(yù)測(cè)中,文本整合反而降低準(zhǔn)確性,可能存在模態(tài)干擾。LLM在生成特定長(zhǎng)度輸出時(shí)常出現(xiàn)不一致,尤其在長(zhǎng)期設(shè)置中,需進(jìn)一步優(yōu)化模型訓(xùn)練以滿足輸出要求。

股票趨勢(shì)預(yù)測(cè):LLMs在短期(7天)和長(zhǎng)期(30天)股票價(jià)格趨勢(shì)預(yù)測(cè)中表現(xiàn)不同,短期預(yù)測(cè)更具挑戰(zhàn)性。使用Chain-of-Thought(CoT)提示技術(shù)提高了預(yù)測(cè)的可靠性。文本數(shù)據(jù)的引入通常提升了預(yù)測(cè)準(zhǔn)確性,但在過(guò)去趨勢(shì)分類(lèi)中有時(shí)會(huì)降低性能。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

技術(shù)指標(biāo)計(jì)算:在預(yù)測(cè)MACD和布林帶上限時(shí),文本數(shù)據(jù)的加入顯著提高了預(yù)測(cè)準(zhǔn)確性。OpenAI-o1在大多數(shù)任務(wù)中表現(xiàn)最佳,MACD對(duì)文本輸入的依賴(lài)性較低。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

溫度差異預(yù)測(cè):結(jié)合文本數(shù)據(jù)的溫度預(yù)測(cè)表現(xiàn)更佳,但溫度差異預(yù)測(cè)最具挑戰(zhàn)性,誤差較高。整體趨勢(shì)顯示多模態(tài)學(xué)習(xí)在時(shí)間序列預(yù)測(cè)中的重要性。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

短期與長(zhǎng)期預(yù)測(cè):LLMs在30天預(yù)測(cè)中表現(xiàn)優(yōu)于7天,表明短期市場(chǎng)波動(dòng)更難預(yù)測(cè)。短期多項(xiàng)選擇問(wèn)答(MCQA)相對(duì)簡(jiǎn)單,模型在處理長(zhǎng)期推理時(shí)面臨更多復(fù)雜性。

模型偏差:在5類(lèi)分類(lèi)設(shè)置中,LLMs傾向于將新聞與股票價(jià)格運(yùn)動(dòng)的關(guān)系分類(lèi)為中等正相關(guān),顯示出對(duì)相關(guān)性動(dòng)態(tài)的捕捉能力不足,難以分析負(fù)相關(guān)或弱相關(guān)。

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

MTBench:用于金融時(shí)序推理和回答的多模態(tài)時(shí)間序列基準(zhǔn)-AI.x社區(qū)

總結(jié)和未來(lái)工作

MTBench是一個(gè)評(píng)估LLM在多模態(tài)時(shí)間序列和文本數(shù)據(jù)推理能力的基準(zhǔn),強(qiáng)調(diào)文本敘述與數(shù)值趨勢(shì)的語(yǔ)義和時(shí)間對(duì)齊。評(píng)估結(jié)果顯示,LLM在某些方面表現(xiàn)良好,但在復(fù)雜的時(shí)間推理、因果推斷和跨模態(tài)綜合方面存在困難。MTBench主要關(guān)注金融和天氣數(shù)據(jù),未來(lái)可擴(kuò)展至醫(yī)療和社會(huì)科學(xué)等領(lǐng)域。研究評(píng)估了現(xiàn)成的LLM,未來(lái)研究可探索微調(diào)策略和架構(gòu)改進(jìn)以提升時(shí)間推理能力。

本文轉(zhuǎn)載自??靈度智能??,作者:靈度智能


已于2025-4-15 09:56:18修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 成人在线一区二区 | 国产在线观看一区二区 | 日本精品视频 | 老头搡老女人毛片视频在线看 | 丁香五月网久久综合 | 亚洲狠狠爱 | 91网站在线看 | 亚洲天堂精品一区 | 国产福利小视频 | 草久久久 | 国产午夜高清 | 日韩国产黄色片 | 毛片在线免费播放 | 国产高清精品在线 | 日韩黄色小视频 | 天天躁日日躁狠狠躁2018小说 | 综合久久亚洲 | 91精品国产一区二区三区 | wwww.8888久久爱站网 | 日韩欧美国产成人一区二区 | 综合色影院 | 欧美一区二区三区一在线观看 | 亚洲网站在线观看 | 国产羞羞视频在线观看 | 一区二区三区在线免费观看视频 | 国产在线观看一区二区 | 91精品久久久久久久久久 | 97国产精品 | 免费黄色av网站 | 欧美精品成人一区二区三区四区 | 免费看a| 黄色精品 | 国产精品123区 | 热99视频 | www.97zyz.com| 成人超碰在线 | 国产精品久久久久久久久久久新郎 | 嫩草视频网站 | 久久精品视频亚洲 | 秋霞a级毛片在线看 | 精品久久久久一区二区国产 |