成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、 原創

發布于 2024-9-20 17:26
瀏覽
0收藏

編輯 | 言征

出品 | 51CTO技術棧(微信號:blog51cto)

有了多模態大模型(LMM)之后,之前那種OCR“以圖搜圖”的方式已經不再Fashion了。

然而,遺憾的是,雖然今年AI搜索很火、多模態很火,但是多模態的AI搜索進展卻進展緩慢。

香港中文大學、字節跳動、上海人工智能實驗室、北京大學、斯坦福大學、商湯科技的一眾研發人員開始著手研究多模態搜索引擎的可行性了。

他們精心設計了一種零樣本的方法,可以讓LMM化身“多模態搜索引擎”。

重點來了,他們還進一步提出并解答了一個大家可能都難以回答的命題:如何評價一款多模態大模型作為搜索引擎的潛力?

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區圖片

一、多模態AI搜索引擎

提到多模態AI搜索引擎,大家會不會想到之前的“以圖搜圖”?看圖識花、淘寶中的看圖搜商品等等,但這些還不是多模態AI搜索。

想象這樣換一個場景,假設現在有多枚獎牌,想知道它們的具體名稱。一個多模態AI搜索引擎能夠將這些獎牌的照片與從互聯網上檢索到的圖像和文本交織表進行匹配,從而識別出每一枚獎牌。相比之下,純文本搜索引擎既無法接收照片進行搜索,也無法理解這種交織的表格。

而面對這種復雜的圖、表、文交織呈現的Web內容,即便是LLM也只能望洋興嘆:

雖然語言大模型可以更好地掌握用戶意圖、從原始Web信息中總結符合上下文語境的答案的能力,但這種僅限于文本查詢和解釋文本Web內容的形式,極大地限制了用戶的查詢場景和產品的想象空間。

這時候,就需要多模態大模型(LMM)上場解決了。

二、三個步驟讓LMM成為多模態搜索引擎

近一年以來,多模態成為了大模型發展的主旋律之一,GPT-4o、Sora、Qwen-VL等模型爭相發布,基于大型多模態模型LMM的產品應用如可靈、Character.AI等產品也給業界帶來了經驗的視覺效果,但是,它們怎樣才能用作多模態的 AI 搜索引擎呢?

香港中文大學聯合一眾知名大學、企業精心設計了一套流水線,讓市面上不管是閉源的GPT-4o、開源的Qwen,還是商用的Perplexity Pro,都統統經過三個步驟,化身成為可以理解視覺Web內容的多模態AI搜索引擎。

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區MMSearch-Engine

AI搜索過程是一個復雜的過程,這期間涉及到LMMs與傳統搜索引擎之間的多輪交互。

三、開發團隊究竟是如何設計的呢?

首先,研究團隊利用LMMs的圖像理解能力,整合了兩種類型的視覺數據——第一類,使用Google Lens(一種OCR工具)從圖像中搜索信息;第二類視覺數據,則是檢索到的網站截圖,目的是保留網站內容的原始格式。

那么,LMM到底如何與搜索引擎協同工作?該流程包括三個連續階段:

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區圖片

1. 重新查詢(Requery)。用戶直接輸入的查詢可能包含對圖像中某些信息的引用,如圖1所示的新聞財經示例。由于傳統搜索引擎僅接受文本輸入,因此LMM需要將圖像內容轉換為文本,并將其與查詢結合,以向搜索引擎提出有效的問題。

此外,原始用戶查詢有時可能含糊不清或效率低下,因此LMM還必須重新構造查詢以使其更清晰。如果用戶查詢包含圖像,則將Google Lens的圖像搜索結果截圖納入其中。

研究人員將用戶查詢、用戶圖像和圖像搜索截圖視為查詢的基本信息。這些信息將在流程中的每一輪都輸入給LMM。在重新查詢階段,研究人員需要提示LMM向傳統搜索引擎輸出一個重新構建的查詢。

2.重新排序(Rerank)。將重新構建的查詢發送給搜索引擎API(如DuckDuckGo),以檢索前K個相關網站。根據重新構建查詢的質量,并非所有檢索到的網站都必然與查詢回答相關。因此,研究人員會提示LMM選擇一個信息量最大的網站進行答案摘要。

由于LMM的上下文長度限制和網站內容的廣泛性,僅提供每個網站的必要信息(包括標題、摘要和網頁頂部部分的截圖),這里稱之為簡要結果,這些將作為LMM重新排序的輸入。

需要注意的實,這里包含截圖有兩個目的。首先,截圖提供了一個視覺線索來評估網頁的可信度,因為組織良好的網站往往比充斥著廣告的網站更值得信賴。此外,截圖可能包含重要的視覺信息。例如,它可能包含與查詢圖像相似或相同的圖像。

3. 摘要(Summarization)。首先抓取選定的網站以收集所有可用信息。解析HTML以獲取原始文本內容,并捕獲網站的整頁截圖。

然而,存在兩個問題:原始內容往往冗長且雜亂無章,而整頁截圖中由于網站上的廣告塊,大量區域是空白的。這兩個問題導致輸入令牌中填充了大量不相關信息。

為了提高數據效率,研究人員在將截圖和內容輸入給LMM之前,先對截圖進行瘦身并檢索相關內容。對于整頁截圖,則識別空白區域并迭代地將其移除。

對于文本內容,我們應用一個文本嵌入模型從原始內容中檢索最多2K個與重新構建查詢相關的令牌。所以,這里將瘦身后的截圖和檢索到的內容定義為完整的網站內容。

最后,研究人員將完整的網站內容、網站標題、網站摘要以及查詢信息輸入給LMM,以總結答案。

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區圖片

四、評估多模態搜索能力,靠這兩招

這還沒完,讓LMM具備了多模態搜索的能力后,如何評估這種能力的強弱呢?

這里涉及到兩個主要難題:評估數據集和如何打分。

數據集方面,研究人員在此基礎上引入了一個評測數據集 \dataset,這是一個全面的評估基準,用于評估 LMM 的多模態搜索性能。

該數據集包含 300 個手動收集的實例,跨越 14 個子字段,與當前 LMM 的訓練數據不重疊,確保只能在搜索中獲得正確答案。通過使用 MMSearch-Engine,通過執行三個單獨的任務(requery、rerank 和 summarization)和一個具有挑戰性的端到端任務來評估 LMM,該任務具有完整的搜索過程。

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區圖片

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區圖片

而在打分方面,研究團隊沒有簡單粗暴地來進行一場端到端的黑盒打分策略,而是采取了對三個核心搜索步驟上進行多輪逐步的策略,因為僅對最終答案的端到端評估不足以揭示模型在每個核心搜索步驟中的不足。例如,模型所犯的錯誤可能發生在摘要過程中,但也可能是由于在重新排名階段選擇了不正確的網站。

根據這四個打分,研究人員為最終結果設計了一個整體的得分。

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區圖片

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區圖片

研究人員對閉源和開源 LMM 進行了廣泛全面的實驗。在所有測試模型中,帶有 MMSearch-Engine 的 GPT-4o 取得了最好的結果,在端到端任務中超過了商業產品 Perplexity Pro,證明了這種“三步驟流水線”方法的有效性。

與此同時,為了徹底研究多模態搜索能力,通過上文提到的評估策略在數據集 \dataset 上得到了了不同模型的評估結果。

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區圖片

五、結論:閉源依舊強大,開源Qwen居首

1.任意分辨率的輸入僅提供輕微的改進或沒有改進

在測試的 LMM 中,有四種型號,即 InternLM-XC2.5、InternVL2、mPlug-Owl3 和 Idefic3,均支持低分辨率 (LowRes) 和任意分辨率輸入 (AnyRes)。正如人們所料,AnyRes 輸入可以更好地實現圖像的 OCR 和感知。然而,與 LowRes 性能與 AnyRes 性能之間的差異相比,我們只觀察到輕微甚至沒有增強。

以 mPlug-Owl3 為例,AnyRes input 在總分上比 LowRes input 高出 1.8%,端到端高出 2.7%,rerank 高出 0.2%。雖然它在重新查詢和摘要方面分別落后于 LowRes 0.8% 和 1.7%。這表明 OCR 和感知質量不會成為搜索性能的瓶頸。相反,次優性能似乎源于 LMM 本身缺乏強大的搜索功能。

2.當前的 LMM 在 requery 和 rerank 方面仍然存在重大缺陷

將端到端任務的平均分數與摘要任務的平均分數進行比較,就會發現,無論是在閉源模型還是開源模型中,摘要分數都始終以很大的優勢超過端到端任務。

論文認為,雖然摘要任務 input 始終包含答案,但端到端任務的第三輪 input 質量取決于模型在前幾輪中的 requery 和 rerank 質量。這種性能差距的大小反映了模型的摘要能力與其重新查詢和重新排名任務的能力之間的差異。差異越大,能力差距越大。觀察結果中發現:大多數開源模型的差距超過 14%,而閉源模型都在 10% 以下。

這表明所有當前的 LMM 都需要改進其 requery 和 rerank 能力,尤其是對于開源模型。

值得注意的是,Qwen2-VL-72B 的差距為 10.5%,也低于 14%,凸顯了它在其他開源 LMM 中的優越性。

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區圖片

3.閉源 LMM 在整體性能上優于開源 LMM

在最終得分方面,閉源 LMM 的性能始終優于開源 LMM。GPT-4o 獲得了 62.3% 的最高總分,展示了卓越的零樣本多模態搜索能力。雖然 Qwen2-VL-72B 在開源模型中處于領先地位,但它仍然落后于 GPT-4o 9.6%。在最具挑戰性的端到端任務中,性能差距擴大到 11.3%,對于 7B 開源 LMM 進一步擴大到 20.1%。這些顯著的差異凸顯了開源模型的巨大改進空間。

4.使用MMSearch-Engine,SoTA LMM 在端到端任務中超越了商業 AI 搜索引擎

我們還評估了 Perplexity 的專業版,一個著名的商業 AI 搜索引擎,接受圖像和文本查詢。Perplexity pro 可以接受用戶查詢中的圖像和文本。令人驚訝的是,盡管 Perplexity 還利用了 GPT-4o 和 Claude 3.5 Sonnet 等 SoTA LMM,但它在端到端任務中的性能在很大程度上低于配備相同模型的 MMSearch-Engine。

更值得注意的是,MMSearch-Engine 甚至可以通過開源 LMM Qwen2-VL-72B 超越 Perplexity。

這表明MMSearch-Engine 為多模態 AI 搜索引擎提供了更好的開源方案。性能差距驗證了 MMSearch-Engine 的設計有效性,并突出了在我們的管道中測試各種 LMM 的價值,因為在使用強大的 LMM 時,管道確實可以實現卓越的性能。

此外,論文還指出使用強大的圖像搜索步驟的重要性。

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區圖片

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區圖片

多模態AI搜索引擎最強設計,趕超商業!GPT-4o、Qwen榮登榜首!研究者陣容豪華:香港中文大學、字節、北大、-AI.x社區結果實例

六、多模態AI搜索引擎,何時才會到來

進入2024以來,“尋找PMF”、“如何利用大模型的能力打造產品”成為了業界的主流角逐點。而搜索作為與AI天生最容易結合的、最值得關注的賽道之一,我們欣喜地看到了香港中文大學、字節跳動、北京大學、商湯科技、斯坦福大學等眾多國內外學術界、產業界的研究人員走到了一起,并為多模態搜索引擎的賽道提出了一種可行的設計框架。

雖然目前看,即便是GPT-4o,也難以達到人類實用的效果,但“三個步驟”設計流水線和評估LMM的多模態搜索潛力的方法,值得各位借鑒。畢竟,我們可以看到使用MMSearch,SOTA模型的性能已經超過了商業的Perplexity Pro,這是一個可喜的成績。

參考鏈接:

??https://arxiv.org/pdf/2409.12959v1??

??https://mmsearch.github.io/??

本文轉載自??51CTO技術棧??,作者:言征

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产午夜高清 | a黄在线观看 | 雨宫琴音一区二区在线 | 亚洲午夜精品视频 | 精品一级| 久久这里只有 | 国产免费一区二区三区 | 成人精品在线视频 | 日韩一区二区三区在线观看 | 日韩欧美视频免费在线观看 | 国产精品污www一区二区三区 | 国精产品一区一区三区免费完 | 欧美日本韩国一区二区 | 日韩在线视频一区 | 综合精品久久久 | 在线视频 亚洲 | 中文天堂在线一区 | 日韩三 | 国产免费一区二区 | 91精品国产91久久综合桃花 | 久久99精品久久 | www.日韩av.com | 成人激情视频网 | 精品国产91乱码一区二区三区 | 成人欧美一区二区三区黑人孕妇 | 久久久久免费精品国产 | 99久久婷婷国产综合精品电影 | 精品伦精品一区二区三区视频 | 97视频在线观看网站 | 一区中文字幕 | 91精品www| 1204国产成人精品视频 | 在线看免费 | 国产精品国产三级国产aⅴ浪潮 | 日韩精品一区二区三区中文字幕 | 国产精品久久久久久久久久妞妞 | 国产精品高潮呻吟久久av野狼 | 成人国产精品入口免费视频 | 九九热这里 | 九九爱这里只有精品 | av影音在线 |