快手8篇論文入選機器學習領域頂會ICML 2025!
導讀:快手8篇論文入選機器學習領域頂會ICML 2025,研究涵蓋了多模態情感大模型、機器學習單調建模、因果效應估計結果、級聯排序系統一體化建模、統一生成理解框架、圖像壓縮、圖像超分等前沿領域的成果。
?
?
ICML(International Conference on Machine Learning)作為機器學習領域的全球頂級學術盛會,由國際機器學習學會(IMLS)主辦,并被中國計算機學會(CCF)列為A類國際權威會議。第42屆ICML將于7月13日至19日在溫哥華會議中心舉辦。近日,大會正式公布論文錄取結果,快手憑借在人工智能領域的持續創新與突破,共有8篇高質量論文脫穎而出,這些研究聚焦于多模態情感大模型、機器學習單調建模、因果效應估計結果、級聯排序系統一體化建模、統一生成理解框架、圖像壓縮、圖像超分等前沿領域研究。本文將系統解讀入選論文的核心貢獻與技術亮點,期待與學界同仁深度交流與思想碰撞。
?
?
論文01:MODA: MOdular Duplex Attention for Understanding Multimodal Perception, Cognition, and Emotion Understanding
?
| 論文鏈接:??https://openreview.net/pdf?id=9hd5WA6QCn??
| 論文簡介:情智兼備數字人與機器人處理多模態的人類交互信息,挖掘人的內在情感狀態,從而進行更真實、更自然的回應。然而,面對多模態情智解譯的挑戰,如何在多模態情感數據語義復雜的背景下建模模態之間的關聯,仍然是一個亟待解決的關鍵問題。
?
南開大學與快手可靈團隊在「多模態情感大模型」領域開展了首次探索,成功定位了現有多模態大模型在情感線索捕捉中的關鍵短板。從多模態注意力機制的角度出發,提出了新的模塊化雙工注意力機制,并基于此構建了一個涵蓋感知、認知與情感能力的多模態大模型‘摩達(MODA)’。該模型在通用對話、知識問答、表格處理、視覺感知、認知分析和情感理解等六大類任務的21個基準測試中均取得了顯著性能提升。通過新的注意力機制加持,‘摩達’大模型在角色剖析與規劃演繹等人機交互應用中表現出色。目前,該研究成果已被遴選為焦點論文(Spotlight,Top 2.6%)。
?
論文02:Learning Monotonic Probabilities with a Generative Cost Model
?
| 論文鏈接:??https://arxiv.org/pdf/2506.03542??
| 項目代碼:https://github.com/tyxaaron/GCM
| 論文簡介:在許多機器學習任務中,輸入和輸出變量之間的關系通常需要是單調的,包括嚴格單調和隱式單調關系。傳統的保持單調性的方法主要依賴于構造或正則化技術。本文表明,嚴格單調概率的問題可以被視為一個可觀察的收益變量與一個潛在成本變量之間的偏序關系。這一視角使我們能夠將單調性挑戰重新表述為對潛在成本變量的建模。為了解決這個問題,我們引入了一個用于潛在成本變量的生成網絡,稱為生成成本模型(GCM),它自然地解決了嚴格單調問題。此外,我們提出了隱式生成成本模型(IGCM)來解決隱式單調問題。我們進一步通過分位數回歸的數值模擬驗證了我們的方法,并在公共數據集上進行了多次實驗,結果表明我們的方法顯著優于現有的單調建模技術。
| 論文簡介:因果效應估計結果在環境偏移場景下的跨環境泛化是因果推斷領域的一項重要挑戰。現有方法通常基于分離集合(Separating Set)對原始環境的因果效應估計結果向目標環境進行泛化,但這些方法需假設分離集合在兩組環境中都完全可觀測,這一假設在真實應用場景中難以滿足。為了克服上述難題,本文提出兩階段雙穩健估計方法(Two-Stage Doubly Robust, 簡稱2SDR),該方法將已有方法的假設放寬到僅需分離集合在原始環境或目標環境其中任意一個環境中可觀測,拓寬了因果效應的可泛化邊界。具體來說,2SDR通過自動選擇影子變量實現了對分離集合中缺失變量的無偏補全,并進一步采用雙重穩健方法將原始環境的因果效應估計泛化到目標環境。該方法在可識別性和一致性理論上得到嚴格證明,并在合成數據集和真實數據集上通過廣泛實驗驗證了其正確性與有效性。
?
?
論文04:Learning Cascade Ranking as One Network
?
| 論文鏈接:??https://arxiv.org/abs/2503.09492??
| 項目代碼:https://github.com/kwai/LCRON
| 論文簡介:級聯排序(Cascade Ranking) 是大規模 top-k 選擇系統(如推薦系統和廣告平臺)中廣泛采用的一種架構。傳統的訓練方法通常專注于單階段優化,忽略了各個階段之間的相互作用。盡管近期的研究提出了考慮階段間交互的訓練范式,但仍面臨兩個關鍵挑戰:
1. 訓練目標與整個級聯排序系統的最終目標(即端到端地召回Ground-truth項目)不一致;
2. 難以充分學習不同階段之間有效的協作模式。
?
為了解決這些問題,我們提出了 LCRON,該方法引入了一種新的代理損失函數,該函數可以直接優化Ground-truth項目在整個級聯排序過程中生存概率的下界,從而確保了訓練目標與系統整體目標的一致性。根據所推導出的下界的性質,我們進一步為每個階段設計了一個輔助損失函數,以驅動該下界的縮緊,從而實現更魯棒、更有效的 top-k 集合選擇。
?
LCRON 能夠將整個級聯排序系統作為一個統一的網絡進行端到端訓練。實驗結果表明,LCRON 在公共基準數據集和工業應用中均顯著優于現有方法,解決了級聯排序訓練中的關鍵限制,并大幅提升了系統性能。LCRON目前已經在快手商業化場景全量,完成了召回、粗排的統一,并成為了線上占比最大的通路。此外,LCRON訓練的模型更便于以一體化的方式部署在一個模型服務中,可以有效精簡引擎模塊,降低鏈路通信與存儲開銷,具備顯著的系統成本優化潛力。
?
論文05:MM-RLHF: The Next Step Forward in Multimodal LLM Alignment
?
| 論文鏈接:https://arxiv.org/abs/2502.10391
| 論文簡介:盡管多模態大型語言模型(MLLMs)取得了顯著進步,但大多數最先進的模型尚未經過與人類偏好的充分對齊。這種差距存在的原因是目前的對齊研究主要在特定領域內取得進展(例如幻覺減少),而關于是否可以通過將模型與人類偏好進行系統性對齊來提高多模態大語言模型能力這一更廣泛的問題則尚待探索。為此,我們引入了MM-RLHF數據集,該數據集包含120,000對精細的人工注釋的偏好對比樣本。此數據集代表了現有資源的重大進步,提供了更大規模、更多樣化、更細致和高質量的數據。 利用這一數據集,我們提出了一系列關鍵創新以提高獎勵模型的質量和對齊算法的效率。特別是,我們引入了一種基于批評的獎勵模型,在給輸出打分之前先生成對其批評,與傳統的標量獎勵機制相比提供了更高的可解釋性和更有信息性的反饋。此外,我們還提出了動態獎勵縮放方法,該方法根據每個樣本的獎勵信號調整損失權重,從而優化高質量對比對的使用。 我們的方法在10個不同的維度和27個基準上進行了嚴格的評估,結果顯示模型性能在多個方面都有顯著且一致的進步。具體而言,在LLaVA-ov-7B基礎上與MM-RLHF數據集結合進行微調,并應用我們提出的對齊算法后,對話能力提升了19.5%,安全性提高了60%。
?
論文06:Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads
?
| 論文鏈接:??https://arxiv.org/abs/2412.00127??
| 項目代碼:https://github.com/zhijie-group/Orthus
| 論文簡介:現有多模態模型通常在文本和圖像的統一建模上遇到困難:
- 完全自回歸模型通過矢量量化將圖像轉換為離散標記,但這會導致不可避免的信息損失;
- 而AR與擴散混合模型則因其固有的噪聲干擾,難以高效協調圖像理解與生成任務。
?
為應對這些挑戰,Orthus 提出了一種創新框架。在輸入端,Orthus 采用了一個可微分的視覺嵌入模塊,它通過“軟嵌入”技術直接處理連續的圖像特征,從根本上規避了傳統矢量量化所導致的信息瓶頸。這些無損的視覺特征與文本標記一同被送入一個統一的自回歸Transformer主干進行建模。在輸出端,模型則通過兩個模態特定的頭部來生成內容:一個是常規的語言模型頭用于預測離散文本,另一個是新穎的擴散頭用于生成連續的圖像特征。這種輸入無損、統一處理、輸出分離的架構,不僅保留了輸入的完整信息,還巧妙地繞開了其他混合模型中的噪聲干擾問題,能夠以完全自回歸的方式直接、靈活地刻畫圖文模態間的復雜關聯。實驗結果表明,Orthus 不僅在多個視覺理解指標上超越了Chameleon和Show-o等競爭模型,還在圖像編輯、圖文交錯生成等任務上展現了強大的能力。我們的代碼已開源。
?
?
論文07:Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion
?
| 論文鏈接:??https://arxiv.org/abs/2505.08281??
| 論文簡介:現有的基于多模態大模型的圖像壓縮框架通常依賴語義檢索、潛空間壓縮、生成模型的"碎片化"集成,一方面重建保真度不符合編碼壓縮領域的需求,另一方面也會導致編碼效率的降低。為解決這些問題,我們聯合南京大學提出了基于殘差的超低碼率圖像壓縮方法ResULIC (Residual-guided Ultra lowrate Image Compression)。該方法引入語義殘差編碼、壓縮感知擴散模型,兼顧了壓縮效率和重建保真度,在超低碼率限制下,生成了超高保真度、細節紋理豐富的圖像。具體來說,圖像首先經過特征壓縮將圖像映射到潛空間,得到其潛在特征表示。隨后語義殘差編碼部分通過分析解碼圖像和原始圖像生成優化描述。這個過程中,為進一步提升重建質量,還應用了感知保真優化器(Perceptual Fidelity Optimizer)。最后,我們提出了壓縮感知擴散模型CDM,將文本信息和壓縮后的圖像信息融合成條件信號,通過CDM擴散模型,獲取最終輸出的重建圖像。本文提出的算法在客觀指標和主觀視覺質量上,均優于現有的SOTA方法,和前序同樣使用基于Diffusion的SOTA算法PerCo對比起來,ResULIC在LPIPS和FID上分別實現了80.7%和66.3%的BD-rate節省。
?
?
論文08:VARSR: Visual Autogressive Modeling for Image Super Resolution
?
| 論文鏈接:??https://arxiv.org/abs/2501.18993??
| 論文簡介:圖像超分辨率(Image Super-Resolution, ISR)作為提升圖像清晰度與細節還原的重要技術,近年來在生成模型的推動下取得了顯著進展。盡管如此,如何在圖像的真實感與保真度之間取得平衡,以及高昂的計算成本,仍是制約其廣泛應用的關鍵難題。受自然語言領域自回歸生成模型成功經驗的啟發,我們提出了一種新穎的視覺自回歸超分辨率方法VARSR(Visual AutoRegressive modeling for image Super-Resolution),通過逐尺度預測(Next-Scale Prediction)的方式,從低分辨率圖像逐步構建高質量圖像。為了更好地保留圖像的語義信息,我們引入了前綴標記(Prefix Tokens)作為條件引導機制。同時,我們設計了尺度對齊的旋轉位置編碼(Scale-Aligned Rotary Positional Encoding),用于更有效地建模圖像的空間結構。為進一步提升圖像細節的還原能力,我們在生成過程末端引入了Diffusion Refiner模塊,用于精細建模量化殘差,實現像素級保真重建。此外,我們還提出了一種基于圖像的無分類器引導機制(Image-based Classifier-Free Guidance),在不依賴外部分類器的情況下,有效提升生成圖像的真實感。實驗結果表明,VARSR不僅在圖像保真度和真實感之間實現了更優的平衡,還在效率上優于傳統的擴散式(Diffusion-based)方法,展現出強大的生成能力和廣闊的應用潛力。
?
結語
作為一家以人工智能為核心驅動和技木依托的科技公司,快手致力于不斷深化研發投入,將技術作為強勁引擎,驅動業務的迅猛增長。同時,快手將在人工智能領域持續探索,將前沿科技在業務場景中落地應用。欲了解更多關于論文的詳盡內容及深度解讀,敬請密切關注快手技術公眾號的后續推文。
?
