RD-Agent(Q):數據驅動的多智能體自動化量化策略框架
金融市場是高維非線性動態系統,具有重尾、時變波動和復雜的橫截面依賴性,導致預測難度增加。金融市場的資產回報預測面臨高維度、非平穩性和持續波動性等挑戰。現有的定量研究流程自動化程度低、可解釋性弱、各關鍵組件協調性差。
本文提出RD-Agent(Q),一個數據驅動的多代理框架,旨在自動化量化策略的研發。RD-Agent(Q)實現端到端自動化,增強可解釋性,降低幻覺風險。RD-Agent(Q)在研究階段通過結構化知識森林模擬分析師工作流程,生成高質量假設。在開發階段,Co-STEER作為知識進化代理,提升數據中心任務的代碼生成準確性和效率。
RD-Agent(Q)在真實股市實驗中,成本低于$10時,年化收益率(ARR)約為基準因子庫的2倍,且使用因子減少70%以上,超越了小資源預算下的深度時間序列模型。
摘要
金融市場的資產回報預測面臨高維度、非平穩性和持續波動性等挑戰。現有的定量研究流程自動化程度低、可解釋性弱、各關鍵組件協調性差。本文提出RD-Agent(Q),一個數據驅動的多代理框架,旨在自動化量化策略的研發。RD-Agent(Q)分為研究階段和開發階段,研究階段設定目標、形成假設并映射任務,開發階段通過Co-STEER生成代碼并進行市場回測。兩個階段通過反饋機制連接,使用多臂老虎機調度器進行自適應方向選擇。RD-Agent(Q)在實際市場中實現了比經典因子庫高出2倍的年化回報,且使用的因子減少70%。其聯合因子-模型優化在預測準確性和策略穩健性之間取得良好平衡。
簡介
金融市場是高維非線性動態系統,具有重尾、時變波動和復雜的橫截面依賴性,導致預測難度增加。資產管理行業正從經驗驅動轉向數據驅動,量化投資因高效決策、可重復執行和追求超額收益而日益普及。
現代量化研究流程通過微軟的Qlib項目簡化數據處理和回測,重點轉向因子挖掘和模型創新。因子挖掘從傳統模型發展到進化符號回歸和強化學習優化,模型創新則從經典自回歸演變為機器學習和深度學習架構。股票特定模型利用圖神經網絡捕捉股票間互動,LLM和多智能體系統從新聞和社交網絡提取信號。當前量化研究面臨三大限制:自動化程度低、可解釋性差、優化過程碎片化。
本文提出RD-Agent(Q),一個數據驅動的多智能體框架,自動化全棧量化策略開發,支持因子與模型的協同優化。RD-Agent(Q)實現端到端自動化,增強可解釋性,降低幻覺風險。RD-Agent(Q)在研究階段通過結構化知識森林模擬分析師工作流程,生成高質量假設。在開發階段,Co-STEER作為知識進化代理,提升數據中心任務的代碼生成準確性和效率。
RD-Agent(Q)在真實股市實驗中,成本低于$10時,年化收益率(ARR)約為基準因子庫的2倍,且使用因子減少70%以上,超越了小資源預算下的深度時間序列模型。交替因子-模型優化實現了預測準確性與策略穩健性之間的良好平衡。
相關工作
傳統定量研究方法依賴于人造因子(如價值和動量),缺乏適應性。符號回歸和遺傳編程自動化因子挖掘,增強信號多樣性和有效性。強化學習將因子配置視為序列決策,優化夏普比率,但在市場變動下缺乏穩健性和可解釋性。早期模型(如ARIMA和指數平滑)對高維噪聲數據表現不佳,經典機器學習方法需手動特征工程。深度學習(如LSTM和Transformer)捕捉長期和橫截面依賴,專用時間序列神經網絡如PatchTST和iTransformer進一步提升預測能力。現有因子和模型流程孤立且依賴專家,限制了在波動市場中的可擴展性。
大語言模型(LLMs)在金融研究中提供自動化機會,能提取預測信號和生成因子解釋。LLM基礎的多代理系統(如FinAgent和TradingAgents)用于復雜決策,但多集中于狹窄子任務,易產生幻覺且難以重現。現有系統缺乏聯合因子-模型優化和工作流程整合機制,限制了在實際定量系統中的有效性。
RD-Agent(Q)
本文提出RD-Agent(Q),一個數據驅動的多智能體框架,用于迭代因子模型研發,具備自動化、可解釋性和高效性。量化過程分為五個緊密耦合的單元:規范、合成、實施、驗證和分析,形成閉環循環,模擬人類研究者的試錯過程。RD-Agent(Q)持續自主運行,支持因子和模型組件的動態共同優化。每輪的假設、實施和結果被持久存儲,促進知識積累和決策的逐步優化。
規格單元
規格單元是RD-Agent的頂層組件,動態配置任務上下文和約束,確保設計、實施和評估的一致性。其運作沿兩個軸線:理論(編碼假設、數據模式和輸出協議)和經驗(建立可驗證的執行環境和標準化接口)。
規格單元形式化為元組S = (B, D, F, M),其中B為背景假設,D為市場數據接口,F為預期輸出格式,M為外部執行環境。任何候選因子或模型f θ需滿足條件:? , x ∈ D, ; f θ (x) ∈ F且f θ可在M中執行,確保與標準輸入/輸出結構兼容,支持模塊間的協作一致性和可重復性。
合成單元
合成單元通過歷史實驗生成新假設,模擬人類推理。當前優化動作定義為t ∈ {factor, model},并構建實驗軌跡。第t個實驗表示為e_t = {h_t, f_t},其中h_t為假設,f_t為反饋。維護當前最佳解決方案集SOTA,定義歷史假設和反饋集H_t和F_t。提取與動作相關的子集。
生成映射函數G結合理論先驗和經驗反饋生成新假設h(t+1),確保假設可執行且科學合理。在因子生成任務中,h(t+1)考慮最新反饋、市場條件和經濟理論,確保因子的有效性和可觀察性。生成機制根據性能反饋調整策略,成功時增加復雜性,失敗時進行結構調整或引入新變量,形成“想法森林”。
假設h(t)被具體化為任務t(t),下游模塊用于代碼實現。因子假設h_factor(t)可分解為多個子任務t_factor(i),而模型假設h_model(t)映射為單一任務t_model,執行整個建模和推理流程。
實施單元
實施單元負責將合成單元生成的可執行任務轉化為功能代碼,核心在于RD-Agent(Q)的復雜開發。設計了專門的代理Co-STEER,支持定量研究中的因子和模型開發,確保實現的正確性、效率和適應性。
因子開發中任務存在結構依賴,采用引導性思維鏈機制,構建有向無環圖(DAG)表示任務依賴關系。通過拓撲排序指導任務執行,調度過程具有適應性,反饋機制用于優化計劃,優先處理簡單任務以提高成功率。
實施代理I根據任務描述和知識庫生成代碼c j,過程包括任務解析、代碼合成、執行和驗證。目標是最大化累積實施質量π I,通過評估代碼的正確性和性能RI(c j)。知識庫K記錄成功和失敗的任務-代碼-反饋三元組,更新方式為K(t+1) = K(t) ∪ {(t j, c j, f j)}。通過知識轉移機制,代理可以根據當前反饋從知識庫中檢索相似任務的解決方案,提高新任務代碼生成的效率和成功率。
反饋驅動的優化循環持續提升代碼質量和效率,促進定量研究組件的快速和穩健開發。
驗證單元
驗證單元評估實施單元生成的因子或模型的實際有效性。對新因子進行去重處理,通過與現有SOTA因子庫的相關性計算。計算因子矩陣F的IC值,篩選出IC值最大≥0.99的新因子,認為其冗余。剩余因子與當前SOTA模型結合,通過Qlib回測平臺評估性能。模型評估過程對稱,候選模型與當前SOTA因子集配對進行回測。驗證單元提供集成化、自動化的標準化評估管道,支持生產級市場模擬環境。
分析單元
分析單元在RD-Agent(Q)框架中擔任研究評估和策略分析的角色,評估假設、任務和實驗結果。若實驗結果優于當前SOTA,則將結果添加至相應的SOTA集合,并診斷失敗策略,生成改進建議。
分析單元與合成單元互動,形成閉環系統,平衡短期響應與長期探索。每輪分析后,決定優先進行因素優化或模型優化,采用上下文兩臂賭博問題,通過線性湯普森采樣解決。
系統觀察8維性能狀態向量,評估每個動作的預期收益,選擇收益最高的動作執行,并更新后驗分布。通過上下文湯普森采樣機制,RD-Agent(Q)自適應平衡探索與利用,提升迭代性能。
實驗
實驗設置
數據集:使用CSI 300數據集,涵蓋300只大型A股,時間分為訓練(2008年1月1日-2014年12月31日)、驗證(2015年1月1日-2016年12月31日)和測試(2017年1月1日-2020年8月1日)。
RD-Agent(Q)的三種配置:
- RD-Factor:固定預測模型為LightGBM,優化因子集(起始于Alpha 20)。
- RD-Model:固定因子集為Alpha 20,尋找更好的模型。
- RD-Agent(Q):同時優化因子和模型。
基線比較:因子層面比較Alpha 101、Alpha 158、Alpha 360和AutoAlpha;模型層面包括多種機器學習和深度學習模型(如Linear、MLP、XGBoost、GRU等)。
評估指標:因子預測指標(信息系數IC、IC信息比率ICIR等)和策略表現指標(年化收益ARR、信息比率IR、最大回撤MDD等),采用基于預測收益排名的日常多空交易策略。
實驗分析
RD-Agent在CSI 300數據集上表現優于所有基線模型,尤其在預測和戰略指標上。
RD-Factor通過動態優化因子空間,超越靜態因子庫,IC高達0.0497,ARR提升至14.61%。RD-Model在固定因子下表現最佳,Rank IC為0.0546,MDD為-6.94%,顯示出機器學習模型在捕捉金融噪聲和非線性模式上的局限。RD-Agent(Q)通過聯合優化因子和模型,達到最高性能,IC為0.0532,ARR為14.21%,IR為1.74,顯著超越強基線方法。
RD-Factor的因子假設演變分析顯示探索與利用的平衡,采用文本嵌入、相似性矩陣和層次聚類方法。
研究發現多樣化路徑產生協同效應,最終選入8個試驗,涵蓋5個聚類,支持高效的深度搜索和概念覆蓋。
Co-STEER在RD-Agent(Q)框架下的pass@k準確率評估顯示,其在模型任務和全棧任務中快速收斂,o3-mini在復雜任務中表現出更高的恢復率,體現了其強大的鏈式推理能力。
RD-Factor在因子生成方面表現優異,使用22%因子時,IC水平與Alpha 158和Alpha 360相當,且在2019-2020年間保持穩定,顯示出迭代因子優化的有效性。
RD-Model在ARR、MDD和資源使用方面優于基線模型,RD-Model GPT-4o和o3-mini在風險收益比上表現突出。
RD-Agent(Q)對LLM后端的敏感性評估顯示,o1在多個指標上表現最佳,GPT-4.1緊隨其后,整體框架在不同LLM后端上表現穩健。
RD-Agent(Q)的成本低于$10,驗證了其成本效益和可擴展性。
總結
RD-Agent(Q)是一個基于LLM的量化金融協作因子模型開發框架,支持模塊化組件和基于帶寬的調度器,能在固定計算預算下高效迭代。實證結果顯示,RD-Agent在信號質量和策略表現上優于基線,具備良好的成本效率和可推廣性。模塊化設計使其適應真實世界環境,但目前依賴LLM的內部金融知識。
未來工作可增強數據多樣性、引入領域先驗,并實現在線適應市場變化。用戶需自行準備金融數據,獨立評估和測試生成因子及模型的風險,使用時需謹慎。
RD-Agent(Q)不提供金融意見,不能替代合格金融專業人士的角色,輸出不代表微軟的觀點。
?本文轉載自????靈度智能??,作者:靈度智能
