成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟發布Code Researcher:用于大型系統代碼與提交歷史的深度研究智能體

譯文 精選
人工智能
最近,關注焦點進一步轉向如何讓這些智能體處理更復雜的挑戰,尤其是那些與規模大、復雜度高的軟件環境相關的問題。其中包括基礎系統軟件,相關變更不僅需要理解當前代碼,還需要了解其架構上下文、相互依賴項以及歷史演進過程。

譯者 | 核子可樂

審校 | 重樓

系統軟件調試中自主編碼智能體的興起

隨著大語言模型的出現,AI在軟件開發中的應用逐漸受到關注。這些模型顯示出執行編碼相關任務的能力,進而讓能夠協助甚至自動化傳統僅可由人類開發者完成的任務的自主編碼智能體成為可能。這些智能體涉及簡單的腳本編寫器乃至復雜的系統,能夠導航代碼庫并診斷錯誤。

最近,關注焦點進一步轉向如何讓這些智能體處理更復雜的挑戰,尤其是那些與規模大、復雜度高的軟件環境相關的問題。其中包括基礎系統軟件,相關變更不僅需要理解當前代碼,還需要了解其架構上下文、相互依賴項以及歷史演進過程。因此,行業對于構建能夠在最少人工干預下進行深入推理并合成修復或更改的智能體產生了濃厚興趣。

大規模系統代碼調試的挑戰

更新大規模系統的代碼是一項多維度的挑戰。由于其固有的規模、復雜性和歷史深度,這類系統(如操作系統和網絡堆棧)往往由數千個相互依賴的文件組成,并經過數十年間眾多貢獻者的優化。這導致底層實現經歷高度優化,即使是最小的更改也可能引發連鎖反應。此外,這些環境中的傳統bug描述通常以原始崩潰報告和堆棧跟蹤的形式呈現,通常缺乏指導性的自然語言提示。

因此,在此類代碼中診斷和修復問題需要深入的上下文理解。這不僅要求掌握當前代碼的邏輯,還需要了解其過去的修改和全局設計約束。正是因為對廣泛的推理能力的依賴,大多數編碼智能體一直難以實現對這類系統的自動化診斷和修復。

現有編碼智能體在系統級崩潰中的局限性

目前流行的編碼智能體,如SWE-agent和OpenHands,可利用大語言模型進行自動化bug修復。然而,它們主要專注于較小的應用級代碼庫。這些智能體通常依賴于人類提供的結構化問題描述來縮小搜索范圍并提出解決方案。

像AutoCodeRover這樣的工具則使用基于語法的技術探索代碼庫。它們通常局限于特定語言,如Python,并避免涉及系統級的復雜性。此外,這些方法都沒有納入來自提交歷史的代碼演進洞察,而這對于處理大規模代碼庫中的遺留bug至關重要。雖然已有少數方法使用啟發式規則進行代碼導航或編輯生成,但它們無法在代碼庫中進行深入推理并考慮歷史背景,這限制了它們在解決復雜系統級崩潰時的實際效果。

Code Researcher:微軟推出的深度研究智能體

微軟研究院的研究人員推出了Code Researcher,這是一種專門針對系統級代碼調試的深度研究智能體。與之前的工具不同,該智能體不依賴預定義的缺陷文件知識,并完全以無輔助模式運行。它在Linux內核崩潰基準測試和多媒體軟件項目上進行了測試,旨在評估其通用性。

Code Researcher在設計上具備執行多階段策略的能力。首先,它通過各種探索性操作分析崩潰上下文,例如符號定義查找和模式搜索。接下來,它會根據積累的證據合成補丁解決方案。最后,它通過自動化測試機制驗證這些補丁。該智能體會利用工具探索代碼語義、識別函數流程并分析提交歷史。這是其他同類方案中缺失的一項關鍵創新。通過這一結構化過程,代理不僅可以充當bug修復者,還作為自主研究員。它先期收集數據并形成假設,而后才實際介入代碼庫。

三段式架構:分析、合成與驗證

Code Researcher的運作被分解為三個明確的階段:分析、合成和驗證。在分析階段,智能體開始處理崩潰報告并啟動迭代推理步驟。每個步驟包括調用工具搜索符號、使用正則表達式掃描代碼模式,并探索歷史提交消息和差異。例如,智能體可能會在完整的過往提交清單中搜索“內存泄漏”一詞,以了解可能導致不穩定性的代碼變更。它構建的記憶具有結構,其中記錄所有查詢及其結果。

當確定已收集到足夠的相關上下文時,它將轉入合成階段。在此階段,它會過濾掉無關數據,并通過從分解在多個文件中識別出一個或多個潛在故障片段生成補丁。在最終的驗證階段,這些補丁會針對原始崩潰場景進行測試,以驗證其有效性。只有經過驗證的解決方案才會被推薦使用。

在Linux內核和FFmpeg上的基準性能

在性能方面,Code Researcher相比其前身取得了顯著提升。在kBenchSyz基準測試中(一個由Syzkaller模糊測試生成的279種Linux內核崩潰集合),在使用GPT-4o并設置5條軌跡執行預算的情況下,Code Researcher解決了58%的崩潰問題。相比之下,SWE-agent的解決率為37.5%。平均而言,Code Researcher每條軌跡探索了10個文件,遠高于SWE-agent的1.33 個文件。

在90個案例子集中,在兩款智能體均修改了所有已知缺陷文件的情況下,Code Researcher解決了61.1%的崩潰問題,而SWE-agent的解決率為37.8%。此外,僅在補丁生成步驟中使用 o1(一種注重推理的模型)時,其解決率仍保持在 58%。這進一步證實了強大的上下文推理極大地提升了調試效果。該方法還在開源多媒體項目FFmpeg上進行了測試。在10個報告的崩潰中,其成功生成了7個防止崩潰的補丁,展示了其在內核代碼之外的廣泛適用性。

Code Researcher項目的關鍵技術要點

  • 平均每條軌跡探索10個文件,而基線方法僅為1.33個文件。
  • 即使是在缺少預先指導的情況下,此智能體發現缺陷文件的能力同樣出色。
  • 創新地使用提交歷史分析,增強了上下文推理。
  • 適用于新的領域,如FFmpeg,在10個報告的崩潰中解決了7個。
  • 使用結構化記憶保留和篩選上下文以生成補丁。
  • 表明深度推理智能體即使在擁有更多計算資源的情況下,性能同樣優于傳統智能體。
  • 通過實際重現崩潰的腳本驗證補丁,確保實際有效性。

結論:邁向自主系統調試的重要一步

概括來講,這項研究展示了在大規模系統軟件自動化調試方面的重大進展。通過將bug解決視為一個研究問題,配合探索、分析和假設檢驗,Code Researcher展示了未來自主智能體在復雜軟件維護中的發展方向。

它避免了先前工具的缺陷,能夠自主運行、全面檢查當前代碼及其歷史演變,并合成經過驗證的解決方案。在解決率上的顯著提升,特別是在像FFmpeg這樣的陌生項目中,證明了所提出方法的健壯性和可擴展性。這表明軟件智能體不僅可以是被動響應者,還可以作為調查助手,在以往被認為過于復雜而無法自動化的環境中做出強有力的智能決策。

原文標題:Microsoft AI Introduces Code Researcher: A Deep Research Agent for Large Systems Code and Commit History,作者:Asif Razzaq

責任編輯:姜華 來源: 51CTO
相關推薦

2024-06-04 08:30:32

2025-01-09 12:32:57

2024-08-13 08:09:34

2025-04-25 08:55:00

2024-05-22 10:44:47

2017-10-26 13:54:49

深度學習SparkMMLSpark

2019-07-23 08:47:28

2024-02-27 10:36:10

2011-09-08 09:27:36

AMD推土機HPC

2025-03-14 08:14:44

2021-09-02 09:33:55

微軟代碼編輯器Web

2014-09-12 10:18:53

微軟

2025-05-20 09:12:00

2025-06-24 09:08:31

2024-10-18 15:20:00

2024-07-08 09:49:54

2022-01-24 17:47:10

微軟AIOps智能運維
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91传媒在线观看 | 91porn国产成人福利 | 看av电影| 亚洲在线一区 | 高清成人av | 午夜tv免费观看 | 日本黄色一级视频 | 日韩一区二区三区精品 | 黄色av一区 | 国产精品免费一区二区三区四区 | 国产黄色精品在线观看 | 国产成人精品a视频一区www | 亚洲精品国产a久久久久久 午夜影院网站 | 精品一区二区在线观看 | 秋霞精品 | 日韩免费网站 | 在线视频a | 亚洲 欧美 日韩在线 | 一区二区三区在线观看视频 | 精品久久久久久久久久久久 | 亚洲九九 | 成人网av | 一区二区在线视频 | 欧美a区 | 精品日韩一区二区 | 欧美精品一二三 | 精品一区二区三区在线观看 | 欧美精品一 | 午夜精品久久久久久久久久久久久 | 欧美激情在线精品一区二区三区 | 在线伊人 | 色综合一区二区 | 999久久久久久久久 国产欧美在线观看 | 国产日韩亚洲欧美 | 欧美国产精品 | 免费看啪啪网站 | 成人免费大片黄在线播放 | 久久久激情 | 国产精品乱码一区二区三区 | 色婷婷综合久久久中字幕精品久久 | 国产精品久久久久久久久久久久 |