本地也能運行Deep Research!支持arXiv平臺,兼容PDF、Markdown等
今年年初,OpenAI 上線 Deep Research,開啟了智能體又一新階段,其能根據用戶需求自主進行網絡信息檢索、整合多源信息、深度分析數據,并最終為用戶提供全面深入的解答。
此后,Grok 3 及 Perplexity 等,它們都推出了類似的 Deep Research 服務。
其實,大家在驚嘆 Deep Research 能力的同時,也會擔心數據隱私等安全問題。
現在,可以本地運行的 Deep Research 來了!
我們可以將其看作一個強大的 AI 研究助手,它使用多個 LLM 和網絡搜索進行深入的、迭代的分析。該系統可以本地運行,從而保護用戶隱私,你也可以使用基于云的 LLM 以增強其功能。
目前項目已經收獲 1.4k star 量。
項目地址:https://github.com/LearningCircuit/local-deep-research
該項目具有以下特點:
先進的研究功能:
- 能夠自動進行深度研究,并在過程中提出智能的跟進問題,以確保全面理解和深入挖掘主題;
- 追蹤引用來源,并驗證其可靠性和準確性,確保信息的可信度;
- 通過多次迭代分析,該項目能夠逐步完善研究內容,確保覆蓋所有相關方面,避免遺漏重要信息;
- 分析整個網頁的內容,而不僅僅是提取片段,從而提供更全面和準確的信息。
對 LLM 靈活支持:
- 支持在本地設備上運行 AI 模型(如 Ollama),確保數據處理的高效性和隱私性;
- 兼容云端大語言模型(如 Claude,GPT),從而提供更強大的計算能力和多樣化的模型選擇;
- 能夠無縫集成和使用 Langchain 框架下的所有模型;
- 用戶可以根據具體需求選擇和配置不同的 AI 模型,以優化研究效果。
豐富的輸出選項:
- 詳細的研究結果,并附帶引用來源;
- 生成內容詳實、結構清晰的綜合研究報告;
- 提供簡潔的摘要,幫助用戶快速抓住核心信息;
- 自動追蹤信息來源并驗證其可靠性。
增強的搜索集成:
- 自動選擇搜索源:對于用戶正在查詢的內容,自動搜索引擎會進行智能分析,并根據查詢內容選擇最合適的搜索引擎;
- 集成了維基百科,方便快速獲取準確的事實性知識和百科信息;
- 支持 arXiv 平臺,便于檢索和訪問最新的科學論文和學術研究成果;
- 集成 PubMed,提供生物醫學領域的最新文獻和醫學研究資源;
- 支持 DuckDuckGo 搜索引擎,提供隱私友好的網頁搜索體驗(但可能受到速率限制);
- 通過 SerpAPI 集成,可以獲取 Google 搜索結果(需提供 API 密鑰);
- 支持 Google 可編程搜索引擎,允許用戶創建個性化的搜索體驗(需提供 API 密鑰);
- 集成 The Guardian(《衛報》),方便獲取最新的新聞文章和深度報道(需提供 API 密鑰);
- 支持通過本地 RAG 搜索對私有文檔進行搜索,確保數據隱私;
- 能夠抓取并分析整個網頁的內容;
- 提供來源過濾和驗證功能,確保搜索結果的可靠性和準確性;
- 用戶可以根據需求自定義搜索參數,優化搜索體驗。
本地文檔搜索(RAG):
- 基于向量嵌入的本地文檔搜索;
- 為不同主題創建自定義文檔集合;
- 保護隱私,用戶文檔保留在自己的機器上;
- 智能分塊和檢索;
- 兼容多種文檔格式(PDF、文本、Markdown 等);
- 自動與元搜索集成,實現統一查詢。
該項目還包括一個 Web 界面(如下所示),以提供更加用戶友好的體驗:
到底效果如何呢?我們以官方示例來說明,官方展示了一個關于核聚變能源發展的調查研究。
用戶提問:核聚變能源研究的最新進展是什么?商業核聚變什么時候可行?
然后 Deep Research 輸出了一篇可用的調查報告,內容非常詳實:
報告部分截圖
完整報告可參考:https://github.com/LearningCircuit/local-deep-research/blob/main/examples/fusion-energy-research-developments.md
通過這一示例,我們可以直觀了解到該項目在深度研究、跨領域分析和信息整合方面的強大功能。
想要上手體驗的小伙伴,可以跟著官方教程進行部署,打造屬于自己的 Deep Research 了。