DeepSeek開源模型重塑法證審計,個人本地做RAG+微調,25年多試試
全球82億人口,網民55.6億,而ChatGPT坐擁3.5億全球月活,滲透率算下來也有6%左右了。但這還是DeepSeek-R1開源之前的故事。1/20 開源以來,DeepSeek-R1屬實又硬拉高了一大波全球 AI的滲透率,或者換句話說,是解鎖了更多的應用場景。
其實,本來就有個爛大街的共識是,截止 24 年年底大模型的tokens成本已經足夠低、基座模型的智能程度也已經足夠高,25年是可預見的AI Agent爆發的一年。也就是預計會在更個細分領域和細分場景上,涌現一批一大堆專注于特定任務的智能體。現在看起來,這個共識似乎已經開始變成常識了。
Anyway,這篇來給各位介紹一個基于DeepSeek本地部署模型(或商用 API)的自動化法證郵件分析系統。源碼已在Github 開源,項目地址是:https://github.com/weiwill88/Email_audit, 歡迎大家試用后交流。
1、開發背景
開發的起點是,一個小紅書上的盆友來咨詢說,自己做法證審計經常需要查閱嫌疑人的工作郵箱,但是目前主要是人工根據經驗設計關鍵詞去做郵件過篩,然后再人肉的看完過去兩年左右的郵件。當然,還需要根據蛛絲馬跡來梳理線索,so 問了下是否能用DeepSeek自動完成這個過程。我當時直接回復說,這個沒有 deepseek也能干,后來在實際做的過程中又想了下,可能也不是。
一年期用 Claude 3 或者 GPT 4o確實能力上沒問題,但問題是 API 貴啊。那當時能否部署開源模型到本地呢,既不要錢還保證信息安全,也不是不行,只是普通電腦如果只有集成顯卡,基本也就跑個7b,這個尺寸下原有的開源模型比較拉胯,效果很差,那還不如不用。
現在的變化是,DeepSeek-R1蒸餾過的幾個小尺寸模型也已五臟俱全,湊活下也能用。至少針對核心敏感數據的本地處理可以應付下,大批量的脫敏數據條件允許下,也可以考慮使用商用API 來加快下速度。另外用 DeepSeek 的GRPO 方法也可以選擇對本地部署的小尺寸模型進一步進行微調,可以使用 Unsloth工具,7G顯存就能微調小尺寸模型。用自己的數據打造專屬模型,本也是本地部署的終極意義。
言歸正傳,Unsloth 微調的教程和案例后續再發文,接下來先介紹下這個項目本身。
2、項目定位
本系統旨在利用大語言模型實現對被分析對象 outlook 郵箱中海量郵件的自動化分析和快速摘要,幫助法證審計人員迅速捕捉郵件中的蛛絲馬跡,降低人工篩查工作量。特別針對長期郵件(如員工兩年內的全部郵件)進行重點優化,實現自動摘要、疑點提示及重點預警功能。
3、郵件模擬
本來是拿自己的 outlook 郵箱來做的樣例去試代碼邏輯,但發現我只有充斥著廣告的收件箱,發件箱幾乎為空,完全不具備代表性。于是,就用 DeepSeek-r1 按照法證審計中的一些風險要點,去模擬了一個案例,然后再用 Deepseek-V3 生成了具體的模擬郵件內容(100 封)。
看完這個模擬郵件的設計文檔和生成郵件結果,我忽然也發現,我其實很多項目的數據樣例都可以讓 DeepSeek-r1 來生成,這樣或許測試數據還具備代表性。
4、快速開始
4.1 環境要求
Python 3.8+、DeepSeek API Key(默認模式)或 Ollama(離線模式)
4.2 安裝依賴
pip install -r requirements.txt
4.3 模型選擇
本項目支持兩種模式運行:
1. 在線模式(默認,推薦)
使用 DeepSeek V3 API:
? 優點:分析速度更快(約 5-10 倍)結果更準確無需本地部署資源占用少
?? 注意事項:需要聯網需要 API 密鑰郵件內容會發送至 API 服務器
配置方法:
在 .env 文件中設置你的 API 密鑰:
DEEPSEEK_API_KEY=你的密鑰
DEFAULT_MODEL=deepseek_api
2. 離線模式
使用本地 Ollama 模型:
? 優點:完全離線運行數據本地處理無需 API 密鑰
?? 注意事項:需要較高配置(建議至少 16GB 內存)首次運行需要下載模型(約 7GB)分析速度較慢
配置方法:
安裝 Ollama:https://ollama.ai/ ( https://ollama.ai/ )
下載模型:
ollama pull deepseek-r1:7b
在 .env 文件中修改配置:
DEFAULT_MODEL=ollama
OLLAMA_MODEL=deepseek-r1:7b
4.4 數據安全說明
在線模式(DeepSeek API):郵件內容會通過 HTTPS 發送至 API 服務器建議處理敏感數據時使用離線模式 API 提供商承諾不存儲用戶數據
離線模式(Ollama):所有數據本地處理無需網絡連接適合處理敏感信息
5、系統流程
5.1 使用方法
PST 文件解析:
python pst_parser.py
將自動解析指定路徑下的 PST 文件,生成 CSV 格式的郵件元數據。
郵件分析:
python email_analyzer.py
默認使用 DeepSeek API 進行分析。如需切換到離線模式:
python email_analyzer.py --model ollama
對解析后的郵件進行智能分析,生成審計報告。
5.2 配置說明
程序會自動在當前目錄的 output 文件夾下查找 metadata_report.csv 文件。 請確保 PST 解析后的文件被保存在正確的位置。
公司郵箱配置
在 .env 文件中設置公司郵箱域名:
COMPANY_DOMAIN=你的公司郵箱域名
此配置用于識別外部郵件,這是風險評估的重要指標。如果有多個域名,可以用逗號分隔。
6、輸出示例
6.1 時間線分析
6.2 關系網絡
6.3 審計報告
風險等級分布、關鍵發現列表、詳細分析結果、建議措施
7、后續迭代計劃
生成的報告還要經過很多完善才可能能用,計劃后續結合前期介紹的 RAG 智能對話系統,可以針對特定問題進行全量郵件的檢索回答。
1. 郵件向量化與存儲
基于 ChromaDB 構建本地向量數據庫實現增量數據更新機制支持多維度向量索引(正文、主題、時間等)優化向量壓縮和檢索性能
2. 智能問答系統
實現基于上下文的多輪對話支持復雜查詢和條件過濾添加時間范圍和關鍵詞篩選集成實體識別和關系提取
3. 深度分析功能
郵件線索追蹤和關聯分析人物關系圖譜構建事件脈絡自動梳理異常行為模式識別(完)