成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深度探索:LLaMa-3 網絡安全能力全解析

發布于 2024-8-1 14:12
瀏覽
0收藏

隨著人工智能技術的迅速發展,大模型在處理各種復雜任務中展示出了卓越的能力。特別是在網絡安全領域,大模型的應用潛力巨大,它們可以幫助自動化處理大量數據、識別潛在威脅和提供安全建議。

然而,新型大模型層出不窮,要有效利用這些模型,首先必須驗證它們在理解和處理網絡安全相關問題上的能力。

4 月 19 日凌晨,Meta 開源了新一代 LLaMa-3 模型。作為當前最受矚目的大語言模型之一,LLaMa-3 在網絡安全領域的表現到底怎樣?如何將 LLaMa-3 這樣的新型大模型快速應用到網絡安全問題解決中?

騰訊朱雀實驗室和騰訊安全科恩實驗室基于自研的網絡安全大模型評測平臺 SecBench,對 LLaMa-3 在網絡安全領域的能力表現進行了全面評測。

SecBench:評測網絡安全大模型的新基準

SecBench 積累了行業獨有的安全評測數據集,覆蓋多題型、多任務,支持從能力、語言、領域、安全證書模擬考試等多個維度對大模型的網絡安全能力進行評估。

深度探索:LLaMa-3 網絡安全能力全解析-AI.x社區

同時,SecBench 構建了方便快捷的評測框架,支持不同數據、不同模型快速接入評測,輸出評測結果。

深度探索:LLaMa-3 網絡安全能力全解析-AI.x社區

??https://secbe??nch.org/

LLaMa-3 網絡安全能力評測結果分析

SecBench 對 LLaMa-3 小參數量模型進行了全面評測,同時與上一代 LLaMa-2 進行了對比。綜合來看,LLaMa-3 的網絡安全能力相較于上一版本有顯著提升。

能力維度

能力維度主要從大模型通用能力的視角,評估大模型對網絡安全知識的記憶能力、邏輯推理能力和理解表達能力。在網絡安全綜合能力上,LLaMa-3 相較于 LLaMa-2 有較大提升(相對提升>44%);從各個細分能力維度上看,如對網絡安全知識的記憶能力、邏輯推理能力、理解表達能力等,LLaMa-3 也有較明顯的提升。特別是在對網絡安全知識的理解表達能力上,Llama-3-8B-Instruct 模型提升最為明顯。

深度探索:LLaMa-3 網絡安全能力全解析-AI.x社區

語言維度

語言維度主要評估大模型對不同語言的網絡安全知識的學習理解能力,目前覆蓋中文和英文兩種主流語言。在語言維度的測試中,LLaMa-3 相較于 LLaMa-2 同樣有較大提升。同時,可以看出,前后兩個版本的模型在英文上的能力表現都優于中文。

深度探索:LLaMa-3 網絡安全能力全解析-AI.x社區


領域維度

領域維度從垂類安全視角,評估大模型對網絡安全九個子領域問題的解決能力。細分到網絡安全各個領域,Llama-3-8B 和Llama-3-8B-Instruct 綜合能力表現相當,在“云安全”和“應用安全”兩個子領域表現最佳。

深度探索:LLaMa-3 網絡安全能力全解析-AI.x社區

安全證書考試模擬評估

安全證書考試模擬評估是 SecBench 的特色能力,支持使用信息系統審計、云安全認證、云計算安全管理等經典證書考試模擬試題,評測大模型通過安全證書考試的能力。從安全證書模擬評估上來看,LLaMa-3 已經可以通過滲透測試和信息系統審計兩類模擬評估測試,相對于 LLaMa-2 的全部不及格也有明顯改善。雖然 LLaMa-3 仍然有部分安全證書模擬考試不及格,但從分數上看,LLaMa-3 相較于 LLaMa-2 還是有很大程度上的提升。

問題示例:

深度探索:LLaMa-3 網絡安全能力全解析-AI.x社區

Llama-3-8B-Instruct 安全證書模擬評估結果:

深度探索:LLaMa-3 網絡安全能力全解析-AI.x社區

Llama-3-8B 安全證書模擬評估結果:

深度探索:LLaMa-3 網絡安全能力全解析-AI.x社區

Llama-2-7B-Chat 安全證書模擬評估結果:

深度探索:LLaMa-3 網絡安全能力全解析-AI.x社區

Llama-2-7B 安全證書模擬評估結果:

深度探索:LLaMa-3 網絡安全能力全解析-AI.x社區

綜合來看,LLaMa-3 小參數量模型的網絡安全能力相較于上一版本有明顯提升,但對比 Claude-3-Opus、GPT-4 等行業頭部大模型還有較大差距。Claude-3-Opus 與 GPT-4 在網絡安全上的綜合得分分別高達 0.816 和0.7984(更多排名請參考:secbench.org),對于幾類安全證書模擬評估也可以高分通過,LLaMa-3 的網絡安全能力還有較大提升空間。

深度探索:LLaMa-3 網絡安全能力全解析-AI.x社區

本文轉載自司南 ??司南評測體系??,作者: OpenCompass

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产日韩欧美综合 | 日本一区二区三区在线观看 | 国产精品久久久久久久久久不蜜臀 | 涩涩视频在线观看免费 | 国产精品久久久久久久久久免费 | 国产精品久久久久久久午夜片 | 精品国产乱码久久久久久丨区2区 | 丝袜一区二区三区 | 日韩人体视频 | 国产精品96久久久久久 | 亚洲一区二区在线播放 | 久久精品影视 | 久久99精品久久久久久 | 男人电影天堂 | 国产一区二区三区不卡av | 成人免费一区二区三区视频网站 | 国产精品亚洲一区 | 免费一区二区 | 天天看天天操 | 蜜桃五月天 | 国产精品久久久久一区二区 | 亚洲成人精品视频 | 国产在线精品一区二区三区 | 精品一区视频 | 久久不卡 | 国产精品特级片 | 久久精品一 | 国产精品久久久久久久一区二区 | 亚洲一区中文 | 亚洲欧美日韩一区二区 | 黄视频在线网站 | 日韩三级电影一区二区 | 久久久久久国产 | 亚洲国产成人精品女人久久久野战 | 中文字幕日韩在线观看 | 欧美黄色免费网站 | 久久免费精品视频 | 欧美色图综合网 | 五十女人一级毛片 | 欧美久久久久久久 | 欧美日韩福利视频 |