上網行為管理產品選購的核心技術
【51CTO.com綜合報道】根據核心技術選型會使自己不迷失在各種花邊功能中,因為核心本身數量就不多,但同時又很能說明實力。
上網行為管理產品的確是有互聯網管理的好幫手,但是個人感覺選型過程對IT部門來說都會是一個比較頭痛的事情,因為這類設備干的是應用層的活,沒有RFC或者IETF可以參考,所以功能琳瑯滿目。
從功能提供上判斷只是第一步的工作,因為各個廠商所提供的未必真能做得到;小流量測試做到的,大流量的生產環境下未必還能有效。此時就需要能夠透過現象看本質,考察其核心技術的實現能力和成績。畢竟核心技術的提升不是一蹴而就的事情,能把核心技術做到較強說明其研發實力和后期的改進能力也會比較強。
通過一段時間,與幾家國內外廠商的接觸,筆者現在基本了解了這類產品的工作機理和一些核心技術,下面就我的理解來談談該從哪些核心技術入手,如何簡單地評判這些核心技術的好壞。
一、用戶識別與認證背后的核心技術:
透明識別和聯動認證技術
機理就是通過對攜帶用戶信息的報文進行解析,從中準確地抽取出用戶信息,作為上網者的身份。他的難點在于多種認證報文并存時要能夠逐一地識別出來是比較難的,其中最難的應該是對PPPOE賬號的提取,因為他畢竟不是標準的以太網格式。
為什么這是一個核心技術?因為這個技術需要大量的客戶積累才能完成,數量越多說明核心技術越強,畢竟廠商一般不會自己編一個聯動認證出來,是需要較多的客戶提出后才會去做的。
為了驗證這一點筆者特意安裝了一個Load Runner來模擬海量的認證報文撥測了各個產品(切忌這個環節千萬不可以單用戶測試,你肯定不想周一的早晨電話被打爆),效果區分比較明顯,各位IT同仁有興趣可以自己試一下
當然如果覺得Load Runer 麻煩還有一個偷懶的方法,那就是看運營商采用哪個產品多。因為運營商很注重4A,并且對性能要求高,運營商認為認證可用,那你的也應該可用。
二、網頁識別與過濾背后的核心技術:
網頁分類技術、網頁分類庫
實現機理是廠商自己建立一個搜索引擎爬蟲,每天到處爬網站。對爬下來的網站進行語義分析之后歸檔到自己的分類庫,在設備中引用。
為什么說這個技術是核心技術?因為這個技術是目前網頁過濾領域公認的比較靠譜的技術,是網頁過濾的基石。目前國外做的比較好的是Websense,國內做的比較好的是網康。經過了解后發現,這個技術實現起來還是比較難的,因為爬大量的網站并且能夠進行語義分析都是需要人力、財力和時間積累,不是幾天能夠做的出來的。
當然這也有一個偷懶的方法,那就是看看廠商標注URL分類庫的大小,越大的肯定經營的時間越長,積累越多,一個產品不好的廠商很難投入人力,財力來搞這個東西。目前了解到的的最大庫應該是網康的2000萬條。
這里還要說明一些選型誤區
其一:有些廠商說URL庫沒有用,說他們的設備可以實時、智能地基于網頁內容判斷是否應該過濾,我可以告訴大家這是騙人的。因為經過刨根問底,發現他們用的就是關鍵字匹配技術,這個技術估計一個剛畢業的學生2天就可以編出來。但關鍵字根本無法識別語義,哪敢用啊。如果關鍵字匹配要是真的能和搜索引擎分類技術平起平坐,那估計中國早就有幾千個百度了。
其二:有些廠商說他們可以過濾HTTPS網站,經過單機測試還真可以用。但采用Load Runner測試時就發現性能急劇下降。原因就是因為這是一個中間人代理技術,效率極低。而且更重要的一點是僅僅接了5個同事的網進行Gmail審計,結果每個人都問我,你是不是搞什么東西了,Gmail不斷地彈出提示框說證書不合法,收發一封信要點十幾次鼠標進行確認。這要是讓業務部門發現了還不投訴到天黑。
經了解其實URL庫大的廠商他們也都能做這些,但是他們并沒有把這個當成亮點,還比較厚道。
三、應用識別與控制背后的核心技術:
DPI、DFI、應用協議庫
這個核心技術的機理就是從不加密的報文中找到明文特征字來標識一個應用,對加密的報文找到數據流的模型特征,例如包長,連接數等。最近還聽說網康提出了一個XAI 技術,說是可以根據P2P的文件類型進行流控,這個還挺有意思。
衡量這個核心技術的好與壞也很簡單,一方面看應用庫的大小,另一方面看應用庫中每個應用彼此獨立,因為有些廠商協議庫號稱800多,但是一個QQ傳文件就45個協庫列表,這個很不靠譜。
核心技術選型小錦囊:
1-不要輕信單機測試:因為很多花哨的功能單機測試都可以,但大規模應用后設備可能不可用。
2-關注需要長期積累才能見成效的關鍵技術:
a)看透明用戶識別的種類:用Load Runner測試,了解運營商大量使用哪個產品
b)看網頁過濾效果:用Load Runner測試,比較URL庫的數量,看廠商公示的更新頻率。因為這個是不專業產品難以短時間做出來的。
c)看應用過濾效果:應用協議庫數量,協議間的獨立性,看廠商公示的更新頻率。能夠識別P2P文件類型更好。
d)看外發內容過濾效果:關注關鍵字的數量,是否可以建立超過1000個以上的關鍵字庫,并且外發信息沒有明顯時延
3-不要被引入理論上的誤區:
a)貶低URL庫,高調宣傳實時網頁關鍵字匹配。關鍵字匹配網頁最終的結果就是什么都管不了
b)強力推銷HTTPS網頁過濾。這個可以有,但是大規模用起來后,你的電話就會被打爆
c)貶低X86,推崇NP,ASIC。固然后兩者是性能很強勁,但是那時路由器交換機用的技術。到了應用層,帶來的就是無法快速更新協議庫,網頁庫。并且大量的應用被誤識別。
希望本文能夠對各位IT同仁有一個對上網行為管理選型的有一定的幫助。