成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

NLP:生動理解TF-IDF算法

發布于 2025-2-8 14:17
瀏覽
0收藏

什么是TF-IDF?

TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術,常用于挖掘文章中的關鍵詞,而且算法簡單高效,常被工業用于最開始的文本數據清洗。

TF-IDF有兩層意思,一層是"詞頻"(Term Frequency,縮寫為TF),另一層是"逆文檔頻率"(Inverse Document Frequency,縮寫為IDF)。



NLP:生動理解TF-IDF算法-AI.x社區

NLP:生動理解TF-IDF算法-AI.x社區

假設我們現在有一片長文叫做《量化系統架構設計》詞頻高在文章中往往是停用詞,“的”,“是”,“了”等,這些在文檔中最常見但對結果毫無幫助、需要過濾掉的詞,用TF可以統計到這些停用詞并把它們過濾。當高頻詞過濾后就只需考慮剩下的有實際意義的詞。

但這樣又會遇到了另一個問題,我們可能發現"量化"、"系統"、"架構"這三個詞的出現次數一樣多。這是不是意味著,作為關鍵詞,它們的重要性是一樣的?事實上系統應該在其他文章比較常見,所以在關鍵詞排序上,“量化”和“架構”應該排在“系統”前面,這個時候就需要IDF,IDF會給常見的詞較小的權重,它的大小與一個詞的常見程度成反比。

當有TF(詞頻)和IDF(逆文檔頻率)后,將這兩個詞相乘,就能得到一個詞的TF-IDF的值。某個詞在文章中的TF-IDF越大,那么一般而言這個詞在這篇文章的重要性會越高,所以通過計算文章中各個詞的TF-IDF,由大到小排序,排在最前面的幾個詞,就是該文章的關鍵詞。

NLP:生動理解TF-IDF算法-AI.x社區

TF-IDF算法步驟

第一步,計算詞頻:

NLP:生動理解TF-IDF算法-AI.x社區

考慮到文章有長短之分,為了便于不同文章的比較,進行"詞頻"標準化。

NLP:生動理解TF-IDF算法-AI.x社區

第二步,計算逆文檔頻率:

這時,需要一個語料庫(corpus),用來模擬語言的使用環境。

NLP:生動理解TF-IDF算法-AI.x社區

如果一個詞越常見,那么分母就越大,逆文檔頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文檔都不包含該詞)。log表示對得到的值取對數。

第三步,計算TF-IDF:

NLP:生動理解TF-IDF算法-AI.x社區

可以看到,TF-IDF與一個詞在文檔中的出現次數成正比,與該詞在整個語言中的出現次數成反比。所以,自動提取關鍵詞的算法就很清楚了,就是計算出文檔的每個詞的TF-IDF值,然后按降序排列,取排在最前面的幾個詞。

優缺點

TF-IDF的優點是簡單快速,而且容易理解。缺點是有時候用詞頻來衡量文章中的一個詞的重要性不夠全面,有時候重要的詞出現的可能不夠多,而且這種計算無法體現位置信息,無法體現詞在上下文的重要性。如果要體現詞的上下文結構,那么你可能需要使用word2vec算法來支持。

示例代碼

NLP:生動理解TF-IDF算法-AI.x社區

本文轉載自 沐白AI筆記,作者: 沐白

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产69精品久久99不卡免费版 | 国产一区二区三区四区三区四 | 国产一区免费 | 亚洲精品91| 亚洲精品电影网在线观看 | 青青久视频 | 91久久久久久久久久久久久 | 国产成人精品久久 | 日本不卡一区二区三区 | 在线亚洲免费视频 | 欧美一区二区二区 | 亚洲精品久久久一区二区三区 | 亚洲国产精品一区二区第一页 | 亚洲毛片| 日韩国产中文字幕 | 拍真实国产伦偷精品 | 精品久久精品 | 孰女乱色一区二区三区 | 一级毛片在线看 | 岛国精品 | 老司机久久| 香蕉久久a毛片 | 中文字幕一页二页 | av看片| av网站免费在线观看 | 亚洲一区二区三区在线观看免费 | 欧美激情视频一区二区三区在线播放 | 久久亚洲欧美日韩精品专区 | 中文字幕国产日韩 | 国产高清一区二区三区 | 欧美精品中文字幕久久二区 | 国产精品资源在线观看 | 成人免费观看视频 | 99精品国产一区二区青青牛奶 | h片在线观看免费 | 日韩欧美国产精品综合嫩v 一区中文字幕 | 中文字幕在线播放第一页 | 亚洲国产成人精品一区二区 | 日韩成人免费中文字幕 | 国产在线观看一区 | 国产农村妇女毛片精品久久麻豆 |