MIT新研究表明機器學習不能標記假新聞
麻省理工學院研究人員發(fā)表的兩篇新論文顯示,當前的機器學習模型還不能完成區(qū)分虛假新聞報道的任務。在不同的研究人員表明計算機可以令人信服地生成虛構新聞故事而無需太多人為監(jiān)督之后,一些專家希望可以訓練基于相同機器學習的系統(tǒng)來檢測此類新聞。但是麻省理工學院的博士生Tal Schuster的研究表明,盡管機器學習模型擅長檢測機器生成的文本,但它們無法識別故事是真實還是虛假的。
許多自動的事實檢查系統(tǒng)都使用稱為事實提取和驗證(FEVER)的真實陳述數(shù)據(jù)庫進行培訓。
在一項研究中,Schuster和他的團隊表明,即使他們知道肯定的陳述是正確的(“Greg說他的汽車是藍色的”),機器學習事實檢查系統(tǒng)也難以處理否定的陳述(“Greg從未說過他的車不是藍色的”)
研究人員表示,問題在于數(shù)據(jù)庫充滿了人為的偏見。創(chuàng)建FEVER的人傾向于將其錯誤條目寫為否定陳述,而將其真實陳述寫為肯定陳述-因此計算機學會了將帶有否定陳述的句子評為虛假。
這意味著系統(tǒng)正在解決一個比檢測虛假新聞更容易的問題。麻省理工學院教授Regina Barzilay表示:“如果為自己創(chuàng)造一個簡單的目標,就可以實現(xiàn)該目標。但是,它仍然無法使您將虛假新聞與真實新聞區(qū)分開。”
兩項研究均由Schuster帶領,并由MIT合作者團隊完成。
最重要的是:第二項研究表明,機器學習系統(tǒng)可以很好地檢測機器編寫的故事,但不能將真實的故事與虛假的故事區(qū)分開。