?作者 | 汪昊
文化研究是發展數百年的人文學科。然而,因為數據規模受限,以及地理區域等因素的限制,文化研究一直都是使用小規模數據的研究學科。隨著大數據時代的到來,互聯網用戶行為數據等公開數據集因為數據量大,包含信息豐富,成為了人文學科領域最新的金礦。2022 年,研究人員在國際學術會議MHEHD 2022 發表了一篇介紹計算文化研究的文章,講述了如何通過人工智能算法進行文化研究。
這篇論文主要分析了一個名為 ZeroMat 的零樣本機器學習算法的社會學效應。ZeroMat 算法是人工智能領域首個真正不利用任何數據進行推薦的算法。眾所周知,現有的零樣本學習算法基本都是遷移學習和元學習的變體而已。而ZeroMat 是首個與眾不同的算法。
ZeroMat 算法假設用戶物品評分矩陣服從如下分布:
將上述公式帶入概率矩陣分布模型,得到如下公式:
取對數之后利用隨機梯度下降計算 U 和 V,并設置方差為常數 1,得到如下公式:
從公式中我們發現這個算法本質上是個零樣本學習算法。該算法的社會學效應是我們的文化已經被鎖死,因為我們不需要任何數據就可以非常準確的預測電影等文化消費品的用戶評分數據,也就是可以不用歷史數據就知道用戶的個人文化喜好。而因為用戶評分數據的高度不均衡性,我們知道,人類的文化不僅被鎖死了,而且被鎖死在了一個極不平等的極端狀態,而這一切發生僅僅需要很短的時間。
其實不僅僅是文化領域存在著這一現象,在其他社會領域也廣泛的存在著這一現象。而中國政府的許多舉措,已經在一定程度上緩解了這一問題。例如大城市集群戰略,利用了馬太效應有助于提高效率的原理,促進了經濟的發展。另外一個例子是政府對互聯網大V的監管,有效降低了信息傳播的馬太效應,避免信息傳播陷入鎖死狀態。
人類文化被鎖死的根本原因在于冪律分布在各種社會現象中的效應。而冪律分布之所以存在的原因就是因為能讓效率最大化,并且與多樣性有關。認真的研究冪律分布,能夠讓我們更好的認識各種社會現象,并且幫助我們更好的研究算法和其他自然科學。
Is Human Culture Locked by Evolution : https://www.atlantis-press.com/article/125975737.pdf
作者介紹
汪昊,互聯網老兵,前趣加游戲 AI Lab 負責人,在豆瓣、新浪、網易等互聯網公司有超過 11 年的技術和技術管理經驗,成功上線 10 余款科技產品。在推薦系統、風控和自然語言處理領域有豐富的經驗和獨到的見解。在國際學術會議和期刊發表論文 30 篇,3 次獲得國際學術會議最佳論文獎/最佳論文報告獎。2006 年 ACM/ICPC 國際大學生程序設計競賽北美落基山區域賽金牌。?