這份GitHub 2.3k星的ML論文清單拿好,工作用得上
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
工欲善其事,必先利其器。
在工作中動手實施自己的ML項目之前,了解領域里的前沿進展,吸收前人的經驗,是很有必要的。
不過,現在arXiv上每天都有成百篇新論文冒頭,哪些值得看?
為此,亞馬遜工程師Eugene Yan等人打造了一個論文合集,在這個GitHub項目中,持續共享Google、亞馬遜、Facebook等等大公司在數據科學和機器學習方面的論文和博客文章。

這些論文/文章涵蓋24種不同分類,從搜索排名到NLP、CV,都能在這里找到:
數據質量
數據工程
數據挖掘
分類
回歸
推薦算法
搜索排名
嵌入
自然語言處理
序列建模
預測
計算機視覺
強化學習
異常檢測
圖形
優化
信息提取
弱監督
生成
效率
驗證和A/B測試
倫理道德
實踐
失敗
目前標星2.3k。
以推薦算法為例。
對于不同的行業,業務差別很大。即使算法基礎框架大同小異,想要訓練出精準的推薦模型,細節上還是有許多不同之處。
而這份清單,收集了電商、視頻、音樂、課程種種不同業務的推薦算法技術博客/論文。

比如阿里的《Behavior Sequence Transformer for E-commerce Recommendation in Alibaba》。
論文介紹了行為序列Transformer在阿里電子商務推薦系統中的應用。
研究人員提出,利用Transformer模型來捕捉用戶行為序列背后的順序信號,以增強個性化推薦的有效性,提升點擊量。經過實驗驗證后,他們將該模型部署在了淘寶線上,證明與基線相比,該方法能顯著提高在線點擊率。
論文鏈接:
https://arxiv.org/abs/1905.06874
在視頻個性化推薦方面,YouTube、網飛、TikTok的技術方案都有收錄。

比如YouTube這篇引用次數達到1039次的《Deep Neural Networks for YouTube Recommendations》。
論文重點介紹了深度學習給YouTube推薦系統帶來的巨大性能提升。首先,研究人員詳細介紹了深度候選征程模型和深度排名模型。而后,研究人員還在論文中分享了從設計、迭代到維護一個擁有海量用戶的大規模推薦系統這個過程中,獲得的實踐經驗和啟示。
論文地址:
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/45530.pdf
另外,比較有趣的是,這份論文/文章列表還收錄了一些失敗的經驗。
比如Google Photos在給照片打標簽時,曾經嚴重翻車:把黑人標記成了“大猩猩”。
最近大火的GPT-3,則沒有解決前代GPT-2的“偏見”問題,在生成的文字中,總是將穆斯林和暴力、死亡聯系在一起。
關于作者
這一項目的主要維護者,是亞馬遜應用科學家Eugene Yan。
他本科畢業于新加坡管理大學,專業是心理學和人力資源管理,后于佐治亞理工學院獲計算機科學碩士學位。
現在的主要工作是利用消費者數據,構建機器學習系統以提升用戶體驗。
傳送門
項目地址:
https://github.com/eugeneyan/applied-ml