幫視障人士“看見”圖片 字節跳動最新視覺語言預訓練模型入選ICML 2022
近日,字節跳動AI Lab Research 團隊推出一項視覺語言預訓練模型,支持多模態的理解和生成,例如將畫面轉化為準確、流暢的描述文字,幫助視障人士“看見”圖片。這項技術成果已入選人工智能國際頂級會議ICML 2022,并應用于今日頭條App、大力智能燈等業務場景。
據了解,這個名為X-VLM 的模型在業內首次提出學習多粒度的視覺和語言對齊,能為圖片生成更為精準的描述,比如更正確地識別物體、描述物體間的關系。
信息無障礙研究會發布的報告顯示,超過90%的視障人士會使用智能手機了解外面的世界。此前,手機系統自帶的讀屏軟件已經實現把屏幕上的文字念出來,幫助視障人士“讀”新聞、“看”文章。可遇到文章中的圖片,讀屏軟件往往無法識別,只能播報“圖片”二字。
采用了X-VLM 模型,今日頭條App可以自動識別圖片,還能將它們“翻譯”成通順流暢的語句,并通過語音播報出來,助力視障人士解決讀圖難題。
值得一提的是,X-VLM可在模型規模和預訓練數據有限的情況下實現高效訓練。數據顯示:僅216M參數量的X-VLM模型就能在圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成等廣泛的多模態任務上獲得十分優秀的表現。目前,X-VLM在字節跳動的真實應用場景上的表現已超過一些業界領先的最新模型。
近年來,人工智能在助推無障礙環境方面發揮了重要作用。利用技術持續改進無障礙與適老化體驗是字節跳動在公益方面的重要方向。除了在抖音系產品中不斷完善無障礙功能,字節跳動還通過面向企業用戶的云服務平臺火山引擎,以技術輸出的方式,服務更廣泛的社會群體。
論文:Multi-Grained Vision Language
Pre-Training: Aligning Texts with Visual Concepts(??https://arxiv.org/abs/2111.08276??)
代碼:https://github.com/zengyan-97/X-VLM