達摩院AliceMind上新!首個中文表格預訓練模型來了,已向業界開源
12月2日,達摩院深度語言模型體系AliceMind發布中文社區首個表格預訓練模型SDCUP,該模型在全球權威表格數據集WikiSQL、SQuALL上取得了業界最優效果,且模型和訓練代碼均已對外開源。(https://github.com/alibaba/AliceMind)
表格是應用普遍的結構化數據,也是智能對話系統和搜索引擎的重要答案來源。但傳統表格查詢需技術人員撰寫專業查詢語句,阻礙了表格查詢的大規模應用。新興的表格問答技術,可將自然語言轉換為查詢語句,使用戶能通過簡單問句直接與表格數據庫交互,具有廣泛應用前景。
不過,由于表格內容復雜多樣、涉及各行業專業知識,表格問答任務一直是自然語言處理領域的難題。此前,谷歌、微軟、亞馬遜等海外公司開展了相關探索,但在中文場景,該方向處于空白。
本次,達摩院對話智能團隊提出了首個中文表格預訓練模型SDCUP,其基于“模式依存”方法,通過模型直接預測自然語言與表格結構內容的關鍵詞映射,提升了表格問答的準確率。具體而言,即參考語義依存分析方法對Schema Dependency任務建模,使用全連接網絡獲取每個節點作為父親節點和作為孩子節點的語義表示,然后使用雙仿射網絡預測每個邊存在的概率和該邊關系類型的概率。同時,團隊使用了模仿人類的“課程學習”方法減少數據噪聲。
在耶魯大學發布的業界最大規模的英文文本-表格數據集WikiSQL,以及微軟構建的英文文本-表格高難度預測任務SQuALL數據集上,SDCUP模型均取得業界最優效果。在達摩院構建的表格問答中文數據集TaBLUE上,SDCUP比同參數規模BERT模型效果提升約3個百分點。
達摩院資深算法專家李永彬介紹,SDCUP模型是達摩院表格對話技術系列研發的一部分,后續將持續對外開源。其相關技術先后在四大國際公開數據集WikiSQL、Spider、SParC、CoSQL上取得第一。
據了解,該技術完成了產品化,已通過阿里云智能客服為政務、金融、零售等行業客戶提供表格問答和數據庫自然交互服務。