一次多模態大模型表格識別解析探索小實踐記錄
表格識別作為文檔智能的重要組成部分,面臨著復雜結構和多樣化格式的挑戰。 ??【文檔智能 & RAG】RAG增強之路:增強PDF解析并結構化技術路線方案及思路??
前期文章也介紹了傳統視覺的方法進行表格結構識別的方法,??【文檔智能】輕量級級表格識別算法模型-SLANet??
關于表格識別在這里就不做過多的介紹了。
國慶期間,筆者利用一個較長的時間段,訓練了一個多模態的表格識別模型,效果還不錯,特此記錄一下多模態的效果。
- 訓練資源:H100*8
- 訓練數據:200w table image - table html對(html的表示表格的優勢,可以準確表示一些復雜表格,如合并單元格等,這點是mardown格式無法做到的。)
- 模型參數量:7B
- 自建測評數據TEDS:0.97~0.98
小總結:
- 訓練數據質量大于一切,含大量數據的超長文本表格目前還不能準確識別,因為筆者訓練的是?
?max-length=8192?
?。 - 模型參數量目前較大,推理速度比較慢。
效果記錄: 下面的一些case來源于網絡的表格截圖。
case1
case2
case3
case4
case5
case6
case7
本文轉載自公眾號大模型自然語言處理 作者:余俊暉
已于2024-11-28 18:51:29修改
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦