成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用RAG的思想進行PPT生成的框架思路-SlideCoder 原創(chuàng)

發(fā)布于 2025-6-16 08:20
瀏覽
0收藏

手動創(chuàng)建幻燈片既費時又費力,如何從參考圖像自動生成可編輯的幻燈片?

現有的問題:如Autopresent的方法,通過構建大批量的SFT數據生成ppt代碼來生成ppt。然而,自然語言描述難以準確描述幻燈片的視覺設計,LLMs在處理復雜PPT時存在局限性,特別是包含多樣元素類型和高元素密度的情況;LLMs對python-pptx庫的理解不足,導致生成的代碼可能存在語法錯誤或不可執(zhí)行

SlideCoder提出一個基于RAG的思想-布局感知的檢索增強框架,用于從參考圖像生成可編輯的PPT

方法

如下圖,SlideCoder框架的目標是從參考圖像生成可執(zhí)行的Python幻燈片代碼。由三個核心模塊組成:基于顏色梯度的圖像分割算法(CGSeg)、層次化檢索增強代碼生成模塊(H-RAG)以及布局感知提示機制。

使用RAG的思想進行PPT生成的框架思路-SlideCoder-AI.x社區(qū)

SlideCoder框架

1、基于顏色梯度的圖像分割算法(CGSeg)

使用RAG的思想進行PPT生成的框架思路-SlideCoder-AI.x社區(qū)

CGSeg是一種遞歸的顏色梯度分割算法,用于將幻燈片設計圖像分解為語義上有意義的區(qū)域。該算法通過計算圖像的顏色梯度來識別和分割不同的區(qū)域,從而減少多模態(tài)大模型在理解復雜幻燈片設計時的難度。步驟如下:

  • 圖像分割:將輸入圖像劃分為網格,并計算每個塊的Sobel梯度幅度。
  • 激活塊標記:根據梯度幅度與閾值的比較,標記出激活的塊。
  • 區(qū)域填充:對二值激活掩碼進行洪水填充操作,識別出連接的區(qū)域。
  • 遞歸分割:對每個子圖像進行遞歸分割,以適應不同區(qū)域的視覺復雜度。

2、層次化檢索增強代碼生成模塊(H-RAG)

H-RAG模塊基于RAG的思想,提升多模態(tài)大模型對python-pptx庫的理解和代碼生成能力。通過兩個知識庫的層次化結構,分別為描述器和編碼器提供支持,確保生成的代碼在結構和語法上的準確性。

兩個主要知識庫

  • 形狀類型知識庫(Shape Type Knowledge Base, TS-KB):該知識庫包含了python-pptx文檔中定義的各種形狀類型的描述。這些描述用于指導描述器生成標準化的形狀描述,確保生成的描述與python-pptx的術語一致。例如,描述器在生成描述時會使用TS-KB中的術語,如“autoshape”或“textbox”,以確保描述的準確性和一致性。示例如下:使用RAG的思想進行PPT生成的框架思路-SlideCoder-AI.x社區(qū)
  • 操作函數知識庫(Operation Function Knowledge Base, OF-KB):該知識庫包含了python-pptx庫中各種函數的完整語法規(guī)范,包括參數、返回值和使用示例等。編碼器利用OF-KB中的信息生成精確的代碼片段,確保生成的代碼在語法上是正確的,并且符合python-pptx庫的使用規(guī)范。例如,編碼器在生成代碼時會參考OF-KB中的函數參數和返回值信息,以確保生成的代碼能夠正確調用python-pptx庫的函數。示例如下:使用RAG的思想進行PPT生成的框架思路-SlideCoder-AI.x社區(qū)

    知識庫的構建與嵌入

    使用了BGE M3-Embedding模型對知識庫中的條目進行嵌入,并構建了一個基于向量的檢索數據庫。

    檢索與生成過程

    由三個agent組成:描述器(Describer)、編碼器(Coder)和組裝器(Assembler)。

    • 描述器生成全局和塊描述:描述器首先根據輸入的圖像和分割結果生成全局的設計描述以及每個分割塊的詳細描述。在生成描述的過程中,描述器會從TS-KB中檢索相關的形狀類型信息,以確保描述的標準化和準確性。
    • 編碼器生成代碼片段:編碼器根據描述器生成的塊描述,從OF-KB中檢索相關的函數語法信息,生成相應的代碼片段。這些代碼片段是基于檢索到的函數語法規(guī)范生成的,確保了代碼的語法正確性和功能性。
    • 組裝器生成完整代碼:組裝器將編碼器生成的代碼片段與布局信息結合,從OF-KB中檢索完整的語法模式,生成最終的幻燈片代碼。組裝器在生成代碼時會參考OF-KB中的語法模式,以確保生成的代碼在結構上是正確的,并且能夠正確地布局幻燈片元素。

    3、布局感知提示

    布局感知提示機制通過在提示中注入布局位置信息,確保生成的代碼在空間上與參考圖像一致。該機制還從知識庫中檢索語法模式,以避免語法錯誤和代碼沖突。提示詞如下:

    使用RAG的思想進行PPT生成的框架思路-SlideCoder-AI.x社區(qū)

    實驗與結論

    使用RAG的思想進行PPT生成的框架思路-SlideCoder-AI.x社區(qū)

    SlideCoder在所有難度等級上的總體得分均優(yōu)于現有基線。

    使用RAG的思想進行PPT生成的框架思路-SlideCoder-AI.x社區(qū)

    示例對比

    使用RAG的思想進行PPT生成的框架思路-SlideCoder-AI.x社區(qū)

    消融實驗結論:在移除每個組件后,執(zhí)行率和總分均表現出不同程度的下降,這證明了每個組件對整體框架的貢獻。

    參考文獻:SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design,https://arxiv.org/pdf/2506.07964v1repo:https://github.com/vinsontang1/SlideCoder(代碼暫未開源)


    本文轉載自??大模型自然語言處理??   作者:余俊暉

    ?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
    已于2025-6-16 10:38:17修改
    收藏
    回復
    舉報
    回復
    相關推薦
    主站蜘蛛池模板: 成人不卡 | 欧美黑人狂野猛交老妇 | 国产欧美日韩 | 久久久99国产精品免费 | 国产精品毛片久久久久久 | 日韩欧美国产一区二区三区 | 天天射天天干 | 中国美女一级黄色片 | 午夜视频网站 | 亚洲 欧美 日韩在线 | 日韩毛片中文字幕 | 国产精品久久福利 | 看片网站在线 | 极品销魂美女一区二区 | 国产精品地址 | 成人超碰 | 紧缚调教一区二区三区视频 | 国产精品久久久久久久久久久久久 | 国产人免费人成免费视频 | av免费看片 | 成人一区二 | 欧美日韩在线一区二区 | 亚洲香蕉 | 日韩天堂av | 国产精品一区一区 | 国产大毛片 | 懂色av蜜桃av | 波多野结衣一区二区 | 在线亚洲电影 | 黑人粗黑大躁护士 | 国产精品高潮呻吟久久 | 特一级毛片 | 男女网站在线观看 | 黄色av网站在线观看 | 一级片免费视频 | 国产精品久久久久久久久久久久 | 亚洲成人午夜电影 | 日韩欧美在线不卡 | www成人免费 | 一级片免费在线观看 | 国产aaaaav久久久一区二区 |