成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態(tài)大語言模型空間智能新探索:僅需單張圖片或一句話,就可以精準生成3D建模代碼啦!

人工智能
本文提出 CAD-GPT,一種具有三維建??臻g定位機制的多模態(tài)大模型,以提高空間推理能力。所提出模型擅長推斷草圖 3D 方向的變化、3D 空間位置的變化,并準確渲染 2D 草圖。利用這些功能,CAD-GPT 在單張圖像和文本輸入條件下生成精確 CAD 模型方面表現(xiàn)出卓越的性能。

計算機輔助設計(CAD)已經(jīng)成為許多行業(yè)設計、繪圖和建模的標準方法。如今,幾乎每一個制造出來的物體都是從參數(shù)化 CAD 建模開始的。CAD 構(gòu)造序列是 CAD 模型表示的一種類型,不同于 Mesh 類型的三角網(wǎng)格、B-rep 格式的點、線、面表示,它被描述為一系列建模操作,包括確定草圖 3D 起點和 3D 草圖平面方向、繪制 2D 草圖、將草圖拉伸成 3D 實體形狀的完整參數(shù)和過程,以 JSON 代碼格式儲存和表示。這類表示方法與專業(yè)建模工程師構(gòu)建 CAD 模型的過程最為近似,可以直接被導入 AutoDesk、 ProE 等建模軟件。構(gòu)建這些 CAD 模型需要領域?qū)I(yè)知識和空間推理能力,也需要較高的學習成本。

圖片

圖 1. CAD 建模代碼示意圖

作為空間智能的關鍵能力之一,空間建模能力對 MLLM 提出了嚴峻的挑戰(zhàn)。盡管 MLLM 在生成 2D 網(wǎng)頁布局代碼等方面展現(xiàn)出了卓越的性能,這類方法在 3D 建模領域仍然存在問題,比如生成 4 個平行于車底方向車輪的小車。這是因為 MLLM 在推理 3D 草圖角度和 3D 空間位置時受限于大語言模型的 1D 推理慣性,難以理解復雜數(shù)字背后真正的空間含義。

圖片

圖 2. 原始多模態(tài)大模型 3D 建模效果差原因分析

近期,來自上海交通大學的 i-WiN 研究團隊提出了專門用于 CAD 建模的多模態(tài)大語言模型 CAD-GPT,結(jié)合專門設計的 3D 建模空間定位機制,將 3D 參數(shù)映射到 1D 語言信息維度,提高了 MLLM 的空間推理能力,實現(xiàn)了基于單張圖片或一句話描述的精準 CAD 建模構(gòu)造序列生成。該項研究以《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》為題,被 AAAI 2025 接收。

圖片

  • 論文標題:CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
  • 論文地址:https://arxiv.org/abs/2412.19663  
  • 項目地址:https://OpenIWIN.github.io/CAD-GPT/

方法介紹

3D 建??臻g定位機制

我們把關鍵的 3D、2D 建模參數(shù)定義為大語言模型可以理解的建模語言,便于大模型理解和生成。具體來說,設計了 3 個系列的定位 token 來代替 3D 草圖平面起點坐標、3D 草圖平面角度和 2D 草圖曲線坐標的參數(shù)。通過將全局空間 3D 坐標、草圖平面 3D 旋轉(zhuǎn)角度的特征展開到一維語言特征空間,將它們轉(zhuǎn)換為兩類不同的 1D 位置 tokens。此外,2D 草圖被離散化并轉(zhuǎn)換為特殊的 2D token。這些 token 被合并到原始 LLM 詞表中。同時,納入了 3 類適配 3 種 token 的自定義可學習的位置嵌入,以彌合語言和空間位置之間的差距。

數(shù)據(jù)集構(gòu)建

基于 DeepCAD 數(shù)據(jù)集,生成了 160k 固定視角渲染的 CAD 模型圖像和 18k 相應的自然語言描述數(shù)據(jù)集,構(gòu)建專門用于訓練多模態(tài)大語言模型的 CAD 建模數(shù)據(jù)集,便于后續(xù)其他工作訓練大模型生成 CAD 模型建模序列。

訓練策略與細節(jié)

我們采用 LLaVA - 1.5 7B 版本作為基礎模型。訓練包括兩個階段:首先在 image2CAD 任務上進行訓練,然后在 text2CAD 任務上降低學習率進行微調(diào)。此外,因 CAD 建模序列長度較長,我們基于外推法,通過超參調(diào)整,擴展 LLM 的窗口長度到 8192。

圖片

圖 3. CAD-GPT 原理框架圖

實驗效果展示

圖片

圖 4. CAD-GPT 生成的各種 CAD 模型展示

圖 4 中的模型展示了包含精準語義草圖生成能力(如心形和字母 “E”)、帶有類別的 CAD 生成能力(如桌子、椅子和鑰匙)、空間推理能力(如桌子和相互垂直的圓柱體),以及生成不同尺寸的相同模型的能力(如三個有兩個圓孔的不同尺寸連接器)。

基于單張圖片的生成效果

將 CAD-GPT 與三種代表性方法進行了比較。第一個是 DeepCAD,它演示了 CAD 建模中的先進生成技術。第二個是 GPT-4,代表了閉源多模態(tài)大型模型的前沿。第三個是 Qwen2-VL-Max,這是領先的開源多模態(tài)大型模型之一。相比之下,CAD-GPT 產(chǎn)生的輸出既準確又美觀。

圖片

圖 5. 基于圖片的 CAD 生成效果對比

圖片

基于一句話描述生成效果展示

本文選擇了兩個有代表性的大型語言模型:領先的閉源模型 GPT-4 和最先進的開源模型 LLaMA-3.1(405B)。如圖 6 所示,我們的模型始終生成高精度、美觀的輸出,并且展示出了與文本描述對應的語義信息。

圖片

圖 6. 基于文本描述的 CAD 生成效果對比

圖片

消融實驗

圖 7 展示了是否添加 3D 建??臻g定位機制訓練模型的差異。如圖所示,添加定位機制后,CAD-GPT 可以精準的推理空間角度、位置變化,以及生成準確的 2D 草圖。

圖片

圖 7. 消融實驗效果展示

圖片

總結(jié)

本文提出 CAD-GPT,一種具有三維建??臻g定位機制的多模態(tài)大模型,以提高空間推理能力。所提出模型擅長推斷草圖 3D 方向的變化、3D 空間位置的變化,并準確渲染 2D 草圖。利用這些功能,CAD-GPT 在單張圖像和文本輸入條件下生成精確 CAD 模型方面表現(xiàn)出卓越的性能。

責任編輯:姜華 來源: 機器之心
相關推薦

2023-05-08 15:44:23

3D數(shù)字人

2023-05-12 14:13:23

3D建模OpenAI

2021-12-30 10:00:07

3DAI 人工智能

2023-10-25 14:17:00

2023-08-28 00:53:03

AI3D

2023-10-09 12:45:09

數(shù)據(jù)訓練

2021-11-29 09:45:32

模型人工智能深度學習

2024-02-08 09:33:37

蘋果AI

2022-12-12 13:45:46

模型修圖

2023-09-05 23:34:52

Kubernetes云原生

2020-11-27 09:57:11

Python代碼PyPy

2015-08-03 10:21:04

設計模式表達

2023-12-14 12:51:28

LLM3D場景

2024-03-04 12:32:39

AI數(shù)據(jù)

2025-03-17 08:55:00

AI開源模型

2024-04-01 13:03:00

AI模型

2023-12-13 21:50:59

騰訊AI模型

2010-03-29 11:55:12

無線上網(wǎng)報錯

2025-01-02 07:00:00

2022-09-30 15:35:43

AI視頻
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲欧美视频在线观看 | 亚洲精品9999 | 欧美久久久久久久久中文字幕 | 国产在线观 | 综合一区二区三区 | 国产91久久精品一区二区 | 国产精品美女久久久 | 国产欧美一区二区三区在线看蜜臀 | www午夜视频| 中日韩欧美一级片 | 国产精品久久一区二区三区 | 在线观看涩涩视频 | 亚洲精品中文字幕在线观看 | 亚洲国产偷 | 国产 欧美 日韩 一区 | 在线观看成年人视频 | 国产一二区视频 | 精品欧美激情精品一区 | 欧美国产日韩一区二区三区 | 国产精品久久久久av | 亚洲福利视频一区二区 | 国产成人精品一区二区三 | 自拍偷拍亚洲一区 | 日本久久视频 | 国产十日韩十欧美 | 高清国产午夜精品久久久久久 | 91麻豆精品国产91久久久久久 | 国产精品久久久久久久久免费相片 | 美女天天操 | 在线看av网址| 高清一区二区三区 | 嫩草一区二区三区 | 精品国产视频 | 成人国产精品久久 | 国产成人福利视频在线观看 | 成人av播放 | 国产成人精品一区二区三区 | 亚洲网在线 | 国产精品久久一区二区三区 | 成人久久视频 | 成人三级av |