成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<pre id="yauue"><em id="yauue"></em></pre><s id="yauue"><dd id="yauue"></dd></s>

<input id="yauue"><th id="yauue"></th></input>

<button id="yauue"><noscript id="yauue"></noscript></button>

<input id="yauue"></input>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

多模態(tài)大語言模型空間智能新探索：僅需單張圖片或一句話，就可以精準生成3D建模代碼啦！

2025-01-03 11:37:13

本文提出 CAD-GPT，一種具有三維建?？臻g定位機制的多模態(tài)大模型，以提高空間推理能力。所提出模型擅長推斷草圖 3D 方向的變化、3D 空間位置的變化，并準確渲染 2D 草圖。利用這些功能，CAD-GPT 在單張圖像和文本輸入條件下生成精確 CAD 模型方面表現(xiàn)出卓越的性能。

計算機輔助設計（CAD）已經(jīng)成為許多行業(yè)設計、繪圖和建模的標準方法。如今，幾乎每一個制造出來的物體都是從參數(shù)化 CAD 建模開始的。CAD 構(gòu)造序列是 CAD 模型表示的一種類型，不同于 Mesh 類型的三角網(wǎng)格、B-rep 格式的點、線、面表示，它被描述為一系列建模操作，包括確定草圖 3D 起點和 3D 草圖平面方向、繪制 2D 草圖、將草圖拉伸成 3D 實體形狀的完整參數(shù)和過程，以 JSON 代碼格式儲存和表示。這類表示方法與專業(yè)建模工程師構(gòu)建 CAD 模型的過程最為近似，可以直接被導入 AutoDesk、 ProE 等建模軟件。構(gòu)建這些 CAD 模型需要領域?qū)I(yè)知識和空間推理能力，也需要較高的學習成本。

圖 1. CAD 建模代碼示意圖

作為空間智能的關鍵能力之一，空間建模能力對 MLLM 提出了嚴峻的挑戰(zhàn)。盡管 MLLM 在生成 2D 網(wǎng)頁布局代碼等方面展現(xiàn)出了卓越的性能，這類方法在 3D 建模領域仍然存在問題，比如生成 4 個平行于車底方向車輪的小車。這是因為 MLLM 在推理 3D 草圖角度和 3D 空間位置時受限于大語言模型的 1D 推理慣性，難以理解復雜數(shù)字背后真正的空間含義。

圖 2. 原始多模態(tài)大模型 3D 建模效果差原因分析

近期，來自上海交通大學的 i-WiN 研究團隊提出了專門用于 CAD 建模的多模態(tài)大語言模型 CAD-GPT，結(jié)合專門設計的 3D 建模空間定位機制，將 3D 參數(shù)映射到 1D 語言信息維度，提高了 MLLM 的空間推理能力，實現(xiàn)了基于單張圖片或一句話描述的精準 CAD 建模構(gòu)造序列生成。該項研究以《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》為題，被 AAAI 2025 接收。

論文標題：CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
論文地址：https://arxiv.org/abs/2412.19663
項目地址：https://OpenIWIN.github.io/CAD-GPT/

方法介紹

3D 建?？臻g定位機制

我們把關鍵的 3D、2D 建模參數(shù)定義為大語言模型可以理解的建模語言，便于大模型理解和生成。具體來說，設計了 3 個系列的定位 token 來代替 3D 草圖平面起點坐標、3D 草圖平面角度和 2D 草圖曲線坐標的參數(shù)。通過將全局空間 3D 坐標、草圖平面 3D 旋轉(zhuǎn)角度的特征展開到一維語言特征空間，將它們轉(zhuǎn)換為兩類不同的 1D 位置 tokens。此外，2D 草圖被離散化并轉(zhuǎn)換為特殊的 2D token。這些 token 被合并到原始 LLM 詞表中。同時，納入了 3 類適配 3 種 token 的自定義可學習的位置嵌入，以彌合語言和空間位置之間的差距。

數(shù)據(jù)集構(gòu)建

基于 DeepCAD 數(shù)據(jù)集，生成了 160k 固定視角渲染的 CAD 模型圖像和 18k 相應的自然語言描述數(shù)據(jù)集，構(gòu)建專門用于訓練多模態(tài)大語言模型的 CAD 建模數(shù)據(jù)集，便于后續(xù)其他工作訓練大模型生成 CAD 模型建模序列。

訓練策略與細節(jié)

我們采用 LLaVA - 1.5 7B 版本作為基礎模型。訓練包括兩個階段：首先在 image2CAD 任務上進行訓練，然后在 text2CAD 任務上降低學習率進行微調(diào)。此外，因 CAD 建模序列長度較長，我們基于外推法，通過超參調(diào)整，擴展 LLM 的窗口長度到 8192。

圖 3. CAD-GPT 原理框架圖

實驗效果展示

圖 4. CAD-GPT 生成的各種 CAD 模型展示

圖 4 中的模型展示了包含精準語義草圖生成能力（如心形和字母 “E”）、帶有類別的 CAD 生成能力（如桌子、椅子和鑰匙）、空間推理能力（如桌子和相互垂直的圓柱體），以及生成不同尺寸的相同模型的能力（如三個有兩個圓孔的不同尺寸連接器）。

基于單張圖片的生成效果

將 CAD-GPT 與三種代表性方法進行了比較。第一個是 DeepCAD，它演示了 CAD 建模中的先進生成技術。第二個是 GPT-4，代表了閉源多模態(tài)大型模型的前沿。第三個是 Qwen2-VL-Max，這是領先的開源多模態(tài)大型模型之一。相比之下，CAD-GPT 產(chǎn)生的輸出既準確又美觀。

圖 5. 基于圖片的 CAD 生成效果對比

基于一句話描述生成效果展示

本文選擇了兩個有代表性的大型語言模型：領先的閉源模型 GPT-4 和最先進的開源模型 LLaMA-3.1（405B）。如圖 6 所示，我們的模型始終生成高精度、美觀的輸出，并且展示出了與文本描述對應的語義信息。

圖 6. 基于文本描述的 CAD 生成效果對比

消融實驗

圖 7 展示了是否添加 3D 建?？臻g定位機制訓練模型的差異。如圖所示，添加定位機制后，CAD-GPT 可以精準的推理空間角度、位置變化，以及生成準確的 2D 草圖。

圖 7. 消融實驗效果展示

總結(jié)

本文提出 CAD-GPT，一種具有三維建?？臻g定位機制的多模態(tài)大模型，以提高空間推理能力。所提出模型擅長推斷草圖 3D 方向的變化、3D 空間位置的變化，并準確渲染 2D 草圖。利用這些功能，CAD-GPT 在單張圖像和文本輸入條件下生成精確 CAD 模型方面表現(xiàn)出卓越的性能。

責任編輯：姜華來源：機器之心

大語言模型 CAD-GPT 人工智能

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：亚洲欧美视频在线观看 | 亚洲精品9999 | 欧美久久久久久久久中文字幕 | 国产在线观 | 综合一区二区三区 | 国产91久久精品一区二区 | 国产精品美女久久久 | 国产欧美一区二区三区在线看蜜臀 | www午夜视频| 中日韩欧美一级片 | 国产精品久久一区二区三区 | 在线观看涩涩视频 | 亚洲精品中文字幕在线观看 | 亚洲国产偷 | 国产欧美日韩一区 | 在线观看成年人视频 | 国产一二区视频 | 精品欧美激情精品一区 | 欧美国产日韩一区二区三区 | 国产精品久久久久av | 亚洲福利视频一区二区 | 国产成人精品一区二区三 | 自拍偷拍亚洲一区 | 日本久久视频 | 国产十日韩十欧美 | 高清国产午夜精品久久久久久 | 91麻豆精品国产91久久久久久 | 国产精品久久久久久久久免费相片 | 美女天天操 | 在线看av网址| 高清一区二区三区 | 嫩草一区二区三区 | 精品国产视频 | 成人国产精品久久 | 国产成人福利视频在线观看 | 成人av播放 | 国产成人精品一区二区三区 | 亚洲网在线 | 国产精品久久一区二区三区 | 成人久久视频 | 成人三级av |

<s id="i6g84"></s><kbd id="i6g84"><table id="i6g84"></table></kbd>

<strike id="i6g84"><dd id="i6g84"></dd></strike>