金沙娱乐场CASINO-在线澳门金沙赌场-明珠国际网上娱乐

科研新聞

中山大學(xué)智能工程學(xué)院梁小丹教授課題組發(fā)布全新主動(dòng)幾何集成框架GeoThinker

稿件來(lái)源:智能工程學(xué)院 編輯:余婷 審核:孫耀斌 發(fā)布日期:2026-03-02 閱讀量:

中大新聞網(wǎng)訊(通訊員李浩源)近日,中山大學(xué)智能工程學(xué)院梁小丹教授課題組與引望科技,聯(lián)合上海交通大學(xué)、上海創(chuàng)智學(xué)院,發(fā)布了全新主動(dòng)幾何集成框架GeoThinker。

圖注:GeoThinker模型框架

目前的視覺(jué)語(yǔ)言模型(VLM)在物體識(shí)別上已經(jīng)非常成熟,但在理解復(fù)雜的3D物理空間關(guān)系時(shí)仍面臨挑戰(zhàn)。核心瓶頸在于傳統(tǒng)的“被動(dòng)融合”模式,即模型無(wú)差別地接收所有幾何信息,導(dǎo)致視覺(jué)語(yǔ)義與底層幾何位置難以精準(zhǔn)對(duì)齊。這種方式不僅引入了大量如地板、墻面等無(wú)關(guān)的背景噪聲,掩蓋了關(guān)鍵的空間邏輯,還使得模型在處理復(fù)雜推理任務(wù)時(shí)精度不足,難以真正“讀懂”三維物理世界 。

針對(duì)這些痛點(diǎn),團(tuán)隊(duì)提出了名為GeoThinker的全新主動(dòng)幾何集成框架。GeoThinker實(shí)現(xiàn)了從“被動(dòng)融合”向“主動(dòng)感知”的范式轉(zhuǎn)變,其核心在于構(gòu)建了“按需查詢(xún)”的智能機(jī)制。通過(guò)空間基座融合和重要性門(mén)控(IG)等核心架構(gòu),模型能夠根據(jù)具體任務(wù)上下文,主動(dòng)識(shí)別并定向提取關(guān)鍵的空間紋理信息。這種設(shè)計(jì)就像為模型裝上了“智能濾鏡”,使其能自發(fā)關(guān)注物體邊界和關(guān)鍵結(jié)構(gòu),同時(shí)屏蔽冗余的背景干擾。

實(shí)驗(yàn)結(jié)果顯示,GeoThinker在多項(xiàng)權(quán)威空間智能基準(zhǔn)測(cè)試中展現(xiàn)了極強(qiáng)的領(lǐng)先性。它在 VSI-Bench 上以 72.6 分的成績(jī)刷新了 SOTA 紀(jì)錄,性能顯著優(yōu)于 GPT-5 和 Gemini-3-Pro 等閉源大模型。在全球 EASI 綜合榜單中,GeoThinker 位列總榜第 6,是開(kāi)源界公認(rèn)的標(biāo)桿模型。此外,該框架在具身智能機(jī)器人指代和自動(dòng)駕駛規(guī)劃決策等實(shí)際應(yīng)用中也表現(xiàn)卓越,即便在極低分辨率的模糊圖像下依然能保持穩(wěn)健的空間推理能力。這一研究證明,空間智能的未來(lái)在于模型能夠根據(jù)需求主動(dòng)、精準(zhǔn)地整合幾何結(jié)構(gòu)信息。

論文鏈接:https://arxiv.org/abs/2602.06037

開(kāi)源代碼: https://github.com/Li-Hao-yuan/GeoThinker

新聞投稿