

工業(yè)智能和無人巡檢發(fā)展迅猛,但AI如何在復(fù)雜、危險且動態(tài)變化的真實工廠環(huán)境中可靠地“看”懂場景、評估安全,仍是阻礙其大規(guī)模落地的核心瓶頸?,F(xiàn)有公開數(shù)據(jù)集大多來自仿真環(huán)境或靜態(tài)近景拍攝,缺乏真實擾動、多模態(tài)對齊和細(xì)粒度的安全語義標(biāo)注,導(dǎo)致訓(xùn)練出的模型“紙上談兵”,在實際部署中頻頻失效。
為攻克這一難題,清華大學(xué)、天創(chuàng)機器人、達(dá)摩院與東南大學(xué)團隊聯(lián)合發(fā)布InspecSafe-V1——業(yè)界首個基于真實巡檢機器人日常作業(yè)構(gòu)建的工業(yè)多模態(tài)安全評估基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集旨在將真實工業(yè)場景的動態(tài)復(fù)雜性轉(zhuǎn)化為結(jié)構(gòu)化基準(zhǔn),為開發(fā)下一代可靠的工業(yè)視覺-語言大模型奠定堅實的數(shù)據(jù)基石。
為什么工業(yè)AI需要“更真、更全”的數(shù)據(jù)?
當(dāng)前已公開的工業(yè)視覺數(shù)據(jù)集多在受控的實驗室環(huán)境下采集,背景干凈、光照穩(wěn)定、視角固定。然而,真實的巡檢現(xiàn)場充斥著劇烈光照變化、粉塵煙霧遮擋、金屬表面強反射、復(fù)雜背景干擾等挑戰(zhàn)。僅用“純凈”數(shù)據(jù)訓(xùn)練的模型,面對真實場景往往表現(xiàn)“失明”。更重要的是,工業(yè)安全評估遠(yuǎn)不止識別物體。它需要系統(tǒng)理解物體狀態(tài)及其關(guān)聯(lián),例如:人員是否闖入危險區(qū)、設(shè)備溫度是否異常攀升、氣體泄漏與通風(fēng)狀況的耦合關(guān)系。這要求數(shù)據(jù)必須提供:
細(xì)粒度物體標(biāo)注:支撐對設(shè)備、部件、隱患的精確識別。
多模態(tài)同步信息:融合視覺、熱成像、聲音、氣體等多維度傳感證據(jù)。
場景級安全語義:明確的安全等級描述與風(fēng)險評估。
來自工業(yè)一線的“全景記憶”檔案
研究團隊摒棄了傳統(tǒng)的固定機位采集方式,直接將數(shù)據(jù)采集前端部署于41臺正在實際服役的輪式與軌道式巡檢機器人上。這些機器人穿梭于隧道、電力設(shè)施、冶金燒結(jié)、石油化工、輸煤棧橋這五大典型工業(yè)場景中,從2239個有效巡檢點收集了5013個巡檢實例。
1
雙重機器人平臺,覆蓋全場景視角
輪式機器人:地面靈活移動,提供對設(shè)備的近距離特寫視圖。
軌道式機器人:沿固定軌道運行,可跨越障礙,執(zhí)行長距離、連續(xù)性的廣域巡檢。
二者結(jié)合,實現(xiàn)了對工業(yè)環(huán)境“由近及遠(yuǎn)、動靜結(jié)合” 的全方位覆蓋。
2
多模態(tài)同步感知,構(gòu)建安全證據(jù)鏈
每個巡檢實例都提供了嚴(yán)格時間同步的八種模態(tài)數(shù)據(jù),宛如為機器人裝備了“超感官”:
核心視覺:高清RGB視頻、熱紅外視頻
三維幾何:深度點云、雷達(dá)點云
環(huán)境感知:氣體濃度、溫度、濕度監(jiān)測
音頻監(jiān)聽:環(huán)境噪音
3
層級精細(xì)標(biāo)注,定義安全評估新標(biāo)準(zhǔn)
數(shù)據(jù)集不僅提供原始數(shù)據(jù),更提供了深度加工的“知識”:
像素級實例分割:對234類關(guān)鍵工業(yè)對象(如管道、閥門、螺栓、防護網(wǎng))進行精細(xì)勾勒。
語義場景描述:用自然語言概括場景環(huán)境、關(guān)鍵對象和可見事件。
安全等級標(biāo)簽:依據(jù)行業(yè)安全規(guī)范,將場景安全分為I級(高風(fēng)險)至 IV級(無異常)。例如,在石油化工場景中,“明火”、“煙霧”、“人員倒地”被定義為I級風(fēng)險。
VLMs大模型面臨真實工業(yè)場景大考
研究團隊基于InspecSafe-V1設(shè)立了標(biāo)準(zhǔn)化的安全評估基準(zhǔn)任務(wù),用于衡量現(xiàn)有通用視覺-語言大模型在復(fù)雜工業(yè)環(huán)境下的理解與推理能力。
評測任務(wù):模型需要根據(jù)輸入的工業(yè)場景RGB圖像,輸出場景描述和安全等級判斷。
核心發(fā)現(xiàn):
模型性能不單純?nèi)Q于參數(shù)規(guī)模。一些參數(shù)量較小的模型,由于具備更好的推理對齊能力,其表現(xiàn)可能優(yōu)于參數(shù)量更大的模型。
“推理增強型”模型顯著優(yōu)于“僅指令微調(diào)”的模型。例如,在Qwen3-VL家族中,具備推理能力的版本比指令微調(diào)版本準(zhǔn)確率高出約8個百分點,并減少了誤報。
真實工業(yè)場景干擾是主要錯誤來源。多數(shù)誤報并非源于真實危險,而是由強烈反光、逆光、高對比度陰影、顆粒物散射等惡劣視覺條件引發(fā)的模型“幻覺”。部分保守模型(如GPT-5.2)誤報率超30%,這在真實場景中會導(dǎo)致警報泛濫,增加運維成本。
存在兩類典型錯誤:
場景誤判引發(fā)連鎖失敗:如將輸煤棧橋誤判為化工廠,導(dǎo)致后續(xù)安全標(biāo)準(zhǔn)完全錯用。
細(xì)粒度違規(guī)漏檢:如未能檢測出人員未戴安全手套、使用手機等行為,暴露了通用模型在細(xì)粒度行為識別上的局限。
數(shù)據(jù)開源與應(yīng)用展望
InspecSafe-V1數(shù)據(jù)集已公開發(fā)布,包含所有多模態(tài)原始數(shù)據(jù)、精細(xì)標(biāo)注文件、標(biāo)定參數(shù)與元數(shù)據(jù)索引。主要應(yīng)用方向:
工業(yè)安全評估與預(yù)警模型開發(fā)
多模態(tài)感知與融合算法研究
視覺-語言聯(lián)合建模與具身推理
領(lǐng)域自適應(yīng)與跨場景泛化能力測試
使用說明:數(shù)據(jù)集以“巡檢實例”為中心組織,格式通用(MP4, WAV, ROS bag, JSON)。每個實例均包含RGB圖像及其對應(yīng)的像素級標(biāo)注和語義標(biāo)簽,確保研究起點的一致性。
通往可靠工業(yè)智能的基石
InspecSafe-V1的發(fā)布,標(biāo)志著工業(yè)AI數(shù)據(jù)建設(shè)從“實驗室潔凈數(shù)據(jù)”邁向 “現(xiàn)場復(fù)雜數(shù)據(jù)”的關(guān)鍵一步。其核心貢獻(xiàn)在于:
真實性:源自真實作業(yè)機器人,內(nèi)置了光照變化、遮擋等核心挑戰(zhàn)。
多模態(tài)性:八種傳感器同步,支撐跨模態(tài)融合推理。
語義豐富性:提供實例、場景、安全三層級標(biāo)注,直接服務(wù)于安全理解任務(wù)。
要構(gòu)建真正可信、可用的工業(yè)基礎(chǔ)模型,必須首先為其提供能夠反映物理世界復(fù)雜性和任務(wù)語義多樣性的“養(yǎng)料”。InspecSafe-V1正是這樣一塊堅實的基石,天創(chuàng)機器人為探索工業(yè)環(huán)境下可靠感知與安全的下一代AI開啟了大門。
北京天創(chuàng)萬安科技裝備有限公司(TC-VIE)坐落于北京市北京經(jīng)濟技術(shù)開發(fā)區(qū)高新科技園區(qū),服務(wù)于公共安全和生產(chǎn)安全領(lǐng)域,致力于先進安全裝備的科技研發(fā)和生產(chǎn)制造,立志成為全球公共安全和生產(chǎn)安全行業(yè)的高科技裝備制造標(biāo)桿。
北京天創(chuàng)萬安科技裝備有限公司擁有一流的研發(fā)團隊,其中碩士及以上學(xué)歷研發(fā)人員達(dá)到35%,本科學(xué)歷研發(fā)人員達(dá)到40%,公司與中國科技大學(xué)、中國礦業(yè)大學(xué)等單位合作,在煤礦安全裝備、消防救援裝備、特種安全裝備、環(huán)保裝備、石油、石化、電力等領(lǐng)域取得先成果,產(chǎn)品涉及環(huán)境參數(shù)檢測及探測及采樣類裝備、生命探測儀類裝備、特種機器人及模塊裝備、安保安全防范及抓捕類裝備及器材、音視頻記錄取證類裝備、無人機等十幾個大類的研發(fā)。市場覆蓋礦山企業(yè)、安監(jiān)局、安保系統(tǒng)、消防部隊、各級救援隊、民政救災(zāi)、地震救援系統(tǒng)、國防系統(tǒng)、鐵路系統(tǒng)、石油石化系統(tǒng)等多個領(lǐng)域。部分產(chǎn)品已出口到國外市場。
上市產(chǎn)品有礦用本安型平板計算機、礦用安標(biāo)識別儀、本質(zhì)安全型音視頻記錄儀、本質(zhì)安全型紅外測溫儀、本質(zhì)安全型紅外熱成像儀、單一氣體測定器、多參數(shù)氣體測定器、有毒有害氣體檢測儀、礦用本安型溫濕度檢測儀、本質(zhì)安全型激光測距儀、便攜式數(shù)字式粉塵測定儀、防爆粉塵采樣器、礦用本安型數(shù)碼相機、礦用本安型噪聲檢測儀、礦用本安型個人聲暴露計、礦用通風(fēng)多參數(shù)檢測裝置、礦用本安型激光指向儀、脈沖氣壓噴霧水槍、音頻生命探測儀、視頻生命探測儀、音視頻生命探測儀、雷達(dá)生命探測儀、特種作業(yè)機器人、偵測無人機、安全監(jiān)管移動手持終端、遠(yuǎn)距離災(zāi)區(qū)環(huán)境偵測系統(tǒng)、災(zāi)區(qū)無線音視頻通訊裝置、防爆探照燈、防爆對講機、防爆型計時器、紅外夜視儀、便攜式煙氣分析儀、礦用機械風(fēng)速表等。
公司產(chǎn)品以每年30%的速度遞增。
北京天創(chuàng)萬安第一個研發(fā)出防爆型計時器的廠家;
北京天創(chuàng)萬安第一個研發(fā)出超遠(yuǎn)距離遙控破胎器的廠家;
北京天創(chuàng)萬安第一個研發(fā)出超級靜音電鉆的廠家;
北京天創(chuàng)萬安第一個研發(fā)出超級穿墻雷達(dá)的廠家;
企業(yè)使命:讓生命更安全 讓生產(chǎn)更安全 讓生活更安全
企業(yè)精神:質(zhì)量第一 服務(wù)至上 真誠溝通 奉獻(xiàn)社會
企業(yè)宗旨:為客戶解決實際問題,以客戶需求為導(dǎo)向


